JPH1069296A

JPH1069296A - 音声信号から特徴値を抽出する方法

Info

Publication number: JPH1069296A
Application number: JP9104632A
Authority: JP
Inventors: Lutz Welling; ウェリングルッツ; Hermann Prof Dr Ney; ネイヘルマン
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1996-04-23
Filing date: 1997-04-22
Publication date: 1998-03-10
Also published as: CN1167308A; KR970071463A; EP0803861A2; DE19616103A1; DE59709419D1; US6041296A; CN1120468C; KR100422266B1; EP0803861B1; EP0803861A3

Abstract

(57)【要約】（修正有）【課題】フォルマント周波数またはこれらフォルマン
ト周波数を示す特徴値を信頼性をもって少数の計算によ
り音声信号から決め、実時間処理を可能とする。【解決手段】フォルマント周波数は離散周波数により
パワー密度スペクトルを形成して決め、このスペクトル
からその連続周波数セグメントに対して自己相関係数を
形成し、これにより形成したエラー値の和は全てのセグ
メントに対し最小とし、セグメントの最適境界周波数を
この最小値に対して決める。自己相関係数から計算した
予測値係数からフォルマント周波数を計算する。個別の
セグメントに対するエラー値の和の最小値をダイナミッ
クプログラミングにより見いだし、このプログラミング
では最初前記スペクトルから補助値を計算しテーブルと
して記憶し、該テーブルからダイナミックプログラミン
グ処理で計算に必要な個別の周波数セグメントに対し自
己相関係数を決める。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は本発明は音声信号処理、
特に音声認識およびおよび出力の分野に関するものであ
る。

【０００２】

【従来の技術】音声出力においては、個別の短い音声セ
グメントが発生し、これにより自然音声にでる表現に最
も近似する音声信号を時系列的に発生する。個別の音声
セグメントを発生するためには、音声セグメントをでき
るだけ正確にモデル化する最小数のパラメータを用いる
必要がある。これらのパラメータは異なる音を発生する
ために一般に異なる帯域幅の種々の共鳴周波数を有する
自然音声トラックに基づくものである。音声信号の共鳴
周波数はフォルマント周波数と称され、その表示および
帯域幅は種々の音を発生するに充分である。これらのパ
ラメータは自然の音声信号から有利に得ることができ
る。

【０００３】

【発明が解決しようとする課題】しかし、自然の音声信
号からこれらのパラメータを得ることは音声認識にも用
いることができる。この場合には、音声信号を短い周期
に分割するとともに特徴値は各周期から抽出するととも
にこれを所定の音に相当する基準値と比較する。この比
較の結果をさらに処理することによってどの表現が最も
確率的に生じたかを決定することができる。特徴値は例
えば順次の周波数セグメントのエネルギーとすることが
できる。しかし、フォルマント周波数を特徴値として用
いる場合には良好な結果を得ることもできる。これらの
周波数を用いる場合には実際に発生された表現が認識に
用いられる基準値から多数変位することを考慮に入れる
ことができる。

【０００４】本発明の目的はフォルマント周波数または
これらフォルマント周波数を示す特徴値を信頼性をもっ
て比較的少数の計算により音声信号から決め得るように
し、本質的に実時間処理が可能となるようにした音声信
号から特徴値を抽出する方法を提供せんとするにある。

【０００５】

【課題を解決するための手段】この目的を達成するため
に、本発明によれば、音声信号の連続周期の離散周波数
からパワー密度スペクトルを形成する。パワー密度スペ
クトルの所定の第１数の連続セグメントに対し、これら
周期の各々に最初の３つの自己相関係数を形成する。こ
の目的のために、これらセグメントの境界周波数を決め
り必要があり、これらはセグメントの数に対応する多数
のフォルマント周波数を有するモデル関数による概算値
とするのが最適である。境界周波数を決めるために、各
セグメントの自己相関係数からエラー値を形成し、全て
のセグメントのエラー値を加算し、エラー値の和の最小
値および関連する最適境界周波数が決まるまで、セグメ
ント間の種々の異なる境界周波数に対して自己相関係数
およびエラー値の形成を繰返す。最後に各セグメントに
対して最適の境界周波数を有するセグメントの自己相関
係数から少なくとも１つの特徴値を抽出する。これら特
徴値は自己相関係数または共鳴周波数および可能には予
測係数から再び明瞭に発生する帯域幅から直接決まり得
る予測係数とすることができる。

【０００６】

【作用】パワー密度スペクトルの所定周波数セグメント
に対し自己相関係数を直接形成するにはある計算が必要
となる。本発明の一例によれば、パワー密度スペクトル
からかかる自己相関係数を形成する簡単なモードは各周
期に対しパワー密度スペクトルから一群の補助値を決定
し、この補助値が最低の周波数から所定の高い周波数ま
での自己相関係数を表わすようにする。これらの補助値
をテーブルに記憶するとともに各高い周波数に関連させ
る。従って所定の周波数セグメントに対する自己相関係
数は上記テーブルの２つの値間の差から決まる。この後
者の処理は簡単な計算を必要とするのみであるが、上記
テーブルはある境界計算時間で各周期ごとに一回だけ決
めるようにする。

【０００７】エラー値の和が最小となる最適境界周波数
は本質的にはダイナミックプログラミングの原理に従っ
て決める。この目的のため、最低の周波数からある高い
周波数までの周波数セグメントを所定数のセグメントに
最適に分割する際のエラー値を表わす他の補助値を用い
る。これがため、高い周波数を２つの周波数間隔に分割
し、ステップ状の間隔境界が全ての周波数であるものと
し、この補助値がセグメントの前の境界で達成された補
助値と前記間隔境界および瞬時高周波数間の範囲に対す
るエラー値との和よりも大きい場合には新たなエラー値
をこの和の値に設定すると同時に関連する間隔境界を記
憶する。この処理を最大周波数までの全ての高い周波数
に対して行う場合には、トレースバックによって絶対的
に最適なセグメント境界を得ることができる。

【０００８】

【実施例】音声出力にしばしば用いられる音声合成にお
いて、周波数および振幅が生成すべき音に従って調整さ
れる多数の共鳴器に励起信号を供給する。共鳴器を調整
するこれらパラメータを自然音声信号から得ることがで
きる。自然音声信号から得られたかかるパラメータはこ
れらパラメータ値を比較値と比較する音声認識に対して
用いることもできる。

【０００９】本発明によれば、パラメータ、特にフォル
マント周波数は離散周波数によりパワー密度スペクトル
を形成することによって決め、このパワー密度スペクト
ルからその連続周波数セグメントに対して自己相関係数
を形成し、これによりエラー値を形成するが、エラー値
の和は全てのセグメントに対して最小とし、これらセグ
メントの最適境界周波数をこの最小値に対して決める。
自己相関係数によってＬＰＣ予測値係数を計算すること
ができ、これら予測値係数からフォルマント周波数を計
算する。個別のセグメントに対するエラー値の和の最小
値をダイナミックプログラミングによって見いだし、こ
のダイナミックプログラミングではまず最初パワー密度
スペクトルから補助値を計算しテーブルとして記憶し、
このテーブルからダイナミックプログラミング処理で計
算に必要な個別の周波数セグメントに対して自己相関係
数を容易に決めることができる。

【００１０】本発明方法は次式で示すように数学的に処
理することができる。出発点をＬＰＣ予測値多項式とす
る。

【数１】予測値の係数をα_kおよびβ_kとすると、これら係数か
らフォルマント周波数φ _kは次式のように表わすことが
できる。

【数２】

【００１１】フォルマント周波数の数Ｋを決めるため
に、周波数スペクトルをＫ個のセグメントに分割する必
要があり、このセグメントでは、これに対する境界周波
数を適宜選択して所定の短時間パワー密度スペクトル

【外１】に対するエラー値が最小となるようにする。L.Rabiner,
R.-W.Schafer 著“Digital Processing of Speech Sig
nals",Prentice Kall, Englewood Cliffs, NJ, 1978,に
よれば、この最小エラー値から次式を導出することがで
きる。

【数３】上式において、ｒ_k（ｎ）はｎ＝０，１，２の際セグメ
ントｋの自己相関係数である。これら自己相関係数は音
声信号のパワー密度スペクトルから計算することができ
る。境界周波数ω_k-1およびω_kを有する１つのセグメ
ントに対する最小エラー値は次式のように表わすことが
できる。

【数４】

【００１２】全てのセグメントに対する最適な境界周波
数を決めるためには、全てのセグメントに対するエラー
値の和が最小となるようにする必要がある。この最小値
を計算するためには、パワー密度スペクトルの種々の異
なる周波数セグメントに対し自己相関係数を用いる必要
がある。この計算を簡単化するためには次式で示すよう
な補助値Ｔ(n,i) を導入する。

【数５】ここにｎ＝０, １, ２およびｉ＝０, １,・・・，２Ｉは離
散周波数のシーケンスとする。これがため、この補助
値は独立値としての周波数ｉを有するテーブルの形態に
記憶する。単一セグメントに対する自己相関係数は次式
に示すようにこのテーブルからテーブル中の２つの値間
の差によって決めることができる。

【数６】

【００１３】２つのテーブル値を用いその差を形成する
には極めて短い時間を必要とするのみであり、従って最
小エラーの和を決めるにはこれによって著しい悪影響を
うけることはない。最小エラーの和は本質的にはダイ
ナミックプログラミングの原理に従って決める。この目
的のためには周波数間隔１−ｉをｋ個のセグメントに最
適に分割する際のエラーを示す補助値Ｆ(k,i) を導入す
る。周波数間隔１−ｉを２つの周波数間隔１−ｊおよび
ｊ＋１−ｉに細分割するため、および補助値Ｆ(k,i) が
一種のエラー値を表わし、最小とする必要があることを
考慮することにより、ダイナミックプログラミングの反
復（再現）関係を得ることができる。

【数７】

【００１４】この関係は周波数間隔１−ｊを（ｋ−１）
セグメントに最良に細分割することを用いて周波数間隔
１−ｊをｋ個のセグメントに細分割することを決めるよ
うにする。

【００１５】ダイナミックプログラミングを用い最小エ
ラー和を有するセグメントの最適境界周波数を決める全
手順を図に示す。この手順は、所定時間周期に対し音声
信号からパワー密度スペクトル決めた後、および種々の
異なる周波数セグメントに対する自己相関係数を決める
上記テーブルの値を計算した後に開始するとともに図の
予め示される境界内で種々の値ｊおよびｉに対する個別
のエラー値Ｅ_min(j+1,i) をまず最初決定する。最小エ
ラー値のこの決定はα_k ^optおよびβ_k ^optがｒ_k(n）
によってのみ表わされる前述した関係によって達成する
とともに記憶される値のマトリックスを形成する。周波
数ｉ，セグメントｋおよび細分割周波数ｊを経る次のル
ープでは、補助値が間隔境界ｊまでの前のセグメントに
対する補助値と間隔の残りの部分に対するエラーとの和
よりも大きい場合には補助値Ｆ(k,i) を常時細分割する
一方バックワードインジケータＢ(k,i) はその都度記憶
する。最高周波数Ｉまでの全てのループが実行される場
合には、各セグメントに対する最適境界周波数はこれら
バックワードインジケータのトレースバックによって読
取るとともに予測係数α_kおよびβ_kはこれら最適境界
周波数の自己相関係数から計算し、これら最適境界周波
数から個別のセグメントに対するフォルマント周波数を
計算することができる。

【００１６】この手順は順次の時間周期の各々に対し繰
返す必要があり、従ってフォルマント周波数の時間シー
ケンスは音声信号から得られる。

【図面の簡単な説明】

【図１】本発明方法を実施するための説明図である。

【符号の説明】

α_k, β_k予測係数Ｆ(k,i) 補助値Ｂ(k,i) バックワードインジケータ

Claims

【特許請求の範囲】

【請求項１】音声信号から特徴値を抽出するに当た
り：音声信号の時間周期の離散周波数からパワー密度ス
ペクトルを形成し；パワー密度スペクトルの連続セグメ
ントの所定の第１数Ｋに対し最初の３つの自己相関係数
を形成し；各セグメントの自己相関係数からエラー値を
形成するとともに全てのセグメントのエラー値を加算
し；セグメント間の種々の異なる境界周波数に対して自
己相関係数およびエラー値の形成を繰返すとともにし；
エラー値の和が最小となる最適の境界周波数を決定し；
最適境界周波数のセグメントの自己相関係数から各セグ
メントに対する少なくとも１つの特徴値を抽出するよう
にしたことを特徴とする音声信号から特徴値を抽出する
方法。
【請求項２】各時間周期に対し、最低周波数から出発
して連続する高い周波数までパワー密度スペクトルの一
部分の補助値の数を決定するとともにテーブルとして記
憶し、且つ自己相関係数が上記テーブルの値間の差から
のプログラミング中に決まるようにしたことを特徴とす
る請求項１に記載の音声信号から特徴値を抽出する方
法。
【請求項３】前記エラー値の和の最小値はダイナミッ
クプログラミングの方法に従って決定し、２つのセグメ
ントへの最適な分割は連続離散周波数に対し最低周波数
からこの連続離散周波数の実際の周波数までセグメント
を分割する最小エラーを示すダイナミック補助値を用い
ることによって順次決定し、最低周波数および実際の周
波数間の種々の異なる境界周波数に対しこの境界周波数
の補助値と境界周波数および実際の周波数間のセグメン
トに対するエラー値との和の最小値を決定し、この僅か
を新たな補助値として用いるようにしたことを特徴とす
る請求項１または２に記載の音声信号から特徴値を抽出
する方法。