JPH05143098A

JPH05143098A - スペクトル分析のための方法及び装置

Info

Publication number: JPH05143098A
Application number: JP1791791A
Authority: JP
Inventors: Nicholas Holmes John; ジヨン・ニコラス・ホームズ
Original assignee: British Technology Group Ltd
Current assignee: BTG International Ltd
Priority date: 1990-02-08
Filing date: 1991-02-08
Publication date: 1993-06-11
Also published as: EP0441642A3; GB2240867A; GB9002852D0; EP0441642A2

Abstract

(57)【要約】（修正有）【構成】経時変化する値を有する第１の信号の短期的
な特性特徴を決定するための方法で、第１の信号をろ波
２して複数の周波数帯域の１つに各々存在する第１の経
時変化信号を得る段階と、周波数の近似指示値において
それぞれの周波数帯域のパワー分布のセントロイドが特
性特徴として生ずる近似指示値を決定する段階と、を備
え、この段階が各周波数帯域に対して、時間領域の帯域
に対して第２の信号の全パワーを決定して第１のパワー
値を提供する段階と、該帯域に対する第２の信号の周波
数成分にスペクトル的な重りづけを行う段階と、時間領
域においてスペクトル的に重りづけされた信号の全パワ
ーを決定して第２のパワー値を提供する段階と、第２の
パワー値を第１のパワー値で除して該帯域のセントロイ
ドの周波数の指示値を提供する段階とにより行われる方
法が提供される。【効果】音声のスペクトル分析のためのもので、音声
を記憶する音声符号化に有効である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はスペクトル分析、特に音
声において生ずる音のスペクトル分析、のための方法及
び装置に関する。そのような分析は例えば自動音声認識
および帯域幅を減少したり音声を記憶するための音声符
号化においてその用途がある。

【０００２】

【従来技術およびその問題点】通常、自動音声認識にお
いては音声符号の予備的な音響分析を行って一定間隔
（一般的に１０〜３０ミリ秒の範囲）でのスペクトラム
形状の特性から理解をする。そこから得たひととおりの
測定値は特性ベクトルと呼ぶことが多い。そしてこの中
の各特性ベクトルが一般的に５〜２０の特性を含む可能
性があり、特性の数は採用した分析方法により異なる。
音声符号（フォルマント）における主の短期出力濃度の
周波数及び強度とそれに付随した音声音響の音声認識と
相互的な関連性はかなり高いものであるということはよ
く知られている。音声スペクトラムの最も重要な部分内
でおこる少数のフォルマントの周波数及び強度は音声認
識にとって有益な特徴である。しかし、次のような不便
な点もある。すなわち、フォルマントの定義づけには母
音が最良であるが、分光分析による音声符号の調査は明
確なフォルマントを示すことができない場合が頻繁にあ
るということである。それは特に鼻音化の部分とかなり
弱い母音の部分と子音の割合が多い部分で現れる。従っ
てこれらの扱いにくい音響の部分では粗フォルマントの
周波数を測定するようなアルゴリズム（算法）を考案す
るのが難しいということは周知の事実なのである。既に
発表されているアルゴリズムで最も信頼できるものを用
いるにはかなりの計算量を要する。

【０００３】本発明の重要な目的は望ましいフォルマン
ト特性のほとんどを有する特性のひととおりを提供する
ことであるが、それだけでなく通常のフォルマント定義
には不適当と思われる音響にさえも音声上重要な情報を
提供することでもある。更にこれらの特性を容易に計算
するための方法及び装置を提供することも目的とする。

【０００４】

【課題を解決するための手段】本発明の第一の面によっ
て音声認識に使用可能な方法として音声符号の最初の代
表符号の短期的特徴を決定する方法が提供される。この
方法は次のような段階から構成される。すなわち、最初
の符号をろ波し、複数の周波数帯のそれぞれに時変第二
符号をひとつずつ得て、前述の周波数帯において配電に
対して代表周波数のセントロイドが特性として生じるよ
うな周波数のおおよその表示少なくとも決定する。

【０００５】そして上記のセントロイドが測定されるよ
うな周波数帯における出力ももう一つの特性として決定
されるのが望ましい。

【０００６】音声音響に適用される際に最初の符号は音
声音響の代表する電気符号とみなされる。更に時変符号
を得るためのフィルタリングは電気的フィルタリングで
ある。この電気的フィルタリングは例えば、個別部品か
ら構成されるフィルターやあるいはマイクロプロセッサ
ーといったようなコンピューターを使用してのデジタル
フィルターによって実施される。下記で説明されている
本発明の実施例は数字化したサンプル値データ符号に適
用されるデジタル計算に関するものであるが、本発明は
デジタル計算の代わりにアナログ技術によっても実施さ
れ得る。

【０００７】配電のセントロイドを計算する標準的方法
は二つの積分の比率をとることである。配電が図式で表
される場合は、この比率の分子は縦座標と横座標との積
の積分である一方、分母は縦座標の積分である。スペク
トラル分析にとっては、これらの数量が周波数領域での
測定値のことを指す。すなわち、分母の積分は符号分析
中の合計出力であり、これは時間領域においても周波数
領域においても同様であるので符号の波形サンプルの二
乗を合計すれば時間領域で計算することができる。分子
は、各スペクトラル成分を周波数に比例した数量で乗じ
た後のスペクトラム成分全ての出力合計を表している。
その周波数の平方根で各スペクトラム成分の振幅を量
り、振幅を量ったスペクトラム成分全ての二乗を合計す
れば必要とされている分子が算出されであろう。このよ
うに波形サンプルをフィルターに通すことによって分子
はまた時間領域においても計算が可能なのである。そし
てこのフィルター利得は関連した周波数帯に対する周波
数の平方根に比例しており、また、ろ波した波形サンプ
ルを二乗し合計したものに比例している。フィルター利
得は１オクターブにつき３デシベルの正の勾配を特性と
して要し、標準的なフィルターデザインの方法を使用し
て中階数のサンプルデータフィルターによってかなり正
確な数値を得ることができる。各周波数帯の出力は分母
の積分により算出される。

【０００８】このように本発明の第一の面では、セント
ロイドが生じるような周波数に少なくとも近似した値を
決める段階は次のようなことから構成される。

【０００９】すなわち、フィルターアウトプットで時変
符号サンプルの二乗を合計して分母を算出する。この分
母がフィルターアウトプットの出力を示す。

【００１０】１オクターブにつき３デシベルの周波数に
少なくとも近似した値をサンプルに適用する。

【００１１】分子を算出するために合成サンプルの二乗
を合計し、セントロイドの周波数を示すために分子を分
母で割る。

【００１２】本発明はまた、第一の面を実施するための
装置を備えており、時間領域で符号からセントロイドが
生じるような周波数を発見する方法が一般的その実施方
法として適用可能である。従って本発明の第二の面では
時変値を有する第一の符号の短期的特性を決める方法を
提供する。そしてこの方法は次のような段階から構成さ
れている。すなわち、複数の周波数帯のそれぞれにおい
て第二の時変符号をひとつずつ得るように第一の符号を
ろ波する。また、前述の周波数帯において配電に対して
各周波数のセントロイドが生じるような周波数を少なく
とも正確なものに近似した値を各周波数による特性ある
いは各周波数にとっての特性として決める。

【００１３】最初の出力値を算出するために時間領域で
の周波数帯にとっての第二符号の出力合計を決める。

【００１４】その周波数帯にとっての第二符号の周波数
成分にスペクトラル測定量を適用する。

【００１５】第二の出力値を算出するために時間領域で
のスペクトラル上測定された符号の合計出力を決める。

【００１６】周波数帯のセントロイドの周波数を算出す
るために第二の出力値を最初の出力値で割る。

【００１７】本発明の第三の面では時変値を有する符号
の短期的特性を決めるための装置を提供している。そし
てこの装置は二つの手段から構成される。すなわち、時
変値を有する最初の符号をろ波して複数の周波数帯のそ
れぞれにひとつづつ第二の時変符号を得るという手段。

【００１８】前述の周波数帯において配電に対する周波
数のセントロイドが生じるような周波数の少なくとも正
確なものに近似した表示を特性として決めるための手
段。具体的には下記のとおりである。すなわち、最初の
出力値を算出するために時間領域において周波数帯にと
っての第二の符号の出力合計を決める。

【００１９】周波数帯にとっての第二の符号の周波数成
分にスペクトラル測定を適用する。

【００２０】第二の出力値を算出するために時間領域で
スペクトラル上で測定した符号の出力合計を決め、周波
数帯のセントロイドの周波数を算出するために第一の出
力値で第二の出力値を割る。

【００２１】本発明の第二及び第三の面においてスペク
トラルの測定は１オクターブにつき３デシベルに少なく
とも近似した値になり得る。

【００２２】１オクターブにつき３デシベルが測定され
る周波数を適用するフィルターを使用する代わりにフィ
ルターからの符号は識別することが可能である。これは
よく知られているように１オクターブにつき６デシベル
の増加を適用するのに相当する。以前のサンプルから各
サンプルを減じることによってサンプルによって示され
た波形上で識別に対する近似値が出す場合その増加は低
周波数で１オクターブにつき約６デシベルであり、半標
本化定格周波数に到達するにつれてゼロ勾配へと次第に
下がってゆく。１オクターブにつき３デシベルの理想的
な勾配からの変動値の影響は２つある。まず第一に周波
数がスペクトラル最高時よりも高い時及び低い時の符号
はセントロイド計算において正しい相対荷重を得られな
いということである。しかしこれらの成分は標準的には
スペクトラル最高時に近い成分よりもはるかに弱いた
め、測定された最高時の周波数にとってこの誤差はほと
んど問題ではない。測定されている符号が純粋な正弦で
あれば、この原因から誤差が生じることはない。第二
に、計算されたパワーの比率はもはやスペクトラル最高
時の周波数に線形上では関連がなくなるであろうという
ことである。測定値は参照用予備計算テーブルによって
線形周波数に変換可能であるため、非線形であっても問
題は生じない。識別操作の周波数領域勾配がゼロになる
傾向がある半サンプリング比に周波数が接近した場合に
は、周波数変化に対する感度がほとんどなくなるであろ
う。故にこの方法はこの範囲で使用するのに適切ではな
いが。しかし、周波数範囲の上半分で測定する前に符号
をスペクトラルでインバートさせることによって識別が
有効なゼロまで高周波数がさげられてこの問題を避ける
ことができる。

【００２３】音声識別及び音声符号化を適用により、次
の３つの低いフォルマントの範囲にほぼ相当する帯域フ
ィルターであればどんなフィルターでも使用して時変符
号のろ波を行うことができる。３つの低いフォルマント
とはすなわち、それぞれ大体、２５０〜９００ヘルツと
７００〜３，０００ヘルツと、１，８００〜３，５００
ヘルツである。しかし、後に説明されているように、フ
ィルター特性を多少成形したほうが望ましい。これは特
性の重なりの部分で２つのフォルマントが生じた場合に
この２つを別々に離すためである。持続時間の短い符号
のスペクトラム測定が行われる際、符号分析の時間に符
号波形整形と正確なポイントとの関連性によって合成ス
ペクトラムにおいて誤差が生じるということは符合処理
理論でよく知られている。これらの終端効果を減らす通
常の方法は、「ウィンドウ」として知られている平滑時
間機能によって符号を乗じるというものである。このウ
ィンドウは分析期間終わりに近付いた符号の部分を減衰
させる。これと同様の考えはセントロイド測定によるス
ペクトラル分析に適用され、それによってセントロイド
測定前に符号にウィンドウが施される場合、より一貫性
のある結果が得られる。このように、各フィルターの出
力時にタイムウィンドウは帯限定符号に適用可能であ
る。そしてこれに続いて「１オクターブにつき３デシベ
ルの」フィルタリング及びウィンドウ後の出力持続期間
全体に適用される加算操作が実施可能である。有限イン
パルス応答「１オクターブにつき３デシベルの」フィル
ターの使用により、この過程の正確度は確実なものとな
り得る。そのため、一度インパルス応答持続期間を過ぎ
てしまえば出力はちょうどゼロになるということが知ら
れている。

【００２４】なぜ音声認識においてパワーのセントロイ
ドが特徴としてかなり機能するのかということの理由を
略式の説明をこれから行う。どんなフォルマント最高時
の強度も通常、そのフォルマントに割り振られた帯域内
のどこかほかの場所でスペクトラル強度を越える数デシ
ベルである。フォルマントから離れたパワースペクトラ
ル密度が例えばほぼフォルマント最高時の数値を下回る
１４デシベル（これはかなり標準的な数値である）であ
れば、この数値は２５のパワー率を示すであろう。すな
わち、たとえフィルターでおおわれた帯域の残りがほぼ
フォルマント最高時に強度の高い部分の帯域の５倍の広
さであっても、それはまだパワー全体の１／５にしかな
らないためセントロイドをそれほど妨害することはない
であろう。かなりの程度までそのような妨害はどんな場
合にも系統的なものであり、常にフォルマント推定値を
帯域フィルターの中心に幾分偏らせている。そのような
系統的変化はどんなものでもその後非線形機能をフォル
マント測定に適用させることによって修正することがで
きる。しかし、同様の系統的効果がパターンマッチング
認識装置の訓練過程で同様に適用されるので、実際には
どんな種類の認識装置にとってもそれは重要なことでは
ない。最大周波数を直接測定する代わりにセントロイド
を使用する利点は、スペクトラル最高点が明確に定義さ
れない時でさえ常に明確な結果が得られるであろうとい
うことである。認識アルゴリズム（算法）においてパタ
ーンマッチング処理用パターンを設定するのにこれと同
様の分析方法を使用するとすれば測定値が必ずしもフォ
ルマントに相当しないという事実は重要でない。

【００２５】

【実施例】マイクロフォンからの音声信号は８ｋＨｚで
サンプリングする適宜なＡ−Ｄ変換器によって直線的な
デジタル表現に変換される。予備的な音声スペクトル整
形及び利得制御が設けられ、これによりＡ−Ｄ変換シス
テムの全領域が用いられると共に信号の高周波数成分と
低周波数成分との間に良好な平均的な平衡が存在する。
整形及び利得制御はまた、通常は音声の発声の間に第１
フォルマントの周波数よりも下で生ずる低周波数のプロ
ミネンスを減衰するようになされている。

【００２６】Ａ−Ｄ変換システムの出力は、デジタル信
号プロセッサ（ＤＳＰ）集積回路あるいはマイクロプロ
セッサ等のコンピュータに接続されており、このコンピ
ュータは音声認識においてセントロイドに基づく特徴抽
出に加えて認識アルゴリズムを実行する。一般的なアル
ゴリズム（図１参照）が最初に記載され、次に８ビット
マイクロプロセッサに用いられるより特殊なアルゴリズ
ムが記載される。Ａ−ＤＳＰ）変換システムの出力にお
いてサンプリングされた信号は所定の数のサンプルを各
々有するフレームに分割される。図１の演算において、
例えば２乃至３０ｍｓの継続時間の各フレームの一部が
選定されるが、セントロイド測定プロセスのために十分
な計算力が可能であれば、上記継続時間はより長い（１
フレーム全体でも良い）のが好ましい。演算１からのサ
ンプルは演算２において３つの通過帯域にデジタル的に
ろ波され、これにより３つの最も低いフォルマントに関
する３つのサンプル群が得られる。図１はこれらフォル
マントの１つだけの処理を示しており、したがって完全
な分析アルゴリズムにおいては図１の演算及びこれに続
く図２の演算のすべてが他の２つのフォルマントに対し
て繰り返される。

【００２７】演算２のフォルマントろ波は適宜な方法で
行うことができる。フィルタに対する通過帯域は既に説
明したが、ある種の発声音に対しては時として２つのフ
ォルマントが非常に近接して動き２つのフィルタの通過
帯域の中に入ることがある。２つのフォルマントが接近
している時には、これらフォルマントは通常近似的に等
しい強度を有することは音響理論の結果であり、それ故
に、これらの場合におけるセントロイドの測定は、必要
とされた１つのフォルマントの代わりに上記帯域中のフ
ォルマントの２つの周波数の平均値を与える。この誤差
は、フォルマント帯域フィルタが重なり合う領域におい
て例えば１００Ｈｚ当たり３ｄＢの傾斜特性を有するよ
うに設計されていれば、かなり減少する。２つのフィル
タが約３００Ｈｚよりも接近することは希であるために
これらの相対的な強度は非常に異なり、従って各帯域に
おいてより弱いフォルマントはセントロイドの計算にほ
とんど寄与しない。フォルマント強度の測定において生
ずる誤差は、フィルタ特性の逆数を強度結果に測定周波
数の関数として付与することによって、修正される。

【００２８】前述のように、短い継続時間信号のスペク
トル測定を行うときには、分析期間の終了点に近い信号
のこれらの部分を減衰するウインドを与えることが望ま
しい。このプロセスは演算３において実行され、この演
算においては、フォルマントフィルタ選択の出力におけ
るサンプルに生ずる時間間隔にわたって図２の特性を乗
ずる。

【００２９】選択されたフィルタ帯域のセントロイドの
周波数を見い出す次のステップはウインドの出力におけ
る信号の全パワーを測定することである。時間領域にお
いてこの信号は一般に図３に示す通りであり、周波数領
域において図４の分布を有している。図１の演算４乃至
７は既に説明した時間領域信号から分母及び分子を見い
出す目的を有している。分母は図３の波形におけるパワ
ーであり、分子は１オクターブ当たり３ｄＢの正の勾配
を有する利得特性の形態のスペクトル重みづけを図３の
波形を有するサンプルに付与し（演算５）、結果として
生じた波形における全パワーを測定し（演算６）、そし
て演算６の出力を演算４の出力で除してセントロイドの
周波数を表すパワー比（演算７）を誘導することにより
見い出される。

【００３０】演算８において、演算７からのパワー比に
スケールファクタを乗じてフォルマント周波数に変換
し、また演算９において演算４からの未ろ波のパワーの
目盛り対数を計算してフォルマント強度をｄＢで表現す
る。

【００３１】次に本発明の８ビットマイクロプロセッサ
の使用を説明する。以下に説明する技術が特性抽出の際
の乗算及び除算を単純化するために用いられるか、ある
いは非常に効率的な演算技法（本発明は関与しない）を
認識のために用いられる場合には、例えば４ＭＨｚで作
動するタイプ６５０２を用いてかなり小さな認識ボキャ
ブラリを有する連続的な音声の認識を行うことができ
る。

【００３２】８ビットマイクロプロセッサおよび８ｋＨ
ｚのサンプリングに対して、入力信号は２５６サンプル
を有するフレーム、すなわち１秒当たり３１．２５のフ
レーム、に分割される。しかしながら、そのようなマイ
クロプロセッサの計算力の制約はフォルマントセントロ
イドを決定する詳細な分析は各フレームの選択された部
分に対して実行可能なことを意味する。

【００３３】８ビットマイクロプロセッサに適用された
図１の演算の目的は、波形のこの部分が分析すべき信号
の高い強度部分を有することを確認することである（例
えば、発声音に対する声門閉鎖音のすぐ後に停止音そし
てより強い摩擦音の部分）。マイクロプロセッサのプロ
グラムは最初にフレームの中のすべてのサンプル値をこ
のフレームの中で以前に見い出した最大サンプルと比較
し、これによりフレームにおける最大サンプルを決定す
る（演算１１、図５）。最大サンプルを見い出すと、こ
の最大サンプルを含む２０のサンプル部分をテストして
そのような部分のいずれが最大パワーを有するかを判定
する（演算１２）。２０サンプルのウインドの始点は最
大振幅点の前に２０サンプルにわたって動かされる。始
点を設定すると、次の２０サンプルにおけるパワーが付
加され、最も初期のパワーが繰り返し破棄されると共
に、ウインドが２０サンプルにより動かされるまで新し
いサンプルのパワーが付加される。この移動が進行して
いる間に、ウインドの中のパワーの最大値がこれが生じ
たサンプルインデックスと共に記憶される。８ビットサ
ンプルは平方すると１６ビットレンジを必要とするた
め、このパワーの積分におけるダイナミックレンジに潜
在的な問題がある。また平方演算を直接行う時間が可能
ではない。これらの問題は、ルックアップ表を用いて適
宜な平方値の目盛りバージョンを与えると共に以前に決
定されたウインドの最大値にしたがって５つの異なった
目盛りの表の１つを選定することにより解消される。平
方値の総和の実際値は必要ではなく、それが生じたサン
プルインデックスが必要なのであり、この目盛りを補償
は後に必要とされることはない。

【００３４】２０サンプルよりも長い間隔が分析に必要
とされ、２０サンプル部分から開始する５０サンプルが
演算１３における分析のために選定される。

【００３５】８ビットマイクロプロセッサを最も良く用
いるために、演算１４が実行され、この演算において
は、各サンプルに２の最大パワーを乗じずる。この最大
パワーは５０のサンプルのいずれをも−１２８から＋１
２７のレンジを越えさせない。

【００３６】８ビットマイクロプロセッサに対して、フ
ォルマント帯に対する分離のための演算ろ波を単純な有
限インパルス応答（ＦＩＲ）部分の縦続接続を用いて行
うことができ、これらの部分は１又は多くは２つの乗算
および加算演算を有している。各部分において、信号遅
れが１又は２のサンプル周期となり、あるいはこれら数
の自然数倍となる。１つのフィルタ部分における２又は
それ以上のサンプル周期の遅れは伝達関数における複数
の組みの０を意味し、従って計算負荷を大きく増加する
ことなく高階数のろ波を達成することができる。通常の
乗算を行う必要を排除するために、ろ波係数を例えば＋
１，−１，０．５，１．７５等の値を有するように選択
することができる。これらの値は多くは非常に小さな数
のシフト及び加減演算により履行することができる。例
えば、最初のフォルマントろ波のためのろ波伝達関数
は：（１−Ｚ^-6）（１＋Ｚ^-2）（１＋Ｚ^-1）（１＋Ｚ^-1）で
あり、一方第２フォルマントろ波に対する伝達関数は：（１−Ｚ^-3）（１−Ｚ^-3）（１＋Ｚ^-2＋Ｚ^-4）（１＋
１．７５Ｚ^-2＋Ｚ^-4）（０．５＋Ｚ^-2）で示され、ここ
において、Ｚ^-1はあるサンプル間隔の遅れを示してい
る。

【００３７】同様の原理が第３のフォルマントのろ波の
設計に用いられる。一般に計算の経済性のために、部分
の伝達関数の倍係数は±２ⁿ（１±２^-m）の形態を有す
るように選定され、ここにおいて、ｎおよびｍは自然数
であり、０≦ｍ≦３、また−１≦ｎ≦１である。

【００３８】そのような単純なフィルタを用いるとより
一般的なＦＩＲデザインにより達成されるような良好な
フォルマント分離が行われないが、計算の制約の範囲内
で平坦なろ波特性を設計する困難性が、ろ波が上述の如
き帯域の重複領域における勾配を本質的に提供すること
を確実にする。各通過帯域の主要な部分における平坦な
応答がないことにより生ずる強度特性における誤差は、
必要であれば、周波数測定の結果によってルックアップ
表を付与することにより修正することができる。

【００３９】図１の演算を示す図６において、各サンプ
ルは第１のフォルマントを分離するために図示のアルゴ
リズムにより処理される。第２および第３のフォルマン
トを選択するために同様のアルゴリズムが必要とされ
が、異なった伝達関数が用いられる。第１に、演算１６
においてサンプル数が０に初期化され、次に適宜な全体
伝達関数が演算１７乃至２０の伝達関数を順に付与する
ことにより達成される。

【００４０】第２及び第３のフォルマントのために、図
２のウインドイングの適宜なバージョンが、各測定間隔
における最初及び最後のサンプルの強度を単純に半分に
することにより、実行される。これは各ケースにおいて
単一のシフト作用を必要とする。しかしながら、第１の
フォルマントに対しては、測定間隔の中でのフォルマン
ト周波数のサイクルは１又は２であり、そのような単純
な技法は最終結果から重大な誤差を排除するためには十
分ではない。図６の演算及びテスト２２−２８により実
行される実際的な他の方法は測定間隔の２つの端部を信
号のゼロ交差として選定し、これにより第１のフォルマ
ントに対して演算２２−２８を図１のウインドニング演
算３と置き換えることにより実行される。最初の１０の
サンプルはゼロ交差検知に関しては無視され１０階数で
ありまた１０のサンプルの最大遅れを用いる第１のフォ
ルマントフィルタの初期トランジェントを排除する。従
ってテスト２２は演算２３がサンプル数を増加すること
を許容し、もしサンプル数が１０よりも少なければ新し
いサンプルを入力する。サンプル番号が１０よりも多い
とテスト２４が実行されて現在のサンプルの極性が前の
サンプルの極性と反対であるか否かを判定し；反対でな
ければ演算２３が実行されて次のサンプルが採用される
が、もし反対であれば、次にテスト２５が実行されてこ
れが最初のゼロ交差であるか否かを判定する。もし最初
のゼロ交差であれば、次にこのゼロ交差のサンプル番号
が演算２６において記憶され、次いで次のサンプルが採
用されるが、もしゼロ交差でなければ次にテスト２７が
実行されて最初のゼロ交差から２ｍｓより長い時間が経
過しているか否かを判定する。もし２ｍｓよりも小さけ
れば次のサンプルが採用されるが、テスト２７の出力が
正であると演算２８によりサンプリングが停止してこの
最終ゼロ交差のサンプル番号が演算２８において記憶さ
れる。従って、第１のフォルマントに対するろ波演算２
の出力の分析は最初の１０のサンプルの後の最初のゼロ
交差に続く最初のサンプルにのみおこなわれ、上記サン
プルは次の２ｍｓの間に起こり以降の間隔は次のゼロ交
差まで行われる。

【００４１】８ビットマイクロプロセッサのプログラム
に与えられる図１の演算４、５及び６を図７ａ及び図７
ｂを参照してより詳細に説明する。既に述べた理由によ
り、アルゴリズムのこの部分は乗算および除算のために
対数を用いるが、ＤＳＰ集積回路にたいしてはこれらの
演算を直接行うのが極めて一般的である。

【００４２】先ず、図７ａの演算３０が実行され、サン
プル番号が図６の演算２６において記憶された最初のサ
ンプル番号に初期化される。２つの変数ＬＳＵＭＤ及び
ＬＳＵＭＮが次に演算３１においてゼロに初期化され結
局この間隔における全パワーの対数および約３ｄＢ／オ
クターブのろ波の後の全パワーの対数をそれぞれ表す。

【００４３】ＬＳＵＭＤは、真数を用いずに２つの数の
和の対数に対する近似値を見い出すことを含むプロセス
により、決定される。このプロセスは、Ｋｉｎｇｓｂｕ
ｒｙ及びＲａｙｎｅｒによりＥｌｅｃｔｒｏｎｉｃＬ
ｅｔｔｅｒｓ，７，１９７１年の５６乃至５８ページの
「対数演算を用いたデジタルろ波」に記載されていると
共に、本発明者の「音声合成及び認識」と題する本（Ｖ
ａｎＮｏｓｔｒａｎｄＲｅｉｎｈｏｌｄ（ＵＫ）
Ｃｏ．，Ｌｔｄ．により１９８８年に出版）の１４
９乃至１５０ページに記載されている。

【００４４】Ｋｉｎｇｓｂｕｒｙ及びＲａｙｎｅｒは、ｌｏｇ（Ａ＋Ｂ）＝ｌｏｇ（Ａ（１＋Ｂ／Ａ））＝ｌｏ
ｇＡ＋ｌｏｇ（１＋Ｂ／Ａ）、であることを指摘しており、従って２つの数Ａ及びＢの
和の対数を見い出すための彼らのプロセスは以下の通り
となる：（１）もしｌｏｇ（Ｂ）＞ｌｏｇ（Ａ）であれば、ｌｏ
ｇ（Ａ）及びｌｏｇ（Ｂ）を移項し、（２）ｌｏｇ
（Ｂ）−ｌｏｇ（Ａ）を形成してｌｏｇ（Ｂ／Ａ）を見
出し、（３）（２）の結果を用いてルックアップ表から
値を選定し、（４）（３）の結果をｌｏｇ（Ａ）に加え
る。

【００４５】ルックアップ表はｌｏｇ（Ａ／Ｂ）として
入力され、また表の出力はｌｏｇ（１＋Ｂ／Ａ）であ
り、ここにおいて、Ａは２つの値、すなわち現在のサン
プルまで見い出されたパワー及び現在のサンプルの平
方、の中の大きい方であり、またＢは上記２つの値の中
の小さい方である。

【００４６】各サンプルが処理された現在の状態におい
て、このサンプルのパワーに現在のサンプルの値の平方
を加えたものの対数がＫｉｎｇｓｂｕｒｙ及びＲａｙｎ
ｅｒのプロセスにより見い出される。従って、図７ａの
演算において、ルックアップ表を用いてＬＳＳＡＭによ
り指定された現在のサンプルの平方の対数を見い出す。
次にテスト３３及びテスト３４においてＬＳＳＡＭおよ
びこのサンプルまで見い出されたパワーの対数（ＬＳＵ
ＭＤ）の中の大きいほうが見い出される。大きい方をＬ
ＳＵＭＤ、また小さい方をＬＳＳＡＭと定義する。ｌｏ
ｇ（Ｂ／Ａ）を見い出すのと等価の演算３５において、
ＬＳＵＭＤとＬＳＳＡＭとの間の差を見い出し、次いで
定義ｌｏｇ（１＋Ｂ／Ａ）を見い出すためにＫｉｎｇｓ
ｂｕｒｙ及びＲａｙｎｅｒのプロセスのための上述のル
ックアップ表を演算３６において用いる。最後に演算３
７が実行され、これにより、ＬＳＵＭＤをｌｏｇＡ＋ｌ
ｏｇ（１＋Ｂ／Ａ）を見い出すのに等価のルックアップ
表からの結果に加えることにより現在のサンプルを含む
現在のサンプルまでのパワーを与える。

【００４７】図７ｂにおいて、図１の演算５の近似３ｄ
Ｂ／オクターブろ波が現在および演算３８における前の
サンプルの間の差を決定することによって置き換えられ
る。既に説明したように、低周波数においてはこのプロ
セスは６ｄＢ／オクターブの増加を示すが、これは近似
として用いられるものである。

【００４８】演算３９において、演算３８からの各差の
平方の対数がルックアップ表および指定されたＬＳＤＩ
Ｆによって見い出される。ＬＳＤＩＦおよびＬＳＵＭＮ
の和の対数は、演算３３乃至３７におけるＬＳＳＡＭお
よびＬＳＵＭＤに対して説明したのと同様に、演算４０
乃至４４においてＫｉｎｇｓｂｕｒｙおよびＲａｙｎｅ
ｒのプロセスを用いて見い出される。テスト４５は図６
の演算２８において記憶された最後のサンプルが到達し
たか否かを判断し、もし到達していなければ演算３２へ
ジャンプして戻り次のサンプルを採用する。そうでなけ
れば、演算４、５の及び６がサンプルによりカバーされ
る完全な間隔に対して実行され、図７ａ及び図７ｂのア
ルゴリズムから出る。

【００４９】第２及び第３のフォルマントに対する図７
ａ及び図７ｂのアルゴリズムに等かなアルゴリズムが間
隔の最初のサンプルの初期化をしゼロ交差を参照するこ
となく最後のサンプルを停止する。

【００５０】第２のフォルマントに対して、近似３ｄＢ
／オクターブろ波に対する置換は微分演算３８である
が、ある周波数成分がサンプリング速度の半分に近い第
３のフォルマントに対しては、微分演算３９の周波数領
域の勾配はゼロとなる。従って、もしこの演算を第３の
フォルマントに対して用いると、周波数変化をほとんど
検知しない。従ってこの方法はこのフォルマントに対し
ては不適当である。この問題は第３フォルマントの領域
における測定を行う前に信号をスペクトル的に反転させ
て高周波数を微分可能なゼロに近づけることにより解決
することができる。スペクトル的な反転は、すべての選
択的な波形サンプルを反転させることにより行われ、ま
た組み合わせたスペクトル的な反転及びその後の微分が
複合されて、微分の代わりに隣接するサンプルの対を加
える単一の加算に複合される。しかしながら、このよう
にして得られた周波数測定はサンプリング周波数の半分
から減じられてスペクトル的な反転の効果を補償する。
図７ｂに関する限り、要するに必要とされることは演算
３８を現在のサンプル及び前のサンプルの和が決定され
る演算に変えることであり、サンプリング周波数の半分
からの減算は図８の演算４８において実行される。

【００５１】セントロイド周波数を与えるパワー比を誘
導する演算７が演算４７により実行され、ここにおいて
パワー比の分母の対数（ＬＳＵＭＤ）が分子の対数（Ｌ
ＳＵＭＮ）から減じられる。結果として得られる値は演
算４８における別のルックアップ表によりフォルマント
周波数に変換され、上記演算４８は第３フォルマントに
対するサンプリング周波数の半分からの得られた周波数
の減算を含む。セントロイドが測定される帯域のパワー
は別のルックアップ表により演算４９において得られる
が、このルックアップ表は、重複領域におけるフォルマ
ントフィルタの勾配特性を考慮してＬＳＵＭＤをｄＢに
変換する。

【００５２】図１のアルゴリズムを実行した結果として
あるいは３つのフォルマントの各々に対する図５乃至図
８のそれの近似計算の結果として、３つのフォルマント
周波数に対する近似及び３つのフォルマントパワーに対
する近似が誘導されこれらを例えば音声認識における特
徴として用いることができる。本発明を包含する装置が
図９に示されており、この装置は、マイクロフォン、可
聴スペクトル整形及びＡ−Ｄ変換システムを含む信号捕
捉部５１と、図１のアルゴリズム又は図５乃至図８によ
り近似される図１のアルゴリズムを実行するための特徴
抽出部５２と、上記部分５２から得られる特徴から音声
認識を行うためのパターン／モデリング部５３とを備え
ている。部分５２及び５３は通常は上述のように単一の
コンピュータ、ＤＳＰ回路あるいはマイクロプロセッサ
の形態であり、これらは部分５１のある部分を含む。

【００５３】本発明は勿論上述の手法以外の他の手法に
より演算を行うことができる。例えば、１６ビットある
いは３２ビットマイクロプロセッサを用いて近似計算を
少なくしより大きな信号部分を分析することによりより
正確な結果を得ることができる。ＤＳＰ集積回路はより
良好な結果を与えることができるが、ハードウエアおよ
び電力消費において大きな費用を要する。本発明のスペ
クトル分析においては、スペクトルピークのセントロイ
ドを見い出すのに他のコンピュータ、装置あるいは方法
を用いることができる。

【図面の簡単な説明】

【図１】フォルマントのセントロイドの周波数およびセ
ントロイドを測定する帯域のパワーを見い出すための本
発明のアルゴリズムのフローダイアグラムである。

【図２】図１のアルゴリズムに用いられる代表的なウイ
ンドニング形状である。

【図３】時間領域における代表的な第１フォルマントの
波形を示す。

【図４】図３の波形の代表的なスペクトルを示す。

【図５】８ビットマイクロプロセッサようのマイクロプ
ロセッサアルゴリズムの第１の部分のフローダイアグラ
ムである。

【図６】第１フォルマントに付与される図１の第２及び
第３の演算に近似するマイクロプロセッサアルゴリズム
の第２の部分のフローダイアグラムである。

【図７】図７ａおよび図７ｂはフォルマント帯域におけ
る全パワーを測定すると共に、得られる出力の全パワー
を誘導する前にオクターブ当たり約３ｄＢのろ波を帯域
に付与するためのマイクロプロセッサアルゴリズムの第
３の部分のフローダイアグラムである。

【図８】図１の最後の３つの演算に等価なマイクロプロ
セッサアルゴリズムの第４の部分のフローダイアグラム
である。

【図９】本発明の装置を含むブロックダイアグラムであ
る。

【符号の説明】

５１信号捕獲部５２特徴分析部５３パターン／モデリング部

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成４年６月１９日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】図７

【補正方法】変更

【補正内容】

【図７】ａおよびｂはフォルマント帯域における全パワ
ーを測定すると共に、得られる出力の全パワーを誘導す
る前にオクターブ当たり約３ｄＢのろ波を帯域に付与す
るためのマイクロプロセッサアルゴリズムの第３の部分
のフローダイアグラムである。

【手続補正２】

【補正対象書類名】図面

【補正対象項目名】全図

【補正方法】変更

【補正内容】

【図１】

【図２】

【図３】

【図４】

【図８】

【図５】

【図９】

【図６】

【図７】

Claims

【特許請求の範囲】

【請求項１】経時変化する値を有する第１の信号の短
期的な特性特徴を決定するための方法であって、第１の信号をろ波して複数の周波数帯域の１つに各々存
在する第２の経時変化信号を得る段階と；周波数の近似
指示値であって、該近似指示値においてそれぞれの周波
数に対する前記帯域におけるパワー分布のセントロイド
が特性特徴として生ずる前記近似指示値を少なくともを
決定する段階と、を備えて成り、この決定段階が各周波
数帯域に対して、時間領域における該帯域に対して第２の信号の全パワー
を決定して第１のパワー値を提供する段階と、該帯域に対する第２の信号の周波数成分にスペクトル的
な重りづけを行う段階と、時間領域においてスペクトル的に重りづけされた信号の
全パワーを決定して第２のパワー値を提供する段階と、第２のパワー値を第１のパワー値で除して該帯域のセン
トロイドの周波数の指示値を提供する段階とにより行わ
れる方法。
【請求項２】請求項１の方法において、前記スペクト
ル的な重りづけが少なくともオクターブ当たり３デシベ
ルの近似であることを特徴とする方法。
【請求項３】請求項１又は２の方法において、第１の
信号の別の特性特徴として周波数帯域の少なくとも１つ
に対する第１のパワー値を用いる段階を備えることを特
徴とする方法。
【請求項４】請求項１、２又は３の方法において、発
声音のスペクトル分析に用いられ、周波数帯域が音声フ
ォルマントに対応することを特徴とする方法。
【請求項５】請求項１乃至４のいずれかの方法におい
て、スペクトル的な重りづけを行う前記段階が該帯域に
対する第２の信号を少なくとも近似的に微分する段階を
含むことを特徴とする方法。
【請求項６】請求項１乃至５のいずれかの方法におい
て、所定の比で入力信号をサンプリングすることにより
第１のサンプルの連続としての第１の信号を誘導し、第
１の信号のろ波段階によりそれぞれ第２のサンプルの連
続としての第２の信号を生じ、各周波数帯域における分布のセントロイド位置の指示値
を繰り返し誘導して、これら指示値が第２の信号の１つ
の連続する第２のサンプルの群から誘導されることを特
徴とする方法。
【請求項７】請求項５に従属する請求項６の方法にお
いて、帯域における最大周波数が前記比に近くない周波
数帯域の各々に対して、スペクトル的な重りづけを行う
前記段階が、該帯域に関連する第２のサンプルの各群に
おけるすべてのサンプルおよび前のサンプルの間の値に
おける差を見い出して連続的な差のサンプルを提供する
ことを特徴とする方法。
【請求項８】請求項５に従属する請求項６又は請求項
７の方法において、帯域における最大周波数が前記比に
近くない周波数帯域の各々に対して、スペクトル的な重
りづけを行う前記段階が、該帯域に関連する第２の信号
サンプルの各群におけるすべてのサンプルに対する各サ
ンプルおよび前のサンプルの値の和を見い出すことによ
り実行されることを特徴とする方法。
【請求項９】請求項６、７又は８の方法において、第
１及び第２のパワー値を決定する段階が、パワー値が連続的に誘導される各群の各々のサンプル値
を取る段階と、そのように取られたサンプル値の平方の対数を決定する
段階と、取られたサンプル値までのサンプルのパワーにおける積
算したパワーの対数を記憶する段階と、サンプルの平方の対数と積算したパワーの対数とのいず
れが大きいかを決定する段階と、これら対数の大きい方を小さい方から減じてサンプルパ
ワーと積算したパワーの大きいほうを小さい方で除した
比の対数を形成する段階と、所望の対数に対する比の対数の記憶値を参照して１に前
記比を加えたものの対数を決定する段階と、記憶値から得られた対数を以前に決定された大きい方の
対数に加えて積算したパワーの対数を形成する段階と、
を備えて成り、これにより、ある群の各サンプルを取ると、積算したパ
ワーの対数がそのサンプル群に必要とされるパワー値を
提供することを特徴とする方法。
【請求項１０】請求項９の方法であって、第２のパワ
ー値を第１のパワー値で除する前記段階が、第１のパワー値の対数を第２のパワー値の対数から減じ
てセントロイドが起こる周波数の指示値を提供する段階
を備え、第１のパワー値の前記対数が前記セントロイドを有する
帯域におけるパワーの指示値を提供することを特徴とす
る方法。
【請求項１１】請求項６乃至１０のいずれかの方法に
おいて、第２の信号の少なくとも１つの各連続的なサン
プル群がウインドニングプロセスにより誘導され、該ウ
インドニングプロセスが、各々前記群の１つに対応する所定の等しい時間間隔の連
続の始点及び終点におけるサンプルの値を減じて、これ
らサンプルが各間隔の始点から減少しかつ各間隔の終点
に近づくと増加する量によって値が減少するようにする
段階を備えることを特徴とする方法。
【請求項１２】請求項５乃至１１のいずれかの方法に
おいて、最も低い周波数帯域に対する第２の信号の連続
的なサンプル群の各々がプロセスにより誘導され、所定
の等しい時間間隔の連続の各々に対する該プロセスが、最も低い周波数帯域から各間隔の始点に向かう波形サン
プルにおいてゼロ交差に隣接する第１のサンプルを見い
出す段階と、最も低い周波数帯域から各間隔の終点に向かう波形サン
プルにおいてゼロ交差に隣接する第２のサンプルを見い
出す段階と、それぞれの前記時間間隔の第１及び第２のサンプルによ
り範囲を定められた各群に対する第２の信号のサンプル
を取る段階とを備える方法。
【請求項１３】請求項６の方法において、前記第１の
信号のろ波が、縦続接続された複数の有限インパルス応答ろ波段階を含
み、該段階の伝達関数が±２ⁿ（１±２^-m）の形態の倍
率係数を有し、ｎおよびｍが自然数であり、０≦ｍ≦３
および−１≦ｎ≦１であることを特徴とする方法。
【請求項１４】請求項４に従属する請求項１３の方法
において、前記周波数帯域の少なくとも２つが重複する領域を有
し、該重複する領域における減衰特性に対する周波数が
帯域の縁部に向かって十分に増加し、これにより重複す
る帯域からのフォルマントからの帯域に相当するフォル
マントを識別することを特徴とする方法。
【請求項１５】経時変化する値を有する信号の短期的
な特性特徴を決定するための装置であって、経時変化する値を有する第１の信号をろ波して複数の周
波数帯域の１つに各々存在する第２の経時変化信号を得
る手段と；周波数の近似指示値であって、該近似指示値
において周波数に対する前記帯域におけるパワー分布の
セントロイドが特性特徴として生ずる前記近似指示値を
少なくともを決定する手段と、を備えて成り、この決定
手段が、時間領域における該帯域に対して第２の信号の全パワー
を決定して第１のパワー値を提供する手段と、該帯域に対する第２の信号の周波数成分にスペクトル的
な重りづけを行う手段と、時間領域においてスペクトル的に重りづけされた信号の
全パワーを決定して第２のパワー値を提供する手段と、第２のパワー値を第１のパワー値で除して該帯域のセン
トロイドの周波数の指示値を提供する手段とを備えるこ
とを特徴とする装置。
【請求項１６】請求項１乃至１４の方法を実行するよ
うに構成されたことを特徴とする装置。
【請求項１７】請求項１６の装置において、請求項１
乃至１４における段階の少なくとも１つを実行するよう
にプログラムされたコンピュータあるいは集積回路を有
することを特徴とする装置。
【請求項１８】音声信号を表す第１の信号の短期的な
特性特徴を決定する音声認識に用いられる方法であっ
て、第１の信号をろ波して各々複数の周波数帯域の１つの経
時変化する第２の信号を得る段階と、前記帯域におけるパワー分布に対するそれぞれの周波数
のセントロイドが特性特徴として生ずる位置である周波
数の少なくとも近似指示値を決定する段階とを備える方
法。
【請求項１９】音声信号を表す第１の信号の短期的な
特性特徴を決定するための音声認識装置であって、第１の信号をろ波して各々複数の周波数帯域の１つの経
時変化する第２の信号を得る手段と、前記帯域におけるパワー分布に対するそれぞれの周波数
のセントロイドが特性特徴として生ずる位置である周波
数の少なくとも近似指示値を決定する手段とを備える装
置。