JPS63500683A

JPS63500683A - 並列処理型ピッチ検出器

Info

Publication number: JPS63500683A
Application number: JP61504126A
Authority: JP
Inventors: ピコーン，ジョセフ; プレザス，デミトリオス　パノス
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1985-08-28
Filing date: 1986-07-25
Publication date: 1988-03-10
Anticipated expiration: 2011-03-04
Also published as: KR880700386A; EP0235181B1; DE3684907D1; US4879748A; KR950000842B1; JPH0820878B2; WO1987001498A1; EP0235181A1; CA1301339C

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】並列処理型ピッチ検出器孜五立国本発明は圧縮して記憶し、その後合成に使用するための人間の音声信号のディジタル符号化に係り、特に音声の離散フレームのピッチの検出および音声および無声の同時決定に関する。

又里傅宣塁人間の音声を伝送するのに必要な帯域・幅を減少させるために、人間の音声をディジタル化して、音声を符号化し、情報が伝送された後音声を再生するために復号した後において、許容し得る品質を有する符号化され、ディジタル化された音声を記憶するのに必要なディジタル・ビット／秒の数を最小化する方法が知られている。アナログ音声サンプルは２０ミリ秒のオーダの時間幅を有する離散的長さのフレーム、即ちセグメントに分割されている。

サンプリングは典型例では８ｋＨｚの速度で実行され、各サンプルはマルチビットのディジタル数に符号化される。相続く符号化されたサンプルは人間の声道をモデル化する適当なフィルタ・パラメータを決定する線形予測符号器（Ｌ　Ｐ　Ｇ）で更に処理される。

各フィルタのパラメータは予め選択された数の以前のサンプル値の重み付けられた和に基づいて効率的に各々のサンプルされた信号の現在の値を推定するのに使用される。フィルタのパラメータは声道伝達関数のフォルマント構造をモデル化する。音声信号は解析的には励起信号とフォルマント伝達関数から成るものと見做される。励起成分は喉頭中で生じ、フォルマント成分は励起成分に対する声道の残りの部分の作用によって生じる。励起成分は声帯によって空気流に分与された基本周波数が存在するか否かに応じて更に音声あるいは無声に分類される。声帯によって空気流に分与されｆ基本周波数が存在する場合には、励起成分は音声と分類される。励起が無声であると、励起成分は単に白色雑音である。

低ビツト速度で伝送するために音声を符号化するには、音声のセグメントに対するＬＰＧパラメータ（係数とも呼ばれる）を決定し、音声を再生する復号回路にこれらの係数を転送する必要がある。これに加えて励起成分を決定する必要がある。まず第１にこの成分が有声と分類されるか、無声と分類されるかを決定しなければならない。有声と分類されると、声帯により空気流に分与された基本周波数を決定する必要がある。ＬＰＧ係数を決定するのには多数の方法が存在する。

基本周波数の決定間Ｂ（これは通常ピッチ検出と呼ばれる）は更に困難である。

１つの従来のピッチ検出法は音声波形の長時間規則性という音声の重要な性質に主として基づいている。理想的には有声音声は基本周波数成分とその高調波より成る周期的信号と見做すことが出来る。従って、第２高調波より低い周波数で遮断する低域フィルタの出力はピッチに等しい周波数を有する正弦波とならねばならない。この周波数は振幅検出回路を使用して決定される。この方法の欠点は実際の音声は音声の変位領域期間中にあっては規則性が乱されるのでこのモデルから逸脱してしまう点にある。更に、ピンチ周期それ自身が、話者が男性か女性かに依存して変化し得る。

ピッチ検出の音声のフォルマント構造を除去することによって（これはまたスペクトラム平坦化とも呼ばれる）ある条件の下では強化することが出来る。スペクトラム平坦化はフーリエ変換あるいは線形予測解析を使用して実行出来る。スペクトラムを平坦化するのにＬＰＧフィルタを使用することはまた音声信号がらフォルマント構造を減算する逆フイルタ操作とも呼ばれる。このようなシステムが米国特許第３，７４０，４７６号中に述べられている。ＬＰＣ濾波の結果骨られる残差波は声道の励起関数を近似し、この情報からピッチを抽出するのにパルス振幅技法が使用可能である。

しかし、この手法は励起の高調波が音声信号のフォルマントの下゛　に入るとうまく動作しない。この状態が生じると、残差波中で見出される励起情報はｒ−ｐ　ｃ逆フィルタ操作によって除去される。

その結果、残差信号は雑音状となり、ピッチ・パルスは容易には検出されない。

他の従来のピッチ検出法がビー・ゴールドおよびエル・ラビナの「時領域中の音声のピッチ周期を推定する並列処理技法」（Ｐａｒａｌｌｅｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｔｅｃｈｎｊｑｕｅｓ　ｆｏｒ　Ｅｓｔｉｍａｔｉｎｇ　Ｐｉｔｃｈ　Ｐｅｒ−ｉｏｄｓ　ｏｆ　５ｐｅｅｃｈ　ｉｎ　ｔｈｅ　Ｔｉｍｅ　Ｄｏｍａｉｎ　）ぐレジャーナル痔（ス・叉・アコースティカル・ソサイアティ・主トヱｊ　田（ＴｈｅＪｏｕｒｎａｌ　ｏｆ　ｔｈｅ　Ａｃｏｓｔｉｃａｌ　５ｏｃｉｅｔｙ　ｏｆ　Ａｍｅｒｉｃａ）第３６巻、第２号（第２部）、１９６９年に示されている。この論文は並列ピッチ検出器を使用しており、各々のピッチ検出器はアナログの音声信号に応動して個々にピンチの推定値を決定する。ピッチの推定が行なわれた後、ピッチ推定値の行列が構成され、“正しい”ピッチを決定するアルゴリズムが使用される。この方法は音声の変位領域期間中でピッチを検出する際に問題が生じる。何故ならばこの方法は元の音声信号に対してすべてのピッチ推定を実行するからである。更に“正しい”ピンチの決定を行うのに使用されたアルゴリズムは主としてピッチの基本周波数を第２、第３高調波の差をとることと関連している。

光里企慨！本発明の図示のピッチ検出システムおよび方法は、各々が音声信号の異なる部分に応動してピッチ値を推定する複数個の検出器と、各々が音声信号から計算された残差信号の異なる部分に応動する他の複数個の検出器と、推定されたピンチ値に応動して最終ピッチ値を決定する選定器を使用している。検出器の設計はすべて同一であり、すべての符号器を実現するのにただ１つの型の符号器のみが必要とされるので、効率的なソフトウェアを組むことが可能である。

本実施例は人間の音声に応動して音声をディジタル化および量子化するサンプル・量子化回路を含んでいる。ディジタル信号プロセッサはプログラム・インストラクションの第１の組に応動して予め定められた数のディジタル化されたサンプルを音声フレームとして記憶し、プログラム・インストラクションの第２の組およびディジタル化された音声サンプルに応動して声道のフォルマント効果が実質的に除去された後に残るディジタル化された音声サンプルの残差サンプルを発生し、プログラム・インストラクションの第３の組および音声サンプルの個々の予め定められた部分に応動してピッチ値を推定し、プログラム・インストラクションの第４の組および残差サンプルに応動してピッチ値を推定し、プログラム・インストラクションの第５の組に応動して推定されたピッチ値から前記音声フレームの最終ピンチ値を決定する。

プログラム・インストラクションの第５の組はプログラム・インストラクションの第２の組の推定されたピッチ値からピッチ値を計算するプログラム・インストラクションの第１の部分集合と、最終ピッチ値を制限して、計算されたピンチ値が以前のフレームからの計算されたピッチ値と一致するようにするプログラム・インストラクションの第２の部分集合を含んでいる。

更に、無声音声フレームは計算されたピッチ値が予め定義された（ｉ　（これはＯであって良い）に等しいことによって示され；有声フレームは計算されたピッチ値が予め定義された値に等しくないことによって示される。プログラム・インストラクションの第２の部分集合は更に有声・無声・有声フレームより成る第１の系列に応動して有声フレームを示す新らしい計算されたピッチ値を発生するインストラクションの第１のグループと、無声・有声・無声フレームより成る第２の系列に応動して無声フレームを示す新らしい計算された値を発生するインストラクションの第２のグループと、有声・有声・有声フレームより成る第３の系列に応動して該第３の系列のフレームの計算されたピッチ値と算術的な関係を存する新らしい計算されたピンチ値を発生するインストラクションの第３のグループより成る。

更に　第２の部分集合のインストラクションの第１のグループはフレームの第１の系列に応動して第１の系列の有声フレームの計算されたピッチ値の算術平均に等しく計算されたピッチ値をセットし、インストラクションの第２のグループはフレームの第２の系列に応動して新らしい計算されたピッチ値を前記予め定義された値にセットする。

また、インストラクションの第２の部分集合は更に有声・有声・無声フレームより成る第４の系列に応動して、２つの有声フレームの差が他の予め定義された値より小さいとき、新らしいピンチ値を有声・有声フレームに対する計算されたピッチ値の平均に等しくセントするインストラクションの第４のグループを含んでいる。２つの有声フレームに対するピッチ値の差が他の予め定義された値より大であると、新らしい計算されたピッチ値は以前の有声フレームのピンチ値に等しくセフ］・される。

更に、プログラム・インストラクションの第１の部分集合は、予め定義された値に等しい推定されたピッチ値の部分集合を除くすべてに応動して、ピンチ値の部分集合の推定されたピンチ値が互いに他の予め定義された値以下しか異ならないとき、計算されたピッチ値をピッチ値の部分集合の算術平均に等しくセントするインストラクションの第１のグループを含んでいる。更にインストラクションの第１のグループは推定されたピッチ値のすべてがピッチ値の部分集合を除いて予め定義された値に等しいことに応動して、部分集合のピッチ値の各々の間の差が他の予め定義された値より大きいとき、計算されたピッチ値を予め定義された値に等しくセットする。

また、インストラクションの第１の部分集合は予め定義された値に等しいものを除くすべての推定されたピッチ値に応動して、予め定義された値に等しくない推定されたピッチ値に等しく計算されたピンチ値をセントするインストラクションの第２のグループを含んでいる。

また、ピンチ値を推定するのに使用されるプログラム・インストラクションの第４の組はフレーム内の残差サンプルの予め定められた部分内において最大振幅のサンプルの位置を決定するインストラクションの第１の部分集合を有している。

インストラクションの第２の部分集合は、最大振幅サンプルおよびフレーム内の他のサンプルの各々から、最大の予想される音声周波数に基づいて、最小距離以上隔っている最大振幅サンプルの振幅より小さな振幅を有するフレーム中の後続の最大サンプル（これはまた候補サンプルと呼ばれる）の位置を決定する。インストラクションの第３の部分集合は最大振幅サンプルを基準として使用して隣接する位置の決定されたサンプル間の距離を１つ１つ測定する。インストラクションの第４の部分集合は相続（距離の測定値が等しいかどうか比較し、最大振幅サンプルと周期的な関係にない候補サンプルを排除することにより周期性をテストする。インストラクションの第５の部分集合はこの音声フレーム内の有効な極大候補サンプル間の距離の商を計算することにより推定されたピンチ値を決定する。最後に、インストラクションの第６の部分集合は、フレームが有声であるか無声であるかを示す。フレームが無声であると、推定されたピッチ値は予め定義された値（これは０であって良い）に等しくセ−／　トされ、無声フレームであることを示す。

本発明の方法はアナログ音声をディジクル・サンプルのフレームに変換する量子化装置およびディジタル化装置と、ディジタル音声の特定のフレームのピッチを決定する複数個のプログラム・インストラクションを実行するディジタル信号プロセッサを有するシステム中で機能する。信号プロセッサは声道のフォルマント効果が実質的に除去された後に残るディジタル化された音声の残差サンプルを発生し、ディジタル化された音声サンプルの内の正のものから現在の音声フレームの第１のピッチ値を推定し、ディジタル化された音声サンプルの内の負のものから第２のピッチ値を推定し、残差サンプルの内の正のものから第３の値を推定し、残差サンプルの負のものから第４のピッチ値を推定し、複数個の以前の音声フレームに対する推定ステップによって決定された推定されたピンチ値に基づいて以前の音声フレームに対する最終ピッチ値を決定するステップを実行することによりピンチを決定する。

最終ピッチ値を決定するステップはプログラム・インストラクションの部分集合に応動して、第１、第２、第３、および第４の以前に推定されたピッチ値から最終ピッチ値を計算し、最終ピッチ値が以前にディジタル信号プロセッサにより決定された以前のフレームからの最終ピッチ値と一致するように最終ピッチ値を制限するステップを実行するディジタル信号プロセッサにより実行される。

区ＷＪ　（７）　Ｂ　＊　ｆｔ礼哩第１図は本発明に従うピッチ検出器のブロック図；第２図は第１図のピンチ検出器１０８のブロック図；第３図は音声フレームの候補サンプルを図式的に示す図；第４図は第１図のピッチ選定器１１１のブロック図；第５図は第１図のディジタル信号プロセッサの実現法を示す図である。

詳細な説明第１図は本発明の主眼であるピッチ検出器を示す。該ピッチ検出器は導線１１３を介して受信されたアナログ音声信号に応動して音声励起が有声であるが無声であるかの指示を出力バス１１４上に提供し、有声である場合にはピンチを提供する。ピッチの決定はピッチ検出器１０７〜１１０の出力に応動してピッチ選定器１１１により行なわれる。折返しくエイリアス）を減少させるために、導ｖＡｌｌａ上の入力音声はフィルタ１００によって濾波される。このフィルタはその一３ｄＢ周波数が３．３　ｋ　Ｈｚの８次のバタワース・アナログ低域フィルタであって良い。濾波された音声は次にサンプラ１１２および線形量子化袋２１０１によってディジタル化・量子化される。量子化装置１０１はディジクル化された音声Ｘ　（ｎ）をクリッパ１０３および１０４ならびにＬＰＧ符号器および逆フィルタ１０２に送信する。符号器およびフィルタ１０２の出力は逆フィルタからの残差信号であり、咳信号は信号路１１６を介してクリンパ１０５および１０６に送信される。符号器およびフィルタ１０２はまず最初にＬＰＧ逆フィルタによって使用されるフィルタ係数を決定するのに要求される計算を実行し、これらフィルタ係数を使用してディジタル化された音声信号の逆フイルタ操作を実行することにより残差信号ｅ　（ｎ）を計算する。これは次のようにして実行される。

ディジタル化された音声Ｘ　（ｎ）は２０ミリ秒のフレームに分割される。（この２０ミリ秒のフレーム期間中全極ＬＰＣフィルタは時間的に不変であるものと仮定している。）ディジタル化された音声のフレームは格子計算法を使用して反射係数の組（例えば１０ケ）を計算するのに使用される。その結果骨られる１０次の逆格子フィルタは前方向予測誤差、即ぢ残差を発生すると共に反射係数を提供する。クリッパ１０３〜１０６は信号路１１５および１１６上の到来するＸおよびｅなるディジタル化された信号を正に向う波形および負に向う波形に変換する。これらの信号を形成する目的は混成波形は明白に周期性を示さないことがあるが、クリップされた信号は周期性を明白に示すことがあり得るからである。従って周期性の検出はより容易となる。クリッパ１０３および１０５はＸおよびｅ信号を夫々正に向う信号に変換し、クリッパ１０４および１０６はＸおよびｅ信号を夫々負に向う信号に変換する。

ピッチ検出器１０７〜１１０は各々それ自身の個々の入力信号に応動して到来信号の周期性を決定する。ピッチ検出器の出力はこれら信号の受信後２フレームして生じる。この例では各フレームは１６０サンプル点より成ることに注意されたい、ピッチ選定器１１１は４つのピッチ検出器の出力に応動して最終的なピンチを決定する。ピッチ選定器１１１の出力は信号路１１４を介して送信される。

第２図はピッチ検出器１０８のブロック図である。他のピッチ検出器も同様に設計されている。最大値位置決定器（ロケータ）２０１は各フレームのディジタル化された信号に応動してパルスを見出し、それに対して周期性がチェックされる。最大値ロケータ２０１の出力は２組の数値であり、１つは候補サンプルである最大振幅Ｍ８を表わす数値であり、他の１つはこれら振幅のフレーム内の位置り、を表わす数値である。距離検出器２０２はこれら２組の数値に応動して周期的な候補パルスの部分集合を決定する。この部分集合はこのフレームの周期性に関する距離検出器２０２の決定を表わす。距離検出器２０２の出力はピッチ追尾装置２０３に転送される。ピッチ追尾装置２０３の目的はピンチ検出器のピッチに関する決定をディジタル化された信号の相続くフレームの間に制限することである。この機能を実行するためにピッチ追尾装置２０３は２つ以前のフレームに対して決定されたピッチを使用する。

さて最大値ロケータ２０１によって実行される動作について更に詳細に考察する。最大値ロケータ２０１はまず最初にフレームからのサンプルの中でフレーム中の大局的最大振幅Ｍ０とその位置Ｄ０を同定する。周期性チェックのために選択された他の点は以下の条件を全て満さねばならない。第１に、パルスは局部最大のものでなければならない。これは次に取り出されるパルスは既に取り出されるかまたは除去されたすべてのパルスを除いてフレーム中の最大振幅を有するもの ′でなければならないことを意味する。この条件は、ピッチ・パルスは通常フレーム中の他のサンプルより大きな振幅を有していると仮定しているので適用される。

第２に、選択されたパルスの振幅は大局的最大値のある割合よりも大きいか等しい、即ちＭ＋　＞　ｇ　Ｍｏ　（ここでｇは例えば２５％といった闇値振幅パーセントである）でなければならない。第３にパルスは既に位置が決定されたすべてのパルスから少くとも１８サンプルは隔っていなければならない。この条件は人間の音声で生じる最高のピンチは約４４０Ｈｚであり、これは８に、　ｌｌｚのサンプル速度では１８サンプルとなるという仮定に基づいている。

距離検出器２０２は再帰的に動作し、まずフレームの大局的最大値Ｍ。から最も隣接した候補パルスへの距離を調べることから始める。この距離は候補距離ｄｃと呼ばれ、次式で与えられる。

ｄｅ＝ｌＤ、　−ＤＩ　＋ここでり、は最も隣接した候補パルスのフＩノーム内の位置である。

フレーム中のこのよ・うなパルスの部分集合がこの距離から息継ぎ期間Ｂを加減したものだけ隔っていないと、この候補距離は棄却され、操作は新らしい候補距離を使用して次に最も隣接する候補パルスに対して再び開始される。Ｂは４〜７の値を有していて良い。この新らしい候補距離は次に隣接するパルスと大局的最大値パルスの距離である。

ピッチ検出器２０２が距離ｄｃ＋Ｂだけ隔った候補パルスの部分集合を決定すると、内挿振幅テストが適用される。内挿振幅テストはＭｏと次に隣接する候補パルスの各々との間の線形内挿を実行し、Ｍｏに直接隣接する候補パルスの振幅はこれら内挿された値の少くともｑパーセントである。内挿振幅闇値ｑ％は７５％である。第３図に示す候補パルスの例を考えるｅｄｃが妥当な候補距離であるためには次式が成立しなければならない。

ここでであり、先に指摘したようにＭ、＞ｇＭ、　、＝］、２．３．４．５である。

ピッチ追尾装置２０３は距離検出器２０２の出力に応動してピッチ距離の推定値を評価する。このピッチ距離の推定値はピンチの周波数と関連している。何故ならばピッチ距離はピンチの周期を表わすからである。ピッチ追尾装置２０３の機能は以下で述べる４つのテストを実行することによりピッチ検出器から受信された初期ピッチ距離推定値を必要な場合には修正することによりフレームからフレームにわたって矛盾がないようにピッチ距離の推定値を制限することである。ここで４つのテストとは、音声セグメント開始テスト、最大息継ぎおよびピッチ倍化テスト、制限テストおよび急激変化テストである。これらのテストの内の第１番目のものである音声セグメント開始テストは有声領域の開始時点におけるピンチ距離の無矛盾性を保証するために実行される。このテストは有声領域の開始とのみ関連しているので、現在のフレームは零でないピッチ周期を有することを仮定している。この仮定は先行するフレームおよび現在のフレームが有声領域中の第１および第２の音声フレームであるという仮定に等しい。ピンチ距離の推定値がＴ（ｉ）（ここでｉは距離検出器２０２からの現在のピッチ距離推定値を表わす）によって表わされるならば、ピッチ検出器２０３はＴ＊　（ｉ−２）を出力する。何故ならば各検出器を通して２フレームの遅延が存在するからである。このテストはＴ（ｉ−３）およびＴ（ｉ−２）がＯであるかまたはＴ（ｉ−２）が非ＯでＴ（ｉ−３）およびＴ（ｉ−４）がＯ（これはフレーム＋−２およびｉ− １が有声領域中の夫々第１および第２の有声フレームであることを意味する）のときにのみ実行される。

音声セグメント開始テストは２つの無矛盾性テストを実行する。

１つは第１の有声フレームＴ（ｉ−２）に対するものであり、他方は第２の有声フレームＴ（ｉ−１）に対するものである。これら２つのテストは相続くフレームの期間中に実行される。音声セグメント・テストの目的は有声領域が実際には始まっていないときに有声領域の開始を規定する確率を減少させることである。

このことは音声領域に対する他の無矛盾性テストが最大息継ぎおよびピッチ倍化テストにおいて実行され、そこではただ１つの無矛盾条件が要求されるために重要である。第１の無矛盾テストはＴ（＋’−２）中の右側の候補サンプルとＴ（ｉ−１）およびＴ（ｉ−２）中の最も左側の候補サンプルの距離がピッチ閾値Ｂ＋２内にあることを保証するために実行される。

第１の無矛盾性テストが満されると、次のフレーム期間中に第２の無矛盾性テストが実行され、第１の無矛盾性テストが保証したと同じ結果をフレーム系列が右に１つシフトされた現在でも得ることを保証するために実行される。第２の無矛盾性テストが満されないと、Ｔ　（ｉ−１）はＯにセントされ、（Ｔ（ｉ−２＞が０にセットされていなかったとすると）フレームｉ−１は第２の有声フレームたりえないことを示す。しかし、両方の無矛盾性テストに合格すると、フレームｉ−２およびｉ−１は有声ＩＮ域の開始を規定する。Ｔ　（＋−１＞がＯにセットされ、Ｔ（ｉ−２）が非０であると決定され、Ｔ（ｉ−３＞が０　（これはフレームｉ−２が２つの無声フレームの間の有声フレームであることを示す）であると、急激変化テストがこの状況に対処するが、この特殊テストについては後述する。

最大息継ぎおよびピッチ倍化テストは有声領域中の２つの隣接した有声フレームにわたるピッチの無矛盾性を保証する。従って、このテストはＴ　（ｉ−３）　、Ｔ　（ｉ−２）およびＴ　（＋−１）が非０のときにのみ実行される。最大息継ぎおよびピッチ倍化テストはまた距離検出器２０２によって生じたピッチ倍化誤差をチェックし、補正する。チェックのピンチ倍化部分はＴ（ｉ−２）およびＴ（ｉ−１）が無矛盾であるかどうか、またＴ　（＋−２＞がＴ（ｉ−１）の２倍と無矛盾（これはピッチ倍化誤差を意味する）であるかどうかをチェックする。このテストはまずＡを１０なる値を有するものとしてによって実行されるテストの最大息継ぎ部分に合格するかどうかをチェックする。この式が満されると、Ｔ（ｉ−１）はピンチ距離の良好な推定値であり、修正する必要はない。しかし、テストの最大息継ぎ部分に失敗すると、テストのピッチ倍化部分を満すかどうかを決定するテストを実行しなければならない。テストの第１の部分はＴ（ｉ−３）が非Ｏであるとして、Ｔ（ｉ−２）およびＴ（ｉ− １）の２倍がなる条件を満すかどうかをチェックする。この条件を満すと、Ｔ（＋−１）はＴ（ｉ−２）に等しくセントされる。この条件が満されないと、Ｔ　（ｉ−１＞はＯにセントされる。テストのこの部分の第２の部分はＴ　（ｉ−３）が０に等しいときに実行される。

が満されるとＴ　（ｉ−１）　−Ｔ　（＋−２）である。前述の条件が満されないと、Ｔ　（ｉ−１）は０にセフ）される。

Ｔ　（ｉ−１）に対して実行される制限テストは計算されたピンチが５０Ｈｚ〜４００１（ｚの人間の音声の範囲内にあることを保証する。計算されたピッチがこの範囲内に入らないと、Ｔ（ｉ−１）は０にセントされ、フレームｉ−１は計算されたピッチを有する有声フレームとはなり得ないことを示す。

急激変化テストは３つの以前のテストが実行された後に実行され、他のテストが無声領域の中間の有声フレームあるいは有声領域の中間の無声フレームであると許容したことが正しいかどうかを判定することを目的としている。人間は通常は前記のような音声フレームの系列を発生し得ないから、急激変化テストは有声− 無声−有声あるいは無声−有声−無声の系列を除去することにより任意の有声または無声セグメントは少くとも２フレームは続くことを保証する。急激変化テストは２つの別個の手順より成り、各手順は前述した２つの系列を検出するよう設計されている。ピッチ追尾装置２０３が前述した４つのテストを実行すると、該追尾装置はＴ＊　（ｉ−２）を第１図のピッチ選定器１１１に出力する。ピッチ追尾装置２０３は距離検出器２０２から次に受信されたピンチ距離に対する計算を行うため他のピッチ距離を保持している。

第４圓は第１図のピッチ選定器１１１を更に詳細に示している。

ピッチ値推定器４０１はピッチ検出器１０７〜］、　１０の出力に応動して２フレーム以前のピッチの初期推定値Ｐ　（ｉ−２）を形成し、ピンチ値追尾装置４０２はピッチ値推定器４０１の出力に応動じて３つ以前のフレームの最終ピンチ値Ｐ　（ｉ−３）がフレームからフレームにわたって矛盾がないように制約する。

ここでピッチ値推定器４０１によって実行される機能を更に詳細に考察する。一般に、ピンチ値推定器４０１によって受信された４つのピッチ距離の推定値すべてが非Ｏ〈これは有声フレームであることを示す）であると、最小および最大の推定値が棄却され、Ｐ　（ｉ−２）は残りの２つの推定値の算術平均にセットされる。同様に、ピッチ距離推定値の内３つが非０であると、最大および最小の推定値が棄却され、ピッチ値推定器４０１はＰ　（ｉ　−２）を残りの非０の推定値に等しくセットする。推定値の内２つのみが非０であると、ピッチ値推定器４０１は２つのピンチ距離推定値がピッチ闇値Ａ内にあるときのみ２つのピッチ距離推定値の算術平均に等しくＰ（ｉ−２）をセントする。２つの値がピッチ闇値Ａ内にないときは、ピッチ値推定器４０１はＰ　（ｉ−２）をＯにセントする。

この決定は個々の検出器の幾つかは周期性を誤って決定したが、フレームｉ−２は無声であることを示している。４つのピッチ距離推定値の内のただ１つが非０であると、ピッチ値推定器４０１はＰ　（ｉ−２＞をその非０値に等しくセットする。この場合、以前のピンチ推定値と矛盾が生じないようにこのピッチ距離の推定値の妥当性のチェックがピンチ値追尾装置４０２により行なわれる。ピッチ距離推定値がすべてＯであると、ピッチ値推定器４０１はＰ　（ｉ−２）を０にセントする。

次にピッチ値追尾装置４０２について更に詳細に考察する。ピッチ値追尾装Ｗ４０２はピッチ値推定器４０１の出力に応動して３つ以前のフレームのピンチ値推定値ｐ＊　（ｉ−３）を発生するが、この推定値はＰ　（ｉ−２）およびＰ　（ｉ−４）に基づいて行なわれる。ピッチ値ｐ＊　（ｉ−３）はフレームからフレームにわたって矛盾がないように選択される。

最初にチェックされるのは有声−無声−有声、無声−有声−無声、または有声− 有声−無声の形を有するフレームの系列である。

Ｐ　（ｉ−４）およびＰ　（ｉ−２）が非０でＰ　（ｉ−３）が０であることによって示される第１の系列が生じると、最終ピンチ値ｐ＊（＋−３’）はピッチ値追尾装置４０２によりＰ　（ｉ−４）およびＰ（ｉ、−２）の算術平均に等しくセットされる。第２の系列が生じると、最終ピンチ値ｐ＊　（ｔ−３）はＯに等しくセットされる。第３の系列に関しては、ピッチ値追尾装置はＰ（ｉ−４）およびＰ　（ｉ−３）が非０であり、Ｐ（ｉ−２＞がＯであることに応動して、Ｐ　（ｉ−３）およびＰ（ｉ−４）がピンチ闇値Ａ内にある限り、ｐ＊　（ｉ− ３）をＰ　（＋−３）およびＰ　（ｉ−４＞の算術平均にセットする。ピッチ追尾装置４０２はであることに応動して次の操作を実行する。

ピッチ値追尾装置４０２がＰ　（ｉ−３）およびＰ　（ｉ−４）は前述の条件を満さない（即ちこれらがピッチ闇値Ａ内にない）とすると、ピッチ値追尾装置４０２はｐ＊　（ｉ−３）をＰ　（ｉ−４）の値に等しくセントする。

前述の操作に加えて、ピッチ値追尾装置４０２はまたある型の有声−有声−有声フレーム系列に対するピンチ値推定値を平滑化する操作を実行する。この平滑化操作が実行されるフレーム系列は３つの型がある。第１の系列は次式が成立するときである。

およびこの条件が成立すると、ピンチ値追尾装置４０２はとセットすることにより平滑化操作を実行する。

条件の第２の組は次式で与えられる。

この第２の条件の組が成立すると、ピンチ値追尾装置４０２は次のように値をセントする。

第３　（最終）の条件の組は次式で定義される。

この最後の条件が成立すると、ピンチ値追尾装置４０２は次のように値をセントする。

Ｐ＊　（ｉ−３）　＝Ｐ　（＋−４）第５図は例えばテキサス・インスッルメントのＴ　Ｍ　Ｓ　３２０２０のようなディジクル信号プロセフザを使用する第１図のブロックの実現例を示している。

このプロセッサおよびＰＲＯＭメモリ５０２およびＲＡＭメモリ５０３により第１図のブロック１０２〜１１１が形成されている。第１図の前述の素子を実現するためにＦＲＯＭ５０２中に記憶されたプログラムはＣのソース・コード・プログラムと類似のものである。このプログラムは適当なり／ＡおよびＡ／Ｄ変換装置を有する計算機システムまたは類似のシステム上で実行するように作られている。第１図のピッチ検出器１０７〜１１．０はＲＡＭ５０３中の各ピッチ検出器に対する別個のデータ記憶領域を使用する共通コードにより実現されている。第２および４図に示されている第１回の詳細部はＦＲＯＭ５０２内に記憶されたプログラム・インストラクションの組によって実現される。プログラム・インストラクションの各組は更にプログラム・インストラクションの部分集合およびグループに細分割されている。

前述の実施例は本発明の原理を華に例示するものであり、本発明の精神および範囲を逸脱することなく当業者にあっては他の装置を考案し得ることを理解されたい。

ＦＩＧ、１ＦＩＧ、２ＦＩＧ、３ＦＩＧ、４ＦＩＧ＝　５国際調査報告１ｅｌａｒ＋ｕｕｌａ＊ａｌ　ＡＤＮｃｌｌｌｏ’ｔ　＋Ｉｓ、　ＰＣＴ／υＳ　８６１０１５５２ＡＮＮＥＸ　Ｔｏ　ＴＨＥ　ＩｈＪＴＥＲＮＡＴＩＯＮＡｌ：、５ＥＡＲＣＨＲＥＰＯＲＴ　０ＮＩＮＴＥＲＮＡＴＩＯＮＡＬ　ＡＰＰＬＩＣＡＴＩＯＮ　Ｎｏ、　ＰＣＴ／Ｕ５８６１０１５５２　（ＳＡ　１４１３Ｂ）ｔＪＳ−Ａ−３９１６１０５２８／１０／７５　Ｎｏｎｅ

Claims

【特許請求の範囲】１．人間の音声のピッチ検出システムであって、該システム：前記音声の瞬時振幅の予め定められた数の等間隔サンプルを音声フレームとして記憶する手段と：前記音声サンプルから残差サンプルを発注する手段と；各々が前記フレームの前記残差サンプルの個々の予め定められた部分に応動して前記フレームのピッチ値を推定する複数個の同一の手段と；各々が前記フレームの前記音声サンプルの個々の予め定められた部分に応動して前記フレームのピッチ値を推定する他の複数個の同一の手段と；前記推定手段の各々からの個々に推定されたピッチ値に応動して前記音声フレームの最終ピッチ値を決定する手段とを含むことを特徴とするシステム。２．第１項記載のシステムにおいて、前記最終ピッチ値を決定する手段は：前記推定されたピッチ値の内の前記のものから最終ピッチ値を計算する手段と；計算されたピッチ値が以前のフレームからの計算されたピッチ値と一致するように前記最終ピッチ値を制限する手段とを含むことを特徴とするシステム。３．第２項記載のシステムにおいて、無声フレームは前記計算されたピッチ値が予め定義された値に等しいことによって示され、有声フレームは前記計算されたピッチ値が前記予め定義された値以外の値に等しいことによって示され、前記制限を行う手段は：有声フレーム・無声フレーム・有声フレームの第１の系列に応動して有声フレームを示す新らしい計算されたピッチ値を発生する手段と；無声フレーム・有声フレーム・無声フレームの第２の系列に応動して無声フレームを示す新らしい計算された値を発生する手段と；有声フレーム・有声フレーム・有声フレームの第３の系列に応動して該第３の系列の計算されたピッチ値と算術的関連を有する新らしく計算されたピッチ値を発生する手段とを含むことを特徴とするシステム。４．第３項記載のシステムにおいて、前記第１の系列に応動する前記発生手段は新らしく計算されたピッチ値を前記第１の系列の有声フレームの計算されたピッチ値の算術平均に等しくセットする手段を含み；無声・有声・無声フレームの第２の系列に応動する発生手段は新らしく計算されたピッチ値を前記予め定義された値にセットすることを特徴とするシステム。５．第４項記載のシステムにおいて、前記制限を行う手段は更に有声・有声・無声フレームなる第４の系列に応動して、２つの有声フレームの差が他の予め定義された値以下あるとき、有声フレームと無声フレームの計算されたピッチ値の平均に等しい新らしい計算されたピッチ値を発生する手段と；前記第４の系列に応動して、２つの有声フレームのピッチ値が前記他の予め定義された値より大であるとき、以前の有声フレームのピッチ値に等しい新らしい計算されたピッチ値を発生する手段とを含むことを特徴とするシステム。６．第２項記載のシステムにおいて、前記計算する手段は前記予め定義された値とは異なる値を有する前記推定されたピッチのすべてに応動して前記計算されたピッチ値を前記ピッチ値のメジアンの部分集合の算術平均に等しくセットする手段を含むことを特徴とするシステム。７．第２項記載のシステムにおいて、前記計算する手段は更に前記複数個の推定手段からの前記予め定義された値に等しい前記推定されたピッチ値の部分集合を除くすべてに応動て、前記ピッチ値の前記部分集合の推定されたピッチ値が互いに他の予め定義された値以下しか異ならないとき、前記計算されたピッチ値を前記部分集合の算術平均に等しくセットする手段と；前記推定されたピッチ値の部分集合を除いて前記推定されたピッチ値のすべてが前記予め定義された値に等しいことに応動して、前記部分集合の前記推定されたピッチ値の各々の差が前記他の予め定義された値より大であるとき、前記計算されたピッチ値を前記予め定義された値に等しくセットする手段とを含むことを特徴とするシステム。８．第２項記載のシステムにおいて、前記計算を行う手段は前記予め定義された値に等しい１つの推定されたピッチ値を除いて前記推定されたピッチ値のすべてに応動して、前記計算されたピッチ値を前記予め定義された値に等しくない前記推定されたピッチ値に等しくセットする手段を含むことを特徴とするシステム。９．第２項記載のシステムにおいて、前記複数個の推定手段は各各前記残差サンプルの前記個々の予め定められた部分内において最大振幅を有する主要サンプルの位置を決定する手段と；前記最大振幅サンプルおよび前記フレーム内の各々の他の残差サンプルから予想される最高の基本音声周波数に基づいて最小距離より間隔が隔っている最大振幅サンプルの振幅より小さな振幅を有する前記残差サンプルの前記予め定められた部分のサンプルの位置を決定する手段と；前記最大振幅サンプルの位置を基準として使用して隣接する位置の決定された候補サンプル間の距離を１つ１つ測定する手段と；実質的に等しいかどうかを調べるために相続く距離の測定結果を比較し、前記最大振幅サンプルと周期的な関係にない候補サンプルを排除することにより周期性のテストを行う手段と；前記フレーム内の極大サンプル間の距離の商によって前記推定されたピッチ値を決定する手段と；フレームが周期性を呈するときは有声であると指示し、周期性を呈さないときは前記推定されたピッチ値を予め定義された値に等しくセットすることにより無声であると指示する手段とを含むことを特徴とするシステム。１０．第９項記載のシステムにおいて、前記複数個の推定手段は前記推定手段の内の２つを含み、前記推定手段の各々は更に前記残差サンプルに応動して該残差サンプルをクリップして該残差サンプルの個々の予め定められた部分を発生する手段を含むことを特徴とするシステム。１１．人間の音声用のピッチ検出器において、該検出器は：前記音声の瞬時振幅の予め定められた数の等間隔音声サンプルを現在の音声フレームとして記憶する手段と；声道のフォルマント効果が実質的に除去された後に残る音声の残差サンプルを発生するために前記サンプルを濾波する手段と；前記音声サンプルの内の正のものに応動して前記現在の音声フレームの第１のピッチ値を推定する第１の手段と；前記音声サンプルの内の負のものに応動して前記現在の音声フレームの第２のピッチ値を推定する第２の手段と；前記残差サンプルの内圧のものに応動して前記現在の音声フレームの第３のピッチ値を推定する第３の手段と；前記残差サンプルの内の負のものに応動して前記現在の音声フレームの第４のピッチ値を推定する第４の手段と：推定手段の各々からの推定されたピッチ値に応動して複数個の以前の音声フレームおよび前記現在の音声フレームに基づいて最も近い以前の音声フレームの最終ピッチ値を決定する手段とを含むことを特徴とするピッチ検出器。１２．第１１項記載のシステムにおいて、前記決定手段は：前記推定されたピッチ値の内の前記のものからピッチ値を計算する手段と；計算されたピッチ値が以前のフレームからの計算されたピッチ値と一致するように前記最終ピッチ値を制限する手段とを含むことを特徴とするシステム。１３．第１２項記載のシステムにおいて、無声音声フレームは前記計算されたピッチ値が予め定義された値に等しいことによって示され、有声フレームは前記計算されたピッチ値が前記予め定義された値以外の値に等しいことによって示され、前記制限手段は：有声・無声・有声フレームの第１の系列に応動して有声フレームを示す新らしい計算されたピッチ値を発生する手段と；無声・有声・無声フレームの第２の系列に応動して無声フレームを示す新らしい計算された値を発生する手段と；有声・有声・有声フレームの第３の系列に応動して該第３の系列のフレームの計算されたピッチ値と算術的関係を有する新らしい計算されたピッチ値を発生する手段とを含むことを特徴とするシステム。１４．第１３項記載のシステムにおいて、前記第１の系列に応動する前記発生手段は前記第１の系列の有声フレームの計算されたピッチ値の算術平均に等しい新らしい計算されたピッチ値をセットする手段を含み；該発生手段は無声・有声・無声フレームの前記第２の系列に応動して新らしい計算されたピッチ値を前記予め定義された値にセットすることを特徴とするシステム。１５．第１４項記載のシステムにおいて、前記制限を行う手段は更に有声・有声・無声フレームの第４の系列に応動して、２つの有声フレームの差が他の予め定義された値以下のとき、有声フレームおよび無声フレームに対する計算されたピッチ値の平均に等しい新らしい計算されたピッチ値を発生する手段と；前記第４の系列に応動して、２つの有声フレームに対するピッチ値の差が前記他の予め定義された値より大きいとき、以前の有声フレームのピッチ値に等しい新らしい計算されたピッチ値を発生する手段とを含むことを特徴とするシステム。１６．第１２項記載のシステムにおいて、前記計算を行う手段は前記予め定義された値とは異なる値を有する前記推定されたピッチ値のすべてに応動して、前記推定されたピッチ値のメジアンの部分集合の算術平均に等しく前記計算されたピッチ値をセットする手段を含むことを特徴とするシステム。１７．第１２項記載のシステムにおいて、前記計算を行う手段は更に前記複数個の推定手段からの前記予め定義された値に等しい前記推定されたピッチ値の部分集合を除くすべてに応動して、前記ピッチ値の前記部分集合の推定されたピッチ値が互いに他の予め定義された値以下しか異ならないとき、前記部分集合の算術平均に等しく前記計算されたピッチ値をセットする手段と；前記推定されたピッチ値の部分集合を除いて前記推定されたピッチ値のすべてが前記予め定義された値に等しいことに応動して、前記部分集合の前記推定されたピッチ値の各々の差が前記他の予め定義された値より大であるとき、前記予め定義された値に等しく前記計算されたピッチ値をセットする手段とを含むことを特徴とするシステム。１８．第１２項記載のシステムにおいて、前記計算を行う手段は前記予め定義された値に等しい１つの推定されたピッチ値を除く前記推定されたピッチ値のすべてに応動して、前記計算されたピッチ値を定義された値に等しくない前記推定されたピッチ値に等しくセットする手段を含むことを特徴とするシステム。１９．人間の音声のピッチを決定するピッチ検出器において、該ピッチ検出器は：前記人間の音声を低域濾波する手段と；前記人間の音声をディジタル化された音声サンプルのフレームにディジタル的にサンプルする手段と；プログラム・インストラクションの第１の組と前記ディジタル化された音声サンプルに応動して前記ディジタル化されたサンプルを濾波し、声道のフォルマント効果が実質的に除去された後に残る音声の残差サンプルを発生させるプロセッサ手段とを含み；該プロセッサ手段は更にインストラクションの第２の組および前記ディジタル化された音声サンプルの内の正のものに応動して、現在の音声フレームの第１のピッチ値を推定し；該プロセッサ手段はプログラム・インストラクションの第３の組および前記ディジタル化された音声サンプルの内の負のものに応動して、前記現在の音声フレームの第２のピッチ値を推定し；該プロセッサ手段はプログラム・インストラクションの第４の組および前記残差サンプルの内の正のものに応動して前記現在の音声フレームの第３のピッチ値を推定し；該プロセッサ手段はプログラム・インストラクションの第５の組および前記残差サンプルの内の負のものに応動して前記現在の音声フレームの第４のピッチ値を推定し；該プロセッサ手段はプログラム・インストラクションの第６の組および前記推定されたピッチ値に応動して、複数個の以前の音声フレームおよび前記現在の音声フレームに基づいて最も近い以前の音声フレームの最終ピッチ値を決定することを特徴とするピッチ検出器。２０．第１９項記載のシステムにおいて、前記プログラム・インストラクションの第６の組は：プログラム・インストラクションの第１の部分集合を含み、前記プロセッサ手段はプログラム・インストラクションの前記第１の部分集合に応動して前記第１、第２、第３および第４のピッチ値から前記最終ピッチ値を計算し；更にプログラム・インストラクションの第２の部分集合を含み、前記プロセッサ手段はプログラム・インストラクションの前記第２の部分集合に応動して前記最終ピッチ値が以前のフレームからの最終ピッチ値と一致するよう前記最終ピッチ値を制限することを特徴とするシステム。２１．第２０項記載のシステムにおいて、無声音声フレームは前記ピッチ値め定義された値に等しいことによって示され、有声フレームは前記計算されたピッチ値が前記予め定義された値以外の値に等しいことによって示され、前記プログラム・インストラクションの第２の部分集合は：インストラクションの第１のグループを含み、前記プロセッサ手段は該インストラクションの第１のグループおよび有声・無声有声フレームの第１の系列に応動して、有声フレームを示す新らしい計算されたピッチ値を発生し；更にインストラクションの第２のグループを含み、前記プロセッサ手段は前記インストラクションの第２のグループおよび無声有声・無声フレームの第２の系列に応動して無声フレームを示す新らしい計算された値を発生し；更にインストラクションの第３のグループを含み、前記プロセッサ手段は前記インストラクションの第３のグループおよび有声有声・有声フレームの第３の系列に応動して該第３の系列のフレームの計算されたピッチ値を算術的な関係を有する新らしい計算されたピッチ値を発生することを特徴とするシステム。２２．第２１項記載のシステムにおいて、前記インストラクションの第１のグループはインストラクションの第１のサブグループを食み、前記プロセッサ手段は前記インストラクションの第１のサブグループおよび前記第１の系列に応動して前記第１の系列の有声フレームの計算されたピッチ値の算術平均に等しく新らしく計算されたピッチ値をセットし；前記インストラクションの第２のグループは更にインストラクションの第２のサブグループを含み、前記プロセッサ手段は前記インストラクションの第２のサブグループおよび前記フレームの系列に応動して新らしい計算されたピッチ値を前記予め定義された値にセットすることを特徴とするシステム。２３．第２２項記載のシステムにおいて、前記インストラクションの第２の部分集合は更にインストラクションの第４のグループを含み、前記プロセッサ手段は前記インストラクションの第４のグループおよび有声・有声・無声フレームの第４の系列に応動して、２つの有声フレームの差が他の予め定義された値以下であるとき、２つの有声フレームおよび無声フレームに対する計算されたピッチ値の平均に等しい新らしい計算されたピッチ値を発生し；更にインストラクションの第４のグループを含み、前記プロセッサ手段は前記インストラクションの第５のグループおよび前記第４の系列に応動して、２つの有声フレームに対するピッチ値の差が前記他の予め定義された値より大であるとき、以前の有声フレームのピッチ値に等しい新らしい計算されたピッチ値を発生することを特徴とするシステム。２４．第２０項記載のシステムにおいて、前記インストラクションの第１の部分集合は更にインストラクションの第１のグループを含み、前記プロセッサ手段は前記インストラクションの第１のグループおよび前記予め定義された値とは異なる値を有する前記推定されたピッチ値のすべてに応動して、前記推定されたピッチ値の部分集合の算術平均に等しく前記計算されたピッチ値をセットすることを特徴とするシステム。２５．第２４項記載のシステムにおいて、前記インストラクションの第１の部分集合はインストラクションの第２のグループを含み、前記プロセッサ手段は前記インストラクションの第２のグループおよび前記予め定義された値に等しい前記推定されたピッチ値の部分集合を除くすべてに応動して、前記ピッチ値の前記部分集合の推定されたピッチ値が互いに他の予め定義された値以下の値しか異ならないとき、前記部分集合の算術平均に等しく前記計算されたピッチ値をセットし；更にインストラクションの第３のグループを含み、前記プロセッサ手段は該インストラクションの第３のグループおよび前記推定されたピッチ値の部分集合を除いて前記推定されたピッチ値のすべてが前記予め定義された値に等しいことに応動して、前記部分集合の前記ピッチ値の各々の差が他の予め定義された値より大きいとき、前記計算されたピッチ値を前記予め定義された値に等しくセットすることを特徴とするシステム。２６．第２５項記載のシステムにおいて、前記インストラクションの第１の部分集合はインストラクションの第４のグループを含み、前記プロセッサ手段は前記インストラクションの第４のグループおよび前記予め定義された値に等しい１つの推定されたピッチ値を除く前記推定されたピッチ値のすべてに応動して前記予め定義された値に等しくない前記推定されたピッチ値に等しく前記計算されたピッチ値をセットすることを特徴とするシステム。２７．人間の音声のピッチ検出器システムにおいて、該システムは：前記音声の瞬時振幅の予め定義された数の等間隔サンプルを音声フレームとして記憶する手段と；各々が前記音声フレームの前記サンプルの個々の予め定められた部分に応動して前記音声フレームのピッチ値を推定する複数個の同一の手段と；前記推定されたピッチ値の内の前記のものから最終ピッチ値を計算する手段と；前記最終ピッチ値を制限して計算されたピッチ値が以前のフレームからの計算されたピッチ値と一致するようにする手段とを含むことを特徴とするピッチ検出器システム。２８．第２７項記載のシステムにおいて、無声音声フレームは前記計算されたピッチ値が予め定義された値に等しいことによって示され、有声フレームは前記計算されたピッチ値が前記予め定義された値以外の値に等しいことによって示され、前記制限を行う手段は：有声・無声・有声フレームの第１の系列に応動して有声フレームを示す新らしい計算されたピッチ値を発生する手段と；無声・有声・無声フレームの第２の系列に応動して無声フレームを示す新らしい計算された値を発生する手段と；有声・有声・有声フレームの第３の系列に応動して前記第３の系列のフレームの計算されたピッチ値と算術的関係を有する新らしい計算されたピッチ値を発生する手段とを含むことを特徴とするシステム。２９．第２８項記載のシステムにおいて、前記第１の系列に応動する前記発生手段は前記第１の系列の有声フレームの計算されたピッチ値の算術平均に等しく新らしい計算されたピッチ値をセットする手段を含み；前記発生手段は無声・有声・無声フレームの前記第２の系列に応動して新らしい記算されたピッチ値を前記予め定義された値にセットすることを特徴とするシステム。３０．第２９項記載のシステムにおいて、前記制限を行う手段は更に有声・有声・無声フレームの第４の系列に応動して、２つの有声フレームの差が他の予め定義された値以下であるとき、有声フレームおよび無声フレームに対する計算されたピッチ値の平均に等しい新らしい計算されたピッチ値を発生する手段と；前記第４の系列に応動して、２つの有声フレームに対するピッチ値の差が前記他の予め定義された値より大きいとき、以前の有声フレームのピッチ値に等しい新らしい計算されたピッチ値を発生する手段を含むことを特徴とするシステム。３１．第２８項記載のシステムにおいて、前記計算を行う手段は前記予め定義された値とは異なる値を有する前記推定されたピッチ値のすべてに応動して、前記推定されたピッチ値のメジアンの部分集合の算術平均に等しく前記計算されたピッチ値をセットする手段を含むことを特徴とするシステム。３２．第２７項記載のシステムにおいて、前記計算を行う手段は更に前記複数個の推定手段からの前記予め定義された値に等しい前記推定されたピッチ値の部分集合を除くすべてに応動して、前記ピッチ値の前記部分集合の推定されたピッチ値が互いに他の予め定義された値以下しか異ならないとき、前記計算されたピッチ値を前記部分集合の算術平均に等しくセットする手段と；前記推定されたピッチ値の部分集合を除いて前記推定されたピッチ値のすべてが前記予め定義された値に等しいことに応動して、前記部分集合の前記推定されたピッチ値の各々の差が前記他の予め定義された値より大きいとき、前記計算されたピッチ値を前記予め定義された値に等しくセットする手段とを含むことを特徴とするシステム。３３．第２７項記載のシステムにおいて、前記計算を行う手段は、前記予め定義された値に等しい１つの推定されたピッチ値を除いて前記推定されたピッチ値のすべてに応動して、前記予め定義された値に等しくない前記推定されたピッチ値に等しく前記計算されたピッチ値をセットする手段を含むことを特徴とするシステム。３４．第２７項記載のシステムにおいて、前記複数個の推定手段は各々前記サンプルの前記個々の予め定められた解析的部分内で最大振幅を有する主要サンプルの位置を決定する手段と；最大振幅サンプルおよび前記音声フレーム内の互いに他のサンプルから最大の予想される基本音声周波数に基づいて最小距離以上隔っている最大振幅サンプルの振幅より小さな振幅を有する前記サンプルの前記予め定められた部分のサンプルの位置を決定する手段と；前記最大振幅サンプルの位置を基準として使用して隣接した位置にある候補サンプル間の距離を１つずつ測定する手段と；等しいかどうか相続く距離の測定値を比較し、前記最大振幅サンプルと周期的な関係を有さない候補サンプルを排除することによって周期性をテストする手段と；前記音声フレーム内の有効な極大サンプル間の距離の商によって前記推定されたピッチ値を決定する手段と；前記音声フレームが周期性を呈するときは有声と指示し、そうでないときには前記ピッチ値を予め定義された値に等しくセットすることにより無声と指示する手段を含むことを特徴とするシステム。３５．第３４項記載のシステムにおいて、前記複数個の推定を行う手段は前記推定手段４つを含み、前記推定手段の各々は更に前記サンプルに応動して前記サンプルをクリップして前記サンプルの前記個々の予め定められた部分を発生する手段を含み；前記推定手段の第１および第２のものは更に声道のフォルマント効果が除去された後に残る残差波である前記音声フレームの前記音声より成る前記サンプルの前記個々の予め定められた部分に応動する手段を含み；前記推定を行う手段の内の前記第３および第４のものは更に変更されていない前記音声フレームの音声に応動することを特徴とするシステム。３６．音声をディジタル・サンプルのフレームに変換する量子化装置と、複数個のプログラム・インストラクションおよびディジタル・サンプルの前記フレームに応動して音声のピッチを決定するディジタル信号プロセッサを含むシステムで人間の音声のピッチを検出する方法であって、該方法は：プログラム・インストラクションの第１の組に応動して前記プロセッサによって声道のフォルマント効果が実質的に除去された後に残るディジタル化された音声の残差サンプルを発生し；プログラム・インストラクションの第２の組および前記ディジタル化された音声サンプルの内の正のものに応動して前記プロセッサによって現在の音声フレームの第１のピッチ値を推定し；プログラム・インストラクションの第３の組および前記ディジタル化された音声サンプルの内の負、のものに応動して前記プロセッサによって前記現在の音声フレームの第２のピッチ値を推定し；プログラム・インストラクションの第４の組および前記残差サンプルの内の正のものに応動して前記プロセッサによって前記現在の音声フレームの第３のピッチ値を推定し；プログラム・インストラクションの第５の組および前記残差サンプルの内の負のものに応動して前記プロセッサによって前記現在の音声フレームの第４のピッチ値を推定し；プログラム・インストラクションの第６の組および前記推定されたピッチ値に応動して前記プロセッサによって複数個の以前の音声フレームおよび前記現在の音声フレームに基づいて最も最後の音声フレームの最終ピッチ値を決定するステップより成ることを特徴とする方法。３７．第３６項記載の方法において、前記プログラム・インストラクションの第６の組はプログラム・インストラクションの第２の部分集合を含み、前記決定を行うステップは：前記プログラム・インストラクションの第１の部分集合に応動して前記プロセッサによって前記第１、第２、第３、および第４のピッチ値から前記最終ピッチ値を計算し；前記ピッチ値を制限して、前記プロセッサ手段が前記プログラム・インストラクションの前記第２の部分集合に応動することによって前記最終ピッチ値が以前のフレームからの最終ピッチ値と一致するようにするステップより成ることを特徴とする方法。３８．第３７項記載の方法において、無声音声フレームは前記計算されたピッチ値が予め定義された値に等しいことによって示され、有声フレームは前記計算されたピッチ値が前記予め定義された値以外の値に等しいことによって示され、前記プログラム・インストラクションの第２の部分集合はプログラム・インストラクションの第１、第２および第３のグループを含み、前記制限を行うステップは更に：前記プロセッサがプログラム・インストラクションの第１のグループに応動することによって有声・無声・有声フレームの第１の系列に応動して有声フレームを示す新らしい計算されたピッチ値を発生し；前記プロセッサが前記プログラム・インストラクションの第２のグループに応動することによって無声・有声・無声フレームの第２の系列に応動して無声フレームを示す新らしい計算された値を発生し；前記プロセッサが前記プログラム・インストラクションの第３のグループに応動することによって有声・有声・有声フレームの第３の系列のフレームの計算されたピッチ値の算術平均に等しく新らしい計算されたピッチ値をセットするステップを含み；前記第２の系列に対する新らしい計算された値を発生するステップは前記プロセッサが前記プログラム・インストラクションの第２のサブグループに応動することによって前記予め定義された値に等しく前記第２の系列の新らしい計算されたピッチ値をセットするステップを含むことを特徴とする方法。４０．第３９項記載の方法において、前記プログラム・インストラクションの第２の部分集合はプログラム・インストラクションの第４のグループ、プログラム・インストラクションの第５のグループおよび有声・有声・無声フレームの第４の系列を含み、前記制限を行うステップは更に、前記プログラム・インストラクションの第４のグループに応動して前記プロセッサによって、２つの有声フレームの差が他の予め定義された値より小さいとき、２つの音声フレームおよび無声フレームに対する計算されたピッチ値平均に等しい新らしい計算されたピッチ値を発生し：前記プログラム・インストラクションの第５のグループに応動して前記プロセッサによって、２つの有声フレームに対する２つのピッチ値の差が前記他の予め定義された値より大きいとき、以前の有声フレームのピッチ値に等しい新らしい計算されたピッチ値を発生するステップを含むことを特徴とする方法。