JPS63500683A - 並列処理型ピッチ検出器 - Google Patents

並列処理型ピッチ検出器

Info

Publication number
JPS63500683A
JPS63500683A JP61504126A JP50412686A JPS63500683A JP S63500683 A JPS63500683 A JP S63500683A JP 61504126 A JP61504126 A JP 61504126A JP 50412686 A JP50412686 A JP 50412686A JP S63500683 A JPS63500683 A JP S63500683A
Authority
JP
Japan
Prior art keywords
value
pitch
voiced
frame
pitch value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61504126A
Other languages
English (en)
Other versions
JPH0820878B2 (ja
Inventor
ピコーン,ジョセフ
プレザス,デミトリオス パノス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPS63500683A publication Critical patent/JPS63500683A/ja
Publication of JPH0820878B2 publication Critical patent/JPH0820878B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 並列処理型ピッチ検出器 孜五立国 本発明は圧縮して記憶し、その後合成に使用するための人間の音声信号のディジ タル符号化に係り、特に音声の離散フレームのピッチの検出および音声および無 声の同時決定に関する。
又里傅宣塁 人間の音声を伝送するのに必要な帯域・幅を減少させるために、人間の音声をデ ィジタル化して、音声を符号化し、情報が伝送された後音声を再生するために復 号した後において、許容し得る品質を有する符号化され、ディジタル化された音 声を記憶するのに必要なディジタル・ビット/秒の数を最小化する方法が知られ ている。アナログ音声サンプルは20ミリ秒のオーダの時間幅を有する離散的長 さのフレーム、即ちセグメントに分割されている。
サンプリングは典型例では8kHzの速度で実行され、各サンプルはマルチビッ トのディジタル数に符号化される。相続く符号化されたサンプルは人間の声道を モデル化する適当なフィルタ・パラメータを決定する線形予測符号器(L P  G)で更に処理される。
各フィルタのパラメータは予め選択された数の以前のサンプル値の重み付けられ た和に基づいて効率的に各々のサンプルされた信号の現在の値を推定するのに使 用される。フィルタのパラメータは声道伝達関数のフォルマント構造をモデル化 する。音声信号は解析的には励起信号とフォルマント伝達関数から成るものと見 做される。励起成分は喉頭中で生じ、フォルマント成分は励起成分に対する声道 の残りの部分の作用によって生じる。励起成分は声帯によって空気流に分与され た基本周波数が存在するか否かに応じて更に音声あるいは無声に分類される。声 帯によって空気流に分与されf基本周波数が存在する場合には、励起成分は音声 と分類される。励起が無声であると、励起成分は単に白色雑音である。
低ビツト速度で伝送するために音声を符号化するには、音声のセグメントに対す るLPGパラメータ(係数とも呼ばれる)を決定し、音声を再生する復号回路に これらの係数を転送する必要がある。これに加えて励起成分を決定する必要があ る。まず第1にこの成分が有声と分類されるか、無声と分類されるかを決定しな ければならない。有声と分類されると、声帯により空気流に分与された基本周波 数を決定する必要がある。LPG係数を決定するのには多数の方法が存在する。
基本周波数の決定間B(これは通常ピッチ検出と呼ばれる)は更に困難である。
1つの従来のピッチ検出法は音声波形の長時間規則性という音声の重要な性質に 主として基づいている。理想的には有声音声は基本周波数成分とその高調波より 成る周期的信号と見做すことが出来る。従って、第2高調波より低い周波数で遮 断する低域フィルタの出力はピッチに等しい周波数を有する正弦波とならねばな らない。この周波数は振幅検出回路を使用して決定される。この方法の欠点は実 際の音声は音声の変位領域期間中にあっては規則性が乱されるのでこのモデルか ら逸脱してしまう点にある。更に、ピンチ周期それ自身が、話者が男性か女性か に依存して変化し得る。
ピッチ検出の音声のフォルマント構造を除去することによって(これはまたスペ クトラム平坦化とも呼ばれる)ある条件の下では強化することが出来る。スペク トラム平坦化はフーリエ変換あるいは線形予測解析を使用して実行出来る。スペ クトラムを平坦化するのにLPGフィルタを使用することはまた音声信号がらフ ォルマント構造を減算する逆フイルタ操作とも呼ばれる。このようなシステムが 米国特許第3,740,476号中に述べられている。LPC濾波の結果骨られ る残差波は声道の励起関数を近似し、この情報からピッチを抽出するのにパルス 振幅技法が使用可能である。
しかし、この手法は励起の高調波が音声信号のフォルマントの下゛ に入るとう まく動作しない。この状態が生じると、残差波中で見出される励起情報はr−p  c逆フィルタ操作によって除去される。
その結果、残差信号は雑音状となり、ピッチ・パルスは容易には検出されない。
他の従来のピッチ検出法がビー・ゴールドおよびエル・ラビナの「時領域中の音 声のピッチ周期を推定する並列処理技法」(Parallel Process ing Technjques for Estimating Pitch  Per−iods of 5peech in the Time Domai n )ぐレジャーナル痔(ス・叉・アコースティカル・ソサイアティ・主トヱj  田(TheJournal of the Acostical 5ocie ty of America)第36巻、第2号(第2部)、1969年に示さ れている。この論文は並列ピッチ検出器を使用しており、各々のピッチ検出器は アナログの音声信号に応動して個々にピンチの推定値を決定する。ピッチの推定 が行なわれた後、ピッチ推定値の行列が構成され、“正しい”ピッチを決定する アルゴリズムが使用される。この方法は音声の変位領域期間中でピッチを検出す る際に問題が生じる。何故ならばこの方法は元の音声信号に対してすべてのピッ チ推定を実行するからである。更に“正しい”ピンチの決定を行うのに使用され たアルゴリズムは主としてピッチの基本周波数を第2、第3高調波の差をとるこ とと関連している。
光里企慨! 本発明の図示のピッチ検出システムおよび方法は、各々が音声信号の異なる部分 に応動してピッチ値を推定する複数個の検出器と、各々が音声信号から計算され た残差信号の異なる部分に応動する他の複数個の検出器と、推定されたピンチ値 に応動して最終ピッチ値を決定する選定器を使用している。検出器の設計はすべ て同一であり、すべての符号器を実現するのにただ1つの型の符号器のみが必要 とされるので、効率的なソフトウェアを組むことが可能である。
本実施例は人間の音声に応動して音声をディジタル化および量子化するサンプル ・量子化回路を含んでいる。ディジタル信号プロセッサはプログラム・インスト ラクションの第1の組に応動して予め定められた数のディジタル化されたサンプ ルを音声フレームとして記憶し、プログラム・インストラクションの第2の組お よびディジタル化された音声サンプルに応動して声道のフォルマント効果が実質 的に除去された後に残るディジタル化された音声サンプルの残差サンプルを発生 し、プログラム・インストラクションの第3の組および音声サンプルの個々の予 め定められた部分に応動してピッチ値を推定し、プログラム・インストラクショ ンの第4の組および残差サンプルに応動してピッチ値を推定し、プログラム・イ ンストラクションの第5の組に応動して推定されたピッチ値から前記音声フレー ムの最終ピンチ値を決定する。
プログラム・インストラクションの第5の組はプログラム・インストラクション の第2の組の推定されたピッチ値からピッチ値を計算するプログラム・インスト ラクションの第1の部分集合と、最終ピッチ値を制限して、計算されたピンチ値 が以前のフレームからの計算されたピッチ値と一致するようにするプログラム・ インストラクションの第2の部分集合を含んでいる。
更に、無声音声フレームは計算されたピッチ値が予め定義された(i (これは Oであって良い)に等しいことによって示され;有声フレームは計算されたピッ チ値が予め定義された値に等しくないことによって示される。プログラム・イン ストラクションの第2の部分集合は更に有声・無声・有声フレームより成る第1 の系列に応動して有声フレームを示す新らしい計算されたピッチ値を発生するイ ンストラクションの第1のグループと、無声・有声・無声フレームより成る第2 の系列に応動して無声フレームを示す新らしい計算された値を発生するインスト ラクションの第2のグループと、有声・有声・有声フレームより成る第3の系列 に応動して該第3の系列のフレームの計算されたピッチ値と算術的な関係を存す る新らしい計算されたピンチ値を発生するインストラクションの第3のグループ より成る。
更に 第2の部分集合のインストラクションの第1のグループはフレームの第1 の系列に応動して第1の系列の有声フレームの計算されたピッチ値の算術平均に 等しく計算されたピッチ値をセットし、インストラクションの第2のグループは フレームの第2の系列に応動して新らしい計算されたピッチ値を前記予め定義さ れた値にセットする。
また、インストラクションの第2の部分集合は更に有声・有声・無声フレームよ り成る第4の系列に応動して、2つの有声フレームの差が他の予め定義された値 より小さいとき、新らしいピンチ値を有声・有声フレームに対する計算されたピ ッチ値の平均に等しくセントするインストラクションの第4のグループを含んで いる。2つの有声フレームに対するピッチ値の差が他の予め定義された値より大 であると、新らしい計算されたピッチ値は以前の有声フレームのピンチ値に等し くセフ]・される。
更に、プログラム・インストラクションの第1の部分集合は、予め定義された値 に等しい推定されたピッチ値の部分集合を除くすべてに応動して、ピンチ値の部 分集合の推定されたピンチ値が互いに他の予め定義された値以下しか異ならない とき、計算されたピッチ値をピッチ値の部分集合の算術平均に等しくセントする インストラクションの第1のグループを含んでいる。更にインストラクションの 第1のグループは推定されたピッチ値のすべてがピッチ値の部分集合を除いて予 め定義された値に等しいことに応動して、部分集合のピッチ値の各々の間の差が 他の予め定義された値より大きいとき、計算されたピッチ値を予め定義された値 に等しくセットする。
また、インストラクションの第1の部分集合は予め定義された値に等しいものを 除くすべての推定されたピッチ値に応動して、予め定義された値に等しくない推 定されたピッチ値に等しく計算されたピンチ値をセントするインストラクション の第2のグループを含んでいる。
また、ピンチ値を推定するのに使用されるプログラム・インストラクションの第 4の組はフレーム内の残差サンプルの予め定められた部分内において最大振幅の サンプルの位置を決定するインストラクションの第1の部分集合を有している。
インストラクションの第2の部分集合は、最大振幅サンプルおよびフレーム内の 他のサンプルの各々から、最大の予想される音声周波数に基づいて、最小距離以 上隔っている最大振幅サンプルの振幅より小さな振幅を有するフレーム中の後続 の最大サンプル(これはまた候補サンプルと呼ばれる)の位置を決定する。イン ストラクションの第3の部分集合は最大振幅サンプルを基準として使用して隣接 する位置の決定されたサンプル間の距離を1つ1つ測定する。インストラクショ ンの第4の部分集合は相続(距離の測定値が等しいかどうか比較し、最大振幅サ ンプルと周期的な関係にない候補サンプルを排除することにより周期性をテスト する。インストラクションの第5の部分集合はこの音声フレーム内の有効な極大 候補サンプル間の距離の商を計算することにより推定されたピンチ値を決定する 。最後に、インストラクションの第6の部分集合は、フレームが有声であるか無 声であるかを示す。フレームが無声であると、推定されたピッチ値は予め定義さ れた値(これは0であって良い)に等しくセ−/ トされ、無声フレームである ことを示す。
本発明の方法はアナログ音声をディジクル・サンプルのフレームに変換する量子 化装置およびディジタル化装置と、ディジタル音声の特定のフレームのピッチを 決定する複数個のプログラム・インストラクションを実行するディジタル信号プ ロセッサを有するシステム中で機能する。信号プロセッサは声道のフォルマント 効果が実質的に除去された後に残るディジタル化された音声の残差サンプルを発 生し、ディジタル化された音声サンプルの内の正のものから現在の音声フレーム の第1のピッチ値を推定し、ディジタル化された音声サンプルの内の負のものか ら第2のピッチ値を推定し、残差サンプルの内の正のものから第3の値を推定し 、残差サンプルの負のものから第4のピッチ値を推定し、複数個の以前の音声フ レームに対する推定ステップによって決定された推定されたピンチ値に基づいて 以前の音声フレームに対する最終ピッチ値を決定するステップを実行することに よりピンチを決定する。
最終ピッチ値を決定するステップはプログラム・インストラクションの部分集合 に応動して、第1、第2、第3、および第4の以前に推定されたピッチ値から最 終ピッチ値を計算し、最終ピッチ値が以前にディジタル信号プロセッサにより決 定された以前のフレームからの最終ピッチ値と一致するように最終ピッチ値を制 限するステップを実行するディジタル信号プロセッサにより実行される。
区WJ (7) B * ft礼哩 第1図は本発明に従うピッチ検出器のブロック図;第2図は第1図のピンチ検出 器108のブロック図;第3図は音声フレームの候補サンプルを図式的に示す図 ;第4図は第1図のピッチ選定器111のブロック図;第5図は第1図のディジ タル信号プロセッサの実現法を示す図である。
詳細な説明 第1図は本発明の主眼であるピッチ検出器を示す。該ピッチ検出器は導線113 を介して受信されたアナログ音声信号に応動して音声励起が有声であるが無声で あるかの指示を出力バス114上に提供し、有声である場合にはピンチを提供す る。ピッチの決定はピッチ検出器107〜110の出力に応動してピッチ選定器 111により行なわれる。折返しくエイリアス)を減少させるために、導vAl la上の入力音声はフィルタ100によって濾波される。このフィルタはその一 3dB周波数が3.3 k Hzの8次のバタワース・アナログ低域フィルタで あって良い。濾波された音声は次にサンプラ112および線形量子化袋2101 によってディジタル化・量子化される。量子化装置101はディジクル化された 音声X (n)をクリッパ103および104ならびにLPG符号器および逆フ ィルタ102に送信する。符号器およびフィルタ102の出力は逆フィルタから の残差信号であり、咳信号は信号路116を介してクリンパ105および106 に送信される。符号器およびフィルタ102はまず最初にLPG逆フィルタによ って使用されるフィルタ係数を決定するのに要求される計算を実行し、これらフ ィルタ係数を使用してディジタル化された音声信号の逆フイルタ操作を実行する ことにより残差信号e (n)を計算する。これは次のようにして実行される。
ディジタル化された音声X (n)は20ミリ秒のフレームに分割される。(こ の20ミリ秒のフレーム期間中全極LPCフィルタは時間的に不変であるものと 仮定している。)ディジタル化された音声のフレームは格子計算法を使用して反 射係数の組(例えば10ケ)を計算するのに使用される。その結果骨られる10 次の逆格子フィルタは前方向予測誤差、即ぢ残差を発生すると共に反射係数を提 供する。クリッパ103〜106は信号路115および116上の到来するXお よびeなるディジタル化された信号を正に向う波形および負に向う波形に変換す る。これらの信号を形成する目的は混成波形は明白に周期性を示さないことがあ るが、クリップされた信号は周期性を明白に示すことがあり得るからである。従 って周期性の検出はより容易となる。クリッパ103および105はXおよびe 信号を夫々正に向う信号に変換し、クリッパ104および106はXおよびe信 号を夫々負に向う信号に変換する。
ピッチ検出器107〜110は各々それ自身の個々の入力信号に応動して到来信 号の周期性を決定する。ピッチ検出器の出力はこれら信号の受信後2フレームし て生じる。この例では各フレームは160サンプル点より成ることに注意された い、ピッチ選定器111は4つのピッチ検出器の出力に応動して最終的なピンチ を決定する。ピッチ選定器111の出力は信号路114を介して送信される。
第2図はピッチ検出器108のブロック図である。他のピッチ検出器も同様に設 計されている。最大値位置決定器(ロケータ)201は各フレームのディジタル 化された信号に応動してパルスを見出し、それに対して周期性がチェックされる 。最大値ロケータ201の出力は2組の数値であり、1つは候補サンプルである 最大振幅M8を表わす数値であり、他の1つはこれら振幅のフレーム内の位置り 、を表わす数値である。距離検出器202はこれら2組の数値に応動して周期的 な候補パルスの部分集合を決定する。この部分集合はこのフレームの周期性に関 する距離検出器202の決定を表わす。距離検出器202の出力はピッチ追尾装 置203に転送される。ピッチ追尾装置203の目的はピンチ検出器のピッチに 関する決定をディジタル化された信号の相続くフレームの間に制限することであ る。この機能を実行するためにピッチ追尾装置203は2つ以前のフレームに対 して決定されたピッチを使用する。
さて最大値ロケータ201によって実行される動作について更に詳細に考察する 。最大値ロケータ201はまず最初にフレームからのサンプルの中でフレーム中 の大局的最大振幅M0とその位置D0を同定する。周期性チェックのために選択 された他の点は以下の条件を全て満さねばならない。第1に、パルスは局部最大 のものでなければならない。これは次に取り出されるパルスは既に取り出される かまたは除去されたすべてのパルスを除いてフレーム中の最大振幅を有するもの ′でなければならないことを意味する。この条件は、ピッチ・パルスは通常フレ ーム中の他のサンプルより大きな振幅を有していると仮定しているので適用され る。
第2に、選択されたパルスの振幅は大局的最大値のある割合よりも大きいか等し い、即ちM+ > g Mo (ここでgは例えば25%といった闇値振幅パー セントである)でなければならない。第3にパルスは既に位置が決定されたすべ てのパルスから少くとも18サンプルは隔っていなければならない。この条件は 人間の音声で生じる最高のピンチは約440Hzであり、これは8に、 llz のサンプル速度では18サンプルとなるという仮定に基づいている。
距離検出器202は再帰的に動作し、まずフレームの大局的最大値M。から最も 隣接した候補パルスへの距離を調べることから始める。この距離は候補距離dc と呼ばれ、次式で与えられる。
de=lD、 −DI + ここでり、は最も隣接した候補パルスのフIノーム内の位置である。
フレーム中のこのよ・うなパルスの部分集合がこの距離から息継ぎ期間Bを加減 したものだけ隔っていないと、この候補距離は棄却され、操作は新らしい候補距 離を使用して次に最も隣接する候補パルスに対して再び開始される。Bは4〜7 の値を有していて良い。この新らしい候補距離は次に隣接するパルスと大局的最 大値パルスの距離である。
ピッチ検出器202が距離dc+Bだけ隔った候補パルスの部分集合を決定する と、内挿振幅テストが適用される。内挿振幅テストはMoと次に隣接する候補パ ルスの各々との間の線形内挿を実行し、Moに直接隣接する候補パルスの振幅は これら内挿された値の少くともqパーセントである。内挿振幅闇値q%は75% である。第3図に示す候補パルスの例を考えるedcが妥当な候補距離であるた めには次式が成立しなければならない。
ここで であり、先に指摘したように M、>gM、 、=]、2.3.4.5である。
ピッチ追尾装置203は距離検出器202の出力に応動してピッチ距離の推定値 を評価する。このピッチ距離の推定値はピンチの周波数と関連している。何故な らばピッチ距離はピンチの周期を表わすからである。ピッチ追尾装置203の機 能は以下で述べる4つのテストを実行することによりピッチ検出器から受信され た初期ピッチ距離推定値を必要な場合には修正することによりフレームからフレ ームにわたって矛盾がないようにピッチ距離の推定値を制限することである。こ こで4つのテストとは、音声セグメント開始テスト、最大息継ぎおよびピッチ倍 化テスト、制限テストおよび急激変化テストである。これらのテストの内の第1 番目のものである音声セグメント開始テストは有声領域の開始時点におけるピン チ距離の無矛盾性を保証するために実行される。このテストは有声領域の開始と のみ関連しているので、現在のフレームは零でないピッチ周期を有することを仮 定している。この仮定は先行するフレームおよび現在のフレームが有声領域中の 第1および第2の音声フレームであるという仮定に等しい。ピンチ距離の推定値 がT(i)(ここでiは距離検出器202からの現在のピッチ距離推定値を表わ す)によって表わされるならば、ピッチ検出器203はT* (i−2)を出力 する。何故ならば各検出器を通して2フレームの遅延が存在するからである。こ のテストはT(i−3)およびT(i−2)がOであるかまたはT(i−2)が 非OでT(i−3)およびT(i−4)がO(これはフレーム+−2およびi− 1が有声領域中の夫々第1および第2の有声フレームであることを意味する)の ときにのみ実行される。
音声セグメント開始テストは2つの無矛盾性テストを実行する。
1つは第1の有声フレームT(i−2)に対するものであり、他方は第2の有声 フレームT(i−1)に対するものである。これら2つのテストは相続くフレー ムの期間中に実行される。音声セグメント・テストの目的は有声領域が実際には 始まっていないときに有声領域の開始を規定する確率を減少させることである。
このことは音声領域に対する他の無矛盾性テストが最大息継ぎおよびピッチ倍化 テストにおいて実行され、そこではただ1つの無矛盾条件が要求されるために重 要である。第1の無矛盾テストはT(+’−2)中の右側の候補サンプルとT( i−1)およびT(i−2)中の最も左側の候補サンプルの距離がピッチ閾値B +2内にあることを保証するために実行される。
第1の無矛盾性テストが満されると、次のフレーム期間中に第2の無矛盾性テス トが実行され、第1の無矛盾性テストが保証したと同じ結果をフレーム系列が右 に1つシフトされた現在でも得ることを保証するために実行される。第2の無矛 盾性テストが満されないと、T (i−1)はOにセントされ、(T(i−2> が0にセットされていなかったとすると)フレームi−1は第2の有声フレーム たりえないことを示す。しかし、両方の無矛盾性テストに合格すると、フレーム i−2およびi−1は有声IN域の開始を規定する。T (+−1>がOにセッ トされ、T(i−2)が非0であると決定され、T(i−3>が0 (これはフ レームi−2が2つの無声フレームの間の有声フレームであることを示す)であ ると、急激変化テストがこの状況に対処するが、この特殊テストについては後述 する。
最大息継ぎおよびピッチ倍化テストは有声領域中の2つの隣接した有声フレーム にわたるピッチの無矛盾性を保証する。従って、このテストはT (i−3)  、T (i−2)およびT (+−1)が非0のときにのみ実行される。最大息 継ぎおよびピッチ倍化テストはまた距離検出器202によって生じたピッチ倍化 誤差をチェックし、補正する。チェックのピンチ倍化部分はT(i−2)および T(i−1)が無矛盾であるかどうか、またT (+−2>がT(i−1)の2 倍と無矛盾(これはピッチ倍化誤差を意味する)であるかどうかをチェックする 。このテストはまずAを10なる値を有するものとして によって実行されるテストの最大息継ぎ部分に合格するかどうかをチェックする 。この式が満されると、T(i−1)はピンチ距離の良好な推定値であり、修正 する必要はない。しかし、テストの最大息継ぎ部分に失敗すると、テストのピッ チ倍化部分を満すかどうかを決定するテストを実行しなければならない。テスト の第1の部分はT(i−3)が非Oであるとして、T(i−2)およびT(i− 1)の2倍が なる条件を満すかどうかをチェックする。この条件を満すと、T(+−1)はT (i−2)に等しくセントされる。この条件が満されないと、T (i−1>は Oにセントされる。テストのこの部分の第2の部分はT (i−3)が0に等し いときに実行される。
が満されると T (i−1) −T (+−2) である。前述の条件が満されないと、T (i−1)は0にセフ)される。
T (i−1)に対して実行される制限テストは計算されたピンチが50Hz〜 4001(zの人間の音声の範囲内にあることを保証する。計算されたピッチが この範囲内に入らないと、T(i−1)は0にセントされ、フレームi−1は計 算されたピッチを有する有声フレームとはなり得ないことを示す。
急激変化テストは3つの以前のテストが実行された後に実行され、他のテストが 無声領域の中間の有声フレームあるいは有声領域の中間の無声フレームであると 許容したことが正しいかどうかを判定することを目的としている。人間は通常は 前記のような音声フレームの系列を発生し得ないから、急激変化テストは有声− 無声−有声あるいは無声−有声−無声の系列を除去することにより任意の有声ま たは無声セグメントは少くとも2フレームは続くことを保証する。急激変化テス トは2つの別個の手順より成り、各手順は前述した2つの系列を検出するよう設 計されている。ピッチ追尾装置203が前述した4つのテストを実行すると、該 追尾装置はT* (i−2)を第1図のピッチ選定器111に出力する。ピッチ 追尾装置203は距離検出器202から次に受信されたピンチ距離に対する計算 を行うため他のピッチ距離を保持している。
第4圓は第1図のピッチ選定器111を更に詳細に示している。
ピッチ値推定器401はピッチ検出器107〜]、 10の出力に応動して2フ レーム以前のピッチの初期推定値P (i−2)を形成し、ピンチ値追尾装置4 02はピッチ値推定器401の出力に応動じて3つ以前のフレームの最終ピンチ 値P (i−3)がフレームからフレームにわたって矛盾がないように制約する 。
ここでピッチ値推定器401によって実行される機能を更に詳細に考察する。一 般に、ピンチ値推定器401によって受信された4つのピッチ距離の推定値すべ てが非O〈これは有声フレームであることを示す)であると、最小および最大の 推定値が棄却され、P (i−2)は残りの2つの推定値の算術平均にセットさ れる。同様に、ピッチ距離推定値の内3つが非0であると、最大および最小の推 定値が棄却され、ピッチ値推定器401はP (i −2)を残りの非0の推定 値に等しくセットする。推定値の内2つのみが非0であると、ピッチ値推定器4 01は2つのピンチ距離推定値がピッチ闇値A内にあるときのみ2つのピッチ距 離推定値の算術平均に等しくP(i−2)をセントする。2つの値がピッチ闇値 A内にないときは、ピッチ値推定器401はP (i−2)をOにセントする。
この決定は個々の検出器の幾つかは周期性を誤って決定したが、フレームi−2 は無声であることを示している。4つのピッチ距離推定値の内のただ1つが非0 であると、ピッチ値推定器401はP (i−2>をその非0値に等しくセット する。この場合、以前のピンチ推定値と矛盾が生じないようにこのピッチ距離の 推定値の妥当性のチェックがピンチ値追尾装置402により行なわれる。ピッチ 距離推定値がすべてOであると、ピッチ値推定器401はP (i−2)を0に セントする。
次にピッチ値追尾装置402について更に詳細に考察する。ピッチ値追尾装W4 02はピッチ値推定器401の出力に応動して3つ以前のフレームのピンチ値推 定値p* (i−3)を発生するが、この推定値はP (i−2)およびP ( i−4)に基づいて行なわれる。ピッチ値p* (i−3)はフレームからフレ ームにわたって矛盾がないように選択される。
最初にチェックされるのは有声−無声−有声、無声−有声−無声、または有声− 有声−無声の形を有するフレームの系列である。
P (i−4)およびP (i−2)が非0でP (i−3)が0であることに よって示される第1の系列が生じると、最終ピンチ値p*(+−3’)はピッチ 値追尾装置402によりP (i−4)およびP(i、−2)の算術平均に等し くセットされる。第2の系列が生じると、最終ピンチ値p* (t−3)はOに 等しくセットされる。第3の系列に関しては、ピッチ値追尾装置はP(i−4) およびP (i−3)が非0であり、P(i−2>がOであることに応動して、 P (i−3)およびP(i−4)がピンチ闇値A内にある限り、p* (i− 3)をP (+−3)およびP (i−4>の算術平均にセットする。ピッチ追 尾装置402はであることに応動して次の操作を実行する。
ピッチ値追尾装置402がP (i−3)およびP (i−4)は前述の条件を 満さない(即ちこれらがピッチ闇値A内にない)とすると、ピッチ値追尾装置4 02はp* (i−3)をP (i−4)の値に等しくセントする。
前述の操作に加えて、ピッチ値追尾装置402はまたある型の有声−有声−有声 フレーム系列に対するピンチ値推定値を平滑化する操作を実行する。この平滑化 操作が実行されるフレーム系列は3つの型がある。第1の系列は次式が成立する ときである。
および この条件が成立すると、ピンチ値追尾装置402はとセットすることにより平滑 化操作を実行する。
条件の第2の組は次式で与えられる。
この第2の条件の組が成立すると、ピンチ値追尾装置402は次のように値をセ ントする。
第3 (最終)の条件の組は次式で定義される。
この最後の条件が成立すると、ピンチ値追尾装置402は次のように値をセント する。
P* (i−3) =P (+−4) 第5図は例えばテキサス・インスッルメントのT M S 32020のような ディジクル信号プロセフザを使用する第1図のブロックの実現例を示している。
このプロセッサおよびPROMメモリ502およびRAMメモリ503により第 1図のブロック102〜111が形成されている。第1図の前述の素子を実現す るためにFROM502中に記憶されたプログラムはCのソース・コード・プロ グラムと類似のものである。このプログラムは適当なり/AおよびA/D変換装 置を有する計算機システムまたは類似のシステム上で実行するように作られてい る。第1図のピッチ検出器107〜11.0はRAM503中の各ピッチ検出器 に対する別個のデータ記憶領域を使用する共通コードにより実現されている。第 2および4図に示されている第1回の詳細部はFROM502内に記憶されたプ ログラム・インストラクションの組によって実現される。プログラム・インスト ラクションの各組は更にプログラム・インストラクションの部分集合およびグル ープに細分割されている。
前述の実施例は本発明の原理を華に例示するものであり、本発明の精神および範 囲を逸脱することなく当業者にあっては他の装置を考案し得ることを理解された い。
FIG、1 FIG、2 FIG、3 FIG、4 FIG= 5 国際調査報告 1elar+uula*al ADNclllo’t +Is、 PCT/υS  86101552ANNEX To THE IhJTERNATIONAl :、5EARCHREPORT 0NINTERNATIONAL APPLI CATION No、 PCT/U586101552 (SA 1413B) tJS−A−391610528/10/75 None

Claims (1)

  1. 【特許請求の範囲】 1.人間の音声のピッチ検出システムであって、該システム:前記音声の瞬時振 幅の予め定められた数の等間隔サンプルを音声フレームとして記憶する手段と: 前記音声サンプルから残差サンプルを発注する手段と;各々が前記フレームの前 記残差サンプルの個々の予め定められた部分に応動して前記フレームのピッチ値 を推定する複数個の同一の手段と; 各々が前記フレームの前記音声サンプルの個々の予め定められた部分に応動して 前記フレームのピッチ値を推定する他の複数個の同一の手段と; 前記推定手段の各々からの個々に推定されたピッチ値に応動して前記音声フレー ムの最終ピッチ値を決定する手段とを含むことを特徴とするシステム。 2.第1項記載のシステムにおいて、前記最終ピッチ値を決定する手段は: 前記推定されたピッチ値の内の前記のものから最終ピッチ値を計算する手段と; 計算されたピッチ値が以前のフレームからの計算されたピッチ値と一致するよう に前記最終ピッチ値を制限する手段とを含むことを特徴とするシステム。 3.第2項記載のシステムにおいて、無声フレームは前記計算されたピッチ値が 予め定義された値に等しいことによって示され、有声フレームは前記計算された ピッチ値が前記予め定義された値以外の値に等しいことによって示され、前記制 限を行う手段は:有声フレーム・無声フレーム・有声フレームの第1の系列に応 動して有声フレームを示す新らしい計算されたピッチ値を発生する手段と; 無声フレーム・有声フレーム・無声フレームの第2の系列に応動して無声フレー ムを示す新らしい計算された値を発生する手段と; 有声フレーム・有声フレーム・有声フレームの第3の系列に応動して該第3の系 列の計算されたピッチ値と算術的関連を有する新らしく計算されたピッチ値を発 生する手段とを含むことを特徴とするシステム。 4.第3項記載のシステムにおいて、前記第1の系列に応動する前記発生手段は 新らしく計算されたピッチ値を前記第1の系列の有声フレームの計算されたピッ チ値の算術平均に等しくセットする手段を含み; 無声・有声・無声フレームの第2の系列に応動する発生手段は新らしく計算され たピッチ値を前記予め定義された値にセットすることを特徴とするシステム。 5.第4項記載のシステムにおいて、前記制限を行う手段は更に有声・有声・無 声フレームなる第4の系列に応動して、2つの有声フレームの差が他の予め定義 された値以下あるとき、有声フレームと無声フレームの計算されたピッチ値の平 均に等しい新らしい計算されたピッチ値を発生する手段と;前記第4の系列に応 動して、2つの有声フレームのピッチ値が前記他の予め定義された値より大であ るとき、以前の有声フレームのピッチ値に等しい新らしい計算されたピッチ値を 発生する手段とを含むことを特徴とするシステム。 6.第2項記載のシステムにおいて、前記計算する手段は前記予め定義された値 とは異なる値を有する前記推定されたピッチのすべてに応動して前記計算された ピッチ値を前記ピッチ値のメジアンの部分集合の算術平均に等しくセットする手 段を含むことを特徴とするシステム。 7.第2項記載のシステムにおいて、前記計算する手段は更に前記複数個の推定 手段からの前記予め定義された値に等しい前記推定されたピッチ値の部分集合を 除くすべてに応動て、前記ピッチ値の前記部分集合の推定されたピッチ値が互い に他の予め定義された値以下しか異ならないとき、前記計算されたピッチ値を前 記部分集合の算術平均に等しくセットする手段と;前記推定されたピッチ値の部 分集合を除いて前記推定されたピッチ値のすべてが前記予め定義された値に等し いことに応動して、前記部分集合の前記推定されたピッチ値の各々の差が前記他 の予め定義された値より大であるとき、前記計算されたピッチ値を前記予め定義 された値に等しくセットする手段とを含むことを特徴とするシステム。 8.第2項記載のシステムにおいて、前記計算を行う手段は前記予め定義された 値に等しい1つの推定されたピッチ値を除いて前記推定されたピッチ値のすべて に応動して、前記計算されたピッチ値を前記予め定義された値に等しくない前記 推定されたピッチ値に等しくセットする手段を含むことを特徴とするシステム。 9.第2項記載のシステムにおいて、前記複数個の推定手段は各各前記残差サン プルの前記個々の予め定められた部分内において最大振幅を有する主要サンプル の位置を決定する手段と;前記最大振幅サンプルおよび前記フレーム内の各々の 他の残差サンプルから予想される最高の基本音声周波数に基づいて最小距離より 間隔が隔っている最大振幅サンプルの振幅より小さな振幅を有する前記残差サン プルの前記予め定められた部分のサンプルの位置を決定する手段と; 前記最大振幅サンプルの位置を基準として使用して隣接する位置の決定された候 補サンプル間の距離を1つ1つ測定する手段と;実質的に等しいかどうかを調べ るために相続く距離の測定結果を比較し、前記最大振幅サンプルと周期的な関係 にない候補サンプルを排除することにより周期性のテストを行う手段と;前記フ レーム内の極大サンプル間の距離の商によって前記推定されたピッチ値を決定す る手段と; フレームが周期性を呈するときは有声であると指示し、周期性を呈さないときは 前記推定されたピッチ値を予め定義された値に等しくセットすることにより無声 であると指示する手段とを含むことを特徴とするシステム。 10.第9項記載のシステムにおいて、前記複数個の推定手段は前記推定手段の 内の2つを含み、前記推定手段の各々は更に前記残差サンプルに応動して該残差 サンプルをクリップして該残差サンプルの個々の予め定められた部分を発生する 手段を含むことを特徴とするシステム。 11.人間の音声用のピッチ検出器において、該検出器は:前記音声の瞬時振幅 の予め定められた数の等間隔音声サンプルを現在の音声フレームとして記憶する 手段と;声道のフォルマント効果が実質的に除去された後に残る音声の残差サン プルを発生するために前記サンプルを濾波する手段と;前記音声サンプルの内の 正のものに応動して前記現在の音声フレームの第1のピッチ値を推定する第1の 手段と;前記音声サンプルの内の負のものに応動して前記現在の音声フレームの 第2のピッチ値を推定する第2の手段と;前記残差サンプルの内圧のものに応動 して前記現在の音声フレームの第3のピッチ値を推定する第3の手段と;前記残 差サンプルの内の負のものに応動して前記現在の音声フレームの第4のピッチ値 を推定する第4の手段と:推定手段の各々からの推定されたピッチ値に応動して 複数個の以前の音声フレームおよび前記現在の音声フレームに基づいて最も近い 以前の音声フレームの最終ピッチ値を決定する手段とを含むことを特徴とするピ ッチ検出器。 12.第11項記載のシステムにおいて、前記決定手段は:前記推定されたピッ チ値の内の前記のものからピッチ値を計算する手段と; 計算されたピッチ値が以前のフレームからの計算されたピッチ値と一致するよう に前記最終ピッチ値を制限する手段とを含むことを特徴とするシステム。 13.第12項記載のシステムにおいて、無声音声フレームは前記計算されたピ ッチ値が予め定義された値に等しいことによって示され、有声フレームは前記計 算されたピッチ値が前記予め定義された値以外の値に等しいことによって示され 、前記制限手段は:有声・無声・有声フレームの第1の系列に応動して有声フレ ームを示す新らしい計算されたピッチ値を発生する手段と;無声・有声・無声フ レームの第2の系列に応動して無声フレームを示す新らしい計算された値を発生 する手段と;有声・有声・有声フレームの第3の系列に応動して該第3の系列の フレームの計算されたピッチ値と算術的関係を有する新らしい計算されたピッチ 値を発生する手段とを含むことを特徴とするシステム。 14.第13項記載のシステムにおいて、前記第1の系列に応動する前記発生手 段は前記第1の系列の有声フレームの計算されたピッチ値の算術平均に等しい新 らしい計算されたピッチ値をセットする手段を含み; 該発生手段は無声・有声・無声フレームの前記第2の系列に応動して新らしい計 算されたピッチ値を前記予め定義された値にセットすることを特徴とするシステ ム。 15.第14項記載のシステムにおいて、前記制限を行う手段は更に有声・有声 ・無声フレームの第4の系列に応動して、2つの有声フレームの差が他の予め定 義された値以下のとき、有声フレームおよび無声フレームに対する計算されたピ ッチ値の平均に等しい新らしい計算されたピッチ値を発生する手段と;前記第4 の系列に応動して、2つの有声フレームに対するピッチ値の差が前記他の予め定 義された値より大きいとき、以前の有声フレームのピッチ値に等しい新らしい計 算されたピッチ値を発生する手段とを含むことを特徴とするシステム。 16.第12項記載のシステムにおいて、前記計算を行う手段は前記予め定義さ れた値とは異なる値を有する前記推定されたピッチ値のすべてに応動して、前記 推定されたピッチ値のメジアンの部分集合の算術平均に等しく前記計算されたピ ッチ値をセットする手段を含むことを特徴とするシステム。 17.第12項記載のシステムにおいて、前記計算を行う手段は更に前記複数個 の推定手段からの前記予め定義された値に等しい前記推定されたピッチ値の部分 集合を除くすべてに応動して、前記ピッチ値の前記部分集合の推定されたピッチ 値が互いに他の予め定義された値以下しか異ならないとき、前記部分集合の算術 平均に等しく前記計算されたピッチ値をセットする手段と;前記推定されたピッ チ値の部分集合を除いて前記推定されたピッチ値のすべてが前記予め定義された 値に等しいことに応動して、前記部分集合の前記推定されたピッチ値の各々の差 が前記他の予め定義された値より大であるとき、前記予め定義された値に等しく 前記計算されたピッチ値をセットする手段とを含むことを特徴とするシステム。 18.第12項記載のシステムにおいて、前記計算を行う手段は前記予め定義さ れた値に等しい1つの推定されたピッチ値を除く前記推定されたピッチ値のすべ てに応動して、前記計算されたピッチ値を定義された値に等しくない前記推定さ れたピッチ値に等しくセットする手段を含むことを特徴とするシステム。 19.人間の音声のピッチを決定するピッチ検出器において、該ピッチ検出器は : 前記人間の音声を低域濾波する手段と;前記人間の音声をディジタル化された音 声サンプルのフレームにディジタル的にサンプルする手段と;プログラム・イン ストラクションの第1の組と前記ディジタル化された音声サンプルに応動して前 記ディジタル化されたサンプルを濾波し、声道のフォルマント効果が実質的に除 去された後に残る音声の残差サンプルを発生させるプロセッサ手段とを含み;該 プロセッサ手段は更にインストラクションの第2の組および前記ディジタル化さ れた音声サンプルの内の正のものに応動して、現在の音声フレームの第1のピッ チ値を推定し;該プロセッサ手段はプログラム・インストラクションの第3の組 および前記ディジタル化された音声サンプルの内の負のものに応動して、前記現 在の音声フレームの第2のピッチ値を推定し;該プロセッサ手段はプログラム・ インストラクションの第4の組および前記残差サンプルの内の正のものに応動し て前記現在の音声フレームの第3のピッチ値を推定し;該プロセッサ手段はプロ グラム・インストラクションの第5の組および前記残差サンプルの内の負のもの に応動して前記現在の音声フレームの第4のピッチ値を推定し;該プロセッサ手 段はプログラム・インストラクションの第6の組および前記推定されたピッチ値 に応動して、複数個の以前の音声フレームおよび前記現在の音声フレームに基づ いて最も近い以前の音声フレームの最終ピッチ値を決定することを特徴とするピ ッチ検出器。 20.第19項記載のシステムにおいて、前記プログラム・インストラクション の第6の組は: プログラム・インストラクションの第1の部分集合を含み、前記プロセッサ手段 はプログラム・インストラクションの前記第1の部分集合に応動して前記第1、 第2、第3および第4のピッチ値から前記最終ピッチ値を計算し; 更にプログラム・インストラクションの第2の部分集合を含み、前記プロセッサ 手段はプログラム・インストラクションの前記第2の部分集合に応動して前記最 終ピッチ値が以前のフレームからの最終ピッチ値と一致するよう前記最終ピッチ 値を制限することを特徴とするシステム。 21.第20項記載のシステムにおいて、無声音声フレームは前記ピッチ値め定 義された値に等しいことによって示され、有声フレームは前記計算されたピッチ 値が前記予め定義された値以外の値に等しいことによって示され、前記プログラ ム・インストラクションの第2の部分集合は: インストラクションの第1のグループを含み、前記プロセッサ手段は該インスト ラクションの第1のグループおよび有声・無声有声フレームの第1の系列に応動 して、有声フレームを示す新らしい計算されたピッチ値を発生し; 更にインストラクションの第2のグループを含み、前記プロセッサ手段は前記イ ンストラクションの第2のグループおよび無声有声・無声フレームの第2の系列 に応動して無声フレームを示す新らしい計算された値を発生し; 更にインストラクションの第3のグループを含み、前記プロセッサ手段は前記イ ンストラクションの第3のグループおよび有声有声・有声フレームの第3の系列 に応動して該第3の系列のフレームの計算されたピッチ値を算術的な関係を有す る新らしい計算されたピッチ値を発生することを特徴とするシステム。 22.第21項記載のシステムにおいて、前記インストラクションの第1のグル ープはインストラクションの第1のサブグループを食み、前記プロセッサ手段は 前記インストラクションの第1のサブグループおよび前記第1の系列に応動して 前記第1の系列の有声フレームの計算されたピッチ値の算術平均に等しく新らし く計算されたピッチ値をセットし; 前記インストラクションの第2のグループは更にインストラクションの第2のサ ブグループを含み、前記プロセッサ手段は前記インストラクションの第2のサブ グループおよび前記フレームの系列に応動して新らしい計算されたピッチ値を前 記予め定義された値にセットすることを特徴とするシステム。 23.第22項記載のシステムにおいて、前記インストラクションの第2の部分 集合は更にインストラクションの第4のグループを含み、前記プロセッサ手段は 前記インストラクションの第4のグループおよび有声・有声・無声フレームの第 4の系列に応動して、2つの有声フレームの差が他の予め定義された値以下であ るとき、2つの有声フレームおよび無声フレームに対する計算されたピッチ値の 平均に等しい新らしい計算されたピッチ値を発生し;更にインストラクションの 第4のグループを含み、前記プロセッサ手段は前記インストラクションの第5の グループおよび前記第4の系列に応動して、2つの有声フレームに対するピッチ 値の差が前記他の予め定義された値より大であるとき、以前の有声フレームのピ ッチ値に等しい新らしい計算されたピッチ値を発生することを特徴とするシステ ム。 24.第20項記載のシステムにおいて、前記インストラクションの第1の部分 集合は更にインストラクションの第1のグループを含み、前記プロセッサ手段は 前記インストラクションの第1のグループおよび前記予め定義された値とは異な る値を有する前記推定されたピッチ値のすべてに応動して、前記推定されたピッ チ値の部分集合の算術平均に等しく前記計算されたピッチ値をセットすることを 特徴とするシステム。 25.第24項記載のシステムにおいて、前記インストラクションの第1の部分 集合はインストラクションの第2のグループを含み、前記プロセッサ手段は前記 インストラクションの第2のグループおよび前記予め定義された値に等しい前記 推定されたピッチ値の部分集合を除くすべてに応動して、前記ピッチ値の前記部 分集合の推定されたピッチ値が互いに他の予め定義された値以下の値しか異なら ないとき、前記部分集合の算術平均に等しく前記計算されたピッチ値をセットし ; 更にインストラクションの第3のグループを含み、前記プロセッサ手段は該イン ストラクションの第3のグループおよび前記推定されたピッチ値の部分集合を除 いて前記推定されたピッチ値のすべてが前記予め定義された値に等しいことに応 動して、前記部分集合の前記ピッチ値の各々の差が他の予め定義された値より大 きいとき、前記計算されたピッチ値を前記予め定義された値に等しくセットする ことを特徴とするシステム。 26.第25項記載のシステムにおいて、前記インストラクションの第1の部分 集合はインストラクションの第4のグループを含み、前記プロセッサ手段は前記 インストラクションの第4のグループおよび前記予め定義された値に等しい1つ の推定されたピッチ値を除く前記推定されたピッチ値のすべてに応動して前記予 め定義された値に等しくない前記推定されたピッチ値に等しく前記計算されたピ ッチ値をセットすることを特徴とするシステム。 27.人間の音声のピッチ検出器システムにおいて、該システムは:前記音声の 瞬時振幅の予め定義された数の等間隔サンプルを音声フレームとして記憶する手 段と; 各々が前記音声フレームの前記サンプルの個々の予め定められた部分に応動して 前記音声フレームのピッチ値を推定する複数個の同一の手段と; 前記推定されたピッチ値の内の前記のものから最終ピッチ値を計算する手段と; 前記最終ピッチ値を制限して計算されたピッチ値が以前のフレームからの計算さ れたピッチ値と一致するようにする手段とを含むことを特徴とするピッチ検出器 システム。 28.第27項記載のシステムにおいて、無声音声フレームは前記計算されたピ ッチ値が予め定義された値に等しいことによって示され、有声フレームは前記計 算されたピッチ値が前記予め定義された値以外の値に等しいことによって示され 、前記制限を行う手段は: 有声・無声・有声フレームの第1の系列に応動して有声フレームを示す新らしい 計算されたピッチ値を発生する手段と;無声・有声・無声フレームの第2の系列 に応動して無声フレームを示す新らしい計算された値を発生する手段と;有声・ 有声・有声フレームの第3の系列に応動して前記第3の系列のフレームの計算さ れたピッチ値と算術的関係を有する新らしい計算されたピッチ値を発生する手段 とを含むことを特徴とするシステム。 29.第28項記載のシステムにおいて、前記第1の系列に応動する前記発生手 段は前記第1の系列の有声フレームの計算されたピッチ値の算術平均に等しく新 らしい計算されたピッチ値をセットする手段を含み; 前記発生手段は無声・有声・無声フレームの前記第2の系列に応動して新らしい 記算されたピッチ値を前記予め定義された値にセットすることを特徴とするシス テム。 30.第29項記載のシステムにおいて、前記制限を行う手段は更に有声・有声 ・無声フレームの第4の系列に応動して、2つの有声フレームの差が他の予め定 義された値以下であるとき、有声フレームおよび無声フレームに対する計算され たピッチ値の平均に等しい新らしい計算されたピッチ値を発生する手段と;前記 第4の系列に応動して、2つの有声フレームに対するピッチ値の差が前記他の予 め定義された値より大きいとき、以前の有声フレームのピッチ値に等しい新らし い計算されたピッチ値を発生する手段を含むことを特徴とするシステム。 31.第28項記載のシステムにおいて、前記計算を行う手段は前記予め定義さ れた値とは異なる値を有する前記推定されたピッチ値のすべてに応動して、前記 推定されたピッチ値のメジアンの部分集合の算術平均に等しく前記計算されたピ ッチ値をセットする手段を含むことを特徴とするシステム。 32.第27項記載のシステムにおいて、前記計算を行う手段は更に前記複数個 の推定手段からの前記予め定義された値に等しい前記推定されたピッチ値の部分 集合を除くすべてに応動して、前記ピッチ値の前記部分集合の推定されたピッチ 値が互いに他の予め定義された値以下しか異ならないとき、前記計算されたピッ チ値を前記部分集合の算術平均に等しくセットする手段と;前記推定されたピッ チ値の部分集合を除いて前記推定されたピッチ値のすべてが前記予め定義された 値に等しいことに応動して、前記部分集合の前記推定されたピッチ値の各々の差 が前記他の予め定義された値より大きいとき、前記計算されたピッチ値を前記予 め定義された値に等しくセットする手段とを含むことを特徴とするシステム。 33.第27項記載のシステムにおいて、前記計算を行う手段は、前記予め定義 された値に等しい1つの推定されたピッチ値を除いて前記推定されたピッチ値の すべてに応動して、前記予め定義された値に等しくない前記推定されたピッチ値 に等しく前記計算されたピッチ値をセットする手段を含むことを特徴とするシス テム。 34.第27項記載のシステムにおいて、前記複数個の推定手段は各々前記サン プルの前記個々の予め定められた解析的部分内で最大振幅を有する主要サンプル の位置を決定する手段と;最大振幅サンプルおよび前記音声フレーム内の互いに 他のサンプルから最大の予想される基本音声周波数に基づいて最小距離以上隔っ ている最大振幅サンプルの振幅より小さな振幅を有する前記サンプルの前記予め 定められた部分のサンプルの位置を決定する手段と; 前記最大振幅サンプルの位置を基準として使用して隣接した位置にある候補サン プル間の距離を1つずつ測定する手段と;等しいかどうか相続く距離の測定値を 比較し、前記最大振幅サンプルと周期的な関係を有さない候補サンプルを排除す ることによって周期性をテストする手段と; 前記音声フレーム内の有効な極大サンプル間の距離の商によって前記推定された ピッチ値を決定する手段と;前記音声フレームが周期性を呈するときは有声と指 示し、そうでないときには前記ピッチ値を予め定義された値に等しくセットする ことにより無声と指示する手段を含むことを特徴とするシステム。 35.第34項記載のシステムにおいて、前記複数個の推定を行う手段は前記推 定手段4つを含み、前記推定手段の各々は更に前記サンプルに応動して前記サン プルをクリップして前記サンプルの前記個々の予め定められた部分を発生する手 段を含み;前記推定手段の第1および第2のものは更に声道のフォルマント効果 が除去された後に残る残差波である前記音声フレームの前記音声より成る前記サ ンプルの前記個々の予め定められた部分に応動する手段を含み; 前記推定を行う手段の内の前記第3および第4のものは更に変更されていない前 記音声フレームの音声に応動することを特徴とするシステム。 36.音声をディジタル・サンプルのフレームに変換する量子化装置と、複数個 のプログラム・インストラクションおよびディジタル・サンプルの前記フレーム に応動して音声のピッチを決定するディジタル信号プロセッサを含むシステムで 人間の音声のピッチを検出する方法であって、該方法は: プログラム・インストラクションの第1の組に応動して前記プロセッサによって 声道のフォルマント効果が実質的に除去された後に残るディジタル化された音声 の残差サンプルを発生し;プログラム・インストラクションの第2の組および前 記ディジタル化された音声サンプルの内の正のものに応動して前記プロセッサに よって現在の音声フレームの第1のピッチ値を推定し;プログラム・インストラ クションの第3の組および前記ディジタル化された音声サンプルの内の負、のも のに応動して前記プロセッサによって前記現在の音声フレームの第2のピッチ値 を推定し;プログラム・インストラクションの第4の組および前記残差サンプル の内の正のものに応動して前記プロセッサによって前記現在の音声フレームの第 3のピッチ値を推定し;プログラム・インストラクションの第5の組および前記 残差サンプルの内の負のものに応動して前記プロセッサによって前記現在の音声 フレームの第4のピッチ値を推定し;プログラム・インストラクションの第6の 組および前記推定されたピッチ値に応動して前記プロセッサによって複数個の以 前の音声フレームおよび前記現在の音声フレームに基づいて最も最後の音声フレ ームの最終ピッチ値を決定するステップより成ることを特徴とする方法。 37.第36項記載の方法において、前記プログラム・インストラクションの第 6の組はプログラム・インストラクションの第2の部分集合を含み、前記決定を 行うステップは:前記プログラム・インストラクションの第1の部分集合に応動 して前記プロセッサによって前記第1、第2、第3、および第4のピッチ値から 前記最終ピッチ値を計算し;前記ピッチ値を制限して、前記プロセッサ手段が前 記プログラム・インストラクションの前記第2の部分集合に応動することによっ て前記最終ピッチ値が以前のフレームからの最終ピッチ値と一致するようにする ステップより成ることを特徴とする方法。 38.第37項記載の方法において、無声音声フレームは前記計算されたピッチ 値が予め定義された値に等しいことによって示され、有声フレームは前記計算さ れたピッチ値が前記予め定義された値以外の値に等しいことによって示され、前 記プログラム・インストラクションの第2の部分集合はプログラム・インストラ クションの第1、第2および第3のグループを含み、前記制限を行うステップは 更に: 前記プロセッサがプログラム・インストラクションの第1のグループに応動する ことによって有声・無声・有声フレームの第1の系列に応動して有声フレームを 示す新らしい計算されたピッチ値を発生し; 前記プロセッサが前記プログラム・インストラクションの第2のグループに応動 することによって無声・有声・無声フレームの第2の系列に応動して無声フレー ムを示す新らしい計算された値を発生し; 前記プロセッサが前記プログラム・インストラクションの第3のグループに応動 することによって有声・有声・有声フレームの第3の系列のフレームの計算され たピッチ値の算術平均に等しく新らしい計算されたピッチ値をセットするステッ プを含み;前記第2の系列に対する新らしい計算された値を発生するステップは 前記プロセッサが前記プログラム・インストラクションの第2のサブグループに 応動することによって前記予め定義された値に等しく前記第2の系列の新らしい 計算されたピッチ値をセットするステップを含むことを特徴とする方法。 40.第39項記載の方法において、前記プログラム・インストラクションの第 2の部分集合はプログラム・インストラクションの第4のグループ、プログラム ・インストラクションの第5のグループおよび有声・有声・無声フレームの第4 の系列を含み、前記制限を行うステップは更に、前記プログラム・インストラク ションの第4のグループに応動して前記プロセッサによって、2つの有声フレー ムの差が他の予め定義された値より小さいとき、2つの音声フレームおよび無声 フレームに対する計算されたピッチ値平均に等しい新らしい計算されたピッチ値 を発生し:前記プログラム・インストラクションの第5のグループに応動して前 記プロセッサによって、2つの有声フレームに対する2つのピッチ値の差が前記 他の予め定義された値より大きいとき、以前の有声フレームのピッチ値に等しい 新らしい計算されたピッチ値を発生するステップを含むことを特徴とする方法。
JP61504126A 1985-08-28 1986-07-25 並列処理型ピッチ検出器 Expired - Lifetime JPH0820878B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US770633 1985-08-28
US06/770,633 US4879748A (en) 1985-08-28 1985-08-28 Parallel processing pitch detector
PCT/US1986/001552 WO1987001498A1 (en) 1985-08-28 1986-07-25 A parallel processing pitch detector

Publications (2)

Publication Number Publication Date
JPS63500683A true JPS63500683A (ja) 1988-03-10
JPH0820878B2 JPH0820878B2 (ja) 1996-03-04

Family

ID=25089225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61504126A Expired - Lifetime JPH0820878B2 (ja) 1985-08-28 1986-07-25 並列処理型ピッチ検出器

Country Status (7)

Country Link
US (1) US4879748A (ja)
EP (1) EP0235181B1 (ja)
JP (1) JPH0820878B2 (ja)
KR (1) KR950000842B1 (ja)
CA (1) CA1301339C (ja)
DE (1) DE3684907D1 (ja)
WO (1) WO1987001498A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
JP2689739B2 (ja) * 1990-03-01 1997-12-10 日本電気株式会社 秘話装置
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5280525A (en) * 1991-09-27 1994-01-18 At&T Bell Laboratories Adaptive frequency dependent compensation for telecommunications channels
US5353372A (en) * 1992-01-27 1994-10-04 The Board Of Trustees Of The Leland Stanford Junior University Accurate pitch measurement and tracking system and method
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
WO1996036041A2 (en) * 1995-05-10 1996-11-14 Philips Electronics N.V. Transmission system and method for encoding speech with improved pitch detection
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
KR100217372B1 (ko) * 1996-06-24 1999-09-01 윤종용 음성처리장치의 피치 추출방법
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
KR100349656B1 (ko) * 2000-12-20 2002-08-24 한국전자통신연구원 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
US7251597B2 (en) * 2002-12-27 2007-07-31 International Business Machines Corporation Method for tracking a pitch signal
US8210851B2 (en) * 2004-01-13 2012-07-03 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20070065789A1 (en) * 2004-01-13 2007-03-22 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060177805A1 (en) * 2004-01-13 2006-08-10 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070111173A1 (en) * 2004-01-13 2007-05-17 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060073452A1 (en) * 2004-01-13 2006-04-06 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060105307A1 (en) * 2004-01-13 2006-05-18 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060051727A1 (en) * 2004-01-13 2006-03-09 Posit Science Corporation Method for enhancing memory and cognition in aging adults
WO2006006366A1 (ja) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
US20070134635A1 (en) * 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US9308446B1 (en) 2013-03-07 2016-04-12 Posit Science Corporation Neuroplasticity games for social cognition disorders
US11443761B2 (en) 2018-09-01 2022-09-13 Indian Institute Of Technology Bombay Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3496465A (en) * 1967-05-19 1970-02-17 Bell Telephone Labor Inc Fundamental frequency detector
US3617636A (en) * 1968-09-24 1971-11-02 Nippon Electric Co Pitch detection apparatus
GB1385704A (en) * 1971-02-23 1975-02-26 Dulop Ltd Pneumatic tyres
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data
FR2206889A5 (ja) * 1972-11-16 1974-06-07 Rhone Poulenc Sa
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US3903366A (en) * 1974-04-23 1975-09-02 Us Navy Application of simultaneous voice/unvoice excitation in a channel vocoder
US3979557A (en) * 1974-07-03 1976-09-07 International Telephone And Telegraph Corporation Speech processor system for pitch period extraction using prediction filters
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
JPS53132910A (en) * 1977-04-26 1978-11-20 Nippon Hoso Kyokai <Nhk> Extraction system of fundamental frequency of sound signal
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
JPS5923385B2 (ja) * 1978-09-26 1984-06-01 エウテコ・ソチエタ・ペル・アツイオニ 水銀−ナトリウムアマルガムのフロ−中のナトリウムの濃度の測定法
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
JPS6068000A (ja) * 1983-09-22 1985-04-18 日本電気株式会社 ピッチ抽出装置

Also Published As

Publication number Publication date
KR880700386A (ko) 1988-02-23
EP0235181B1 (en) 1992-04-15
DE3684907D1 (de) 1992-05-21
US4879748A (en) 1989-11-07
KR950000842B1 (ko) 1995-02-02
JPH0820878B2 (ja) 1996-03-04
WO1987001498A1 (en) 1987-03-12
EP0235181A1 (en) 1987-09-09
CA1301339C (en) 1992-05-19

Similar Documents

Publication Publication Date Title
JPS63500683A (ja) 並列処理型ピッチ検出器
JP3277398B2 (ja) 有声音判別方法
Ross et al. Average magnitude difference function pitch extractor
US7593847B2 (en) Pitch detection method and apparatus
JP3840684B2 (ja) ピッチ抽出装置及びピッチ抽出方法
KR970001166B1 (ko) 언어 처리 방법 및 장치
JP2002516420A (ja) 音声コーダ
JPH0719160B2 (ja) 音声のピッチを決定する方法と音声伝達システム
JP2738533B2 (ja) マルチレベル・フィルタ励起を用いる音声合成
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
JP2004538525A (ja) 周波数分析によるピッチ判断方法および装置
JPS5870299A (ja) 音声信号の判定法及び解析装置
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
Kleijn et al. A 5.85 kbits CELP algorithm for cellular applications
Lagrange et al. Using linear prediction to enhance the tracking of partials [musical audio processing]
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
CN116434739A (zh) 构建识别心力衰竭不同分期的分类模型的装置及相关组件
Jang et al. Evaluation of performance of several established pitch detection algorithms in pathological voices
KR100217372B1 (ko) 음성처리장치의 피치 추출방법
Samad et al. Pitch detection of speech signals using the cross-correlation technique
JP3271193B2 (ja) 音声符号化方法
JP2585214B2 (ja) ピッチ抽出方法
JP3223564B2 (ja) ピッチ抽出方法
KR0173924B1 (ko) 음성신호의 유성음 구간에서 이포크 검출 방법
Qi et al. An adaptive method for tracking voicing irregularities