JPH075889A - 音声信号のピッチの評価方法およびそれを使用する音声認識システム - Google Patents
音声信号のピッチの評価方法およびそれを使用する音声認識システムInfo
- Publication number
- JPH075889A JPH075889A JP5309526A JP30952693A JPH075889A JP H075889 A JPH075889 A JP H075889A JP 5309526 A JP5309526 A JP 5309526A JP 30952693 A JP30952693 A JP 30952693A JP H075889 A JPH075889 A JP H075889A
- Authority
- JP
- Japan
- Prior art keywords
- value
- pitch
- time interval
- energy
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
(57)【要約】
【目的】 本発明は、複雑で長い計算を必要としない実
時間の使用が可能で複雑高価な評価システムを必要とし
ない発声された音声信号の時間間隔のピッチの評価方法
を提供することを目的とする。 【構成】 パラメータとして半径Rの円を選定し、評価
すべきピッチが、円Cと音声信号のエネルギの時間関数
の限定値に正規化された曲線との接触点P,Qの間の距
離に対応し、この接触点は曲線上で円Cを転動すること
により得られることを特徴とする。
時間の使用が可能で複雑高価な評価システムを必要とし
ない発声された音声信号の時間間隔のピッチの評価方法
を提供することを目的とする。 【構成】 パラメータとして半径Rの円を選定し、評価
すべきピッチが、円Cと音声信号のエネルギの時間関数
の限定値に正規化された曲線との接触点P,Qの間の距
離に対応し、この接触点は曲線上で円Cを転動すること
により得られることを特徴とする。
Description
【0001】
【産業上の利用分野】本発明は音声信号のピッチの評価
方法およびそれを使用する音声認識システムに関する。
方法およびそれを使用する音声認識システムに関する。
【0002】
【従来の技術】過去数年にわたって音声認識を与える非
常に異なった装置の必要性が非常に増加しており、車内
に設置された自動車電話のセットは典型的な例である。
常に異なった装置の必要性が非常に増加しており、車内
に設置された自動車電話のセットは典型的な例である。
【0003】認識は音声信号からの複数の時間可変パラ
メ−タの抽出に基づき、特にピッチに基づいている。
メ−タの抽出に基づき、特にピッチに基づいている。
【0004】システムの総合的な信頼性はこのようなパ
ラメ−タが評価される信頼性に依存する。
ラメ−タが評価される信頼性に依存する。
【0005】ピッチ評価のための最適の方法を得るため
の努力が行われているが現時点では十分に満足できるよ
うな方法はまだ発見されていない。
の努力が行われているが現時点では十分に満足できるよ
うな方法はまだ発見されていない。
【0006】このような方法の1つのカテゴリ−はPA
D(ピ−ク振幅検出器)と呼ばれ、所定の特性、即ち探
求されるピッチに対応する2つのピ−クとの間の時間距
離に応じる1対のピ−クを探求する音声信号の時間走査
に基づく。
D(ピ−ク振幅検出器)と呼ばれ、所定の特性、即ち探
求されるピッチに対応する2つのピ−クとの間の時間距
離に応じる1対のピ−クを探求する音声信号の時間走査
に基づく。
【0007】
【発明が解決しようとする課題】前述したように完全に
成功した既知のアルゴリズムは存在せず、それにはそれ
ぞれ幾つかの理由があり、即ち複雑で長い計算を必要と
し、従って実時間の使用に適切でないか、或いは非常に
複雑で高価な評価システムを必要とし、また長期の音声
信号を検討することが必要であり、評価にエラ−が生じ
た場合、このようなエラ−は後続する評価を遅延させる
等である。
成功した既知のアルゴリズムは存在せず、それにはそれ
ぞれ幾つかの理由があり、即ち複雑で長い計算を必要と
し、従って実時間の使用に適切でないか、或いは非常に
複雑で高価な評価システムを必要とし、また長期の音声
信号を検討することが必要であり、評価にエラ−が生じ
た場合、このようなエラ−は後続する評価を遅延させる
等である。
【0008】本発明の目的は、上記のような既知の技術
の欠点を克服することである。
の欠点を克服することである。
【0009】
【課題を解決するための手段】この目的は請求項1およ
び2に記載されているように、発声された音声信号の時
間間隔におけるピッチを評価する方法において、ピッチ
が円と、前記音声信号のエネルギの時間関数の限定値に
正規化された曲線との接触点の間の距離に対応し、前記
接触点は前記曲線上で前記円形を転動することにより得
られることを特徴とする音声信号のピッチの評価方法、
および発声された音声信号の第1の時間間隔におけるピ
ッチを評価する方法において、a)サンプリング期間に
よるサンプリングと、少なくとも前記第1の間隔におけ
るコ−ドにより前記信号のエネルギを分離し、デジタル
化して二進値のシ−ケンスを獲得し、 b)このような二進値の限定値へ正規化し、 c)前記二進値のこのような正規化されたシ−ケンスの
第1の相対的最大値の決定と、 d)式 h(z)=sqrt[R2 −n2 ]+E(x)−sqrt[R2
−(z−n)2 ] を計算し、ここで、xはこのようなシ−ケンスの第1の
最大値の位置であり、E(x)は第1の最大値の二進値
であり、Rは予め定められた値を有するパラメ−タであ
り、nは初期値(例えば1)に等しく、時間間隔[1…
…n+R]に含まれたzの値に対して e) E(x+z)≧E(x+z−1),E(x+z)
≧E(x+z+1),E(x+z)≧h(z) の状態が適合するようなz値が少なくとも存在するか否
かをチェックし、f)このようなチェックが正の結果ま
たはn=Rを有するまで(例えば1で)nの値を増加し
て前記段階d)、e)を繰返し、このようなチェックが
正の結果を有するならばピッチはzの値に対応し決定さ
れる段階を含むことを特徴とする音声信号のピッチの評
価方法、ならびに、請求項9で記載されているような、
それを使用した音声認識システムにより達成され、本発
明のさらに別の利点はその他の請求項に記載されてい
る。
び2に記載されているように、発声された音声信号の時
間間隔におけるピッチを評価する方法において、ピッチ
が円と、前記音声信号のエネルギの時間関数の限定値に
正規化された曲線との接触点の間の距離に対応し、前記
接触点は前記曲線上で前記円形を転動することにより得
られることを特徴とする音声信号のピッチの評価方法、
および発声された音声信号の第1の時間間隔におけるピ
ッチを評価する方法において、a)サンプリング期間に
よるサンプリングと、少なくとも前記第1の間隔におけ
るコ−ドにより前記信号のエネルギを分離し、デジタル
化して二進値のシ−ケンスを獲得し、 b)このような二進値の限定値へ正規化し、 c)前記二進値のこのような正規化されたシ−ケンスの
第1の相対的最大値の決定と、 d)式 h(z)=sqrt[R2 −n2 ]+E(x)−sqrt[R2
−(z−n)2 ] を計算し、ここで、xはこのようなシ−ケンスの第1の
最大値の位置であり、E(x)は第1の最大値の二進値
であり、Rは予め定められた値を有するパラメ−タであ
り、nは初期値(例えば1)に等しく、時間間隔[1…
…n+R]に含まれたzの値に対して e) E(x+z)≧E(x+z−1),E(x+z)
≧E(x+z+1),E(x+z)≧h(z) の状態が適合するようなz値が少なくとも存在するか否
かをチェックし、f)このようなチェックが正の結果ま
たはn=Rを有するまで(例えば1で)nの値を増加し
て前記段階d)、e)を繰返し、このようなチェックが
正の結果を有するならばピッチはzの値に対応し決定さ
れる段階を含むことを特徴とする音声信号のピッチの評
価方法、ならびに、請求項9で記載されているような、
それを使用した音声認識システムにより達成され、本発
明のさらに別の利点はその他の請求項に記載されてい
る。
【0010】本発明の方法は時間エネルギの2次元領域
の走査によるピ−クの探求を達成する音声信号のピ−ク
で動作する。
の走査によるピ−クの探求を達成する音声信号のピ−ク
で動作する。
【0011】その方法は実行が容易であり、比較的簡単
な計算システムにより実時間で達成される。
な計算システムにより実時間で達成される。
【0012】自己修正能力は非常に興味深く、実際、エ
ラ−となる評価は結果的な2多くて3の評価に影響を及
ぼし、常に正しいピッチに戻る傾向がある。
ラ−となる評価は結果的な2多くて3の評価に影響を及
ぼし、常に正しいピッチに戻る傾向がある。
【0013】本発明の方法で実行された試験結果は90%
成功であった。
成功であった。
【0014】本発明は添付図面を伴って後述の限定を設
けない説明からより明白になるであろう。
けない説明からより明白になるであろう。
【0015】
【実施例】本発明の説明に移る前にピッチ概念をよく説
明する必要がある。音声信号は例えば20ミリ秒の十分に
小さい時間間隔に分離されるならばほぼ周期的信号とし
て考慮されることができ、スペクトル分析が実行される
ならば多数のスペクトル成分が得られ、低い周波数を有
するスペクトル成分は音声信号の1つに対応する期間を
有し、このような期間はピッチと呼ばれる。従ってこの
ような分析は雑音の存在と完全な周期性ではないために
複雑である。
明する必要がある。音声信号は例えば20ミリ秒の十分に
小さい時間間隔に分離されるならばほぼ周期的信号とし
て考慮されることができ、スペクトル分析が実行される
ならば多数のスペクトル成分が得られ、低い周波数を有
するスペクトル成分は音声信号の1つに対応する期間を
有し、このような期間はピッチと呼ばれる。従ってこの
ような分析は雑音の存在と完全な周期性ではないために
複雑である。
【0016】このような信号が音声である第1の時間間
隔の音声信号のピッチを評価するための本発明の主題で
ある方法は、 a)サンプリング期間によるサンプリングと、このよう
な少なくとも第1の間隔におけるコ−ドにしたがった信
号のエネルギによる個別化およびデジタル化と、二進値
のシ−ケンスの獲得と、 b)このような二進値の限定値への正規化と、 c)二進値のこのような正規化されたシ−ケンスの第1
の相対的または局部的最大値の決定と、 d)次式の計算と、 h(z)=sqrt[R2 −n2 ]+E(x)−sqrt[R2
−(z−n)2 ] ただし、xはこのようなシ−ケンスの第1の最大値の位
置であり、E(x)は第1の最大値の二進値であり、R
は予め定められた値を有するパラメ−タであり、nは初
期値(例えば1)に等しく、期間(1…n+R)に含ま
れたzの値に対して、 e)次の条件が満足されるように少なくとも1つのz値
が存在するか否かのチェックをし、 E(x+z)≧E(x+z−1),E(x+z)≧E
(x+z+1),E(x+z)≧h(z) f)このようなチェックが正の結果またはn=Rになる
まで(例えば1で)nの値を増加して段階d)、e)を
繰返し、それによってこのようなチェックの結果が正で
あるならばピッチはこのように決定されたzの値に対応
する。
隔の音声信号のピッチを評価するための本発明の主題で
ある方法は、 a)サンプリング期間によるサンプリングと、このよう
な少なくとも第1の間隔におけるコ−ドにしたがった信
号のエネルギによる個別化およびデジタル化と、二進値
のシ−ケンスの獲得と、 b)このような二進値の限定値への正規化と、 c)二進値のこのような正規化されたシ−ケンスの第1
の相対的または局部的最大値の決定と、 d)次式の計算と、 h(z)=sqrt[R2 −n2 ]+E(x)−sqrt[R2
−(z−n)2 ] ただし、xはこのようなシ−ケンスの第1の最大値の位
置であり、E(x)は第1の最大値の二進値であり、R
は予め定められた値を有するパラメ−タであり、nは初
期値(例えば1)に等しく、期間(1…n+R)に含ま
れたzの値に対して、 e)次の条件が満足されるように少なくとも1つのz値
が存在するか否かのチェックをし、 E(x+z)≧E(x+z−1),E(x+z)≧E
(x+z+1),E(x+z)≧h(z) f)このようなチェックが正の結果またはn=Rになる
まで(例えば1で)nの値を増加して段階d)、e)を
繰返し、それによってこのようなチェックの結果が正で
あるならばピッチはこのように決定されたzの値に対応
する。
【0017】sqrt…は平方根関数を意味する。段階
d)、e)は厳密な文脈の意味では連続的である意図は
ないが、間隔1…n+Rで選択されたz値での意味では
式が計算され、段階e)が実行されることを意図し、こ
のようなチェックが正の結果を有すると直ぐに停止し、
このことは勿論、間隔の全ての値に先立って式を計算
し、後に全てのチェックを実行することを除外しない。
d)、e)は厳密な文脈の意味では連続的である意図は
ないが、間隔1…n+Rで選択されたz値での意味では
式が計算され、段階e)が実行されることを意図し、こ
のようなチェックが正の結果を有すると直ぐに停止し、
このことは勿論、間隔の全ての値に先立って式を計算
し、後に全てのチェックを実行することを除外しない。
【0018】このような期間では方法の公式化はかなり
複雑に見えるが、方法はより一般的な公式と特定の効果
的なグラフ表示に適しており、ピッチは円と、曲線上の
円を転動することにより得られる時間の関数の音声信号
のエネルギの限定値に正規化される曲線との間の接触点
の距離に対応する。
複雑に見えるが、方法はより一般的な公式と特定の効果
的なグラフ表示に適しており、ピッチは円と、曲線上の
円を転動することにより得られる時間の関数の音声信号
のエネルギの限定値に正規化される曲線との間の接触点
の距離に対応する。
【0019】図1は音声信号のエネルギ対時間の限定値
に正規化された曲線を示しており、異なった高さを有す
る曲線の相対的最大値であるピ−クが存在し、高いピ−
クは基本周波数とも呼ばれる低い周波数のスペクトル成
分により与えられる。
に正規化された曲線を示しており、異なった高さを有す
る曲線の相対的最大値であるピ−クが存在し、高いピ−
クは基本周波数とも呼ばれる低い周波数のスペクトル成
分により与えられる。
【0020】相対的な最大点Pが選択され、基本周波数
による次の相対最大点が決定される。点Pは座標xとE
(x)(xでの信号エネルギ)を有する。点Pでのこの
ような曲線で半径Rと中心C=[x,E(x)+R]の
円が曲線に接するように傾斜される。この点で円は中心
Cの横座標が1ユニットだけ増加するように点Pに関し
て回転され、このように回転される円が図2で示されて
いるように曲線と交差するならばチェックされる。2つ
の前の動作は円が曲線と接触するかまたは中心Cの横座
標fが半径Rに等しい値だけxに関して増加されるまで
(中心Cが点Pと同一のレベルである意味)繰返され
る。図3ではn回の繰返し後の円が点Qで曲線と接触し
ている結果が示されている。点Qは相対的な最大値に数
学的に一致しないが音声信号に有効な状況下で、生じる
エラ−は極度に小さく、それ故無視できる。点Qは点P
から離れたzと等しい時間であり、この時間は所望のピ
ッチに対応する。
による次の相対最大点が決定される。点Pは座標xとE
(x)(xでの信号エネルギ)を有する。点Pでのこの
ような曲線で半径Rと中心C=[x,E(x)+R]の
円が曲線に接するように傾斜される。この点で円は中心
Cの横座標が1ユニットだけ増加するように点Pに関し
て回転され、このように回転される円が図2で示されて
いるように曲線と交差するならばチェックされる。2つ
の前の動作は円が曲線と接触するかまたは中心Cの横座
標fが半径Rに等しい値だけxに関して増加されるまで
(中心Cが点Pと同一のレベルである意味)繰返され
る。図3ではn回の繰返し後の円が点Qで曲線と接触し
ている結果が示されている。点Qは相対的な最大値に数
学的に一致しないが音声信号に有効な状況下で、生じる
エラ−は極度に小さく、それ故無視できる。点Qは点P
から離れたzと等しい時間であり、この時間は所望のピ
ッチに対応する。
【0021】このような円の回転、より正確にはこのよ
うな円の可変の弧回転は時間エネルギ平面で二次元領域
を個別化し、この方法はこのような二次元領域の走査に
より相対的最大値の探求を実現する。
うな円の可変の弧回転は時間エネルギ平面で二次元領域
を個別化し、この方法はこのような二次元領域の走査に
より相対的最大値の探求を実現する。
【0022】従って円は右方向または左方向または両方
向に回転されることができ、実効的なピッチがこのよう
にして得られる2つのピッチの平均として考慮されるこ
とができる。音声信号のサンプルの蓄積を維持するのに
十分な能力を有するバッファを使用することが必要なの
で、実時間で動作するならばこのような実施を実行する
にはやや困難である。前述の段階a)からf)で指示さ
れている式は二進値のシ−ケンスが時間反転方向で配置
されるものと考慮される限り有効である。
向に回転されることができ、実効的なピッチがこのよう
にして得られる2つのピッチの平均として考慮されるこ
とができる。音声信号のサンプルの蓄積を維持するのに
十分な能力を有するバッファを使用することが必要なの
で、実時間で動作するならばこのような実施を実行する
にはやや困難である。前述の段階a)からf)で指示さ
れている式は二進値のシ−ケンスが時間反転方向で配置
されるものと考慮される限り有効である。
【0023】従って例えば音声認識システム内の計算シ
ステムにより実行されるこのようなグラフィックな方法
は例えば前述の段階により適合される必要があり、勿論
別のものが可能である。
ステムにより実行されるこのようなグラフィックな方法
は例えば前述の段階により適合される必要があり、勿論
別のものが可能である。
【0024】良好な結果を生じることが証明された実施
例において、音声信号は毎秒当り8,000 サンプルの速度
でサンプルされ、各サンプルは線形変換コ−ドを使用し
て−32767 と+32767 との間で含まれている16ビットの
二進数に変換される。このように得られたシ−ケンスの
二進値は間隔[0…255 ]で正規化される。
例において、音声信号は毎秒当り8,000 サンプルの速度
でサンプルされ、各サンプルは線形変換コ−ドを使用し
て−32767 と+32767 との間で含まれている16ビットの
二進数に変換される。このように得られたシ−ケンスの
二進値は間隔[0…255 ]で正規化される。
【0025】第1の時間間隔の長さは基本周波数に対応
する少なくとも2つの相対的な最大値がその中に入る方
法で選択されなければならず、実際、人間の音声ピッチ
は2.5 msに等しい最小値INFから13.5msに等しい
最大値SUPまで変化可能であり、それ故このような第
1の間隔はSUPより小さくならない。
する少なくとも2つの相対的な最大値がその中に入る方
法で選択されなければならず、実際、人間の音声ピッチ
は2.5 msに等しい最小値INFから13.5msに等しい
最大値SUPまで変化可能であり、それ故このような第
1の間隔はSUPより小さくならない。
【0026】円の半径Rの最適値は実験により選択され
るべきであり、実施例で最良の結果を与えた値は13.25
msである。この値は音声信号を生成する話者のト−ン
から離れてよい結果を与える。
るべきであり、実施例で最良の結果を与えた値は13.25
msである。この値は音声信号を生成する話者のト−ン
から離れてよい結果を与える。
【0027】勿論、女性の話者だけ等、話者の分類が優
先的に限定されるならば、異なった最適の値が存在す
る。音声認識システムの動作期間中話者のト−ンにより
決定されるこのような値の変化を阻止するものはない。
先的に限定されるならば、異なった最適の値が存在す
る。音声認識システムの動作期間中話者のト−ンにより
決定されるこのような値の変化を阻止するものはない。
【0028】半径Rの値の誤った選択は図4、5で示さ
れている状態に導かれ、図4ではRの小さ過ぎる値は後
続する局部的最大点Qに到達せず、図5ではRの大き過
ぎる値は点Qに後続する局部的最大点Sに到達し、ピッ
チの過大評価を導く。
れている状態に導かれ、図4ではRの小さ過ぎる値は後
続する局部的最大点Qに到達せず、図5ではRの大き過
ぎる値は点Qに後続する局部的最大点Sに到達し、ピッ
チの過大評価を導く。
【0029】円は適応され、エネルギの正または負の半
分の平面のみで回転されるので正または負のサンプルの
みが正規化される。エネルギの絶対的な優越が存在する
半分の平面で回転することがより有益(即ちピッチ評価
がより正確)であるけれども、どちらの半分の平面も選
択されることができる。
分の平面のみで回転されるので正または負のサンプルの
みが正規化される。エネルギの絶対的な優越が存在する
半分の平面で回転することがより有益(即ちピッチ評価
がより正確)であるけれども、どちらの半分の平面も選
択されることができる。
【0030】正の半分の平面における回転の場合、正規
化に使用される式は、E>0ならば、En=trunc
[(E*255 )/32767 ]であり、E≦0ならば、En
=0である。
化に使用される式は、E>0ならば、En=trunc
[(E*255 )/32767 ]であり、E≦0ならば、En
=0である。
【0031】負の半分の平面における回転の場合、正規
化に使用される式は、E<0ならば、En=trunc
[(−E*255 )/32767 ]であり、E≧0ならば、E
n=0である。
化に使用される式は、E<0ならば、En=trunc
[(−E*255 )/32767 ]であり、E≧0ならば、E
n=0である。
【0032】trunc […]は積分部分関数を意味する。
【0033】同一の例において第1の相対的または局部
的最大値の決定が第1に二進値のこのようなシ−ケンス
の全ての局部最大値の個別化と、最大二進値を有するも
のの選択により達成される。任意の場合に他の方法は方
法の動作を危険にさらすことなく既知の技術に従ってこ
のような決定に使用されることができる。
的最大値の決定が第1に二進値のこのようなシ−ケンス
の全ての局部最大値の個別化と、最大二進値を有するも
のの選択により達成される。任意の場合に他の方法は方
法の動作を危険にさらすことなく既知の技術に従ってこ
のような決定に使用されることができる。
【0034】次の相対的最大値の決定速度を上げるため
に、前述の人間の音声ピッチの変化の限度を考慮するこ
とが便利であり、このため段階d)では最も限定された
間隔[INF…min (SUP,n+R)]が使用され、
min (…)は関数の“最小”を意味する。この選択はと
りわけより信頼性のある評価を行う付加的な効果に到達
し、実際に例えばINFに等しい低い限定なしにほぼ同
等のエネルギを有する1または2の相対的最大値により
シ−ケンス2msで通常後続されるピッチの測定のため
に開始する相対的最大値が誤って個別化され受入れ可能
であると考えられることも頻繁に生じる。
に、前述の人間の音声ピッチの変化の限度を考慮するこ
とが便利であり、このため段階d)では最も限定された
間隔[INF…min (SUP,n+R)]が使用され、
min (…)は関数の“最小”を意味する。この選択はと
りわけより信頼性のある評価を行う付加的な効果に到達
し、実際に例えばINFに等しい低い限定なしにほぼ同
等のエネルギを有する1または2の相対的最大値により
シ−ケンス2msで通常後続されるピッチの測定のため
に開始する相対的最大値が誤って個別化され受入れ可能
であると考えられることも頻繁に生じる。
【0035】ピッチが変化したとき同一の時間間隔内で
チェックすることが有効であり、これは段階a)から
f)を繰返し、第1の相対的最大値として前に決定した
前記値zと対応する値を使用することにより非常に簡単
な方法で得られる。これは例えば第1の相対的最大値が
基本周波数に対応することが確信できず、方法の自己補
正能力の開発を期待するとき有効である。
チェックすることが有効であり、これは段階a)から
f)を繰返し、第1の相対的最大値として前に決定した
前記値zと対応する値を使用することにより非常に簡単
な方法で得られる。これは例えば第1の相対的最大値が
基本周波数に対応することが確信できず、方法の自己補
正能力の開発を期待するとき有効である。
【0036】従って音声自動認識のシステムでは、ピッ
チ評価は周期的に繰返され、従って段階a)からf)は
前記第1の時間間隔に続く音声タイプの時間間隔で繰返
される。
チ評価は周期的に繰返され、従って段階a)からf)は
前記第1の時間間隔に続く音声タイプの時間間隔で繰返
される。
【0037】前述したように本発明の方法の動作では方
法が適用される時間間隔が音声タイプであることが必要
である。このようなチェックは例えば以下の段階により
達成されることができる。
法が適用される時間間隔が音声タイプであることが必要
である。このようなチェックは例えば以下の段階により
達成されることができる。
【0038】a)音声信号のエネルギがこのような間隔
の第1のしきい値を超過しないように制御することによ
って沈黙タイプであるかどうかを確認し、 b)このような間隔の予め定められた長さの各部分間隔
において音声信号の絶対的エネルギが第2のしきい値を
超過せず、同時に音声信号のエネルギが第3のしきい値
よりも大きい複数の瞬時で存在しないように制御するこ
とによって非音声タイプであるかどうかを確認し、この
ことは確認段階a)とb)が負の結果を有するならば正
の結果を有する。
の第1のしきい値を超過しないように制御することによ
って沈黙タイプであるかどうかを確認し、 b)このような間隔の予め定められた長さの各部分間隔
において音声信号の絶対的エネルギが第2のしきい値を
超過せず、同時に音声信号のエネルギが第3のしきい値
よりも大きい複数の瞬時で存在しないように制御するこ
とによって非音声タイプであるかどうかを確認し、この
ことは確認段階a)とb)が負の結果を有するならば正
の結果を有する。
【0039】部分間隔の長さの可能な選択が4msに対
応し、第2のしきい値に対してそれは6,000 に対応し、
第3のしきい値に対しては8に対応し、第1のしきい値
は背景雑音に依存する。
応し、第2のしきい値に対してそれは6,000 に対応し、
第3のしきい値に対しては8に対応し、第1のしきい値
は背景雑音に依存する。
【0040】本発明による方法を使用することによっ
て、システムは基本となる音声認識に対して実現され、
良好な認識能力を有する電話通話で使用されるような入
力PCM音声信号で受信するのに適している。
て、システムは基本となる音声認識に対して実現され、
良好な認識能力を有する電話通話で使用されるような入
力PCM音声信号で受信するのに適している。
【0041】この方法は認識される音声信号ピッチの評
価だけでなく、音声認識システムにより使用されるデ−
タベ−スの生成にも非常に便利であることは明白であ
る。
価だけでなく、音声認識システムにより使用されるデ−
タベ−スの生成にも非常に便利であることは明白であ
る。
【図1】本発明の方法の1段階の特定の効果的なグラ
フ。
フ。
【図2】本発明の方法の1段階の特定の効果的なグラ
フ。
フ。
【図3】本発明の方法の1段階の特定の効果的なグラ
フ。
フ。
【図4】図1から3で使用されるグラフによる本発明の
方法のパラメ−タの不適切な選択がその方法の失敗とな
る状況の説明図。
方法のパラメ−タの不適切な選択がその方法の失敗とな
る状況の説明図。
【図5】図1から3で使用されるグラフ表示による本発
明の方法のパラメ−タの不適切な選択がその方法の失敗
となる状況の説明図。
明の方法のパラメ−タの不適切な選択がその方法の失敗
となる状況の説明図。
Claims (10)
- 【請求項1】 発声された音声信号の時間間隔における
ピッチを評価する方法において、 ピッチが円と、前記音声信号のエネルギの時間関数の限
定値に正規化された曲線との接触点の間の距離に対応
し、前記接触点は前記曲線上で前記円を転動することに
より得られることを特徴とする音声信号のピッチの評価
方法。 - 【請求項2】 発声された音声信号の第1の時間間隔に
おけるピッチを評価する方法において、 a)サンプリング期間によるサンプリングと、少なくと
も前記第1の間隔におけるコ−ドにより前記信号のエネ
ルギを分離し、デジタル化して二進値のシ−ケンスを獲
得し、 b)このような二進値の限定値へ正規化し、 c)前記二進値のこのような正規化されたシ−ケンスの
第1の相対的最大値の決定と、 d)式 h(z)=sqrt[R2 −n2 ]+E(x)−sqrt[R2
−(z−n)2 ] を計算し、ここで、xはこのようなシ−ケンスの第1の
最大値の位置であり、E(x)は第1の最大値の二進値
であり、Rは予め定められた値を有するパラメ−タであ
り、nは初期値(例えば1)に等しく、 時間間隔[1……n+R]に含まれたzの値に対して e)E(x+z)≧E(x+z−1),E(x+z)≧
E(x+z+1),E(x+z)≧h(z) の状態が適合するようなz値が少なくとも存在するか否
かをチェックし、 f)このようなチェックが正の結果またはn=Rを有す
るまで(例えば1で)nの値を増加して前記段階d)、
e)を繰返し、このようなチェックが正の結果を有する
ならばピッチはzの値に対応し決定される段階を含むこ
とを特徴とする音声信号のピッチの評価方法。 - 【請求項3】 第1のピッチ値を得た後、第1の相対的
最大値としてこのように決定された前記値zに対応する
相対最大値を使用して前記第1の時間間隔で前記段階が
繰返されることを特徴とする請求項2記載の方法。 - 【請求項4】 前記段階が前記第1の時間間隔に続く音
声時間間隔で繰返されることを特徴とする請求項2記載
の方法。 - 【請求項5】 前記限定値が255 であり、前記段階b)
が以下の式により達成され、 E>0ならば、En=trunc [(E*255 )/MAX]
であり、 E≦0ならば、En=0であり、ここで、MAXは前記
コ−ドにより考察された最大の正の二進値の絶対値であ
ることを特徴とする請求項2記載の方法。 - 【請求項6】 前記限定値が255 であり、前記段階b)
が次式により実行され、 E<0ならば、En=trunc [(−E*255 )/MA
X]であり、 E≧0ならば、En=0であり、ここで、MAXは前記
コ−ドにより考察された負の最大二進値の絶対値である
ことを特徴とする請求項2記載の方法。 - 【請求項7】 最初に前記二進値シ−ケンスの全ての相
対的最大値を個別化し最大の二進値を有するものを選択
することによって前記段階c)が実行されることを特徴
とする請求項2記載の方法。 - 【請求項8】 INFとSUPをそれぞれ人間の音声の
ピッチの最小値と最大値とし、前記段階d)で使用した
間隔が[INF…min (SUP,n+R)]に対応する
ことを特徴とする請求項2記載の方法。 - 【請求項9】 前記第1の時間間隔が音声の時間間隔で
あるかをチェックする方法において、 a)音声信号のエネルギがこのような間隔の第1のしき
い値を超過しないように制御することによって沈黙タイ
プであるかどうかを確認し、 b)このような間隔の予め定められた長さの各部分間隔
に対して音声信号の絶対的エネルギが第2のしきい値を
超過せず、同時に前記音声信号のエネルギが第3のしき
い値よりも大きい複数の瞬時で存在しないように制御す
ることによって非音声タイプであるかどうかを確認し、
それによって段階a)とb)の両者の確認が負の結果を
有するならば前記チェックは正の結果を有することを特
徴とする請求項2記載の方法。 - 【請求項10】 ピッチの評価が請求項1乃至9のいず
れか1項記載の方法により実行されることを特徴とする
音声認識用のシステム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ITMI930169A IT1263050B (it) | 1993-02-03 | 1993-02-03 | Metodo per stimare il pitch di un segnale acustico di parlato e sistema per il riconoscimento del parlato impiegante lo stesso |
| IT93A000169 | 1993-03-17 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH075889A true JPH075889A (ja) | 1995-01-10 |
Family
ID=11364835
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5309526A Pending JPH075889A (ja) | 1993-02-03 | 1993-12-09 | 音声信号のピッチの評価方法およびそれを使用する音声認識システム |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US5644678A (ja) |
| EP (1) | EP0609770A1 (ja) |
| JP (1) | JPH075889A (ja) |
| AU (1) | AU669762B2 (ja) |
| FI (1) | FI935378L (ja) |
| IT (1) | IT1263050B (ja) |
| NZ (1) | NZ250769A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8508186B2 (en) | 2008-09-02 | 2013-08-13 | Mitsubishi Heavy Industries, Ltd. | Charging system for transportation system without contact wire |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FI991132A7 (fi) * | 1999-05-18 | 2001-03-07 | Voxlab Oy | Menetelmä tutkia näytteistä muodostetun digitaalisen signaalin rytmisyyttä |
| CN1141698C (zh) * | 1999-10-29 | 2004-03-10 | 松下电器产业株式会社 | 对输入语音进行语音识别的音程标准化装置 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
| US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
| EP0248593A1 (en) * | 1986-06-06 | 1987-12-09 | Speech Systems, Inc. | Preprocessing system for speech recognition |
| US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
| FR2670313A1 (fr) * | 1990-12-11 | 1992-06-12 | Thomson Csf | Procede et dispositif pour l'evaluation de la periodicite et du voisement du signal de parole dans les vocodeurs a tres bas debit. |
-
1993
- 1993-02-03 IT ITMI930169A patent/IT1263050B/it active IP Right Grant
- 1993-12-01 FI FI935378A patent/FI935378L/fi unknown
- 1993-12-09 JP JP5309526A patent/JPH075889A/ja active Pending
-
1994
- 1994-01-18 AU AU53832/94A patent/AU669762B2/en not_active Ceased
- 1994-01-20 US US08/184,277 patent/US5644678A/en not_active Expired - Fee Related
- 1994-01-27 NZ NZ250769A patent/NZ250769A/en unknown
- 1994-01-27 EP EP94101167A patent/EP0609770A1/en not_active Ceased
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8508186B2 (en) | 2008-09-02 | 2013-08-13 | Mitsubishi Heavy Industries, Ltd. | Charging system for transportation system without contact wire |
Also Published As
| Publication number | Publication date |
|---|---|
| FI935378A7 (fi) | 1994-08-04 |
| EP0609770A1 (en) | 1994-08-10 |
| AU5383294A (en) | 1994-08-11 |
| AU669762B2 (en) | 1996-06-20 |
| IT1263050B (it) | 1996-07-24 |
| FI935378L (fi) | 1994-08-04 |
| ITMI930169A1 (it) | 1994-08-03 |
| ITMI930169A0 (it) | 1993-02-03 |
| FI935378A0 (fi) | 1993-12-01 |
| NZ250769A (en) | 1996-06-25 |
| US5644678A (en) | 1997-07-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8175876B2 (en) | System and method for an endpoint detection of speech for improved speech recognition in noisy environments | |
| US7171357B2 (en) | Voice-activity detection using energy ratios and periodicity | |
| US6711536B2 (en) | Speech processing apparatus and method | |
| KR100569612B1 (ko) | 음성활동검출방법및장치 | |
| US20020184017A1 (en) | Method and apparatus for performing real-time endpoint detection in automatic speech recognition | |
| CN101010722A (zh) | 音频信号中话音活动的检测 | |
| US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
| CN111755028A (zh) | 一种基于基音特征的近场遥控器语音端点检测方法及系统 | |
| JPH075889A (ja) | 音声信号のピッチの評価方法およびそれを使用する音声認識システム | |
| US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
| EP1424684A1 (en) | Voice activity detection apparatus and method | |
| US20070192102A1 (en) | Method and system for aligning windows to extract peak feature from a voice signal | |
| JPH0222960B2 (ja) | ||
| US6272460B1 (en) | Method for implementing a speech verification system for use in a noisy environment | |
| JPH0449952B2 (ja) | ||
| CN116229988A (zh) | 一种电力调度系统人员声纹识别鉴权方法、系统及装置 | |
| Nadeu et al. | Pitch determination using the cepstrum of the one-sided autocorrelation sequence. | |
| CN109218917A (zh) | 一种实时通信系统中的自动声反馈监测与消除方法 | |
| JPS6242198A (ja) | 音声認識装置 | |
| JP2666296B2 (ja) | 音声認識装置 | |
| CN106971717A (zh) | 机器人与网络服务器协作处理的语音识别方法、装置 | |
| KR100463668B1 (ko) | 휴대용 이동 단말기에서의 음성 및 잡음 성분 판별 방법 | |
| KR100363251B1 (ko) | 음성 끝점 판별 방법 | |
| JPH09127982A (ja) | 音声認識装置 | |
| KR0171004B1 (ko) | Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법 |