JPH04182700A

JPH04182700A - 音声認識装置

Info

Publication number: JPH04182700A
Application number: JP2313049A
Authority: JP
Inventors: Keiko Shimada; 島田　桂子
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-11-19
Filing date: 1990-11-19
Publication date: 1992-06-30
Also published as: EP0487307B1; CA2055749C; CA2055749A1; DE69118118T2; EP0487307A3; US5416887A; EP0487307A2; DE69118118D1; AU642311B2; AU8800291A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、発声された単語音声を自動的に認識する音声
認識装置に関する。

〔従来の技術］従来、この種の音声認識装置は、静かな環境、雑音レー
、ルが比較的小さく一定な条件で使用されることを前提
に設計されていたため１、特に雑音に対する対策等はな
されていなかった。従ってリジェクト値は静かな環境乙
こ合わせて設定され常に一定の値であった。

［発明が解決しようとする課題］周囲の雑音レベルが大きくなると、入力パタンと標準パ
タンの累積距離ｇ″（Ｉ、、Ｊ）も太き（なる。上述し
た従来の音声認識装置は、リジェクト値Ｒが周囲の雑音
レベルが変わっても一定であるため、リジェクト値Ｒを
雑音レベルが高いときに合わせて設定した場合には、雑
音レベルが低いときに認識を行うと、累積距離ｇｎ（Ｉ
、Ｊ）が比較的大きくても認識結果として出力されるこ
とになり、誤認識が多くなる。反対に、リジェクト値Ｒ
を雑音レベルが低いときに合わせて設定した場合、雑音
レベルが高いときに認識を行うと、累積距離ｇｎ（Ｉ、
Ｊ）が大きくなるため、リジェクト値Ｒを越えてしまい
、正しい単語にもかかわらず、認識結果が出力されない
ことが増えてし、まうという欠点がある。

本発明の目的は、高雑音下の認識において、正しいと思
われる標準単語がリジェクト値によりはじかれたり、静
かな環境において誤認識が増えたりすることを防くこと
のできる音声認識装置を提供することにある。

［課題を解決するための手段］本発明は、特徴ベクトルの時系列である単話人カパタン
Ａ＝＆＋、＆ｚ、−，ａ８．−、ａｔ　とあらかしめ記
憶されているＮ個の単語標準パタンＢ″−ｂｌ’、ｂｚ
”、ｂ７”、ｂＪＩ″（ｎ＝１．２．　・・・、Ｎ）と
の間で、ＤＰマツチングの漸化式計算を、入力パタンの
時間点を示す信号ｉを１からＩまで変化させ、各ｉに関
して単語を示す信号ｎを１からＮまで変化させ、さらに
各ｎに関して標準パタンの時間点を示す信号ｊを１から
ｊまで変化させて、入力パタンａ、と標準パタンｂ４の
ベクトル間距離ｄ”　　（ａｔ、ｂ；）を求め、さらに
ＤＰマッチングの漸化式計算より、ベクトル間距離ｄ″
（ａ、。

ｂｊ）の累積距離ｇｎ（ｉ、ｊ）を求め、入力単語Ａの
終端において累積距離ｇｎ（Ｉ、Ｊ）が最小となる標準
単語Ｎを認識結果の第一候補とし、その単語Ｎの累積距
離ｇＮ（Ｔ、Ｊ）が、入力単語と類似しているかどうか
を判定するためのリジェクト値Ｒを越えない場合に、標
準単語Ｎを認識結果として出力する音声認識において、音声認識時の周囲の雑音レベルを推定する手段と、雑音
レベルの関数としてリジェクト値Ｒを求める手段とを有
することを特徴とする。

また本発明の音声認識装置は、認識結果の第一候補である単語Ｎの累積距離ｇＮ（ｒ、
Ｊ）を入力時間長Ｉで正規化し、その正規化累積距離Ｇ
’（Ｉ、Ｊ）が、単位時間当りのリジェクト値ｒを越え
ない場合に、単語Ｎを認識結果として出力することを特
徴とする。

［作用］本発明では、ＤＰマッチングの漸化式計算を入力パタン
Ａの時間軸ｉに同期させて行い、時刻ｉにおいて全ての
標準パタンｎの時刻ｊに対する累積距離ｇｎ（ｉ、Ｎを
求める。ＤＰマッチングの漸化式は、ｇｎ（ｉ、ｊ）＝ｄ’　（ｉ、　　ｊ）　＋ｍｉｎ　［ｇｎ　（ｉ　　
１．　　ｊ　　Ｐ）　ｊｐ＝ｏ、１．２　　　　　　　
　・・・（１）である。ただし、ｄ″（ｉ、　　ｊ）は
時刻ｉにおける入力パタンと時刻ｊにおける標準パタン
との距離である。人力単語Ａの終端Ｉにおいて累積距離
ｇｎ（Ｉ、Ｊ）が最小となる標準単語Ｎの累積距離をｇ
′４（Ｔ、Ｊ）とする。この単Ｍｘｐ４は認識結果の候
補である。累積路ＭｇＮ（ｘ、Ｊ）が十分小さく単語Ｎ
と入力単語Ａが同一単語であることを判定するリジェク
ト値をｒ　（ｚ）とする。

ｒ　（ｚ）は、単位時間当りの距離の上限であり、周囲
雑音レベルＺの関数とする。従って、累積距離ｇＮ（Ｉ
、Ｊ）を入力時間Ｉで正規化し、その正規化累積距離Ｇ″’（Ｉ、Ｊ）＝ｇＮ（Ｉ、Ｊ）／１かリジェクト値
ｒ　（ｚ）以下の場合は、単語Ｎは入力単語Ａと同一単
語であるとみなして認識結果として出力する。Ｇ’（Ｉ
、Ｊ）がリジェクト値ｒ　（ｚ）を超えた場合は、単語
Ｎと単語Ａは異なる単語であるとみなし出力しない。

周囲雑音レベルが大きくなると、累積距離ｇ。

（Ｉ、Ｊ）も大きくなる。そこで、リジェクト値ｒ　（
ｚ）も雑音レベル２に合わせて変化させる。

リジェクト値ｒ　（ｚ）は周囲雑音レベル２より次のよ
うに決定する。

ぼ′”、　　（ｚ＜ｚ”°１ｒ　　（ｚ）　　−１ｔｘｚ　　−β　（Ｚ　し。−≦
　２　≦　Ｚ　　ＨＩＧＨ）ｔｒ、、Ｘ（Ｚ＞Ｚ、、、
、）・・・（２）ここで、ｒ６，７はリジェクト値ｒの最小値、ｒイ、Ｘ
はリジェクト値ｒの最大値、Ｚ　ＬＯＷは雑音レベルの
下限、Ｚ　ＨＩＧＨは雑音レベルの上限である。

リジェクト値ｒ　（ｚ）と雑音レベルＺの関係を第２図
に示す。

ｒ　ｆｆ１ａＸ＋　ｒ　ｍｉｎ＋　ｒ　ＨＩＧＨ＋　Ｚ
　ｔｏｗを最適に選ぶことにより、静かな環境において
も、高雑音下においても一定の認識性能が得られる。

［実施例］本発明の一実施例である音声認識装置の構成を示す。

この音声認識装置は、制御部１０と、音声分析部２０と
、雑音レベル推定部３０と、音声検出部４０と、リジェ
クト値計算部５０と、入力パタンハソファ６０と、標準
パタンメモリ部７０と、距離計算部８０と、漸化式計算
部９０と、認識結果判定部１００とから構成されている
。

音声分析部２０は、入力される音声信号を分析し、一定
時間毎に特徴ベクトルを出力する。この連続分析は例え
ば、多チャネルのフィルタより構成されるフィルタバン
クによる周波数分析などがある。

雑音レベル推定部３０では、常に入力レベルを監視し、
音声検出された以外は雑音とみなし、雑音レベルを音声
検出部４０とリジェクト値計算部５０に伝える。

音声検出部４０では、入力音声のレベルを監視し、雑音
レベルから音声の始端、終端を検出し、その検出した時
点を制御部ｌＯへ信号ＳＰにより伝える。

入力パタンハソファ６０は、音声の始端が検出された後
、制御部１０からの信号１１に従って音声分析部２０よ
り与えられる特徴ベクトルａ、を記憶する。信号１１は
入力パタンの時間点ｉに対応した信号である。

標準パタンメモリ部７０は、Ｎ個の単語標準パタンＢ、
、Ｂ、、・・・、ＢＮを記憶している。

制御部１０は、標準パタンの単語ｎを指示する信号ｎ１
を標準パタンメモリ部７０に発し、標準単語パタンの時
間点ｊに対応する信号ｊ１を発生する。

信号１１に従って、入力パタンバッファ６０より入力パ
タンの特徴ベクトルａ、が読み出され、信号ｊ１および
ｎｌに従って標準パタンメモリ部７０より単語標準パタ
ンｂ’、が読み出され、信号ｃ１２２によって距離計算
部８０においてベクトル間距離ｄ″（ｉ、ｊ）が計算さ
れる。

入力パタンハンファ６０と標準パタンメモリ部７０より
制御部１０からの信号ｍ１に従ってＭ個のデータが読み
込まれ、距離ｄ’（ｉ、ｊ）が漸化式計算部９０へ入力
される。

漸化式計算部９０では、制御部１０からの信号ｃｆｆ３
によって指示された（ｎ、ｉ、ｊ）乙こおける漸化式計
算を行い、累積距離ｇ”（ｉ、ｊ）を求める。この漸化
式計算がｊ＝１よりＪ″まで算出され、入力単語Ａとの
距離ｇ”（Ｉ、Ｊ）が各ｎに対して算出される。

入力音声の終端が検出されると、音声検出部４０より信
号ＳＰによって制御部１０へ通知され、続いて制御部１
０はリジェクト値計算部５０へ信号ｃｊ２１を発する。

リジェクト値計算部５０は、音声が入力される直前の雑
音レベルＺと式（２）よりリジェクト値ｒを求め認識結
果判定部１００に送る。

制御部１０は、認識結果判定部１００へ信号１２を発し
、認識結果判定部１００は、漸化式計算部９０より各単
語ｎに対する累積距離ｇ”（Ｉ、Ｊ）を受けて、この中
で最小のｇ″（Ｉ、Ｊ）となるｎを決定する。累積距離
の最小値ｇＮ（Ｉ、Ｊ）を１で正規化した値ＧＮ（Ｉ、
Ｊ）とりジエクト値計算部５０より受は取ったリジェク
ト値ｒを比較する。

ＣＮ（Ｉ、Ｊ）がｒ以下の場合は単語Ｎを認識結果とし
て出力し、ｒを越える場合は認識結果はなかったものと
する。

（発明の効果］以上説明したように本発明は、リジェクト値を周囲雑音
レベルに対応しで求めることにより、高雑音下の認識に
おいて、正しいと思われる標準単語がリジェクト値によ
りはじかれたり、静かな環境において誤認識が増えたり
することを防く効果がある。

【図面の簡単な説明】

第１図は音声認識装置の一実施例の構成図、第２回は本
発明の原理であるリジェクト値と雑音レベルの関係図で
ある。１０・・・・・制御部２０・・・・・音声分析部３０・・・・・雑音レベル推定部４０・・・・・音声検出部５０・・・　・リジェクト値計算部６０・・・・・人カパタンハソファ７０・・　・・・標準パタンメモリ部８０・・・・・距離計算部９０・・・・・漸化式計算部１００　　・・・・認識結果判定部代理人　弁理士　　岩　佐　　義　幸

Claims

【特許請求の範囲】

（１）特徴ベクトルの時系列である単語入力パタンＡ＝
ａ＿１、ａ＿２、・・・、ａ＿ｉ、・・・、ａ＿Ｉとあ
らかじめ記憶されているＮ個の単語標準パタンＢ＾ｎ＝
ｂ＿Ｉ＾ｎ、ｂ＿２＾ｎ、ｂ＿ｊ＾ｎ、ｂ＿Ｊ＾ｎ（ｎ
＝１、２、・・・、Ｎ）との間で、ＤＰマッチングの漸
化式計算を、入力パタンの時間点を示す信号ｉを１から
Ｉまで変化させ、各ｉに関して単語を示す信号ｎを１か
らＮまで変化させ、さらに各ｎに関して標準パタンの時
間点を示す信号ｊを１からＪまで変化させて、入力パタ
ンａ＿ｉと標準パタンｂ＿ｊのベクトル間距離ｄ＾ｎ（
ａ＿ｉ、ｂ＿ｊ）を求め、さらにＤＰマッチングの漸化
式計算より、ベクトル間距離ｄ＾ｎ（ａ＿ｉ、ｂ＿ｊ）
の累積距離ｇ＾ｎ（ｉ、ｊ）を求め、入力単語Ａの終端
において累積距離ｇ＾ｎ（Ｉ、Ｊ）が最小となる標準単
語Ｎを認識結果の第一候補とし、その単語Ｎの累積距離
ｇ＾Ｎ（Ｉ、Ｊ）が、入力単語と類似しているかどうか
を判定するためのリジェクト値Ｒを越えない場合に、標
準単語Ｎを認識結果として出力する音声認識において、音声認識時の周囲の雑音レベルを推定する手段と、雑音
レベルの関数としてリジェクト値Ｒを求める手段とを有
することを特徴とする音声認識装置。
（２）請求項１記載の音声認識装置において、認識結果
の第一候補である単語Ｎの累積距離ｇ＾Ｎ（Ｉ、Ｊ）を
入力時間長Ｉで正規化し、その正規化累積距離Ｇ＾Ｎ（
Ｉ、Ｊ）が、単位時間当りのリジェクト値にを越えない
場合に、単語Ｎを認識結果として出力することを特徴と
する音声認識装置。