JPH01321498A

JPH01321498A - 音声認識装置

Info

Publication number: JPH01321498A
Application number: JP63155259A
Authority: JP
Inventors: Takeshi Norimatsu; 武志則松
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1988-06-23
Filing date: 1988-06-23
Publication date: 1989-12-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、入力音声パターンと各標準パターンとのパタ
ーンマツチングにより認識結果を導き出す音声認識装置
に関するものである。

従来の技術一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法（ダイナミック　プログラミング法）
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマツチング（以下、ＤＰマツチングと記す。）
が使用されている。特に、単語音声認識装置では、この
ＤＰマツチング法により高い認識率を得ている。　（例
えば、　「ダイナミック　プログラミングオプティミゼ
イション　フォ　スポークン　ワ−ド　レコグニション
Ｊ　　（Ｈ，５ａｋｏｅ　ａｎｄ　Ｓ　、Ｃｈ　ｌｂａ
　＋”Ｄｙｎａｍｌｃ　ｐｒｏｇｒａｍｍｌｎｇ　　ｏ
ｐｔｌｍｌｚａｔｌｏｎ　　ｆｏｒ　　５ｐｏｒｋｅｎ
　ｗｏｒｄ　　ｒｅｃｏｇｎｌｔｌｏｎ”、ＩＥＥＥ　
　ｔｒａｎｓ、Ａｃｏｕｓｔｌｃ、５ｐｅｅｃｈ、Ｓｉ
ｇｎａｌ　　Ｐｒｏｃｅｓｓｉｎｇ、ｙｏｌ、Ａｓ５Ｐ
−２７ｐｐ、３３Ｇ−３４９゜発明が解決しようとする
課題しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマツチングを行うため、異なった
音声パターン間のＤＰマツチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、誤認識を生じる原因となっていた。例えば、　「
大阪」と「大分」とはエネルギー系列で見ると、前者は
三つ、後者は二つのエネルギーの山があり明らかに異な
った二つのパターンであるが、音韻的には似通っている
ためＤＰマツチングにより距離が小さくなってしまい誤
認識を生じる場合がある。

また、類似した音声パターン間のＤＰマツチングでは、
音声パターン全体に渡ってＤＰマツチングを行なうため
、両者間の違いが埋もれてしまい、その結果、パターン
間の距離が小さくなり誤認識を生じやすいという問題点
を何していた。

また、認識対象外単語が入力された時にも標準パターン
の一つにマツチングしてしまい、対象外単語のりジェク
ト性能には限界があった。

本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なりＰマツチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のりクエクト
性能を高めることのできる音声認識装置を提供するもの
である。

課題を解決するための手段本発明の音声認識装置は入力音声からエネルギー系列を
含む特徴ベクトルの時系列を出力する音声分析部と、前
記音声分析部から出力されるエネルギー系列から無音区
間を検出する無音区間検出部と、前記無音区間検出部で
得られた入力パターン及び標準パターンの無音区間点の
交点でマツチング経路を限定するパターンマツチングを
全ての可能な経路上で計算し、その際各点での累積距離
計算時にそれ以前にどの無音区間点の交点を通過してき
たかをバックポインターとして記憶する類似度計算部と
を備えたことを特徴とする。

作用本発明は上記に述べた構成によって、あらかじめ標準パ
ターンの無音区間を検出し、バックポインターに以前の
通過点を記憶させながらパターンマツチングを実行する
ことにより一度のＤＰマツチングの実行により、無音区
間点の検出誤りを考慮した全ての無音区間点の対応のさ
せ方を含んだ距離計算ができることにより、パターンマ
ツチングに要する処理時間を増加させずに類似パターン
間の誤認識および極端なマツチングによる誤認識を極力
抑えることができ、さらに認識対象外単語が入力された
蒔には極力リジェクトすることができる。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。

第１図は本発明の一実施例における音声認識装置のブロ
ック図である。第１図において、１は音声信号を入力す
るマイクロホン（電話機のハンドセット等でもよい。）
２は音声分析部で、入力された音声信号から特徴ベクト
ルの時系列を抽出する。３は無音区間検出部で、音声の
エネルギー値時系列から無音部分を検出し後続のエネル
ギーの立ち上がりのフレーム位置を記憶する。４は類似
度計算部で入力パターンと標準パターンの無音区間点の
交点で経路を限定したパターンマツチングを行う。５は
記憶部で入力パターン及び全ての標準パターンの特徴ベ
クトルの時系列と無音区間点を記憶する。６はバックポ
インター記憶部で各点での累積距離計算時にその点に到
達する以前に通過した無音区間点の交点を記憶する。７
は認識判定部で類似度計算部４で得られた距離値のうち
最小距離を与える標準パターンを認識候補音声とする。

第２図は第１図に示した装置の説明図である。

次に上記音声認識装置の動作を説明する。

まず、マイクロホン１から音声を入力し、音声分析部２
で入力音声信号をアナログ−ディジタル変換しさらに音
声の特徴ベクトルの時系列（例えば、１０次の線形予測
係数）とエネルギー系列とを求め、記憶部５に記憶する
。次に、無音区間検出部３で、音声分析部２でメモリに
記憶されたエネルギー系列からエネルギー値が予め定め
られた閾値を下回る区間が一定時間ＴＯを超える区間を
無音区間として検出し、その無音区間の個数と各無音区
間の後続のエネルギーの立ち上がりのフレーム位置（以
下このフレーム位置をＱ点と呼ぶことにする。）を記憶
する。なお、あらかじめ各標準パターンの特徴ベクトル
の時系列及び各標準パターンの無音区間の個数とその後
続のエネルギーの立ち上がりのフレーム位置が記憶部５
に記憶されているものとする。次に類似度計算部４で、
入力された音声パターンは各標準パターンとの間で無音
区間検出部３で検出されたＱ点によりマツチング経路を
拘束したパターンマツチング（例えばＤＰマツチング法
）を行う。以下パターンマツチングの動作をここでは簡
単のために入力パターン、標準パターンにそれぞれＱ点
が２個ずつ存在する場合について説明する。

ここで入力パターンの始点及び終点をそれぞれＱ＋ａ　
（＝　１　）　、Ｑ１０、標準パターンの始点、終点を
それぞれＱＲ９（＝　１　）　、ＱＲ３とする。また、
入力パターン、標準パターンのＱ点を始点に近い方から
それぞれＱ　＋＋ｓ　　Ｑ　１２及びＱ　Ｒ＋、ＱＲ２
とし各Ｑ点同志の２次元平面上の交点をそれぞれ（ＱＩ
ＩＩＱＲＩ）（ＱＲＩＱ−２）（Ｑ−２Ｑ−１）（ＱＲ
２０Ｒ２）とする。

これらの様子は第２図に示している。またここでは簡単
のために整合窓による制限は考えないこととする。

パターンマツチングは入力パターン、標準パターン上で
検出されたＱ点同志を対応させた交点上でマツチング経
路を制限して行うが、Ｑ点の検出を誤った場合を考慮す
ると第２図に示した■■■の３種類の経路を考える必要
がある。パターンマツチングの漸化式としてここでは次
式を考える。

ｇ（１，１）：ｄ（１，１）　　　　　　　　　　−−
−−−（１）ｇ（１＋ｊ）＝ｍｌｎ（ｇ（１１，Ｊ）　
＋ｇ（１−１＋ｊ−ＩＬｇ（１−１，ｊ−２））＋ｄ（
１，ｊ）　　　　　　　　−−−−（２）ｇ（１，ｊ）
＝ｇ（１＋１）＝ｃｏ（１，Ｊ＝２．３．＊　ｅ　ｅ　
ｅ　）ここでｇ（ｉ、ｊ）、ｄ（ｉ、ｊ）はそれぞれ（
ｔ、ｊ）における累積距離及びベクトル間距離を表す。

また点（ｔ、ｊ）でのバックポインターをｂ（ｉ、ｊ）
とし、初期値としてｂ（１，１）Ｅ（１，１）とする。

まずｉ”Ｌｊ＝１としてｊをインクリメントしながら上
記の漸化式に従い累積距離ｇを計算し、ｊ　”ＱＩＩＥ
まで処理し終わるとｉをインクリメントし同様に処理を
続ける。各点（ｉ、ｊ）でのバックポインターは以下の
ようにして求める。

！＝Ｑ＋に＋かつｊ＝ＱＲ＋のとき（但しに、　Ｉ＝１
．２）ｂ　（ｉ＋　　ｊ　）　Ｅ　（Ｑ＋ｂ＋　　ＱＲ
Ｉ）ｉ　ｆ−Ｑ　Ｉｋｌ　　又はｊ≠ＱＲＩのとき（但
しに、　Ｉ：ｌ　、２）（ｉ、　　ｊ）がＱ、、＜ｉ≦
Ｑ　＋に４＋　　かつＱＲＩ＜ｊ≦ＱＲ１＋１の範囲内にある時、漸化式（２）の右辺第１項の最小値
となるｇＯに対応するバックポインターの内容をｂ（ｉ
、ｊ）とする。但しここでｂ（ｉ。

ｊ）として取り得る点（Ｑｌｌ、ＱＲ，）は、　（ｍ＝
ｋかつｎ＝１）または（ｎ＝　１かつｍ＝ｋ　）でなけ
ればならない。

こうして得られたバックポインターｂ（ｉ、ｊ）はバッ
クポインター記憶部６に記憶される。こうして最終的に
得られた点（Ｑ１０．ＱＲ３）での累積距離は第２図の
３種類の経路をすべて考慮した最も最適な限定された経
路を選んだ時の類似度となる。

各標準パターンとの類似度がすべて計算されたのちに、
認識判定部７で類似度の最大なる標準パターンを認識候
補音声として判定し外部に出力する。

以上のように本実施例によれば、音声の無音区間を検出
する無音区間検出部３と、無音区間の交点により経路を
制限したパターンマツチングにより入力パターンと標準
パターンの類似度を計算する類似度計算部４と、過去に
通過したＱ点の交点を記憶するバックポインター記憶部
６を設けたことにより、１回のパターンマツチングで経
路限定の全ての可能性を考慮することができ、計算時間
を増加させずに誤認識を防止しまた対象外音声入力時に
極力リジェクトすることができる。

発明の効果以上のように本発明は、音声パターン中の無音区間を検
出しその位置を記憶する無音区間検出部と、入力パター
ンと標準パターンの無音区間点の交点を通過するように
制限したパターンマツチングを、累積距離算出時にバッ
クポインターを用いて過去の通過した最適な無音区間点
の交点を記憶しながら計算する類似度計算部を設けたこ
とにより、エネルギー包絡線に対応したパターンマツチ
ングが可能になり、また１回のパターンマツチング計算
ですべての無音区間点の対応のさせ方を考慮しているこ
とから、処理時間を増加させずに類似単語間の誤認識を
抑え、対象外単語が入力された時にも極力リジェクトす
ることのできる音声認識装置を提供することができる。

【図面の簡単な説明】

第１図は本発明の一実施例の音声認識装置のブロック構
成図、第２図は同装置の動作説明図であ１・・争マイク
ロホン、２φ・・音声分析部、３・・・無音区間検出部
、４ｅ・番類似度計算部、５・・・記憶部、６・・Φバ
ックポインター記憶部、７・・＠認識判定部。

Claims

【特許請求の範囲】

（１）入力音声からエネルギー系列を含む特徴ベクトル
の時系列を出力する音声分析部と、前記音声分析部から
出力されるエネルギー系列から音声パターン中の無音声
部分を検出する無音区間検出部と、前記無音区間検出部
により得られる入力パターンと予め辞書に記憶された各
標準パターンとの無音区間点の交点でパターンマッチン
グ経路を限定するパターンマッチング距離計算を、無音
区間点検出誤りを考慮して、可能性のある全ての無音区
間点の交点により限定されたマッチング経路上で距離計
算を行い両者間の類似度を算出する類似度計算部とを備
えたことを特徴とする音声認識装置。
（２）類似度計算部は、各点での累積距離計算時にその
点に到達するまでにどの無音区間点の交点をマッチング
経路が通過してきたかを記憶するバックポインターを有
することを特徴とする請求項１記載の音声認識装置