JPH03245194A

JPH03245194A - 単語音声認識方式

Info

Publication number: JPH03245194A
Application number: JP2041303A
Authority: JP
Inventors: Fumihiro Tanido; 谷戸　文広; Norio Higuchi; 樋口　宜男; Kazuoki Katagishi; 一起片岸
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1990-02-23
Filing date: 1990-02-23
Publication date: 1991-10-31

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、音声の認識方式に係わり、特に、不特定多数
の利用者を対象とした単語音声認識方式において、認識
対象単語に類似単語などか含まれる認識方式に関する。

（従来の技術）単語音声認識方式は、荷物の仕訳等の作業のため手によ
る入力手段か用いられない分野などに広く利用されてい
る。単語音声認識方式ては；２識対象とする単語のセッ
トによらず常に高い正確さで単語音声が３２．識される
必要がある。

従来の単語音声認識方式ては、入力された単語音声とあ
らかしめシステムに記憶されている各単語毎の標準パタ
ーンとの間で距離が最小のものが認識結果とされている
。

（発明が解決しようとする課題）上述した従来技術において、認識対象単語に類似した単
語がある場合などにはこれらの単語音声が入力された場
合、誤認識を生じる可能性があるが、このような場合で
も常に距離が最小の単語候補のみが出力されてしまい、
この結果誤った単語を認識結果とすることか生してしま
う。

本発明はこのような従来の課題を解決するものであり、
認識対象単語に類似単語が含まれる場合や、発音があい
まいで単語の識別が比較的困難な場合などでも高い割合
で正しく単語音声を認識できる単語音声認識方式を提供
することを目的とするものである。

（課題を解決するための手段）本発明の特徴は、入力された音声信号を音響分析し、あ
らかしめ登録されている単語音声の標準パターンとＤＰ
マツチングにより比較して、類似度が最大すなわち距離
が最小の単語を認識結果とする単語音声認識方式におい
て、単語音声の認識結果に曖昧性がある場合にシステム
側より認識結果に基づいて適切な質問を行ない利用者に
確認させるもので、入力音声の音声パターンと標準音声
パターンとを比較し、該比較結果としての距離が最も小
さい標準パターンの該距離がある閾値よりも小なるとき
で、かつ該比較結果としての距離か最も小さい標準パタ
ーンの該距離の係数Ｘを掛けた範囲内にある標準パター
ンを選択するときの係数Ｘの値が１．１から１．３の範
囲とすることで、一つの単語音声もしくは複数の単語音
声群を選択することを特徴し、認識対象単語の標準パタ
ーンと距離が小さいほうから上位Ｎ位までの求めた単語
から単語候補が一意的に定まる場合には次の処理へ、そ
うでない場合には確認処理を行なう手段を備えるための
ものである。

（実施例）第１図は本発明の一実施例の構成を示ずものである。

音響分析部１は入力された音声信号を短時間（本実施例
では１０［１１Ｓ程度）毎に音響分析して特徴パラメー
タの系列に変換するための手段である。

単語音声検出部２は特徴パラメータの系列から単語音声
の始端候補区間と終端候補区間を求める手段である。

最適経路発見部３は始端候補と終端候補のすべての組み
合わせの中から標準パターンと最も最小の距離を与える
組み合わせを発見し、これを各標準パターンとの距離と
し、各発見した標準パターンとの距離が小さい上位Ｎ位
までの単語候補を求める手段である。標準パターン記憶
部４はシステムに登録された各単語の標準パターンを記
憶する標準パターン記憶手段である。

音声合成動作決定部５は登録単語の標準パターンとの距
離が小さい上位Ｎ位までの単語候補を求めその結果に応
じてシステムの動作を決定する手段である。

上述、動作決定部５か本発明を適用した部分である。

第１図の動作決定部５以外の各部は同時特許出願した発
明「単語音声認識装置」での実施例と次の点を除いてず
へて同様である。

同時出願「単語音声認識装置」では、最も距離の小さい
単語候補１つを求めていたか、本発明では発見した標準
パターンとの距離が小さい上位Ｎ位（Ｎは２以上の自然
数）までの単語候補を求めているところか異なる。

次に上記実施例の動作について説明する。

音声入力は音響分析部１により特徴パラメータの系列に
変換し、その結果を出力する。

単語音声検出部２ては音声人力の特徴パラメータから単
語音声の始端候補区間及び終端候補区間を求める。以下
、第２図により始端候補区間及び終端候補区間の決定方
法を説明する。なお、特徴パラメータは短時間平均エネ
ルギ、零交差数、および音声スペクトルで構成しである
。

まず、特徴パラメータの中から短時間平均エネルギか閾
値Ｅ２を越えた時点Ｐ２を求める。また、Ｐ２より以前
で平均エネルギか閾値Ｅ１を最も近傍で越えた時点Ｐ１
を求める。なお、閾値Ｅ１と閾値Ｅ２の関係はＥ　１　
＜Ｅ２である。

時点Ｐ１より以前の２５０ｍ秒の区間について特徴パラ
メータの中の零交差数が閾値Ｎより大になる時点の数か
３以上あれば、Ｐｌ側に最も近い時点で零交差数かＮよ
り大となった時点ＰＯを求め、そうでない場合はＰｌよ
り以前のある時点（本実施例では２５０ｍ秒）をＰＯと
する。このＰＯからＰ２を始端候補区間とする。

終端候補区間については逆方向に同一の論理を適用して
求める。

つまり、特徴パラメータでＰ２以降について次のように
解析する。

特徴パラメータの中から短時間平均エネルギが閾値Ｅ２
を割り込んだ時点Ｐ３を求める。また、Ｐ３より以降で
平均エネルギが閾値Ｅ１を最も近傍で割り込んだ時点Ｐ
４を求める。時点Ｐ４より以降の２５０ｍ秒の区間につ
いて特徴パラメータの中の零交差数か閾値Ｎより小にな
る時点の数が３以上あれば、Ｐ４側に最も近い時点で零
交差数がＮより大となった時点Ｐ５を求め、そうでない
場合はＰ４よりある時間（本実施例では２５０ｍ秒）以
降の時点をＰ５とする。このＰ３からＰ５を終端候補区
間とする。

最適経路発見部３ては標準パターン記憶部４に記憶され
ている各単語の標準パターンと単語音声検出部２から得
られた単語音声の特徴パラメータとの間で、第３図に示
すような始端候補区間内に両者をマツチングさせる際の
始点があり、終端候補区間内に終点がある様なすべての
対応付けの中から、両者の距離が最小となる対応付けを
発見する。具体的には連続ＤＰマツチング等の動的計画
法に基づく手法を適用する。この様にしてすべての単語
に対する最小距離を求める。

動作決定部５においては最適経路発見部３の出力である
単語音声の特徴パラメータと標準パターンの距離か小さ
いものから上位Ｎ位までの単語を求め、第４図に示した
判定手続きに基づいて次の処理を決定する。

具体的には第１位（ｉ≧１）の単語の距離をり、とした
とき、（１）ＤＩが閾値Ｔｈより大なる場合は認識結果か曖昧
であるとして再度の音声入力を求める。

（２）Ｄ、が閾値Ｔ１より小なる場合で、Ｄ２がり、の
１．１〜１．３倍以上（係数Ｘ：本実施例では１．１倍
を用いた）の場合は第１位の単語を認識結果とする。

（３）一方、Ｄｌく１゜１×Ｄ、かつＤｒ、ｒ　＞１．
１　ｘＤｓ　　（ｉ＞１）で、ｉか２の場合は第１位及
び第２位の単語の両者を利用者に質関し、その回答によ
り認識結果出力を得るかまたは再度音声入力を求めるか
等を決定する。

（４）またｉが３の場合は第１位、第２位および第３位
の単語のすべてを利用者に質関し、その回答により認識
結果出力を得るかまたは再度音声入力を求めるか等を決
定する。

（６）ｉが４以上の場合は認識結果があいまいであると
して再度音声入力を求める。

この様にして一つの単語音声もしくは複数の単語音声群
を選択し、この結果に基づいてシステムの次の動作を決
定する。

（発明の効果）本発明は上記実施例より明らかなように、入力された単
語音声の上位Ｎ位までの認識候補単語及びスペクトル距
離の情報から認識結果が一意的に定まる場合は次のプロ
セスに進み、そうてない場合は利用者のｉ認を求めるこ
とにより、認識対象とする単語セットの中に類似単語が
含まれている場合でも利用者に対してあまり負担をかけ
ずに正確な音声認識が行なえるという効果を有する。

この有効性を実施例以外のテストてテストデータ１３０
０件を用いた結果について第５図および第６図に示す。

第５図においては、第１位の単語が正解で第１位の単語
の距離の何倍（係数Ｘ）までを選択単語候補とするかと
したときの第２〜３位に誤った単語か含まれる比率（誤
り率）を示したちのであり、係数Ｘか１，１のときは約
２％、１．３の時でも約７％である。

第６図においては、第１位の単語が誤っていて第１位の
単語の距離の何倍（係数Ｘ）までを選択単語候補とする
かとしたときの第２〜３位に正しい単語が含まれる比率
（正解率）を示したちのであり、係数Ｘが１．１のとき
は約５０％、１．３の時には約８０％である。

一般的にいって前記誤り率が１０％を越えると、また前
記正解率が５０％を下回ると利用者の負担になると思わ
れるので係数Ｘも１．１≦Ｘ≦１．３とするのが最良で
ある。

【図面の簡単な説明】

第１図は本発明の実施例における単語音声認識装置のブ
ロック図、第２図は始端候補区間および終端候補区間の検出方法の
説明図、第３図は単語音声と標準パターンのマツチング経路に関
する説明図、第４図は動作決定部５での認識単語決定手順を示すフロ
ー図、第５図は、第１位の単語が正解て第１位の単語の距離の
何倍（係数Ｘ）までを選択単語候補とするかとしたとき
の第２〜３位の誤った単語か含まれる比率（誤り率）を
示した図、第６図は、第１位の単語か誤っていて第１位の単語の距
離の何倍（係数Ｘ）まてを選択単語候補とするかとした
ときの第２〜３位に正しい単語か含まれる比率（正解率
）を示した図である。１・・・音響分析部、２・・・単語音声検出部、３・・
・最適経路発見部、４・・・標準パターン記憶部、５・・・動作決定部。

Claims

【特許請求の範囲】　入力された音声信号を音響分析し、あらかじめ登録さ
れている単語音声の標準パターンとＤＰマッチングによ
り比較して、類似度が最大すなわち距離が最小の単語を
認識結果とする単語音声認識方式において、入力音声の音声パターンと標準音声パターンとを比較し
、該比較結果としての距離が最も小さい標準パターンの該
距離がある閾値よりも小なるときで、かつ該比較結果と
しての距離が最も小さい標準パターンの該距離の係数Ｘ
を掛けた範囲内にある標準パターンを選択するときの係
数Ｘの値が１．１から１．３の範囲とすることで、一つ
の単語音声もしくは複数の単語音声群を選択し、単語音
声の認識結果に曖昧性がある場合にシステム側より認識
結果に基づいて利用者に適切な質問を行ない利用者に確
認させることを特徴とする単語音声認識方式。