JPH10207486A

JPH10207486A - 対話型音声認識方法およびこの方法を実施する装置

Info

Publication number: JPH10207486A
Application number: JP9007757A
Authority: JP
Inventors: Yuichi Suwa; 裕一諏訪; Kiyoshi Maruyama; 清丸山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1997-01-20
Filing date: 1997-01-20
Publication date: 1998-08-07

Abstract

(57)【要約】【課題】音声認識が適正に実施されたものと認識され
たもののみを認識結果の正解の候補として復唱確認の操
作を実施して音声対話時間を短縮する対話型音声認識方
法およびこの方法を実施する装置を提供する。【解決手段】１位の音声認識結果の尤度と２位以下の
各音声認識結果の尤度との間の差を尤度差とし、認識単
語種別毎にこの尤度差の或る一定値を尤度差閾値として
設定記憶しておき、或る認識単語種別の認識において１
位の認識結果の尤度と２位以下の各認識結果の尤度との
間の尤度差を測定し、各尤度差と先に記憶されている当
該認識単語種別の尤度差閾値との間の比較をして認識結
果の正解の候補を選択する対話型音声認識方法およびこ
の方法を実施する装置。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、対話型音声認識
方法およびこの方法を実施する装置に関し、特に音声認
識が適正に実施されたものと認識されたもののみを認識
結果の正解の候補として復唱確認の操作を実施して音声
対話時間を短縮した対話型音声認識方法およびこの方法
を実施する装置に関する。

【０００２】

【従来の技術】音声認識装置においては、音声認識の結
果として複数の音声認識結果が出力されるが、これらの
音声認識結果は必ずしも正しいとは限らず、単なる認識
結果の正解の候補であるに過ぎない。ここで、音声認識
装置は出力される単なる候補の内から正解の認識結果を
確認選択することを実施している。対話型音声認識装置
においては、認識装置の利用者に対して認識結果の復唱
確認を実施し、正解の認識結果を確認選択している。

【０００３】音声認識においては、音声認識結果の候補
の尤もらしさを表すパラメータとして尤度を使用してい
る。なお、尤度とは統計的手法による音声認識の計算処
理において使用されるパラメータであり、その計算式
は、例えば「Hidden Markov Model に基づいた音声認
識：大河内正明、日本音響学会誌第４２巻第１２号、
１９８６年」、或いは「A tutorial on Hidden Markov
Model and Selected applications in speech recognit
ion ：L.R.Rabiner 、proceedings of IEEE Vol.77No.
2、1989 」に示されている。音声認識における尤度の使
用の仕方は認識結果の正解の候補に尤度を付与して認識
結果の正解の候補の順位を尤度の大きさにより規定し、
尤度の大きさの順位に正解の候補すべての復唱確認を実
施して正解の認識結果を選択している。

【０００４】

【発明が解決しようとする課題】対話型音声認識装置に
おいては、上述した通り、認識結果の正解の候補のそれ
ぞれについて復唱確認を実施して正解の認識結果を選択
している。この場合、認識結果の正解の候補の内には、
種々の要因により尤度の極く小さいもの、例えば認識装
置が周囲雑音を誤認識して正解の候補であるものとされ
たものも含まれている。対話型音声認識装置は、この様
にして音声認識が正しく実施されなかった場合の誤った
認識結果の正解の候補についても復唱確認操作を実施す
るものであり、その分だけ対話時間を増大する。

【０００５】この発明は、音声認識の結果として出力さ
れる複数の音声認識結果について音声認識が適正に実施
された結果のものであるか否かを識別し、音声認識が適
正に実施されたものと認識されたもののみを認識結果の
正解の候補として復唱確認の操作を実施して、音声対話
時間を短縮した利用者にとって使用し易い対話型音声認
識方法およびこの方法を実施する装置を提供するもので
ある。

【０００６】

【課題を解決するための手段】１位の音声認識結果の尤
度と２位以下の各音声認識結果の尤度との間の差を尤度
差とし、認識単語種別毎にこの尤度差の或る一定値を尤
度差閾値として設定記憶しておき、或る認識単語種別の
認識において、１位の認識結果の尤度と２位以下の各認
識結果の尤度との間の尤度差を測定し、各尤度差と先に
記憶されている当該認識単語種別の尤度差閾値との間の
比較をして認識結果の正解の候補を選択する対話型音声
認識方法を構成した。

【０００７】そして、利用者により特定される認識単語
種別に基づいて対話制御部１４内の尤度差閾値記憶部４
２から尤度差閾値Ｌ_thを予め選択設定し、音声認識部１
１から出力される尤度の大きさにより順位付けられた複
数の認識結果について尤度が最も大きい１位認識結果の
尤度Ｌ₁と２位以下の認識結果の尤度Ｌ_nとの間の比較
を順次に実施し、尤度Ｌ₁と尤度Ｌ_nの差が尤度差閾値
Ｌ_th以下であれば、ｎ位の認識結果を復唱確認を実施す
る対象である認識結果の正解の候補として選択する対話
型音声認識方法を構成した。

【０００８】また、利用者の発声した音声を認識し、認
識結果に尤度を付与して尤度の大きさにより順位付けし
た複数の認識結果を出力する音声認識部１１を具備し、
利用者に対して発声要求および認識結果の復唱確認を含
むガイダンスを送出する音声応答部１２を具備し、音声
認識部１１と音声応答部１２を制御して音声対話の制御
を実行する対話制御部１４を具備し、この対話制御部１
４は音声認識部１１と音声応答部１２の制御手順である
対話フローを記憶する対話フロー記憶部４１および単語
種別毎の尤度差閾値を記憶する尤度閾値記憶部４２より
成り、或る認識単語種別の単語について１位の認識結果
の尤度と２位以下の各認識結果の尤度との間の尤度差を
測定して尤度差と先に記憶されている当該認識単語種別
の尤度差閾値との間の比較を行ない、復唱確認を実施す
る認識結果の正解の候補を選択する対話型音声認識装置
を構成した。

【０００９】

【発明の実施の形態】この発明の実施の形態を説明す
る。対話型音声認識装置にアクセスし、サービス名を音
声により入力して任意のサービスを選択するという業務
を実施する場合、認識の対象とされる認識単語種別とし
て、名前、住所、所属、地名、その他の如き認識単語種
別が考えられる。この発明は音声認識の対象とされる単
語について音声認識を実施し、音声認識結果の尤もらし
さの尺度として尤度を音声認識結果に付与し、認識結果
の順位を尤度の大きさにより規定する。認識単語種別毎
に音声認識を実施して尤度を付与し、１位の音声認識結
果の尤度と２位以下の各音声認識結果の尤度との間の差
を尤度差として試験測定することを予め実施する。そし
て、各認識単語種別について尤度差がどの程度以下であ
れば２位以下の各音声認識結果を正しい認識結果である
可能性があるものとして採用することができるかという
ことを試験測定し、この尤度差の値を認識単語種別毎に
「尤度差閾値」として記憶しておく。

【００１０】ここで、或る認識単語種別の認識におい
て、利用者の発声が１位で正しく認識される場合の１位
の認識結果の尤度と２位以下の各認識結果の尤度との間
の尤度差を測定し、尤度差と先に試験測定して記憶され
ている当該認識単語種別の尤度差閾値との間の比較を行
い、この尤度差が尤度差閾値以下である認識結果は正し
い認識結果である可能性があるものと見做して復唱確認
を実施する認識結果の正解の候補として選択する。それ
以外の各認識結果は復唱確認の実施の対象外とすること
により、復唱確認を実施する認識結果の個数を適正化し
て音声対話時間を短縮する。

【００１１】尤度差閾値は認識単語種別毎に相違するの
で、尤度差閾値を認識単語種別に無関係に一定の値のも
のを使用することはできない。即ち、或る認識単語種別
については、尤度差は相当に大きくてもこれを正しい認
識結果である可能性があるものと見做して差し支えな
く、この場合は尤度差閾値は大きく設定する。これに対
して、他の或る認識単語種別については、尤度差は小さ
くてもこれを正しい認識結果である可能性があるものと
することができず、この場合は尤度差閾値は小さく設定
する。この様に、認識単語種別毎に適正な尤度差閾値を
予め試験測定して記憶しておき、音声対話時に各認識単
語種別に対応した尤度差閾値を参照することにより、認
識の正しさの判定精度を向上することができる。

【００１２】

【実施例】この発明の実施例を図１および図２を参照し
て更に具体的に説明する。図１において、１１は利用者
の音声を認識する音声認識部、１２は利用者へのガイダ
ンスを送出する音声応答部、３は通話回線５への音声信
号の伝送および通話回線５から入力する音声信号の取り
出しを行う伝送装置、１４は音声認識部１１と音声応答
部１２を制御して音声対話の制御を実行する対話制御
部、４１は音声認識部１１と音声応答部１２の制御手順
である対話フローを記憶する対話フロー記憶部、４２は
単語種別毎の尤度差閾値を記憶する尤度差閾値記憶部、
５は伝送装置３と利用者とを接続して音声対話をする通
話回線、６は伝送装置３と音声認識部１１との間を接続
する通話線、７は伝送装置３と音声応答部２との間を接
続する通話線、８は対話制御部１４と音声認識部１１と
の間を接続する制御線、９は対話制御部４と音声応答部
２との間を接続する制御線、１０は対話制御部１４と伝
送装置３との間を接続する制御線である。

【００１３】図２は音声認識して出力される複数の音声
認識結果の内から復唱確認を実施する対象である認識結
果の正解の候補を選択する手順を説明するフローチャー
トである。図２において、Ｌ_thは尤度差閾値であり、利
用者により特定されるサービス対象の認識単語種別に基
づいて対話制御部１４内の尤度差閾値記憶部４２から予
め選択設定される。音声認識部１１による音声認識結果
は単語を識別する単語情報および認識結果の尤もらしさ
を表すパラメータである尤度により構成され、尤度の大
きさにより順位付けられた複数の認識結果が音声認識部
１１から出力される。

【００１４】尤度が最も大きい１位認識結果の尤度Ｌ₁
と２位以下の認識結果の尤度Ｌ_nとの間の比較を順次に
実施し、尤度Ｌ₁と尤度Ｌ_nの差が尤度差閾値Ｌ_th以下
であれば、ｎ位の認識結果を復唱確認を実施する対象で
ある認識結果の正解の候補として選択する。図３を参照
して説明するに、これは利用者が自身の伝送装置３０か
ら対話型音声認識装置１にアクセスして音声による情報
入力を実施する手順を説明する図である。この例は、サ
ービス名を音声で入力して任意のサービスを選択するサ
ービスの例である。

【００１５】利用者が自身の伝送装置３０を介して対話
型音声認識装置１に対してアクセス番号をダイヤルして
発呼すると、交換機２は通話回線５を経由して伝送装置
３０と対話型音声認識装置１とを接続すると共に、制御
線１０を経由して対話型音声認識装置１へ音声によるサ
ービス選択を依頼する。対話型音声認識装置１は、制御
線１０を介して受信した制御信号に基づいて対話制御部
１４の対話フロー記憶部４１に記憶する音声認識部１１
と音声応答部１２の制御手順である対話フロー１４１を
選択する。対話制御部１４は、先に選択した対話フロー
１４１に基づいて音声認識部１１と音声応答部１２とを
制御し、サービス名を収集する。収集したサービス名は
制御線１０を介して交換機２に通知される。

【００１６】図４および図５を参照して対話フローによ
る音声認識手順について説明する。図４は対話フロー１
４１の１例である。図５は図４の対話フローに基づいて
対話制御部１４と、音声認識部１１と、音声応答部１２
との間を制御する手順を説明するシーケンス図である。
対話制御部１４は音声認識部１１にサービス名の認識開
始を指示した後、音声応答部１２に対してサービス名発
声要求ガイダンスの送出を指示する。利用者の発声した
音声を音声認識部１１が検出すると、音声認識部１１は
認識処理を実施し、認識結果を対話制御部１４に通知す
る。

【００１７】対話制御部１４は音声認識部１１から通知
されたサービス名の認識結果の内から復唱確認を実施す
る認識結果を選択し、音声認識部１１に対して選択結果
である復唱確認語の認識開始を指示すると共に、音声応
答部１２に対して選択した認識結果の復唱確認ガイダン
スの送出を指示する。利用者の発声した音声を音声認識
部１１が検出すると、音声認識部１１は認識処理を行
い、認識結果を対話制御部１４に通知する。

【００１８】対話制御部１４は音声認識部１１から通知
された確認語の認識結果から、復唱確認したサービス名
の認識結果が確定したか否かを判定する。サービス名の
認識結果が確定した場合、サービス名の収集に成功した
と見做して対話フローを終了させる。サービス名の認識
結果が確定せず、かつ、次の復唱確認すべきサービス名
の認識結果が存在するならば、引き続いてサービス名認
識結果の復唱確認を行う。

【００１９】サービス名の認識結果が確定せず、かつ、
次の復唱確認すべきサービス名の認識結果が存在しない
ならば、サービス名の収集に失敗したと見做し、対話フ
ローを終了させる。

【００２０】

【発明の効果】以上の通りであって、この発明によれ
ば、認識単語種別毎に適正な尤度差閾値を予め試験測定
して記憶しておき、音声対話時に各認識単語種別に対応
した尤度差閾値を参照して音声認識の結果として出力さ
れる複数の音声認識結果について音声認識が適正に実施
された結果のものであるか否かを識別し、音声認識が適
正に実施されたものと認識されたもののみを認識結果の
正解の候補として復唱確認の操作を実施することによ
り、認識の正しさの判定精度を向上することができるこ
ととなり、音声対話時間を短縮した利用者にとって使用
し易い対話型音声認識方法およびこの方法を実施する装
置を提供することができる。

【図面の簡単な説明】

【図１】対話型音声認識装置の実施例を説明するブロッ
ク図。

【図２】対話型音声認識装置内で行なわれる復唱確認を
実施する認識結果の選択手順を説明するフローチャー
ト。

【図３】サービス名の収集手順を説明するシーケンス
図。

【図４】対話フローの一例を示す図。

【図５】対話型音声認識装置内で行なわれる認識結果の
正解を認識する制御手順を説明するシーケンス図。

【符号の説明】

１対話型音声認識装置２交換機３伝送装置５通話回線６、７通話線８、９、１０制御線１１音声認識部１２音声応答部１４対話制御部３０利用者伝送装置４１対話フロー記憶部４２尤度差閾値記憶部１４１対話フローＬ_th 尤度閾値Ｌ_n 尤度

Claims

【特許請求の範囲】

【請求項１】１位の音声認識結果の尤度と２位以下の
各音声認識結果の尤度との間の差を尤度差とし、認識単
語種別毎にこの尤度差の或る一定値を尤度差閾値として
設定記憶しておき、或る認識単語種別の認識において、１位の認識結果の尤
度と２位以下の各認識結果の尤度との間の尤度差を測定
し、各尤度差と先に記憶されている当該認識単語種別の
尤度差閾値との間の比較をして認識結果の正解の候補を
選択することを特徴とする対話型音声認識方法。
【請求項２】請求項１に記載される対話型音声認識方
法において、利用者により特定される認識単語種別に基づいて対話制
御部内の尤度差閾値記憶部から尤度差閾値を予め選択設
定し、音声認識部から出力される尤度の大きさにより順
位付けられた複数の認識結果について尤度が最も大きい
１位認識結果の尤度と２位以下の認識結果の尤度との間
の比較を順次に実施し、１位認識結果の尤度と２位以下
ｎ位の尤度の差が尤度差閾値以下であれば、ｎ位の認識
結果を復唱確認を実施する対象である認識結果の正解の
候補として選択することを特徴とする対話型音声認識方
法。
【請求項３】利用者の発声した音声を認識し、認識結
果に尤度を付与して尤度の大きさにより順位付けをした
複数の認識結果を出力する音声認識部を具備し、利用者に対して発声要求および認識結果の復唱確認を含
むガイダンスを送出する音声応答部を具備し、音声認識部と音声応答部を制御して音声対話の制御を実
行する対話制御部を具備し、この対話制御部は音声認識
部と音声応答部の制御手順である対話フローを記憶する
対話フロー記憶部および単語種別毎の尤度差閾値を記憶
する尤度差閾値記憶部より成り、或る認識単語種別の単語について１位の認識結果の尤度
と２位以下ｎ位の各認識結果の尤度との間の尤度差を測
定して尤度差と先に記憶されている当該認識単語種別の
尤度差閾値との間の比較を行ない、復唱確認を実施する
認識結果の正解の候補を選択することを特徴とする対話
型音声認識装置。