JP2005017603A

JP2005017603A - 音声認識率推定方法及び音声認識率推定プログラム

Info

Publication number: JP2005017603A
Application number: JP2003181220A
Authority: JP
Inventors: Masayuki Takahashi; 真之高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2003-06-25
Filing date: 2003-06-25
Publication date: 2005-01-20

Abstract

【課題】音声対話システムにおいて想定される音声認識率を発話入力時点において逐次推定する音声認識率推定方法を提供する。
【解決手段】音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、対話動作の実行時における音声認識結果を入力する過程と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程とを有する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識率推定方法及び音声認識率推定プログラムに係わり、利用者による電話、携帯電話、携帯情報端末、車載情報端末等からの音声入力に対して音声認識機能を有する情報サービス提供システムにおいて、音声入力時において予想される音声認識率を推定する方法に関する。
【０００２】
【従来の技術】
ある認識語彙数の場合の認識率が既知であれば、認識誤り率が語彙数の平方根に比例するという経験則から、語彙数ｎ語の場合の認識率を推定することができる（例えば、特許文献１参照）。しかし、音声対話システムの実際の利用状況は、利用者が不特定多数であること、利用者周辺の雑音環境が一定でないこと等の理由から、認識語彙数のみから認識率を推定することは極めて困難である。また従来の音声対話システムでは、認識率をいかに向上させるかという手法が検討されているのみであり、積極的に発話入力時に認識率を推定する手法は見られない。このように、音声認識システムにおいて、利用者に情報サービスを提供する際に、最小限の対話のやり取りで完了させるための戦略として、従来は何らかの技術的工夫により音声認識率の向上を図ることで認識誤りを最小にするということが一般に行われてきたが、現状の音声認識の技術は未だ完全ではなく、様々な利用者の環境下において、常に高い認識率を得ることは非常に困難となっている。
【０００３】
【特許文献１】
特開２００２−２７８５８９号公報
【０００４】
【発明が解決しようとする課題】
ところで、一般の音声対話システムでは、一定の認識誤りを前提として対話シナリオが設計されているが、想定した認識率より悪い場合は対話が非常に長くなってしまったり、逆に想定した認識率より良い場合は結果的に必要でない確認応答の割合が多くなることとなる。そこで、様々な利用者の発話状況における対話長さの期待値を最小とするために、ユーザ要求の確率分布と期待ターン数（対話のやり取りを行う回数）から次の確認内容を可変的に決定する手段が提案されている（特許文献１）。
【０００５】
しかしながら、期待ターン数を正確に推定するためには、時々刻々と変化する利用者の発話環境に応じて逐次音声認識率を推定する必要があるが、特許文献１に記載の装置ではそのような手段が提案されておらず、実際の利用環境においては期待ターン数の推定精度が悪化し、結果的に対話長さの期待値の短縮が図れない可能性があった。
【０００６】
本発明は、このような事情に鑑みてなされたもので、音声対話システムにおいて想定される音声認識率を発話入力時点において逐次推定する音声認識率推定方法及び音声認識率推定プログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
請求項１に記載の発明は、音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて、音声認識率を推定する方法であって、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、対話動作の実行時における音声認識結果を入力する過程と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程とを有することを特徴とする。
【０００８】
請求項２に記載の発明は、音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて動作する音声認識率推定プログラムであって、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する処理と、対話動作の実行時における音声認識結果を入力する処理と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する処理と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく処理と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する処理とをコンピュータに行わせることを特徴とする。
【０００９】
【発明の実施の形態】
以下、本発明の一実施形態による音声認識システムを図面を参照して説明する。図１は同実施形態の構成を示すブロック図である。符号１は、利用者が発話したマイクロホンを通して直接、または電話網、携帯電話網、インターネット、構内網等を経由して間接的に入力される発話音声を取り込み、特徴パラメータを抽出して、内部の辞書中にある単語群に音響スコアを付加し、その結果を送出する音響分析部である。符号２は、内部の辞書内にある各単語列に対し、単語と単語の繋がりやすさを表す言語スコアを付加する言語分析部である。符号３は、内部に蓄積された認識結果を用いて、ある単位発話音声がある合計スコアを獲得したとき、その発話音声が正しく認識される確率を推定する認識率推定部である。符号４は、言語分析部２より出力される音響スコア及び言語スコアの合計等から、認識結果を判断し、その結果を送出する探索部である。符号５は、探索部４からの出力に基づいて対話動作を制御する対話制御部である。
【００１０】
次に、図２を参照して、図１に示す認識率推定部３の動作を説明する。
まず、認識率推定部３は、言語分析部２から音響スコアと言語スコアを受信する（ステップＳ１）。そして、認識率推定部３は、受信した音響スコアと言語スコアの合計スコアを計算する（ステップＳ２）。続いて、認識率推定部３は、近似曲線の計算式に先に計算した合計スコアを代入し、推定音声認識率を決定する（ステップＳ３）。そして、認識率推定部３は、計算した推定音声認識率を対話制御部５へ送信する（ステップＳ４）。対話制御部５は、この推定音声認識率に基づいて、次に行うべき動作を判断して対話動作の制御を行う。
【００１１】
一方、認識率推定部３は、対話制御部５から音声認識結果（成功または失敗のいずれか）を受信する（ステップＳ５）。続いて、認識率推定部３は、受信した認識結果を、この合計スコア幅（範囲）内の認識成否データに追加する（ステップＳ６）。そして、合計スコア幅（範囲）内における音声認識率を再計算して内部に保持する（ステップＳ７）。続いて、認識率推定部３は、内部に保持したデータに基づいて、最適近似曲線の計算式を再計算する（ステップＳ８）。
【００１２】
次に、図３を参照しながら具体例を使用して、認識率推定部３の動作を説明する。ここで用いる音響スコア、言語スコアの数値はあくまで一例である。まず、近似曲線を求める動作を説明する。言語分析部２から送出される音響スコアと言語スコアの合計を求める。また、このときの音声認識結果（認識成功または認識失敗のいずれか）を対話制御部５から取得する。続いて、得られた合計スコアを、予め決められた合計スコアの値の範囲（図３では、０−９９、１００−２００、…、５００−６００、６００−の１００点刻み）に当てはめ、合計スコアの範囲を特定する。例えば、合計スコアが３１５点であれば、「３００−４００」が該当する。そして、対話制御部５より得られた音声認識結果に基づいて、認識成功数または認識失敗数の値に「１」を加算する。この処理を所定回数繰り返すことにより、図３に示す認識率テーブルが生成される。続いて、認識率推定部３は、下記に示す（１）式により、各合計スコア範囲毎の認識率を計算する。この認識率は、各合計スコア範囲の中央値（ここでは、５０点、１５０点、２５０点、…、５５０点、６５０点）における認識率として、認識率テーブルに書き込む。この認識率テーブルは、認識率推定部３内に保持される。
（認識成功数／（認識成功数＋認識失敗数））×１００・・・（１）
【００１３】
次に、認識率推定部３は、得られた認識率（３３，５２，６４，８２，８８，９２，９６）の点を最も良く近似する曲線を計算する。この近似曲線を求める方法は、周知の方法を用いる。求めた近似曲線（相関曲線）は、認識率推定部３内に保持する。
【００１４】
次に、先に求めた近似曲線（相関曲線）に基づいて、音声認識率を推定する動作を説明する。認識率推定部３は、新たに言語分析部２から送出される音響スコアと言語スコアを加算し、合計スコアを求める。そして、内部に保持している近似曲線に照らし合わせ、推定音声認識率を求める。例えば、合計スコアが３１５点であれば、７５％という推定音声認識率を求めることができる。認識率推定部３は、近似曲線に当てはめて得られた推定音声認識率を対話制御部５へ送信する。この推定音声認識率は発話音声が入力される度に対話制御部５に送出され、対話制御部５が対話ターン数の期待値を最小にするよう対話シナリオを制御するためのパラメータとして用いる。
【００１５】
次に、近似曲線を更新する動作を説明する。認識率推定部３は、合計スコアと近似曲線に基づいて、音声認識率を推定した後、得られた合計スコアと音声認識結果（成功または失敗）とに基づき、前述した認識率テーブル中の認識成功数または認識失敗数の値を更新する。そして、改めて認識率の計算を行い、新たな近似曲線を求め、内部に保持する。以降の推定音声認識率は、新たに求められた近似曲線に基づいて推定する。
【００１６】
なお、合計スコアは音響スコアと言語スコアの単純な和と限定するものではなく、推定音声認識率が最適になるよう適当な係数を掛けたり定数を加える等の操作を行った結果を合計スコアとして用いてもよい。
【００１７】
このように、音声対話システム中の音声認識システムが生成する音響スコア、言語スコア及び認識結果から、各スコアの合計と認識率の相関を表す近似曲線を生成し、発話音声入力がなされた時点で、期待される音声認識率を推定することができるため、対話ターン数の期待値の最小化、すなわち、音声対話を利用した情報サービスを提供する際に利用者がサービス利用の目的を達成するまでに要する時間の短縮化を図ることが可能となる。また、認識結果が蓄積するに従い、合計スコアと認識率の相関関係を表す近似曲線の精度を向上させることができる。
【００１８】
なお、図１における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識率推定処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。
【００１９】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【００２０】
【発明の効果】
以上説明したように、この発明によれば、音声対話システムにおいて利用者が発話を行う度に精度の高い音声認識率推定を行うことが可能となる。これにより、推定音声認識率を用いて対話シナリオ制御を行う音声対話システムにおいて、対話ターン数の期待値の最小化、すなわち、音声対話を利用した情報サービスを提供する際に、サービスを開始してから完了するまでの対話時間の長さの期待値を最小化することができるため、利用者がサービス利用の目的を達成するまでに要する時間の短縮化を図ることが可能になるという効果が得られる。
【図面の簡単な説明】
【図１】本発明の一実施形態の音声対話システムにおける音声認識部の構成を示すブロック図である。
【図２】図１に示す認識率推定部３の動作を示すフローチャートである。
【図３】合計スコアと認識率結果から認識率推定曲線を算出する方法を示した図である。
【符号の説明】
１・・・音響分析部
２・・・言語分析部
３・・・認識率推定部
４・・・探索部
５・・・対話制御部

Claims

音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて、音声認識率を推定する方法であって、
入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、
対話動作の実行時における音声認識結果を入力する過程と、
前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、
前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、
前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程と、
を有することを特徴とする音声認識率推定方法。
音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて動作する音声認識率推定プログラムであって、
入力音声を分析することにより得られた音響スコアと言語スコアとを入力する処理と、
対話動作の実行時における音声認識結果を入力する処理と、
前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する処理と、
前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく処理と、
前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する処理と、
をコンピュータに行わせることを特徴とする音声認識率推定プログラム。