JP2005017603A - 音声認識率推定方法及び音声認識率推定プログラム - Google Patents

音声認識率推定方法及び音声認識率推定プログラム Download PDF

Info

Publication number
JP2005017603A
JP2005017603A JP2003181220A JP2003181220A JP2005017603A JP 2005017603 A JP2005017603 A JP 2005017603A JP 2003181220 A JP2003181220 A JP 2003181220A JP 2003181220 A JP2003181220 A JP 2003181220A JP 2005017603 A JP2005017603 A JP 2005017603A
Authority
JP
Japan
Prior art keywords
speech recognition
score
recognition rate
speech
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003181220A
Other languages
English (en)
Inventor
Masayuki Takahashi
真之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003181220A priority Critical patent/JP2005017603A/ja
Publication of JP2005017603A publication Critical patent/JP2005017603A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声対話システムにおいて想定される音声認識率を発話入力時点において逐次推定する音声認識率推定方法を提供する。
【解決手段】音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、対話動作の実行時における音声認識結果を入力する過程と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程とを有する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識率推定方法及び音声認識率推定プログラムに係わり、利用者による電話、携帯電話、携帯情報端末、車載情報端末等からの音声入力に対して音声認識機能を有する情報サービス提供システムにおいて、音声入力時において予想される音声認識率を推定する方法に関する。
【0002】
【従来の技術】
ある認識語彙数の場合の認識率が既知であれば、認識誤り率が語彙数の平方根に比例するという経験則から、語彙数n語の場合の認識率を推定することができる(例えば、特許文献1参照)。しかし、音声対話システムの実際の利用状況は、利用者が不特定多数であること、利用者周辺の雑音環境が一定でないこと等の理由から、認識語彙数のみから認識率を推定することは極めて困難である。また従来の音声対話システムでは、認識率をいかに向上させるかという手法が検討されているのみであり、積極的に発話入力時に認識率を推定する手法は見られない。このように、音声認識システムにおいて、利用者に情報サービスを提供する際に、最小限の対話のやり取りで完了させるための戦略として、従来は何らかの技術的工夫により音声認識率の向上を図ることで認識誤りを最小にするということが一般に行われてきたが、現状の音声認識の技術は未だ完全ではなく、様々な利用者の環境下において、常に高い認識率を得ることは非常に困難となっている。
【0003】
【特許文献1】
特開2002−278589号公報
【0004】
【発明が解決しようとする課題】
ところで、一般の音声対話システムでは、一定の認識誤りを前提として対話シナリオが設計されているが、想定した認識率より悪い場合は対話が非常に長くなってしまったり、逆に想定した認識率より良い場合は結果的に必要でない確認応答の割合が多くなることとなる。そこで、様々な利用者の発話状況における対話長さの期待値を最小とするために、ユーザ要求の確率分布と期待ターン数(対話のやり取りを行う回数)から次の確認内容を可変的に決定する手段が提案されている(特許文献1)。
【0005】
しかしながら、期待ターン数を正確に推定するためには、時々刻々と変化する利用者の発話環境に応じて逐次音声認識率を推定する必要があるが、特許文献1に記載の装置ではそのような手段が提案されておらず、実際の利用環境においては期待ターン数の推定精度が悪化し、結果的に対話長さの期待値の短縮が図れない可能性があった。
【0006】
本発明は、このような事情に鑑みてなされたもので、音声対話システムにおいて想定される音声認識率を発話入力時点において逐次推定する音声認識率推定方法及び音声認識率推定プログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
請求項1に記載の発明は、音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて、音声認識率を推定する方法であって、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、対話動作の実行時における音声認識結果を入力する過程と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程とを有することを特徴とする。
【0008】
請求項2に記載の発明は、音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて動作する音声認識率推定プログラムであって、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する処理と、対話動作の実行時における音声認識結果を入力する処理と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する処理と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく処理と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する処理とをコンピュータに行わせることを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明の一実施形態による音声認識システムを図面を参照して説明する。図1は同実施形態の構成を示すブロック図である。符号1は、利用者が発話したマイクロホンを通して直接、または電話網、携帯電話網、インターネット、構内網等を経由して間接的に入力される発話音声を取り込み、特徴パラメータを抽出して、内部の辞書中にある単語群に音響スコアを付加し、その結果を送出する音響分析部である。符号2は、内部の辞書内にある各単語列に対し、単語と単語の繋がりやすさを表す言語スコアを付加する言語分析部である。符号3は、内部に蓄積された認識結果を用いて、ある単位発話音声がある合計スコアを獲得したとき、その発話音声が正しく認識される確率を推定する認識率推定部である。符号4は、言語分析部2より出力される音響スコア及び言語スコアの合計等から、認識結果を判断し、その結果を送出する探索部である。符号5は、探索部4からの出力に基づいて対話動作を制御する対話制御部である。
【0010】
次に、図2を参照して、図1に示す認識率推定部3の動作を説明する。
まず、認識率推定部3は、言語分析部2から音響スコアと言語スコアを受信する(ステップS1)。そして、認識率推定部3は、受信した音響スコアと言語スコアの合計スコアを計算する(ステップS2)。続いて、認識率推定部3は、近似曲線の計算式に先に計算した合計スコアを代入し、推定音声認識率を決定する(ステップS3)。そして、認識率推定部3は、計算した推定音声認識率を対話制御部5へ送信する(ステップS4)。対話制御部5は、この推定音声認識率に基づいて、次に行うべき動作を判断して対話動作の制御を行う。
【0011】
一方、認識率推定部3は、対話制御部5から音声認識結果(成功または失敗のいずれか)を受信する(ステップS5)。続いて、認識率推定部3は、受信した認識結果を、この合計スコア幅(範囲)内の認識成否データに追加する(ステップS6)。そして、合計スコア幅(範囲)内における音声認識率を再計算して内部に保持する(ステップS7)。続いて、認識率推定部3は、内部に保持したデータに基づいて、最適近似曲線の計算式を再計算する(ステップS8)。
【0012】
次に、図3を参照しながら具体例を使用して、認識率推定部3の動作を説明する。ここで用いる音響スコア、言語スコアの数値はあくまで一例である。まず、近似曲線を求める動作を説明する。言語分析部2から送出される音響スコアと言語スコアの合計を求める。また、このときの音声認識結果(認識成功または認識失敗のいずれか)を対話制御部5から取得する。続いて、得られた合計スコアを、予め決められた合計スコアの値の範囲(図3では、0−99、100−200、…、500−600、600−の100点刻み)に当てはめ、合計スコアの範囲を特定する。例えば、合計スコアが315点であれば、「300−400」が該当する。そして、対話制御部5より得られた音声認識結果に基づいて、認識成功数または認識失敗数の値に「1」を加算する。この処理を所定回数繰り返すことにより、図3に示す認識率テーブルが生成される。続いて、認識率推定部3は、下記に示す(1)式により、各合計スコア範囲毎の認識率を計算する。この認識率は、各合計スコア範囲の中央値(ここでは、50点、150点、250点、…、550点、650点)における認識率として、認識率テーブルに書き込む。この認識率テーブルは、認識率推定部3内に保持される。
(認識成功数/(認識成功数+認識失敗数))×100 ・・・(1)
【0013】
次に、認識率推定部3は、得られた認識率(33,52,64,82,88,92,96)の点を最も良く近似する曲線を計算する。この近似曲線を求める方法は、周知の方法を用いる。求めた近似曲線(相関曲線)は、認識率推定部3内に保持する。
【0014】
次に、先に求めた近似曲線(相関曲線)に基づいて、音声認識率を推定する動作を説明する。認識率推定部3は、新たに言語分析部2から送出される音響スコアと言語スコアを加算し、合計スコアを求める。そして、内部に保持している近似曲線に照らし合わせ、推定音声認識率を求める。例えば、合計スコアが315点であれば、75%という推定音声認識率を求めることができる。認識率推定部3は、近似曲線に当てはめて得られた推定音声認識率を対話制御部5へ送信する。この推定音声認識率は発話音声が入力される度に対話制御部5に送出され、対話制御部5が対話ターン数の期待値を最小にするよう対話シナリオを制御するためのパラメータとして用いる。
【0015】
次に、近似曲線を更新する動作を説明する。認識率推定部3は、合計スコアと近似曲線に基づいて、音声認識率を推定した後、得られた合計スコアと音声認識結果(成功または失敗)とに基づき、前述した認識率テーブル中の認識成功数または認識失敗数の値を更新する。そして、改めて認識率の計算を行い、新たな近似曲線を求め、内部に保持する。以降の推定音声認識率は、新たに求められた近似曲線に基づいて推定する。
【0016】
なお、合計スコアは音響スコアと言語スコアの単純な和と限定するものではなく、推定音声認識率が最適になるよう適当な係数を掛けたり定数を加える等の操作を行った結果を合計スコアとして用いてもよい。
【0017】
このように、音声対話システム中の音声認識システムが生成する音響スコア、言語スコア及び認識結果から、各スコアの合計と認識率の相関を表す近似曲線を生成し、発話音声入力がなされた時点で、期待される音声認識率を推定することができるため、対話ターン数の期待値の最小化、すなわち、音声対話を利用した情報サービスを提供する際に利用者がサービス利用の目的を達成するまでに要する時間の短縮化を図ることが可能となる。また、認識結果が蓄積するに従い、合計スコアと認識率の相関関係を表す近似曲線の精度を向上させることができる。
【0018】
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識率推定処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0019】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0020】
【発明の効果】
以上説明したように、この発明によれば、音声対話システムにおいて利用者が発話を行う度に精度の高い音声認識率推定を行うことが可能となる。これにより、推定音声認識率を用いて対話シナリオ制御を行う音声対話システムにおいて、対話ターン数の期待値の最小化、すなわち、音声対話を利用した情報サービスを提供する際に、サービスを開始してから完了するまでの対話時間の長さの期待値を最小化することができるため、利用者がサービス利用の目的を達成するまでに要する時間の短縮化を図ることが可能になるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施形態の音声対話システムにおける音声認識部の構成を示すブロック図である。
【図2】図1に示す認識率推定部3の動作を示すフローチャートである。
【図3】合計スコアと認識率結果から認識率推定曲線を算出する方法を示した図である。
【符号の説明】
1・・・音響分析部
2・・・言語分析部
3・・・認識率推定部
4・・・探索部
5・・・対話制御部

Claims (2)

  1. 音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて、音声認識率を推定する方法であって、
    入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、
    対話動作の実行時における音声認識結果を入力する過程と、
    前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、
    前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、
    前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程と、
    を有することを特徴とする音声認識率推定方法。
  2. 音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて動作する音声認識率推定プログラムであって、
    入力音声を分析することにより得られた音響スコアと言語スコアとを入力する処理と、
    対話動作の実行時における音声認識結果を入力する処理と、
    前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する処理と、
    前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく処理と、
    前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する処理と、
    をコンピュータに行わせることを特徴とする音声認識率推定プログラム。
JP2003181220A 2003-06-25 2003-06-25 音声認識率推定方法及び音声認識率推定プログラム Pending JP2005017603A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003181220A JP2005017603A (ja) 2003-06-25 2003-06-25 音声認識率推定方法及び音声認識率推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003181220A JP2005017603A (ja) 2003-06-25 2003-06-25 音声認識率推定方法及び音声認識率推定プログラム

Publications (1)

Publication Number Publication Date
JP2005017603A true JP2005017603A (ja) 2005-01-20

Family

ID=34181984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003181220A Pending JP2005017603A (ja) 2003-06-25 2003-06-25 音声認識率推定方法及び音声認識率推定プログラム

Country Status (1)

Country Link
JP (1) JP2005017603A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013232017A (ja) * 2006-04-03 2013-11-14 Vocollect Inc 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
JP2015530614A (ja) * 2012-08-30 2015-10-15 インタラクティブ・インテリジェンス・インコーポレイテッド 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013232017A (ja) * 2006-04-03 2013-11-14 Vocollect Inc 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
JP2015530614A (ja) * 2012-08-30 2015-10-15 インタラクティブ・インテリジェンス・インコーポレイテッド 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
US10360898B2 (en) 2012-08-30 2019-07-23 Genesys Telecommunications Laboratories, Inc. Method and system for predicting speech recognition performance using accuracy scores

Similar Documents

Publication Publication Date Title
US7925505B2 (en) Adaptation of language models and context free grammar in speech recognition
JP5223673B2 (ja) 音声処理装置およびプログラム、並びに、音声処理方法
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
US8306819B2 (en) Enhanced automatic speech recognition using mapping between unsupervised and supervised speech model parameters trained on same acoustic training data
JP6465077B2 (ja) 音声対話装置および音声対話方法
CN105895103B (zh) 一种语音识别方法及装置
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP2023120294A5 (ja)
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
US20040190732A1 (en) Method of noise estimation using incremental bayes learning
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
US20150046163A1 (en) Leveraging interaction context to improve recognition confidence scores
EP1508893A2 (en) Method of noise reduction using instantaneous signal-to-noise ratio as the Principal quantity for optimal estimation
KR20100111164A (ko) 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
US20030191637A1 (en) Method of ITERATIVE NOISE ESTIMATION IN A RECURSIVE FRAMEWORK
JP6468258B2 (ja) 音声対話装置および音声対話方法
CN116206592A (zh) 一种语音克隆方法、装置、设备及存储介质
JP3632529B2 (ja) 音声認識装置及び方法ならびに記録媒体
JP2005522720A (ja) 分散型自動音声認識方法および分散型自動音声認識システム
JP3962445B2 (ja) 音声処理方法及び装置
JP5715526B2 (ja) 対話処理装置、対話処理方法、及び対話処理プログラム
JP2005017603A (ja) 音声認識率推定方法及び音声認識率推定プログラム
CN107170447B (zh) 声音处理系统以及声音处理方法
KR101196976B1 (ko) 확인 대화가 가능한 확률 및 예제 기반의 음성 대화 시스템