JPH11143488A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH11143488A JPH11143488A JP30674197A JP30674197A JPH11143488A JP H11143488 A JPH11143488 A JP H11143488A JP 30674197 A JP30674197 A JP 30674197A JP 30674197 A JP30674197 A JP 30674197A JP H11143488 A JPH11143488 A JP H11143488A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- guidance
- recognition
- speaker
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
て、誤認識、誤動作の防止のために認識結果の正誤を常
に確認することによる、発声者への不快感をなくし、発
声者に対する音声認識サービスを円滑かつ正確に提供す
ること。 【解決手段】 音声認識装置100内で発声者110な
いし112からの音声入力に対する認識結果を判断し、
発声者110ないし112への最適な音声ガイダンス
を、データベース部108にある複数パターンの中から
選択することで達成される。この複数の音声ガイダンス
パターンの選択によって、発声者に対して次に入力すべ
き情報の指示が円滑かつ正確に行える。
Description
はじめとする通信網内に位置し、音声入力サービスを提
供するのに好適な音声認識装置に係り、特に、音声認識
結果の正誤を判別し、発声者に対して適切なガイダンス
を送信可能とする音声認識装置に関する。
の実用化の代表的なものとして、公衆網へ適用し、様々
な内容のサービスを運用可能とするために検討が重ねら
れている。音声認識装置の公衆網への適用にあたって
は、発声者の周囲環境(例えば騒音)の違いや、音声入
力装置(例えば電話機)種別などの要因から、音声認識
装置が必ずしも入力音声を正確に認識し、発声者の要求
(発声)に100%応えるとは限らない。そのため、誤
認識に対する前記発声者への対処策が種々検討されてい
る。
号公報には、音声入力を、登録語彙と照合して認識結果
を得て、認識結果を他の機械の動作指示として送信する
音声認識装置において、第1の閾値と第2の閾値を定
め、入力音声パターンと基準パターンの「市街地」距離
の総和Dをとってこの最も小さいものを認識結果とし、
1/Dなどを信頼度として、信頼度が第1の閾値より大
きい場合には認識結果を動作指示として送信し、上記信
頼度が第2の閾値より大きく第1の閾値より小さい場合
には使用者が認識結果の確認をした場合のみ認識結果の
送信を行い、上記信頼度が第2の閾値より小さい場合に
は認識結果を無効とすることにより、入力効率を落とさ
ずに、致命的な誤動作を起こすことを防ぐようにした音
声認識方式が示されている。
間で、認識結果の正誤を確認する音声応答(ガイダンス
出力)機能が適用されている。
図1を用いて説明する。音声認識装置は、入力された単
語音声S111、S114と、予め装置内に登録されて
いる単語の全てとの間の尤度を計算し、図1のS10
2、S105に示すように、認識結果の第1候補となっ
た、「営業部」、「加藤さん」を音声出力して、発声者
に、確認として「はい」「いいえ」の入力を要求するこ
とが多い。また、確認を行なおうとする単語の尤度が極
めて小さい場合は、正解である可能性が低いと判定して
確認処理を行わずに、図1のS104に示されるよう
に、「もう一度〜を入力して下さい」のような再入力を
指示することも行われる。
音声認識装置と発声者との間の対話においては、音声認
識に伴う誤動作を起こさないという意味で有効である一
方、認識結果の正誤確認を常に繰り返すため、時間がか
かり、また、心理的に発声者の不快感を生む場合が多
い。本発明の課題は、上記従来の技術の問題点を解消す
ることである。
誤ったサービス提供を行う危険を増大させることなく、
円滑スピーディ、かつ確実、正確に、音声入力、音声識
別サービス提供することである。
れば、発声者からの音声入力に対する認識結果を、音声
認識装置内に具備されている信頼度計算部によって算出
された結果に基づいて判定し、発声者への音声ガイダン
スを、前記信頼性に基づき複数用意されたガイダンス遷
移パターンの中から適切なものを選択する手段を設ける
ことで達成される。
ら送られてくる音声ガイダンス内容に従い、次の音声入
力を行う音声認識システムにおいて、音声認識装置から
発声者に対して、次に入力すべき音声入力情報の指示を
行う音声ガイダンスが、発声者の発声した音声状態を分
析し、その分析結果に応じて、複数の音声ガイダンスパ
ターンの中から選択された音声ガイダンスパターンであ
るため、音声入力サービスを円滑かつ正確に行うことが
できる。
4つに大別される。 (1) 対話促進ガイダンス 例えば、複数の情報入力によって1つのサービスが提供
される場合に、第n番目の情報入力が終わったあと、第
n+1番目の情報入力を促すガイダンス。
などの肯定語と「いいえ」「違う」などの否定語の入力
を促すガイダンス。
に、その第n番目の情報入力が終わったあと、再度第n
番目の情報入力を促すガイダンス。
を並べて出力し、該認識単語群の中から選択して入力す
ることを促すガイダンス。
要なときは、例えば、対話促進ガイダンスが発声者へ送
信されることにより、発声者は確認ガイダンスを意識す
ることなく次工程のガイダンス内容にて音声入力が可能
となり、不快感・煩わしさ等が軽減されている。
能とするため、ガイダンスデータ記憶部にガイダンスデ
ータを記憶しておき、接続先の確認をすることも可能で
ある。以下、本発明を図2ないし図8に示す実施の形態
により具体的に説明する。
ンス選択送信のための構成及び作用について、図2ない
し図8に示す実施の形態により、具体的に説明する。
成を示した図であり、音声認識装置100は、音声入力
装置110〜112からの入力音声と、認識用辞書デー
タ記憶部103に記憶されている認識用辞書データとの
間のスコアを求め、入力音声の候補単語を決定する音声
認識部102を具備する。上記スコアは、例えば、入力
音声と認識用辞書データの距離を求め、その総和の逆数
とすればよい。
識部102が入力音声を認識する際に参照する認識用辞
書データを格納する認識用辞書データ記憶部103の他
に前記音声認識部102から送出される候補単語の信頼
度として算出する信頼度計算部101を具備する。上記
信頼度は、例えば、認識結果の第1候補のスコアと認識
結果の第2候補のスコアとの差分をとることで求めるこ
とができる。
認識部102で決定された第1候補単語のコード及び前
記信頼度計算部101で計算された信頼度を受け、次に
出力するガイダンスデータと次に認識に用いる認識用辞
書データのデータベース上のアドレスを指定して、それ
ぞれガイダンスデータ記憶部105と認識用辞書データ
記憶部103に転送する制御部107と、音声認識時に
用いる認識用辞書データ108D及び音声合成時に用い
るガイダンスデータ108Gを格納するデータベース部
108と、ガイダンスデータを音声データに変換して発
声者側へ送出する音声合成部104と、音声合成時に用
いるガイダンスデータを格納するガイダンスデータ記憶
部105とを具備する。
作の流れを、音声(破線矢示線)と制御データ(実線矢
示線)とを併記して示した図である。
れると、制御部107は、前記発声者に対して音声の入
力を促すガイダンスデータを選択し、対応するガイダン
スデータアドレス(C301)により、データベース部
108からガイダンスデータを読み出し、記憶部105
へ前記ガイダンスデータを転送する(C302)。
タ記憶部105に格納された前記ガイダンスデータを受
け取り、ガイダンス音声に変換して前記発声者へ送信す
る(A301)。
際に用いる認識用辞書データを、認識用辞書データアド
レス(C304)に基づき、前記データベース部108
から認識用辞書データ記憶部103へ転送する(C30
5)。
入力があると(A302)、音声認識部102におい
て、入力音声(A302)と、音声認識部102に送ら
れてきた前記認識用辞書データ(C306)との間でス
コアを計算し(C307)、前記入力音声の候補単語を
決定する。
スコア(C307)を信頼度計算部101に送って認識
結果の信頼度を得て(C308)、前記認識結果と前記
信頼度を制御部107へ送出する(C309)。
次に用いるべきガイダンスデータと認識用辞書データの
選択DSを行い、前述と同様に、データベース部108
に、ガイダンスデータアドレス(C310)及び認識用
辞書データアドレス(C313)を送出し、ガイダンス
データ記憶部105と認識用辞書データ記憶部103へ
転送する(C311)及び(C314)。ガイダンスデ
ータは、さらに音声合成部104に送られ(C31
2)、ガイダンス音声に変換されて、電話機などの音声
入力装置110ないし112に送信される(A30
3)。また、認識用辞書データは、音声認識部102に
転送される。
について、図4、図5及び図7を使って説明する。
らの対話促進ガイダンス(S701)、例えば、「所属
部署をどうぞ」に対して、発声者の入力音声(S71
1)が「営業部」となり、これに対する信頼度Rが、図
4の項番1の通り、閾値th1よりも大きい場合(S5
06)、制御部107は、図5に示すように、聞き返し
などは行わず、次に必要な情報の認識のために次のガイ
ダンスデータ及び認識用辞書データを選択する(S50
7)及び(S508)。
ダンスは、図7に示すように、第2番目に必要な情報を
認識するための対話促進ガイダンス(S702)「担当
者名をどうぞ」となる。
度Rが、図4の項番2の通り、閾値th1よりも小さく
かつ閾値th2よりも大きい場合、制御部107は、図
5の(S509)、(S510)、(S511)、(S
512)で示す通り、聞き返しガイダンスを出力するよ
うに、次のガイダンスデータおよび認識用辞書データを
選択する。音声認識装置は、図1の(S102)、(S
105)に示すような聞き返しガイダンスを出力するこ
ともできる。
度Rが、図4の項番3の通り、閾値th2よりも小さい
場合、制御部107は、図5の(S513)、(S51
4)で示す通り、聞き直しガイダンスを出力するよう
に、次のガイダンスデータおよび認識用辞書データを選
択する。これにより前記発声者側に出力されるガイダン
スは、例えば、図1の(S104)に示すように「もう
1度お願いします」となる。
中に未登録である場合について図4、図5、図8を用い
て説明する。例えば、図8に示すように、発声者の入力
音声が「電子部品営業部」となり、入力音声の認識結果
のスコアAが、図4の項番4のように、閾値Dよりも小
さい場合、制御部107は、次の順番のガイダンスデー
タおよび認識用辞書データを選択する。これにより前記
発声者側に出力されるガイダンスは、例えば、図8の
(S802)に示すような認識可能単語提示ガイダンス
「人事部、企画部、営業部の中からお選び下さい」とな
る。
内容をガイダンスする場合について説明する。認識結果
は、図2のガイダンスデータ記憶部105に蓄えられて
おり、図5の処理の流れに従って、対話終了時には、認
識した全ての認識結果を含む内容をガイダンスするよう
にガイダンスデータを選択する。例えば、図8に示す
「営業部の加藤へお繋ぎします」のようになる。
の数値によって複数パターンのガイダンスが発声者へ送
出されるため、無駄な再発声等を省くことができ、円滑
に対話を進めることを可能とする。
つ発声者の要求するサービスを正確に提供できる効果が
ある。
す遷移図。
図。
を示すシーケンス図。
イダンスの判定条件の一覧図表。
処理のフローチャート。
処理のフローチャート。
例を示す遷移図。
例を示す遷移図。
認識用辞書データ記憶部、104…音声合成部、105
…ガイダンスデータ記憶部、106…インタフェース
部、107…制御部、108…データベース部、110
〜112…音声入力装置
Claims (9)
- 【請求項1】通信網内に位置し、発声者の音声入力を受
信する機能及びサービスに対応する語彙候補群を持ち、
前記音声入力に基づいて1つ又は複数の語彙候補を選択
するとともにその確からしさの情報を出力する音声認識
機能と、前記発声者へ送信する複数種類の応答データを
蓄積している応答機能を持ち、前記音声認識機能から出
力される確からしさの情報を用いて、前記応答機能に蓄
積された複数種類の応答データの中から選択した応答デ
ータに対応する送信ガイダンスを出力することを特徴と
する音声認識装置。 - 【請求項2】複数種類の応答データとして、対話促進ガ
イダンス用データ、聞き返しガイダンス用データ、聞き
直しガイダンス用データ及び認識可能単語提示ガイダン
ス用データのいずれか2つ以上を蓄積していることを特
徴とする請求項1記載の音声認識装置。 - 【請求項3】対話促進ガイダンスは、認識結果の確から
しさの情報が一定値を越える場合に出力することを特徴
とする請求項2記載の音声認識装置。 - 【請求項4】発声者に対して、認識結果の確認を求める
ガイダンスを出力せずに、次の情報入力を可能とするこ
とを特徴とする請求項1記載の音声認識装置。 - 【請求項5】発声者に対して、先に認識を行った際に入
力した音声と同じ音声の再入力を指示するための応答デ
ータを持ち、両者の距離データおよび距離差データが一
定値以下の場合に出力することを特徴とする請求項1記
載の音声認識装置。 - 【請求項6】発声者に対して提供できるサービス内容を
説明する応答データを持ち、距離データが一定値以下の
場合にこれを出力することを特徴とする請求項1記載の
音声認識装置。 - 【請求項7】発声者に対して、前記音声認識装置で対象
とする単語を提示する機能を持つことを特徴とする請求
項1記載の音声認識装置。 - 【請求項8】音声認識装置が対話促進のための応答デー
タを送信した場合、最終的に音声入力を完了した時点で
認識した全ての内容を応答データとして出力し、発声者
に確認を求めることを特徴とする請求項2記載の音声認
識装置。 - 【請求項9】認識結果の相手先(接続したいサービス
名)への送信を行う前に音声認識した内容をガイダンス
することを特徴とする請求項2ないし請求項5のいずれ
かに記載の音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP30674197A JPH11143488A (ja) | 1997-11-10 | 1997-11-10 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP30674197A JPH11143488A (ja) | 1997-11-10 | 1997-11-10 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11143488A true JPH11143488A (ja) | 1999-05-28 |
Family
ID=17960757
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP30674197A Pending JPH11143488A (ja) | 1997-11-10 | 1997-11-10 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11143488A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001109687A (ja) * | 1999-10-07 | 2001-04-20 | Nec Corp | ホームページアクセス装置及びホームページアクセス方法 |
| JP2005003747A (ja) * | 2003-06-09 | 2005-01-06 | Cai Media Kyodo Kaihatsu:Kk | 対話型ロボット及び対話システム |
| JP2005027283A (ja) * | 2003-06-30 | 2005-01-27 | Microsoft Corp | 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送 |
| JP2008241933A (ja) * | 2007-03-26 | 2008-10-09 | Kenwood Corp | データ処理装置及びデータ処理方法 |
| JP2009251019A (ja) * | 2008-04-01 | 2009-10-29 | Toyota Motor Corp | 音声認識装置 |
| WO2014112226A1 (ja) * | 2013-01-16 | 2014-07-24 | シャープ株式会社 | 電子機器及び掃除機 |
| JP2015197621A (ja) * | 2014-04-02 | 2015-11-09 | 日本電信電話株式会社 | 話し方評価装置、話し方評価方法、プログラム |
-
1997
- 1997-11-10 JP JP30674197A patent/JPH11143488A/ja active Pending
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001109687A (ja) * | 1999-10-07 | 2001-04-20 | Nec Corp | ホームページアクセス装置及びホームページアクセス方法 |
| JP2005003747A (ja) * | 2003-06-09 | 2005-01-06 | Cai Media Kyodo Kaihatsu:Kk | 対話型ロボット及び対話システム |
| JP2005027283A (ja) * | 2003-06-30 | 2005-01-27 | Microsoft Corp | 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送 |
| JP2008241933A (ja) * | 2007-03-26 | 2008-10-09 | Kenwood Corp | データ処理装置及びデータ処理方法 |
| JP2009251019A (ja) * | 2008-04-01 | 2009-10-29 | Toyota Motor Corp | 音声認識装置 |
| WO2014112226A1 (ja) * | 2013-01-16 | 2014-07-24 | シャープ株式会社 | 電子機器及び掃除機 |
| JP2014137430A (ja) * | 2013-01-16 | 2014-07-28 | Sharp Corp | 電子機器及び掃除機 |
| CN104871239A (zh) * | 2013-01-16 | 2015-08-26 | 夏普株式会社 | 电子设备和吸尘器 |
| JP2015197621A (ja) * | 2014-04-02 | 2015-11-09 | 日本電信電話株式会社 | 話し方評価装置、話し方評価方法、プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111028827B (zh) | 基于情绪识别的交互处理方法、装置、设备和存储介质 | |
| US9305569B2 (en) | Dialogue system and method for responding to multimodal input using calculated situation adaptability | |
| US20020032591A1 (en) | Service request processing performed by artificial intelligence systems in conjunctiion with human intervention | |
| US8886532B2 (en) | Leveraging interaction context to improve recognition confidence scores | |
| JP6540414B2 (ja) | 音声処理装置および音声処理方法 | |
| CN1764946B (zh) | 分布式语音识别方法 | |
| JP2001005488A (ja) | 音声対話システム | |
| JP2020505643A (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
| US6341264B1 (en) | Adaptation system and method for E-commerce and V-commerce applications | |
| CN100504844C (zh) | 对话系统 | |
| US10593320B2 (en) | Learning transcription errors in speech recognition tasks | |
| JP3530109B2 (ja) | 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体 | |
| CN110570867A (zh) | 一种本地新增语料的语音处理方法及系统 | |
| CN114528851A (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
| US7162422B1 (en) | Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty | |
| JPH11143488A (ja) | 音声認識装置 | |
| CN110503943B (zh) | 一种语音交互方法以及语音交互系统 | |
| US20040019488A1 (en) | Email address recognition using personal information | |
| JP6954821B2 (ja) | 対話管理装置及びプログラム | |
| CN110021295B (zh) | 用于识别由语音识别系统生成的错误转录的方法和系统 | |
| CN111354351A (zh) | 控制装置、语音交互装置、语音识别服务器以及存储介质 | |
| KR20020077422A (ko) | 인터넷 접근을 위한 분산 음성 인식 | |
| JP2001100787A (ja) | 音声対話システム | |
| JP2000293194A (ja) | 音声対話装置 | |
| JP2000250585A (ja) | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040721 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041008 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20041008 |
|
| A131 | Notification of reasons for refusal |
Effective date: 20060627 Free format text: JAPANESE INTERMEDIATE CODE: A131 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060828 |
|
| RD02 | Notification of acceptance of power of attorney |
Effective date: 20060828 Free format text: JAPANESE INTERMEDIATE CODE: A7422 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070206 |