JPH11143488A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11143488A
JPH11143488A JP30674197A JP30674197A JPH11143488A JP H11143488 A JPH11143488 A JP H11143488A JP 30674197 A JP30674197 A JP 30674197A JP 30674197 A JP30674197 A JP 30674197A JP H11143488 A JPH11143488 A JP H11143488A
Authority
JP
Japan
Prior art keywords
voice
guidance
recognition
speaker
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP30674197A
Other languages
English (en)
Inventor
Satoshi Matsuhashi
聡 松橋
Takuro Nakayama
卓郎 中山
Masahiro Kosaka
昌宏 小坂
Hana Igarashi
華 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Ltd
Hitachi Communication Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Communication Systems Inc filed Critical Hitachi Ltd
Priority to JP30674197A priority Critical patent/JPH11143488A/ja
Publication of JPH11143488A publication Critical patent/JPH11143488A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 音声認識装置と発声者との間の対話におい
て、誤認識、誤動作の防止のために認識結果の正誤を常
に確認することによる、発声者への不快感をなくし、発
声者に対する音声認識サービスを円滑かつ正確に提供す
ること。 【解決手段】 音声認識装置100内で発声者110な
いし112からの音声入力に対する認識結果を判断し、
発声者110ないし112への最適な音声ガイダンス
を、データベース部108にある複数パターンの中から
選択することで達成される。この複数の音声ガイダンス
パターンの選択によって、発声者に対して次に入力すべ
き情報の指示が円滑かつ正確に行える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、公衆網を
はじめとする通信網内に位置し、音声入力サービスを提
供するのに好適な音声認識装置に係り、特に、音声認識
結果の正誤を判別し、発声者に対して適切なガイダンス
を送信可能とする音声認識装置に関する。
【0002】
【従来の技術】従来、音声認識装置のアプリケーション
の実用化の代表的なものとして、公衆網へ適用し、様々
な内容のサービスを運用可能とするために検討が重ねら
れている。音声認識装置の公衆網への適用にあたって
は、発声者の周囲環境(例えば騒音)の違いや、音声入
力装置(例えば電話機)種別などの要因から、音声認識
装置が必ずしも入力音声を正確に認識し、発声者の要求
(発声)に100%応えるとは限らない。そのため、誤
認識に対する前記発声者への対処策が種々検討されてい
る。
【0003】その一つとして、特開平3−248199
号公報には、音声入力を、登録語彙と照合して認識結果
を得て、認識結果を他の機械の動作指示として送信する
音声認識装置において、第1の閾値と第2の閾値を定
め、入力音声パターンと基準パターンの「市街地」距離
の総和Dをとってこの最も小さいものを認識結果とし、
1/Dなどを信頼度として、信頼度が第1の閾値より大
きい場合には認識結果を動作指示として送信し、上記信
頼度が第2の閾値より大きく第1の閾値より小さい場合
には使用者が認識結果の確認をした場合のみ認識結果の
送信を行い、上記信頼度が第2の閾値より小さい場合に
は認識結果を無効とすることにより、入力効率を落とさ
ずに、致命的な誤動作を起こすことを防ぐようにした音
声認識方式が示されている。
【0004】また、一般に、音声認識装置と発声者との
間で、認識結果の正誤を確認する音声応答(ガイダンス
出力)機能が適用されている。
【0005】従来の音声認識装置における対話の流れを
図1を用いて説明する。音声認識装置は、入力された単
語音声S111、S114と、予め装置内に登録されて
いる単語の全てとの間の尤度を計算し、図1のS10
2、S105に示すように、認識結果の第1候補となっ
た、「営業部」、「加藤さん」を音声出力して、発声者
に、確認として「はい」「いいえ」の入力を要求するこ
とが多い。また、確認を行なおうとする単語の尤度が極
めて小さい場合は、正解である可能性が低いと判定して
確認処理を行わずに、図1のS104に示されるよう
に、「もう一度〜を入力して下さい」のような再入力を
指示することも行われる。
【0006】
【発明が解決しようとする課題】以上のように、従来の
音声認識装置と発声者との間の対話においては、音声認
識に伴う誤動作を起こさないという意味で有効である一
方、認識結果の正誤確認を常に繰り返すため、時間がか
かり、また、心理的に発声者の不快感を生む場合が多
い。本発明の課題は、上記従来の技術の問題点を解消す
ることである。
【0007】すなわち、本発明の目的は、誤認識に伴う
誤ったサービス提供を行う危険を増大させることなく、
円滑スピーディ、かつ確実、正確に、音声入力、音声識
別サービス提供することである。
【0008】
【課題を解決するための手段】上記課題は、本発明によ
れば、発声者からの音声入力に対する認識結果を、音声
認識装置内に具備されている信頼度計算部によって算出
された結果に基づいて判定し、発声者への音声ガイダン
スを、前記信頼性に基づき複数用意されたガイダンス遷
移パターンの中から適切なものを選択する手段を設ける
ことで達成される。
【0009】上記のように、発声者が、音声認識装置か
ら送られてくる音声ガイダンス内容に従い、次の音声入
力を行う音声認識システムにおいて、音声認識装置から
発声者に対して、次に入力すべき音声入力情報の指示を
行う音声ガイダンスが、発声者の発声した音声状態を分
析し、その分析結果に応じて、複数の音声ガイダンスパ
ターンの中から選択された音声ガイダンスパターンであ
るため、音声入力サービスを円滑かつ正確に行うことが
できる。
【0010】出力できるガイダンス内容は大きく、次の
4つに大別される。 (1) 対話促進ガイダンス 例えば、複数の情報入力によって1つのサービスが提供
される場合に、第n番目の情報入力が終わったあと、第
n+1番目の情報入力を促すガイダンス。
【0011】(2)聞き返しガイダンス 例えば、「○○ですね」のような「はい」「そうです」
などの肯定語と「いいえ」「違う」などの否定語の入力
を促すガイダンス。
【0012】(3) 聞き直しガイダンス 複数の情報入力によって1つのサービスが提供できる時
に、その第n番目の情報入力が終わったあと、再度第n
番目の情報入力を促すガイダンス。
【0013】(4) 認識可能単語提示ガイダンス 認識候補として該音声認識が現段階で用意している単語
を並べて出力し、該認識単語群の中から選択して入力す
ることを促すガイダンス。
【0014】本発明によれば、聞き返しガイダンスが不
要なときは、例えば、対話促進ガイダンスが発声者へ送
信されることにより、発声者は確認ガイダンスを意識す
ることなく次工程のガイダンス内容にて音声入力が可能
となり、不快感・煩わしさ等が軽減されている。
【0015】さらに、ガイダンス内容を最終的に確認可
能とするため、ガイダンスデータ記憶部にガイダンスデ
ータを記憶しておき、接続先の確認をすることも可能で
ある。以下、本発明を図2ないし図8に示す実施の形態
により具体的に説明する。
【0016】本発明に関わる音声認識装置の音声ガイダ
ンス選択送信のための構成及び作用について、図2ない
し図8に示す実施の形態により、具体的に説明する。
【0017】
【発明の実施の形態】図2は、本発明のハードウェア構
成を示した図であり、音声認識装置100は、音声入力
装置110〜112からの入力音声と、認識用辞書デー
タ記憶部103に記憶されている認識用辞書データとの
間のスコアを求め、入力音声の候補単語を決定する音声
認識部102を具備する。上記スコアは、例えば、入力
音声と認識用辞書データの距離を求め、その総和の逆数
とすればよい。
【0018】また、音声認識装置100は、前記音声認
識部102が入力音声を認識する際に参照する認識用辞
書データを格納する認識用辞書データ記憶部103の他
に前記音声認識部102から送出される候補単語の信頼
度として算出する信頼度計算部101を具備する。上記
信頼度は、例えば、認識結果の第1候補のスコアと認識
結果の第2候補のスコアとの差分をとることで求めるこ
とができる。
【0019】音声認識装置100は、さらに、前記音声
認識部102で決定された第1候補単語のコード及び前
記信頼度計算部101で計算された信頼度を受け、次に
出力するガイダンスデータと次に認識に用いる認識用辞
書データのデータベース上のアドレスを指定して、それ
ぞれガイダンスデータ記憶部105と認識用辞書データ
記憶部103に転送する制御部107と、音声認識時に
用いる認識用辞書データ108D及び音声合成時に用い
るガイダンスデータ108Gを格納するデータベース部
108と、ガイダンスデータを音声データに変換して発
声者側へ送出する音声合成部104と、音声合成時に用
いるガイダンスデータを格納するガイダンスデータ記憶
部105とを具備する。
【0020】図3は、図2に示す音声認識装置の処理動
作の流れを、音声(破線矢示線)と制御データ(実線矢
示線)とを併記して示した図である。
【0021】発声者と音声認識装置の間で回線が接続さ
れると、制御部107は、前記発声者に対して音声の入
力を促すガイダンスデータを選択し、対応するガイダン
スデータアドレス(C301)により、データベース部
108からガイダンスデータを読み出し、記憶部105
へ前記ガイダンスデータを転送する(C302)。
【0022】音声合成部104は、前記ガイダンスデー
タ記憶部105に格納された前記ガイダンスデータを受
け取り、ガイダンス音声に変換して前記発声者へ送信す
る(A301)。
【0023】この間に、前記制御部107は音声認識の
際に用いる認識用辞書データを、認識用辞書データアド
レス(C304)に基づき、前記データベース部108
から認識用辞書データ記憶部103へ転送する(C30
5)。
【0024】出力ガイダンスに対する発声者から音声の
入力があると(A302)、音声認識部102におい
て、入力音声(A302)と、音声認識部102に送ら
れてきた前記認識用辞書データ(C306)との間でス
コアを計算し(C307)、前記入力音声の候補単語を
決定する。
【0025】音声認識部102は、得られた認識結果の
スコア(C307)を信頼度計算部101に送って認識
結果の信頼度を得て(C308)、前記認識結果と前記
信頼度を制御部107へ送出する(C309)。
【0026】制御部107は、前記信頼度の値に従って
次に用いるべきガイダンスデータと認識用辞書データの
選択DSを行い、前述と同様に、データベース部108
に、ガイダンスデータアドレス(C310)及び認識用
辞書データアドレス(C313)を送出し、ガイダンス
データ記憶部105と認識用辞書データ記憶部103へ
転送する(C311)及び(C314)。ガイダンスデ
ータは、さらに音声合成部104に送られ(C31
2)、ガイダンス音声に変換されて、電話機などの音声
入力装置110ないし112に送信される(A30
3)。また、認識用辞書データは、音声認識部102に
転送される。
【0027】次に、対話促進ガイダンスを出力する場合
について、図4、図5及び図7を使って説明する。
【0028】図7に示すように、音声認識装置100か
らの対話促進ガイダンス(S701)、例えば、「所属
部署をどうぞ」に対して、発声者の入力音声(S71
1)が「営業部」となり、これに対する信頼度Rが、図
4の項番1の通り、閾値th1よりも大きい場合(S5
06)、制御部107は、図5に示すように、聞き返し
などは行わず、次に必要な情報の認識のために次のガイ
ダンスデータ及び認識用辞書データを選択する(S50
7)及び(S508)。
【0029】これにより前記発声者側に出力されるガイ
ダンスは、図7に示すように、第2番目に必要な情報を
認識するための対話促進ガイダンス(S702)「担当
者名をどうぞ」となる。
【0030】次に、発声者の入力音声の認識結果の信頼
度Rが、図4の項番2の通り、閾値th1よりも小さく
かつ閾値th2よりも大きい場合、制御部107は、図
5の(S509)、(S510)、(S511)、(S
512)で示す通り、聞き返しガイダンスを出力するよ
うに、次のガイダンスデータおよび認識用辞書データを
選択する。音声認識装置は、図1の(S102)、(S
105)に示すような聞き返しガイダンスを出力するこ
ともできる。
【0031】次に、発声者の入力音声の認識結果の信頼
度Rが、図4の項番3の通り、閾値th2よりも小さい
場合、制御部107は、図5の(S513)、(S51
4)で示す通り、聞き直しガイダンスを出力するよう
に、次のガイダンスデータおよび認識用辞書データを選
択する。これにより前記発声者側に出力されるガイダン
スは、例えば、図1の(S104)に示すように「もう
1度お願いします」となる。
【0032】次に、発声者の入力が認識用辞書データの
中に未登録である場合について図4、図5、図8を用い
て説明する。例えば、図8に示すように、発声者の入力
音声が「電子部品営業部」となり、入力音声の認識結果
のスコアAが、図4の項番4のように、閾値Dよりも小
さい場合、制御部107は、次の順番のガイダンスデー
タおよび認識用辞書データを選択する。これにより前記
発声者側に出力されるガイダンスは、例えば、図8の
(S802)に示すような認識可能単語提示ガイダンス
「人事部、企画部、営業部の中からお選び下さい」とな
る。
【0033】次に、音声入力終了時に、認識した全ての
内容をガイダンスする場合について説明する。認識結果
は、図2のガイダンスデータ記憶部105に蓄えられて
おり、図5の処理の流れに従って、対話終了時には、認
識した全ての認識結果を含む内容をガイダンスするよう
にガイダンスデータを選択する。例えば、図8に示す
「営業部の加藤へお繋ぎします」のようになる。
【0034】
【発明の効果】以上の通り、本発明により信頼度計算部
の数値によって複数パターンのガイダンスが発声者へ送
出されるため、無駄な再発声等を省くことができ、円滑
に対話を進めることを可能とする。
【0035】これにより、発声者の不快感を軽減し、か
つ発声者の要求するサービスを正確に提供できる効果が
ある。
【図面の簡単な説明】
【図1】従来の音声認識装置と発声者間の対話の例を示
す遷移図。
【図2】本発明による音声認識装置のハードウェア構成
図。
【図3】本発明による音声認識装置内の動作シーケンス
を示すシーケンス図。
【図4】本発明による音声認識装置の信頼度による次ガ
イダンスの判定条件の一覧図表。
【図5】本発明による音声認識装置の次ガイダンス選択
処理のフローチャート。
【図6】本発明による音声認識装置の次ガイダンス選択
処理のフローチャート。
【図7】本発明による音声認識装置で実現される対話の
例を示す遷移図。
【図8】本発明による音声認識装置で実現される対話の
例を示す遷移図。
【符号の説明】
101…信頼度計算部、102…音声認識部、103…
認識用辞書データ記憶部、104…音声合成部、105
…ガイダンスデータ記憶部、106…インタフェース
部、107…制御部、108…データベース部、110
〜112…音声入力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小坂 昌宏 神奈川県横浜市戸塚区戸塚町216番地 株 式会社日立製作所情報通信事業部内 (72)発明者 五十嵐 華 神奈川県横浜市戸塚区戸塚町180番地 日 立通信システム株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】通信網内に位置し、発声者の音声入力を受
    信する機能及びサービスに対応する語彙候補群を持ち、
    前記音声入力に基づいて1つ又は複数の語彙候補を選択
    するとともにその確からしさの情報を出力する音声認識
    機能と、前記発声者へ送信する複数種類の応答データを
    蓄積している応答機能を持ち、前記音声認識機能から出
    力される確からしさの情報を用いて、前記応答機能に蓄
    積された複数種類の応答データの中から選択した応答デ
    ータに対応する送信ガイダンスを出力することを特徴と
    する音声認識装置。
  2. 【請求項2】複数種類の応答データとして、対話促進ガ
    イダンス用データ、聞き返しガイダンス用データ、聞き
    直しガイダンス用データ及び認識可能単語提示ガイダン
    ス用データのいずれか2つ以上を蓄積していることを特
    徴とする請求項1記載の音声認識装置。
  3. 【請求項3】対話促進ガイダンスは、認識結果の確から
    しさの情報が一定値を越える場合に出力することを特徴
    とする請求項2記載の音声認識装置。
  4. 【請求項4】発声者に対して、認識結果の確認を求める
    ガイダンスを出力せずに、次の情報入力を可能とするこ
    とを特徴とする請求項1記載の音声認識装置。
  5. 【請求項5】発声者に対して、先に認識を行った際に入
    力した音声と同じ音声の再入力を指示するための応答デ
    ータを持ち、両者の距離データおよび距離差データが一
    定値以下の場合に出力することを特徴とする請求項1記
    載の音声認識装置。
  6. 【請求項6】発声者に対して提供できるサービス内容を
    説明する応答データを持ち、距離データが一定値以下の
    場合にこれを出力することを特徴とする請求項1記載の
    音声認識装置。
  7. 【請求項7】発声者に対して、前記音声認識装置で対象
    とする単語を提示する機能を持つことを特徴とする請求
    項1記載の音声認識装置。
  8. 【請求項8】音声認識装置が対話促進のための応答デー
    タを送信した場合、最終的に音声入力を完了した時点で
    認識した全ての内容を応答データとして出力し、発声者
    に確認を求めることを特徴とする請求項2記載の音声認
    識装置。
  9. 【請求項9】認識結果の相手先(接続したいサービス
    名)への送信を行う前に音声認識した内容をガイダンス
    することを特徴とする請求項2ないし請求項5のいずれ
    かに記載の音声認識装置。
JP30674197A 1997-11-10 1997-11-10 音声認識装置 Pending JPH11143488A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30674197A JPH11143488A (ja) 1997-11-10 1997-11-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30674197A JPH11143488A (ja) 1997-11-10 1997-11-10 音声認識装置

Publications (1)

Publication Number Publication Date
JPH11143488A true JPH11143488A (ja) 1999-05-28

Family

ID=17960757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30674197A Pending JPH11143488A (ja) 1997-11-10 1997-11-10 音声認識装置

Country Status (1)

Country Link
JP (1) JPH11143488A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109687A (ja) * 1999-10-07 2001-04-20 Nec Corp ホームページアクセス装置及びホームページアクセス方法
JP2005003747A (ja) * 2003-06-09 2005-01-06 Cai Media Kyodo Kaihatsu:Kk 対話型ロボット及び対話システム
JP2005027283A (ja) * 2003-06-30 2005-01-27 Microsoft Corp 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送
JP2008241933A (ja) * 2007-03-26 2008-10-09 Kenwood Corp データ処理装置及びデータ処理方法
JP2009251019A (ja) * 2008-04-01 2009-10-29 Toyota Motor Corp 音声認識装置
WO2014112226A1 (ja) * 2013-01-16 2014-07-24 シャープ株式会社 電子機器及び掃除機
JP2015197621A (ja) * 2014-04-02 2015-11-09 日本電信電話株式会社 話し方評価装置、話し方評価方法、プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109687A (ja) * 1999-10-07 2001-04-20 Nec Corp ホームページアクセス装置及びホームページアクセス方法
JP2005003747A (ja) * 2003-06-09 2005-01-06 Cai Media Kyodo Kaihatsu:Kk 対話型ロボット及び対話システム
JP2005027283A (ja) * 2003-06-30 2005-01-27 Microsoft Corp 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送
JP2008241933A (ja) * 2007-03-26 2008-10-09 Kenwood Corp データ処理装置及びデータ処理方法
JP2009251019A (ja) * 2008-04-01 2009-10-29 Toyota Motor Corp 音声認識装置
WO2014112226A1 (ja) * 2013-01-16 2014-07-24 シャープ株式会社 電子機器及び掃除機
JP2014137430A (ja) * 2013-01-16 2014-07-28 Sharp Corp 電子機器及び掃除機
CN104871239A (zh) * 2013-01-16 2015-08-26 夏普株式会社 电子设备和吸尘器
JP2015197621A (ja) * 2014-04-02 2015-11-09 日本電信電話株式会社 話し方評価装置、話し方評価方法、プログラム

Similar Documents

Publication Publication Date Title
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
US9305569B2 (en) Dialogue system and method for responding to multimodal input using calculated situation adaptability
US20020032591A1 (en) Service request processing performed by artificial intelligence systems in conjunctiion with human intervention
US8886532B2 (en) Leveraging interaction context to improve recognition confidence scores
JP6540414B2 (ja) 音声処理装置および音声処理方法
CN1764946B (zh) 分布式语音识别方法
JP2001005488A (ja) 音声対話システム
JP2020505643A (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
US6341264B1 (en) Adaptation system and method for E-commerce and V-commerce applications
CN100504844C (zh) 对话系统
US10593320B2 (en) Learning transcription errors in speech recognition tasks
JP3530109B2 (ja) 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
CN110570867A (zh) 一种本地新增语料的语音处理方法及系统
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质
US7162422B1 (en) Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
JPH11143488A (ja) 音声認識装置
CN110503943B (zh) 一种语音交互方法以及语音交互系统
US20040019488A1 (en) Email address recognition using personal information
JP6954821B2 (ja) 対話管理装置及びプログラム
CN110021295B (zh) 用于识别由语音识别系统生成的错误转录的方法和系统
CN111354351A (zh) 控制装置、语音交互装置、语音识别服务器以及存储介质
KR20020077422A (ko) 인터넷 접근을 위한 분산 음성 인식
JP2001100787A (ja) 音声対話システム
JP2000293194A (ja) 音声対話装置
JP2000250585A (ja) 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041008

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20041008

A131 Notification of reasons for refusal

Effective date: 20060627

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060828

RD02 Notification of acceptance of power of attorney

Effective date: 20060828

Free format text: JAPANESE INTERMEDIATE CODE: A7422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206