JPH11143488A

JPH11143488A - 音声認識装置

Info

Publication number: JPH11143488A
Application number: JP30674197A
Authority: JP
Inventors: Satoshi Matsuhashi; 聡松橋; Takuro Nakayama; 卓郎中山; Masahiro Kosaka; 昌宏小坂; Hana Igarashi; 華五十嵐
Original assignee: Hitachi Ltd; Hitachi Communication Systems Inc
Current assignee: Hitachi Ltd; Hitachi Information and Telecommunication Engineering Ltd
Priority date: 1997-11-10
Filing date: 1997-11-10
Publication date: 1999-05-28

Abstract

(57)【要約】【課題】音声認識装置と発声者との間の対話におい
て、誤認識、誤動作の防止のために認識結果の正誤を常
に確認することによる、発声者への不快感をなくし、発
声者に対する音声認識サービスを円滑かつ正確に提供す
ること。【解決手段】音声認識装置１００内で発声者１１０な
いし１１２からの音声入力に対する認識結果を判断し、
発声者１１０ないし１１２への最適な音声ガイダンス
を、データベース部１０８にある複数パターンの中から
選択することで達成される。この複数の音声ガイダンス
パターンの選択によって、発声者に対して次に入力すべ
き情報の指示が円滑かつ正確に行える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば、公衆網を
はじめとする通信網内に位置し、音声入力サービスを提
供するのに好適な音声認識装置に係り、特に、音声認識
結果の正誤を判別し、発声者に対して適切なガイダンス
を送信可能とする音声認識装置に関する。

【０００２】

【従来の技術】従来、音声認識装置のアプリケーション
の実用化の代表的なものとして、公衆網へ適用し、様々
な内容のサービスを運用可能とするために検討が重ねら
れている。音声認識装置の公衆網への適用にあたって
は、発声者の周囲環境（例えば騒音）の違いや、音声入
力装置（例えば電話機）種別などの要因から、音声認識
装置が必ずしも入力音声を正確に認識し、発声者の要求
（発声）に１００％応えるとは限らない。そのため、誤
認識に対する前記発声者への対処策が種々検討されてい
る。

【０００３】その一つとして、特開平３−２４８１９９
号公報には、音声入力を、登録語彙と照合して認識結果
を得て、認識結果を他の機械の動作指示として送信する
音声認識装置において、第１の閾値と第２の閾値を定
め、入力音声パターンと基準パターンの「市街地」距離
の総和Ｄをとってこの最も小さいものを認識結果とし、
１／Ｄなどを信頼度として、信頼度が第１の閾値より大
きい場合には認識結果を動作指示として送信し、上記信
頼度が第２の閾値より大きく第１の閾値より小さい場合
には使用者が認識結果の確認をした場合のみ認識結果の
送信を行い、上記信頼度が第２の閾値より小さい場合に
は認識結果を無効とすることにより、入力効率を落とさ
ずに、致命的な誤動作を起こすことを防ぐようにした音
声認識方式が示されている。

【０００４】また、一般に、音声認識装置と発声者との
間で、認識結果の正誤を確認する音声応答（ガイダンス
出力）機能が適用されている。

【０００５】従来の音声認識装置における対話の流れを
図１を用いて説明する。音声認識装置は、入力された単
語音声Ｓ１１１、Ｓ１１４と、予め装置内に登録されて
いる単語の全てとの間の尤度を計算し、図１のＳ１０
２、Ｓ１０５に示すように、認識結果の第１候補となっ
た、「営業部」、「加藤さん」を音声出力して、発声者
に、確認として「はい」「いいえ」の入力を要求するこ
とが多い。また、確認を行なおうとする単語の尤度が極
めて小さい場合は、正解である可能性が低いと判定して
確認処理を行わずに、図１のＳ１０４に示されるよう
に、「もう一度〜を入力して下さい」のような再入力を
指示することも行われる。

【０００６】

【発明が解決しようとする課題】以上のように、従来の
音声認識装置と発声者との間の対話においては、音声認
識に伴う誤動作を起こさないという意味で有効である一
方、認識結果の正誤確認を常に繰り返すため、時間がか
かり、また、心理的に発声者の不快感を生む場合が多
い。本発明の課題は、上記従来の技術の問題点を解消す
ることである。

【０００７】すなわち、本発明の目的は、誤認識に伴う
誤ったサービス提供を行う危険を増大させることなく、
円滑スピーディ、かつ確実、正確に、音声入力、音声識
別サービス提供することである。

【０００８】

【課題を解決するための手段】上記課題は、本発明によ
れば、発声者からの音声入力に対する認識結果を、音声
認識装置内に具備されている信頼度計算部によって算出
された結果に基づいて判定し、発声者への音声ガイダン
スを、前記信頼性に基づき複数用意されたガイダンス遷
移パターンの中から適切なものを選択する手段を設ける
ことで達成される。

【０００９】上記のように、発声者が、音声認識装置か
ら送られてくる音声ガイダンス内容に従い、次の音声入
力を行う音声認識システムにおいて、音声認識装置から
発声者に対して、次に入力すべき音声入力情報の指示を
行う音声ガイダンスが、発声者の発声した音声状態を分
析し、その分析結果に応じて、複数の音声ガイダンスパ
ターンの中から選択された音声ガイダンスパターンであ
るため、音声入力サービスを円滑かつ正確に行うことが
できる。

【００１０】出力できるガイダンス内容は大きく、次の
４つに大別される。（１）対話促進ガイダンス例えば、複数の情報入力によって１つのサービスが提供
される場合に、第ｎ番目の情報入力が終わったあと、第
ｎ＋１番目の情報入力を促すガイダンス。

【００１１】（２）聞き返しガイダンス例えば、「○○ですね」のような「はい」「そうです」
などの肯定語と「いいえ」「違う」などの否定語の入力
を促すガイダンス。

【００１２】（３）聞き直しガイダンス複数の情報入力によって１つのサービスが提供できる時
に、その第ｎ番目の情報入力が終わったあと、再度第ｎ
番目の情報入力を促すガイダンス。

【００１３】（４）認識可能単語提示ガイダンス認識候補として該音声認識が現段階で用意している単語
を並べて出力し、該認識単語群の中から選択して入力す
ることを促すガイダンス。

【００１４】本発明によれば、聞き返しガイダンスが不
要なときは、例えば、対話促進ガイダンスが発声者へ送
信されることにより、発声者は確認ガイダンスを意識す
ることなく次工程のガイダンス内容にて音声入力が可能
となり、不快感・煩わしさ等が軽減されている。

【００１５】さらに、ガイダンス内容を最終的に確認可
能とするため、ガイダンスデータ記憶部にガイダンスデ
ータを記憶しておき、接続先の確認をすることも可能で
ある。以下、本発明を図２ないし図８に示す実施の形態
により具体的に説明する。

【００１６】本発明に関わる音声認識装置の音声ガイダ
ンス選択送信のための構成及び作用について、図２ない
し図８に示す実施の形態により、具体的に説明する。

【００１７】

【発明の実施の形態】図２は、本発明のハードウェア構
成を示した図であり、音声認識装置１００は、音声入力
装置１１０〜１１２からの入力音声と、認識用辞書デー
タ記憶部１０３に記憶されている認識用辞書データとの
間のスコアを求め、入力音声の候補単語を決定する音声
認識部１０２を具備する。上記スコアは、例えば、入力
音声と認識用辞書データの距離を求め、その総和の逆数
とすればよい。

【００１８】また、音声認識装置１００は、前記音声認
識部１０２が入力音声を認識する際に参照する認識用辞
書データを格納する認識用辞書データ記憶部１０３の他
に前記音声認識部１０２から送出される候補単語の信頼
度として算出する信頼度計算部１０１を具備する。上記
信頼度は、例えば、認識結果の第１候補のスコアと認識
結果の第２候補のスコアとの差分をとることで求めるこ
とができる。

【００１９】音声認識装置１００は、さらに、前記音声
認識部１０２で決定された第１候補単語のコード及び前
記信頼度計算部１０１で計算された信頼度を受け、次に
出力するガイダンスデータと次に認識に用いる認識用辞
書データのデータベース上のアドレスを指定して、それ
ぞれガイダンスデータ記憶部１０５と認識用辞書データ
記憶部１０３に転送する制御部１０７と、音声認識時に
用いる認識用辞書データ１０８Ｄ及び音声合成時に用い
るガイダンスデータ１０８Ｇを格納するデータベース部
１０８と、ガイダンスデータを音声データに変換して発
声者側へ送出する音声合成部１０４と、音声合成時に用
いるガイダンスデータを格納するガイダンスデータ記憶
部１０５とを具備する。

【００２０】図３は、図2に示す音声認識装置の処理動
作の流れを、音声（破線矢示線）と制御データ（実線矢
示線）とを併記して示した図である。

【００２１】発声者と音声認識装置の間で回線が接続さ
れると、制御部１０７は、前記発声者に対して音声の入
力を促すガイダンスデータを選択し、対応するガイダン
スデータアドレス（Ｃ３０１）により、データベース部
１０８からガイダンスデータを読み出し、記憶部１０５
へ前記ガイダンスデータを転送する（Ｃ３０２）。

【００２２】音声合成部１０４は、前記ガイダンスデー
タ記憶部１０５に格納された前記ガイダンスデータを受
け取り、ガイダンス音声に変換して前記発声者へ送信す
る（Ａ３０１）。

【００２３】この間に、前記制御部１０７は音声認識の
際に用いる認識用辞書データを、認識用辞書データアド
レス（Ｃ３０４）に基づき、前記データベース部１０８
から認識用辞書データ記憶部１０３へ転送する（Ｃ３０
５）。

【００２４】出力ガイダンスに対する発声者から音声の
入力があると（Ａ３０２）、音声認識部１０２におい
て、入力音声（Ａ３０２）と、音声認識部１０２に送ら
れてきた前記認識用辞書データ（Ｃ３０６）との間でス
コアを計算し（Ｃ３０７）、前記入力音声の候補単語を
決定する。

【００２５】音声認識部１０２は、得られた認識結果の
スコア（Ｃ３０７）を信頼度計算部１０１に送って認識
結果の信頼度を得て（Ｃ３０８）、前記認識結果と前記
信頼度を制御部１０７へ送出する（Ｃ３０９）。

【００２６】制御部１０７は、前記信頼度の値に従って
次に用いるべきガイダンスデータと認識用辞書データの
選択ＤＳを行い、前述と同様に、データベース部１０８
に、ガイダンスデータアドレス（Ｃ３１０）及び認識用
辞書データアドレス（Ｃ３１３）を送出し、ガイダンス
データ記憶部１０５と認識用辞書データ記憶部１０３へ
転送する（Ｃ３１１）及び（Ｃ３１４）。ガイダンスデ
ータは、さらに音声合成部１０４に送られ（Ｃ３１
２）、ガイダンス音声に変換されて、電話機などの音声
入力装置１１０ないし１１２に送信される（Ａ３０
３）。また、認識用辞書データは、音声認識部１０２に
転送される。

【００２７】次に、対話促進ガイダンスを出力する場合
について、図４、図５及び図７を使って説明する。

【００２８】図７に示すように、音声認識装置１００か
らの対話促進ガイダンス（Ｓ７０１）、例えば、「所属
部署をどうぞ」に対して、発声者の入力音声（Ｓ７１
１）が「営業部」となり、これに対する信頼度Ｒが、図
４の項番１の通り、閾値ｔｈ１よりも大きい場合（Ｓ５
０６）、制御部１０７は、図５に示すように、聞き返し
などは行わず、次に必要な情報の認識のために次のガイ
ダンスデータ及び認識用辞書データを選択する（Ｓ５０
７）及び（Ｓ５０８）。

【００２９】これにより前記発声者側に出力されるガイ
ダンスは、図７に示すように、第２番目に必要な情報を
認識するための対話促進ガイダンス（Ｓ７０２）「担当
者名をどうぞ」となる。

【００３０】次に、発声者の入力音声の認識結果の信頼
度Ｒが、図４の項番２の通り、閾値ｔｈ１よりも小さく
かつ閾値ｔｈ２よりも大きい場合、制御部１０７は、図
５の（Ｓ５０９）、（Ｓ５１０）、（Ｓ５１１）、（Ｓ
５１２）で示す通り、聞き返しガイダンスを出力するよ
うに、次のガイダンスデータおよび認識用辞書データを
選択する。音声認識装置は、図１の（Ｓ１０２）、（Ｓ
１０５）に示すような聞き返しガイダンスを出力するこ
ともできる。

【００３１】次に、発声者の入力音声の認識結果の信頼
度Ｒが、図４の項番３の通り、閾値ｔｈ２よりも小さい
場合、制御部１０７は、図５の（Ｓ５１３）、（Ｓ５１
４）で示す通り、聞き直しガイダンスを出力するよう
に、次のガイダンスデータおよび認識用辞書データを選
択する。これにより前記発声者側に出力されるガイダン
スは、例えば、図１の（Ｓ１０４）に示すように「もう
１度お願いします」となる。

【００３２】次に、発声者の入力が認識用辞書データの
中に未登録である場合について図４、図５、図８を用い
て説明する。例えば、図８に示すように、発声者の入力
音声が「電子部品営業部」となり、入力音声の認識結果
のスコアＡが、図４の項番４のように、閾値Ｄよりも小
さい場合、制御部１０７は、次の順番のガイダンスデー
タおよび認識用辞書データを選択する。これにより前記
発声者側に出力されるガイダンスは、例えば、図８の
（Ｓ８０２）に示すような認識可能単語提示ガイダンス
「人事部、企画部、営業部の中からお選び下さい」とな
る。

【００３３】次に、音声入力終了時に、認識した全ての
内容をガイダンスする場合について説明する。認識結果
は、図２のガイダンスデータ記憶部１０５に蓄えられて
おり、図５の処理の流れに従って、対話終了時には、認
識した全ての認識結果を含む内容をガイダンスするよう
にガイダンスデータを選択する。例えば、図８に示す
「営業部の加藤へお繋ぎします」のようになる。

【００３４】

【発明の効果】以上の通り、本発明により信頼度計算部
の数値によって複数パターンのガイダンスが発声者へ送
出されるため、無駄な再発声等を省くことができ、円滑
に対話を進めることを可能とする。

【００３５】これにより、発声者の不快感を軽減し、か
つ発声者の要求するサービスを正確に提供できる効果が
ある。

【図面の簡単な説明】

【図１】従来の音声認識装置と発声者間の対話の例を示
す遷移図。

【図２】本発明による音声認識装置のハードウェア構成
図。

【図３】本発明による音声認識装置内の動作シーケンス
を示すシーケンス図。

【図４】本発明による音声認識装置の信頼度による次ガ
イダンスの判定条件の一覧図表。

【図５】本発明による音声認識装置の次ガイダンス選択
処理のフローチャート。

【図６】本発明による音声認識装置の次ガイダンス選択
処理のフローチャート。

【図７】本発明による音声認識装置で実現される対話の
例を示す遷移図。

【図８】本発明による音声認識装置で実現される対話の
例を示す遷移図。

【符号の説明】

１０１…信頼度計算部、１０２…音声認識部、１０３…
認識用辞書データ記憶部、１０４…音声合成部、１０５
…ガイダンスデータ記憶部、１０６…インタフェース
部、１０７…制御部、１０８…データベース部、１１０
〜１１２…音声入力装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者小坂昌宏神奈川県横浜市戸塚区戸塚町216番地株式会社日立製作所情報通信事業部内 (72)発明者五十嵐華神奈川県横浜市戸塚区戸塚町180番地日立通信システム株式会社内

Claims

【特許請求の範囲】

【請求項１】通信網内に位置し、発声者の音声入力を受
信する機能及びサービスに対応する語彙候補群を持ち、
前記音声入力に基づいて１つ又は複数の語彙候補を選択
するとともにその確からしさの情報を出力する音声認識
機能と、前記発声者へ送信する複数種類の応答データを
蓄積している応答機能を持ち、前記音声認識機能から出
力される確からしさの情報を用いて、前記応答機能に蓄
積された複数種類の応答データの中から選択した応答デ
ータに対応する送信ガイダンスを出力することを特徴と
する音声認識装置。
【請求項２】複数種類の応答データとして、対話促進ガ
イダンス用データ、聞き返しガイダンス用データ、聞き
直しガイダンス用データ及び認識可能単語提示ガイダン
ス用データのいずれか２つ以上を蓄積していることを特
徴とする請求項１記載の音声認識装置。
【請求項３】対話促進ガイダンスは、認識結果の確から
しさの情報が一定値を越える場合に出力することを特徴
とする請求項２記載の音声認識装置。
【請求項４】発声者に対して、認識結果の確認を求める
ガイダンスを出力せずに、次の情報入力を可能とするこ
とを特徴とする請求項１記載の音声認識装置。
【請求項５】発声者に対して、先に認識を行った際に入
力した音声と同じ音声の再入力を指示するための応答デ
ータを持ち、両者の距離データおよび距離差データが一
定値以下の場合に出力することを特徴とする請求項１記
載の音声認識装置。
【請求項６】発声者に対して提供できるサービス内容を
説明する応答データを持ち、距離データが一定値以下の
場合にこれを出力することを特徴とする請求項１記載の
音声認識装置。
【請求項７】発声者に対して、前記音声認識装置で対象
とする単語を提示する機能を持つことを特徴とする請求
項１記載の音声認識装置。
【請求項８】音声認識装置が対話促進のための応答デー
タを送信した場合、最終的に音声入力を完了した時点で
認識した全ての内容を応答データとして出力し、発声者
に確認を求めることを特徴とする請求項２記載の音声認
識装置。
【請求項９】認識結果の相手先（接続したいサービス
名）への送信を行う前に音声認識した内容をガイダンス
することを特徴とする請求項２ないし請求項５のいずれ
かに記載の音声認識装置。