JPH06202688A

JPH06202688A - 音声認識装置

Info

Publication number: JPH06202688A
Application number: JP4360221A
Authority: JP
Inventors: Ichiro Ujiie; 一朗氏家
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1992-12-28
Filing date: 1992-12-28
Publication date: 1994-07-22

Abstract

(57)【要約】【目的】発話の自由度を向上させるとともに、音声の
認識率を向上させる。【構成】パーサ２に、対話管理部３により生成された
音声の発話内容の仮説を意味表現するケースフレームと
しての概念フレームに基づいて、音声認識部１の音声の
認識結果を解析させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置においては、例えば
入力された音声をワードスポッティングし、その結果得
られた単語候補列を、あらかじめ用意された構文情報を
用いて、文単位で構文解析するようになされている。

【０００３】そして、その構文解析結果に基づいて、単
語候補列から、誤った単語候補を除き、正しい文（文
章）が得られるようになされている。

【０００４】

【発明が解決しようとする課題】ところで、話し言葉に
おいては、非文法的な文が使われる場合が多く（正しい
文法で発話される場合が少なく）、さらに不要語（例え
ば、文節間などで、間をとるために発声される「えー」
など）が頻繁に使われるため、構文解析が困難になり、
音声の認識率が劣化する課題があった。

【０００５】そこで、非文法的な文や不要語が挿入され
た文などをすべて構文情報に登録しておく方法がある。

【０００６】しかしながら、この方法では、構文情報が
莫大な量になり、構文解析に時間がかかる課題があっ
た。

【０００７】そこで、発話者の発話パターンを制限する
方法があるが、この場合、発話者の発話の自由度が小さ
くなり、発話者にわずらわしさを感じさせる課題があっ
た。

【０００８】本発明は、このような状況に鑑みてなされ
たものであり、発話の自由度を向上させるとともに、音
声の認識率を向上させるものである。

【０００９】

【課題を解決するための手段】請求項１に記載の音声認
識装置は、音声を認識する認識手段としての音声認識部
１と、音声の発話内容の仮説をたて、仮説を意味表現す
るケースフレームを生成する生成手段としての対話管理
部３と、対話管理部３により生成されたケースフレーム
に基づいて、音声認識部１の認識結果を解析する解析手
段としてのパーサ２とを備え、対話管理部３が、パーサ
２の解析結果に基づいて、音声の発話内容の新たな仮説
を生成することを特徴とする。

【００１０】請求項２に記載の音声認識装置は、ケース
フレームが、対話管理部３により生成される仮説を、所
定のキーワードを中心とした意味関係で表現することを
特徴とする。

【００１１】請求項３に記載の音声認識装置は、ケース
フレームが、属性名と属性値の組で表現されることを特
徴とする。

【００１２】

【作用】上記構成の音声認識装置においては、パーサ２
に、対話管理部３により生成された音声の発話内容の仮
説を意味表現するケースフレームに基づいて、音声認識
部１の音声の認識結果を解析させる。そして、対話管理
部３に、パーサ２の解析結果に基づいて、音声の発話内
容の新たな仮説を生成させる。従って、音声が、語順に
関係なく解析されるので、発話の自由度を大きくするこ
とができる。さらに、音声中に含まれる、例えば不要語
などの意味のない単語が無視されるので、音声の認識率
を向上させることができる。

【００１３】

【実施例】図１は、本発明の音声認識装置を適用したＡ
Ｖシステム制御装置の一実施例の構成を示すブロック図
である。このＡＶシステム制御装置は、音声によってＡ
Ｖ機器システム７を操作することができるように構成さ
れている。

【００１４】即ち、音声認識部１は、単語のスポッティ
ング処理（ワードスポッティング処理）を、入力された
音声に対して施し、パーサ２から出力依頼された単語の
スポッティング結果、即ち入力された音声中から、パー
サ２より出力依頼された単語をスポッティングすること
ができなかった場合には、単語が存在しないという情報
を出力し、入力された音声中から、パーサ２より出力依
頼された単語をスポッティングすることができた場合に
は、スポッティングすることができた単語名、スコア、
並びにスポッティングすることができた単語の、音声中
の発声区間の始点および終点（以下、検出区間と記載す
る）を、パーサ２に出力する。

【００１５】ここで、スコアとは、スポッティングした
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。

【００１６】パーサ２は、例えば図２に示すように、対
話管理部３より供給される音声の発話内容の仮説を意味
表現するケースフレームが登録される発話仮説パターン
テーブル１１、単語に関する情報が登録されている単語
辞書１２（図３）、単語の概念が階層構造で記述された
単語シソーラス１３（図４）、解析中のケースフレーム
としての概念フレーム（図５）が登録されるプライオリ
ティキュー１４、および解析の終了した概念フレームが
登録される結果キュー１５から構成される。

【００１７】ここで、概念フレームとは、音声の発話内
容の仮説を、例えば動詞などの所定のキーワードを中心
とした意味関係で表現した、例えば図５に示すようなケ
ースフレームを意味する。図５に示すケースフレーム、
即ち概念フレームにおいては、音声の発話内容の仮説
が、キーワードとしての動詞を中心とした、その動詞の
意味する行為をおよぼす行為対象、その行為を行うため
の手段、その行為を行う方法、その行為を開始する行為
起点、およびその行為を終了する行為終点によって記述
されるようになされている。

【００１８】つまり、概念フレームでは、音声の発話内
容の仮説が、行為（動詞で表される行為）を中心とし
て、その行為を、何に対して、何によって、どのよう
に、どこからどこまでおよぼすかというように表現され
ることになる。

【００１９】さらに、概念フレームは、属性名と属性値
を組としたスロットによって表現される。

【００２０】即ち、図５に示す概念フレームは、属性名
としての「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」と、各属性名
の属性値としての名前、スコア、および検出区間の組
（スロット）で表現される。

【００２１】つまり、図５に示す概念フレームにおいて
は、例えば属性名「動詞」のスロットは、そのスロット
に記述された動詞としての名前（例えば、”録画する”
や”再生する”など）、その「名前」が音声認識部１
で、入力された音声からワードスポッティング処理され
て出力されたスコア、および検出区間（始点と終点）か
らなる属性値を有することになる。

【００２２】さらに、各スロットの属性名は、名詞の部
分と、助詞または助動詞の部分に分けられ、それぞれに
ついて属性値が記述される。

【００２３】即ち、例えば属性名「動詞」のスロット
に”録画する”などが記述された場合、”録画する”
が、名詞部分としての”録画”と、助動詞部分として
の”する”に分けられ、それぞれについて属性値が記述
される。

【００２４】なお、図５において、＜＞で囲んであるも
のは、実際の値（または単語）が記述されることを意味
する。

【００２５】また、属性名「ｉｄ」のスロットには、概
念フレームのｉｄが属性値として記述されるとともに、
属性名「スコア」のスロットには、属性名「動詞」、
「行為対象」、「手段」、「方法」、「行為起点」、ま
たは「行為終点」それぞれの属性値「スコア」に記述さ
れたスコアの合計スコアが属性値として記述されるよう
になされている。

【００２６】さらに、属性名「検出区間」のスロットに
は、属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」それぞれの属
性値「検出区間」に記述された検出区間すべてが属性値
として記述されるとともに、属性名「区間長」のスロッ
トには、属性名「動詞」、「行為対象」、「手段」、
「方法」、「行為起点」、または「行為終点」それぞれ
の属性値「検出区間」に記述された検出区間の長さ（＝
終点−始点）の合計値が属性値として記述されるように
なされている。

【００２７】また、図５の概念フレームにおいては、助
詞および助動詞を両方含めて助詞と図示してある。

【００２８】パーサ２（図２）は、対話管理部３より供
給される音声の発話内容の仮説を意味表現するケースフ
レーム（概念フレーム）に基づいて、音声認識部１の認
識結果を、例えば文単位などの所定の発話単位で解析す
る。

【００２９】即ち、パーサ２は、対話管理部３より供給
される音声の発話内容の仮説を意味表現する概念フレー
ムの、各スロットの属性値「名前」に記述された単語を
音声認識部１に順次出力し、入力された音声中からの、
その単語のスポッティング処理を依頼する。

【００３０】そして、パーサ２は、音声認識部１より出
力される、ワードスポッティングされた単語、その単語
のスコア、およびその単語の検出区間（始点および終
点）を受信し、スコアまたは検出区間を、ワードスポッ
ティングされた単語を属性値「名前」として有するスロ
ットの属性値「スコア」または「検出区間」にそれぞれ
記述する。

【００３１】パーサ２は、対話管理部３より供給される
複数の概念フレームについて、上述の処理を繰り返し、
各概念フレームの、各スロットの属性値の記述を終了す
ると、例えば属性名「スコア」のスロットの属性値、即
ち属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」それぞれの属
性値「スコア」に記述されたスコアの、例えば合計スコ
アの最も大きい概念フレームを、音声認識部１の認識結
果の解析結果として、対話管理部３に出力する。

【００３２】対話管理部３（図１）は、ドメイン知識辞
書４にあらかじめ記憶された対話管理情報を参照し、対
話の流れを管理するとともに、パーサ２の解析結果（パ
ーサ２より出力される概念フレームの意味表現）に基づ
いて、ＡＶ機器システム７を制御する。

【００３３】即ち、対話管理部３は、ドメイン知識辞書
４にあらかじめ記憶された対話管理情報、またはパーサ
２より出力される概念フレームの意味表現に基づいて、
音声認識部１に入力される音声の発話内容の仮説をた
て、その仮説を意味表現する概念フレームを生成する。

【００３４】さらに、対話管理部３は、ドメイン知識辞
書４にあらかじめ記憶された対話管理情報を参照し、パ
ーサ２より出力される概念フレームの意味表現に対する
返事、即ち音声認識部１に入力された音声の発話内容に
対する返事の意味表現を生成して自然言語生成部５に出
力する。

【００３５】また、対話管理部３は、パーサ２より出力
される概念フレームの意味表現に対応する動作をＡＶ機
器システム７に行わせるコマンド（制御命令）をＡＶ機
器システム７に出力する。

【００３６】ドメイン知識辞書４には、対話を管理する
ための対話管理情報（例えば、問いかけに対する返事の
パターンや、現在の発話に続く、次の発話のパターンな
ど）があらかじめ記憶されている。

【００３７】自然言語生成部５は、対話管理部３より出
力される概念フレームの意味表現に基づいて、テキスト
データを生成し、テキスト音声合成部６に出力する。テ
キスト音声合成部６は、自然言語生成部５より出力され
るテキストデータに基づいて、合成音声を生成し、内蔵
するスピーカ（図示せず）から出力する。ＡＶ機器シス
テム７は、少なくとも１つのＡＶ機器から構成され、対
話管理部３より出力されるコマンドに対応して動作す
る。

【００３８】以上のように構成されるＡＶシステム制御
装置においては、まず対話管理部３において、入力され
る音声の発話内容の仮説がたてられ、その仮説を意味表
現するように、概念フレーム（図５）の各スロットの属
性値が記述されて（各スロットが埋められて）、パーサ
２に出力される。パーサ２（図２）において、対話管理
部３からの概念フレームが、発話仮説パターンテーブル
１１に記憶される。

【００３９】なお、対話管理部３においては、発話され
る可能性のあるすべての仮説がたてられ、その仮説を意
味表現するすべての概念フレームが順次出力されるよう
になされている。従って、パーサ２においては、対話管
理部３から出力されるすべての概念フレームが発話仮説
パターンテーブル１１に順次記憶されることになる。

【００４０】さらに、対話管理部３においては、概念フ
レームのスロットすべてが埋められるのではなく（すべ
てが埋められる場合もあるが）、たてられた仮説を意味
表現するだけのスロットが埋められる。

【００４１】また、音声認識部１に、最初に音声が入力
される場合、即ち発話が開始される場合、対話管理部３
においては、属性名「動詞」のスロットの属性値だけが
記述され、他の属性値が記述されていない概念フレーム
（以下、白紙概念フレームと記載する）がパーサ２に順
次出力されるようになされている。

【００４２】ここで、以下、白紙概念フレームも含め、
対話管理部３からパーサ２に出力されるすべての概念フ
レームを初期概念フレーム群と記載する。

【００４３】対話管理部３から初期概念フレーム群が出
力されると、パーサ２において、単語辞書１２が参照さ
れ、初期概念フレームのスロットのうち、属性値が記述
されていないスロットが埋められる。

【００４４】ここで、単語辞書１２には、例えば図３に
示すように単語が登録されている。

【００４５】即ち、単語辞書１２においては、例えば”
再生する”という動作（行為）の対象となり得る（属性
名「行為対象」のスロットの属性値として記述される可
能性のある）”レーザーディスク”などは、”Ｌ
Ｄ”、”レーザー”、”ビデオディスク”、または”デ
ィスク”と発声される可能性があるので、単語”Ｌ
Ｄ”、”レーザー”、”ビデオディスク”、および”デ
ィスク”の代表語とされている。

【００４６】なお、単語辞書１２に登録されているすべ
ての単語は、例えば図４に示すような単語の概念が階層
構造で記述された単語シソーラス１３の末端のいずれか
に記述されており、従って、単語辞書１２において、単
語”ＬＤ”、”レーザー”、”ビデオディスク”、およ
び”ディスク”の代表語としての単語”レーザーディス
ク”の分類が、再生専用映像媒体となっているのは、単
語”レーザーディスク”が単語シソーラス１３（図４）
の再生専用映像媒体の末端に記述されていることを意味
する。

【００４７】よって、単語”レーザーディスク”を代表
語とする単語”ＬＤ”、”レーザー”、”ビデオディス
ク”、および”ディスク”も、単語シソーラス１３（図
４）の再生専用映像媒体の末端に記述されている。

【００４８】さらに、単語辞書１２（図３）において
は、例えば単語”録画”などの、属性名「動詞」のスロ
ットの属性値となり得る単語に関しての意味関係が登録
されている。

【００４９】即ち、例えば単語”録画”に関しては、”
録画”（録画する）という行為を、どのような行為対象
に対して、どのような手段によって、どのような方法
で、どの行為起点からどの行為終点までおよぼすかとい
う意味関係が記述されている。

【００５０】さらに、単語”録画”などの、属性名「動
詞」のスロットの属性値となり得る単語においても、上
述の単語”レーザーディスク”における場合と同様に、
それを代表語とする単語が記述されているとともに、単
語シソーラス１３（図４）のどの階層の末端に属するか
が記述されている。

【００５１】また、この単語”録画”などの、属性名
「動詞」のスロットの属性値となり得る単語に関して
は、その活用に関する情報（文法情報）も記述されてい
る。

【００５２】従って、対話管理部３から初期概念フレー
ムが出力されると、パーサ２において、単語辞書１２
（図３）が参照され、初期概念フレーム（図５）の属性
名「動詞」のスロットの属性値に記述されている単語が
検出される。そして、単語辞書１２に記述されているそ
の単語（属性名「動詞」のスロットの属性値）の意味関
係に基づいて、初期概念フレームのスロットのうち、属
性値が記述されていないスロットの属性値が記述され
る。

【００５３】即ち、初期概念フレームが、白紙概念フレ
ームである場合、つまり、初期概念フレームの属性名
「動詞」のスロットの属性値に、例えば単語”録画”だ
けが記述されていた場合、パーサ２において、図３に示
す単語辞書１２の単語”録画”の記述が参照され、図６
に示すように初期概念フレームのスロットのうち、属性
値の記述されていないスロットが埋められる。

【００５４】一方、音声認識部１に音声が入力される
と、そこでワードスポッティング処理が行われる。そし
て、音声認識部１において、ワードスポッティング処理
が終了すると、そこに入力された音声の発話時間ととも
に、入力された音声に対するワードスポッティング処理
が終了したことを知らせるための制御信号がパーサ２に
出力される。

【００５５】パーサ２（図２）において、音声認識部１
からの制御信号が受信されると、まず最初に、初期概念
フレームの属性名「動詞」のスロットの属性値に記述さ
れた単語が音声認識部１に出力され、入力された音声中
からの、その単語のスポッティング処理結果を出力する
ように出力依頼が行われる。

【００５６】音声認識部１において、パーサ２から単語
が出力されるとともに、その単語のスポッティング結果
の出力依頼があると、その単語名、スコア、並びにその
単語を検出（スポッティング）することができた検出区
間（始点および終点）が、パーサ２に出力される。

【００５７】パーサ２において、音声認識部１より出力
された、ワードスポッティングされた単語、その単語の
スコア、およびその単語の検出区間（始点および終点）
が受信され、スコアまたは検出区間が、ワードスポッテ
ィングされた単語を属性値「名前」として有するスロッ
ト（この場合、属性名「動詞」のスロット（図５））の
属性値「スコア」または「検出区間」にそれぞれ記述さ
れる。

【００５８】以上のようにして、属性名「動詞」のスロ
ットの属性値「スコア」および「検出区間」が記述され
た概念フレームは、プライオリティキュー１４に順次転
送されて記憶される。

【００５９】プライオリティキュー１４では、概念フレ
ームが、その属性名「スコア」（図５）のスロットの属
性値、即ち属性名「動詞」、「行為対象」、「手段」、
「方法」、「行為起点」、または「行為終点」それぞれ
の属性値「スコア」に記述されたスコアの合計スコアの
昇順にソートされて記憶される。

【００６０】対話管理部３から供給されたすべての初期
概念フレームについて以上の処理が終了すると、プライ
オリティキュー１４の先頭に記憶されている概念フレー
ムから順次読み出される。

【００６１】そして、パーサ２において、単語シソーラ
ス１３が参照され、概念フレームの、属性値が記述され
ていないスロットうち、優先順位の最も高いスロットの
属性値に、具体的な単語が記述される。

【００６２】即ち、例えば図６に示すように、現在、概
念フレームの属性名「動詞」のスロットの属性値だけに
具体的な単語が記述されている場合、具体的な単語が記
述されていないスロットのうち、最も優先順位の高い、
例えば属性名「行為対象」のスロットの属性値に、（映
像媒体映像表示機器）に代えて、単語シソーラス１３
（図４）の映像媒体および映像表示機器の階層の末端に
記述されている単語（例えば、”レーザーディスク”
や”ビデオテープ”、”レーザーディスクプレー
ヤ”、”ビデオテープ装置”（いずれも図示せず）な
ど）が記述される。

【００６３】すると、パーサ２において、属性名「行為
対象」のスロットの属性値に、（映像媒体映像表示機
器）に代えて記述された単語が音声認識部１に出力さ
れ、入力された音声中からの、その単語のスポッティン
グ処理結果を出力するように出力依頼が行われる。

【００６４】音声認識部１において、パーサ２から単語
が出力されるとともに、その単語のスポッティング結果
の出力依頼があると、その単語名、スコア、並びにその
単語を検出（スポッティング）することができた検出区
間（始点および終点）が、パーサ２に出力される。

【００６５】パーサ２において、音声認識部１より出力
された、ワードスポッティングされた単語、その単語の
スコア、およびその単語の検出区間（始点および終点）
が受信され、スコアまたは検出区間が、ワードスポッテ
ィングされた単語を属性値「名前」として有するスロッ
ト（この場合、属性名「行為対象」のスロット（図
５））の属性値「スコア」または「検出区間」にそれぞ
れ記述される。

【００６６】以上のようにして、属性名「行為対象」の
スロットの属性値「スコア」および「検出区間」が記述
された概念フレームは、プライオリティキュー１４に順
次転送されて記憶される。

【００６７】以下、同様の処理を繰り返し、概念フレー
ムの属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、および「行為終点」のスロットの
すべての属性値「スコア」および「検出区間」が記述さ
れる。

【００６８】なお、音声認識部１において、パーサ２か
ら出力された単語が、入力された音声中からスポッティ
ングすることができなかった場合、概念フレームの、対
応するスロットの属性値「スコア」および「検出区間」
には、その旨が記述される。

【００６９】属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、並びに「行為終点」の
スロットのすべての属性値「スコア」および「検出区
間」が記述された概念フレームは、プライオリティキュ
ー１４から結果キュー１５へ転送されて記憶される。

【００７０】結果キュー１５では、プライオリティキュ
ー１４における場合と同様に、概念フレームが、その属
性名「スコア」（図５）のスロットの属性値、即ち属性
名「動詞」、「行為対象」、「手段」、「方法」、「行
為起点」、または「行為終点」それぞれの属性値「スコ
ア」に記述されたスコアの合計スコアの昇順にソートさ
れて記憶される。

【００７１】以上の処理を繰り返し、パーサ２におい
て、プライオリティキュー１４に記憶されていた概念フ
レームがすべて結果キュー１５に転送されて記憶される
と、各概念フレームの属性名「動詞」、「行為対象」、
「手段」、「方法」、「行為起点」、または「行為終
点」のスロットの名詞部分（図５）の属性値に記述され
たそれぞれの単語に付く助詞または助動詞（以下、両方
含めて助詞部分と記載する）（図５）のスポッティング
結果の出力依頼が、音声認識部１に対して行われる。

【００７２】すると、音声認識部１において、概念フレ
ームの属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」のスロットの
名詞部分（図５）の属性値に記述されたそれぞれの単語
に付く助詞部分（図５）のスポッティング結果（スコア
および検出区間）がパーサ２に出力され、パーサ２にお
いて、そのスポッティング結果が、概念フレームの属性
名「動詞」、「行為対象」、「手段」、「方法」、「行
為起点」、または「行為終点」のスロットの助詞部分
（図５）の属性値「スコア」および「検出区間」に記述
される。

【００７３】以上の処理後、結果キュー１５では、概念
フレームが、その属性名「スコア」（図５）のスロット
の属性値、即ち属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、または「行為終点」の
名詞部分および助詞部分のすべての属性値「スコア」に
記述されたスコアの合計スコアの昇順にソートされて記
憶される。

【００７４】そして、結果キュー１５の先頭に記憶され
た概念フレームが、対話管理部３で生成された音声の発
話内容の仮説に基づく、音声認識部１の認識結果の解析
結果として、対話管理部３に出力される。

【００７５】パーサ２から解析結果としての概念フレー
ムが出力されると、対話管理部３において、ドメイン知
識辞書４にあらかじめ記憶された対話管理情報が参照さ
れ、パーサ２より出力された概念フレームの意味表現に
対する返事、即ち音声認識部１に入力された音声の発話
内容に対する返事の意味表現が生成されて自然言語生成
部５（図１）に出力される。

【００７６】自然言語生成部５（図１）において、対話
管理部３より出力された概念フレームの意味表現に基づ
いて、テキストデータが生成され、テキスト音声合成部
６に出力される。テキスト音声合成部６において、自然
言語生成部５より出力されたテキストデータに基づい
て、合成音声が生成され、内蔵するスピーカから出力さ
れる。

【００７７】同時に、対話管理部３において、パーサ２
より出力された概念フレームの意味表現に対応する動作
をＡＶ機器システム７に行わせるコマンド（制御命令）
がＡＶ機器システム７に出力される。

【００７８】ＡＶ機器システム７においては、対話管理
部３より出力されたコマンドに対応する動作が行われ
る。

【００７９】即ち、パーサ２から対話管理部３に、例え
ば”ＣＤ再生”という意味表現の概念フレームが出力さ
れた場合、ＡＶ機器システム７においては、ＣＤの再生
が開始され、テキスト音声合成部６からは、”ＣＤ再
生”に対する返事としての、例えば”ＣＤ再生を開始し
ました”などの合成音が出力されることになる。

【００８０】なお、この後、対話管理部３においては、
ドメイン知識辞書４とともに、パーサ２より出力された
概念フレームの意味表現（上述の場合においては、”Ｃ
Ｄ再生”）に基づいて、次に発声される音声の発話内容
の仮説がたてられるようになる。

【００８１】即ち、この場合、対話管理部３では、”Ｃ
Ｄ再生”の次に発声される音声の発話内容の仮説が、例
えば”ＣＤ停止”や”ＣＤ早送り”などのようにたてら
れる。

【００８２】以上、本発明の音声認識装置を、ＡＶシス
テム制御装置に適用した場合について説明したが、本発
明は、ＡＶシステム制御装置の他、音声を認識するあら
ゆる装置に適用することができる。

【００８３】なお、本実施例では、音声認識部１におけ
るワードスポッティングの方法については言及しなかっ
たが、音声認識部１においては、例えば、例えばＤＰマ
ッチング法やＨＭＭ法、特開昭６０−２４９１９８、特
開昭６０−２４９１９９、または特開昭６０−２５２３
９６などに開示されている音声認識装置の音声認識アル
ゴリズムなど、あらゆる音声認識アルゴリズムに基づい
て、ワードスポッティング処理するようにすることがで
きる。

【００８４】さらに、本実施例においては、音声の発話
内容の仮説を、動詞を中心とした意味関係で表現した概
念フレームを用いるようにしたが、これに限られるもの
ではなく、音声の発話内容の仮説を、所定のキーワード
を中心とした意味関係で表現した概念フレームを用いる
ようにすることができる。

【００８５】また、本実施例では、概念フレーム（図
５）の属性名「スコア」のスロットの属性値を、属性名
「動詞」、「行為対象」、「手段」、「方法」、「行為
起点」、または「行為終点」それぞれの属性値「スコ
ア」に記述されたスコアの合計スコアとしたが、これに
限らず、例えば属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、または「行為終点」そ
れぞれの属性値「スコア」と属性値「検出区間」の長さ
（＝終点−始点）の積和をとった値とすることができ
る。

【００８６】さらに、概念フレーム（図５）の属性名
「スコア」のスロットの属性値を、属性名「動詞」、
「行為対象」、「手段」、「方法」、「行為起点」、ま
たは「行為終点」それぞれの属性値「スコア」と属性値
「検出区間」の長さ（＝終点−始点）の積和をとり、そ
の積和値を属性値「検出区間」の長さ（＝終点−始点）
の総和で除算した値とすることができる。

【００８７】

【発明の効果】以上の如く、本発明の音声認識装置によ
れば、解析手段に、生成手段により生成された音声の発
話内容の仮説を意味表現するケースフレームに基づい
て、認識手段の音声の認識結果を解析させる。そして、
生成手段に、解析手段の解析結果に基づいて、音声の発
話内容の新たな仮説を生成させる。従って、音声が、語
順に関係なく解析されるので、発話の自由度を大きくす
ることができる。さらに、音声中に含まれる、例えば不
要語などの意味のない単語が無視されるので、音声の認
識率を向上させることができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置を応用したＡＶシステム
制御装置の一実施例の構成を示すブロック図である。

【図２】図１の実施例のパーサ２のより詳細なブロック
図である。

【図３】単語辞書１２の構成例を示す図である。

【図４】単語シソーラス１３の構成例を示す図である。

【図５】概念フレームを示す図である。

【図６】概念フレームを示す図である。

【符号の説明】

１音声認識部２パーサ３対話管理部４ドメイン知識辞書５自然言語生成部６テキスト音声合成部７ＡＶ機器システム１１発話仮説パターンテーブル１２単語辞書１３単語シソーラス１４プライオリティキュー１５結果キュー

Claims

【特許請求の範囲】

【請求項１】音声を認識する認識手段と、前記音声の発話内容の仮説をたて、前記仮説を意味表現
するケースフレームを生成する生成手段と、前記生成手段により生成された前記ケースフレームに基
づいて、前記認識手段の認識結果を解析する解析手段と
を備え、前記生成手段は、前記解析手段の解析結果に基づいて、
前記音声の発話内容の新たな仮説を生成することを特徴
とする音声認識装置。
【請求項２】前記ケースフレームは、前記生成手段に
より生成される前記仮説を、所定のキーワードを中心と
した意味関係で表現することを特徴とする請求項１に記
載の音声認識装置。
【請求項３】前記ケースフレームは、属性名と属性値
の組で表現されることを特徴とする請求項１または２に
記載の音声認識装置。