JPH06202688A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH06202688A JPH06202688A JP4360221A JP36022192A JPH06202688A JP H06202688 A JPH06202688 A JP H06202688A JP 4360221 A JP4360221 A JP 4360221A JP 36022192 A JP36022192 A JP 36022192A JP H06202688 A JPH06202688 A JP H06202688A
- Authority
- JP
- Japan
- Prior art keywords
- word
- voice
- frame
- action
- parser
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】 発話の自由度を向上させるとともに、音声の
認識率を向上させる。 【構成】 パーサ2に、対話管理部3により生成された
音声の発話内容の仮説を意味表現するケースフレームと
しての概念フレームに基づいて、音声認識部1の音声の
認識結果を解析させる。
認識率を向上させる。 【構成】 パーサ2に、対話管理部3により生成された
音声の発話内容の仮説を意味表現するケースフレームと
しての概念フレームに基づいて、音声認識部1の音声の
認識結果を解析させる。
Description
【0001】
【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置に関する。
用いて好適な音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置においては、例えば
入力された音声をワードスポッティングし、その結果得
られた単語候補列を、あらかじめ用意された構文情報を
用いて、文単位で構文解析するようになされている。
入力された音声をワードスポッティングし、その結果得
られた単語候補列を、あらかじめ用意された構文情報を
用いて、文単位で構文解析するようになされている。
【0003】そして、その構文解析結果に基づいて、単
語候補列から、誤った単語候補を除き、正しい文(文
章)が得られるようになされている。
語候補列から、誤った単語候補を除き、正しい文(文
章)が得られるようになされている。
【0004】
【発明が解決しようとする課題】ところで、話し言葉に
おいては、非文法的な文が使われる場合が多く(正しい
文法で発話される場合が少なく)、さらに不要語(例え
ば、文節間などで、間をとるために発声される「えー」
など)が頻繁に使われるため、構文解析が困難になり、
音声の認識率が劣化する課題があった。
おいては、非文法的な文が使われる場合が多く(正しい
文法で発話される場合が少なく)、さらに不要語(例え
ば、文節間などで、間をとるために発声される「えー」
など)が頻繁に使われるため、構文解析が困難になり、
音声の認識率が劣化する課題があった。
【0005】そこで、非文法的な文や不要語が挿入され
た文などをすべて構文情報に登録しておく方法がある。
た文などをすべて構文情報に登録しておく方法がある。
【0006】しかしながら、この方法では、構文情報が
莫大な量になり、構文解析に時間がかかる課題があっ
た。
莫大な量になり、構文解析に時間がかかる課題があっ
た。
【0007】そこで、発話者の発話パターンを制限する
方法があるが、この場合、発話者の発話の自由度が小さ
くなり、発話者にわずらわしさを感じさせる課題があっ
た。
方法があるが、この場合、発話者の発話の自由度が小さ
くなり、発話者にわずらわしさを感じさせる課題があっ
た。
【0008】本発明は、このような状況に鑑みてなされ
たものであり、発話の自由度を向上させるとともに、音
声の認識率を向上させるものである。
たものであり、発話の自由度を向上させるとともに、音
声の認識率を向上させるものである。
【0009】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、音声を認識する認識手段としての音声認識部
1と、音声の発話内容の仮説をたて、仮説を意味表現す
るケースフレームを生成する生成手段としての対話管理
部3と、対話管理部3により生成されたケースフレーム
に基づいて、音声認識部1の認識結果を解析する解析手
段としてのパーサ2とを備え、対話管理部3が、パーサ
2の解析結果に基づいて、音声の発話内容の新たな仮説
を生成することを特徴とする。
識装置は、音声を認識する認識手段としての音声認識部
1と、音声の発話内容の仮説をたて、仮説を意味表現す
るケースフレームを生成する生成手段としての対話管理
部3と、対話管理部3により生成されたケースフレーム
に基づいて、音声認識部1の認識結果を解析する解析手
段としてのパーサ2とを備え、対話管理部3が、パーサ
2の解析結果に基づいて、音声の発話内容の新たな仮説
を生成することを特徴とする。
【0010】請求項2に記載の音声認識装置は、ケース
フレームが、対話管理部3により生成される仮説を、所
定のキーワードを中心とした意味関係で表現することを
特徴とする。
フレームが、対話管理部3により生成される仮説を、所
定のキーワードを中心とした意味関係で表現することを
特徴とする。
【0011】請求項3に記載の音声認識装置は、ケース
フレームが、属性名と属性値の組で表現されることを特
徴とする。
フレームが、属性名と属性値の組で表現されることを特
徴とする。
【0012】
【作用】上記構成の音声認識装置においては、パーサ2
に、対話管理部3により生成された音声の発話内容の仮
説を意味表現するケースフレームに基づいて、音声認識
部1の音声の認識結果を解析させる。そして、対話管理
部3に、パーサ2の解析結果に基づいて、音声の発話内
容の新たな仮説を生成させる。従って、音声が、語順に
関係なく解析されるので、発話の自由度を大きくするこ
とができる。さらに、音声中に含まれる、例えば不要語
などの意味のない単語が無視されるので、音声の認識率
を向上させることができる。
に、対話管理部3により生成された音声の発話内容の仮
説を意味表現するケースフレームに基づいて、音声認識
部1の音声の認識結果を解析させる。そして、対話管理
部3に、パーサ2の解析結果に基づいて、音声の発話内
容の新たな仮説を生成させる。従って、音声が、語順に
関係なく解析されるので、発話の自由度を大きくするこ
とができる。さらに、音声中に含まれる、例えば不要語
などの意味のない単語が無視されるので、音声の認識率
を向上させることができる。
【0013】
【実施例】図1は、本発明の音声認識装置を適用したA
Vシステム制御装置の一実施例の構成を示すブロック図
である。このAVシステム制御装置は、音声によってA
V機器システム7を操作することができるように構成さ
れている。
Vシステム制御装置の一実施例の構成を示すブロック図
である。このAVシステム制御装置は、音声によってA
V機器システム7を操作することができるように構成さ
れている。
【0014】即ち、音声認識部1は、単語のスポッティ
ング処理(ワードスポッティング処理)を、入力された
音声に対して施し、パーサ2から出力依頼された単語の
スポッティング結果、即ち入力された音声中から、パー
サ2より出力依頼された単語をスポッティングすること
ができなかった場合には、単語が存在しないという情報
を出力し、入力された音声中から、パーサ2より出力依
頼された単語をスポッティングすることができた場合に
は、スポッティングすることができた単語名、スコア、
並びにスポッティングすることができた単語の、音声中
の発声区間の始点および終点(以下、検出区間と記載す
る)を、パーサ2に出力する。
ング処理(ワードスポッティング処理)を、入力された
音声に対して施し、パーサ2から出力依頼された単語の
スポッティング結果、即ち入力された音声中から、パー
サ2より出力依頼された単語をスポッティングすること
ができなかった場合には、単語が存在しないという情報
を出力し、入力された音声中から、パーサ2より出力依
頼された単語をスポッティングすることができた場合に
は、スポッティングすることができた単語名、スコア、
並びにスポッティングすることができた単語の、音声中
の発声区間の始点および終点(以下、検出区間と記載す
る)を、パーサ2に出力する。
【0015】ここで、スコアとは、スポッティングした
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。
【0016】パーサ2は、例えば図2に示すように、対
話管理部3より供給される音声の発話内容の仮説を意味
表現するケースフレームが登録される発話仮説パターン
テーブル11、単語に関する情報が登録されている単語
辞書12(図3)、単語の概念が階層構造で記述された
単語シソーラス13(図4)、解析中のケースフレーム
としての概念フレーム(図5)が登録されるプライオリ
ティキュー14、および解析の終了した概念フレームが
登録される結果キュー15から構成される。
話管理部3より供給される音声の発話内容の仮説を意味
表現するケースフレームが登録される発話仮説パターン
テーブル11、単語に関する情報が登録されている単語
辞書12(図3)、単語の概念が階層構造で記述された
単語シソーラス13(図4)、解析中のケースフレーム
としての概念フレーム(図5)が登録されるプライオリ
ティキュー14、および解析の終了した概念フレームが
登録される結果キュー15から構成される。
【0017】ここで、概念フレームとは、音声の発話内
容の仮説を、例えば動詞などの所定のキーワードを中心
とした意味関係で表現した、例えば図5に示すようなケ
ースフレームを意味する。図5に示すケースフレーム、
即ち概念フレームにおいては、音声の発話内容の仮説
が、キーワードとしての動詞を中心とした、その動詞の
意味する行為をおよぼす行為対象、その行為を行うため
の手段、その行為を行う方法、その行為を開始する行為
起点、およびその行為を終了する行為終点によって記述
されるようになされている。
容の仮説を、例えば動詞などの所定のキーワードを中心
とした意味関係で表現した、例えば図5に示すようなケ
ースフレームを意味する。図5に示すケースフレーム、
即ち概念フレームにおいては、音声の発話内容の仮説
が、キーワードとしての動詞を中心とした、その動詞の
意味する行為をおよぼす行為対象、その行為を行うため
の手段、その行為を行う方法、その行為を開始する行為
起点、およびその行為を終了する行為終点によって記述
されるようになされている。
【0018】つまり、概念フレームでは、音声の発話内
容の仮説が、行為(動詞で表される行為)を中心とし
て、その行為を、何に対して、何によって、どのよう
に、どこからどこまでおよぼすかというように表現され
ることになる。
容の仮説が、行為(動詞で表される行為)を中心とし
て、その行為を、何に対して、何によって、どのよう
に、どこからどこまでおよぼすかというように表現され
ることになる。
【0019】さらに、概念フレームは、属性名と属性値
を組としたスロットによって表現される。
を組としたスロットによって表現される。
【0020】即ち、図5に示す概念フレームは、属性名
としての「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」と、各属性名
の属性値としての名前、スコア、および検出区間の組
(スロット)で表現される。
としての「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」と、各属性名
の属性値としての名前、スコア、および検出区間の組
(スロット)で表現される。
【0021】つまり、図5に示す概念フレームにおいて
は、例えば属性名「動詞」のスロットは、そのスロット
に記述された動詞としての名前(例えば、”録画する”
や”再生する”など)、その「名前」が音声認識部1
で、入力された音声からワードスポッティング処理され
て出力されたスコア、および検出区間(始点と終点)か
らなる属性値を有することになる。
は、例えば属性名「動詞」のスロットは、そのスロット
に記述された動詞としての名前(例えば、”録画する”
や”再生する”など)、その「名前」が音声認識部1
で、入力された音声からワードスポッティング処理され
て出力されたスコア、および検出区間(始点と終点)か
らなる属性値を有することになる。
【0022】さらに、各スロットの属性名は、名詞の部
分と、助詞または助動詞の部分に分けられ、それぞれに
ついて属性値が記述される。
分と、助詞または助動詞の部分に分けられ、それぞれに
ついて属性値が記述される。
【0023】即ち、例えば属性名「動詞」のスロット
に”録画する”などが記述された場合、”録画する”
が、名詞部分としての”録画”と、助動詞部分として
の”する”に分けられ、それぞれについて属性値が記述
される。
に”録画する”などが記述された場合、”録画する”
が、名詞部分としての”録画”と、助動詞部分として
の”する”に分けられ、それぞれについて属性値が記述
される。
【0024】なお、図5において、<>で囲んであるも
のは、実際の値(または単語)が記述されることを意味
する。
のは、実際の値(または単語)が記述されることを意味
する。
【0025】また、属性名「id」のスロットには、概
念フレームのidが属性値として記述されるとともに、
属性名「スコア」のスロットには、属性名「動詞」、
「行為対象」、「手段」、「方法」、「行為起点」、ま
たは「行為終点」それぞれの属性値「スコア」に記述さ
れたスコアの合計スコアが属性値として記述されるよう
になされている。
念フレームのidが属性値として記述されるとともに、
属性名「スコア」のスロットには、属性名「動詞」、
「行為対象」、「手段」、「方法」、「行為起点」、ま
たは「行為終点」それぞれの属性値「スコア」に記述さ
れたスコアの合計スコアが属性値として記述されるよう
になされている。
【0026】さらに、属性名「検出区間」のスロットに
は、属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」それぞれの属
性値「検出区間」に記述された検出区間すべてが属性値
として記述されるとともに、属性名「区間長」のスロッ
トには、属性名「動詞」、「行為対象」、「手段」、
「方法」、「行為起点」、または「行為終点」それぞれ
の属性値「検出区間」に記述された検出区間の長さ(=
終点−始点)の合計値が属性値として記述されるように
なされている。
は、属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」それぞれの属
性値「検出区間」に記述された検出区間すべてが属性値
として記述されるとともに、属性名「区間長」のスロッ
トには、属性名「動詞」、「行為対象」、「手段」、
「方法」、「行為起点」、または「行為終点」それぞれ
の属性値「検出区間」に記述された検出区間の長さ(=
終点−始点)の合計値が属性値として記述されるように
なされている。
【0027】また、図5の概念フレームにおいては、助
詞および助動詞を両方含めて助詞と図示してある。
詞および助動詞を両方含めて助詞と図示してある。
【0028】パーサ2(図2)は、対話管理部3より供
給される音声の発話内容の仮説を意味表現するケースフ
レーム(概念フレーム)に基づいて、音声認識部1の認
識結果を、例えば文単位などの所定の発話単位で解析す
る。
給される音声の発話内容の仮説を意味表現するケースフ
レーム(概念フレーム)に基づいて、音声認識部1の認
識結果を、例えば文単位などの所定の発話単位で解析す
る。
【0029】即ち、パーサ2は、対話管理部3より供給
される音声の発話内容の仮説を意味表現する概念フレー
ムの、各スロットの属性値「名前」に記述された単語を
音声認識部1に順次出力し、入力された音声中からの、
その単語のスポッティング処理を依頼する。
される音声の発話内容の仮説を意味表現する概念フレー
ムの、各スロットの属性値「名前」に記述された単語を
音声認識部1に順次出力し、入力された音声中からの、
その単語のスポッティング処理を依頼する。
【0030】そして、パーサ2は、音声認識部1より出
力される、ワードスポッティングされた単語、その単語
のスコア、およびその単語の検出区間(始点および終
点)を受信し、スコアまたは検出区間を、ワードスポッ
ティングされた単語を属性値「名前」として有するスロ
ットの属性値「スコア」または「検出区間」にそれぞれ
記述する。
力される、ワードスポッティングされた単語、その単語
のスコア、およびその単語の検出区間(始点および終
点)を受信し、スコアまたは検出区間を、ワードスポッ
ティングされた単語を属性値「名前」として有するスロ
ットの属性値「スコア」または「検出区間」にそれぞれ
記述する。
【0031】パーサ2は、対話管理部3より供給される
複数の概念フレームについて、上述の処理を繰り返し、
各概念フレームの、各スロットの属性値の記述を終了す
ると、例えば属性名「スコア」のスロットの属性値、即
ち属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」それぞれの属
性値「スコア」に記述されたスコアの、例えば合計スコ
アの最も大きい概念フレームを、音声認識部1の認識結
果の解析結果として、対話管理部3に出力する。
複数の概念フレームについて、上述の処理を繰り返し、
各概念フレームの、各スロットの属性値の記述を終了す
ると、例えば属性名「スコア」のスロットの属性値、即
ち属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」それぞれの属
性値「スコア」に記述されたスコアの、例えば合計スコ
アの最も大きい概念フレームを、音声認識部1の認識結
果の解析結果として、対話管理部3に出力する。
【0032】対話管理部3(図1)は、ドメイン知識辞
書4にあらかじめ記憶された対話管理情報を参照し、対
話の流れを管理するとともに、パーサ2の解析結果(パ
ーサ2より出力される概念フレームの意味表現)に基づ
いて、AV機器システム7を制御する。
書4にあらかじめ記憶された対話管理情報を参照し、対
話の流れを管理するとともに、パーサ2の解析結果(パ
ーサ2より出力される概念フレームの意味表現)に基づ
いて、AV機器システム7を制御する。
【0033】即ち、対話管理部3は、ドメイン知識辞書
4にあらかじめ記憶された対話管理情報、またはパーサ
2より出力される概念フレームの意味表現に基づいて、
音声認識部1に入力される音声の発話内容の仮説をた
て、その仮説を意味表現する概念フレームを生成する。
4にあらかじめ記憶された対話管理情報、またはパーサ
2より出力される概念フレームの意味表現に基づいて、
音声認識部1に入力される音声の発話内容の仮説をた
て、その仮説を意味表現する概念フレームを生成する。
【0034】さらに、対話管理部3は、ドメイン知識辞
書4にあらかじめ記憶された対話管理情報を参照し、パ
ーサ2より出力される概念フレームの意味表現に対する
返事、即ち音声認識部1に入力された音声の発話内容に
対する返事の意味表現を生成して自然言語生成部5に出
力する。
書4にあらかじめ記憶された対話管理情報を参照し、パ
ーサ2より出力される概念フレームの意味表現に対する
返事、即ち音声認識部1に入力された音声の発話内容に
対する返事の意味表現を生成して自然言語生成部5に出
力する。
【0035】また、対話管理部3は、パーサ2より出力
される概念フレームの意味表現に対応する動作をAV機
器システム7に行わせるコマンド(制御命令)をAV機
器システム7に出力する。
される概念フレームの意味表現に対応する動作をAV機
器システム7に行わせるコマンド(制御命令)をAV機
器システム7に出力する。
【0036】ドメイン知識辞書4には、対話を管理する
ための対話管理情報(例えば、問いかけに対する返事の
パターンや、現在の発話に続く、次の発話のパターンな
ど)があらかじめ記憶されている。
ための対話管理情報(例えば、問いかけに対する返事の
パターンや、現在の発話に続く、次の発話のパターンな
ど)があらかじめ記憶されている。
【0037】自然言語生成部5は、対話管理部3より出
力される概念フレームの意味表現に基づいて、テキスト
データを生成し、テキスト音声合成部6に出力する。テ
キスト音声合成部6は、自然言語生成部5より出力され
るテキストデータに基づいて、合成音声を生成し、内蔵
するスピーカ(図示せず)から出力する。AV機器シス
テム7は、少なくとも1つのAV機器から構成され、対
話管理部3より出力されるコマンドに対応して動作す
る。
力される概念フレームの意味表現に基づいて、テキスト
データを生成し、テキスト音声合成部6に出力する。テ
キスト音声合成部6は、自然言語生成部5より出力され
るテキストデータに基づいて、合成音声を生成し、内蔵
するスピーカ(図示せず)から出力する。AV機器シス
テム7は、少なくとも1つのAV機器から構成され、対
話管理部3より出力されるコマンドに対応して動作す
る。
【0038】以上のように構成されるAVシステム制御
装置においては、まず対話管理部3において、入力され
る音声の発話内容の仮説がたてられ、その仮説を意味表
現するように、概念フレーム(図5)の各スロットの属
性値が記述されて(各スロットが埋められて)、パーサ
2に出力される。パーサ2(図2)において、対話管理
部3からの概念フレームが、発話仮説パターンテーブル
11に記憶される。
装置においては、まず対話管理部3において、入力され
る音声の発話内容の仮説がたてられ、その仮説を意味表
現するように、概念フレーム(図5)の各スロットの属
性値が記述されて(各スロットが埋められて)、パーサ
2に出力される。パーサ2(図2)において、対話管理
部3からの概念フレームが、発話仮説パターンテーブル
11に記憶される。
【0039】なお、対話管理部3においては、発話され
る可能性のあるすべての仮説がたてられ、その仮説を意
味表現するすべての概念フレームが順次出力されるよう
になされている。従って、パーサ2においては、対話管
理部3から出力されるすべての概念フレームが発話仮説
パターンテーブル11に順次記憶されることになる。
る可能性のあるすべての仮説がたてられ、その仮説を意
味表現するすべての概念フレームが順次出力されるよう
になされている。従って、パーサ2においては、対話管
理部3から出力されるすべての概念フレームが発話仮説
パターンテーブル11に順次記憶されることになる。
【0040】さらに、対話管理部3においては、概念フ
レームのスロットすべてが埋められるのではなく(すべ
てが埋められる場合もあるが)、たてられた仮説を意味
表現するだけのスロットが埋められる。
レームのスロットすべてが埋められるのではなく(すべ
てが埋められる場合もあるが)、たてられた仮説を意味
表現するだけのスロットが埋められる。
【0041】また、音声認識部1に、最初に音声が入力
される場合、即ち発話が開始される場合、対話管理部3
においては、属性名「動詞」のスロットの属性値だけが
記述され、他の属性値が記述されていない概念フレーム
(以下、白紙概念フレームと記載する)がパーサ2に順
次出力されるようになされている。
される場合、即ち発話が開始される場合、対話管理部3
においては、属性名「動詞」のスロットの属性値だけが
記述され、他の属性値が記述されていない概念フレーム
(以下、白紙概念フレームと記載する)がパーサ2に順
次出力されるようになされている。
【0042】ここで、以下、白紙概念フレームも含め、
対話管理部3からパーサ2に出力されるすべての概念フ
レームを初期概念フレーム群と記載する。
対話管理部3からパーサ2に出力されるすべての概念フ
レームを初期概念フレーム群と記載する。
【0043】対話管理部3から初期概念フレーム群が出
力されると、パーサ2において、単語辞書12が参照さ
れ、初期概念フレームのスロットのうち、属性値が記述
されていないスロットが埋められる。
力されると、パーサ2において、単語辞書12が参照さ
れ、初期概念フレームのスロットのうち、属性値が記述
されていないスロットが埋められる。
【0044】ここで、単語辞書12には、例えば図3に
示すように単語が登録されている。
示すように単語が登録されている。
【0045】即ち、単語辞書12においては、例えば”
再生する”という動作(行為)の対象となり得る(属性
名「行為対象」のスロットの属性値として記述される可
能性のある)”レーザーディスク”などは、”L
D”、”レーザー”、”ビデオディスク”、または”デ
ィスク”と発声される可能性があるので、単語”L
D”、”レーザー”、”ビデオディスク”、および”デ
ィスク”の代表語とされている。
再生する”という動作(行為)の対象となり得る(属性
名「行為対象」のスロットの属性値として記述される可
能性のある)”レーザーディスク”などは、”L
D”、”レーザー”、”ビデオディスク”、または”デ
ィスク”と発声される可能性があるので、単語”L
D”、”レーザー”、”ビデオディスク”、および”デ
ィスク”の代表語とされている。
【0046】なお、単語辞書12に登録されているすべ
ての単語は、例えば図4に示すような単語の概念が階層
構造で記述された単語シソーラス13の末端のいずれか
に記述されており、従って、単語辞書12において、単
語”LD”、”レーザー”、”ビデオディスク”、およ
び”ディスク”の代表語としての単語”レーザーディス
ク”の分類が、再生専用映像媒体となっているのは、単
語”レーザーディスク”が単語シソーラス13(図4)
の再生専用映像媒体の末端に記述されていることを意味
する。
ての単語は、例えば図4に示すような単語の概念が階層
構造で記述された単語シソーラス13の末端のいずれか
に記述されており、従って、単語辞書12において、単
語”LD”、”レーザー”、”ビデオディスク”、およ
び”ディスク”の代表語としての単語”レーザーディス
ク”の分類が、再生専用映像媒体となっているのは、単
語”レーザーディスク”が単語シソーラス13(図4)
の再生専用映像媒体の末端に記述されていることを意味
する。
【0047】よって、単語”レーザーディスク”を代表
語とする単語”LD”、”レーザー”、”ビデオディス
ク”、および”ディスク”も、単語シソーラス13(図
4)の再生専用映像媒体の末端に記述されている。
語とする単語”LD”、”レーザー”、”ビデオディス
ク”、および”ディスク”も、単語シソーラス13(図
4)の再生専用映像媒体の末端に記述されている。
【0048】さらに、単語辞書12(図3)において
は、例えば単語”録画”などの、属性名「動詞」のスロ
ットの属性値となり得る単語に関しての意味関係が登録
されている。
は、例えば単語”録画”などの、属性名「動詞」のスロ
ットの属性値となり得る単語に関しての意味関係が登録
されている。
【0049】即ち、例えば単語”録画”に関しては、”
録画”(録画する)という行為を、どのような行為対象
に対して、どのような手段によって、どのような方法
で、どの行為起点からどの行為終点までおよぼすかとい
う意味関係が記述されている。
録画”(録画する)という行為を、どのような行為対象
に対して、どのような手段によって、どのような方法
で、どの行為起点からどの行為終点までおよぼすかとい
う意味関係が記述されている。
【0050】さらに、単語”録画”などの、属性名「動
詞」のスロットの属性値となり得る単語においても、上
述の単語”レーザーディスク”における場合と同様に、
それを代表語とする単語が記述されているとともに、単
語シソーラス13(図4)のどの階層の末端に属するか
が記述されている。
詞」のスロットの属性値となり得る単語においても、上
述の単語”レーザーディスク”における場合と同様に、
それを代表語とする単語が記述されているとともに、単
語シソーラス13(図4)のどの階層の末端に属するか
が記述されている。
【0051】また、この単語”録画”などの、属性名
「動詞」のスロットの属性値となり得る単語に関して
は、その活用に関する情報(文法情報)も記述されてい
る。
「動詞」のスロットの属性値となり得る単語に関して
は、その活用に関する情報(文法情報)も記述されてい
る。
【0052】従って、対話管理部3から初期概念フレー
ムが出力されると、パーサ2において、単語辞書12
(図3)が参照され、初期概念フレーム(図5)の属性
名「動詞」のスロットの属性値に記述されている単語が
検出される。そして、単語辞書12に記述されているそ
の単語(属性名「動詞」のスロットの属性値)の意味関
係に基づいて、初期概念フレームのスロットのうち、属
性値が記述されていないスロットの属性値が記述され
る。
ムが出力されると、パーサ2において、単語辞書12
(図3)が参照され、初期概念フレーム(図5)の属性
名「動詞」のスロットの属性値に記述されている単語が
検出される。そして、単語辞書12に記述されているそ
の単語(属性名「動詞」のスロットの属性値)の意味関
係に基づいて、初期概念フレームのスロットのうち、属
性値が記述されていないスロットの属性値が記述され
る。
【0053】即ち、初期概念フレームが、白紙概念フレ
ームである場合、つまり、初期概念フレームの属性名
「動詞」のスロットの属性値に、例えば単語”録画”だ
けが記述されていた場合、パーサ2において、図3に示
す単語辞書12の単語”録画”の記述が参照され、図6
に示すように初期概念フレームのスロットのうち、属性
値の記述されていないスロットが埋められる。
ームである場合、つまり、初期概念フレームの属性名
「動詞」のスロットの属性値に、例えば単語”録画”だ
けが記述されていた場合、パーサ2において、図3に示
す単語辞書12の単語”録画”の記述が参照され、図6
に示すように初期概念フレームのスロットのうち、属性
値の記述されていないスロットが埋められる。
【0054】一方、音声認識部1に音声が入力される
と、そこでワードスポッティング処理が行われる。そし
て、音声認識部1において、ワードスポッティング処理
が終了すると、そこに入力された音声の発話時間ととも
に、入力された音声に対するワードスポッティング処理
が終了したことを知らせるための制御信号がパーサ2に
出力される。
と、そこでワードスポッティング処理が行われる。そし
て、音声認識部1において、ワードスポッティング処理
が終了すると、そこに入力された音声の発話時間ととも
に、入力された音声に対するワードスポッティング処理
が終了したことを知らせるための制御信号がパーサ2に
出力される。
【0055】パーサ2(図2)において、音声認識部1
からの制御信号が受信されると、まず最初に、初期概念
フレームの属性名「動詞」のスロットの属性値に記述さ
れた単語が音声認識部1に出力され、入力された音声中
からの、その単語のスポッティング処理結果を出力する
ように出力依頼が行われる。
からの制御信号が受信されると、まず最初に、初期概念
フレームの属性名「動詞」のスロットの属性値に記述さ
れた単語が音声認識部1に出力され、入力された音声中
からの、その単語のスポッティング処理結果を出力する
ように出力依頼が行われる。
【0056】音声認識部1において、パーサ2から単語
が出力されるとともに、その単語のスポッティング結果
の出力依頼があると、その単語名、スコア、並びにその
単語を検出(スポッティング)することができた検出区
間(始点および終点)が、パーサ2に出力される。
が出力されるとともに、その単語のスポッティング結果
の出力依頼があると、その単語名、スコア、並びにその
単語を検出(スポッティング)することができた検出区
間(始点および終点)が、パーサ2に出力される。
【0057】パーサ2において、音声認識部1より出力
された、ワードスポッティングされた単語、その単語の
スコア、およびその単語の検出区間(始点および終点)
が受信され、スコアまたは検出区間が、ワードスポッテ
ィングされた単語を属性値「名前」として有するスロッ
ト(この場合、属性名「動詞」のスロット(図5))の
属性値「スコア」または「検出区間」にそれぞれ記述さ
れる。
された、ワードスポッティングされた単語、その単語の
スコア、およびその単語の検出区間(始点および終点)
が受信され、スコアまたは検出区間が、ワードスポッテ
ィングされた単語を属性値「名前」として有するスロッ
ト(この場合、属性名「動詞」のスロット(図5))の
属性値「スコア」または「検出区間」にそれぞれ記述さ
れる。
【0058】以上のようにして、属性名「動詞」のスロ
ットの属性値「スコア」および「検出区間」が記述され
た概念フレームは、プライオリティキュー14に順次転
送されて記憶される。
ットの属性値「スコア」および「検出区間」が記述され
た概念フレームは、プライオリティキュー14に順次転
送されて記憶される。
【0059】プライオリティキュー14では、概念フレ
ームが、その属性名「スコア」(図5)のスロットの属
性値、即ち属性名「動詞」、「行為対象」、「手段」、
「方法」、「行為起点」、または「行為終点」それぞれ
の属性値「スコア」に記述されたスコアの合計スコアの
昇順にソートされて記憶される。
ームが、その属性名「スコア」(図5)のスロットの属
性値、即ち属性名「動詞」、「行為対象」、「手段」、
「方法」、「行為起点」、または「行為終点」それぞれ
の属性値「スコア」に記述されたスコアの合計スコアの
昇順にソートされて記憶される。
【0060】対話管理部3から供給されたすべての初期
概念フレームについて以上の処理が終了すると、プライ
オリティキュー14の先頭に記憶されている概念フレー
ムから順次読み出される。
概念フレームについて以上の処理が終了すると、プライ
オリティキュー14の先頭に記憶されている概念フレー
ムから順次読み出される。
【0061】そして、パーサ2において、単語シソーラ
ス13が参照され、概念フレームの、属性値が記述され
ていないスロットうち、優先順位の最も高いスロットの
属性値に、具体的な単語が記述される。
ス13が参照され、概念フレームの、属性値が記述され
ていないスロットうち、優先順位の最も高いスロットの
属性値に、具体的な単語が記述される。
【0062】即ち、例えば図6に示すように、現在、概
念フレームの属性名「動詞」のスロットの属性値だけに
具体的な単語が記述されている場合、具体的な単語が記
述されていないスロットのうち、最も優先順位の高い、
例えば属性名「行為対象」のスロットの属性値に、(映
像媒体 映像表示機器)に代えて、単語シソーラス13
(図4)の映像媒体および映像表示機器の階層の末端に
記述されている単語(例えば、”レーザーディスク”
や”ビデオテープ”、”レーザーディスクプレー
ヤ”、”ビデオテープ装置”(いずれも図示せず)な
ど)が記述される。
念フレームの属性名「動詞」のスロットの属性値だけに
具体的な単語が記述されている場合、具体的な単語が記
述されていないスロットのうち、最も優先順位の高い、
例えば属性名「行為対象」のスロットの属性値に、(映
像媒体 映像表示機器)に代えて、単語シソーラス13
(図4)の映像媒体および映像表示機器の階層の末端に
記述されている単語(例えば、”レーザーディスク”
や”ビデオテープ”、”レーザーディスクプレー
ヤ”、”ビデオテープ装置”(いずれも図示せず)な
ど)が記述される。
【0063】すると、パーサ2において、属性名「行為
対象」のスロットの属性値に、(映像媒体 映像表示機
器)に代えて記述された単語が音声認識部1に出力さ
れ、入力された音声中からの、その単語のスポッティン
グ処理結果を出力するように出力依頼が行われる。
対象」のスロットの属性値に、(映像媒体 映像表示機
器)に代えて記述された単語が音声認識部1に出力さ
れ、入力された音声中からの、その単語のスポッティン
グ処理結果を出力するように出力依頼が行われる。
【0064】音声認識部1において、パーサ2から単語
が出力されるとともに、その単語のスポッティング結果
の出力依頼があると、その単語名、スコア、並びにその
単語を検出(スポッティング)することができた検出区
間(始点および終点)が、パーサ2に出力される。
が出力されるとともに、その単語のスポッティング結果
の出力依頼があると、その単語名、スコア、並びにその
単語を検出(スポッティング)することができた検出区
間(始点および終点)が、パーサ2に出力される。
【0065】パーサ2において、音声認識部1より出力
された、ワードスポッティングされた単語、その単語の
スコア、およびその単語の検出区間(始点および終点)
が受信され、スコアまたは検出区間が、ワードスポッテ
ィングされた単語を属性値「名前」として有するスロッ
ト(この場合、属性名「行為対象」のスロット(図
5))の属性値「スコア」または「検出区間」にそれぞ
れ記述される。
された、ワードスポッティングされた単語、その単語の
スコア、およびその単語の検出区間(始点および終点)
が受信され、スコアまたは検出区間が、ワードスポッテ
ィングされた単語を属性値「名前」として有するスロッ
ト(この場合、属性名「行為対象」のスロット(図
5))の属性値「スコア」または「検出区間」にそれぞ
れ記述される。
【0066】以上のようにして、属性名「行為対象」の
スロットの属性値「スコア」および「検出区間」が記述
された概念フレームは、プライオリティキュー14に順
次転送されて記憶される。
スロットの属性値「スコア」および「検出区間」が記述
された概念フレームは、プライオリティキュー14に順
次転送されて記憶される。
【0067】以下、同様の処理を繰り返し、概念フレー
ムの属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、および「行為終点」のスロットの
すべての属性値「スコア」および「検出区間」が記述さ
れる。
ムの属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、および「行為終点」のスロットの
すべての属性値「スコア」および「検出区間」が記述さ
れる。
【0068】なお、音声認識部1において、パーサ2か
ら出力された単語が、入力された音声中からスポッティ
ングすることができなかった場合、概念フレームの、対
応するスロットの属性値「スコア」および「検出区間」
には、その旨が記述される。
ら出力された単語が、入力された音声中からスポッティ
ングすることができなかった場合、概念フレームの、対
応するスロットの属性値「スコア」および「検出区間」
には、その旨が記述される。
【0069】属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、並びに「行為終点」の
スロットのすべての属性値「スコア」および「検出区
間」が記述された概念フレームは、プライオリティキュ
ー14から結果キュー15へ転送されて記憶される。
段」、「方法」、「行為起点」、並びに「行為終点」の
スロットのすべての属性値「スコア」および「検出区
間」が記述された概念フレームは、プライオリティキュ
ー14から結果キュー15へ転送されて記憶される。
【0070】結果キュー15では、プライオリティキュ
ー14における場合と同様に、概念フレームが、その属
性名「スコア」(図5)のスロットの属性値、即ち属性
名「動詞」、「行為対象」、「手段」、「方法」、「行
為起点」、または「行為終点」それぞれの属性値「スコ
ア」に記述されたスコアの合計スコアの昇順にソートさ
れて記憶される。
ー14における場合と同様に、概念フレームが、その属
性名「スコア」(図5)のスロットの属性値、即ち属性
名「動詞」、「行為対象」、「手段」、「方法」、「行
為起点」、または「行為終点」それぞれの属性値「スコ
ア」に記述されたスコアの合計スコアの昇順にソートさ
れて記憶される。
【0071】以上の処理を繰り返し、パーサ2におい
て、プライオリティキュー14に記憶されていた概念フ
レームがすべて結果キュー15に転送されて記憶される
と、各概念フレームの属性名「動詞」、「行為対象」、
「手段」、「方法」、「行為起点」、または「行為終
点」のスロットの名詞部分(図5)の属性値に記述され
たそれぞれの単語に付く助詞または助動詞(以下、両方
含めて助詞部分と記載する)(図5)のスポッティング
結果の出力依頼が、音声認識部1に対して行われる。
て、プライオリティキュー14に記憶されていた概念フ
レームがすべて結果キュー15に転送されて記憶される
と、各概念フレームの属性名「動詞」、「行為対象」、
「手段」、「方法」、「行為起点」、または「行為終
点」のスロットの名詞部分(図5)の属性値に記述され
たそれぞれの単語に付く助詞または助動詞(以下、両方
含めて助詞部分と記載する)(図5)のスポッティング
結果の出力依頼が、音声認識部1に対して行われる。
【0072】すると、音声認識部1において、概念フレ
ームの属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」のスロットの
名詞部分(図5)の属性値に記述されたそれぞれの単語
に付く助詞部分(図5)のスポッティング結果(スコア
および検出区間)がパーサ2に出力され、パーサ2にお
いて、そのスポッティング結果が、概念フレームの属性
名「動詞」、「行為対象」、「手段」、「方法」、「行
為起点」、または「行為終点」のスロットの助詞部分
(図5)の属性値「スコア」および「検出区間」に記述
される。
ームの属性名「動詞」、「行為対象」、「手段」、「方
法」、「行為起点」、または「行為終点」のスロットの
名詞部分(図5)の属性値に記述されたそれぞれの単語
に付く助詞部分(図5)のスポッティング結果(スコア
および検出区間)がパーサ2に出力され、パーサ2にお
いて、そのスポッティング結果が、概念フレームの属性
名「動詞」、「行為対象」、「手段」、「方法」、「行
為起点」、または「行為終点」のスロットの助詞部分
(図5)の属性値「スコア」および「検出区間」に記述
される。
【0073】以上の処理後、結果キュー15では、概念
フレームが、その属性名「スコア」(図5)のスロット
の属性値、即ち属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、または「行為終点」の
名詞部分および助詞部分のすべての属性値「スコア」に
記述されたスコアの合計スコアの昇順にソートされて記
憶される。
フレームが、その属性名「スコア」(図5)のスロット
の属性値、即ち属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、または「行為終点」の
名詞部分および助詞部分のすべての属性値「スコア」に
記述されたスコアの合計スコアの昇順にソートされて記
憶される。
【0074】そして、結果キュー15の先頭に記憶され
た概念フレームが、対話管理部3で生成された音声の発
話内容の仮説に基づく、音声認識部1の認識結果の解析
結果として、対話管理部3に出力される。
た概念フレームが、対話管理部3で生成された音声の発
話内容の仮説に基づく、音声認識部1の認識結果の解析
結果として、対話管理部3に出力される。
【0075】パーサ2から解析結果としての概念フレー
ムが出力されると、対話管理部3において、ドメイン知
識辞書4にあらかじめ記憶された対話管理情報が参照さ
れ、パーサ2より出力された概念フレームの意味表現に
対する返事、即ち音声認識部1に入力された音声の発話
内容に対する返事の意味表現が生成されて自然言語生成
部5(図1)に出力される。
ムが出力されると、対話管理部3において、ドメイン知
識辞書4にあらかじめ記憶された対話管理情報が参照さ
れ、パーサ2より出力された概念フレームの意味表現に
対する返事、即ち音声認識部1に入力された音声の発話
内容に対する返事の意味表現が生成されて自然言語生成
部5(図1)に出力される。
【0076】自然言語生成部5(図1)において、対話
管理部3より出力された概念フレームの意味表現に基づ
いて、テキストデータが生成され、テキスト音声合成部
6に出力される。テキスト音声合成部6において、自然
言語生成部5より出力されたテキストデータに基づい
て、合成音声が生成され、内蔵するスピーカから出力さ
れる。
管理部3より出力された概念フレームの意味表現に基づ
いて、テキストデータが生成され、テキスト音声合成部
6に出力される。テキスト音声合成部6において、自然
言語生成部5より出力されたテキストデータに基づい
て、合成音声が生成され、内蔵するスピーカから出力さ
れる。
【0077】同時に、対話管理部3において、パーサ2
より出力された概念フレームの意味表現に対応する動作
をAV機器システム7に行わせるコマンド(制御命令)
がAV機器システム7に出力される。
より出力された概念フレームの意味表現に対応する動作
をAV機器システム7に行わせるコマンド(制御命令)
がAV機器システム7に出力される。
【0078】AV機器システム7においては、対話管理
部3より出力されたコマンドに対応する動作が行われ
る。
部3より出力されたコマンドに対応する動作が行われ
る。
【0079】即ち、パーサ2から対話管理部3に、例え
ば”CD再生”という意味表現の概念フレームが出力さ
れた場合、AV機器システム7においては、CDの再生
が開始され、テキスト音声合成部6からは、”CD再
生”に対する返事としての、例えば”CD再生を開始し
ました”などの合成音が出力されることになる。
ば”CD再生”という意味表現の概念フレームが出力さ
れた場合、AV機器システム7においては、CDの再生
が開始され、テキスト音声合成部6からは、”CD再
生”に対する返事としての、例えば”CD再生を開始し
ました”などの合成音が出力されることになる。
【0080】なお、この後、対話管理部3においては、
ドメイン知識辞書4とともに、パーサ2より出力された
概念フレームの意味表現(上述の場合においては、”C
D再生”)に基づいて、次に発声される音声の発話内容
の仮説がたてられるようになる。
ドメイン知識辞書4とともに、パーサ2より出力された
概念フレームの意味表現(上述の場合においては、”C
D再生”)に基づいて、次に発声される音声の発話内容
の仮説がたてられるようになる。
【0081】即ち、この場合、対話管理部3では、”C
D再生”の次に発声される音声の発話内容の仮説が、例
えば”CD停止”や”CD早送り”などのようにたてら
れる。
D再生”の次に発声される音声の発話内容の仮説が、例
えば”CD停止”や”CD早送り”などのようにたてら
れる。
【0082】以上、本発明の音声認識装置を、AVシス
テム制御装置に適用した場合について説明したが、本発
明は、AVシステム制御装置の他、音声を認識するあら
ゆる装置に適用することができる。
テム制御装置に適用した場合について説明したが、本発
明は、AVシステム制御装置の他、音声を認識するあら
ゆる装置に適用することができる。
【0083】なお、本実施例では、音声認識部1におけ
るワードスポッティングの方法については言及しなかっ
たが、音声認識部1においては、例えば、例えばDPマ
ッチング法やHMM法、特開昭60−249198、特
開昭60−249199、または特開昭60−2523
96などに開示されている音声認識装置の音声認識アル
ゴリズムなど、あらゆる音声認識アルゴリズムに基づい
て、ワードスポッティング処理するようにすることがで
きる。
るワードスポッティングの方法については言及しなかっ
たが、音声認識部1においては、例えば、例えばDPマ
ッチング法やHMM法、特開昭60−249198、特
開昭60−249199、または特開昭60−2523
96などに開示されている音声認識装置の音声認識アル
ゴリズムなど、あらゆる音声認識アルゴリズムに基づい
て、ワードスポッティング処理するようにすることがで
きる。
【0084】さらに、本実施例においては、音声の発話
内容の仮説を、動詞を中心とした意味関係で表現した概
念フレームを用いるようにしたが、これに限られるもの
ではなく、音声の発話内容の仮説を、所定のキーワード
を中心とした意味関係で表現した概念フレームを用いる
ようにすることができる。
内容の仮説を、動詞を中心とした意味関係で表現した概
念フレームを用いるようにしたが、これに限られるもの
ではなく、音声の発話内容の仮説を、所定のキーワード
を中心とした意味関係で表現した概念フレームを用いる
ようにすることができる。
【0085】また、本実施例では、概念フレーム(図
5)の属性名「スコア」のスロットの属性値を、属性名
「動詞」、「行為対象」、「手段」、「方法」、「行為
起点」、または「行為終点」それぞれの属性値「スコ
ア」に記述されたスコアの合計スコアとしたが、これに
限らず、例えば属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、または「行為終点」そ
れぞれの属性値「スコア」と属性値「検出区間」の長さ
(=終点−始点)の積和をとった値とすることができ
る。
5)の属性名「スコア」のスロットの属性値を、属性名
「動詞」、「行為対象」、「手段」、「方法」、「行為
起点」、または「行為終点」それぞれの属性値「スコ
ア」に記述されたスコアの合計スコアとしたが、これに
限らず、例えば属性名「動詞」、「行為対象」、「手
段」、「方法」、「行為起点」、または「行為終点」そ
れぞれの属性値「スコア」と属性値「検出区間」の長さ
(=終点−始点)の積和をとった値とすることができ
る。
【0086】さらに、概念フレーム(図5)の属性名
「スコア」のスロットの属性値を、属性名「動詞」、
「行為対象」、「手段」、「方法」、「行為起点」、ま
たは「行為終点」それぞれの属性値「スコア」と属性値
「検出区間」の長さ(=終点−始点)の積和をとり、そ
の積和値を属性値「検出区間」の長さ(=終点−始点)
の総和で除算した値とすることができる。
「スコア」のスロットの属性値を、属性名「動詞」、
「行為対象」、「手段」、「方法」、「行為起点」、ま
たは「行為終点」それぞれの属性値「スコア」と属性値
「検出区間」の長さ(=終点−始点)の積和をとり、そ
の積和値を属性値「検出区間」の長さ(=終点−始点)
の総和で除算した値とすることができる。
【0087】
【発明の効果】以上の如く、本発明の音声認識装置によ
れば、解析手段に、生成手段により生成された音声の発
話内容の仮説を意味表現するケースフレームに基づい
て、認識手段の音声の認識結果を解析させる。そして、
生成手段に、解析手段の解析結果に基づいて、音声の発
話内容の新たな仮説を生成させる。従って、音声が、語
順に関係なく解析されるので、発話の自由度を大きくす
ることができる。さらに、音声中に含まれる、例えば不
要語などの意味のない単語が無視されるので、音声の認
識率を向上させることができる。
れば、解析手段に、生成手段により生成された音声の発
話内容の仮説を意味表現するケースフレームに基づい
て、認識手段の音声の認識結果を解析させる。そして、
生成手段に、解析手段の解析結果に基づいて、音声の発
話内容の新たな仮説を生成させる。従って、音声が、語
順に関係なく解析されるので、発話の自由度を大きくす
ることができる。さらに、音声中に含まれる、例えば不
要語などの意味のない単語が無視されるので、音声の認
識率を向上させることができる。
【図1】本発明の音声認識装置を応用したAVシステム
制御装置の一実施例の構成を示すブロック図である。
制御装置の一実施例の構成を示すブロック図である。
【図2】図1の実施例のパーサ2のより詳細なブロック
図である。
図である。
【図3】単語辞書12の構成例を示す図である。
【図4】単語シソーラス13の構成例を示す図である。
【図5】概念フレームを示す図である。
【図6】概念フレームを示す図である。
1 音声認識部 2 パーサ 3 対話管理部 4 ドメイン知識辞書 5 自然言語生成部 6 テキスト音声合成部 7 AV機器システム 11 発話仮説パターンテーブル 12 単語辞書 13 単語シソーラス 14 プライオリティキュー 15 結果キュー
Claims (3)
- 【請求項1】 音声を認識する認識手段と、 前記音声の発話内容の仮説をたて、前記仮説を意味表現
するケースフレームを生成する生成手段と、 前記生成手段により生成された前記ケースフレームに基
づいて、前記認識手段の認識結果を解析する解析手段と
を備え、 前記生成手段は、前記解析手段の解析結果に基づいて、
前記音声の発話内容の新たな仮説を生成することを特徴
とする音声認識装置。 - 【請求項2】 前記ケースフレームは、前記生成手段に
より生成される前記仮説を、所定のキーワードを中心と
した意味関係で表現することを特徴とする請求項1に記
載の音声認識装置。 - 【請求項3】 前記ケースフレームは、属性名と属性値
の組で表現されることを特徴とする請求項1または2に
記載の音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4360221A JPH06202688A (ja) | 1992-12-28 | 1992-12-28 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4360221A JPH06202688A (ja) | 1992-12-28 | 1992-12-28 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH06202688A true JPH06202688A (ja) | 1994-07-22 |
Family
ID=18468440
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4360221A Withdrawn JPH06202688A (ja) | 1992-12-28 | 1992-12-28 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH06202688A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07261793A (ja) * | 1994-03-22 | 1995-10-13 | Mitsubishi Electric Corp | 対話処理装置 |
| JPH11237892A (ja) * | 1998-02-24 | 1999-08-31 | Clarion Co Ltd | 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体 |
| EP0902420A3 (de) * | 1997-09-12 | 1999-12-15 | Philips Patentverwaltung GmbH | Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung |
| JP2000293196A (ja) * | 1999-04-08 | 2000-10-20 | Nec Corp | 音声認識装置、方法及びプログラムを記憶した記憶媒体 |
| JP2003534576A (ja) * | 2000-05-23 | 2003-11-18 | トムソン ライセンシング ソシエテ アノニム | 音声命令のシンタックス的及び語義的な分析 |
| JP2004526196A (ja) * | 2001-02-28 | 2004-08-26 | ヴォイス−インサイト | 情報システムにアクセスする自然言語問合せシステム |
| WO2016042814A1 (en) * | 2014-09-18 | 2016-03-24 | Kabushiki Kaisha Toshiba | Interaction apparatus and method |
-
1992
- 1992-12-28 JP JP4360221A patent/JPH06202688A/ja not_active Withdrawn
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07261793A (ja) * | 1994-03-22 | 1995-10-13 | Mitsubishi Electric Corp | 対話処理装置 |
| EP0902420A3 (de) * | 1997-09-12 | 1999-12-15 | Philips Patentverwaltung GmbH | Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung |
| JPH11237892A (ja) * | 1998-02-24 | 1999-08-31 | Clarion Co Ltd | 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体 |
| JP2000293196A (ja) * | 1999-04-08 | 2000-10-20 | Nec Corp | 音声認識装置、方法及びプログラムを記憶した記憶媒体 |
| JP2003534576A (ja) * | 2000-05-23 | 2003-11-18 | トムソン ライセンシング ソシエテ アノニム | 音声命令のシンタックス的及び語義的な分析 |
| JP2004526196A (ja) * | 2001-02-28 | 2004-08-26 | ヴォイス−インサイト | 情報システムにアクセスする自然言語問合せシステム |
| WO2016042814A1 (en) * | 2014-09-18 | 2016-03-24 | Kabushiki Kaisha Toshiba | Interaction apparatus and method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6961705B2 (en) | Information processing apparatus, information processing method, and storage medium | |
| US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
| US7502739B2 (en) | Intonation generation method, speech synthesis apparatus using the method and voice server | |
| Furui | Toward spontaneous speech recognition and understanding | |
| US20080077387A1 (en) | Machine translation apparatus, method, and computer program product | |
| US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
| US20050187769A1 (en) | Method and apparatus for constructing and using syllable-like unit language models | |
| US20030216912A1 (en) | Speech recognition method and speech recognition apparatus | |
| JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
| JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
| JP2002524776A (ja) | 音声認識および自然言語処理を使用した対話型ユーザ・インタフェース | |
| JPH08212228A (ja) | 要約文作成装置および要約音声作成装置 | |
| JPH0922297A (ja) | 音声‐テキスト変換のための方法および装置 | |
| JP2000029492A (ja) | 音声翻訳装置、音声翻訳方法、音声認識装置 | |
| JPH06202688A (ja) | 音声認識装置 | |
| WO2003017251A1 (en) | Prosodic boundary markup mechanism | |
| JP2000172294A (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
| JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
| JP2004347732A (ja) | 言語自動識別方法及び装置 | |
| Veilleux | Computational models of the prosody/syntax mapping for spoken language systems | |
| US20020143525A1 (en) | Method of decoding telegraphic speech | |
| Hess et al. | Prosodic modules for speech recognition and understanding in VERBMOBIL | |
| JP3277579B2 (ja) | 音声認識方法および装置 | |
| Furui et al. | Transcription and distillation of spontaneous speech | |
| JP2001117922A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20000307 |