JP2003263191A - 情報処理装置、情報処理方法、プログラム、記憶媒体 - Google Patents
情報処理装置、情報処理方法、プログラム、記憶媒体Info
- Publication number
- JP2003263191A JP2003263191A JP2002063554A JP2002063554A JP2003263191A JP 2003263191 A JP2003263191 A JP 2003263191A JP 2002063554 A JP2002063554 A JP 2002063554A JP 2002063554 A JP2002063554 A JP 2002063554A JP 2003263191 A JP2003263191 A JP 2003263191A
- Authority
- JP
- Japan
- Prior art keywords
- input
- data
- word
- program
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【課題】 認識精度を著しく下げることなく、簡便な方
法でユーザと装置との自然な対話を行うこと。 【解決手段】 対話制御部108で対話制御用データ格
納部111に記録されている対話制御ルールに従って、
提示する質問、メッセージ内容を決定する(対話制
御)。次に対話制御部108で、次にユーザが入力する
語(入力対象語)を決定し、対話制御に従って提示する
メッセージを作成し、音声合成部105或いは出力装置
104を通じてメッセージを通知する。次に質問に対す
る入力を音声認識部101で音声認識し、認識結果から
入力対象語を参照して入力語を決定する。決定した入力
語に基づいて、対話履歴データの更新、番組候補データ
の更新などを行う。そして対話制御部108は番組候補
データを参照し、予約する番組の確認ができた場合、録
画の予約を行うアプリケーション112を動作させる。
法でユーザと装置との自然な対話を行うこと。 【解決手段】 対話制御部108で対話制御用データ格
納部111に記録されている対話制御ルールに従って、
提示する質問、メッセージ内容を決定する(対話制
御)。次に対話制御部108で、次にユーザが入力する
語(入力対象語)を決定し、対話制御に従って提示する
メッセージを作成し、音声合成部105或いは出力装置
104を通じてメッセージを通知する。次に質問に対す
る入力を音声認識部101で音声認識し、認識結果から
入力対象語を参照して入力語を決定する。決定した入力
語に基づいて、対話履歴データの更新、番組候補データ
の更新などを行う。そして対話制御部108は番組候補
データを参照し、予約する番組の確認ができた場合、録
画の予約を行うアプリケーション112を動作させる。
Description
【0001】
【発明の属する技術分野】本発明は、情報処理装置、情
報処理方法、プログラム、記憶媒体に関するものであ
る。
報処理方法、プログラム、記憶媒体に関するものであ
る。
【0002】
【従来の技術】従来から、音声認識を利用した対話シス
テムは様々な方法や装置が提案されている。対話システ
ムにおいて、音声認識は、 ・ ユーザが対話システムに情報を入力する手段 ・ 対話システムに処理の開始、停止など動作を指示す
る手段 として、キーボードやマウス、ボタンの代わりに利用さ
れる。
テムは様々な方法や装置が提案されている。対話システ
ムにおいて、音声認識は、 ・ ユーザが対話システムに情報を入力する手段 ・ 対話システムに処理の開始、停止など動作を指示す
る手段 として、キーボードやマウス、ボタンの代わりに利用さ
れる。
【0003】以降の説明において、音声認識で用いる音
声認識用文法を『文法』、音声認識用文法に記述された
音声認識の対象となる語を『認識対象語』と表記する。
また、ユーザが入力する際に、対話システムが受け付け
ることが可能な語を『入力対象語』と表記する。これ
は、必ずしも『認識対象語』とは一致しない場合もあ
る。例えば、認識対象語として時間を表す語を記述した
文法を用意し、次の二つの質問 ・ 『何時にしますか?』 ・ 『2時と3時、どちらにしますか?』 をシステムがユーザに問いかけた場合、認識対象語はい
ずれの場合も、全ての時間を表す語になるが、入力対象
語は、前者の場合は認識対象語に一致し、後者の場合
は、『2時』と『3時』のみになる。以下で、テレビ番
組の録画予約を行なう対話の例を図1、図2を用いて説
明する。
声認識用文法を『文法』、音声認識用文法に記述された
音声認識の対象となる語を『認識対象語』と表記する。
また、ユーザが入力する際に、対話システムが受け付け
ることが可能な語を『入力対象語』と表記する。これ
は、必ずしも『認識対象語』とは一致しない場合もあ
る。例えば、認識対象語として時間を表す語を記述した
文法を用意し、次の二つの質問 ・ 『何時にしますか?』 ・ 『2時と3時、どちらにしますか?』 をシステムがユーザに問いかけた場合、認識対象語はい
ずれの場合も、全ての時間を表す語になるが、入力対象
語は、前者の場合は認識対象語に一致し、後者の場合
は、『2時』と『3時』のみになる。以下で、テレビ番
組の録画予約を行なう対話の例を図1、図2を用いて説
明する。
【0004】この例の音声対話では録画する番組を決め
ることが目的であり、ユーザとの対話を繰り返す中で、
録画する番組名が決った段階で対話を終了する。図1の
例では、ユーザがテレビ番組名を正確に覚えていたた
め、システムがユーザに番組名を問い合わせ、ユーザが
入力した番組名の確認を行なった段階で対話が終了して
いる。
ることが目的であり、ユーザとの対話を繰り返す中で、
録画する番組名が決った段階で対話を終了する。図1の
例では、ユーザがテレビ番組名を正確に覚えていたた
め、システムがユーザに番組名を問い合わせ、ユーザが
入力した番組名の確認を行なった段階で対話が終了して
いる。
【0005】一方、図2の例ではユーザが番組名を覚え
ていないために、ユーザが番組に関するその他の情報を
順に入力して番組を決定する場合の音声対話の例であ
る。ユーザが番組名を覚えていなかったため、システム
は他の番組情報に関する質問を行って、録画する番組の
候補を絞り込んでいる。
ていないために、ユーザが番組に関するその他の情報を
順に入力して番組を決定する場合の音声対話の例であ
る。ユーザが番組名を覚えていなかったため、システム
は他の番組情報に関する質問を行って、録画する番組の
候補を絞り込んでいる。
【0006】上記、図1、図2の対話において、音声に
より、ユーザの入力を受け付ける音声対話システムを実
現するためには、次の3つの音声認識を行うことが考え
られる。
より、ユーザの入力を受け付ける音声対話システムを実
現するためには、次の3つの音声認識を行うことが考え
られる。
【0007】(a) 全ての入力対象語を記述した文法
を事前に作成し、全てのユーザの入力に対し同じ文法を
用いて音声認識を行なう。
を事前に作成し、全てのユーザの入力に対し同じ文法を
用いて音声認識を行なう。
【0008】(b) いくつかのカテゴリごとに複数の
文法を事前に作成しておき、各対話において適切な文法
に切り替えて音声認識を行う。
文法を事前に作成しておき、各対話において適切な文法
に切り替えて音声認識を行う。
【0009】(c) 各対話ごとに、入力対象語を認識
対象語とする文法を動的に作成し、作成した文法を用い
て音声認識を行なう。
対象語とする文法を動的に作成し、作成した文法を用い
て音声認識を行なう。
【0010】図2に示した対話例2のような音声対話シ
ステムを(a)の方法で実現する場合、まず、番組名、
チャンネル、時間、確認時の返答(はい/いいえなど)
の全てを認識対象語とした文法を作成し、音声認識する
際に用いる。この方法では、対話ごとに文法の切り替え
を行なわなくて良い反面、一度に音声認識の対象となる
語が多くなり、音声認識誤りが増加する。また、認識対
象語に各対話における入力対象語以外の語が含まれるた
め、入力対象語以外の語に認識を誤る可能性がある。例
えば、図2においてD203でシステムがユーザにチャ
ンネルの入力を促した直後の、D204の『11』とい
うユーザの入力に対してシステムが『11時』など、対
話の流れとしては不自然な語に認識を誤ることがある。
ステムを(a)の方法で実現する場合、まず、番組名、
チャンネル、時間、確認時の返答(はい/いいえなど)
の全てを認識対象語とした文法を作成し、音声認識する
際に用いる。この方法では、対話ごとに文法の切り替え
を行なわなくて良い反面、一度に音声認識の対象となる
語が多くなり、音声認識誤りが増加する。また、認識対
象語に各対話における入力対象語以外の語が含まれるた
め、入力対象語以外の語に認識を誤る可能性がある。例
えば、図2においてD203でシステムがユーザにチャ
ンネルの入力を促した直後の、D204の『11』とい
うユーザの入力に対してシステムが『11時』など、対
話の流れとしては不自然な語に認識を誤ることがある。
【0011】次に、(b)の方法で実現する場合につい
て説明する。例えば、番組名、チャンネル、時間、確認
など、各対話における入力対象語のカテゴリーごとに事
前に文法を作成する。各対話では、システムから質問す
る内容に応じて、文法を切り替えてユーザの入力を音声
認識する。例えば、図2の対話例2の場合、D202の
ユーザ入力に対しては番組名の文法を用い、D204の
ユーザ入力に対してはチャンネルの文法を用いる。この
方法では、(a)の方法に比べ、一度に音声認識を行な
う語が少なくなるため、音声認識誤りが減少することが
期待できる。しかしながら、対話の進行によっては、入
力対象語と文法に記述された認識対象語とが一致しない
(入力対象語以外の認識対象語がある)場合がある。
て説明する。例えば、番組名、チャンネル、時間、確認
など、各対話における入力対象語のカテゴリーごとに事
前に文法を作成する。各対話では、システムから質問す
る内容に応じて、文法を切り替えてユーザの入力を音声
認識する。例えば、図2の対話例2の場合、D202の
ユーザ入力に対しては番組名の文法を用い、D204の
ユーザ入力に対してはチャンネルの文法を用いる。この
方法では、(a)の方法に比べ、一度に音声認識を行な
う語が少なくなるため、音声認識誤りが減少することが
期待できる。しかしながら、対話の進行によっては、入
力対象語と文法に記述された認識対象語とが一致しない
(入力対象語以外の認識対象語がある)場合がある。
【0012】例えば、D201とD207では、どちら
も番組名がユーザから入力されるため、どちらも番組名
を認識対象語とした文法を用いて音声認識を行なう。一
方、入力対象語は、D202とD208で異なり、D2
02の入力では全番組名が入力対象語となるのに対し、
D208ではシステム側が提示した二つの番組名が入力
対象語となる。D208のように、一部の語のみが入力
対象語になる場合に対して、事前に可能性のある全ての
語の組み合わせを記述した文法を作成することも可能で
あるが、組み合わせの数が膨大になり現実的な方法では
ない。
も番組名がユーザから入力されるため、どちらも番組名
を認識対象語とした文法を用いて音声認識を行なう。一
方、入力対象語は、D202とD208で異なり、D2
02の入力では全番組名が入力対象語となるのに対し、
D208ではシステム側が提示した二つの番組名が入力
対象語となる。D208のように、一部の語のみが入力
対象語になる場合に対して、事前に可能性のある全ての
語の組み合わせを記述した文法を作成することも可能で
あるが、組み合わせの数が膨大になり現実的な方法では
ない。
【0013】従って、事前に作成した文法のみを用いる
場合は、入力対象語以外の語が含まれていても、入力対
象語を含む文法を用いて音声認識を行なうほかない。例
えば、D208の入力に対しては、全番組名が認識対象
語となる番組名の文法を用いて音声認識を行なうことに
なる。したがって、入力対象語がシステムが提示した二
つの番組名だけであるにもかかわらず、入力対象語では
ない番組名に認識を誤る可能性がある。
場合は、入力対象語以外の語が含まれていても、入力対
象語を含む文法を用いて音声認識を行なうほかない。例
えば、D208の入力に対しては、全番組名が認識対象
語となる番組名の文法を用いて音声認識を行なうことに
なる。したがって、入力対象語がシステムが提示した二
つの番組名だけであるにもかかわらず、入力対象語では
ない番組名に認識を誤る可能性がある。
【0014】次に、動的に文法を作成する(c)の方法
について説明する。この方法では、入力対象語のみを記
述した音声認識用文法を作成するため、(a)(b)の例
で述べた入力対象語以外の語に認識を誤る可能性は全く
なくなる。また、各対話において、最小限の認識対象語
を記述した文法で音声認識するため、(a)(b)の方法
に比べ、認識誤りも少なくなることが期待できる。
について説明する。この方法では、入力対象語のみを記
述した音声認識用文法を作成するため、(a)(b)の例
で述べた入力対象語以外の語に認識を誤る可能性は全く
なくなる。また、各対話において、最小限の認識対象語
を記述した文法で音声認識するため、(a)(b)の方法
に比べ、認識誤りも少なくなることが期待できる。
【0015】(c)の方法を実現した音声対話システム
が特開平06-332493号公報で開示されている。
特開平06-332493号公報では、対話の進行に応
じて、その対話で入力される語を予測し、動的に音声認
識用文法(辞書)を作成している。上記の例では、シス
テム側が質問する内容が変わるタイミングでユーザの入
力を予測し、文法を動的に作成している。図2の対話例
2のD202、D208の入力に対する文法を例にとる
と、D202の入力に対して全番組を認識対象語とした
文法を用いるのに対し、D208の入力には『ニュース
19』と『クイズ○○』のみを認識対象語とした文法を
用いることになる。
が特開平06-332493号公報で開示されている。
特開平06-332493号公報では、対話の進行に応
じて、その対話で入力される語を予測し、動的に音声認
識用文法(辞書)を作成している。上記の例では、シス
テム側が質問する内容が変わるタイミングでユーザの入
力を予測し、文法を動的に作成している。図2の対話例
2のD202、D208の入力に対する文法を例にとる
と、D202の入力に対して全番組を認識対象語とした
文法を用いるのに対し、D208の入力には『ニュース
19』と『クイズ○○』のみを認識対象語とした文法を
用いることになる。
【0016】文法作成をさらに効率的よく行う方法とし
て、(b)と(c)を組み合わせることも可能である。そ
の場合、入力対象語が固定される入力に対しては文法を
事前に作成しておき、対話の進行状況によって、その都
度入力対象語が変わる入力に対しては動的に文法を作成
する。図2の対話例2を例に説明すると、対話開始直後
に番組名の入力を行うD202や決定した番組名の確認
を行うD210では、いずれも入力が固定される。前者
は、全番組名であり、後者は、確認用の文法に記述され
た語である。したがって、全番組名を認識対象語とした
文法、「はい」「いいえ」を認識対象語とした文法を事
前に作成しておくことができる。一方、D208のよう
に対話の進行状況によって入力対象語が変わる部分につ
いては動的に文法を作成するようにすれば良い。
て、(b)と(c)を組み合わせることも可能である。そ
の場合、入力対象語が固定される入力に対しては文法を
事前に作成しておき、対話の進行状況によって、その都
度入力対象語が変わる入力に対しては動的に文法を作成
する。図2の対話例2を例に説明すると、対話開始直後
に番組名の入力を行うD202や決定した番組名の確認
を行うD210では、いずれも入力が固定される。前者
は、全番組名であり、後者は、確認用の文法に記述され
た語である。したがって、全番組名を認識対象語とした
文法、「はい」「いいえ」を認識対象語とした文法を事
前に作成しておくことができる。一方、D208のよう
に対話の進行状況によって入力対象語が変わる部分につ
いては動的に文法を作成するようにすれば良い。
【0017】
【発明が解決しようとする課題】上記の通り、対話状態
によって事前に作成した文法と動的に作成する文法を使
い分けることにより、効率よく音声認識を行う音声対話
システムが構築できる。しかし、音声対話システムを構
築する際に、既存の音声認識装置(あるいは音声認識プ
ログラム)に音声認識用文法を動的に作成する手段がな
い場合や、動的に文法を作成する手段があった場合でも
記憶領域(メモリ)や処理量の制約で動的に文法を作成
できない場合がある。すなわち、上記(c)の方法が使
えず、(a)または(b)の方法を用いらざるを得ない場
合である。先に述べたように(a),(b)の方法では、
対話の過程で入力対象語以外の語、言い換えるとシステ
ムの質問内容に対する回答として適当でない語に認識を
誤る可能性がある。
によって事前に作成した文法と動的に作成する文法を使
い分けることにより、効率よく音声認識を行う音声対話
システムが構築できる。しかし、音声対話システムを構
築する際に、既存の音声認識装置(あるいは音声認識プ
ログラム)に音声認識用文法を動的に作成する手段がな
い場合や、動的に文法を作成する手段があった場合でも
記憶領域(メモリ)や処理量の制約で動的に文法を作成
できない場合がある。すなわち、上記(c)の方法が使
えず、(a)または(b)の方法を用いらざるを得ない場
合である。先に述べたように(a),(b)の方法では、
対話の過程で入力対象語以外の語、言い換えるとシステ
ムの質問内容に対する回答として適当でない語に認識を
誤る可能性がある。
【0018】また、文法に入力対象語以外の語を含むこ
とによって認識精度が低下するので、入力対象語のみで
構成された文法を用いた場合ならば、正確に認識結果を
得ることが出来る入力に対しても認識を誤る可能性が生
ずる。先に、(a)の方法の説明で、チャンネルの入力
『11』に対して、時間の語『11時』に誤認識する例
を述べたが、仮にこの時の音声認識結果の候補が図3の
ようになっていた場合、チャンネルを表す語だけで構成
された音声認識文法を用いていれば、正しく認識されて
いたことになる。
とによって認識精度が低下するので、入力対象語のみで
構成された文法を用いた場合ならば、正確に認識結果を
得ることが出来る入力に対しても認識を誤る可能性が生
ずる。先に、(a)の方法の説明で、チャンネルの入力
『11』に対して、時間の語『11時』に誤認識する例
を述べたが、仮にこの時の音声認識結果の候補が図3の
ようになっていた場合、チャンネルを表す語だけで構成
された音声認識文法を用いていれば、正しく認識されて
いたことになる。
【0019】以上のように従来の方法では、動的に文法
を作成できない音声認識装置(あるいは音声認識プログ
ラム)を用いると、動的に文法を作成できる音声認識装
置(あるいは音声認識プログラム)を用いた場合に比
べ、 (1) 認識精度が低下する。
を作成できない音声認識装置(あるいは音声認識プログ
ラム)を用いると、動的に文法を作成できる音声認識装
置(あるいは音声認識プログラム)を用いた場合に比
べ、 (1) 認識精度が低下する。
【0020】(2) 入力対象語以外の語が認識された
場合を想定した対話処理を考慮する手間が生じる。
場合を想定した対話処理を考慮する手間が生じる。
【0021】(3) ユーザの観点から見ると、不自然
な対話になる上、認識精度の低下により再入力や認識結
果の修正などの手間が増えるという問題があった。
な対話になる上、認識精度の低下により再入力や認識結
果の修正などの手間が増えるという問題があった。
【0022】本発明は以上の問題に鑑みてなされたもの
であり、認識精度を著しく下げることなく、簡便な方法
でユーザと装置との自然な対話を行うことを目的とす
る。
であり、認識精度を著しく下げることなく、簡便な方法
でユーザと装置との自然な対話を行うことを目的とす
る。
【0023】
【課題を解決するための手段】本発明の目的を達成する
ために、例えば本発明の情報処理装置は以下の構成を備
える。
ために、例えば本発明の情報処理装置は以下の構成を備
える。
【0024】すなわち、複数の項目により特定可能な目
的データを、当該目的データを含む検索対象データ群か
ら検索する情報処理装置であって、前記目的データを特
定する各項目の入力を促すメッセージを所定の順番で通
知する通知手段と、当該通知手段が通知するメッセージ
が示す項目に基づいて、入力対象語を決定する第2の決
定手段と、音声を入力する入力手段と、当該入力手段で
入力された音声を音声認識する音声認識手段と、前記入
力対象語を用いて、当該音声認識手段により認識された
結果から1つを、項目を特定する入力語として決定する
第2の決定手段と、前記第2の決定手段で決定した入力
語を用いて、前記目的データを含む検索対象データ群か
ら候補となるデータ群を検索し、当該検索対象データ群
を当該候補となるデータ群に更新する検索手段とを備
え、当該検索手段により検索した結果のデータの数が1
つとなった場合、当該1つのデータを目的データとする
ことを特徴とする。
的データを、当該目的データを含む検索対象データ群か
ら検索する情報処理装置であって、前記目的データを特
定する各項目の入力を促すメッセージを所定の順番で通
知する通知手段と、当該通知手段が通知するメッセージ
が示す項目に基づいて、入力対象語を決定する第2の決
定手段と、音声を入力する入力手段と、当該入力手段で
入力された音声を音声認識する音声認識手段と、前記入
力対象語を用いて、当該音声認識手段により認識された
結果から1つを、項目を特定する入力語として決定する
第2の決定手段と、前記第2の決定手段で決定した入力
語を用いて、前記目的データを含む検索対象データ群か
ら候補となるデータ群を検索し、当該検索対象データ群
を当該候補となるデータ群に更新する検索手段とを備
え、当該検索手段により検索した結果のデータの数が1
つとなった場合、当該1つのデータを目的データとする
ことを特徴とする。
【0025】本発明の目的を達成するために、例えば本
発明の情報処理方法は以下の構成を備える。
発明の情報処理方法は以下の構成を備える。
【0026】すなわち、複数の項目により特定可能な目
的データを、当該目的データを含む検索対象データ群か
ら検索する情報処理方法であって、前記目的データを特
定する各項目の入力を促すメッセージを所定の順番で通
知する通知工程と、当該通知工程で通知するメッセージ
が示す項目に基づいて、入力対象語を決定する第2の決
定工程と、音声を入力する入力工程と、当該入力工程で
入力された音声を音声認識する音声認識工程と、前記入
力対象語を用いて、当該音声認識工程で認識された結果
から1つを、項目を特定する入力語として決定する第2
の決定工程と、前記第2の決定工程で決定した入力語を
用いて、前記目的データを含む検索対象データ群から候
補となるデータ群を検索し、当該検索対象データ群を当
該候補となるデータ群に更新する検索工程とを備え、当
該検索工程で検索した結果のデータの数が1つとなった
場合、当該1つのデータを目的データとすることを特徴
とする。
的データを、当該目的データを含む検索対象データ群か
ら検索する情報処理方法であって、前記目的データを特
定する各項目の入力を促すメッセージを所定の順番で通
知する通知工程と、当該通知工程で通知するメッセージ
が示す項目に基づいて、入力対象語を決定する第2の決
定工程と、音声を入力する入力工程と、当該入力工程で
入力された音声を音声認識する音声認識工程と、前記入
力対象語を用いて、当該音声認識工程で認識された結果
から1つを、項目を特定する入力語として決定する第2
の決定工程と、前記第2の決定工程で決定した入力語を
用いて、前記目的データを含む検索対象データ群から候
補となるデータ群を検索し、当該検索対象データ群を当
該候補となるデータ群に更新する検索工程とを備え、当
該検索工程で検索した結果のデータの数が1つとなった
場合、当該1つのデータを目的データとすることを特徴
とする。
【0027】
【発明の実施の形態】以下添付図面を参照して、本発明
の情報処理装置を対話装置に適用した好適な実施形態に
従って詳細に説明する。
の情報処理装置を対話装置に適用した好適な実施形態に
従って詳細に説明する。
【0028】[第1の実施形態]本実施形態では、テレ
ビ番組の予約録画をユーザとの対話により行う対話装
置、及び対話方法について説明する。図4は本実施形態
における対話装置の機能構成を示すブロック図である。
ビ番組の予約録画をユーザとの対話により行う対話装
置、及び対話方法について説明する。図4は本実施形態
における対話装置の機能構成を示すブロック図である。
【0029】テレビ番組の予約録画を、例えば図1、図
2に示したような音声対話で行なう場合、その対話の目
的は、録画する番組名を決定することである。本実施形
態における対話装置は、対話の目的である番組名が決ま
るように、ユーザとの対話を行う。このユーザとの対話
を制御するのが、対話制御部108であり、ユーザにど
のような質問をどのような順番で行なうかなどの対話戦
略を決定したり、ユーザから得られた番組情報を基に番
組候補を絞り込む処理などを行なう。
2に示したような音声対話で行なう場合、その対話の目
的は、録画する番組名を決定することである。本実施形
態における対話装置は、対話の目的である番組名が決ま
るように、ユーザとの対話を行う。このユーザとの対話
を制御するのが、対話制御部108であり、ユーザにど
のような質問をどのような順番で行なうかなどの対話戦
略を決定したり、ユーザから得られた番組情報を基に番
組候補を絞り込む処理などを行なう。
【0030】本実施形態では、例えば図5に示すような
番組名、チャンネル、放送時間、ジャンル、出演者な
ど、番組に関する情報が記述された番組データを用い
て、ユーザに録画する番組に関する情報を問い合わせ、
得られた情報を基に上記番組データを検索して番組候補
を絞り込んでいくものとする。絞り込まれた番組候補は
番組候補データとして記録し、次の絞り込みの際の検索
の対象となる。例えば、図5に示した番組データから対
話を通してユーザが録画する番組が7チャンネルの情報
であることがわかった場合、番組データから該当する7
チャンネルで放送する番組を検索し、図6に示す番組候
補データを出力する。
番組名、チャンネル、放送時間、ジャンル、出演者な
ど、番組に関する情報が記述された番組データを用い
て、ユーザに録画する番組に関する情報を問い合わせ、
得られた情報を基に上記番組データを検索して番組候補
を絞り込んでいくものとする。絞り込まれた番組候補は
番組候補データとして記録し、次の絞り込みの際の検索
の対象となる。例えば、図5に示した番組データから対
話を通してユーザが録画する番組が7チャンネルの情報
であることがわかった場合、番組データから該当する7
チャンネルで放送する番組を検索し、図6に示す番組候
補データを出力する。
【0031】また、ユーザにどの項目をどの順番で質問
するかといった対話戦略は、図7に示す対話制御用ルー
ルを用いて決定する。さらに、ユーザとの対話の履歴
を、図8に示すような対話履歴データとして記録するも
のとする。図8は、図2の対話例において、D206の
ユーザの入力が終了した時点での履歴データである。以
上の対話処理に必要なデータである、番組データ、番組
候補データ、対話制御ルール、対話履歴などは対話制御
用データ111格納部に格納する。
するかといった対話戦略は、図7に示す対話制御用ルー
ルを用いて決定する。さらに、ユーザとの対話の履歴
を、図8に示すような対話履歴データとして記録するも
のとする。図8は、図2の対話例において、D206の
ユーザの入力が終了した時点での履歴データである。以
上の対話処理に必要なデータである、番組データ、番組
候補データ、対話制御ルール、対話履歴などは対話制御
用データ111格納部に格納する。
【0032】次に、対話装置からユーザへメッセージを
提示する処理について説明する。対話を進める過程で、
対話装置から行なうユーザへの質問、情報提示などのメ
ッセージの内容は対話制御部108によって決定され、
決定に従ってメッセージ作成部109でメッセージが作
成される。メッセージ作成の際は、あらかじめメッセー
ジデータ格納部110に格納されているメッセージデー
タを参照して作成される。メッセージデータ格納部11
0に格納されているメッセージは、『これから番組予約
を始めます』のような固定のメッセージや『候補の番組
はXXXとXXXがあります。どちらにしますか』のようなメ
ッセージのテンプレートのデータなどが格納されてい
る。
提示する処理について説明する。対話を進める過程で、
対話装置から行なうユーザへの質問、情報提示などのメ
ッセージの内容は対話制御部108によって決定され、
決定に従ってメッセージ作成部109でメッセージが作
成される。メッセージ作成の際は、あらかじめメッセー
ジデータ格納部110に格納されているメッセージデー
タを参照して作成される。メッセージデータ格納部11
0に格納されているメッセージは、『これから番組予約
を始めます』のような固定のメッセージや『候補の番組
はXXXとXXXがあります。どちらにしますか』のようなメ
ッセージのテンプレートのデータなどが格納されてい
る。
【0033】どのメッセージあるいはメッセージテンプ
レートを使うか、また、メッセージのテンプレートの空
欄に当てはめる語を何にするかは、対話制御部108が
制御する。作成されたメッセージは、ディスプレイやプ
リンタなどにより構成されている出力装置104に出力
してもよいし、音声合成部105によって音声合成し、
合成音声として出力しても良い。音声合成に必要なデー
タは音声合成用データ格納部106に格納されており、
システム起動時あるいは音声合成を行なうときなど、必
要に応じて読み出される。
レートを使うか、また、メッセージのテンプレートの空
欄に当てはめる語を何にするかは、対話制御部108が
制御する。作成されたメッセージは、ディスプレイやプ
リンタなどにより構成されている出力装置104に出力
してもよいし、音声合成部105によって音声合成し、
合成音声として出力しても良い。音声合成に必要なデー
タは音声合成用データ格納部106に格納されており、
システム起動時あるいは音声合成を行なうときなど、必
要に応じて読み出される。
【0034】次に、対話におけるユーザからの入力につ
いて説明する。本実施形態の対話装置はユーザからの入
力手段として、キーボード、マウスなどの入力装置10
3および音声認識部101を備えている。入力装置10
3から入力を行った場合、入力した文字列がそのまま入
力対象語として対話制御部108で処理される。一方、
音声認識部101はユーザの音声を認識し、例えば図3
に示したような複数の認識結果候補と各候補のスコアを
出力する。この認識結果候補から対話制御部108が入
力対象語を一つ決定する処理については後述する。な
お、音声認識に必要な音響モデル、文法(辞書)等のデ
ータは音声認識用データ格納部102に格納されてお
り、必要に応じて読み出される。
いて説明する。本実施形態の対話装置はユーザからの入
力手段として、キーボード、マウスなどの入力装置10
3および音声認識部101を備えている。入力装置10
3から入力を行った場合、入力した文字列がそのまま入
力対象語として対話制御部108で処理される。一方、
音声認識部101はユーザの音声を認識し、例えば図3
に示したような複数の認識結果候補と各候補のスコアを
出力する。この認識結果候補から対話制御部108が入
力対象語を一つ決定する処理については後述する。な
お、音声認識に必要な音響モデル、文法(辞書)等のデ
ータは音声認識用データ格納部102に格納されてお
り、必要に応じて読み出される。
【0035】音声認識に用いる文法は、音声対話の目的
や対話の進め方に応じて、事前に作成する。音声対話に
必要な全ての語を記述した一つの文法を用いてもよい
し、データ検索に必要な項目を順次質問するように対話
を制御する場合は、各項目ごとに文法を作成し、対話装
置がユーザに提示する質問に応じて切り替えるようにし
てもよい。文法の切り替えは、対話制御部108が行
う。本実施形態では、番組名、チャンネル、放送時間
帯、番組のジャンル、出演者、確認(はい/いいえ)6
種類の文法を作成し、切り替えながら用いた場合を説明
するが、これに限定されるものではない。
や対話の進め方に応じて、事前に作成する。音声対話に
必要な全ての語を記述した一つの文法を用いてもよい
し、データ検索に必要な項目を順次質問するように対話
を制御する場合は、各項目ごとに文法を作成し、対話装
置がユーザに提示する質問に応じて切り替えるようにし
てもよい。文法の切り替えは、対話制御部108が行
う。本実施形態では、番組名、チャンネル、放送時間
帯、番組のジャンル、出演者、確認(はい/いいえ)6
種類の文法を作成し、切り替えながら用いた場合を説明
するが、これに限定されるものではない。
【0036】次に、フィルタ処理部107について説明
する。フィルタ処理部107は、音声認識部101が出
力する音声認識結果の候補のうち、特定の候補のスコア
にペナルティを加えたり、特定の候補を認識結果候補か
ら除外したりする。フィルタ処理を行なうかどうかの判
断およびフィルタ処理を行なう場合に、ペナルティ、あ
るいは除外の対象とする候補は対話制御部108が決定
する。ペナルティあるいは除外の対象となる候補の選択
方法については後に詳細に述べる。
する。フィルタ処理部107は、音声認識部101が出
力する音声認識結果の候補のうち、特定の候補のスコア
にペナルティを加えたり、特定の候補を認識結果候補か
ら除外したりする。フィルタ処理を行なうかどうかの判
断およびフィルタ処理を行なう場合に、ペナルティ、あ
るいは除外の対象とする候補は対話制御部108が決定
する。ペナルティあるいは除外の対象となる候補の選択
方法については後に詳細に述べる。
【0037】アプリケーション112は、音声対話が完
了した際に対話の結果に基づいて動作するアプリケーシ
ョンで、本実施形態では対話の結果得られたテレビ番組
の録画の予約を行なう装置あるいはプログラムである。
了した際に対話の結果に基づいて動作するアプリケーシ
ョンで、本実施形態では対話の結果得られたテレビ番組
の録画の予約を行なう装置あるいはプログラムである。
【0038】以上、各部の役割について説明したが、音
声対話システム全体の制御については、対話制御部10
8が行なうものとする。
声対話システム全体の制御については、対話制御部10
8が行なうものとする。
【0039】以上の構成を備える図4に示した対話装置
の動作を図9を用いて更に詳細に説明する。図9は本実
施形態における対話装置が行う処理のフローチャートで
ある。従来方法と異なる工程であるステップS203、
ステップS207、ステップS208、ステップS21
0,ステップS214は太字で示している。
の動作を図9を用いて更に詳細に説明する。図9は本実
施形態における対話装置が行う処理のフローチャートで
ある。従来方法と異なる工程であるステップS203、
ステップS207、ステップS208、ステップS21
0,ステップS214は太字で示している。
【0040】本装置を起動すると、まず対話開始のメッ
セージをユーザに通知する(ステップS201)。対話
制御部108により制御されたメッセージ作成部109
はメッセージデータ格納部110から対話開始のメッセ
ージを選択し、選択したメッセージを出力装置104、
もしくは、音声合成部105に出力する。これにより、
ディスプレイやプリンタから文字として、もしくは音声
合成部105から音声としてユーザに対話開始のメッセ
ージを通知する。
セージをユーザに通知する(ステップS201)。対話
制御部108により制御されたメッセージ作成部109
はメッセージデータ格納部110から対話開始のメッセ
ージを選択し、選択したメッセージを出力装置104、
もしくは、音声合成部105に出力する。これにより、
ディスプレイやプリンタから文字として、もしくは音声
合成部105から音声としてユーザに対話開始のメッセ
ージを通知する。
【0041】続いて行なわれるステップS202〜ステ
ップS211の処理は、対話の目的が決定されるまで繰
り返し行なわれる。まず、対話制御部108で対話制御
用データ格納部111に記録されている各種データに基
づき対話制御を行う(ステップS202)。本実施形態
では、対話制御用データ格納部111に格納された対話
制御ルールに従って、番組データ、番組候補データ、対
話履歴データを参照し、ユーザに提示する質問、メッセ
ージ内容を決定する。図7に示した対話制御用ルールを
用いて、 (1)対話開始直後の場合 (2)いくつかの対話を経た後、対話履歴データが図1
0(A)に示すデータとなっており、番組候補データが
図10(B)に示すデータとなっている場合 のそれぞれにおける対話制御を以下で説明する。
ップS211の処理は、対話の目的が決定されるまで繰
り返し行なわれる。まず、対話制御部108で対話制御
用データ格納部111に記録されている各種データに基
づき対話制御を行う(ステップS202)。本実施形態
では、対話制御用データ格納部111に格納された対話
制御ルールに従って、番組データ、番組候補データ、対
話履歴データを参照し、ユーザに提示する質問、メッセ
ージ内容を決定する。図7に示した対話制御用ルールを
用いて、 (1)対話開始直後の場合 (2)いくつかの対話を経た後、対話履歴データが図1
0(A)に示すデータとなっており、番組候補データが
図10(B)に示すデータとなっている場合 のそれぞれにおける対話制御を以下で説明する。
【0042】(1) 音声対話を開始した直後は、図8
に示した対話履歴データは全項目が未入力の状態であ
り、録画する番組の絞り込みが行なわれていないため、
番組候補データは図5に示した番組データに記述されて
いる全ての番組が番組候補として残っている状態であ
る。
に示した対話履歴データは全項目が未入力の状態であ
り、録画する番組の絞り込みが行なわれていないため、
番組候補データは図5に示した番組データに記述されて
いる全ての番組が番組候補として残っている状態であ
る。
【0043】図7に示した対話制御ルールに従うと、ル
ール5が適用され、番組名を問い合わせる質問を行なう
よう対話制御が行なわれる。
ール5が適用され、番組名を問い合わせる質問を行なう
よう対話制御が行なわれる。
【0044】(2) 図10(A)、(B)にそれぞれ示
した対話履歴データ、番組候補データを参照して図7に
示した対話制御ルールに従うと、残りの番組候補数が2
のため、ルール4が適用され、残っている二つの番組名
をユーザに提示し、ユーザに選択を促すよう対話制御が
行なわれる。
した対話履歴データ、番組候補データを参照して図7に
示した対話制御ルールに従うと、残りの番組候補数が2
のため、ルール4が適用され、残っている二つの番組名
をユーザに提示し、ユーザに選択を促すよう対話制御が
行なわれる。
【0045】次に、ステップS203で、ステップS2
02で行なった対話制御に基づき、対話制御部108
で、次にユーザが入力する語(入力対象語)を決定する
(ステップS203)。入力対象語は、ステップS20
2で決定されたユーザに提示する質問内容と対話制御用
データ格納部111に格納されている番組候補データか
ら例えば次のようにして決定することができる。
02で行なった対話制御に基づき、対話制御部108
で、次にユーザが入力する語(入力対象語)を決定する
(ステップS203)。入力対象語は、ステップS20
2で決定されたユーザに提示する質問内容と対話制御用
データ格納部111に格納されている番組候補データか
ら例えば次のようにして決定することができる。
【0046】・ 予約する番組の確認を行なう場合は、
『はい』『いいえ』 ・ 番組に関してある項目の質問を行なう場合は、番組
候補データの該当する項目に記述された語を入力対象語
とする。
『はい』『いいえ』 ・ 番組に関してある項目の質問を行なう場合は、番組
候補データの該当する項目に記述された語を入力対象語
とする。
【0047】以上のような入力対象語の決定方法は、対
話制御用ルールに記述しておいてもよい。
話制御用ルールに記述しておいてもよい。
【0048】上記ルールに従って、先の(1)(2)の
対話を例に入力対象語が決定される処理を説明する。
対話を例に入力対象語が決定される処理を説明する。
【0049】(1) ユーザに番組名の項目を質問する
ことが決定されており、番組候補データの番組名の項目
には全ての番組名があるため、全番組名が入力対象語と
なる。
ことが決定されており、番組候補データの番組名の項目
には全ての番組名があるため、全番組名が入力対象語と
なる。
【0050】(2) ユーザに番組名の項目を質問する
ことが決定されており、残っている番組候補データの番
組名は、『クイズ○○』と『クイズ△△』であるため、
入力対象語はこの二つの番組名となる。
ことが決定されており、残っている番組候補データの番
組名は、『クイズ○○』と『クイズ△△』であるため、
入力対象語はこの二つの番組名となる。
【0051】また、仮に図10(B)の番組候補が残っ
ている場合に、チャンネルを質問することが決定された
場合は、残っている番組候補の『チャンネル』の項目の
『11』と『31』が入力対象語となる。
ている場合に、チャンネルを質問することが決定された
場合は、残っている番組候補の『チャンネル』の項目の
『11』と『31』が入力対象語となる。
【0052】次に対話制御部108は、ステップS20
2で決定した対話制御方法にしたがって、メッセージ作
成部109でメッセージデータ格納部110に格納され
た固定メッセージやメッセージのテンプレートを用いて
ユーザに提示するメッセージを作成し、音声合成部10
5あるいは出力装置104を通じてユーザに質問メッセ
ージを通知する(ステップS204)。
2で決定した対話制御方法にしたがって、メッセージ作
成部109でメッセージデータ格納部110に格納され
た固定メッセージやメッセージのテンプレートを用いて
ユーザに提示するメッセージを作成し、音声合成部10
5あるいは出力装置104を通じてユーザに質問メッセ
ージを通知する(ステップS204)。
【0053】次に、対話装置から通知した質問に対する
ユーザの入力(ステップS205)に対して、音声認識
部101で音声認識する(ステップS206)。音声認
識の際に用いる文法は、番組を質問した場合は、『番組
名』用の文法、チャンネルを質問した場合は『チャンネ
ル』用の文法という具合いに通知したメッセージの内容
に応じて適切なものを選択する。先の例の(A)(B)の
場合は、『番組名』用の文法で音声認識を行なう。
ユーザの入力(ステップS205)に対して、音声認識
部101で音声認識する(ステップS206)。音声認
識の際に用いる文法は、番組を質問した場合は、『番組
名』用の文法、チャンネルを質問した場合は『チャンネ
ル』用の文法という具合いに通知したメッセージの内容
に応じて適切なものを選択する。先の例の(A)(B)の
場合は、『番組名』用の文法で音声認識を行なう。
【0054】次に、音声認識して得られた複数の認識結
果候補に対して、ステップS203で決定した入力対象
語を参照してフィルタ処理を行なう(ステップS20
7)。具体的には、入力対象語以外を認識結果候補から
除外する。あるいは、別の方法として入力対象語以外の
認識結果候補のスコアにペナルティを与えてもよい。図
11を用いて、フィルタ処理について説明する。
果候補に対して、ステップS203で決定した入力対象
語を参照してフィルタ処理を行なう(ステップS20
7)。具体的には、入力対象語以外を認識結果候補から
除外する。あるいは、別の方法として入力対象語以外の
認識結果候補のスコアにペナルティを与えてもよい。図
11を用いて、フィルタ処理について説明する。
【0055】『クイズ○○』および『クイズ△△』が入
力対象語の時に、ユーザの入力を『番組名』の文法で音
声認識した場合の音声認識結果が図11(A)のように
なった場合に、入力対象語以外の認識結果候補を除外す
ると図11(B)のようになり、ペナルティとして、入
力対象語以外の認識結果候補のスコアから例えば200
を差し引いた場合は図11(C)のようになる。
力対象語の時に、ユーザの入力を『番組名』の文法で音
声認識した場合の音声認識結果が図11(A)のように
なった場合に、入力対象語以外の認識結果候補を除外す
ると図11(B)のようになり、ペナルティとして、入
力対象語以外の認識結果候補のスコアから例えば200
を差し引いた場合は図11(C)のようになる。
【0056】対話制御部108は、フィルタ処理を行な
った認識結果候補のうち最もスコアの大きいものをユー
ザから入力された入力対象語として選択する(ステップ
S208)。図11(B)、図11(C)の例では、どち
らの場合も、『クイズ○○』のスコアが最も大きいの
で、『クイズ○○』をユーザの入力語として選択する。
った認識結果候補のうち最もスコアの大きいものをユー
ザから入力された入力対象語として選択する(ステップ
S208)。図11(B)、図11(C)の例では、どち
らの場合も、『クイズ○○』のスコアが最も大きいの
で、『クイズ○○』をユーザの入力語として選択する。
【0057】なお、ステップS205においてユーザの
入力が入力装置103を用いて行われた場合、ステップ
S206、S207においては何も行われない。
入力が入力装置103を用いて行われた場合、ステップ
S206、S207においては何も行われない。
【0058】続いて、対話制御部108において、選択
された入力語に基づいて、対話履歴データの更新、番組
候補データの更新などを行なう(ステップS209)。
例えば、ステップS204で、ユーザにチャンネルを問
い合わせ、ステップS208で選択された入力語が『1
1』だった場合、番組候補データを検索してチャンネル
が『11』に該当する番組を抽出し、その結果を用いて
番組候補データを更新する。また、対話履歴データのチ
ャンネル項目を『11』に更新する。
された入力語に基づいて、対話履歴データの更新、番組
候補データの更新などを行なう(ステップS209)。
例えば、ステップS204で、ユーザにチャンネルを問
い合わせ、ステップS208で選択された入力語が『1
1』だった場合、番組候補データを検索してチャンネル
が『11』に該当する番組を抽出し、その結果を用いて
番組候補データを更新する。また、対話履歴データのチ
ャンネル項目を『11』に更新する。
【0059】ここで対話制御部108は番組候補データ
を参照して、残りの番組の数が0であるか否かを判断す
る(ステップS210)。残りの番組の数が0である場
合には処理をステップS214に進め、メッセージ作成
部109はメッセージデータ格納部110に格納されて
いる固定メッセージデータを用いて該当する番組がない
ことを示すメッセージを読み出して(メッセージ作成作
成)、出力装置104,もしくは音声合成部106に対
して出力し、ユーザに通知する(ステップS214)。
を参照して、残りの番組の数が0であるか否かを判断す
る(ステップS210)。残りの番組の数が0である場
合には処理をステップS214に進め、メッセージ作成
部109はメッセージデータ格納部110に格納されて
いる固定メッセージデータを用いて該当する番組がない
ことを示すメッセージを読み出して(メッセージ作成作
成)、出力装置104,もしくは音声合成部106に対
して出力し、ユーザに通知する(ステップS214)。
【0060】一方、残りの番組の数が0でない場合、処
理をステップS211にすすめる。本実施形態では、最
終的に予約する番組の確認ができた場合(残りの番組の
数=1)に音声対話の目的が達成されたものと判断して
(ステップS210)、決定された番組を録画するよう
に番組録画の予約を行なうアプリケーション112を動
作させる(ステップS210)。そして対話開始時と同
様に、メッセージ作成部109はメッセージデータ格納
部110に格納された固定メッセージを読み出して対話
終了のメッセージを作成し、出力装置104,もしくは
音声合成部106に対して出力し、ユーザに通知する
(ステップS211)。
理をステップS211にすすめる。本実施形態では、最
終的に予約する番組の確認ができた場合(残りの番組の
数=1)に音声対話の目的が達成されたものと判断して
(ステップS210)、決定された番組を録画するよう
に番組録画の予約を行なうアプリケーション112を動
作させる(ステップS210)。そして対話開始時と同
様に、メッセージ作成部109はメッセージデータ格納
部110に格納された固定メッセージを読み出して対話
終了のメッセージを作成し、出力装置104,もしくは
音声合成部106に対して出力し、ユーザに通知する
(ステップS211)。
【0061】予約する番組が決定されていない場合は、
音声対話の目的が達成されるまで、再度ステップS20
2〜ステップS210の処理を繰り返し行う。
音声対話の目的が達成されるまで、再度ステップS20
2〜ステップS210の処理を繰り返し行う。
【0062】以上、説明したように本実施形態によれ
ば、得られた認識結果候補のうち、入力対象語以外の認
識結果候補に対して、その候補を認識結果候補から除外
あるいはその候補のスコアにペナルティを与えるフィル
タ処理を行い、フィルタ処理後の認識結果候補の中から
スコアの最も大きい候補をユーザの入力語として選択す
ることにより、入力対象語のみを認識対象とした文法を
用いて音声認識を行った場合と同等の認識性能を得られ
る。従って、動的に文法を作成する手段を用いずに音声
認識を行なう音声対話システムであっても、動的に文法
を作成する手段を用いて音声認識を行なう音声対話シス
テムと同等の処理が可能となる。
ば、得られた認識結果候補のうち、入力対象語以外の認
識結果候補に対して、その候補を認識結果候補から除外
あるいはその候補のスコアにペナルティを与えるフィル
タ処理を行い、フィルタ処理後の認識結果候補の中から
スコアの最も大きい候補をユーザの入力語として選択す
ることにより、入力対象語のみを認識対象とした文法を
用いて音声認識を行った場合と同等の認識性能を得られ
る。従って、動的に文法を作成する手段を用いずに音声
認識を行なう音声対話システムであっても、動的に文法
を作成する手段を用いて音声認識を行なう音声対話シス
テムと同等の処理が可能となる。
【0063】さらに、本実施形態によれば、図9のステ
ップS203において、入力対象語はステップS202
の対話制御によって決定するユーザへの質問内容に応じ
て決定される。したがって、項目をあらかじめ決められ
た順番で質問していくような対話だけでなく、ユーザの
応答によって質問の順番が変化するような、対話の流れ
があらかじめ規定されていないような対話においても、
入力対象語を決定できるという特徴がある。
ップS203において、入力対象語はステップS202
の対話制御によって決定するユーザへの質問内容に応じ
て決定される。したがって、項目をあらかじめ決められ
た順番で質問していくような対話だけでなく、ユーザの
応答によって質問の順番が変化するような、対話の流れ
があらかじめ規定されていないような対話においても、
入力対象語を決定できるという特徴がある。
【0064】本実施形態の図9のステップS207にお
いて、フィルタ処理として入力対象語以外の認識結果候
補のスコアにペナルティを与える方法として、スコアか
ら一定値を差し引く場合を説明したが、これに限るもの
ではない。たとえば、ペナルティとして、スコアに一定
値を乗算することでスコアを下げることも可能である。
いて、フィルタ処理として入力対象語以外の認識結果候
補のスコアにペナルティを与える方法として、スコアか
ら一定値を差し引く場合を説明したが、これに限るもの
ではない。たとえば、ペナルティとして、スコアに一定
値を乗算することでスコアを下げることも可能である。
【0065】本実施形態の図9のステップS204のメ
ッセージ作成において、ユーザに提示する質問は、ユー
ザが入力する際に、どのような語が入力対象語となって
いるのかが分かり易いメッセージを作成するのが望まし
い。例えば、入力対象語の数が少ない場合は、入力対象
語を明示的にユーザに通知するようなメッセージを作成
する。入力対象語が、『12時』『13時』『14時』
の場合に、『12時、13時、14時の番組がありま
す。何時の番組ですか?』のように具体的に入力対象語
を提示する。
ッセージ作成において、ユーザに提示する質問は、ユー
ザが入力する際に、どのような語が入力対象語となって
いるのかが分かり易いメッセージを作成するのが望まし
い。例えば、入力対象語の数が少ない場合は、入力対象
語を明示的にユーザに通知するようなメッセージを作成
する。入力対象語が、『12時』『13時』『14時』
の場合に、『12時、13時、14時の番組がありま
す。何時の番組ですか?』のように具体的に入力対象語
を提示する。
【0066】本実施形態によれば、図9のステップS2
06において、音声認識部101が出力する認識結果の
候補数を上位5候補を出力する場合で説明したが、これ
に限るものではない。また、出力する認識結果の候補数
を、用いる文法に含まれる認識対象語の語数、入力対象
語の語数を考慮して動的に変更してもよい。例えば、認
識対象語の語数が入力対象語の語数に比べ多い場合は、
出力する認識結果の候補数を増やし、その逆の場合は認
識結果の候補数を減らすことも可能である。
06において、音声認識部101が出力する認識結果の
候補数を上位5候補を出力する場合で説明したが、これ
に限るものではない。また、出力する認識結果の候補数
を、用いる文法に含まれる認識対象語の語数、入力対象
語の語数を考慮して動的に変更してもよい。例えば、認
識対象語の語数が入力対象語の語数に比べ多い場合は、
出力する認識結果の候補数を増やし、その逆の場合は認
識結果の候補数を減らすことも可能である。
【0067】本実施形態によれば、図9のステップS2
03で入力対象語を決定する際に、ユーザから入力され
る語そのものをステップS203で決定する場合を説明
したが、これに限るものではない。例えば、ステップS
203では、入力される語の属性を決めておき、ステッ
プS207でこの属性と属性が一致しない認識結果候補
に対して候補の除外、ペナルティ付与を行なうことも可
能である。郵便番号、電話番号、携帯電話番号など連続
数字を入力する音声対話システムを例に説明する。これ
らの連続数字を認識する際に、桁数が固定されていない
連続数字用の文法を用いると、様々な桁数の認識結果候
補が出力される。例えば、『1234』と入力した場合
でも、『123』『12341』など比較的似た結果が
多数出力されることが予想される。
03で入力対象語を決定する際に、ユーザから入力され
る語そのものをステップS203で決定する場合を説明
したが、これに限るものではない。例えば、ステップS
203では、入力される語の属性を決めておき、ステッ
プS207でこの属性と属性が一致しない認識結果候補
に対して候補の除外、ペナルティ付与を行なうことも可
能である。郵便番号、電話番号、携帯電話番号など連続
数字を入力する音声対話システムを例に説明する。これ
らの連続数字を認識する際に、桁数が固定されていない
連続数字用の文法を用いると、様々な桁数の認識結果候
補が出力される。例えば、『1234』と入力した場合
でも、『123』『12341』など比較的似た結果が
多数出力されることが予想される。
【0068】一方、これらの数字は桁数が決っているも
のも多く、例えば、郵便番号なら7桁、電話番号なら1
0桁、携帯電話番号なら11桁、クレジットカード番号
なら16桁となる。ユーザが入力した数字の桁数がわか
っていれば、ステップS207のフィルタ処理で、桁数
の異なる認識結果候補を排除することができる。このよ
うな場合、ステップS203で決定されるのは入力対象
語そのものではなく、入力対象語の属性である方が望ま
しい。また、別の例として、電話番号を認識した結果に
対して、これより先にすでに確定している情報、例えば
住所から予測された市外局番に相当する部分を使ってフ
ィルタ処理を行なうといったことも考えられる。
のも多く、例えば、郵便番号なら7桁、電話番号なら1
0桁、携帯電話番号なら11桁、クレジットカード番号
なら16桁となる。ユーザが入力した数字の桁数がわか
っていれば、ステップS207のフィルタ処理で、桁数
の異なる認識結果候補を排除することができる。このよ
うな場合、ステップS203で決定されるのは入力対象
語そのものではなく、入力対象語の属性である方が望ま
しい。また、別の例として、電話番号を認識した結果に
対して、これより先にすでに確定している情報、例えば
住所から予測された市外局番に相当する部分を使ってフ
ィルタ処理を行なうといったことも考えられる。
【0069】また、本実施形態によれば、ステップS2
02において、対話制御ルールに従って対話制御を行な
う場合を説明したが、これに限るものではない。例え
ば、対話制御を行なう際に、全ての項目について、その
項目を質問した場合の入力対象語の数を計算し、最も入
力対象語が少なくなるような質問をするという対話制御
を行なうことも可能である。
02において、対話制御ルールに従って対話制御を行な
う場合を説明したが、これに限るものではない。例え
ば、対話制御を行なう際に、全ての項目について、その
項目を質問した場合の入力対象語の数を計算し、最も入
力対象語が少なくなるような質問をするという対話制御
を行なうことも可能である。
【0070】また本実施形態では対話装置の使用例とし
て番組の録画予約を用いたが、これに限定されるもので
はない。
て番組の録画予約を用いたが、これに限定されるもので
はない。
【0071】[他の実施形態]本発明の目的は、前述し
た実施形態の機能を実現するソフトウェアのプログラム
コードを記録した記憶媒体(または記録媒体)を、シス
テムあるいは装置に供給し、そのシステムあるいは装置
のコンピュータ(またはCPUやMPU)が記憶媒体に格納さ
れたプログラムコードを読み出し実行することによって
も、達成されることは言うまでもない。この場合、記憶
媒体から読み出されたプログラムコード自体が前述した
実施形態の機能を実現することになり、そのプログラム
コードを記憶した記憶媒体は本発明を構成することにな
る。また、コンピュータが読み出したプログラムコード
を実行することにより、前述した実施形態の機能が実現
されるだけでなく、そのプログラムコードの指示に基づ
き、コンピュータ上で稼働しているオペレーティングシ
ステム(OS)などが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
た実施形態の機能を実現するソフトウェアのプログラム
コードを記録した記憶媒体(または記録媒体)を、シス
テムあるいは装置に供給し、そのシステムあるいは装置
のコンピュータ(またはCPUやMPU)が記憶媒体に格納さ
れたプログラムコードを読み出し実行することによって
も、達成されることは言うまでもない。この場合、記憶
媒体から読み出されたプログラムコード自体が前述した
実施形態の機能を実現することになり、そのプログラム
コードを記憶した記憶媒体は本発明を構成することにな
る。また、コンピュータが読み出したプログラムコード
を実行することにより、前述した実施形態の機能が実現
されるだけでなく、そのプログラムコードの指示に基づ
き、コンピュータ上で稼働しているオペレーティングシ
ステム(OS)などが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
【0072】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0073】
【発明の効果】以上説明したように、本発明によって、
認識精度を著しく下げることなく、簡便な方法でユーザ
と装置との自然な対話を行うことができる。
認識精度を著しく下げることなく、簡便な方法でユーザ
と装置との自然な対話を行うことができる。
【図1】テレビ番組の録画予約を行う対話の例を示す図
である。
である。
【図2】テレビ番組の録画予約を行う場合の例を示す図
である。
である。
【図3】音声認識結果の候補の例を示す図である。
【図4】本発明の第1の実施形態における対話装置の機
能構成を示すブロック図である。
能構成を示すブロック図である。
【図5】番組データを示す図である。
【図6】番組候補データを示す図である。
【図7】対話制御用ルールを示す図である。
【図8】図2に示した対話の例において、S206のユ
ーザの入力が終了した時点での履歴データを示す図であ
る。
ーザの入力が終了した時点での履歴データを示す図であ
る。
【図9】本発明の実施形態における対話装置が行う処理
のフローチャートである。
のフローチャートである。
【図10】(A)は対話履歴データの例を示す図であ
り、(B)は番組候補データの例を示す図である。
り、(B)は番組候補データの例を示す図である。
【図11】フィルタ処理を説明する図である。
Claims (11)
- 【請求項1】 複数の項目により特定可能な目的データ
を、当該目的データを含む検索対象データ群から検索す
る情報処理装置であって、 前記目的データを特定する各項目の入力を促すメッセー
ジを所定の順番で通知する通知手段と、 当該通知手段が通知するメッセージが示す項目に基づい
て、入力対象語を決定する第2の決定手段と、 音声を入力する入力手段と、 当該入力手段で入力された音声を音声認識する音声認識
手段と、 前記入力対象語を用いて、当該音声認識手段により認識
された結果から1つを、項目を特定する入力語として決
定する第2の決定手段と、 前記第2の決定手段で決定した入力語を用いて、前記目
的データを含む検索対象データ群から候補となるデータ
群を検索し、当該検索対象データ群を当該候補となるデ
ータ群に更新する検索手段とを備え、 当該検索手段により検索した結果のデータの数が1つと
なった場合、当該1つのデータを目的データとすること
を特徴とする情報処理装置。 - 【請求項2】 前記通知手段は、前記目的データを特定
する各項目を入力する順番を示す制御データに基づい
て、通知する項目のメッセージを作成し、通知すること
を特徴とする請求項1に記載の情報処理装置。 - 【請求項3】 更に、音声認識のための文法のデータを
格納する格納手段を備えることを特徴とする請求項1ま
たは2に記載の情報処理装置。 - 【請求項4】 前記格納手段は、前記文法のデータを項
目毎の文法データに分けて格納していることを特徴とす
る請求項3に記載の情報処理装置。 - 【請求項5】 前記第2の決定手段は、前記音声認識手
段による認識結果から、前記入力対象語を除く語を除外
し、更に最も大きいスコアを有する語を、項目を特定す
る入力語として決定することを特徴とする請求項1乃至
4のいずれか1項に記載の情報処理装置。 - 【請求項6】 前記第2の決定手段は、前記音声認識手
段による認識結果において前記入力対象語を除く語のス
コアを下げ、更に最も大きいスコアを有する語を、項目
を特定する入力語として決定することを特徴とする請求
項1乃至4のいずれか1項に記載の情報処理装置。 - 【請求項7】 前記検索手段により検索した結果のデー
タの数が所定数以下となった場合、前記通知手段は更に
当該所定数以下のデータから選択する旨を示すメッセー
ジを通知することを特徴とする請求項1乃至6のいずれ
か1項に記載の情報処理装置。 - 【請求項8】 複数の項目により特定可能な目的データ
を、当該目的データを含む検索対象データ群から検索す
る情報処理方法であって、 前記目的データを特定する各項目の入力を促すメッセー
ジを所定の順番で通知する通知工程と、 当該通知工程で通知するメッセージが示す項目に基づい
て、入力対象語を決定する第2の決定工程と、 音声を入力する入力工程と、 当該入力工程で入力された音声を音声認識する音声認識
工程と、 前記入力対象語を用いて、当該音声認識工程で認識され
た結果から1つを、項目を特定する入力語として決定す
る第2の決定工程と、 前記第2の決定工程で決定した入力語を用いて、前記目
的データを含む検索対象データ群から候補となるデータ
群を検索し、当該検索対象データ群を当該候補となるデ
ータ群に更新する検索工程とを備え、 当該検索工程で検索した結果のデータの数が1つとなっ
た場合、当該1つのデータを目的データとすることを特
徴とする情報処理方法。 - 【請求項9】 コンピュータに読み込ませることで、当
該コンピュータを請求項1乃至7のいずれか1項に記載
の情報処理装置として機能させることを特徴とするプロ
グラム。 - 【請求項10】 請求項8に記載の情報処理方法を実行
するプログラム。 - 【請求項11】 請求項9または10に記載のプログラ
ムを格納し、コンピュータが読みとり可能な記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002063554A JP2003263191A (ja) | 2002-03-08 | 2002-03-08 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002063554A JP2003263191A (ja) | 2002-03-08 | 2002-03-08 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003263191A true JP2003263191A (ja) | 2003-09-19 |
Family
ID=29196768
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002063554A Withdrawn JP2003263191A (ja) | 2002-03-08 | 2002-03-08 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003263191A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109994112A (zh) * | 2019-03-12 | 2019-07-09 | 广东美的制冷设备有限公司 | 语音识别设备的控制方法、服务器、语音识别设备及介质 |
-
2002
- 2002-03-08 JP JP2002063554A patent/JP2003263191A/ja not_active Withdrawn
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109994112A (zh) * | 2019-03-12 | 2019-07-09 | 广东美的制冷设备有限公司 | 语音识别设备的控制方法、服务器、语音识别设备及介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4604178B2 (ja) | 音声認識装置及び方法ならびにプログラム | |
| US8949133B2 (en) | Information retrieving apparatus | |
| CN100559463C (zh) | 声音识别用辞典编制装置和声音识别装置 | |
| US5634083A (en) | Method of and device for determining words in a speech signal | |
| CN105659316A (zh) | 对话控制装置和对话控制方法 | |
| JP2008203559A (ja) | 対話装置及び方法 | |
| JP2000122691A (ja) | 綴り字読み式音声発話の自動認識方法 | |
| US20020091520A1 (en) | Method and apparatus for text input utilizing speech recognition | |
| US20170270923A1 (en) | Voice processing device and voice processing method | |
| JP3948260B2 (ja) | テキスト入力方法及びその装置 | |
| JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
| JP2009282835A (ja) | 音声検索装置及びその方法 | |
| JP4967519B2 (ja) | 音声認識装置 | |
| JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
| JP2002268667A (ja) | プレゼンテーションシステムおよびその制御方法 | |
| JP2003263191A (ja) | 情報処理装置、情報処理方法、プログラム、記憶媒体 | |
| JPH08328580A (ja) | 単語列認識方法及び装置 | |
| JPH07219587A (ja) | 音声処理装置および方法 | |
| JP3790038B2 (ja) | サブワード型不特定話者音声認識装置 | |
| JP2003280687A (ja) | シナリオ作成支援装置及びプログラム | |
| JP6161298B2 (ja) | 音声検索表示装置 | |
| JP4635743B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
| JP2005352761A (ja) | 音声対話方法、音声対話装置、音声対話プログラム、これを記録した記録媒体 | |
| JP2000305590A (ja) | 音声認識方法 | |
| JP2000187497A (ja) | 音声による言語入力装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050510 |