JP2003263191A

JP2003263191A - 情報処理装置、情報処理方法、プログラム、記憶媒体

Info

Publication number: JP2003263191A
Application number: JP2002063554A
Authority: JP
Inventors: Hiroki Yamamoto; 寛樹山本; Kenichiro Nakagawa; 賢一郎中川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-03-08
Filing date: 2002-03-08
Publication date: 2003-09-19

Abstract

(57)【要約】【課題】認識精度を著しく下げることなく、簡便な方
法でユーザと装置との自然な対話を行うこと。【解決手段】対話制御部１０８で対話制御用データ格
納部１１１に記録されている対話制御ルールに従って、
提示する質問、メッセージ内容を決定する（対話制
御）。次に対話制御部１０８で、次にユーザが入力する
語（入力対象語）を決定し、対話制御に従って提示する
メッセージを作成し、音声合成部１０５或いは出力装置
１０４を通じてメッセージを通知する。次に質問に対す
る入力を音声認識部１０１で音声認識し、認識結果から
入力対象語を参照して入力語を決定する。決定した入力
語に基づいて、対話履歴データの更新、番組候補データ
の更新などを行う。そして対話制御部１０８は番組候補
データを参照し、予約する番組の確認ができた場合、録
画の予約を行うアプリケーション１１２を動作させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置、情
報処理方法、プログラム、記憶媒体に関するものであ
る。

【０００２】

【従来の技術】従来から、音声認識を利用した対話シス
テムは様々な方法や装置が提案されている。対話システ
ムにおいて、音声認識は、・ユーザが対話システムに情報を入力する手段・対話システムに処理の開始、停止など動作を指示す
る手段として、キーボードやマウス、ボタンの代わりに利用さ
れる。

【０００３】以降の説明において、音声認識で用いる音
声認識用文法を『文法』、音声認識用文法に記述された
音声認識の対象となる語を『認識対象語』と表記する。
また、ユーザが入力する際に、対話システムが受け付け
ることが可能な語を『入力対象語』と表記する。これ
は、必ずしも『認識対象語』とは一致しない場合もあ
る。例えば、認識対象語として時間を表す語を記述した
文法を用意し、次の二つの質問・『何時にしますか？』・『２時と３時、どちらにしますか？』をシステムがユーザに問いかけた場合、認識対象語はい
ずれの場合も、全ての時間を表す語になるが、入力対象
語は、前者の場合は認識対象語に一致し、後者の場合
は、『２時』と『３時』のみになる。以下で、テレビ番
組の録画予約を行なう対話の例を図１、図２を用いて説
明する。

【０００４】この例の音声対話では録画する番組を決め
ることが目的であり、ユーザとの対話を繰り返す中で、
録画する番組名が決った段階で対話を終了する。図１の
例では、ユーザがテレビ番組名を正確に覚えていたた
め、システムがユーザに番組名を問い合わせ、ユーザが
入力した番組名の確認を行なった段階で対話が終了して
いる。

【０００５】一方、図２の例ではユーザが番組名を覚え
ていないために、ユーザが番組に関するその他の情報を
順に入力して番組を決定する場合の音声対話の例であ
る。ユーザが番組名を覚えていなかったため、システム
は他の番組情報に関する質問を行って、録画する番組の
候補を絞り込んでいる。

【０００６】上記、図１、図２の対話において、音声に
より、ユーザの入力を受け付ける音声対話システムを実
現するためには、次の３つの音声認識を行うことが考え
られる。

【０００７】（a）全ての入力対象語を記述した文法
を事前に作成し、全てのユーザの入力に対し同じ文法を
用いて音声認識を行なう。

【０００８】（b）いくつかのカテゴリごとに複数の
文法を事前に作成しておき、各対話において適切な文法
に切り替えて音声認識を行う。

【０００９】（c）各対話ごとに、入力対象語を認識
対象語とする文法を動的に作成し、作成した文法を用い
て音声認識を行なう。

【００１０】図２に示した対話例２のような音声対話シ
ステムを（a）の方法で実現する場合、まず、番組名、
チャンネル、時間、確認時の返答（はい／いいえなど）
の全てを認識対象語とした文法を作成し、音声認識する
際に用いる。この方法では、対話ごとに文法の切り替え
を行なわなくて良い反面、一度に音声認識の対象となる
語が多くなり、音声認識誤りが増加する。また、認識対
象語に各対話における入力対象語以外の語が含まれるた
め、入力対象語以外の語に認識を誤る可能性がある。例
えば、図２においてＤ２０３でシステムがユーザにチャ
ンネルの入力を促した直後の、Ｄ２０４の『１１』とい
うユーザの入力に対してシステムが『１１時』など、対
話の流れとしては不自然な語に認識を誤ることがある。

【００１１】次に、（b）の方法で実現する場合につい
て説明する。例えば、番組名、チャンネル、時間、確認
など、各対話における入力対象語のカテゴリーごとに事
前に文法を作成する。各対話では、システムから質問す
る内容に応じて、文法を切り替えてユーザの入力を音声
認識する。例えば、図２の対話例２の場合、Ｄ２０２の
ユーザ入力に対しては番組名の文法を用い、Ｄ２０４の
ユーザ入力に対してはチャンネルの文法を用いる。この
方法では、（a）の方法に比べ、一度に音声認識を行な
う語が少なくなるため、音声認識誤りが減少することが
期待できる。しかしながら、対話の進行によっては、入
力対象語と文法に記述された認識対象語とが一致しない
（入力対象語以外の認識対象語がある）場合がある。

【００１２】例えば、Ｄ２０１とＤ２０７では、どちら
も番組名がユーザから入力されるため、どちらも番組名
を認識対象語とした文法を用いて音声認識を行なう。一
方、入力対象語は、Ｄ２０２とＤ２０８で異なり、Ｄ２
０２の入力では全番組名が入力対象語となるのに対し、
Ｄ２０８ではシステム側が提示した二つの番組名が入力
対象語となる。Ｄ２０８のように、一部の語のみが入力
対象語になる場合に対して、事前に可能性のある全ての
語の組み合わせを記述した文法を作成することも可能で
あるが、組み合わせの数が膨大になり現実的な方法では
ない。

【００１３】従って、事前に作成した文法のみを用いる
場合は、入力対象語以外の語が含まれていても、入力対
象語を含む文法を用いて音声認識を行なうほかない。例
えば、Ｄ２０８の入力に対しては、全番組名が認識対象
語となる番組名の文法を用いて音声認識を行なうことに
なる。したがって、入力対象語がシステムが提示した二
つの番組名だけであるにもかかわらず、入力対象語では
ない番組名に認識を誤る可能性がある。

【００１４】次に、動的に文法を作成する（c）の方法
について説明する。この方法では、入力対象語のみを記
述した音声認識用文法を作成するため、（a）（b）の例
で述べた入力対象語以外の語に認識を誤る可能性は全く
なくなる。また、各対話において、最小限の認識対象語
を記述した文法で音声認識するため、（a）（b）の方法
に比べ、認識誤りも少なくなることが期待できる。

【００１５】（c）の方法を実現した音声対話システム
が特開平０６-３３２４９３号公報で開示されている。
特開平０６-３３２４９３号公報では、対話の進行に応
じて、その対話で入力される語を予測し、動的に音声認
識用文法（辞書）を作成している。上記の例では、シス
テム側が質問する内容が変わるタイミングでユーザの入
力を予測し、文法を動的に作成している。図２の対話例
２のＤ２０２、Ｄ２０８の入力に対する文法を例にとる
と、Ｄ２０２の入力に対して全番組を認識対象語とした
文法を用いるのに対し、Ｄ２０８の入力には『ニュース
１９』と『クイズ○○』のみを認識対象語とした文法を
用いることになる。

【００１６】文法作成をさらに効率的よく行う方法とし
て、（b）と（c）を組み合わせることも可能である。そ
の場合、入力対象語が固定される入力に対しては文法を
事前に作成しておき、対話の進行状況によって、その都
度入力対象語が変わる入力に対しては動的に文法を作成
する。図２の対話例２を例に説明すると、対話開始直後
に番組名の入力を行うＤ２０２や決定した番組名の確認
を行うＤ２１０では、いずれも入力が固定される。前者
は、全番組名であり、後者は、確認用の文法に記述され
た語である。したがって、全番組名を認識対象語とした
文法、「はい」「いいえ」を認識対象語とした文法を事
前に作成しておくことができる。一方、Ｄ２０８のよう
に対話の進行状況によって入力対象語が変わる部分につ
いては動的に文法を作成するようにすれば良い。

【００１７】

【発明が解決しようとする課題】上記の通り、対話状態
によって事前に作成した文法と動的に作成する文法を使
い分けることにより、効率よく音声認識を行う音声対話
システムが構築できる。しかし、音声対話システムを構
築する際に、既存の音声認識装置（あるいは音声認識プ
ログラム）に音声認識用文法を動的に作成する手段がな
い場合や、動的に文法を作成する手段があった場合でも
記憶領域（メモリ）や処理量の制約で動的に文法を作成
できない場合がある。すなわち、上記（c）の方法が使
えず、（a）または（b）の方法を用いらざるを得ない場
合である。先に述べたように（a）,（b）の方法では、
対話の過程で入力対象語以外の語、言い換えるとシステ
ムの質問内容に対する回答として適当でない語に認識を
誤る可能性がある。

【００１８】また、文法に入力対象語以外の語を含むこ
とによって認識精度が低下するので、入力対象語のみで
構成された文法を用いた場合ならば、正確に認識結果を
得ることが出来る入力に対しても認識を誤る可能性が生
ずる。先に、（a）の方法の説明で、チャンネルの入力
『１１』に対して、時間の語『１１時』に誤認識する例
を述べたが、仮にこの時の音声認識結果の候補が図３の
ようになっていた場合、チャンネルを表す語だけで構成
された音声認識文法を用いていれば、正しく認識されて
いたことになる。

【００１９】以上のように従来の方法では、動的に文法
を作成できない音声認識装置（あるいは音声認識プログ
ラム）を用いると、動的に文法を作成できる音声認識装
置（あるいは音声認識プログラム）を用いた場合に比
べ、（１）認識精度が低下する。

【００２０】（２）入力対象語以外の語が認識された
場合を想定した対話処理を考慮する手間が生じる。

【００２１】（３）ユーザの観点から見ると、不自然
な対話になる上、認識精度の低下により再入力や認識結
果の修正などの手間が増えるという問題があった。

【００２２】本発明は以上の問題に鑑みてなされたもの
であり、認識精度を著しく下げることなく、簡便な方法
でユーザと装置との自然な対話を行うことを目的とす
る。

【００２３】

【課題を解決するための手段】本発明の目的を達成する
ために、例えば本発明の情報処理装置は以下の構成を備
える。

【００２４】すなわち、複数の項目により特定可能な目
的データを、当該目的データを含む検索対象データ群か
ら検索する情報処理装置であって、前記目的データを特
定する各項目の入力を促すメッセージを所定の順番で通
知する通知手段と、当該通知手段が通知するメッセージ
が示す項目に基づいて、入力対象語を決定する第２の決
定手段と、音声を入力する入力手段と、当該入力手段で
入力された音声を音声認識する音声認識手段と、前記入
力対象語を用いて、当該音声認識手段により認識された
結果から１つを、項目を特定する入力語として決定する
第２の決定手段と、前記第２の決定手段で決定した入力
語を用いて、前記目的データを含む検索対象データ群か
ら候補となるデータ群を検索し、当該検索対象データ群
を当該候補となるデータ群に更新する検索手段とを備
え、当該検索手段により検索した結果のデータの数が１
つとなった場合、当該１つのデータを目的データとする
ことを特徴とする。

【００２５】本発明の目的を達成するために、例えば本
発明の情報処理方法は以下の構成を備える。

【００２６】すなわち、複数の項目により特定可能な目
的データを、当該目的データを含む検索対象データ群か
ら検索する情報処理方法であって、前記目的データを特
定する各項目の入力を促すメッセージを所定の順番で通
知する通知工程と、当該通知工程で通知するメッセージ
が示す項目に基づいて、入力対象語を決定する第２の決
定工程と、音声を入力する入力工程と、当該入力工程で
入力された音声を音声認識する音声認識工程と、前記入
力対象語を用いて、当該音声認識工程で認識された結果
から１つを、項目を特定する入力語として決定する第２
の決定工程と、前記第２の決定工程で決定した入力語を
用いて、前記目的データを含む検索対象データ群から候
補となるデータ群を検索し、当該検索対象データ群を当
該候補となるデータ群に更新する検索工程とを備え、当
該検索工程で検索した結果のデータの数が１つとなった
場合、当該１つのデータを目的データとすることを特徴
とする。

【００２７】

【発明の実施の形態】以下添付図面を参照して、本発明
の情報処理装置を対話装置に適用した好適な実施形態に
従って詳細に説明する。

【００２８】［第１の実施形態］本実施形態では、テレ
ビ番組の予約録画をユーザとの対話により行う対話装
置、及び対話方法について説明する。図４は本実施形態
における対話装置の機能構成を示すブロック図である。

【００２９】テレビ番組の予約録画を、例えば図１、図
２に示したような音声対話で行なう場合、その対話の目
的は、録画する番組名を決定することである。本実施形
態における対話装置は、対話の目的である番組名が決ま
るように、ユーザとの対話を行う。このユーザとの対話
を制御するのが、対話制御部１０８であり、ユーザにど
のような質問をどのような順番で行なうかなどの対話戦
略を決定したり、ユーザから得られた番組情報を基に番
組候補を絞り込む処理などを行なう。

【００３０】本実施形態では、例えば図５に示すような
番組名、チャンネル、放送時間、ジャンル、出演者な
ど、番組に関する情報が記述された番組データを用い
て、ユーザに録画する番組に関する情報を問い合わせ、
得られた情報を基に上記番組データを検索して番組候補
を絞り込んでいくものとする。絞り込まれた番組候補は
番組候補データとして記録し、次の絞り込みの際の検索
の対象となる。例えば、図５に示した番組データから対
話を通してユーザが録画する番組が７チャンネルの情報
であることがわかった場合、番組データから該当する７
チャンネルで放送する番組を検索し、図６に示す番組候
補データを出力する。

【００３１】また、ユーザにどの項目をどの順番で質問
するかといった対話戦略は、図７に示す対話制御用ルー
ルを用いて決定する。さらに、ユーザとの対話の履歴
を、図８に示すような対話履歴データとして記録するも
のとする。図８は、図２の対話例において、Ｄ２０６の
ユーザの入力が終了した時点での履歴データである。以
上の対話処理に必要なデータである、番組データ、番組
候補データ、対話制御ルール、対話履歴などは対話制御
用データ１１１格納部に格納する。

【００３２】次に、対話装置からユーザへメッセージを
提示する処理について説明する。対話を進める過程で、
対話装置から行なうユーザへの質問、情報提示などのメ
ッセージの内容は対話制御部１０８によって決定され、
決定に従ってメッセージ作成部１０９でメッセージが作
成される。メッセージ作成の際は、あらかじめメッセー
ジデータ格納部１１０に格納されているメッセージデー
タを参照して作成される。メッセージデータ格納部１１
０に格納されているメッセージは、『これから番組予約
を始めます』のような固定のメッセージや『候補の番組
はXXXとXXXがあります。どちらにしますか』のようなメ
ッセージのテンプレートのデータなどが格納されてい
る。

【００３３】どのメッセージあるいはメッセージテンプ
レートを使うか、また、メッセージのテンプレートの空
欄に当てはめる語を何にするかは、対話制御部１０８が
制御する。作成されたメッセージは、ディスプレイやプ
リンタなどにより構成されている出力装置１０４に出力
してもよいし、音声合成部１０５によって音声合成し、
合成音声として出力しても良い。音声合成に必要なデー
タは音声合成用データ格納部１０６に格納されており、
システム起動時あるいは音声合成を行なうときなど、必
要に応じて読み出される。

【００３４】次に、対話におけるユーザからの入力につ
いて説明する。本実施形態の対話装置はユーザからの入
力手段として、キーボード、マウスなどの入力装置１０
３および音声認識部１０１を備えている。入力装置１０
３から入力を行った場合、入力した文字列がそのまま入
力対象語として対話制御部１０８で処理される。一方、
音声認識部１０１はユーザの音声を認識し、例えば図３
に示したような複数の認識結果候補と各候補のスコアを
出力する。この認識結果候補から対話制御部１０８が入
力対象語を一つ決定する処理については後述する。な
お、音声認識に必要な音響モデル、文法（辞書）等のデ
ータは音声認識用データ格納部１０２に格納されてお
り、必要に応じて読み出される。

【００３５】音声認識に用いる文法は、音声対話の目的
や対話の進め方に応じて、事前に作成する。音声対話に
必要な全ての語を記述した一つの文法を用いてもよい
し、データ検索に必要な項目を順次質問するように対話
を制御する場合は、各項目ごとに文法を作成し、対話装
置がユーザに提示する質問に応じて切り替えるようにし
てもよい。文法の切り替えは、対話制御部１０８が行
う。本実施形態では、番組名、チャンネル、放送時間
帯、番組のジャンル、出演者、確認（はい／いいえ）６
種類の文法を作成し、切り替えながら用いた場合を説明
するが、これに限定されるものではない。

【００３６】次に、フィルタ処理部１０７について説明
する。フィルタ処理部１０７は、音声認識部１０１が出
力する音声認識結果の候補のうち、特定の候補のスコア
にペナルティを加えたり、特定の候補を認識結果候補か
ら除外したりする。フィルタ処理を行なうかどうかの判
断およびフィルタ処理を行なう場合に、ペナルティ、あ
るいは除外の対象とする候補は対話制御部１０８が決定
する。ペナルティあるいは除外の対象となる候補の選択
方法については後に詳細に述べる。

【００３７】アプリケーション１１２は、音声対話が完
了した際に対話の結果に基づいて動作するアプリケーシ
ョンで、本実施形態では対話の結果得られたテレビ番組
の録画の予約を行なう装置あるいはプログラムである。

【００３８】以上、各部の役割について説明したが、音
声対話システム全体の制御については、対話制御部１０
８が行なうものとする。

【００３９】以上の構成を備える図４に示した対話装置
の動作を図９を用いて更に詳細に説明する。図９は本実
施形態における対話装置が行う処理のフローチャートで
ある。従来方法と異なる工程であるステップＳ２０３、
ステップＳ２０７、ステップＳ２０８、ステップＳ２１
０，ステップＳ２１４は太字で示している。

【００４０】本装置を起動すると、まず対話開始のメッ
セージをユーザに通知する（ステップＳ２０１）。対話
制御部１０８により制御されたメッセージ作成部１０９
はメッセージデータ格納部１１０から対話開始のメッセ
ージを選択し、選択したメッセージを出力装置１０４、
もしくは、音声合成部１０５に出力する。これにより、
ディスプレイやプリンタから文字として、もしくは音声
合成部１０５から音声としてユーザに対話開始のメッセ
ージを通知する。

【００４１】続いて行なわれるステップＳ２０２〜ステ
ップＳ２１１の処理は、対話の目的が決定されるまで繰
り返し行なわれる。まず、対話制御部１０８で対話制御
用データ格納部１１１に記録されている各種データに基
づき対話制御を行う（ステップＳ２０２）。本実施形態
では、対話制御用データ格納部１１１に格納された対話
制御ルールに従って、番組データ、番組候補データ、対
話履歴データを参照し、ユーザに提示する質問、メッセ
ージ内容を決定する。図７に示した対話制御用ルールを
用いて、（１）対話開始直後の場合（２）いくつかの対話を経た後、対話履歴データが図１
０（A）に示すデータとなっており、番組候補データが
図１０（B）に示すデータとなっている場合のそれぞれにおける対話制御を以下で説明する。

【００４２】（１）音声対話を開始した直後は、図８
に示した対話履歴データは全項目が未入力の状態であ
り、録画する番組の絞り込みが行なわれていないため、
番組候補データは図５に示した番組データに記述されて
いる全ての番組が番組候補として残っている状態であ
る。

【００４３】図７に示した対話制御ルールに従うと、ル
ール５が適用され、番組名を問い合わせる質問を行なう
よう対話制御が行なわれる。

【００４４】（２）図１０（A）、（B）にそれぞれ示
した対話履歴データ、番組候補データを参照して図７に
示した対話制御ルールに従うと、残りの番組候補数が２
のため、ルール４が適用され、残っている二つの番組名
をユーザに提示し、ユーザに選択を促すよう対話制御が
行なわれる。

【００４５】次に、ステップＳ２０３で、ステップＳ２
０２で行なった対話制御に基づき、対話制御部１０８
で、次にユーザが入力する語（入力対象語）を決定する
（ステップＳ２０３）。入力対象語は、ステップＳ２０
２で決定されたユーザに提示する質問内容と対話制御用
データ格納部１１１に格納されている番組候補データか
ら例えば次のようにして決定することができる。

【００４６】・予約する番組の確認を行なう場合は、
『はい』『いいえ』・番組に関してある項目の質問を行なう場合は、番組
候補データの該当する項目に記述された語を入力対象語
とする。

【００４７】以上のような入力対象語の決定方法は、対
話制御用ルールに記述しておいてもよい。

【００４８】上記ルールに従って、先の（１）（２）の
対話を例に入力対象語が決定される処理を説明する。

【００４９】（１）ユーザに番組名の項目を質問する
ことが決定されており、番組候補データの番組名の項目
には全ての番組名があるため、全番組名が入力対象語と
なる。

【００５０】（２）ユーザに番組名の項目を質問する
ことが決定されており、残っている番組候補データの番
組名は、『クイズ○○』と『クイズ△△』であるため、
入力対象語はこの二つの番組名となる。

【００５１】また、仮に図１０（B）の番組候補が残っ
ている場合に、チャンネルを質問することが決定された
場合は、残っている番組候補の『チャンネル』の項目の
『１１』と『３１』が入力対象語となる。

【００５２】次に対話制御部１０８は、ステップＳ２０
２で決定した対話制御方法にしたがって、メッセージ作
成部１０９でメッセージデータ格納部１１０に格納され
た固定メッセージやメッセージのテンプレートを用いて
ユーザに提示するメッセージを作成し、音声合成部１０
５あるいは出力装置１０４を通じてユーザに質問メッセ
ージを通知する（ステップＳ２０４）。

【００５３】次に、対話装置から通知した質問に対する
ユーザの入力（ステップＳ２０５）に対して、音声認識
部１０１で音声認識する（ステップＳ２０６）。音声認
識の際に用いる文法は、番組を質問した場合は、『番組
名』用の文法、チャンネルを質問した場合は『チャンネ
ル』用の文法という具合いに通知したメッセージの内容
に応じて適切なものを選択する。先の例の（A）（B）の
場合は、『番組名』用の文法で音声認識を行なう。

【００５４】次に、音声認識して得られた複数の認識結
果候補に対して、ステップＳ２０３で決定した入力対象
語を参照してフィルタ処理を行なう（ステップＳ２０
７）。具体的には、入力対象語以外を認識結果候補から
除外する。あるいは、別の方法として入力対象語以外の
認識結果候補のスコアにペナルティを与えてもよい。図
１１を用いて、フィルタ処理について説明する。

【００５５】『クイズ○○』および『クイズ△△』が入
力対象語の時に、ユーザの入力を『番組名』の文法で音
声認識した場合の音声認識結果が図１１（A）のように
なった場合に、入力対象語以外の認識結果候補を除外す
ると図１１（B）のようになり、ペナルティとして、入
力対象語以外の認識結果候補のスコアから例えば２００
を差し引いた場合は図１１（C）のようになる。

【００５６】対話制御部１０８は、フィルタ処理を行な
った認識結果候補のうち最もスコアの大きいものをユー
ザから入力された入力対象語として選択する（ステップ
Ｓ２０８）。図１１（B）、図１１（C）の例では、どち
らの場合も、『クイズ○○』のスコアが最も大きいの
で、『クイズ○○』をユーザの入力語として選択する。

【００５７】なお、ステップＳ２０５においてユーザの
入力が入力装置１０３を用いて行われた場合、ステップ
Ｓ２０６、Ｓ２０７においては何も行われない。

【００５８】続いて、対話制御部１０８において、選択
された入力語に基づいて、対話履歴データの更新、番組
候補データの更新などを行なう（ステップＳ２０９）。
例えば、ステップＳ２０４で、ユーザにチャンネルを問
い合わせ、ステップＳ２０８で選択された入力語が『１
１』だった場合、番組候補データを検索してチャンネル
が『１１』に該当する番組を抽出し、その結果を用いて
番組候補データを更新する。また、対話履歴データのチ
ャンネル項目を『１１』に更新する。

【００５９】ここで対話制御部１０８は番組候補データ
を参照して、残りの番組の数が０であるか否かを判断す
る（ステップＳ２１０）。残りの番組の数が０である場
合には処理をステップＳ２１４に進め、メッセージ作成
部１０９はメッセージデータ格納部１１０に格納されて
いる固定メッセージデータを用いて該当する番組がない
ことを示すメッセージを読み出して（メッセージ作成作
成）、出力装置１０４，もしくは音声合成部１０６に対
して出力し、ユーザに通知する（ステップＳ２１４）。

【００６０】一方、残りの番組の数が０でない場合、処
理をステップＳ２１１にすすめる。本実施形態では、最
終的に予約する番組の確認ができた場合（残りの番組の
数＝１）に音声対話の目的が達成されたものと判断して
（ステップＳ２１０）、決定された番組を録画するよう
に番組録画の予約を行なうアプリケーション１１２を動
作させる（ステップＳ２１０）。そして対話開始時と同
様に、メッセージ作成部１０９はメッセージデータ格納
部１１０に格納された固定メッセージを読み出して対話
終了のメッセージを作成し、出力装置１０４，もしくは
音声合成部１０６に対して出力し、ユーザに通知する
（ステップＳ２１１）。

【００６１】予約する番組が決定されていない場合は、
音声対話の目的が達成されるまで、再度ステップＳ２０
２〜ステップＳ２１０の処理を繰り返し行う。

【００６２】以上、説明したように本実施形態によれ
ば、得られた認識結果候補のうち、入力対象語以外の認
識結果候補に対して、その候補を認識結果候補から除外
あるいはその候補のスコアにペナルティを与えるフィル
タ処理を行い、フィルタ処理後の認識結果候補の中から
スコアの最も大きい候補をユーザの入力語として選択す
ることにより、入力対象語のみを認識対象とした文法を
用いて音声認識を行った場合と同等の認識性能を得られ
る。従って、動的に文法を作成する手段を用いずに音声
認識を行なう音声対話システムであっても、動的に文法
を作成する手段を用いて音声認識を行なう音声対話シス
テムと同等の処理が可能となる。

【００６３】さらに、本実施形態によれば、図９のステ
ップＳ２０３において、入力対象語はステップＳ２０２
の対話制御によって決定するユーザへの質問内容に応じ
て決定される。したがって、項目をあらかじめ決められ
た順番で質問していくような対話だけでなく、ユーザの
応答によって質問の順番が変化するような、対話の流れ
があらかじめ規定されていないような対話においても、
入力対象語を決定できるという特徴がある。

【００６４】本実施形態の図９のステップＳ２０７にお
いて、フィルタ処理として入力対象語以外の認識結果候
補のスコアにペナルティを与える方法として、スコアか
ら一定値を差し引く場合を説明したが、これに限るもの
ではない。たとえば、ペナルティとして、スコアに一定
値を乗算することでスコアを下げることも可能である。

【００６５】本実施形態の図９のステップＳ２０４のメ
ッセージ作成において、ユーザに提示する質問は、ユー
ザが入力する際に、どのような語が入力対象語となって
いるのかが分かり易いメッセージを作成するのが望まし
い。例えば、入力対象語の数が少ない場合は、入力対象
語を明示的にユーザに通知するようなメッセージを作成
する。入力対象語が、『１２時』『１３時』『１４時』
の場合に、『１２時、１３時、１４時の番組がありま
す。何時の番組ですか？』のように具体的に入力対象語
を提示する。

【００６６】本実施形態によれば、図９のステップＳ２
０６において、音声認識部１０１が出力する認識結果の
候補数を上位５候補を出力する場合で説明したが、これ
に限るものではない。また、出力する認識結果の候補数
を、用いる文法に含まれる認識対象語の語数、入力対象
語の語数を考慮して動的に変更してもよい。例えば、認
識対象語の語数が入力対象語の語数に比べ多い場合は、
出力する認識結果の候補数を増やし、その逆の場合は認
識結果の候補数を減らすことも可能である。

【００６７】本実施形態によれば、図９のステップＳ２
０３で入力対象語を決定する際に、ユーザから入力され
る語そのものをステップＳ２０３で決定する場合を説明
したが、これに限るものではない。例えば、ステップＳ
２０３では、入力される語の属性を決めておき、ステッ
プＳ２０７でこの属性と属性が一致しない認識結果候補
に対して候補の除外、ペナルティ付与を行なうことも可
能である。郵便番号、電話番号、携帯電話番号など連続
数字を入力する音声対話システムを例に説明する。これ
らの連続数字を認識する際に、桁数が固定されていない
連続数字用の文法を用いると、様々な桁数の認識結果候
補が出力される。例えば、『１２３４』と入力した場合
でも、『１２３』『１２３４１』など比較的似た結果が
多数出力されることが予想される。

【００６８】一方、これらの数字は桁数が決っているも
のも多く、例えば、郵便番号なら７桁、電話番号なら１
０桁、携帯電話番号なら１１桁、クレジットカード番号
なら１６桁となる。ユーザが入力した数字の桁数がわか
っていれば、ステップＳ２０７のフィルタ処理で、桁数
の異なる認識結果候補を排除することができる。このよ
うな場合、ステップＳ２０３で決定されるのは入力対象
語そのものではなく、入力対象語の属性である方が望ま
しい。また、別の例として、電話番号を認識した結果に
対して、これより先にすでに確定している情報、例えば
住所から予測された市外局番に相当する部分を使ってフ
ィルタ処理を行なうといったことも考えられる。

【００６９】また、本実施形態によれば、ステップＳ２
０２において、対話制御ルールに従って対話制御を行な
う場合を説明したが、これに限るものではない。例え
ば、対話制御を行なう際に、全ての項目について、その
項目を質問した場合の入力対象語の数を計算し、最も入
力対象語が少なくなるような質問をするという対話制御
を行なうことも可能である。

【００７０】また本実施形態では対話装置の使用例とし
て番組の録画予約を用いたが、これに限定されるもので
はない。

【００７１】［他の実施形態］本発明の目的は、前述し
た実施形態の機能を実現するソフトウェアのプログラム
コードを記録した記憶媒体（または記録媒体）を、シス
テムあるいは装置に供給し、そのシステムあるいは装置
のコンピュータ（またはCPUやMPU）が記憶媒体に格納さ
れたプログラムコードを読み出し実行することによって
も、達成されることは言うまでもない。この場合、記憶
媒体から読み出されたプログラムコード自体が前述した
実施形態の機能を実現することになり、そのプログラム
コードを記憶した記憶媒体は本発明を構成することにな
る。また、コンピュータが読み出したプログラムコード
を実行することにより、前述した実施形態の機能が実現
されるだけでなく、そのプログラムコードの指示に基づ
き、コンピュータ上で稼働しているオペレーティングシ
ステム(OS)などが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。

【００７２】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００７３】

【発明の効果】以上説明したように、本発明によって、
認識精度を著しく下げることなく、簡便な方法でユーザ
と装置との自然な対話を行うことができる。

【図面の簡単な説明】

【図１】テレビ番組の録画予約を行う対話の例を示す図
である。

【図２】テレビ番組の録画予約を行う場合の例を示す図
である。

【図３】音声認識結果の候補の例を示す図である。

【図４】本発明の第１の実施形態における対話装置の機
能構成を示すブロック図である。

【図５】番組データを示す図である。

【図６】番組候補データを示す図である。

【図７】対話制御用ルールを示す図である。

【図８】図２に示した対話の例において、Ｓ２０６のユ
ーザの入力が終了した時点での履歴データを示す図であ
る。

【図９】本発明の実施形態における対話装置が行う処理
のフローチャートである。

【図１０】（Ａ）は対話履歴データの例を示す図であ
り、（Ｂ）は番組候補データの例を示す図である。

【図１１】フィルタ処理を説明する図である。

Claims

【特許請求の範囲】

【請求項１】複数の項目により特定可能な目的データ
を、当該目的データを含む検索対象データ群から検索す
る情報処理装置であって、前記目的データを特定する各項目の入力を促すメッセー
ジを所定の順番で通知する通知手段と、当該通知手段が通知するメッセージが示す項目に基づい
て、入力対象語を決定する第２の決定手段と、音声を入力する入力手段と、当該入力手段で入力された音声を音声認識する音声認識
手段と、前記入力対象語を用いて、当該音声認識手段により認識
された結果から１つを、項目を特定する入力語として決
定する第２の決定手段と、前記第２の決定手段で決定した入力語を用いて、前記目
的データを含む検索対象データ群から候補となるデータ
群を検索し、当該検索対象データ群を当該候補となるデ
ータ群に更新する検索手段とを備え、当該検索手段により検索した結果のデータの数が１つと
なった場合、当該１つのデータを目的データとすること
を特徴とする情報処理装置。
【請求項２】前記通知手段は、前記目的データを特定
する各項目を入力する順番を示す制御データに基づい
て、通知する項目のメッセージを作成し、通知すること
を特徴とする請求項１に記載の情報処理装置。
【請求項３】更に、音声認識のための文法のデータを
格納する格納手段を備えることを特徴とする請求項１ま
たは２に記載の情報処理装置。
【請求項４】前記格納手段は、前記文法のデータを項
目毎の文法データに分けて格納していることを特徴とす
る請求項３に記載の情報処理装置。
【請求項５】前記第２の決定手段は、前記音声認識手
段による認識結果から、前記入力対象語を除く語を除外
し、更に最も大きいスコアを有する語を、項目を特定す
る入力語として決定することを特徴とする請求項１乃至
４のいずれか１項に記載の情報処理装置。
【請求項６】前記第２の決定手段は、前記音声認識手
段による認識結果において前記入力対象語を除く語のス
コアを下げ、更に最も大きいスコアを有する語を、項目
を特定する入力語として決定することを特徴とする請求
項１乃至４のいずれか１項に記載の情報処理装置。
【請求項７】前記検索手段により検索した結果のデー
タの数が所定数以下となった場合、前記通知手段は更に
当該所定数以下のデータから選択する旨を示すメッセー
ジを通知することを特徴とする請求項１乃至６のいずれ
か１項に記載の情報処理装置。
【請求項８】複数の項目により特定可能な目的データ
を、当該目的データを含む検索対象データ群から検索す
る情報処理方法であって、前記目的データを特定する各項目の入力を促すメッセー
ジを所定の順番で通知する通知工程と、当該通知工程で通知するメッセージが示す項目に基づい
て、入力対象語を決定する第２の決定工程と、音声を入力する入力工程と、当該入力工程で入力された音声を音声認識する音声認識
工程と、前記入力対象語を用いて、当該音声認識工程で認識され
た結果から１つを、項目を特定する入力語として決定す
る第２の決定工程と、前記第２の決定工程で決定した入力語を用いて、前記目
的データを含む検索対象データ群から候補となるデータ
群を検索し、当該検索対象データ群を当該候補となるデ
ータ群に更新する検索工程とを備え、当該検索工程で検索した結果のデータの数が１つとなっ
た場合、当該１つのデータを目的データとすることを特
徴とする情報処理方法。
【請求項９】コンピュータに読み込ませることで、当
該コンピュータを請求項１乃至７のいずれか１項に記載
の情報処理装置として機能させることを特徴とするプロ
グラム。
【請求項１０】請求項８に記載の情報処理方法を実行
するプログラム。
【請求項１１】請求項９または１０に記載のプログラ
ムを格納し、コンピュータが読みとり可能な記憶媒体。