JPH10301675A

JPH10301675A - マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法

Info

Publication number: JPH10301675A
Application number: JP30395397A
Authority: JP
Inventors: Tetsuro Chino; 哲朗知野; Tomoo Ikeda; 朋男池田; Yasuyuki Kono; 恭之河野; Takehide Yano; 武秀屋野; Katsumi Tanaka; 克己田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-02-28
Filing date: 1997-11-06
Publication date: 1998-11-13
Anticipated expiration: 2017-11-06
Also published as: JP3886074B2

Abstract

(57)【要約】【課題】人間同士の対話のように人間にとって自然なか
たちで対話を進めることができるようにしたインタフェ
ースを提供すること。【解決手段】擬人化されたエージェント画像を供給する
擬人化イメージ提供手段103と、利用者の注視対象を検
出する検出手段101と、利用者の音声入力情報、操作入
力情報、画像入力情報のうち、少なくとも一つ以上の入
力情報を取得する他メディア入力手段102と、この他メ
ディア入力手段からの入力情報を受け、認識動作の状況
を制御するものであって検出手段101により得られる注
視対象情報を基に利用者の注視対象が擬人化イメージ提
示手段により提示されるエージェント画像のいずれの部
分かを認識して、その認識結果に応じ前記他メディア入
力認識手段からの入力の受付選択をする制御手段107と
を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語情報、音
声情報、視覚情報、操作情報のうち少なくとも一つの入
力あるいは出力を通じて利用者と対話するマルチモーダ
ル対話装置に適用して最適なマルチモーダルインタフェ
ース装置およびマルチモーダルインタフェース方法に関
する。

【０００２】

【従来の技術】近年、パーソナルコンピュータを含む計
算機システムにおいて、従来のキーボードやマウスなど
による入力と、ディスプレイなどによる文字や画像情報
の出力に加えて、音声情報や画像情報などマルチメディ
ア情報を入出力することが可能になって来ている。

【０００３】このような状況下に加え、自然言語解析や
自然言語生成、あるいは音声認識や音声合成技術あるい
は対話処理技術の進歩などによって、利用者と音声入出
力を対話する音声対話システムへの要求が高まってお
り、自由発話による音声入力によって利用可能な対話シ
ステムである“ＴＯＳＢＵＲＧ−ＩＩ”（電子通信学会
論文誌、Ｖｏｌ．Ｊ７７−Ｄ−ＩＩ、Ｎｏ．８，ｐｐ１
４１７−１４２８，１９９４）など、様々な音声対話シ
ステムの研究開発がなされ、発表されている。

【０００４】また、さらに、このような音声入出力に加
え、例えばカメラを使用しての視覚情報入力を利用した
り、あるいは、タッチパネル、ぺン、タブレット、デー
タグローブやフットスイッチ、対人センサ、ヘッドマウ
ントディスプレイ、フォースディスプレイ（提力装置）
など、様々な入出力デバイスを通じて利用者と授受でき
る情報を利用して、利用者とインタラクションを行なう
マルチモーダル対話システムへの要求が高まっている。

【０００５】すなわち、このような各種入出力デバイス
を用いたマルチモーダルインタフェースを駆使すること
で、様々な情報を授受でき、従って、利用者はシステム
と自然な対話が可能であることから、人間にとって自然
で使い易いヒューマンインタフェースを実現するための
一つの有力な方法となり得る故に、注目を集めている。

【０００６】つまり、人間同士の対話においても、例え
ば音声など一つのメディア（チャネル）のみを用いてコ
ミュニケーションを行なっている訳ではなく、身振りや
手ぶりあるいは表情といった様々なメディアを通じて授
受される非言語メッセージを駆使して対話することによ
って、自然で円滑なインタラクションを行なっている
（“ＩｎｔｅｌｌｉｇｅｎｔＭｕｌｔｉｍｅｄｉａ
Ｉｎｔｅｒｆａｃｅｓ”，ＭａｙｂｕｒｙＭ．Ｔ，Ｅ
ｄｓ．，ＴｈｅＡＡＡＩＰｒｅｓｓ／ＴｈｅＭ
ＩＴＰｒｅｓｓ，１９９３参照）。

【０００７】このことから考えても、自然で使い易いヒ
ューマンインタフェースを実現するためには、音声入出
力の他に、カメラを使用しての視覚情報入力、タッチパ
ネル、ぺン、タブレット、データグローブやフットスイ
ッチ、対人センサ、ヘッドマウントディスプレイ、フォ
ースディスプレイなど、様々な入出力のメディアを用い
た言語メッセージ、非言語メッセージによる対話の実現
と応用に期待が高まっている。

【０００８】しかし、次の（ｉ）（ii）のような現状が
ある。［バックグラウンド（ｉ）］従来、それぞれのメディア
からの入力の解析精度の低さの問題や、それぞれの入出
力メディアの性質が十分に明らかとなっていないことな
どのため、新たに利用可能となった各入出力メディアあ
るいは、複数の入出力メディアを効率的に利用し、高能
率で、効果的で、利用者の負担を軽減する、マルチモー
ダルインタフェースは実現されていない。

【０００９】つまり、各メディアからの入力の解析精度
が不十分であるため、たとえば、音声入力における周囲
雑音などに起因する誤認識が発生したり、あるいはジェ
スチャ入力の認識処理において、入力デバイスから刻々
得られる信号の中から、利用者が入力メッセージとして
意図した信号部分の切り出しに失敗するといったことな
どによって、誤動作が起こり、それが結果的には利用者
への負担となる。

【００１０】また、音声入力やジェスチャ入力など、利
用者が現在の操作対象である計算機などへの入力として
用いるだけでなく、例えば周囲の他の人間へ話しかけた
りする場合にも利用されるメディアを用いたインタフェ
ース装置では、利用者が、インタフェース装置ではな
く、たとえば自分の横にいる他人に対して話しかけた
り、ジェスチャを示したりした場合にも、インタフェー
ス装置が自己への入力であると判断して、認識処理など
を行ない、結果として誤動作を起す。そして、その誤動
作の取消や、誤動作の影響の復旧の処置を利用者は行わ
ねばならず、また、誤動作を避けるために利用者は絶え
ず注意を払わなくてはならないなど、利用者への負担が
大きい。

【００１１】また、本来、判断が不要な場面において
も、入力信号の処理が継続的にして行なわれるため、そ
の処理負荷によって、利用している装置に関与する他の
サービスの実行速度や利用効率が低下するなどの問題を
抱える。

【００１２】また、この問題を解決するために、音声や
ジェスチャなどの入力を行なう際に、たとえば、ボタン
を押したり、メニュー選択するなど、特別な操作によっ
てモードを変更する方法も採用されているが、このよう
な特別な操作は、人間同士の会話であった場合、存在し
ない操作であるため、不自然なインタフェースとなるば
かりでなく、利用者にとって繁雑であったり、操作の種
類によっては、習得のための訓練が必要となったりする
ことによって、利用者の負担をいたずらに増やすことと
なっている。

【００１３】また、例えば、音声入力の可否をボタン操
作によって切替える場合などでは、音声メディアの持つ
利点を活かすことができない。すなわち、音声メディア
による入力は、本来、口だけを使ってコミュニケーショ
ンが出来るもので、例えば手で行なっている作業があっ
たとしてもそれを妨害することがなく、双方を同時に利
用することが可能であるが、音声入力の可否をボタン操
作で切り替えることが必要な仕組みにした場合、このよ
うな音声メディア本来の利点を活かすことが出来ない。

【００１４】また、音声出力や、動画像情報や、複数画
面に亙る文字や画像情報など、提示する情報がすぐ消滅
しまうものであったり、刻々変化するものであったりす
る等、一過性のメディアも用いて利用者に情報提示する
必要があるケースも多いが、このような場合、利用者が
その情報に注意を払っていないと、提示された情報の一
部あるいは全部を利用者が受け取れない場合があると言
う問題があった。

【００１５】また、従来は、一過性のメディアも用いて
利用者に情報提示する際、利用者が一度に受け取れる分
量毎の情報を提示し、利用者が何らかの特別な操作によ
る確認動作を行なうことによって、継続する次の情報を
提示する方法もあるが、この場合は、確認動作のため
に、利用者の負担が増えることになり、また、慣れない
と操作に戸惑い、システムの運用効率が悪くなるという
問題も残る。

【００１６】また、従来のマルチモーダルインタフェー
スでは、利用技術の未発達から、人間同士のコミュニケ
ーションにおいては重要な役割を演じていると言われ
る、視線一致（アイコンタクト）、注視位置、身振り、
手振りなどのジェスチャ、顔表情などの非言語メッセー
ジを、効果的に利用することが出来ない。

【００１７】［バックグラウンド（ii）］また、別の観
点として従来における現実のマルチモーダルインターフ
ェースを見てみると、音声入力、タッチセンサ入力、画
像入力、距離センサ入力といったものを扱うが、その処
理を考えてみる。

【００１８】音声入力の場合、たとえば利用者から音声
入力がなされたとして、その場合には入力された音声波
形信号を例えばアナログ／デジタル変換し、単位時間当
たりのパワー計算を行うことなどによって、音声区間を
検出し、これを例えばＦＦＴ（高速フーリエ変換）など
の方法によって分析すると共に、例えば、ＨＭＭ（隠れ
マルコフモデル）などの方法を用いて、予め用意した標
準パターンである音声認識辞書と照合処理を行うことな
どにより、発声内容を推定し、その結果に応じた処理を
行う。

【００１９】また、タッチセンサなどの接触式の入力装
置を通じて、利用者からの指し示しジェスチャの入力が
なされた場合には、タッチセンサの出力情報である、座
標情報、あるいはその時系列情報、あるいは入力圧力情
報、あるいは入力時間間隔などを用いて、指し示し先を
同定する処理を行う。

【００２０】また、画像を使用する場合には、単数ある
いは複数のカメラを用いて、例えば、利用者の手などを
撮影し、観察された形状、あるいは動作などを例えば、
“ＵｎｃａｌｉｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉ
ｏｎＷｉｔｈＰｏｉｎｔｉｎｇｆｏｒａＭａ
ｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ（Ｒ．Ｃｉｐ
ｏｌｌａ，ｅｔ．ａｌ．，Ｐｒｏｃｅｅｄｉｎｇｓｏ
ｆＭＶＡ’９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎ
ＭａｃｈｉｎｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉ
ｏｎ，ｐｐ．１６３−１６６，１９９４．）などに示さ
れた方法を用いて解析することによって、利用者の指し
示した、実世界中の指示対象、あるいは表示画面上の指
示対象などを入力することが出来るようにしている。

【００２１】また、距離センサ、この場合、例えば、赤
外線などを用いた距離センサなどを用いるがこの距離セ
ンサにより、利用者の手の位置や形、あるいは動きなど
を画像の場合と同様の解析方法により、解析して認識す
ることで、利用者の指し示した、実世界中の指示対象、
あるいは表示画面上の指示対象などへの指し示しジェス
チャを入力することが出来るようにしている。

【００２２】その他、入力手段としては利用者の手に、
例えば、磁気センサや加速度センサなどを装着すること
によって、手の空間的位置や、動き、あるいは形状を入
力したり、仮想現実（ＶＲ＝ＶｉｒｔｕａｌＲｅａｌ
ｉｔｙ）技術のために開発された、データグローブやデ
ータスーツを利用者が装着することで、利用者の手や体
の、動き、位置、あるいは形状を解析することなどによ
って利用者の指し示した実世界中の指示対象、あるいは
表示画面上の指示対象などを入力するといったことが採
用可能である。

【００２３】ところが、従来、指し示しジェスチャの入
力において、例えばタッチセンサを用いて実現されたイ
ンタフェース方法では、離れた位置からや、機器に接触
せずに、指し示しジェスチャを行うことが出来ないとい
う問題があった。さらに、例えばデータグローブや、磁
気センサや、加速度センサなどを利用者が装着すること
で実現されたインタフェース方法では、機器を装着しな
ければ利用できないという問題点があった。

【００２４】また、カメラなどを用いて、利用者の手な
どの形状、位置、あるいは動きを検出することで実現さ
れているインタフェース方法では、十分な精度が得られ
ないために、利用者が入力を意図したジェスチャだけ
を、適切に抽出することが困難であり、結果として、利
用者かジェスチャとしての入力を意図していない手の動
きや、形やなどを、誤ってジェスチャ入力であると誤認
識したり、あるいは利用者が入力を意図したジェスチャ
を、ジェスチャ入力であると正しく抽出することが出来
ないといったことが生じる。

【００２５】その結果、例えば、誤認識のために引き起
こされる誤動作の影響の訂正が必要になったり、あるい
は利用者が入力を意図して行ったジェスチャ入力が実際
にはシステムに正しく入力されず、利用者が再度入力を
行う必要が生じ、利用者の負担を増加させてしまうとい
う問題があった。

【００２６】また、利用者が入力したジェスチャが、解
析が終了した時点で得られるために、利用者が入力意図
したジェスチャを開始した時点あるいは入力を行ってい
る途中の時点では、システムがそのジェスチャ入力を正
しく抽出しているかどうかが分からない。

【００２７】そのため、例えばジェスチャの開始時点が
間違っていたり、あるいは利用者によってジェスチャ入
力が行われていることを正しく検知できなかったりする
などして、利用者が現在入力途中のジェスチャが、実際
にはシステムによって正しく抽出されておらず、結果と
して誤認識を引き起こしたり、あるいは利用者が再度入
力を行わなくてはならなくなるなどして、利用者にかか
る負担が大きくなる。

【００２８】あるいは、利用者がジェスチャ入力を行っ
ていないのにシステムが誤ってジェスチャが開始されて
いるなどと誤認識することによって、誤動作が起こり、
その影響の訂正をしなければならなくなる。

【００２９】また、例えばタッチセンサやタブレットな
どの接触式の入力装置を用いたジェスチャ認識方法で
は、利用者は接触式入力装置自身の一部分を指し示すこ
ととなるため、その接触式入力装置自身以外の実世界の
場所や、ものなどを参照するための、指し示しジェスチ
ャを入力することが出来ないという問題があり、一方、
例えばカメラや赤外センサーや加速度センサなどを用い
る接触式でない入力方法を用いる、指し示しジェスチャ
入力の認識方法では、実世界の物体や場所を指し示すこ
とは可能であるがシステムがその指し示し先として、ど
の場所、あるいはどの物体あるいはそのどの部分を受け
取ったかを適切に表示する方法がないという問題があっ
た。

【００３０】

【発明が解決しようとする課題】以上、バックグラウン
ド（ｉ）で説明したように、従来のマルチモーダルイン
タフェースは、それぞれの入出力メディアからの入力情
報についての解析精度の低さ、そして、それぞれの入出
力メディアの性質が十分に解明されていない等の点か
ら、新たに利用可能となった種々の入出力メディアある
いは、複数の入出力メディアを効果的に活用し、高能率
で、利用者の負担を軽減する、マルチモーダルインタフ
ェースは実現されていないと言う問題がある。

【００３１】つまり、各メディアからの入力の解析精度
が不十分であるため、たとえば、音声入力における周囲
雑音などに起因する誤認識の発生や、あるいはジェスチ
ャ入力の認識処理において、入力デバイスから刻々得ら
れる信号の中から、利用者が入力メッセージとして意図
した信号部分の切り出しに失敗することなどによって、
誤動作が起こり、利用者へ負担が増加すると言う問題が
あつた。

【００３２】また、音声やジェスチャなどのメディアは
マルチモーダルインタフェースとして重要なものである
が、このメディアは、利用者が現在の操作対象である計
算機などへの入力として用いるだけでなく、例えば、周
囲の人との対話にも利用される。

【００３３】そのため、このようなメディアを用いたイ
ンタフェース装置では、利用者が、インタフェース装置
ではなく、たとえば自分の横にいる人に対して話しかけ
たり、ジェスチャを示したりした場合にも、インタフェ
ース装置が自己への入力であると誤判断をして、その情
報の認識処理などを行なってしまい、誤動作を引き起こ
すことにもなる。そのため、その誤動作の取消や、誤動
作の影響の復旧に利用者が対処しなければならなくな
り、また、そのような誤動作を招かないようにするため
に、利用者は絶えず注意を払わなくてはならなくなると
いった具合に、利用者の負担が増えるという問題があっ
た。

【００３４】また、マルチモーダル装置において本来、
情報の認識処理が不要な場面においても、入力信号の監
視と処理は継続的に行なわれるため、その処理負荷によ
って、利用している装置に関与する他のサービスの実行
速度や利用効率が低下するという問題点があった。

【００３５】また、この問題を解決するために、音声や
ジェスチャなどの入力を行なう際に、利用者にたとえ
ば、ボタンを押させるようにしたり、メニュー選択させ
るなど、特別な操作によってモードを変更するなどの手
法を用いることがあるが、このような特別な操作は、人
間同士の対話では本来ないものであるから、このような
操作を要求するインタフェースは、利用者にとって不自
然なインタフェースとなるだけでなく、繁雑で煩わしさ
を感じたり、操作の種類によっては、習得のための訓練
が必要となったりすることによって、利用者の負担増加
を招くという問題があった。

【００３６】また、音声メディアによる入力は、本来、
口だけを使ってコミュニケーションが出来るため、例え
ば手で行なっている作業を妨害することがなく、双方を
同時に利用することが可能であると言う利点があるが、
例えば、音声入力の可否をボタン操作によって切替える
といった構成とした場合などでは、このような音声メデ
ィアが本来持つ利点を損なってしまうという問題点があ
った。

【００３７】また、例えば、音声出力や、動画像情報
や、複数画面に亙る文字や画像情報などでは、提示情報
が提示されるとすぐ消滅したり、刻々変化したりする一
過性のものとなることも多いが、このような一過性メデ
ィアも用いて利用者に情報提示する際、利用者がその情
報に注意を払っていないと提示された情報の一部あるい
は全部を利用者が受け取れない場合があると言う問題が
あった。

【００３８】また、従来は、一過性のメディアも用いて
利用者に情報提示する際、利用者が一度に受け取れる分
量毎の情報を提示し、利用者が何らかの特別な操作によ
る確認動作を行なうことによって、継続する次の情報を
提示する手法を用いることがあるが、このような方法で
は、確認動作のために、利用者の負担が増加し、また、
システムの運用効率を悪くするという問題があった。

【００３９】また、従来のマルチモーダルインタフェー
スでは、応用技術の未熟から人間同士のコミュニケーシ
ョンにおいて重要な役割を演じていると言われる、視線
一致（アイコンタクト）、注視位置、身振り、手振りな
どのジェスチャ、そして、顔表情などの非言語メッセー
ジを、効果的に利用することが出来ないという問題があ
った。

【００４０】また、バックグラウンド（ii）で説明した
ように、マルチモーダルインタフェース用の現実の入力
手段においては、指し示しジェスチャの入力の場合、接
触式の入力機器を使用するインタフェース方法では、離
れた位置からや、機器に接触せずに、指し示しジェスチ
ャを行うことが出来ず、また、装着式のインタフェース
方法では、機器を装着しなければ利用できないという問
題があった。

【００４１】また、ジェスチャ認識を遠隔で行うインタ
フェース方法では、十分な精度が得られないために、利
用者がジェスチャとしての入力を意図していない手の動
きや、形やなどを、誤ってジェスチャ入力であると誤認
識してしまったり、あるいは利用者が入力を意図したジ
ェスチャを、ジェスチャ入力であると正しく抽出するこ
とが出来ない場合が多発するという問題があった。

【００４２】また、利用者が入力意図したジェスチャを
開始した時点あるいは入力を行っている途中の時点で
は、システムが、そのジェスチャ入力を正しく抽出して
いるかどうかが分からないため、結果として誤認識を引
きおこしたり、あるいは、利用者が再度入力を行わなく
てはならなくなるなどして、利用者の負担が増加すると
いう問題があった。

【００４３】また、接触式の入力装置を用いたジェスチ
ャ認識方法では、その接触式入力装置自身以外の実世界
の場所や、ものなどを参照するための、指し示しジェス
チャを入力することが出来ず、一方、非接触式の入力方
法を用いる、指し示しジェスチャ入力の認識方法では、
実世界の物体や場所を指し示すことは可能であるが、シ
ステムがその指し示し先として、どの場所、あるいはど
の物体あるいはそのどの部分を受け取ったかを適切に表
示する方法がないという問題があった。

【００４４】さらに、以上示した問題によって誘発され
る従来方法の問題としては、例えば、誤動作による影響
の訂正が必要になったり、あるいは再度の入力が必要に
なったり、あるいは利用者が入力を行う際に、現在行っ
ている入力が正しくシステムに入力されているかどうか
が分からないため、不安になるなどして、利用者の負担
が増すという問題があった。

【００４５】そこでこの発明の目的とするところは、バ
ックグラウンド（ｉ）の課題を解決するために、第１に
は、複数種の入出力メディアを効率的、効果的に利用す
ることができ、利用者の負担を軽減できて人間同士のコ
ミュニケーションに近い状態で自然な対話ができるよう
にしたマルチモーダルインタフエースを提供することに
ある。

【００４６】また、本発明の第２の目的は、各メディア
からの入力の解析精度が不十分であるための誤動作や、
あるいは周囲雑音による誤動作や、あるいは入力デバイ
スから刻々得られる信号の中から、利用者が入力メッセ
ージとして意図した信号部分の切り出しの失敗などに起
因する誤動作などによる利用者への負担を解消するマル
チモーダルインタフェースを提供するものである。

【００４７】また、第３には、音声やジェスチャなどの
ように、利用者が現在の操作対象である計算機などへの
入力として用いるだけでなく、人間同士の対話に用いる
メディアを用いたインタフェース装置では、利用者が、
操作中のマルチモーダルシステムのインタフェース装置
にではなく、たとえば自分の横にいる他人に対して話し
かけたり、ジェスチャを示したりした場合にも、利用者
がマルチモーダルシステムのそばにいるがために、その
マルチモーダルシステムのインタフェース装置が自己へ
の入力であると判断してしまうことになり誤動作の原因
となるが、その場合でもこのような事態を解消でき、誤
動作に伴う取消操作や、誤動作の影響の復旧のための処
置や、誤動作を避けるために利用者が絶えず注意を払わ
なくてはならないといった負荷を含め、利用者への負担
を解消することができるマルチモーダルインタフェース
を提供することにある。

【００４８】また、第４には、システムの処理動作状態
から、本来メディア入力の情報識別が不要な場面におい
ても、入力信号の処理が継続的に行なわれることによっ
てその割り込み処理のために、現在処理中の作業の遅延
を招くという悪影響をなくすべく、不要な場面でのメデ
ィア入力に対する処理負荷を解消できるようにすること
により、利用している装置に関与する他のサービスの実
行速度や利用効率の低下を抑制できるようにしたマルチ
モーダルインタフェースを提供することにある。

【００４９】また、第５には、音声やジェスチャなどの
入力を行なう際に、たとえば、ボタンを押したり、メニ
ュー選択などによるモード変更などといった、特別な操
作を必要としない構成とすることにより、煩雑さを伴わ
ず、自然で、しかも、習得のための訓練などが不要、且
つ、利用者に負担をかけないマルチモーダルインタフェ
ースを提供することにある。

【００５０】また、第６には、音声メディアを使用する
際には、例えば、音声入力の可否をボタン操作によって
切替えるといった余分な操作を完全に排除して、しか
も、必要な音声情報を取得することができるようにした
マルチモーダルインタフェースを提供することにある。

【００５１】また、第７には、提示が一過性となるかた
ちでの情報を、見逃すことなく利用者が受け取れるよう
にしたマルチモーダルインタフェースを提供することに
ある。

【００５２】また、第８には、一過性のメディアによる
情報提示の際に、利用者が一度に受け取れる量に小分け
して提示するようにした場合に、特別な操作など利用者
の負担を負わせることなく円滑に情報を提示できるよう
にしたインタフェースを提供することにある。

【００５３】また、第９には、人間同士のコミュニケー
ションにおいては重要な役割を演じていると言われる
が、従来のマルチモーダルインタフェースでは、効果的
に利用することが出なかった、視線一致（アイコンタク
ト）、注視位置、身振り、手振りなどのジェスチャ、顔
表情など非言語メッセージを、効果的に活用できるイン
タフェースを提供することにある。

【００５４】また、この発明の目的とするところは、バ
ックグラウンド（ii）の課題を解決するために、利用者
がシステムから離れた位置や、あるいは機器に接触せず
に、かつ、機器を装着せずに、遠隔で指し示しジェスチ
ャを行って指示を入力することが出来、かつ、ジェスチ
ャ認識方式の精度が十分に得られないために発生する誤
認識やジェスチャ抽出の失敗を無くすことができるよう
にしたマルチモーダルインタフェース装置およびマルチ
モーダルインタフェース方法を提供するものである。ま
た、利用者が入力意図したジェスチャを開始した時点あ
るいは入力を行っている途中の時点では、システムがそ
のジェスチャ入力を正しく抽出しているか否かが分から
ないため、結果として誤認識を引きおこしたり、あるい
は、利用者が再度入力を行わなくてはならなくなるなど
して発生する利用者の負担を抑制することが可能なマル
チモーダルインタフェース装置およびマルチモーダルイ
ンタフェース方法を提供するものである。

【００５５】また、実世界の場所やものなどを参照する
ための利用者からの指し示しジェスチャ入力に対して、
その指し示し先として、どの場所、あるいはどの物体あ
るいはそのどの部分を受け取ったかを適切に表示するこ
とが可能なマルチモーダルインタフェース装置およびマ
ルチモーダルインタフェース方法を提供するものであ
る。

【００５６】さらに、前述の問題によって誘発される従
来方法の問題である、誤動作による影響の訂正や、ある
いは再度の入力によって引き起こされる利用者の負担
や、利用者の入力の際の不安による利用者の負担を解消
することができるマルチモーダルインタフェース装置お
よびマルチモーダルインタフェース方式を提供すること
にある。

【００５７】さらに、擬人化インタフェースを用いたイ
ンタフェース装置、およびインタフェース方法で、利用
者の視界、および擬人化エージェントから視界などを考
慮した、適切なエージェントの表情を生成し、フィード
バックとして提示することが出来るマルチモーダルイン
タフェース装置およびマルチモーダルインタフェース方
式を提供することにある。

【００５８】

【課題を解決するための手段】上記目的を達成するた
め、本発明は次のように構成する。バックグラウンド
（ｉ）に関する課題を解決するために、［１］第１には、利用者の注視対象を検出する検出手
段と、利用者の音声入力情報、操作入力情報、画像入力
情報のうち、少なくとも一つ以上の入力情報を受け、認
識動作の状況を制御する制御手段とを備えたことを特徴
とする。

【００５９】本発明にかかるマルチモーダルインタフェ
ースは、利用者を観察するカメラや利用者が装着したカ
メラなどから入力される視覚情報を用いた視線検出処理
や、利用者の視線の動きを検出するアイトラッカや、利
用者の頭部の動きを検出するヘッドトラッカや、着席セ
ンサ、対人センサなどによって、利用者が、現在見てい
るか、あるいは向いている、場所、領域、方向、物、あ
るいはその部分を検出して、注視対象情報としてを出力
する検出手段と、音声入力や、ジェスチャ入力や、キー
ボード入力や、ポインティングデバイスを用いた入力
や、カメラからの視覚入力情報や、マイクからの音声入
力情報や、キーボード、タッチパネル、ぺン、マウスな
どポインティングデバイス、データグローブなどからの
操作入力情報など、利用者の注視対象以外を表す利用者
からの入力情報を受けとり処理を行なう少なくとも一つ
の他メディア入力処理手段とを具備しており、制御手段
により、該注視対象情報に応じて、少なくとも一つの他
メディア入力処理手段の、入力受付可否、あるいは処理
あるいは認識動作の開始、終了、中断、再開、処理レベ
ルの調整などの動作状況を適宜制御するようにしたもの
である。

【００６０】［２］第２には、擬人化されたエージェ
ント画像を供給する擬人化イメージ提供手段と、利用者
の注視対象を検出する検出手段と、利用者の音声入力情
報、操作入力情報、画像入力情報のうち、少なくとも一
つ以上の入力情報を取得する他メディア入力手段と、こ
の他メディア入力手段からの入力情報を受け、認識動作
の状況を制御するものであって、前記検出手段により得
られる注視対象情報を基に、利用者の注視対象が擬人化
イメージ提示手段により提示されるエージェント画像の
いずれの部分かを認識して、その認識結果に応じ前記他
メディア入力認識手段からの入力の受付選択をする制御
手段とを備えたことを特徴とする。

【００６１】この構成によれば、利用者に対して応対す
る擬人化されたエージェント画像具体的には、利用者と
対面してサービスを提供する人物、生物、機械、あるい
はロボットなどとして擬人化されたエージェント人物
の、静止画あるいは動画による画像情報を、利用者へ提
示する擬人化イメージ提示手段があり、検出手段によっ
て得られる注視対象情報に応じて、利用者の注視対象
が、擬人化イメージ提示手段で提示されるエージェント
人物の、全体、あるいは、顔、目、口、耳など一部を指
しているか否かに応じて、制御手段は他メディア入力認
識手段からの入力受付を選択するようにしたものであ
る。

【００６２】［３］第３には、文字情報、音声情報、
静止面像情報、動画像情報、力の提示など少なくとも一
つの信号の提示により、利用者に対してフィードバック
信号提示するフィードバック提示手段と、注視対象情報
を参照して、メディア入力認識手段からの入力の受付選
択をする際に、該フィードバック提示手段を通じて適宜
利用者へのフィードバック信号を提示すべく制御する制
御手段を更に具備したことを特徴とする。

【００６３】この場合、利用者に対し、文字情報、音声
情報、静止画像情報、動画像情報、力の提示など少なく
とも一つの信号の提示によって、フィードバック信号を
提示するフィードバック提示手段があり、制御手段は、
注視対象情報を参照して、メディア入力認識手段からの
入力を受付可否を切替える際に、該フィードバック提示
手段を通じて利用者へのフィードバック信号を適宜提示
するよう制御することを特徴とするものである。

【００６４】［４］第４には、利用者と対面してサー
ビスを提供する擬人化されたエージェン卜人物の画像で
あって、該エージェント人物画像は利用者に、所要のジ
ェスチャ、表情変化を持つ画像による非言語メッセージ
として当該画像を提示する擬人化イメージ提示手段と、
注視対象情報を参照して、メディア入力認識手段からの
入力の受付選択する際に、擬人化イメージ提示手段を通
じて利用者への非言語メッセージによる信号を適宜提示
すべく制御する制御手段とを具備したことを特徴とす
る。

【００６５】この場合、擬人化イメージ提示手段は、利
用者と対面してサービスを提供する人物、生物、機械、
あるいはロボットなどとして擬人化されたエージェント
人物の、静止画あるいは動画による面像情報と、利用者
へ、うなづき、身振り、手振り、などのジェスチャや、
表情変化など、任意個数、任意種類のエージェント人物
画像を用意、あるいは適宜に生成できるようにしてあ
り、これらの画像を使用して非言語メッセージを提示す
ることができるようにしてあって、制御手段により、注
視対象情報を参照して、メディア入力認識手段からの入
力を受付選択する際に、擬人化イメージ提示手段を通じ
て利用者への非言語メッセージによる信号を適宜提示す
るよう制御するものである。

【００６６】［５］第５には、利用者の注視対象を検
出する検出手段と、利用者への音声情報、操作情報、画
像情報を出力する情報出力手段と、利用者からの音声入
力情報、操作入力情報、画像入力情報のうち、少なくと
も一つ以上の入力情報を受け、認識動作の状況を制御す
る第１の制御手段と、前記注視対象情報を参照して、少
なくとも一つの情報出力手段の、出力の開始、終了、中
断、再開、あるいは提示速度の調整などの動作状況を適
宜制御する第２の制御手段とを備したことを特徴とす
る。

【００６７】この構成の場合、注視対象物を検出する検
出手段、具体的には、利用者を観察するカメラや利用者
が装着したカメラなどから入力される視覚情報を用いた
視線検出処理や、利用者の視線の動きを検出するアイト
ラッカや、利用者の頭部の動きを検出するヘッドトラッ
カや、着席センサ、対人センサなどによって、利用者
が、現在見ているか、あるいは向いている、場所、領
域、方向、物、あるいはその部分を検出して、注視対象
情報としてを出力する注視対象検出用の検出手段があ
り、また、利用者へ、文字情報、音声情報、静止画像情
報、動画像情報、力の提示など少なくとも一つの信号の
提示によって、情報を出力する少なくとも一つの情報出
力手段があって、制御手段は前記注視対象情報を参照し
て、少なくとも一つの情報出力手段の、出力の開始、終
了、中断、再開、あるいは提示速度の調整などの動作状
況を適宜制御するものである。

【００６８】［６］第６には、文字情報、音声情報、
静止面像情報、動画像情報、力の提示などのうち、少な
くとも一つの信号の提示によって、利用者の注意を喚起
する注意喚起手段と、情報出力手段から情報を提示する
際に、注視対象情報に応じて、注意喚起手段を通じて、
利用者の注意を喚起するための信号を適宜提示するよう
制御する第２の制御手段とを更に具備する。

【００６９】この構成の場合、文字情報、音声情報、静
止画像情報、動画像情報、力の提示など少なくとも一つ
の信号の提示によって、利用者の注意を喚起する注意喚
起手段があり、第２の制御手段は、情報出力手段から情
報を提示する際に、注視対象情報に応じて、注意喚起手
段を通じて、利用者の注意を喚起するための信号を適宜
提示するよう制御する。

【００７０】［７］第７には、注視対象情報あるい
は、カメラ、マイク、キーボード、スイッチ、ポインテ
ィングデバイス、センサなどの入力手段のうち、少なく
とも一つの入力手段を用いて、該注意喚起のための信号
に対する利用者の反応を検知し、これを利用者反応情報
として出力する反応検知手段と、利用者反応情報の内容
に応じて、情報出力手段の動作状況および注意喚起手段
の少なくとも一つを適宜制御する制御手段を設ける。

【００７１】このような構成において、注視対象情報あ
るいは、カメラ、マイク、キーボード、スイッチ、ポイ
ンティングデバイス、センサなどの入力手段を用いて、
該注意喚起のための信号に対する利用者の反応を検知し
利用者反応情報として出力する反応検知手段があり、制
御手段は、利用者反応情報の内容に応じて、情報出力手
段の動作状況およぴ注意喚起手段の少なくとも一つを適
宜制御するようにしたものである。

【００７２】［８］第８には、利用者の注視対象を検
出する検出手段と、利用者の音声入力情報、操作入力情
報、画像入力情報のうち、少なくとも一つ以上の入力情
報を取得する他メディア入力手段と、利用者と対面して
サービスを提供する擬人化されたエージェント人物の画
像であって、該エージェント人物画像は利用者に所要の
ジェスチャ、表情変化を持つ画像による非言語メッセー
ジとして当該画像を提示する擬人化イメージ提示手段
と、文字情報、音声情報、静止画像情報、動画像情報、
力の提示などのうち、少なくとも一つの信号の提示によ
り、利用者に対して情報を出力する情報出力手段と、前
記擬人化イメージ提示手段を通しての非言語メッセージ
の提示により、利用者の注意を喚起する注意喚起手段
と、注視対象情報あるいは、カメラ、マイク、キーボー
ド、スイッチ、ポインティングデバイス、センサなどか
らの入力情報のうち、少なくとも一つの情報を参照し
て、前記注意喚起のための信号に対する利用者の反応を
検知し、利用者反応情報として出力する反応検知手段
と、該注視対象情報に応じて、少なくとも一つの他メデ
ィア入力処理手段の、入力受付可否、あるいは処理ある
いは認識動作の開始、終了、中断、再開、処理レベルの
調整などの動作状況を適宜制御し、注視対象情報を参照
して、メディア入力認識手段からの入力を受付可否を切
替える際に、利用者へ、文字情報、音声情報、静止画像
情報、動画像情報、力の提示、あるいは、擬人化イメー
ジ提示手段を通じて利用者への非言語メッセージによる
信号を適宜提示するよう制御し、該注視対象情報を参照
して、少なくとも一つの情報出力手段の、出力の開始、
終了、中断、再開、処理レベルの調整などの動作状況を
適宜制御し、情報出力手段から情報を提示する際に、注
視対象情報に応じて、注意喚起手段を通じて、利用者の
注意を喚起するための信号を適宜提示するよう制御し、
利用者反応情報の内容に応じて、情報出力手段の動作状
況および注意喚起手段の少なくとも一つを適宜制御する
制御手段とを具備する。

【００７３】このような構成においては、注視対象を検
出する検出手段、具体的には、利用者を観察するカメラ
や利用者が装着したカメラなどから入力される視覚情報
を用いた視線検出処理や、利用者の視線の動きを検出す
るアイトラッカや、利用者の頭部の動きを検出するヘッ
ドトラッカや、着席センサ、対人センサなどによって、
利用者が、現在見ているか、あるいは向いている、場
所、領域、方向、物、あるいはその部分を検出して、注
視対象情報としてを出力する検出手段があり、音声入力
や、ジェスチャ入力や、キーボード入力や、ポインティ
ングデバイスを用いた入力や、カメラからの視覚入力情
報や、マイクからの音声入力情報や、キーボード、タッ
チパネル、ペン、マウスなどポインティングデバイス、
データグローブなどからの操作入力情報など、利用者の
注視対象以外を表す利用者からの入力情報を受け取り、
処理を行なう少なくとも一つの他メディア入力処理手段
と、利用者と対面してサービスを提供する人物、生物、
機械、あるいはロボットなどとして擬人化されたエージ
ェント人物の、静止画あるいは動画による画像情報と、
利用者へ、うなづき、身振り、手振り、などのジェスチ
ャや、表情変化など、任意個数、任意種類の非言語メッ
セージを提示する提示する擬人化イメージ提示手段と、
利用者へ、文字情報、音声情報、静止画像情報、動画像
情報、力の提示など少なくとも一つの信号の提示によっ
て、情報を出力する少なくとも一つの情報出力手段と、
利用者へ、文字情報、音声情報、静止画像情報、動画像
情報、力の提示など少なくとも一つの信号の提示あるい
は、擬人化イメージ提示手段を通じての非言語メッセー
ジの提示によって、利用者の注意を喚起する注意喚起手
段と、注視対象情報あるいは、カメラ、マイク、キーボ
ード、スイッチ、ポインティングデバイス、センサなど
からの入力情報を参照して、該注意喚起のための信号に
対する利用者の反応を検知し利用者反応情報として出力
する反応検知手段があり、制御手段は、前記注視対象情
報に応じて、少なくとも一つの他メディア入力処理手段
の、入力受付可否、あるいは処理あるいは認識動作の開
始、終了、中断、再開、処理レベルの調整などの動作状
況を適宜制御し、注視対象情報を参照して、メディア入
力認識手段からの入力を受付可否を切替える際に、利用
者へ、文字情報、音声情報、静止画像情報、動画像情
報、力の提示、あるいは、擬人化イメージ提示手段を通
じて利用者への非言語メッセージによる信号を適宜提示
するよう制御し、該注視対象情報を参照して、少なくと
も一つの情報出力手段の、出力の開始、終了、中断、再
開、処理レベルの調整などの動作状況を適宜制御し、情
報出力手段から情報を提示する際に、注視対象情報に応
じて、注意喚起手段を通じて、利用者の注意を喚起する
ための信号を適宜提示するよう制御し、利用者反応情報
の内容に応じて、情報出力手段の動作状況および注意喚
起手段の少なくとも一つを適宜制御するものである。

【００７４】［９］また、第９には、マルチモーダル
インタフェース方法として、利用者の注視対象を検出
し、利用者の音声、ジェスチャ、操作手段による利用者
の操作情報などのうち、少なくとも一つの情報への処理
について、前記注視対象情報に応じて、入力受付の選
択、あるいは処理あるいは認識動作の開始、終了、中
断、再開、処理レベルの調整などの動作状況を適宜制御
するようにした。また、利用者の注視対象を検出すると
ともに、利用者と対面してサービスを提供する擬人化さ
れたエージェント人物の画像を画像情報として利用者へ
提示し、また、注視対象情報を基に、注視対象が前記エ
ージェン卜人物画像のどの部分かに応じて、利用者の音
声、ジェスチャ、操作手段による利用者の操作情報など
の受付を選択するようにした。

【００７５】すなわち、マルチモーダル入力にあたって
は、利用者を観察するカメラや利用者が装着したカメラ
などから入力される視覚情報を用いた視線検出処理や、
利用者の視線の動きを検出するアイトラッカや、利用者
の頭部の動きを検出するヘッドトラッカや、着席セン
サ、対人センサなどによって、利用者が、現在見ている
か、あるいは向いている、場所、領域、方向、物、ある
いはその部分を検出して注視対象情報としてを出力し、
音声入力や、ジェスチャ入力や、キーボード入力や、ポ
インティングデバイスを用いた入力や、カメラからの視
覚入力情報や、マイクからの音声入力情報や、キーボー
ド、タッチパネル、ぺン、マウスなどポインティングデ
バイス、データグローブなどからの操作入力情報など、
利用者の注視対象以外を表す利用者からの少なくとも一
つの入力情報への処理について、注視対象情報に応じ
て、入力受付可否、あるいは処理あるいは認識動作の開
始、終了、中断、再開、処理レベルの調整などの動作状
況を適宜制御する方法である。

【００７６】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止画あるいは動画によ
る画像情報を、利用者ヘ提示し、注視対象情報に応じ
て、注視対象が、擬人化イメージ提示手段で提示される
エージェント人物の、全体、あるいは、顔、目、口、耳
など一部を指しているか否かに応じて、他メディア入力
認識手段からの入力を受付可否を切替えるものである。

【００７７】また、注視対象情報を参照して、メディア
入力認識手段からの入力を受付可否を切替える際に、利
用者へ、文字情報、音声情報、静止画像情報、動画像情
報、力の提示など少なくとも一つの信号の提示によっ
て、フィードバック信号を提示する。

【００７８】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止面あるいは動画によ
る画像情報と、利用者ヘ、うなづき、身振り、手振り、
などのジェスチャや、表情変化など、任意個数、任意種
類の非言語メッセージを提示し、注視対象情報を参照し
て、メディア入力認識手段からの入力を受付可否を切替
える際に、擬人化イメージ提示手段を通じて利用者への
非言語メッセージによる信号を適宜提示する。

【００７９】［１０］第１０には、文字情報、音声情
報、静止画像情報、動画像情報、力の提示などのうち、
少なくとも一つの信号の提示によって、利用者に情報を
提供するにあたり、利用者の注視対象を検出し、この検
出された注視対象情報を参照して、前記提示の開始、終
了、中断、再開、処理レベルの調整などの動作状況を制
御するようにする。

【００８０】また、情報を提示する際に、注視対象情報
に応じて、利用者へ、文字情報、音声情報、静止画像情
報、動画像情報、力の提示などのうち、少なくとも一つ
の信号の提示によって、利用者の注意を喚起するように
する。また、注意喚起のための信号に対する利用者の反
応を検知し、利用者反応情報として得ると共に、利用者
反応情報内容に応じて、利用者の音声入力情報、操作入
力情報、画像入力情報の取得および注意喚起の少なくと
も一つを制御するようにする。

【００８１】このように、利用者の注視対象を検知して
その情報を注視対象情報として得る。具体的には利用者
を観察するカメラや利用者が装着したカメラなどから入
力される視覚情報を用いた視線検出処理や、利用者の視
線の動きを検出するアイトラッカや、利用者の頭部の動
きを検出するヘッドトラッカや、着席センサ、対人セン
サなどによって、利用者が、現在見ているか、あるいは
向いている、場所、領域、方向、物、あるいはその部分
を検出して、注視対象情報として得る。そして、利用者
へ、文字情報、音声情報、静止画像情報、動画像情報、
力の提示など少なくとも一つの信号の提示によって、情
報を出力する際に、この注視対象情報を参照して、出力
の開始、終了、中断、再開、処理レベルの調整などの動
作状況を適宜制御する。

【００８２】また、情報出力手段から情報を提示する際
に、注視対象情報に応じて、利用者へ、文字情報、音声
情報、静止画像情報、動画像情報、力の提示など少なく
とも一つの信号の提示によって、利用者の注意を喚起す
る。

【００８３】また、注視対象情報あるいは、カメラ、マ
イク、キーボード、スイッチ、ポインティングデバイ
ス、センサなどの入力手段を用いて、該注意喚起のため
の信号に対する利用者の反応を検知し利用者反応情報と
して出力し、利用者反応情報の内容に応じて、情報出力
手段の動作状況および注意喚起手段の少なくとも一つを
適宜制御する。

【００８４】［１１］第１１には、利用者の注視対象
を検出して注視対象情報として出力し、利用者に対面し
てサービスを提供する擬人化されたエージェント人物画
像であって該エージェント人物画像は利用者に所要のジ
ェスチャ、表情変化を持つ画像による非言語メッセージ
として提示するようにし、また、文字情報、音声情報、
静止画像情報、動画像情報、力の提示などのうち、少な
くとも一つの信号の提示によって、利用者に情報を出力
し、利用者の音声入力情報、ジェスチャ入力情報、操作
入力情報のうち、少なくとも一つ以上の入力情報を受
け、処理を行なう際に、注視対象情報に応じて、入力受
付可否、あるいは処理あるいは認識動作の開始、終了、
中断、再開、処理レベルの調整などの動作状況を制御す
る。また、注視対象情報を参照して、入力を受付可否を
切替える際に、利用者へ、文字情報、音声情報、静止画
像情報、動画像情報、力の提示、あるいは、擬人化イメ
ージ人物画像により所要の提示をする。

【００８５】［１２］第１２には、利用者の注視対象
を検出して注視対象情報として出力し、利用者に対面し
てサービスを提供する擬人化されたエージェント人物画
像であって該エージェント人物画像は利用者に所要のジ
ェスチャ、表情変化を持つ画像による非言語メッセージ
として提示するようにし、また、文字情報、音声情報、
静止画像情報、動画像情報、力の提示などのうち、少な
くとも一つの信号の提示によって、利用者に情報を出力
し、利用者の音声入力情報、ジェスチャ入力情報、操作
入力情報のうち、少なくとも一つ以上の入力情報を受
け、処理を行なう際に、注視対象情報に応じて、入力受
付可否、あるいは処理あるいは認識動作の開始、終了、
中断、再開、処理レベルの調整などの動作状況を制御す
ることを特徴とする。

【００８６】また、注視対象情報を参照して、入力を受
付可否を切替える際に、利用者へ、文字情報、音声情
報、静止画像情報、動画像情報、力の提示、あるいは、
擬人化イメージ人物画像により所要の提示をすることを
特徴とする。

【００８７】これは、利用者を観察するカメラや利用者
が装着したカメラなどから入力される視覚情報を用いた
視線検出処理や、利用者の視線の動きを検出するアイト
ラッカや、利用者の頭部の動きを検出するヘッドトラッ
カや、着席センサ、対人センサなどによって、利用者
が、現在見ているか、あるいは向いている、場所、領
域、方向、物、あるいはその部分を検出して、注視対象
情報としてを出力し、利用者と対面してサービスを提供
する人物、生物、機械、あるいはロボットなどとして擬
人化されたエージェント人物の、静止画あるいは動画に
よる画像情報と、利用者へ、うなづき、身振り、手振
り、などのジェスチャや、表情変化など、任意個数、任
意種類の非言語メッセージを提示する提示し、利用者
へ、文字情報、音声情報、静止画像情報、動面像情報、
力の提示など少なくとも一つの信号の提示によって、情
報を出力し、音声入力や、ジェスチャ入力や、キーボー
ド入力や、ポインティングデバイスを用いた入力や、カ
メラからの視覚入力情報や、マイクからの音声入力情報
や、キーボード、タッチパネル、ぺン、マウスなどポイ
ンティングデバイス、データグローブなどからの操作入
力情報など、利用者の注視対象以外を表す利用者からの
入力情報を受けとり処理を行なう際に、注視対象情報に
応じて、入力受付可否、あるいは処理あるいは認識動作
の開始、終了、中断、再開、処理レベルの調整などの動
作状況を適宜制御する方法である。

【００８８】また、注視対象情報を参照して、入力を受
付可否を切替える際に、利用者へ、文字情報、音声情
報、静止画像情報、動画像情報、力の提示、あるいは、
擬人化イメージ提示手段を通じて利用者への非言語メッ
セージによる信号を適宜提示する方法である。

【００８９】また、注視対象情報あるいは、カメラ、マ
イク、キーボード、スイッチ、ポインティングデバイ
ス、センサなどからの入力情報を参照して、該注意喚起
のための信号に対する利用者の反応を検知し利用者反応
情報として出力し、利用者反応情報の内容に応じて、情
報出力手段の動作状況および注意喚起手段の少なくとも
一つを適宜制御する。

【００９０】以上、本発明は、視線検出等の技術を用
い、利用者の注視対象を検出するとともに、その検出し
た注視対象に応じて他メディアからの入力の受付可否
や、認識処理、あるいは出力の提示方法や中断、確認等
を制御するようにしたものであって、特に擬人化インタ
ーフェースでは例えば顔を見ることによって会話を開始
できるようにする等、人間同士のコミュニケーションで
の非言語メッセージの使用法や役割をシミュレートする
ようにシステムに応用したものである。

【００９１】従って、本発明によれば、複数種の入出力
メディアを効率的、効果的に利用することができ、利用
者の負担を軽減できて人間同士のコミュニケーションに
近い状態で自然な対話ができるようにしたインタフエー
スを提供できる。

【００９２】また、各メディアからの入力の解析精度が
不十分であるための誤動作や、あるいは周囲雑音による
誤動作や、あるいは入力デバイスから刻々得られる信号
の中から、利用者が入力メッセージとして意図した信号
部分の切り出しの失敗などに起因する誤動作などによる
利用者への負担を解消するインタフェースを提供でき
る。

【００９３】また、音声やジェスチャなどのように、利
用者が現在の操作対象である計算機などへの入力として
用いるだけでなく、人間同士の対話に用いるメディアを
用いたインタフェース装置では、利用者が、操作中のマ
ルチモーダルシステムのインタフェース装置にではな
く、たとえば自分の横にいる他人に対して話しかけた
り、ジェスチャを示したりした場合にも、利用者がマル
チモーダルシステムのそばにいるがために、そのマルチ
モーダルシステムのインタフェース装置が自己への入力
であると判断してしまうことになり誤動作の原因となる
が、その場合でもこのような事態を解消でき、誤動作に
伴う取消操作や、誤動作の影響の復旧のための処置や、
誤動作を避けるために利用者が絶えず注意を払わなくて
はならないといった負荷を含め、利用者への負担を解消
することができるインタフェースを提供できる。

【００９４】また、システムの処理動作状態から、本来
メディア入力の情報識別が不要な場面においても、入力
信号の処理が継続的に行なわれることによってその割り
込み処理のために、現在処理中の作業の遅延を招くとい
う悪影響をなくすべく、不要な場面でのメディア入力に
対する処理負荷を解消できるようにすることにより、利
用している装置に関与する他のサービスの実行速度や利
用効率の低下を抑制できるようにしたインタフェースを
提供できる。

【００９５】また、音声やジェスチャなどの入力を行な
う際に、たとえば、ボタンを押したり、メニュー選択な
どによるモード変更などといった、特別な操作を必要と
しない構成とすることにより、煩雑さを伴わず、自然
で、しかも、習得のための訓練などが不要で、利用者に
負担を与えないインタフェースを提供できる。

【００９６】また、本発明によれば、音声メディアによ
る入力の場合、本来、口だけを用いてコミュニケーショ
ンが出来るため、例えば手で行なっている作業を妨害す
ることがなく、双方を同時に利用することが可能である
と言う、音声メディア本来の利点を、阻害することなく
活用できるインタフェースを提供できる。

【００９７】また、例えば、音声出力や、動画像情報
や、複数画面に亙る文字や面像情報など、提示される情
報が提示してすぐ消滅したり、刻々変化したりする一過
性のメディアも用いて利用者に情報提示する際に、利用
者がその情報に注意を払っていなかった場合にも、提示
された情報の一部あるいは全部を利用者が受け取れない
といったことのないようにしたインタフェースを提供で
きる。

【００９８】また、一過性のメディアも用いて利用者に
情報提示する際、利用者が一度に受け取れる分量毎の情
報を提示して、継続する次の情報を提示する際に、利用
者が何らかの特別な操作を行なうといった負担を負わせ
ることなく、円滑に情報提示できるようになるインタフ
ェースを提供できる。

【００９９】また、擬人化エージェント人物画像で現在
の様々な状況を表示するようにし、利用者の視線を検知
して、利用者が注意を向けている事柄を知って、対処す
るようにしたので、人間同士のコミュニケーションに近
い形でシステムと人間との対話を進めることができるよ
うになるインタフェースを提供できる。

【０１００】また、バックグラウンド（ii）に関する課
題、すなわち、非接触遠隔操作を可能にし、誤認識を防
止し、利用者の負担を解消するために、擬人化エージェ
ントに利用者の指し示したジェスチャの指示対象を、注
視させるようにし、これにより、システムの側で認識で
きなくなったり、システム側での認識結果が誤っていな
いかなどが、利用者の側で直感的にわかるようにするべ
く、本発明は次のように構成する。すなわち、［１３］利用者からの音声入力を取り込むマイク、あ
るいは利用者の動作や表情などを観察するカメラ、ある
いは利用者の目の動きを検出するアイトラッカ、あるい
は頭部の動きを検知するヘッドトラッカ、あるいは手や
足など体の一部あるいは全体の動きを検知する動きセン
サ、あるいは利用者の接近、離脱、着席などを検知する
対人センサのうち少なくとも一つからなり、利用者から
の入力を随時取り込み入力情報として出力する入力手段
と、該入力手段から得られる入力情報を受け、音声検出
処理、音声認識、形状検出処理、画像認識、ジェスチャ
認識、表情認識、視線検出処理、あるいは動作認識の少
なくとも一つの処理を施すことによって、該利用者から
の入力を、受付中であること、受け付け完了したこと、
認識成功したこと、あるいは認識失敗したこと、などと
いった利用者からの入力の受け付け状況を、動作状況情
報として出力する入力認識手段と、警告音、合成音声、
文字列、画像、あるいは動画を用い、フィードバックと
して利用者に提示する出力手段と、該入力認識手段から
得られる該動作状況情報に応じて、該出力手段を通じ
て、利用者にフィードバック情報を提示する制御手段を
具備したことを特徴とする。

【０１０１】［１４］また、カメラ（撮像装置）など
の画像入力手段によって利用者の画像を取り込み、入力
情報として例えばアナログデジタル変換された画像情報
を出力する入力手段と、前記入力手段から得られる画像
情報に対して、例えば前時点の画像との差分抽出やオプ
ティカルフローなどの方法を適用することで、例えば動
領域を検出し、例えばパターンマッチング技術などの手
法によって照合することで、入力画像から、ジェスチャ
入力を抽出し、これら各処理の進行状況を動作状況情報
として随時出力する入力認識手段と、該入力認識手段か
ら得られる動作状況情報に応じて、文字列や画像を、あ
るいはブザー音や音声信号などを、例えば、ＣＲＴディ
スプレイやスピーカといった出力手段から出力するよう
制御する制御部を持つことを特徴とする。

【０１０２】［１５］また、入力手段から得られる入
力情報、および入力認識手段から得られる動作状況情報
の少なくとも一方の内容に応じて、利用者へのフィード
バックとして提示すべき情報であるフィードバック情報
を生成するフィードバック情報生成手段を具備したこと
を特徴とする。

【０１０３】［１６］また、利用者と対面してサービ
スを提供する人物、生物、機械、あるいはロボットなど
として擬人化されたエージェント人物の、静止画あるい
は動画による画像情報を、利用者へ提示する擬人化イメ
ージを生成するフィードバック情報生成手段と、入力認
識手段から得られる動作状況情報に応じて、利用者に提
示すべき擬人化イメージの表情あるいは動作の少なくと
も一方を決定し、出力手段を通じて、例えば指し示しジ
ェスチャの指し示し先、あるいは例えば指先や顔や目な
ど、利用者がジェスチャ表現を実現している部位あるい
はその一部分など、注視する表情であるフィードバック
情報を生成するフィードバック情報生成手段と、利用者
に該フィードバック情報生成手段によって生成されたフ
ィードバック情報を、出力手段から利用者へのフィード
バック情報として提示する制御手段を具備したことを特
徴とする。

【０１０４】［１７］また、入力手段の空間的位置、
および出力手段の空間的位置に関する情報、および利用
者の空間的位置に関する情報の少なくとも一つを配置置
情報として保持する配置情報記憶手段と、利用者の入力
した指し示しジェスチャの参照物、利用者、利用者の顔
や手などの空間位置を表す参照物位置情報を出力する入
力認識手段と、該配置情報記憶手段から得られる配置情
報と、該入力認識手段から得られる参照物位置情報と、
動作状況情報との少なくとも一つを参照して、擬人化エ
ージェントの動作、あるいは表情、あるいは制御タイミ
ングの少なくとも一つを決定し、フィードバック情報と
して出力するフィードバック手段を具備したことを特徴
とする。

【０１０５】［１８］また、利用者からの音声入力を
取り込むマイク、あるいは利用者の動作や表情などを観
察するカメラ、あるいは利用者の目の動きを検出するア
イトラッカ、あるいは頭部の動きを検知するヘッドトラ
ッカ、あるいは手や足など体の一部あるいは全体の動き
を検知する動きセンサ、あるいは利用者の接近、離脱、
着席などを検知する対人センサのうち少なくとも一つか
らなり、利用者からの入力を随時取り込み入力情報とし
て出力する入力ステップと、該入力ステップによって得
られる該入力情報を受け、音声検出処理、音声認識、形
状検出処理、画像認識、ジェスチャ認識、表情認識、視
線検出処理、あるいは動作認識の少なくとも一つの処理
を施すことによって、該利用者からの入力を、受付中で
あること、受け付け完了したこと、認識成功したこと、
あるいは認識失敗したこと、などといった利用者からの
入力の受け付け状況を、動作状況情報として出力する入
力認識ステップと、警告音、合成音声、文字列、画像、
あるいは動画を用い、フィードバックとして利用者に提
示する出力ステップと、入力認識ステップによって得ら
れる動作状況情報に基づいて、出力ステップを制御し
て、フィードバックを利用者に提示することを特徴とす
る。

【０１０６】［１９］また、利用者と対面してサービ
スを提供する人物、生物、機械、あるいはロボットなど
として擬人化されたエージェント人物の、静止画あるい
は動画による画像情報を、入力認識ステップから得られ
る動作状況情報に応じて、利用者に提示すべき擬人化イ
メージ情報として生成するフィードバック情報生成ステ
ップと、入力認識ステップによって得られる動作状況情
報に基づいて、フィードバック情報生成ステップと、出
力ステップを制御することによって、たとえば音声入力
がなされた時点で擬人化エージェントによって例えば、
「うなずき」の表情を提示するなど、利用者にフィード
バックを提示することを特徴とする。

【０１０７】［２０］また、利用者の入力した指し示
しジェスチャの参照物、利用者、利用者の顔や手などの
空間位置に関する情報である位置情報を出力する認識ス
テップと、入力部の空間的位置、および出力部の空間的
位置に関する情報、および利用者の空間的位置に関する
情報の少なくとも一つを配置情報として保持する配置情
報記憶ステップと、位置情報、および配置情報、動作状
況情報の少なくとも一つに応じて、例えば、利用者の指
し示しジェスチャの対象である参照物を、随時注視する
表情を提示するなど利用者にフィードバックを提示する
ことを特徴とするものである。

【０１０８】そして、このような構成の本システムは、
利用者からの音声入力を取り込むマイク、あるいは利用
者の動作や表情などを観察するカメラ、あるいは利用者
の目の動きを検出するアイトラッカあるいは頭部の動き
を検知するヘッドトラッカー、あるいは手や足など体の
一部あるいは全体の動きを検知する動きセンサ、あるい
は利用者の接近、離脱、着席などを検知する対人センサ
などによる入力手段のうち、少なくとも一つから入力さ
れる利用者からの入力を随時取り込み、入力情報として
得、これを音声検出処理、音声認識、形状検出処理、画
像認識、ジェスチャ認識、表情認識、視線検出処理、あ
るいは動作認識のうち、少なくとも一つの認識処理を施
すことによって、該利用者からの入力に対する受付状況
の情報、すなわち、受付中であること、受け付け完了し
たこと、認識成功したこと、あるいは認識失敗したこ
と、などといった利用者からの入力の受付状況の情報を
動作状況情報として得、得られた動作状況情報に基づい
て、警告音、合成音声、文字列、画像、あるいは動画を
用い、利用者に対するシステム側からのフィードバック
（すなわち、システム側から利用者に対する認識状況対
応の反応）として、利用者に提示するものである。

【０１０９】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止画あるいは動画によ
る画像情報を、フィードバック情報認識手段から得られ
る動作状況情報に応じて、利用者に提示すべき擬人化イ
メージ情報として生成し、これを表示することで、たと
えば音声入力がなされた時点で擬人化エージェントによ
って例えば「うなずき」の表情を提示するなど利用者に
フィードバックを提示する。

【０１１０】また、認識手段により画像認識して、利用
者の入力した指し示しジェスチャの参照物、利用者、利
用者の顔や手などの空間位置に関する情報である位置情
報を得、配置情報記憶手段により入力部の空間的位置、
および出力部の空間的位置に関する情報、および利用者
の空間的位置に関する情報の少なくとも一つを配置情報
として保持し、位置情報、および配置情報、動作状況情
報の少なくとも一つに応じて、例えば、利用者の指し示
しジェスチャの対象である参照物を、随時注視する表情
を提示するなど利用者にフィードバックを提示する。

【０１１１】このように、利用者がシステムから離れた
位置や、あるいは機器に非接触状態で行った指し示しジ
ェスチャを認識させ、そのジェスチャによる指示を入力
させることが出来るようになり、かつ、誤認識なくジェ
スチャ認識を行えて、ジェスチャ抽出の失敗を無くすこ
とができるようになるマルチモーダルインタフェース装
置およびマルチモーダルインタフェース方法を提供する
ことができる。また、利用者が入力意図したジェスチャ
を開始した時点あるいは入力を行っている途中の時点
で、システムがそのジェスチャ入力を正しく抽出してい
るか否かを知ることができ、利用者が再入力を行わなく
てはならなくなるな負担を解消できるマルチモーダルイ
ンタフェース装置およびマルチモーダルインタフェース
方法を提供できる。また、実世界の場所やものなどを参
照するための利用者からの指し示しジェスチャ入力に対
して、その指し示し先として、どの場所、あるいはどの
物体あるいはそのどの部分を受け取ったかを適切に表示
することができるマルチモーダルインタフェース装置お
よびマルチモーダルインタフェース方法を提供できる。

【０１１２】

【発明の実施の形態】以下、図面を参照して本発明の実
施例を説明するが、初めに上述のバックグラウンド
（ｉ）に関わるその解決策としての発明の実施例を説明
する。

【０１１３】（第１の実施例）本発明は、視線検出等の
技術を使用し、利用者の注視対象に応じて他メディアか
らの入力の受付可否や、認識処理、あるいは出力の提示
方法や中断、確認等を制御するもので、特に擬人化イン
ターフェースでは例えば顔を見ることによって会話を開
始できるようにする等、人間同士のコミュニケーション
での非言語メッセージの使用法や役割をシミュレートす
ることで、利用者にとって自然で負担がなく、かつ確実
なヒューマンインタフェースを実現する。

【０１１４】以下、図面を参照して、本発明の第１の実
施例に係るマルチモーダル対話装置について詳細に説明
する。

【０１１５】本発明は種々のメディアを駆使して、より
自然な対話を進めることができるようにしたマルチモー
ダル対話装置におけるヒューマンインタフェースに関わ
るものであり、発明の主体はヒューマンインタフェース
（マルチモーダルインタフェース）の部分にあるが、マ
ルチモーダル対話装置全体から、それぞれ必要な構成要
素とその機能を抽出し組み合わせることによって、イン
タフェース部分の各種構成が実現可能であるため、ここ
では、マルチモーダル対話装置に係る一実施形態を示す
こととする。

【０１１６】＜本装置の構成の説明＞図１は、本発明の
一例としてのマルチモーダル対話装置の構成例を示した
ブロック図であり、図に示す如く、本装置は注視対象検
出部１０１、他メディア入力部１０２、擬人化イメージ
提示部１０３、情報出力部１０４、注意喚起部１０５、
反応検知部１０６、および制御部１０７から構成されて
いる。

【０１１７】これらのうち、注視対象検出部１０１は、
当該マルチモーダル対話装置の利用者の視線方向を検出
して、当該利用者が向いている“場所”、“領域”、
“方向”、“物”、あるいはその“部分”を検出し、注
視対象情報としてを出力する装置である。この注視対象
検出部１０１は、例えば、利用者の眼球運動を観察する
アイトラッカ装置や、利用者の頭部の動きを検出するヘ
ッドトラッカ装置や、着席センサや、例えば、特開平０
８−０５９０７１号公報「視箇所推定装置とその方法」
に開示されている方法などによって、利用者を観察する
カメラや利用者が装着したカメラから得られる画像情報
を処理し、利用者の視線方向の検出することなどによっ
て、利用者が、“現在見ている”か、あるいは利用者が
向いている“場所”、“領域”、“方向”、“物”、あ
るいはその“部分”を検出して、注視対象情報としてを
出力するようにしている。

【０１１８】また、注視対象検出部１０１では、任意の
注視対象となる物体の全部あるいは位置部分や、任意の
注視対象となる領域と、その注視対象の記述（名称な
ど）の組を予め定義して保存しておくことによって、注
視対象記述を含む注視対象情報と、利用者がその注視対
象を注視した時間に関する情報を出力するようにしてい
る。

【０１１９】図２は、当該注視対象検出部１０１により
出力される注視対象情報の例を表しており、注視対象情
報が、“注視対象情報ＩＤ”、“注視対象記述情報
Ａ”、“時間情報Ｂ”、などから構成されていることを
示している。

【０１２０】図２に示した注視対象情報では、“注視対
象情報ＩＤ”の欄には“Ｐ１０１”，“Ｐ１０２”，
“Ｐ１０３”，…“Ｐ２０１”，…といった具合に、対
応する注視対象情報の識別記号が記録されている。

【０１２１】また、“注視対象記述Ａ”の欄には、“擬
人化イメージ”，“他人物”，“出力領域”，“画面外
領域”，…といった具合に、注視対象検出部１０１によ
って検出された注視対象の記述が記録され、また、“時
間情報Ｂ”の欄には“ｔ３”，“ｔ１０”，“ｔ１
５”，“ｔ１８”，…といった具合に、利用者が、対応
する注視対象を注視した時点に関する時間情報が記録さ
れている。

【０１２２】すなわち、利用者が注視行動をとり、それ
が検出される毎に“Ｐ１０１”，“Ｐ１０２”，“Ｐ１
０３”，“Ｐ１０４”，“Ｐ１０５”，…といった具合
に順に、ＩＤ（識別符号）が付与され、その検出された
注視行動の対象が何であるか、そして、それが行われた
時点がいつであるのかが、注視対象情報として出力され
る。

【０１２３】図２の例はＩＤが“Ｐ１０１”の情報は、
注視対象が“擬人化イメージ”であり、発生時点は“ｔ
３”であり、ＩＤが“Ｐ１０２”の情報は、注視対象が
“他人物”であり、発生時点は“ｔ１０”であり、ＩＤ
が“Ｐ１０６”の情報は、注視対象が“出力領域”であ
り、発生時点は“ｔ２２ａ”であるといったことを示し
ている。

【０１２４】図１における他メディア入力部１０２は、
種々の入力デバイスから得られる利用者からの入力情報
を取得するためのものであって、その詳細な構成例を図
３に示す。

【０１２５】すなわち、他メディア入力部１０２は、図
３に示すように、入力デバイス部とデータ処理部とに別
れており、これらのうち、データ処理部の構成要素とし
ては、音声認識装置１０２ａ、文字認識装置１０２ｂ、
言語解析装置１０２ｃ、操作入力解析装置１０２ｄ、画
像認識装置１０２ｅ、ジェスチャ解析装置１０２ｆ等か
が該当する。また、入力デバイス部の構成要素として
は、マイク（マイクロフォン）１０２ｇ、キーボード１
０２ｈ、ペンタブレット１０２ｉ、ＯＣＲ（光学文字認
識装置）１０２ｊ、マウス１０２ｋ、スイッチ１０２
ｌ、タッチパネル１０２ｍ、カメラ１０２ｎ、データグ
ローブ１０２ｏ、データスーツ１０２ｐ、さらにはアイ
トラッカ、ヘッドトラッカ、対人センサ、着席センサ、
…等が該当する。

【０１２６】これらのうち、音声認識装置１０２ａは、
マイク１０２ｇの音声出力信号を解析して単語の情報に
して順次出力する装置であり、文字認識装置１０２ｂ
は、ペンタブレット１０２ｉやＯＣＲ１０２ｊから得
られる文字パターン情報を基に、どのような文字である
かを認識し、その認識した文字情報を出力するものであ
る。

【０１２７】また、言語解析装置１０２ｃは、キーボー
ド１０２ｈからの文字コード情報、音声認識装置１０２
ａや文字認識装置１０２ｂからの文字情報を基に、言語
解析して利用者の意図する内容を利用者入力情報として
出力する装置である。

【０１２８】また、操作入力解析装置１０２ｄは、マウ
ス１０２ｋやスイッチ１０２ｌ、あるいはタッチパネル
１０２ｍなどによる利用者の操作情報を解析して、利用
者の意図する内容を利用者入力情報として出力する装置
である。また、画像認識装置１０２ｅは、逐次、カメラ
１０２ｎで得た利用者の画像から、利用者のシルエット
や、視線、顔の向き等を認識してその情報を出力する装
置である。

【０１２９】また、データグローブ１０２ｏは、各所に
各種センサを設けたものであり、利用者の手に当該グロ
ーブをはめることにより、指の曲げや指の開き、指の動
き等の情報を出力することができる装置であり、データ
スーツ１０２ｐは各所に各種のセンサを取り付けたもの
で、利用者に当該データスーツ１０２ｐを着せることに
より、利用者の体の動き情報を種々得ることができるも
のである。

【０１３０】ジェスチャ解析装置１０２ｆは、これらデ
ータスーツ１０２ｐやデータグローブ１０２ｏからの情
報、あるいは画像認識装置１０２ｅからの情報を基に、
使用者の示した行動がどのようなジェスチャであるかを
解析してその解析したジェスチャ対応の情報を利用者入
力情報として出力するものである。

【０１３１】すなわち、他メディア入力部１０２は、マ
イク１０２ｇや、カメラ１０２ｎ、キーボード１０２
ｈ、タッチパネル１０２ｍ、ペンタブレット１０２ｉ、
そして、マウス１０２ｋ（あるいはトラックボール）な
どのポインティングデバイス、あるいはデータグローブ
１０２ｏや、データスーツ１０２ｐ、さらにはアイトラ
ッカ、ヘッドトラッカ、ＯＣＲ１０２ｊ、そして、さら
には図３には示さなかったが、対人センサ、着席セン
サ、などを含め、これらのうちの少なくとも一つの入力
デバイスを通じて得られる利用者からの音声情報、視覚
情報、操作情報などの入力に対して、取り込み、標本
化、コード化、ディジタル化、フイルタリング、信号変
換、記録、保存、パターン認識、言語／音声／画像／動
作／操作の解析、理解、意図抽出など、少なくとも一つ
の処理を処理を行なうことによって利用者からの装置へ
の入力である利用者入力情報を得る様にしている。

【０１３２】なお、図３は、他メディア入力部の構成の
一例を示したものに過ぎず、その構成要素およびその数
およびそれら構成要素間の接続関係はこの例に限定され
るものではない。

【０１３３】図１における擬人化イメージ提示部１０３
は、身振り、手振り、顔表情の変化などのジェスチャ
を、利用者に対して像として提示するための装置であ
り、図４に擬人化イメージ提示部１０３の出力を含むデ
ィスプレイ画面の例を示す。

【０１３４】図４において、１０３ａは擬人化イメージ
を提示するための表示領域であり、１０２ｂは情報を出
力するための表示領域である。擬人化イメージ提示部１
０３は、マルチモーダル対話装置が利用者に対して対話
する上で、提示したい意図を、身振り、手振り、顔表情
の変化などのジェスチャのかたちで画像提示できるよう
にしており、後述の制御部１０７からの制御によって、
“肯定”や、“呼掛け”、“音声を聞きとり可能であ
る”こと、“コミュニケーションが失敗した”ことなど
を適宜、利用者にジェスチャ画像で提示するようにして
いる。

【０１３５】従って、利用者はこのジェスチャ画像を見
ることで、今どのような状態か、直感的に認識できるよ
うになるものである。すなわち、ここでは人間同士の対
話のように、状況や理解の度合い等をジェスチャにより
示すことで、機械と人とのコミュニケーションを円滑に
行い、意志疎通を図ることができるようにしている。

【０１３６】図１における情報出力部１０４は、利用者
に対して、“文字”、“静止面画”、“動画像”、“音
声”、“警告音”、“力”などの情報提示を行なう装置
であり、図５にこの情報出力部１０４の構成例を示す。

【０１３７】図５に示すように、情報出力部１０４は文
字画像信号生成装置１０４ａ、音声信号生成駆動装置１
０４ｂ、機器制御信号生成装置１０４ｃ等から構成され
る。これらのうち、文字画像信号生成装置１０４ａは、
制御部１０７からの出力情報を基に、表示すべき文字列
の画像信号である文字時画像信号を生成する装置であ
り、また、音声信号生成駆動装置１０４ｂは制御部１０
７からの出力情報を基に、利用者に伝えるべき音声の信
号を生成してマルチモーダル対話装置の備えるスピーカ
やヘッドホーン、イヤホン等の音声出力装置に与え、駆
動するものである。また、機器制御信号生成装置１０４
ｃは、制御部１０７からの出力情報を基に、利用者に対
する反応としての動作を物理的な力で返すフォースディ
スプレイ（提力装置）に対する制御信号や、ランプ表示
などのための制御信号を発生する装置である。

【０１３８】このような構成の情報出力部１０４では、
利用者への出力すべき情報として、当該情報出力部１０
４が接続されるマルチモーダル対話装置の構成要素であ
る問題解決装置やデータベース装置などから渡される出
力情報を受け取り、文字および画像ディスプレイや、ス
ピーカやフォースディスプレイ（提力装置）などの出力
デバイスを制御して、利用者へ、文字、静止面画、動画
像、音声、警告音、力など情報提示を行なう様にしてい
る。

【０１３９】すなわち、マルチモーダル対話装置は、利
用者が投げかける質問や、要求、要望、戸惑い等を解釈
して解決しなければならない問題や為すべき事柄を解釈
し、その解を求める装置である問題解決装置や、この問
題解決装置の用いるデータベース（知識ベースなども含
む）を備える。そして、問題解決装置やデータベース装
置などから渡される出力情報を受け取り、文字および画
像ディスプレイや、スピーカやフォースディスプレイ
（提力装置）などの出力デバイスを制御して、利用者
へ、“文字”、“静止面画”、“動画像”、“音声”、
“警告音”、“力”など様々な意志伝達手段を活用して
情報提示を行なうものである。

【０１４０】また、図１における注意喚起部１０５は、
利用者に対して呼び掛けや警告音を発するなどして注意
を喚起する装置である。この注意喚起部１０５は、制御
部１０７の制御に従って、利用者に対し、警告音や、呼
掛けのための特定の言語表現や、利用者の名前などを音
声信号として提示したり、画面表示部に文字信号として
提示したり、ディスプレイ画面を繰り返し反転（フラッ
シュ）表示させたり、ランプなどを用いて光信号を提示
したり、フォースディスプレイを用いることによって、
物理的な力信号を利用者に提示したり、あるいは擬人化
イメージ提示部１０３を通じて、例えば身振り、手振
り、表情変化、身体動作を摸した画像情報などを提示す
るといったことを行い、これによって、利用者の注意を
喚起するようにしている。

【０１４１】なお、この注意喚起部１０５は、独立した
一つの要素として構成したり、あるいは、利用者への注
意喚起のための信号の提示を出力部１０４を利用して行
なうように構成することも可能である。

【０１４２】図１における反応検知部１０６はマルチモ
ーダル対話装置からのアクションに対して、利用者が何
らかの反応を示したか否かを検知するものである。この
反応検知１０６は、カメラ、マイク、キーボード、スイ
ッチ、ポインティングデバイス、センサなどの入力手段
を用いて、注意喚起部１０５により利用者に注意喚起の
提示をした際に、利用者が予め定めた特定の操作を行っ
たり、予め定めた特定の音声を発したり、予め定めた特
定の身振り手振りなどを行なったりしたことを検知した
り、あるいは、注視対象検出部１０１から得られる注視
対象情報を参照することによって、利用者が注意喚起の
ための信号に反応したかどうかを判断し、利用者反応情
報として出力する様にしている。

【０１４３】なお、この反応検知部１０６は、独立した
一つの部品として構成することも、あるいは、他メディ
ア入力部１０２に機能として組み込んで実現することも
可能である。

【０１４４】図１における制御部１０７は、本システム
の各種制御や、演算処理、判断等を司どるもので、本シ
ステムの制御、演算の中枢を担うものである。

【０１４５】なお、この制御部１０７が本装置の他の構
成要素を制御することによって、本発明装置の動作を実
現し、本発明装置の効果を得るものであるので、この制
御部１０７の処理の手順については後で、その詳細に触
れることとする。

【０１４６】図６に制御部１０７の内部構成例を示す。
図に示すように、制御部１０７は、制御処理実行部２０
１、制御規則記憶部２０２、および解釈規則記憶部２０
３などから構成される。

【０１４７】これらのうち、制御処理実行部２０１は、
内部に各要素の状態情報を保持するための状態レジスタ
Ｓと、情報種別を保持する情報種レジスタＭとを持ち、
また、本マルチモーダル対話装置の各構成要素の動作状
況、注視対象情報、利用者反応情報、出力情報など、各
構成要素からの信号を受け取ると共に、これらの信号
と、状態レジスタＳの内容と、制御規則記憶部２０２お
よび解釈規則記憶部２０３の内容を参照して、後述の処
理手順Ａに沿った処理を行ない、得られた結果対応に本
マルチモーダルインタフェース装置の各構成要素への制
御信号を出力することによつて、本マルチモーダルイン
タフェース装置の機能と効果を実現するものである。

【０１４８】また、制御規則記憶部２０２は所定の制御
規則を保持させたものであり、また、解釈規則記憶部２
０３は、所定の解釈規則を保持させたものである。

【０１４９】図７は、制御規則記憶部２０２に記憶され
た制御規則の内容例を表している。ここでは、各制御規
則の情報が、“規則ＩＤ”、“現状態情報Ａ”、“イベ
ント条件情報Ｂ”、“アクションリスト情報Ｃ”、“次
状態情報Ｄ”などに分類され記録されるようにしてい
る。

【０１５０】制御記憶記憶部２０２の各エントリに於い
て、“規則ＩＤ”には制御規則毎の識別記号が記録され
る。

【０１５１】また、“現状態情報Ａ”の欄には、対応す
るエントリの制御規則を適用するための条件となる状態
レジスタＳの内容に対する制限が記録され、“イベント
情報Ｂ”の欄には、対応するエントリの制御規則を適用
するための条件となるイベントに対する制限が記録され
るようにしている。

【０１５２】また、“アクションリスト情報Ｃ”の欄に
は、対応する制御規則を適応した場合に、行なうベき制
御処理に関する情報が記録されており、また、“次状態
情報Ｄ”の欄には、対応するエントリの制御規則を実行
した場合に、状態レジスタＳに更新値として記録すべき
状態に関する情報が記録されるようにしている。

【０１５３】具体的には、制御記憶記憶部２０２の各エ
ントリに於いて、“規則ＩＤ”には“Ｑ１”，“Ｑ
２”，“Ｑ３”，“Ｑ４”，“Ｑ５”，…といった具合
に制御規則毎の識別記号が記録される。また、“現状態
情報Ａ”には、“入出力待機”，“入力中”，“可否確
認中”，“出力中”，“準備中”，“中断中”，“呼掛
中”，…といった具合に、それぞれの規則ＩＤによるエ
ントリの制御規則を適用するための条件として状態レジ
スタＳの内容が、どのようなものでなければならないか
を規則ＩＤ対応に設定してある。

【０１５４】また、“イベント条件情報Ｂ”は、“入力
要求”，“出力制御受信”，“出力開始要求”，“出力
準備要求”，“入力完了”，…といった具合に、対応す
るエントリの制御規則を適用するための条件となるイベ
ントがどのようなものでなければならないかを規則ＩＤ
対応に設定してある。また、“アクション情報Ｃ”は、
“［入力受付ＦＢ入力受付開始］”，“［］”，
“［出力開始］”，“［出力可否］”，“［入力受付停
止入力完了ＦＢ］”，“［入力受付停止取消ＦＢ提
示］”，“［出力開始］”，“［呼掛け］”，…といっ
た具合に、対応する制御規則を適用した場合に、どのよ
うなアクションを行うのかを規則ＩＤ対応に設定してあ
る。

【０１５５】なお、“アクション情報Ｃ”の欄に記録さ
れる制御処理のうち、“［入力受付ＦＢ（フィードバッ
ク）］”は利用者に対して、本装置の他メディア入力部
１０２からの入力が可能な状態になったことを示すフィ
ードバックを提示するものであり、例えば文字列や、面
像情報あるいはチャイムや肯定の意味を持つ相槌など音
声などの音信号を提示したり、あるいは擬人化イメージ
提示部１０３を通じて利用者へ視線を向けたり、耳に手
を当てるジェスチャを表示するなどを利用者へ提示する
処理を表している。

【０１５６】また、“［入力完了ＦＢ（フィードバッ
ク）］”と“［確認受領ＦＢ（フィードバック）］”
は、利用者に対してコミュニケーションが正しく行なわ
れたこと、あるいは利用者への呼掛けに対する利用者か
らの確認の意図を正しく受け取ったことを表すフィード
バックを提示する処理である。

【０１５７】なお、“アクションリスト情報Ｃ”の欄に
記録される制御処理のうち、“［入力受付ＦＢ（フィー
ドバック）］”は利用者に対して、本装置の他メディア
入力部１０２からの入力が可能な状態になったことを示
すフィードバックを提示するものであり、その提示方法
としては例えば“文字列”や、“面像情報”で提示した
り、あるいは“チャイム”や肯定の意味を持つ“相槌”
の音声などのように、音信号で提示したり、あるいは擬
人化イメージ提示部１０３を通じて利用者へ視線を向け
たり、耳に手を当てるジェスチャの画像を表示するな
ど、利用者に対しての反応を提示する処理を表してい
る。

【０１５８】また、“［入力完了ＦＢ（フィードバッ
ク）］”と“［確認受領ＦＢ（フィードバック）］”
は、利用者に対してコミュニケーションが正しく行なわ
れたこと、あるいは利用者への呼掛けに対する利用者か
らの確認の意図を正しく受け取ったことを表すフィード
バックを提示する処理であり、“［入力受付ＦＢ（フィ
ードバック）］”と同様に、音や音声や文字や画像によ
る信号を提示したり、あるいは擬人化イメージ提示部１
０３を通じて、例えば「うなづき」などのジェスチャを
提示する処理を表している。

【０１５９】また、“［取消ＦＢ（フィードバッ
ク）］”は、利用者とのコミュニケーションにおいて、
何らかの問題が生じたことを示すフィードバックをを利
用者に提示する処理であり、警告音や、警告を意味する
文字列や画像を提示したり、あるいは、擬人化イメージ
提示部１０３を通じて、例えば手の平を上にした両手を
曲げながら広げるジェスチャを提示する処理を表してい
る。

【０１６０】また、“［入力受付開始］”、および
“［入力受付停止］”はそれぞれ、他モード入力部１０
２の入力を開始、および停止する処理であり、同様に
“［出力開始］”、“［出力中断］”、“［出力再
開］”、“［出力停止］”は情報出力部１０４からの利
用者への情報の出力を、それぞれ開始、中断、再開、お
よび停止する処理を表している。

【０１６１】また、“［出力可否検査］”は、注視対象
検出部１０１から出力される注視対象情報と、解釈規則
記憶部２０３の内容を参照して、利用者へ提示しようと
している情報を、現在利用者に提示可能であるかどうか
を調べる処理を表している。

【０１６２】また、“［呼掛け］”は、利用者へ情報を
提示する際に、利用者の注意を喚起するためにに、例え
ば警告音を提示したり、呼掛けの間投詞音声を提示した
り、利用者の名前を提示したり、画面をフラッシュ（一
次的に繰り返し反転表示させる）させたり、特定の画像
を提示したり、あるいは擬人化イメージ提示部１０３を
通じて、例えば手を左右に振るジェスチャを提示する処
理を表している。

【０１６３】“［入力受付ＦＢ（フィードバック）］”
と同様に、音や音声や文字や画像による信号を提示した
り、あるいは擬人化イメージ提示部１０３を通じて、例
えば「うなづき」などのジェスチャを提示する処理を表
している。

【０１６４】また、“［取消ＦＢ（フィードバッ
ク）］”は、利用者とのコミュニケーションにおいて、
何らかの問題が生じたことを示すフィードバックをを利
用者に提示する処理であり、警告音や、警告を意味する
文字列や画像を提示ししたり、あるいは、擬人化イメー
ジ提示部１０３を通じて、例えば手の平を上にした両手
を曲げながら広げるジェスチャを提示する処理を表して
いる。

【０１６５】また、“［入力受付開始］”、および
“［入力受付停止］”はそれぞれ、他モード入力部１０
２の入力を開始、および停止する処理であり、同様に
“［出力開始］”、“［出力中断］”、“［出力再
開］”、“［出力停止］”は情報出力部１０４からの利
用者への情報の出力を、それぞれ開始、中断、再開、お
よび停止する処理を表している。

【０１６６】また、“［出力可否検査］”は、注視対象
検出部１０１から出力される注視対象情報と、解釈規則
記憶部２０３の内容を参照して、利用者へ提示しようと
している情報を、現在利用者に提示可能であるかどうか
を調べる処理を表している。

【０１６７】また、“［呼掛け］”は、利用者へ情報を
提示する際に、利用者の注意を喚起するために、例えば
警告音を提示したり、呼掛けの間投詞音声を提示した
り、利用者の名前を提示したり、画面をフラッシュ（一
次的に反転表示させる）させたり、特定の画像を提示し
たり、あるいは擬人化イメージ提示部１０３を通じて、
例えば手を左右に振るジェスチャを提示する処理を表し
ている。

【０１６８】また、“次状態情報Ｄ”は、“入力中”，
“可否確認中”，“出力中”，“準備中”，“入出力待
機”，“呼掛中”，…といった具合に、対応するエント
リの制御規則を実行した場合に、状態レジスタＳに更新
値として記録すべき情報（状態に関する情報）を規則Ｉ
Ｄ対応に設定してある。

【０１６９】従って、“規則ＩＤ”が“Ｑ１”のもの
は、対応するエントリの制御規則を適用する条件となる
状態レジスタＳの内容が“入出力待機”であり、“Ｑ
１”なるエントリが発生したときは、状態レジスタＳの
内容が“入出力待機”であれば、イベントとして“入力
要求”が起こり、このとき、“入力受付フィードバック
と入力受付開始”という制御処理を行って、状態レジス
タＳには“入力中”なる内容を書き込んで、“入出力待
機”から“入力中”なる内容に当該状態レジスタＳの内
容を更新させる、ということがこの制御規則で示されて
いることになる。

【０１７０】同様に“規則ＩＤ”が“Ｑ５”のものは、
対応するエントリの制御規則を適用する条件となる状態
レジスタＳの内容が“入力中”であり、“Ｑ５”なるエ
ントリが発生したときは、状態レジスタＳの内容が“入
力中”であれば、イベントとして“入力完了”が起こ
り、このとき“入力受付停止と入力完了フィードバッ
ク”という制御処理を行って、状態レジスタＳはその内
容を“入出力待機”に改める、ということがこの制御規
則で示されていることになる。

【０１７１】図８は、解釈規則記憶部２０３の内容例を
表しており、各解釈規則に関する情報が、“現状態情報
Ａ”、“注視対象情報Ｂ”、“入出力情報種情報Ｃ”、
および“解釈結果情報Ｄ”などに分類され記録されるよ
うにしている。

【０１７２】解釈規則記憶部２０３の各エントリにおい
て、“規則ＩＤ”の欄には、対応する規則の識別記号が
記録されている。また、“現状態情報Ａ”の欄には対応
する解釈規則を適応する場合の、状態レジスタＳに対す
る制約が記録されている。

【０１７３】また、“注視対象情報Ｂ”の欄には、注視
対象検出部１０１から受け取り、制御処理実行部２０１
によって解釈を行なう、注視対象情報の“注視対象情報
Ａ”の欄と比較照合するための注視対象に関する情報が
記録されている。

【０１７４】また、“入出力情報Ｃ”の欄には、入力時
には利用者から入力される情報の種類に対する制約が、
また出力時には利用者へ提示する情報の種類に関する制
約が記録されるようにしている。

【０１７５】そして、“解釈結果情報Ｄ”の欄には、受
け取った注視対象情報に対してその解釈規則を適用した
場合の解釈結果が記録されるようにしている。

【０１７６】具体的には、“規則ＩＤ”には、“Ｒ
１”，“Ｒ２”，“Ｒ３”，“Ｒ４”，“Ｒ５”，“Ｒ
６”，…といった具合に、対応する規則の識別符号が記
録される。また、“現状態情報Ａ”には“入出力待
機”，“入力中”，“可否確認中”，“出力中”，“準
備中”，“中断中”，…といった具合に、対応する解釈
規則を適応する場合に、状態レジスタＳの保持している
情報の持つべき内容が記録されている。

【０１７７】また、“注視対象情報Ｂ”には、“入力要
求領域”，“擬人化イメージ”，“マイク領域”，“カ
メラ領域”，“出力要求領域”，“キャンセル要求領
域”，“出力要求領域以外”，“他人物”，“出力領
域”，“装置正面”，…といった具合に、注視対象検出
部１０１から受け取り、制御処理実行部２０１によって
解釈を行なう、注視対象情報の“注視対象情報Ａ”の欄
と比較照合するための注視対象に関する情報が記録され
ている。

【０１７８】また、“入出力情報種情報Ｃ”には、“音
声情報”，“視覚情報”，“動画情報”，“動画情報以
外”，“静止画情報”，…といった具合に、入力時にお
いては利用者から入力される情報の種類に対する制約
が、また出力時には利用者へ提示する情報の種類に関す
る制約が記録される。

【０１７９】そして、“解釈結果情報Ｄ”には、“入力
要求”，“出力準備”，“取消要求”，“要中断”，
“開始可能”，“再会可能”，“確認検出”，…といっ
た具合に、受け取った注視対象情報に対してその解釈規
則を適用した場合の解釈結果が記録される。

【０１８０】従って、例えば、“規則ＩＤ”が“Ｒ２”
である規則を適用する場合は、状態レジスタＳの内容が
“入出力待機”である必要があり、注視対象領域は“擬
人化イメージ”であり、入力時及び出力時は“音声情
報”を使用し、解釈結果は“入力要求”であることを示
している。

【０１８１】以上が制御部１０７の構成である。

【０１８２】続いて、本発明装置において、中心的な役
割を演じる制御処理実行部２０１での処理の詳細につい
て説明する。

【０１８３】制御部１０７の構成要素である制御処理実
行部２０１での処理は下記の処理手順Ａに沿って行なわ
れる。

【０１８４】なお、図９は処理手順Ａの流れを表すフロ
ーチャートである。

【０１８５】＜処理手順Ａ＞［ステップＡ１］まずはじめに、制御処理部２０１
は初期化処理をする。この初期化処理は状態レジスタＳ
と情報種レジスタＭを初期状態に設定するもので、この
初期化処理により状態レジスタＳには「入出力待機」な
る内容の情報が設定され、情報種レジスタＭには、「未
定義」なる内容の情報が設定され、他メディア入力部１
０２が入力非受付状態にされる（初期化）。

【０１８６】［ステップＡ２］初期化が済んだなら
ば、入力／出力の判断がなされる。本制御部１０７への
入力を待ち、入力があった場合には、その入力が注視対
象検出部１０１からであった場合、すなわち、注視対象
検出部１０１からその検出出力である注視対象情報Ｇｉ
が送られて来た場合は、注視情報解釈処理を行うステッ
プＡ３へと進む。また、本発明では直接関係ないので詳
細は説明しないが、マルチモーダル対話装置の主要な構
成要素となる問題解決装置あるいは、データベース装
置、あるいはサービス提供装置から、本制御部１０７に
出力情報Ｏjが与えられた時は、入力／出力判断ステッ
プであるステップＡ２ではステップＡ１２へと処理を移
す。

【０１８７】すなわち、制御部１０７ではＡ２におい
て、解決装置やデータベース装置あるいはサービス提供
装置から出力情報Ｏjが与えられたときは、ステップＡ
１２に進む。出力情報Ｏjは情報出力部１０４を用い
て、利用者へ情報出力を行なうための制御信号であり、
利用者へ提示すべき情報内容Ｃｊと、情報の種類である
情報種別Ｍｊを含む（入力／出力判定）。

【０１８８】［ステップＡ３］ここでの処理は注視
情報解釈であり、状態レジスタＳの内容、および注視対
象情報Ｇｉの内容、および情報種レジスタＭの内容と、
解釈規則記憶部２０３の各エントリの“現状態情報Ａ”
の内容、および“注視注対象情報Ｂ”の内容、および
“入出力情報種情報Ｃ”とを、それぞれ比較照合するこ
とで、解釈規則中で条件が適合する解釈規則Ｒｉ（ｉ＝
１，２，３，４，５…）を探す（注視情報解釈）。

【０１８９】［ステップＡ４］ステップＡ３におい
て、条件が適合する解釈規則Ｒｉが見つからない場合に
は、ステップＡ１１へ進み、見つかった場合はステップ
Ａ５に進む（解釈可能判定）。

【０１９０】［ステップＡ５］見つかった解釈規則
Ｒｉに対応する“解釈結果情報Ｄ”を参照し、当該“解
釈結果情報Ｄ”に記述されている解釈結果Ｉｉを得る。
そして、ステップＡ６に進む（解釈結果決定）。

【０１９１】［ステップＡ６］状態レジスタＳの内
容、および解釈結果Ｉｉを、制御規則記憶部２０２の
“現状対情報Ａ”の内容、および“イベント条件情報
Ｂ”の内容と、それぞれ比較照合することで、対応する
制御規則Ｑｉを探す。そして、ステップＡ７に進む（制
御規則検索）。

【０１９２】［ステップＡ７］ステップＡ６の処理
において、条件に適合する解釈規則Ｑｉが見つからなか
った場合には、ステップＡ１１へ進む。一方、条件に適
合する解釈規則Ｑｉが見つかった場合にはステップＡ８
に進む（制御規則有無判定）。

【０１９３】［ステップＡ８］ここでは制御規則Ｑ
ｉの、“アクション情報Ｃ”の欄を参照して、実行すべ
き制御処理のリスト［Ｃｉ１．Ｃｉ２、…］を得る。そ
して、ステップＡ９に進む（制御処理リスト取得）。

【０１９４】［ステップＡ９］実行すべき制御処理
のリスト［Ｃｉ１．Ｃｉ２、…］が得られたならば、こ
の得られた制御処理のリスト［Ｃｉ１．Ｃｉ２、…］の
各要素について、順次＜処理手順Ｂ＞（後述）に従い制
御処理を実行する（各制御処理実行）。

【０１９５】［ステップＡ１０］状態レジスタＳに、
Ｑｉの“次状態情報Ｄ”の内容を記録する。そして、ス
テップＡ１１に進む（状態更新）。

【０１９６】［ステップＡ１１］注視対象情報Ｇｉに
関する処理を終了し、ステップＡ２へ戻る（リターン処
理）。

【０１９７】［ステップＡ１２］ステップＡ２におい
て、出力情報Ｏjが与えられた時は、制御部１０７はス
テップＡ１２の処理に進むが、このステップでは情報種
レジスタＭに、その出力情報Ｏｊの情報種別Ｍｊを記録
し、制御規則記憶部２０２に記憶されている制御規則を
参照し、その中の“現状状態Ａ”の内容が状態レジスタ
Ｓの内容と一致し、かつ“イベント条件情報Ｂ”の内容
が「出力制御受信」であるエントリＱｋ（ｋ＝１，２，
３，４，５，…）を探す。そして、ステップＡ１３の処
理に移る（制御規則検索）。

【０１９８】［ステップＡ１３］ここでは、ステップ
Ａ１２において、Ｑ１からＱｘの規則ＩＤの中から、条
件に適合する制御規則ＩＤＱｋ（ｋ＝１，２，３，
４，…ｋ−１，ｋ、ｋ＋１，ｋ＋２，…ｘ）が見つから
ない場合には、ステップＡ１７へ進み、条件に適合する
制御規則Ｑｋが見つかった場合はステップＡ１４に進む
（該当する制御規則の有無判定）。

【０１９９】［ステップＡ１４］ステップＡ１４で
は、制御規則記憶部２０２にある制御規則中の“アクシ
ョン情報Ｃ”のうち、見つかった制御規則Ｑｋに対応す
る“アクション情報Ｃ”を参照して、実行すべき制御処
理のリスト［Ｃｋ１．Ｃｋ２、…」を得る（制御処理リ
スト取得）。

【０２００】［ステップＡ１５］制御処理のリスト
［Ｃｋ１、Ｃｋ２、…」の各要素について、順次＜処理
手順Ｂ＞（後述）に従い制御処理を実行する（各制御処
理実行）。

【０２０１】［ステップＡ１６］そして、状態レジス
タＳに、Ｑｋなる規則ＩＤに対応する“次状態情報Ｄ”
の内容を記録する（状態更新）。

【０２０２】［ステップＡ１７］情報情報Ｏｊに関す
る処理を終了し、ステップＡ２へ戻る（リターン処
理）。

【０２０３】以上が、処理手順Ａの内容であり、入って
きた情報が、利用者からのものであるか、利用者に対し
て提示するものであるかを判定し、前者（利用者からの
情報）であれば注視情報を解釈し、解釈結果を決定し、
その決定した解釈結果に対応する制御規則を検索し、該
当の制御規則があればどのような制御をするのかを制御
規則中からリストアップし、そのリストアップされた制
御内容の制御を実施し、また、後者（利用者に対して提
示するもの）であれば出力のための制御規則を検索し、
該当制御規則があればどのような制御をするのかを制御
規則中からリストアップし、そのリストアップされた制
御内容の出力制御処理を行うようにしたもので、音声
や、映像、カメラ、キーボードやマウス、データグロー
ブなど、様々な入出力デバイスと解析処理や制御技術を
用いてコミュニケーションを図る際に、人間同士のコミ
ュニケーションのように、何に注意を払って対話を進め
れば良いかをルールで決めて、対話の流れと用いたデバ
イスに応じて、使用すべき情報とそれ以外の情報とに分
け、対話のための制御を進めていくようにしたから、雑
音成分の取り込みを排除できて、誤動作を防止できるよ
うにし、また、状況に応じて、注意を喚起したり、理解
度や対話の状況、反応を擬人化画像でジェスチャ表示し
たりして、自然な対話を可能にした。

【０２０４】次に処理手順Ｂを説明する。処理手順Ｂで
は、アクション情報の内容に応じて次のような提示動作
や制御動作をする。

【０２０５】＜処理手順Ｂ＞［ステップＢ１］まず、アクション情報である制御
処理Ｃｘが「入力受付ＦＢ」である場合は、例えば「入
力可能」といった文字列や、「マイクに丸印の付された
絵」といった画像情報や、あるいはチャイム音や、肯定
の意味を持つ「はい」といった相槌などを、音声や文字
で提示したり、あるいは擬人化イメージ提示部１０３を
通じて利用者へ視線を向けたり、耳に手を当てるジェス
チャを表示する。

【０２０６】［ステップＢ２］制御処理Ｃｘが「入
力完了ＦＢ」である場合は、例えば「入力完了」といっ
た文字列や、「マイクに×印の絵」といった画像情報
や、あるいは「チャイム音」や、肯定の意味を持つ「は
い」や、「判りました」といった相槌などを、音声や文
字で提示したり、あるいは擬人化イメージ提示部１０３
を通じて利用者へ視線を向ける画像を提示したり、うな
づく画像を提示したりといった具合にジェスチャを画像
で表示する。

【０２０７】［ステップＢ３］制御処理Ｃｘが、
「受領確認ＦＢ」である場合は、例えば「確認」といっ
た文字列や、画像情報や、あるいはチャイム音や、肯定
の意味を持つ「はい」や、「判りました」といった相槌
などを、音声や文字で提示したり、あるいは擬人化イメ
ージ提示部１０３を通じて利用者へ視線を向けたり、う
なづくなどの画像を用いてジェスチャを表示する。

【０２０８】［ステップＢ４］制御処理Ｃｘが、
「取消ＦＢ」である場合は、警告音や、警告を意味する
文字列や、記号や、画像を提示したり、あるいは、擬人
化イメージ提示部１０３を通じて、例えば手の平を上に
した両手を曲げながら広げるといった具合の画像を用い
てジェスチャを提示する。

【０２０９】［ステップＢ５］制御処理Ｃｘが、
「入力受付開始」および、「入力受付停止」である場合
は、他モード入力部１０２からの入力をそれぞれ、開始
および停止する。

【０２１０】［ステップＢ７］制御処理Ｃｘが、
「出力開始」、「出力中断」、「出力再開」、および
「出力停止」である場合は、情報出力部１０４からの利
用者への情報の出力を、それぞれ開始、中断、再開、お
よび停止する。

【０２１１】［ステップＢ８］制御処理Ｃｘが、
「呼掛け」である場合は、例えば警告音を提示したり、
例えば「もしもし」などの呼掛けの間投詞音声を提示し
たり、利用者の名前を提示したり、画面をフラッシュ
（一次的に反転表示させる）させたり、特定の画像を提
示したり、あるいは擬人化イメージ提示部１０３を通じ
て、例えば手を左右に振るジェスチャを提示する。

【０２１２】なお、情報種レジスタＭには、利用者へ提
示しようとする際に、出力情報の種類が適宜記録される
ようにしている。

【０２１３】以上が本装置の構成とその機能である。

【０２１４】＜具体例を用いた説明＞続いて、上述した
マルチモーダルインタフェース装置およびマルチモーダ
ルインタフェース方法について、さらに詳しく説明す
る。

【０２１５】ここでは、利用者の視線および頭部方向検
機能と、本装置の前にいる利用者と他人を認識する人物
認識出機能を持つ注視対象抽出部１０１と、他メディア
入力手段１０２としての音声入力部と、身振り、手振
り、表情変化によるジェスチャを利用者に提示可能な擬
人化イメージ提示部１０３と、情報出力部１０４として
の文字情報および静止画像情報および動画像情報の画像
出力と音声出力部を持つ装置を利用者が使用する場面
を、具体例として説明を行なう。

【０２１６】なお、図１０は、各時点における本装置の
内部状態を表している。

【０２１７】［ｔ０］制御部１０７では“処理手順
Ａ”におけるステップＡ１の処理によって、状態レジス
タＳおよび情報種レジスタＭにそれぞれ「入出力待機」
と「未定義」が記録され、これにより他メディア入力手
段１０２の構成要素の一つである音声入力部は「入力非
受付」の状態となる。

【０２１８】［ｔ１］ここで、本装置の周囲でノイ
ズ（雑音）が発生したとする。しかし、音声入力は非受
付の状態であるので、このノイズを音声として拾うこと
はなく、従って、ノイズによる誤動作は起こらない。

【０２１９】［ｔ２］つづいて、擬人化イメージ提
示部１０３の顔を見ることで、利用者が音声入力の開始
を試みる。すなわち、擬人化イメージ提示部１０３には
図４に示すように、利用者とジェスチャをまじえたコミ
ュニケーションをとることができるようにディスプレイ
画面に受付嬢の画像を提示する擬人化イメージ提示部１
０２ａがあり、また、文字や映像等で情報を出力するた
めに、情報出力領域１０２ｂがある。この擬人化イメー
ジ提示部１０３には、初期の段階では図１１（ａ）に示
すような待機状態の受付嬢の上半身の姿が提示されるよ
うに制御されている。従って、利用者は無意識のうちに
この受付嬢の姿を目で注視することになる。

【０２２０】［ｔ３］注視対象検出部１０１が、こ
れを検知して、注視対象情報として、図２のＩＤ＝Ｐ１
０１の欄に示した、注視対象情報を出力する。

【０２２１】［ｔ４］ “処理手順Ａ”におけるステ
ップＡ２での判断によって、ステップＡ３へ進み、解釈
規則記憶部２０３から対応する解釈規則が検索され、ま
たこのとき、“状態レジスタＳ”の内容が「入出力待
機」であり、かつＩＤ＝Ｐ１０１の注視対象情報の“注
視対象情報Ａ”が「擬人化イメージ」であることから、
図８に示した解釈規則記憶部２０３から、規則ＩＤ＝Ｒ
２の解釈規則が抽出される（図８における“規則ＩＤ”
が“Ｒ２”の該当する“解釈結果情報Ｄ”である「入力
要求」という解釈結果情報が抽出される）。

【０２２２】［ｔ５］ “処理手順Ａ”におけるステ
ップＡ５によって、“解釈規則Ｒ２”の“解釈結果情報
Ｄ”の内容から、解釈結果として「入力要求」が得られ
る。

【０２２３】［ｔ６］ “処理手順Ａ”におけるステ
ップＡ６の処理によって、制御規則記憶部２０２からの
検索が行なわれ、現状態情報（図２の“注視対象情報
Ａ”）が「入力待機」であり、かつ、イベン卜条件情報
（図２の“時間情報Ｂ”）が「入力要求」であることか
ら、図７の“規則ＩＤ”が［Ｑ１］なるＩＤの制御規則
が選択され、ステップＡ８の処理によって、“制御規則
Ｑ２”の対応の“アクション情報Ｃ”の内容として、
“［入力受付ＦＢ、入力受付開始］”を得る。

【０２２４】［ｔ７］ “処理手順Ａ”におけるステ
ップＡ９の処理および、“処理手順Ｂ”での処理によっ
て、例えば、擬人化イメージ提示部１０３を通じて、図
１１（ｂ）の如き「耳に手をかざす」ジェスチャの画像
が利用者に提示されるとともに、「はい」という音声が
利用者に提示され、音声入力の受付が開始され、ステッ
プＡ１０，ステップＡ１１によって、状態レジスタＳお
よび情報種レジスタＭの内容が更新される。

【０２２５】［ｔ８］利用者からの音声入力が完了
し、制御信号（イベン卜）として「入力完了」が制御部
に通知され、“処理手順Ａ”に従った処理により、解釈
規則Ｑ５が選択／実行され、音声入力が非受付となった
後、“処理手順Ｂ２”によって、例えば「入力完了」と
いった文字列や、マイクに×印の絵といった画像情報
や、あるいはチャイム音が利用者に提示される。

【０２２６】以上例示した処理によって、“音声入力が
必要でない場面”では入力を“非受付”としておくこと
によって、ノイズなどによる誤動作を防ぐことが出来、
また“音声入力が必要な場面”では、単に擬人化イメー
ジの方を向くだけで音声入力が可能となり、さらに、そ
のときジェスチャなどにより利用者へフィードバックを
提示することによって、音声入力の受付状態が変更され
たことが利用者に判るようになることによって、誤動作
がなく、しかも、特別な操作による負担がなく、人間同
士の対話での方法と同じであるために、自然で、習得や
余分な負担が必要のないヒューマンインタフェースにふ
さわしいマルチモーダルインタフェースを実現してい
る。

【０２２７】［ｔ９］つづいて、利用者ではない他
の人物ｘが利用者に近付き、利用者がその人物ｘの方向
を向いたとする。

【０２２８】［ｔ１０］ここで、注視対象検出部１０
１が、これを検知して、注視対象情報として、図２の
“注視対象情報ＩＤ”のうち、“Ｐ１０２”なるＩＤの
欄に示した、“注視対象情報Ａ”である「他人物」なる
注視対象情報を出力する。

【０２２９】［ｔ１１］時点ｔ４と同様の処理が行な
われるが、この場合の条件に適合する解釈規則は存在し
ないから、ステップＡ１１へ進み、この注視対象情報に
関する処理は終了する。

【０２３０】［ｔ１２］さらに、利用者が“人物ｘ”
の方向を向いたままの状態であるときに、制御部１０７
に対して、例えば、情報種別Ｍ＝「動画情報」である出
力情報Ｏｊを利用者に提示するための出力制御信号が与
えられたとする。

【０２３１】［ｔ１３］ “制御手順Ａ”におけるステ
ップＡ２によって、ステップＡ１２へ進み、情報種レジ
スタＭに「動画情報」が記録され、制御規則記憶部２０
２を参照し、“現状態情報Ａ”が、状態レジスタＳの内
容「入出力待機」と一致し、かつ“イベント条件情報
Ｂ”が、「出力制御受信」であるエントリとして、規則
ＩＤ＝Ｑ２の制御規則が抽出される。

【０２３２】［ｔ１４］ “制御手順Ａ”におけるステ
ップＡ１３〜Ａ１７の処理を経ることによって、“制御
規則Ｑ２”の対応する“アクション情報Ｃ”から、「実
行すべき制御処理はない」ことが判り、ステップＡ１６
の処理によって、“制御規則Ｑ２”の対応する“次状態
情報Ｄ”を参照し、状態レジスタＳに「可否確認中」が
記録され、ステップＡ２の処理へと進む。

【０２３３】［ｔ１５］続いて、利用者が“人物Ｘ”
の方向を向いていることから、注視対象検出部１０１か
ら、図２の注視対象情報ＩＤのうち、“Ｐ１０３”なる
ＩＤを持つ注視対象情報が得られる。

【０２３４】［ｔ１６］ “処理手順Ａ”におけるステ
ップＡ２〜Ａ５の処理を経ることによって、状態レジス
タＳの内容が「可否確認中」であり、かつ注視対象情報
Ｐ１０３の“注視対象情報Ａ”が「他人物」であり、か
つ情報種レジスタＭの内容が「動画像情報」であること
から、図８の規則ＩＤ＝Ｒ１１のエントリが抽出され、
解釈結果として、「出力不能」が得られる。

【０２３５】［ｔ１７］ “処理手順Ａ”のステップＡ
６〜Ａ９の処理を経ることによって、時点ｔ６〜ｔ８と
様の処理により“制御規則Ｑ９”が選択され、処理手順
ＢのステップＢ８の処理によって、利用者に対して、例
えば、画面フラッシュや名前の呼掛けが行なわれる。

【０２３６】［ｔ１８］ここで利用者が、動画情報が
提示される画面領域を向くことによって、注視対象検出
部１０１から、図２における“Ｐ１０４”なる注視対象
ＩＤの注視対象情報が出力され、上述の場合と同様の処
理によって、“解釈規則Ｒ２２”から、解釈結果として
「確認検出」が得られ、図７の“制御規則Ｑ１４”によ
って、その“アクション情報Ｃ”から、制御処理とし
て、［確認受領ＦＢ提示、出力開始］なるアクション情
報が得られる。

【０２３７】［ｔ１９］ “処理手順Ａ”におけるステ
ップＡ９および“処理手順Ｂ”におけるステップＢ３の
処理によって、例えば、「はい」といった相槌などが音
声や文字で利用者に提示されたあと、“処理手順Ｂ”の
ステップＢ７の処理によって利用者に提示すべき動画情
報の出力が開始され、ステップＡ１０で状態レジスタＳ
の内容が「出力中」に更新される。

【０２３８】以上の処理によって、本装置では、利用者
の注視対象、および提示する情報の種類に応じて、適切
に出力の開始を制御し、また、利用者への呼掛けと、そ
の呼掛けに対する利用者の反応に応じて各部を制御する
ことによって、利用者の注意が別に向いており、かつそ
の状態で情報の提示を開始すると、提示する情報の一部
あるいは全部を利用者が受け取れなくなるという問題を
解消している。

【０２３９】［ｔ２０］さらに、この動画情報の提示
中に利用者が再度、他の“人物Ｘ”の方を向き、それが
注視対象検出部１０１によって検知され、注視対象情報
ＩＤが “Ｐ１０１”なる注視対象情報が出力されたと
する。

【０２４０】［ｔ２１］その結果、解釈規則記憶部２
０３の持つ図８の記憶情報のうちの“解釈規則Ｒ１４”
により、「要中断」なる“解釈結果情報Ｄ”が得られ、
制御規則記憶部２０２の記憶情報中の当該「要中断」な
る“イベント条件情報Ｂ”に対応する制御規則である
“制御規則Ｑ１１”なる規則ＩＤの制御規則により、出
力が中断され、状態レジスタが「中断中」となる。

【０２４１】［ｔ２２ａ］その後、利用者が再度出力
領域を注視すれば、“注視対象情報Ｐ１０６”が出力さ
れ、“解釈規則Ｒ１９”と、“制御規則Ｑ１２”により
出力が再開される。

【０２４２】［ｔ２２ｂ］あるいは、例えば、利用者
がそのまま他に注意を向け続けた場合には、予め定めた
時間の経過などによって、中断タイムアウトの制御信号
が出力され、“制御規則Ｑ１３”によって、動画像の出
力の中断その報告がなされる。

【０２４３】以上示した通り、本装置によって、利用者
の注意の向けられる対象である注視対象と、装置の動作
状況と、提示する情報の種類や性質に応じて、適切に情
報の提示を制御することによって、注意を逸らした状態
では正しく受け取ることが困難な情報を、利用者が受け
取り損なうという問題や、情報の出力を中断したり、あ
るいは中断した出力を再開する際に特別な操作を行なう
必要があるために利用者の負担が増加するという問題を
解決することが出来る。

【０２４４】さらに、上記の動作例には含まれてない
が、図７の制御規則Ｑ４、Ｑ１２、Ｑ１３などを使用す
ることによって、例えば動画情報などのように利用者が
出力領域を注視していない状態で、出力を開始すると、
提示情報の一部あるいは全部を利用者が受け取り損なう
恐れのある情報を提示する際、情報の出力要求があった
時点では出力を開始せず、状態を準備中として待機し、
注視対象情報から利用者が出力対象領域を注視したこと
を知った段階で、解釈規則Ｒ１３、Ｒ１４、Ｒ１５など
を利用することによって、情報提示が開始可能であるこ
とを検知し、その時点で情報の提示を開始することで、
これらの問題を回避することも可能である。

【０２４５】あるいは、解釈規則Ｒ３、解釈規則Ｒ４、
解釈規則Ｒ１８、解釈規則Ｒ２１などを用いることによ
って、例えば、マイクを注視したら音声入力が受付られ
るように構成したり、カメラを注視したら画像入力が開
始されるようにしたり、あるいはスピーカを注視した
ら、音声出力が開始されるように構成することも可能で
ある。

【０２４６】なお、以上はマルチモーダル対話装置とし
ての具体例であるが、前述の通り、本発明のインタフェ
ースとしての構成要素部分は、本実施例のマルチモーダ
ル対話装置から、それぞれ必要な構成要素とその機能を
抽出し組み合わせることによって、実現可能である。

【０２４７】具体的には、課題を解決するための手段の
項における［１］の発明の装置は、注視対象検出部１０
１と、他メディア入力部１０２、および制御部１０７を
組み合わせることによって実現可能である。

【０２４８】また、［２］の発明および［４］の発明の
装置は、これらに擬人化イメージ提示部１０３を加える
ことによって実現可能であり、また、［３］の発明の装
置は、［４］の発明の装置において、擬人化イメージ提
示部１０３を通じてなされる、利用者へのフィードバッ
クの提示を、文字情報、音声情報、静止画像情報、動画
像情報、力の提示など少なくとも一つの信号の提示する
機能を追加することによって実現することができる。

【０２４９】また、［５］の発明の装置は、注視対象検
出部１０１と、情報出力部１０４、および制御部１０７
を組み合わせることで実現でき、［６］の発明の装置
は、［５］の発明の装置に、注意喚起部１０５を追加す
ることによつて実現することができ、［７］の発明の装
置は、［６］の発明の装置に、反応検知部１０６を追加
することによって実現できる。以上が本装置の構成と機
能である。

【０２５０】なお、第１の実施例に示した本発明は方法
としても適用できるものであり、また、上述の具体例の
中で示した処理手順、フローチャート、解釈規則や制御
規則をプログラムとして記述し、実装し、汎用の計算機
システムで実行することによっても同様の機能と効果を
得ることが可能である。

【０２５１】すなわち、本発明は汎用コンピュータによ
り実現することも可能で、この場合、図１２に示すよう
に、ＣＰＵ３０１，メモリ３０２，大容量外部記憶装
置３０３，通信インタフェース３０４などからなる汎用
コンピュータに、入力インタフェース３０５ａ〜３０５
ｎと、入力デバイス３０６ａ〜３０６ｎ、そして、出力
インタフェース３０７ａ〜３０７ｍと出力デバイス３０
８ａ〜３０８ｍを設け、入力デバイス３０６ａ〜３０６
ｎとして、マイクやキーボード、ペンタブレット、ＯＣ
Ｒ、マウス、スイッチ、タッチパネル、カメラ、データ
グローブ、データスーツといったものを使用し、そし
て、出力デバイス３０８ａ〜３０８ｍとして、ディスプ
レイ、スピーカ、フォースディスプレイ、等を用いてＣ
ＰＵ３０１によるソフトウエア制御により、上述の如
き動作を実現することができる。

【０２５２】以上、バックグラウンド（ｉ）に関わるそ
の解決策を提示した。次に上述のバックグラウンド（i
i）に関わるその解決策としての発明の実施例を説明す
る。

【０２５３】利用者が入力を意図した音声やジェスチャ
などの非言語メッセージを、自然且つ、円滑に入力でき
るようにするべく擬人化エージェントを提示すること
は、利用者にとって自然人との対話をしているかの如き
効果があり、操作性の著しい改善が期待できるが、これ
を更に一歩進めて、利用者の指し示したジェスチャの指
示対象を擬人化エージェントが注視するよう表示する構
成とすることにより、利用者のジェスチャの指し示し先
をシステムの側で認識できなくなったり、システム側で
の認識結果が誤っていないかなどが、利用者の側で直感
的にわかるようになり、このようにすると、利用者にと
って、自然人の案内係が一層懇切丁寧に応対してくれて
いるかの如き操作性が得られ、操作にとまどったり、操
作上、無用に利用者に負担をかける心配が無くなる。そ
こで、次にこのようなシステムを実現するための実施例
を第２の実施例として説明する。

【０２５４】（第２の実施例）ここでは、利用者が入力
を意図した音声やジェスチャなどの非言語メッセージ
を、自然且つ、円滑に入力できるようにするべく、利用
者からのジェスチャ入力を検知した際に、擬人化エージ
ェントの表情によって、ジェスチャ入力を行う手などを
随時注視したり、あるいは指し示しジェスチャに対し
て、その参照対象を注視することによって、利用者へ自
然なフィードバック（すなわち、システム側から利用者
に対する認識状況対応の反応）を提示できるようにし、
さらに、その際、利用者や擬人化エージェン卜の視界、
あるいは参照対象等の空間的位置を考慮して、擬人化エ
ージェントを適切な場所に移動、表示するよう制御でき
るようにした例を説明する。

【０２５５】また、この第２の実施例では、その目的と
して、機器の装着や機器の接触操作による指示は勿論の
こと、これに加えて一つは離れた位置からや、機器に非
接触で、かつ、機器を装着せずとも、遠隔で指し示しジ
ェスチャを行い、認識させることも可能であり、かつ、
ジェスチャ認識方式の精度が十分に得られないために発
生する誤認識やジェスチャ抽出の失敗を抑制することが
できるようにする実施例を示す。また、利用者が入力意
図したジェスチャを開始した時点あるいは入力を行って
いる途中の時点では、システムがそのジェスチャ入力を
正しく抽出しているか否かが分からないため、結果とし
て誤認識を引きおこしたり、あるいは、利用者が再度入
力を行わなくてはならなくなるなどして生じる利用者の
負担を抑制するため、このようなことを未然に防ぐこと
ができるようにする技術を示す。

【０２５６】また、実世界の場所やものなどを参照する
ための利用者からの指し示しジェスチャ入力に対して、
その指し示し先として、どの場所、あるいはどの物体あ
るいはそのどの部分を受け取ったかを適切に表示するこ
とを可能にする技術提供するものである。さらに、前述
の問題によって誘発される従来方法の問題である、誤動
作による影響の訂正や、あるいは再度の入力によって引
き起こされる利用者の負担や、利用者の入力の際の不安
による利用者の負担を解消することができるようにす
る。

【０２５７】さらに、擬人化インタフェースを用いたイ
ンタフェース装置、およびインタフェース方法で、利用
者の視界、および擬人化エージェントから視界などを考
慮した、適切なエージェントの表情を生成し、フィード
バックとして提示することが出来るようにする。

【０２５８】以下、図面を参照して本発明の第２の実施
例に係るマルチモーダルインタフェース装置およびマル
チモーダルインタフェース方式につき説明する。はじめ
に構成を説明する。

【０２５９】＜構成＞図１３は、本発明の第２の実施
例にかかるマルチモーダルインタフェース装置の構成の
概要を表すブロック図であり、図１３に示す如く本装置
は、入力部１１０１、認識部１１０２、フィードバック
生成部１１０３、出力部１１０４、配置情報記憶部１１
０５、および制御部１１０６から構成される。

【０２６０】このうち、入力部１１０１は、当該マルチ
モーダルインタフェース装置の利用者からの音声信号、
あるいは画像信号、あるいは操作信号などの入力を随
時、取り込むことができるものであり、利用者からの音
声入力を取り込むマイクロフォン、あるいは利用者の動
作や表情などを観察するカメラ、あるいは利用者の目の
動きを検出するアイトラッカ、あるいは頭部の動きを検
知するヘッドトラッカ、あるいは利用者の手や足など体
の一部あるいは全体の動きを検知する動きセンサ、ある
いは利用者の接近、離脱、着席などを検知する対人セン
サなどのうち少なくとも一つからなるものである。

【０２６１】そして、利用者からの入力として音声入力
を想定する場合には、入力部１１０１は、例えば、マイ
クロフォン、アンプ、アナログ／デジタル（Ａ／Ｄ）変
換装置などから構成されることとなり、また利用者から
の入力として、画像入力を想定する場合には、入力部１
１０１は、例えば、カメラ、ＣＣＤ素子（固体撮像素
子）、アンプ、Ａ／Ｄ変換装置、画像メモリ装置などか
ら構成されることとなる。

【０２６２】また、認識部１１０２は、入力部１１０１
から入力される入力信号を随時解析し、例えば、利用者
の意図した入力の時間的区間あるいは空間的区間の抽出
処理や、あるいは標準パターンとの照合処理などによっ
て認識結果を出力するものである。

【０２６３】より具体的に説明すると当該認識部１１０
２は、音声入力に対しては、例えば、時間当たりのパワ
ーを計算することなどによって音声区間を検出し、例え
ばＦＦＴ（高速フーリエ変換）などの方法によって周波
数分析を行い、例えばＨＭＭ（隠れマルコフモデル）
や、ニューラルネットワークなどを用いて照合弁別処理
や、あるいは標準パターンである音声辞書との、例えば
ＤＰ（ダイナミックプログラミング）などの方法を用い
た照合処理によって、認識結果を出力するようにしてい
る。

【０２６４】また、画像入力に対しては、例えば“Ｕｎ
ｃａｌｉｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉｏｎ
ｗｉｔｈＰｏｉｎｔｉｎｇｆｏｒａＭａｎ−Ｍ
ａｃｈｉｎｅＩｎｔｅｒｆａｃｅ”（Ｒ．Ｃｉｐｏｌ
ｌａ，ｅｔ．ａｌ．，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ
ＭＶＡ′９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎＭａ
ｃｈｉｎｅＶｉｓｉｏｎＡｐｐｌｌｃａｔｉｏｎ，
ｐｐ．１６３−１６６，１９９４．）に示された方法な
どを用いて、利用者の手の領域を抽出し、その形状、空
間位置、向き、あるいは動きなどを認識結果として出力
するようにしている。

【０２６５】図１４は、画像入力を想定した場合の実施
例の入力部１１０１および認識部１１０２の内部構成の
例を表している。

【０２６６】図１４において、１２０１はカメラ、１２
０２はＡ／Ｄ変換部、１２０３は画像メモリであり、入
力部１１０１はこれらにて構成される。カメラ１２０１
は、利用者の全身あるいは、例えば、顔や手などの部分
を撮影し、例えばＣＣＤ素子などによって画像信号を出
力するようにしている。また、Ａ／Ｄ変換部１２０２
は、カメラ１２０１から得られる画像信号を変換し、例
えばビットマップなどのデイジタル画像信号に変換する
様にしている。また、画像メモリ１２０３は、Ａ／Ｄ変
換部１２０２から得られるディジタル画像信号を随時記
録するようにしている。

【０２６７】また、図１４において１２０４は注目領域
推定部、１２０５は認識辞書記憶部、１２０６は照合部
であり、これら１２０４〜１２０６にて認識部１１０２
は構成される。

【０２６８】認識部１１０２の構成要素のうち、注目領
域推定部１２０４は、画像メモリ１２０３の内容を参照
し、例えば差分画像や、オプティカルフローなどの手法
によって、例えば、利用者の顔や目や口、あるはジェス
チャ入力を行っている手や腕などといった注目領域情報
を抽出するようにして構成されている。また、認識辞書
記憶部１２０５は、認識対象の代表画像や、抽象化され
た特徴情報などを、あらかじめ用意した標準パターンと
して記憶するものである。また、照合部１２０６は、画
像メモリ１２０３と、注目領域推定部１２０４から得ら
れる注目領域情報の内容と認識辞書記憶部１２０５の内
容とを参照し、例えば、パターンマッチングや、ＤＰ
（ダイナミックプログラミング）や、ＨＭＭ（隠れマル
コフモデル）や、ニューラルネットなどの手法を用いて
両者を比較照合し、認識結果を出力するものである。

【０２６９】なお、注目領域推定部１２０４および照合
部１２０６の動作状況は、動作状況情報として制御部１
１０６に随時通知されるようにしている。また、注目領
域推定部１２０４および照合部１２０６は、両者の処理
を一括して行う同一のモジュールとして実現することも
可能である。

【０２７０】以上が、入力部１１０１と認識部１１０２
の詳細である。

【０２７１】再び、図１３の構成に戻って説明を続け
る。図１３におけるフィードバック生成部１１０３は、
利用者ヘフィードバックとして提示すべき情報を生成す
るものであり、例えば、利用者に対する注意喚起や、シ
ステムの動作状況を知らせるために、予め用意した警告
音や、文字列、画像を選択したりあるいは、動的に生成
したり、あるいは、提示すべき文字列から合成音声技術
を利用して音声波形を生成したり、あるいは第１の実施
例に示した「マルチモーダル対話装置及びマルチモーダ
ル対話方法」での擬人化イメージ提示部１０３や、ある
いは本発明者等が提案し、特許出願した「身体動作生成
装置および身体動作動作制御方法（特願平８−５７９６
７号）」に開示した技術等と同様に、例えば、ＣＧ（コ
ンピュータグラフィックス）を用いて、利用者と対面
し、サービスを行う「人間」、「動物、」あるいは「ロ
ボット」など、擬人化されたキャラクタが、例えば顔表
情や身振り、手振りなどを表現した静止画像あるいは動
画像を生成したりするようにしている。

【０２７２】また、出力部１４０４は、例えば、ラン
プ、ＣＲＴディスプレイ、ＬＣＤ（液晶）ディスプレ
イ、プラズマディスプレイ、スピーカ、アンプ、ＨＭＤ
（へッドマウントディスプレイ）、提力ディスプレイ、
ヘッドフォン、イヤホン、など少なくとも一つの出力装
置から構成され、フィードバック生成部１１０３によっ
て生成された、フィードバック情報を利用者に提示する
ようにしている。

【０２７３】なお、ここではフィードバック生成部１１
０３で音声信号が生成されるマルチモーダルインタフェ
ース装置を実現する場合には、例えばスピーカなど音声
信号を出力するための出力装置によって出力部１１０４
が構成され、また、フィードバック生成部１１０３にお
いて、例えば、擬人化イメージが生成されるマルチモー
ダルインタフェース装置を実現する場合には、例えばＣ
ＲＴディスプレイによって出力部１１０４が構成され
る。

【０２７４】また、配置情報記憶部１１０５は、利用者
の入力した指し示しジェスチャの参照物、利用者、利用
者の顔や手などの空間位置に関する情報である位置情報
を得、入力部の空間的位置、および出力部の空間的位置
に関する情報、および利用者の空間的位置に関する情報
の少なくとも一つを配置情報として保持するようにする
と共に、位置情報、および配置情報、動作状況情報の少
なくとも一つに応じて、例えば、利用者の指し示しジェ
スチャの対象である参照物を、随時注視する表情を提示
するなど利用者にフィードバックを提示する方式にする
場合に使用される。

【０２７５】配置情報記憶部１１０５には、例えば、利
用者からの実世界への指し示しジェスチャを装置が受け
付ける場合に、利用者に対して提示するフィードバック
情報の生成の際に参照される出力部１１０４の空間位置
から指し示す際に必要となる方向情報算出用の出力部１
１０４の空間位置あるは配置方向などの情報（利用者に
対して提示するフィードバック情報生成の際に参照され
る空間位置情報あるいは方向情報であって、入力部１１
０１から入力され、認識部１１０２によって認識されて
出力される参照物位置情報に含まれる利用者の意図した
参照先の空間位置を、出力部１１０４の空間位置から指
し示す際に必要となる方向情報の算出のための出力部１
１０４の空間位置、あるは配置方向などの情報）が記録
されるようにしている。

【０２７６】図１５は、この配置情報記憶部１１０５の
保持内容の例を表している。

【０２７７】図１５に示す一例としての配置情報記憶部
１１０５の各エントリには、本装置の構成要素である認
識部１１０２によって得られる指示場所、指示対象およ
び利用者の手や顔の位置、および指し示しジェスチャの
参照先の位置、および方向などに関する情報が、「ラベ
ル情報Ａ」、「代表位置情報Ｂ」、「方向情報Ｃ」など
と分類され、随時記録されるようにしている。

【０２７８】ここで、配置情報記憶部１１０５の各エン
トリにおいて、「ラベル情報Ａ」の欄には該エントリに
その位置情報および方向情報を記録している場所や物を
識別するためのラベルが記録される。また、「代表位置
情報Ｂ」の欄には対応する場所あるいはものの位置（座
標）が記録される。また、「方向情報Ｃ」の欄には、対
応する場所あるいはものの方向を表現するための方向ベ
クトルの値が、必要に応じて記録される。

【０２７９】なお、これら「代表位置情報Ｂ」および
「方向情報Ｃ」はあらかじめ定めた座標系（世界座標
系）に基づいて記述されるようにしている。

【０２８０】また、図１５の各エントリにおいて、記号
「−」は対応する手間の内容が空であることを表し、ま
た記号「〜」は本実施例の説明において不要な情報を省
略したものであることを表し、また記号「：」は本発明
の説明において不要なエントリを省略して表しているも
のとする（以下同様）。

【０２８１】また、図１３における制御部１１０６は、
本発明システムにおける入力部１１０１、認識部１１０
２、フィードバック部１１０３、出力部１１０４、およ
び配置情報記憶部１１０５などの各構成要素の動作及び
これら要素間で入出力される情報の授受などの制御を司
るものである。

【０２８２】なお、本システムにおいては制御部１１０
６の動作が本発明システムの実現に重要な役割を担って
いるので、この動作については後に詳しく述べることと
する。

【０２８３】以上が本システムの装置構成とその機能で
ある。つづいて、制御部１１０６の制御によってなされ
る本発明システムの処理の流れについて説明する。

【０２８４】＜制御部１１０６による制御内容＞制御部
１１０６の制御による本発明システムの処理の流れにつ
いて説明する。なお、ここからは、入力部１１０１とし
て、図１４に示したようにカメラ１２０１による画像入
力手段を有すると共に、また、例えば、“Ｕｎｃａｌｉ
ｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉｏｎｗｉｔｈ
ＰｏｉｎｔｉｎｇｆｏｒａＭａｎ−Ｍａｃｈｉｎ
ｅＩｎｔｅｒｆａｃｅ”（Ｒ．Ｃｉｐｏｌｌａ，ｅ
ｔ．ａｌ．，ＰｒｏｃｅｅｄｉｎｇｓｏｆＭＶＡ
’９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎＭａｃ
ｈｉｎｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏ，ｐ
ｐ．１６３−１６６，１９９４．）に示された方法など
によって、実世界の場所あるいは物への利用者の指し示
しジェスチャを認識し、利用者の指し示しジェスチャの
参照対象の位置、および利用者の顔の位置及び向きなど
を出力する認識部１１０２を持ち、かつ、例えば第１の
実施例において説明した「マルチモーダル対話装置及び
マルチモーダル対話方法」での擬人化イメージ提示部１
０３や、あるいは既に特許出願済みの技術である「身体
動作生成装置および身体動作動作制御方法（特願平８−
５７９６７号）」に開示されている技術等と同様に、例
えばＣＧ（コンピュータグラフィックス）を用いて、利
用者と対面し、サービスを行う人間、動物、あるいはロ
ボットなど、擬人化されたキャラクタによって指定した
方向へ視線を向けた顔表情や、「驚き」や「謝罪」を表
す顔表情や身振りや、ジェスチャを持つ擬人化エージェ
ントの表情あるいは動作などの静止画像あるいは動画像
を生成するフィードバック生成部１１０３を持ち、かつ
少なくとも一つの例えばＣＲＴディスプレイなどによる
出力部１１０４を持つマルチモーダルインタフェース装
置を例題として、本発明の実施例を説明することとす
る。

【０２８５】第２の実施例システムにおける制御部１１
０６は下記の“＜処理手順ＡＡ＞”、“＜処理手順ＢＢ
＞”、“＜処理手順ＣＣ＞”、“＜処理手順ＤＤ＞”、
および“＜処理手順ＥＥ＞”に沿った処理に従った制御
動作をする。

【０２８６】ここで、“＜処理手順ＡＡ＞”は、「処理
のメインルーチン」であり、“＜処理手順ＢＢ＞”は、
「擬人化エージェントから利用者のジェスチャ入力位置
が注視可能か否かを判定する」処理手順であり、“＜処
理手順ＣＣ＞”は、「ある擬人化エージェントの提示位
置Ｌｃを想定した場合に、利用者から擬人化エージェン
トを観察可能であるかどうかを判定する」ための手順で
あり、“＜処理手順ＤＤ＞”は、「ある擬人化エージェ
ントの提示位置Ｌｄを想定した場合に、擬人化エージェ
ントから、現在注目しているある指し示しジェスチャＧ
の指示対象Ｒが注視可能であるか否かの判定をする」処
理手順であり、“＜処理手順ＥＥ＞”は「注視対象Ｚを
注視する擬人化エージェントの表情」を生成する擬人化
エージェント表情生成手順である。

【０２８７】＜処理手順ＡＡ＞［ステップＡＡ１］：認識部１１０２の動作状況情報
から、利用者がジェスチャ入力（Ｇｉ）の開始を検知す
るまで待機し、検知したならばステップ（ＡＡ２）へ進
む。

【０２８８】［ステップＡＡ２］： “＜処理手順ＢＢ
＞”により、「現在の擬人化エージェントの提示位置Ｌ
ｊから、ジェスチャ入力Ｇｉが行われている場所Ｌｉを
擬人化エージェントから注視可能である」と判断されて
おり、かつ、“＜処理手順ＣＣ＞”により「提示位置Ｌ
ｊに提示されている擬人化エージェントを、利用者が観
察可能である」と判断された場合にはステップＡＡ６へ
進み、そうでない場合はステップＡＡ３へ進む。

【０２８９】［ステップＡＡ３］：配置情報記憶部１
１０５を参照し、全ての提示位置に対応するエントリに
対して順次、“＜処理手順ＢＢ＞”と“＜処理手順ＣＣ
＞”を用いた条件判断を実施することによって、「ジェ
スチャ入力Ｇｉが行われている場所Ｌｉを、擬人化エー
ジェントが注視可能」であり、かつ「利用者から擬人化
エージェントを観察可能」であるような擬人化エージェ
ントの提示位置Ｌｋを探す。

【０２９０】［ステップＡＡ４］：提示位置Ｌｋが見
つかったならば、ステップＡＡ５へ進み、見つからない
場合は、ステップＡＡ７へ進む。

【０２９１】［ステップＡＡ５］：出力部１１０４を
制御し、擬人化エージェントを提示位置Ｌｋへ移動す
る。

【０２９２】［ステップＡＡ６］：フィードバック生
成部１１０３と出力部１１０４を制御し、“＜処理手順
ＥＥ＞”によってジェスチャ入力が行われている場所Ｌ
ｉを注視する擬人化エージェントの表情を生成し、提示
し、ステップ（ＡＡ１２）ヘ進む。

【０２９３】［ステップＡＡ７］： “＜処理手順ＣＣ
＞”によって、「利用者から擬人化エージェントを観察
可能」であるかどうかを調べ、その結果、観察可能であ
れば、ステップＡＡ１１へ進み、そうでなければ、ステ
ップＡＡ８へ進む。

【０２９４】［ステップＡＡ８］：配置情報記憶部１
１０５を参照し、全ての提示位置に対応するエントリに
対して順次、“＜処理手順ＣＣ＞”を用いた条件判断を
実施することによって、利用者から擬人化エージェント
を観察可能であるような擬人化エージェントの提示位置
Ｌｍを探す。

【０２９５】［ステップＡＡ９］：提示位置Ｌｍが存
在する場合は、ステップＡＡ１０に進み、そうでない場
合はステップＡＡ１２へ進む。

【０２９６】［ステップＡＡ１０］：出力部１１０４
を制御し、擬人化エージェン卜を、提示位置Ｌｍへ移動
する。

【０２９７】［ステップＡＡ１１］：フィードバック
生成部１１０３を制御し、「現在、システムが利用者か
らの指し示しジェスチャ入力を受付中」であることを表
す、例えば「うなづき」などの表情を生成し、出力部１
１０４を制御して利用者に提示する。

【０２９８】［ステップＡＡ１２］：もし、入力部１
１０１あるいは認識部１１０２から得られる動作状況情
報により、ジェスチャＧｉ入力を行っている場所Ｌｉ
が、入力部１１０１の観察範囲から逸脱したならばステ
ップＡＡ１３へ進み、そうでない場合、ステップＡＡ１
４へ進む。

【０２９９】［ステップＡＡ１３］：フィードバック
生成部１１０３を制御し、現在システムが受け取り途中
であった、利用者からの指し示しジェスチャ入力の解析
失敗を表す、例えば「驚き」などの表情を生成し、出力
部１１０４を制御して、利用者に提示し、ステップＡＡ
１へ進む。

【０３００】［ステップＡＡ１４］：認識部１１０２
から得られる動作状況情報から、利用者が入力してきた
ジェスチャ入力Ｇｉの終了を検知した場合は、ステップ
ＡＡ１５ヘ進み、そうでない場合はステップＡＡ２６へ
進む。

【０３０１】［ステップＡＡ１５］：認識部１１０２
から得られるジェスチャ入力Ｇｉの認識結果が、指し示
しジェスチャ（ポインティングジェスチャ）であった場
合はステツプＡＡ１６へ進み、そうでない場合はステッ
プＡＡ２１ヘ進む。

【０３０２】［ステップＡＡ１６］： “＜処理手順Ｄ
Ｄ＞”によって擬人化エージェントから、指し示しジェ
スチャＧｉの指示対象Ｒｌを注視可能であると判断さ
れ、かつ“＜処理手順ＣＣ＞”によって、利用者から擬
人化エージェン卜を観察可能であると判定された場合に
は、ステップＡＡ２０へ進み、そうでなければ、ステッ
プＡＡ１７へ進む。

【０３０３】［ステップＡＡ１７］：配置情報記憶部
１１０５を参照し、全ての提示位置に対応するエントリ
に対して、順次、“＜処理手順ＤＤ＞”および“＜処理
手順ＣＣ＞”を用いた条件判断を行うことによって、擬
人化エージェントから、指し示しジェスチャＧｉの指示
対象Ｒｌが注視可能であり、かつ利用者から擬人化エー
ジェントを観察可能であるような、擬人化エージェント
の提示位置Ｌｎを探す。

【０３０４】［ステップＡＡ１８］：提示位置Ｌｎが
存在する場合は、ステップＡＡ１９へ進み、そうでない
場合はステップＡＡ２１へ進む。

【０３０５】［ステップＡＡ１９］：出力部１１０４
を制御し、擬人化エージェントを、提示位置Ｌｎへ移動
する。

【０３０６】［ステップＡＡ２０］： “＜処理手順Ｅ
Ｅ＞”を用いて、フィードバック生成部１１０３を制御
し、ジェスチャＧｉの参照先Ｒｌを注視する擬人化エー
ジェント表情を生成し、出力部１１０４を制御して利用
者に提示し、ステップＡＡ１ヘ進む。

【０３０７】［ステップＡＡ２１］： “＜処理手順Ｃ
Ｃ＞”によって、「利用者から擬人化エージェントを観
察可能」であるかどうかを調べ、その結果、観察可能で
あればステップＡＡ２５へ進み、そうでなければステッ
プＡＡ２２へ進む。

【０３０８】［ステップＡＡ２２］：配置情報記憶部
１１０５を参照し、全ての提示位置に対応するエントリ
に対して、順次、“＜処理手順ＣＣ＞”を用いた条件判
断を実施することにより、利用者から擬人化エージェン
トを観察可能であるような擬人化エージェン卜の提示位
置Ｌｏを探す。

【０３０９】［ステップＡＡ２３］：提示位置Ｌｏが
存在する場合は、ステップＡＡ２４へ進み、そうでない
場合はステップＡＡ１へ進む。

【０３１０】［ステップＡＡ２４］：出力部１４０４
を制御し、擬人化エージェントを提示位置Ｌｏへ移動す
る。

【０３１１】［ステップＡＡ２５］：次に制御部１１
０６はフィードバック生成部１１０３を制御し、「現在
システムが利用者からの指し示しジェスチャ入力を受付
中」であることを表す例えば、「うなづき」などの表情
を生成し、出力部１１０４を制御して利用者に提示し、
ステップＡＡ１の処理へ戻る。

【０３１２】［ステップＡＡ２６］：制御部１１０６
は認識部１１０２から得られる動作状況情報から、利用
者から入力受付中のジェスチャ入力の解析に失敗したこ
とが判明した場合には、ステップＡＡ２７へ進み、そう
でない場合はステップＡＡ１２ヘ進む。

【０３１３】［ステップＡＡ２７］：制御部１１０６
はフィードバック生成部１１０３を制御し、システムが
利用者からのジェスチャ入力の解析に失敗したことを表
す、「謝罪」などの表情を生成し、さらに出力部１１０
４を制御して、利用者に提示し、ステップＡＡ１へ戻
る。

【０３１４】なお、図１７は、制御部１１０６による以
上の“＜処理手順ＡＡ＞”をフローチャートの形で表現
したものであり、記号「Ｔ」の付与された矢印線は分岐
条件が成立した場合の分岐方向を表し、記号「Ｆ」が付
与された矢印線は分岐条件が成立しなかった場合の分岐
方向を表すものとする。また、図１８〜図２０に図１７
のフローチャートの部分詳細を示す。

【０３１５】次に“＜処理手順ＢＢ＞”を説明する。当
該“＜処理手順ＢＢ＞”では以下の手順を実行すること
によって、ある擬人化エージェントの提示位置Ｌｂを想
定した場合に、擬人化エージェントから、例えば、利用
者の指の先端など、ジェスチャ入力Ｇが行われている位
置Ｌｇが注視可能であるかどうかの判定を行う。

【０３１６】＜処理手順ＢＢ＞［ステップＢＢ１］：制御部１１０６は配置情報記憶
部１１０５を参照し、提示位置Ｌｂに対応する“エント
リＨｂ”を得る。

【０３１７】［ステップＢＢ２］：また、配置情報記
憶部１１０５を参照し、ラベル情報Ａの欄を調べること
によって、ジェスチャが行われている位置Ｇに対応する
“エントリＨｇ”を得る。

【０３１８】［ステップＢＢ３］： “エントリＨｂ”
と“エントリＨｇ”が得られると、制御部１１０６は配
置情報記憶部１１０５に記憶されている“エントリＨ
ｂ”の“代表位置情報Ｂ”の値（Ｘｂ，Ｙｂ，Ｚｂ）、
および“方向情報Ｃ”の値（Ｉｂ，Ｊｂ，Ｋｂ）、およ
び、“エントリＨｇ”の“代表位置情報Ｂ”の値（Ｘ
ｇ，Ｙｇ，Ｚｇ）を参照し、ベクトル（Ｘｂ−Ｘｇ，Ｙ
ｂ−Ｙｇ，Ｚｂ−Ｚｇ）とベクトル（Ｉｂ，Ｊｂ，Ｋ
ｂ）の内積の値Ｉｂを計算する。

【０３１９】［ステップＢＢ４］：そして、制御部１
１０６は次に当該計算結果である内積の値Ｉｂが正の値
であるか負の値であるかを調べ、その結果、正の値であ
る場合は、“エントリＨｂ”に対応する提示位置Ｌｂに
提示する擬人化エージェントから、“エントリＨｇ”に
対応するジェスチャＧが行われている位置Ｌｇが「注視
可能」であると判断し、負である場合は「注視不可能」
であると判断する。

【０３２０】以上により、「擬人化エージェントから利
用者のジェスチャ入力位置が注視可能か否かを判定す
る」処理が行える。

【０３２１】同様に、以下の“＜処理手順ＣＣ＞”によ
って、ある擬人化エージェントの提示位置Ｌｃを想定し
た場合に、利用者から擬人化エージェントを観察可能で
あるかどうかの判定が行われる。

【０３２２】＜処理手順ＣＣ＞［ステップＣＣ１］：制御部１１０６は配置情報記憶
部１１０５を参照し、提示位置Ｌｃに対応する“エント
リＨｃ”を得る。

【０３２３】［ステップＣＣ２］：配置情報記憶部１
１０５を参照し、ラベル情報Ａの内容を調べることによ
って、利用者の顔の位置に対応する“エントリＨｕ”を
得る。

【０３２４】［ステップＣＣ３］： “エントリＨｃ”
と“エントリＨｕ”が得られたなばらば次に制御部１１
０６は配置情報記憶部１１０５をもとに“エントリＨ
ｃ”の“代表位置情報Ｂ”の値（Ｘｃ，Ｙｃ，Ｚｃ）、
および“方向情報Ｃ”の値（Ｉｃ，Ｊｃ，Ｋｃ）、およ
び、“エントリＨｕ”の“代表位置情報Ｂ”の値（Ｘ
ｕ．Ｙｕ．Ｚｕ）を参照し、ベクトル（Ｘｃ−Ｘｕ，Ｙ
ｃ−Ｙｕ，Ｚｃ−Ｚｕ）とベクトル（Ｉｃ，Ｊｃ，Ｋ
ｃ）の内積の値Ｉｃを計算する。

【０３２５】［ステップＣＣ４］：次に制御部１１０
６は内積の値Ｉｃが正の値であるか負の値であるかを判
別し、その結果、正の値である場合は、“エントリＨ
ｃ”に対応する提示位置Ｌｃに提示する擬人化エージェ
ントが、「利用者から観察可能」と判断し、負である場
合は「観察不可能」と判断する。

【０３２６】また、同様に以下の“＜処理手順ＤＤ＞”
によって、「ある擬人化エージェントの提示位置Ｌｄを
想定した場合に、擬人化エージェントから、現在注目し
ているある指し示しジェスチャＧの指示対象Ｒが注視可
能であるかどうか」の判定が行われる。

【０３２７】＜処理手順ＤＤ＞［ステップＤＤ１］：制御部１１０６は配置情報記憶
部１１０５を参照し、提示位置Ｌｄに対応する“エント
リＨｄ”を得る。

【０３２８】［ステップＤＤ２］：また、配置情報記
憶部１１０５を参照し、“ラベル情報Ａ”の内容を調べ
ることによって、“指示対象Ｒ”に対応する“エントリ
Ｈｒ”を得る。

【０３２９】［ステップＤＤ３］： “エントリＨｄ”
と“エントリＨｒ”が得られたならば、制御部１１０６
は“エントリＨｄ”の“代表位置情報Ｂ”の値（Ｘｄ，
Ｙｄ，Ｚｄ）、および“方向情報Ｃ”の値（Ｉｄ，Ｊ
ｄ，Ｋｄ）、および、“エントリＨｒ”の“代表位置情
報Ｂ”の値（Ｘｒ，Ｙｒ，Ｚｒ）を参照し、ベクトル
（Ｘｄ−Ｘｒ，Ｙｄ−Ｙｒ，Ｚｄ−Ｚｒ）とベクトル
（Ｉｄ，Ｊｄ，Ｋｄ）の内積の値Ｉｄを計算する。

【０３３０】［ステップＤＤ４］：次に制御部１１０
６は求められた内積の値Ｉｄが正の値であるか負の値で
あるかを判断する。その結果、正の値である場合は、
“エントリＨｄ”に対応する“提示位置Ｌｄ”に提示す
る擬人化エージェントから、“エントリＨｒ”に対応す
る指し示しジェスチャＧの“参照先Ｒ”を「注視可能」
と判断し、負である場合には「注視不可能」と判断す
る。

【０３３１】また、以下の“＜処理手順ＥＥ＞”によっ
て、フィードバック生成部１１０３によって、ある提示
位置Ｌｅを想定した際に、擬人化エージェントが、例え
ば、ジェスチャの行われている位置や、あるいは指し示
しジェスチャの参照先などの、“注視対象Ｚ”を注視す
る擬人化エージェントの表情が生成される。

【０３３２】＜処理手順ＥＥ＞［ステップＥＥ１］：制御部１１０６は配置情報記憶
部１１０５を参照し、提示位置Ｌｅに対応する“エント
リＨｅ”を得る。

【０３３３】［ステップＥＥ２］：また、配置情報記
憶部１１０５を参照し、“ラベル情報Ａ”の内容を調べ
ることによって、注視対象ｚに対応する“エントリＨ
ｚ”を得る。

【０３３４】［ステップＥＥ３］：次に制御部１１０
６は“エントリＨｅ”の“代表位置情報Ｂ”の値（Ｘ
ｅ，Ｙｅ，Ｚｅ）、および、“エントリＨｚ”の“代表
位置情報Ｂ”の値（Ｘｚ，Ｙｚ，Ｚｚ）を参照し、ベク
トルＶｆ＝（Ｘｅ−Ｘｚ，Ｙｅ−Ｙｚ，Ｚｅ−Ｚｅ）を
得る。

【０３３５】［ステップＥＥ４］： “エントリＨｅ”
と“ベクトルＶｆ”が求められたならば、制御部１１０
６は次に“エントリＨｅ”の“方向情報Ｃ”から得られ
る提示位置Ｌｅの基準方向を正面とした場合で擬人化エ
ージェントが“べクトルＶｆ”の方向を向く表情を作成
する。このような表情作成には本発明者等が提案し、特
許出願した例えば、「身体動作生成装置および身体動作
動作制御方法（特願平８−５７９６７号）」に開示の技
術などが適用可能である。

【０３３６】このようにして、制御部１１０６は、擬人
化エージェントから利用者のジェスチャ入力位置が注視
可能か否かを判定し、ある擬人化エージェントの提示位
置Ｌｃを想定した場合に、利用者から擬人化エージェン
トを観察可能であるか否かを判断し、ある擬人化エージ
ェントの提示位置Ｌｄを想定した場合に、擬人化エージ
ェントから、現在注目しているある指し示しジェスチャ
Ｇの指示対象Ｒが注視可能であるか否か判断し、注視可
能であれば注視対象Ｚを注視する擬人化エージェントの
表情を生成する。また、注視不可能の場合や認識失敗の
場合はそれを端的に示すジェスチャの擬人化エージェン
トを表示する。

【０３３７】以上が、本発明にかかるマルチモーダルイ
ンタフェース装置およびマルチモーダルインタフェース
方法の構成と機能及び主要な処理の流れである。続い
て、本発明にかかるマルチモーダルインタフェース装置
の動作の様子を、図を参照しながら、具体例を用いて更
に詳しく説明する。

【０３３８】＜第２の具体例装置の具体な動作例＞ここ
では、カメラを用いた入力部１１０１と画像認識技術と
により、利用者の顔の位置、向き、および指し示しのた
めのハンドジェスチャの行われている位置、方向、およ
び参照先の位置情報を得る認識部１１０２と、利用者と
システムとの自然な対話を進めるために重要な擬人化エ
ージェントのＣＧを生成するフィードバック生成部１１
０３と、２つのディスプレイ装置を出力部１１０４とし
て持つ、本発明の第２の実施例に基づくマルチモーダル
インタフェース装置に向かって、利用者が指し示しジェ
スチャ入力を行うという設定で具体的動作を説明する。

【０３３９】図１６は、この動作例の状況を説明する図
である。図１６において、Ｘ，Ｙ，Ｚは世界座標系の座
標軸を表している。また、Ｐ１，Ｐ２，Ｐ３，〜Ｐ９は
それぞれ場所であり、これらのうち、場所Ｐ１（Ｐ１の
座標＝（１０，２０，４０））は、“提示場所１”の代
表位置を表しており、場所Ｐ１から描かれた矢印Ｖ１
（Ｖ１の先端位置座標＝（１０，０，１））は、“提示
場所１”の法線方向を表すベクトルである。

【０３４０】同様に、場所Ｐ２（Ｐ２の座標＝（−２
０，０，３０））は、“提示位置２”の代表位置を表し
ており、場所Ｐ２から描かれた矢印Ｖ２（Ｖ２の先端位
置座標＝（１０，１０，−１））は、“提示場所２”の
法線方向を表すベクトルである。

【０３４１】また、場所Ｐ３（Ｐ３の座標＝（４０，３
０，５０））は、認識部１１０２から得られる現在の利
用者の顔を代表位置を表しており、場所Ｐ３から描かれ
た矢印Ｖ３（Ｖ３の先端位置座標＝（−４，−３，−１
０））は、利用者の顔の向きを表すベクトルである。ま
た、場所Ｐ４（Ｐ４の座標＝（４０，１０，２０））
は、ある時点（Ｔ２〜Ｔ８）において、利用者が指し示
しジェスチャを行った際の指の先端位置を表しており、
場所Ｐ４から描かれたＶ４（Ｖ４の先端位置座標＝（−
１，−１，−１））は、その指し示しジェスチャの方向
を表すベクトルである。

【０３４２】また、場所Ｐ５（Ｐ５の座標＝（２０，１
０，２０））は、ある時点（Ｔ１４〜Ｔ１５）におい
て、利用者が指し示しジェスチャを行った際の指の先端
位置を表しており、場所Ｐ５から描かれたＶ５（Ｖ５の
先端位置座標＝（−１，−１，−１））は、その指し示
しジェスチャの方向を表すべクトルである。

【０３４３】また、場所Ｐ８（Ｐ８の座標＝（３０，
０，１０））は、ある時点（Ｔ２〜Ｔ８）において、利
用者が行った指し示しジェスチャの指示対象である“物
体Ａ”の代表位置を表している。また、場所Ｐ９（Ｐ９
の座標＝（０，−１０，０））は、ある時点（Ｔ１４〜
Ｔ１５）において、利用者が行った指し示しジェスチャ
の指示対象である“物体Ｂ”の代表位置を表している。

【０３４４】なお、以上の代表位置および方向に関する
情報は、予め用意されるか、あるいは入力部１１０１か
ら得られる画像情報などを解析する認識部１１０２によ
って検知され、配置情報記憶部１１０５に随時記録され
るようにしている。

【０３４５】続いて、処理の流れに沿って説明を行う。

【０３４６】＜処理例１＞ここでは、利用者が指し示し
ジェスチャ入力を行った際に、そのフィードバック情報
として、参照先を注視する擬人化エージェントの表情を
利用者に提示するための処理例を説明する。

【０３４７】［Ｔ１］：最初、場所Ｐ１に対応する
“提示場所１”に擬人化エージェントが表示されている
ものとする。

【０３４８】［Ｔ２］：ここで、利用者が“物体Ａ”
への指し示しジェスチャ（Ｇ１とする）を開始したとす
る。

【０３４９】［Ｔ３］：入力部１１０１からの入力画
像を解析する認識部１１０２が、ジェスチャＧ１の開始
を検知して、動作状況情報として制御部１１０６に通知
する。

【０３５０】［Ｔ４］：制御部１１０６では“＜処理
手順ＡＡ＞”のステップＡＡ１からＡＡ２へと処理を進
める。

【０３５１】［Ｔ５］：制御部１１０６はステップＡ
Ａ２の処理においてで、まず、図１５に示した配置情報
記憶部１１０５の“エントリＱ１”と“エントリＱ４”
を参照した“＜処理手順ＢＢ＞”に基づく処理によっ
て、現在の擬人化エージェントの提示位置Ｐ１から、ジ
ェスチャＧ１の行われている位置Ｐ４が注視可能である
ことが判明する。

【０３５２】［Ｔ６］：また、図１５に示した配置情
報記憶部１１０５の“エントリＱ１”と“エントリＱ
３”を参照した“＜処理手順ＣＣ＞”に基づく処理によ
って、現在の利用者の顔の位置であるＰ３から、現在の
擬人化エージェントの提示位置Ｐ１が観察可能であるこ
とが判明する。

【０３５３】［ステップＴ７］：次に制御部１１０６
はステップＡＡ６の処理へと進み、“＜処理手順ＥＥ
＞”に基づく処理を実行することにより、フィードバッ
ク生成部１１０３により、現在利用者が行っているジェ
スチャＧ１を注視する擬人化エージェントの表情を生成
し、出力部１１０４を通じて利用者に提示させる。

【０３５４】以上の処理によって、利用者がジェスチャ
入力を開始した際に、フィードバック情報として、ジェ
スチャ入力を行っている利用者の手や指などを注視する
擬人化エージェントの表情を、利用者に提示することが
出来る。

【０３５５】［Ｔ８］：次に制御部１１０６はステッ
プＡＡ１２の処理に移る。ここでは、ジェスチャＧ１が
入力部１１０１の観察範囲から外れたか否かを判断す
る。

【０３５６】なお、ジェスチャＧ１は入力部１１０１の
観察範囲から逸脱しなかっとし、その結果、ステップＡ
Ａ１４ヘ進んだものとする。

【０３５７】［Ｔ９］：制御部１１０６はステップＡ
Ａ１４において、利用者のジェスチャが終了を指示した
か否かを認識部１１０２の動作状況情報から判断する。
いま、ジェスチャＧ１の終了が認識部１１０２から動作
状況情報として通知されたものとする。従って、この場
合、ジェスチャＧ１の終了を制御部１１０６は認識す
る。

【０３５８】［Ｔ１０］：次に制御部１１０６はステ
ップＡＡ１５の処理に移る。当該処理においては、ジェ
スチャが指し示しジェスチャであるかを判断する。そし
て、この場合、ジェスチャＧ１は指し示しジェスチャで
あるので、認識部１１０２から得られる動作状況情報に
基づいて、ステップＡＡ１６へ進む。

【０３５９】［Ｔ１１］：制御部１１０６はステップ
ＡＡ１６の処理において、まず、図１５に示した配置情
報記憶部１１０５の“エントリＱ１”と“エントリＱ
８”を参照した“＜処理手順Ｄ＞”に基づく処理を行
う。そして、これにより、ジェスチャＧ１の指示示対象
である“物体Ａ”を擬人化エージェントから注視可能で
あることを知る。

【０３６０】［Ｔ１２］：また、図１５に示した配置
情報記憶部１１０５の“エントリＱ１”と“エントリＱ
３”を参照した“＜処理手順ＣＣ＞”に基づく処理によ
って、利用者から擬人化エージェントを観察可能である
ことも判明し、ステップＡＡ２０への処理へと移る。

【０３６１】［Ｔ１３］ステップＡＡ２０において、
制御部１１０６は図１５に示した配置情報記憶部１１０
５の“エントリＱ１”と“エントリＱ８”を参照した
“＜処理手順ＥＥ＞”に基づく処理を実施し、これによ
って、ジェスチャＧ１の参照先である“物体Ａ”の場所
Ｐ８を注視するエージェント表情を利用者に提示させ
る。そして、ステップＡＡ１ヘ戻る。

【０３６２】以上の処理によって、利用者が指し示しジ
ェスチャ入力を行った際に、そのフィードバック情報と
して、参照先を注視する擬人化エージェントの表情を利
用者に提示することが可能となる。

【０３６３】続いて、条件の異なる別の処理例を示す。

【０３６４】＜処理例２＞［Ｔ２１］：利用者から、場所Ｐ９にある“物体Ｂ”
を参照する、指し示しジェスチャＧ２の入力が開始され
始めたとする。

【０３６５】［Ｔ２２］：ステップＴ２〜Ｔ７での処
理と同様の処理によって、ジェスチャＧ２を注視する擬
人化エージェント表情が利用者に提示される。

【０３６６】［Ｔ２３］：ステップＡＡ１６で、ま
ず、図１５に示した配置情報記憶部１１０５の“エント
リＱ１”と“エントリＱ９”を参照した“＜処理手順Ｂ
Ｂ＞”に基づく処理によって、現在の擬人化エージェン
トの提示位置Ｐ１から、ジェスチャＧ２の行われている
位置Ｐ９が注視不可能であることが判明する。

【０３６７】［Ｔ２４］：ステップＡＡ１７におい
て、図１５に示した配置情報記憶１０５のエントリＱ１
およびエントリＱ２など全ての提示位置に対応するエン
トリを、“＜処理手順ＤＤ＞”に基づく処理によって判
定することによって、ジェスチャＧ１の指示対象である
物体Ｂを、擬人化エージェントが注視可能で、かつ利用
者の位置であるＰ３から観察可能な提示位置が検索さ
れ、提示位置２に対応する場所Ｐ２が得られる。

【０３６８】［Ｔ２５］：ステップＡＡ１９へ進み、
出力部１１０４を通じて擬人化エージェントを場所Ｐ２
へ移動させ、ステップＡＡ２０へ進む。

【０３６９】［Ｔ２６］：前記Ｔ１３と同様の処理に
よって、指示対象である“物体Ｂ”を注視する擬人化エ
ージェン卜の表情が、ジェスチャＧ２に対するフィード
バックとして利用者に提示される。

【０３７０】制御部１１０６による以上の処理の結果、
利用者が行った指し示しジェスチャの参照先が擬人化エ
ージェントから注視できない場所にあった場合でも、適
切な位置に擬人化エージェントが移動されるようにした
ことで、適切なフィードバックを利用者に提示すること
が可能となる。

【０３７１】その他、利用者が行ったジェスチャ入力
を、擬人化エージェントが注視できない場合には、ステ
ップＡＡ３の処理によって、適切な位置に擬人化エージ
ェントを移動させることで、適切なフィードバックを利
用者に提示することが可能となる。また、そのような移
動が不可能である場合には、ステップＡＡ７〜ＡＡ１１
の処理によって、「うなずき」の表情がフィードバック
として提示される。

【０３７２】また、利用者の行っているジェスチャ入力
の途中で、例えばジェスチャ入力を行っている手が、カ
メラの撮影視野から外れるなどした場合には、ステップ
ＡＡ１２〜ＡＡ１３の処理によって、「驚きの表情」が
フィードバックとして利用者に提示される。

【０３７３】また、利用者の入力したジェスチャ入力
が、指し示しジェスチャ以外の種類である場合にも、ス
テップＡＡ２１〜ＡＡ２５の処理によって、必要に応じ
て擬人化エージェントの表示位置を移動させた上で、
「うなずき」の表情がフィードバックとして提示され
る。また、利用者の入力したジェスチャの認識に失敗し
た場合にも、ステップＡＡ２７の処理によって、擬人化
エージェントの「謝罪」の表情がフィードバックとして
利用者に提示される。

【０３７４】かくして、このように構成された本装置に
よれば、利用者が、離れた位置からや、機器に接触せず
に、かつ、機器を装着せずに、遠隔で指し示しジェスチ
ャを行うことが出来、かつ、ジェスチャ認識方式の精度
が十分に得られないために発生する誤認識やジェスチャ
抽出の失敗を抑制することが可能となる。

【０３７５】また、利用者が入力意図したジェスチャを
開始した時点あるいは入力を行っている途中の時点で
は、システムがそのジェスチャ入力を正しく抽出してい
るかどうか分からないため、結果として誤認識を引き起
こしたり、あるいは、利用者が再度入力を行わなくては
ならなくなるなどして発生する利用者の負担を抑制する
ことができるようになる。

【０３７６】また、実世界の場所やものなどを参照する
ための利用者からの指し示しジェスチャ入力に対して、
その指し示し先として、どの場所、あるいはどの物体あ
るいはそのどの部分を受け取ったかを適切に表示するこ
とが可能となる。さらに、前述の問題によって誘発され
る従来方法の問題である、誤動作による影響の訂正や、
あるいは再度の入力によって引き起こされる利用者の負
担や、利用者の入力の際の不安による利用者の負担を解
消することができる。

【０３７７】さらに、擬人化インタフェースを用いたイ
ンタフェース装置、およびインタフェース方法では、利
用者の視界、および擬人化エージェントから視界などを
考慮した、適切なエージェントの表情を生成し、フィー
ドバックとして提示することが可能となる。

【０３７８】尚、本発明にかかるマルチモーダルインタ
フェース装置およびマルチモーダルインタフェース方法
の実施形態は、上述した例に限定されるものではない。
例えば、上述の実施例では、カメラを用いて取り込んだ
画像から利用者のジェスチャおよび顔等などの位置や向
きの認識処理を行うようにしているが、これを例えば、
磁気センサ、赤外センサ、データグローブ、あるいはデ
ータスーツなどを用いた方法によって実現することも可
能である。また、上述の実施例では、擬人化エージェン
トの注視の表情によって、指し示し先のフィードバック
を実現しているが、例えば、擬人化エージェントが指示
対象を手で指し示す動作をすることなどによって指し示
し先のフィードバックを実現することも可能である。

【０３７９】また、上述の実施例では、一箇所の場所を
指すポインティングによる指し示しジェスチャの入力を
例として説明したが、例えば空間中のある広がりを持っ
た領域を囲う動作によるサークリングジェスチャなどに
対して、例えばサークリングを行っている指先を、擬人
化エージェントが随時注視することなどによって、フィ
ードバック行うよう構成することも可能である。

【０３８０】また、上述の実施例では、配置情報記憶部
の内容のうち、例えば、出力部に関するエントリを予め
用意しておくよう構成していたが、例えば、出力部など
に、例えば、磁気センサなどを取り付けたり、あるいは
入力部などによって周囲環境の変化を随時観察し、出力
部や利用者の位置などが変更された場合に、動的に配置
情報記憶部の内容を更新するように構成することも可能
である。

【０３８１】また、上述の実施例では、利用者の指し示
したジェスチャの指示対象を擬人化エージェントが注視
するよう構成し、これにより、システムの側で認識でき
なくなったり、システム側での認識結果が誤っていない
かなどが、利用者の側で直感的にわかるようにしていた
が、逆にたとえば擬人化エージェントが、例えばフロッ
ピドライブの物理的な位置を利用者に教える場合などに
も、擬人化エージェントがその方向を見るように表示す
ることで、擬人化エージェントの目配せによる指示によ
り利用者がその対象の位置を認識し易くするように構成
することも出来る。

【０３８２】あるいは、上述の実施例では、たとえば、
利用者や擬人化エージェントから、ある位置が注視可能
あるいは観察可能であるかを、それらの方向ベクトルに
垂直な平面との位置関係によって判定を行っているが、
例えば、円錐状の領域によって判定を行ったり、あるい
は実際の人間の視界パターンを模擬した領域形状によっ
て判定を行うよう構成することも可能である。あるい
は、上述の実施例では、ＣＲＴディスプレイに表示され
る擬人化エージェントによる実施例を示したが、例え
ば、ホログラフなどの三次元表示技術を利用した出力部
を用いて、本発明を実現することも可能である。

【０３８３】また、本発明の出力部は、一つの表示装置
によって実現することも可能であるし、あるいは物理的
に複数の表示装置を用いて実現することも可能である
し、あるいは物理的には一つである表示装置の複数の領
域を用いて実現することも可能である。あるいは、例え
ば図１２に示した様な汎用コンピュータを用い、上述の
処理手順に基づいて作成されたプログラムを、例えば、
フロッピディスクなど外部記憶媒体に記録しておき、こ
れをメモリに読み込み、例えば、ＣＰＵ（中央演算装
置）などで実行することによっても、本発明を実現する
ことも可能である。

【０３８４】以上、第２の実施例に示す本発明は、利用
者からの音声入力を取り込むマイク、あるいは利用者の
動作や表情などを観察するカメラ、あるいは利用者の目
の動きを検出するアイトラッカ、あるいは頭部の動きを
検知するヘッドトラッカー、あるいは手や足など体の一
部あるいは全体の動きを検知する動きセンサ、あるいは
利用者が装着しその動作などを取り込むデータグロー
ブ、あるいはデータスーツ、あるいは利用者の接近、離
脱、着席などを検知する対人センサなどのうち、少なく
とも一つからなり、利用者からの入力を随時取り込んで
入力情報として出力する入力手段と、該入力手段から得
られる該入力情報を受け取り、音声検出処理、音声認
識、形状検出処理、画像認識、ジェスチャ認識、表情認
識、視線検出処理、あるいは動作認識の少なくとも一つ
の処理を施すことによって、該利用者からの入力を、
「受付中」であること、「受け付け完了」したこと、
「認識成功」したこと、あるいは「認識失敗」したこと
などの如き利用者からの入力の受け付け状況情報を、動
作状況情報として出力する入力認識手段と、警告音、合
成音声、文字列、画像、あるいは動画を用い、フィード
バックとして利用者に提示する出力手段と、該入力認識
手段から得られる該動作状況情報に応じ、該出力手段を
通じて利用者にフィードバック情報を提示する制御手段
とより構成したことを特徴とするものである。

【０３８５】あるいは、入力手段はカメラ（撮像装置）
などの画像取得手段によって利用者の画像を取り込み、
入力情報として例えば、アナログデジタル変換された画
像情報を出力する手段を用い、入力認識手段は該入力手
段から得られる該画像情報に対して、例えば前時点の画
像との差分抽出やオプティカルフローなどの方法を適用
することで、例えば動領域を検出し、例えばパターンマ
ッチング技術などの手法によって照合することで、入力
画像から、ジェスチャ入力を抽出し、これら各処理の進
行状況を動作状況情報として随時出力する認識手段と
し、制御手段は該入力認識手段から得られる該動作状況
情報に応じて、文字列や画像を、あるいはブザー音や音
声信号などを、例えば、ＣＲＴディスプレイやスピーカ
といった出力手段から出力するよう制御する手段とする
ことを特徴とする。さらには、入力手段から得られる入
力情報、および入力認識手段から得られる動作状況情報
の少なくとも一方の内容に応じて、利用者へのフィード
バックとして提示すべき情報であるフィードバック情報
を生成するフィードバック情報生成手段を具備する。ま
た、利用者と対面してサービスを提供する人物、生物、
機械、あるいはロボットなどとして擬人化されたエージ
ェント人物の、静止画あるいは動画による画像情報を、
利用者へ提示する擬人化イメージとして生成するフィー
ドバック情報生成手段と、入力認識手段から得られる動
作状況情報に応じて、利用者に提示すべき擬人化イメー
ジの表情あるいは動作の少なくとも一方を決定し、出力
手段を通じて、例えば、指し示しジェスチャの指し示し
先、あるいは例えば指先や顔や目など、利用者がジェス
チャ表現を実現している部位あるいはその一部など注視
する表情であるフィードバック情報を生成するフィード
バック情報生成手段とを更に設け、制御手段には、利用
者に該フィードバック情報生成手段によって生成された
フィードバック情報を、出力手段から利用者へのフィー
ドバック情報として提示する機能を持たせるようにした
ものである。更には、入力手段の空間的位置、および出
力手段の空間的位置に関する情報、および利用者の空間
的位置に関する情報の少なくとも一つを配置情報として
保持する配置情報記憶手段を設け、入力認識手段には、
利用者の入力した指し示しジェスチャの参照物、利用
者、利用者の顔や手などの空間位置を表す位置情報を出
力する機能を設けると共に、また、配置情報記憶手段か
ら得られる配置情報および該入力認識手段から得られる
位置情報および動作状況情報のうち、少なくとも一つを
参照して擬人化エージェントの動作、あるいは表情ある
いは制御タイミングの少なくとも一つを決定し、フィー
ドバック情報として出力するフィードバック手段とを設
ける構成としたものである。

【０３８６】そして、このような構成の本システムは、
利用者からの音声入力を取り込むマイク、あるいは利用
者の動作や表情などを観察するカメラ、あるいは利用者
の目の動きを検出するアイトラッカあるいは頭部の動き
を検知するヘッドトラッカー、あるいは手や足など体の
一部あるいは全体の動きを検知する動きセンサ、あるい
は利用者の接近、離脱、着席などを検知する対人センサ
などによる入力手段のうち、少なくとも一つから入力さ
れる利用者からの入力を随時取り込み、入力情報として
得、これを音声検出処理、音声認識、形状検出処理、画
像認識、ジェスチャ認識、表情認識、視線検出処理、あ
るいは動作認識のうち、少なくとも一つの認識処理を施
すことによって、該利用者からの入力に対する受付状況
の情報、すなわち、受付中であること、受け付け完了し
たこと、認識成功したこと、あるいは認識失敗したこ
と、などといった利用者からの入力の受付状況の情報を
動作状況情報として得、得られた動作状況情報に基づい
て、警告音、合成音声、文字列、画像、あるいは動画を
用い、フィードバックとして、利用者に提示するもので
ある。

【０３８７】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止画あるいは動画によ
る画像情報を、フィードバック情報認識手段から得られ
る動作状況情報に応じて、利用者に提示すべき擬人化イ
メージ情報として生成し、これを表示することで、たと
えば音声入力がなされた時点で擬人化エージェントによ
って例えば「うなずき」の表情を提示するなど利用者に
フィードバックを提示する。

【０３８８】また、認識手段により画像認識して、利用
者の入力した指し示しジェスチャの参照物、利用者、利
用者の顔や手などの空間位置に関する情報である位置情
報を得、配置情報記憶手段により入力部の空間的位置、
および出力部の空間的位置に関する情報、および利用者
の空間的位置に関する情報の少なくとも一つを配置情報
として保持し、位置情報、および配置情報、動作状況情
報の少なくとも一つに応じて、例えば、利用者の指し示
しジェスチャの対象である参照物を、随時注視する表情
を提示するなど利用者にフィードバックを提示する。

【０３８９】このように、利用者がシステムから離れた
位置や、あるいは機器に非接触状態で指し示しジェスチ
ャを認識させ、指示を入力することが出来るようにな
り、かつ、誤認識なくジェスチャ認識を行えて、ジェス
チャ抽出の失敗を無くすことができるようになるマルチ
モーダルインタフェース装置およびマルチモーダルイン
タフェース方法を提供することができる。また、利用者
が入力意図したジェスチャを開始した時点あるいは入力
を行っている途中の時点で、システムがそのジェスチャ
入力を正しく抽出しているか否かを知ることができ、利
用者が再入力を行わなくてはならなくなるな負担を解消
できるマルチモーダルインタフェース装置およびマルチ
モーダルインタフェース方法を提供できる。また、実世
界の場所やものなどを参照するための利用者からの指し
示しジェスチャ入力に対して、その指し示し先として、
どの場所、あるいはどの物体あるいはそのどの部分を受
け取ったかを適切に表示することができるマルチモーダ
ルインタフェース装置およびマルチモーダルインタフェ
ース方法を提供できる。

【０３９０】なお、第２の実施例に示した本発明は方法
としても適用できるものであり、また、上述の具体例の
中で示した処理手順、フローチャートをプログラムとし
て記述し、実装し、汎用の計算機システムで実行するこ
とによっても同様の機能と効果を得ることが可能であ
る。すなわち、この場合、図１２に示したように、ＣＰ
Ｕ３０１，メモリ３０２，大容量外部記憶装置３０
３，通信インタフェース３０４などからなる汎用コンピ
ュータに、入力インタフェース３０５ａ〜３０５ｎと、
入力デバイス３０６ａ〜３０６ｎ、そして、出力インタ
フェース３０７ａ〜３０７ｍと出力デバイス３０８ａ〜
３０８ｍを設け、入力デバイス３０６ａ〜３０６ｎとし
て、マイクやキーボード、ペンタブレット、ＯＣＲ、マ
ウス、スイッチ、タッチパネル、カメラ、データグロー
ブ、データスーツといったものを使用し、そして、出力
デバイス３０８ａ〜３０８ｍとして、ディスプレイ、ス
ピーカ、フォースディスプレイ、等を用いてＣＰＵ３
０１によるソフトウエア制御により、上述の如き動作を
実現することができる。

【０３９１】すなわち、第１及び第２の実施例に記載し
た手法は、コンピュータに実行させることのできるプロ
グラムとして、磁気ディスク（フロッピーディスク、ハ
ードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶ
Ｄなど）、半導体メモリなどの記録媒体に格納して頒布
することもできるので、この記録媒体を用いてコンピュ
ータにプログラムを読み込み、ＣＰＵ３０１に実行さ
せれば、本発明のマルチモーダル対話装置が実現できる
ことになる。

【０３９２】

【発明の効果】以上示したように本発明は、視線検出等
の技術を用い、利用者の注視対象に応じて他メディアか
らの入力の受付可否や、認識処理、あるいは出力の提示
方法や中断、確認等を制御するようにしたものであっ
て、特に擬人化インターフェースでは例えば顔を見るこ
とによって会話を開始できるようにする等、人間同士の
コミュニケーションでの非言語メッセージの使用法や役
割をシミュレートするようにして適用したものである。
従って、本発明によれば、複数の入出力メディアを効率
的に利用し、高能率で、効果的で、利用者の負担を軽減
する、マルチモーダルインタフェースは実現することが
出来る。

【０３９３】また、各メディアからの入力の解析精度が
不十分であるため、たとえば、音声入力における周囲雑
音などに起因する誤認識の発生や、あるいはジェスチャ
入力の認識処理において、入力デバイスから刻々得られ
る信号のなかから、利用者が入力メッセージとして意図
した信号部分の切りだしに失敗することなどによる誤動
作が起こらないインタフェースが実現できる。また、音
声入力やジェスチャ入力など、利用者が現在の操作対象
である計算機などへの入力として用いるだけでなく、例
えば周囲の他の人間へ話しかけたりする場合にも利用さ
れるメディアを用いたインタフェース装置では、利用者
が、インタフェース装置ではなく、たとえば自分の横に
いる他人に対して話しかけたり、ジェスチャを示したり
した場合にも、インタフェース装置が自分への入力であ
ると誤って判断をして、認識処理などを行なって、誤動
作を起こり、その誤動作の取消や、誤動作の影響の復旧
や、誤動作を避けるために利用者が絶えず注意を払わな
くてはいけなくなるなどの負荷を解消することによっ
て、利用者の負担を軽減することが出来る。

【０３９４】また、本来不要な場面には、入力信号の処
理を継続的にして行なわないようにできるため、利用し
ている装置に関与する他のサービスの実行速度や利用効
率を向上することが出来る。

【０３９５】また、入力モードなどを変更するための特
別な操作が必要なく、利用者にとって繁雑でなく、習得
や訓練が必要でなく、利用者に負担を与えない人間同士
の会話と同様の自然なインタフェースを実現することが
出来る。

【０３９６】また、例えば音声入力は手で行なっている
作業を妨害することがなく、双方を同時に利用すること
が可能であると言う、音声メディア本来の利点を有効に
活用するインタフェースを実現することが出来る。

【０３９７】また、提示される情報が提示してすぐ消滅
したり、刻々変化したりする一過性のメディアも用いて
利用者に情報提示する際にも、利用者がそれらの情報を
受け損なうことのないインタフェースを実現することが
出来る。

【０３９８】また、一過性のメディアも用いて利用者に
情報提示する際、利用者が一度に受け取れる分量毎の情
報を提示し、継続する次の情報を提示する場合にも、特
別な操作が不要なインタフェースを実現することが出来
る。

【０３９９】また、従来のマルチモーダルインタフェー
ス不可能であった視線一致（アイコンタクト）、注視位
置、身振り、手振りなどのジェスチャ、顔表情など非言
語メッセージを、効果的活用することが出来る。

【０４００】つまり本発明によって、複数の入出力メデ
ィアを効率的に利用し、高能率で、効果的で、利用者の
負担を軽減する、インタフェースが実現できる。

【０４０１】また、本発明は、利用者が入力を意図した
音声やジェスチャを、自然且つ、円滑に入力可能にする
ものであり、利用者からのジェスチャ入力を検知した際
に、擬人化エージェントの表情によって、ジェスチャ入
力を行う手などを随時注視したり、あるいは指し示しジ
ェスチャに対して、その参照対象を注視することによっ
て、利用者へ自然なフィードバックを提示し、さらに、
その際、利用者や擬人化エージェン卜の視界、あるいは
参照対象等の空間的位置を考慮して、擬人化エージェン
トを適切な場所に移動、表示するよう制御するようにし
たもので、このような本発明によれば、利用者が離れた
位置や、あるいは機器に接触せずに、かつ、機器を装着
せずに、遠隔で指し示しジェスチャを行うことが出来、
かつ、ジェスチャ認識方式の精度が十分に得られないた
めに発生する誤認識やジェスチャ抽出の失敗を抑制する
ことが可能となる。

【０４０２】また、利用者が入力意図したジェスチャを
開始した時点あるいは入力を行っている途中の時点で
は、システムが、そのジェスチャ入力を正しく抽出して
いるかどうかが分からないため、結果として誤認識を引
き起こしたり、あるいは、利用者が再度入力を行わなく
てはならなくなるなどして発生する利用者の負担を抑制
することが可能となる。また、実世界の場所やものなど
を参照するための利用者からの指し示しジェスチャ入力
に対して、その指し示し先として、どの場所、あるいは
どの物体あるいはそのどの部分を受け取ったかを適切に
表示することが可能となる。さらに、利用者の視界、お
よび擬人化エージェントから視界などを考慮した、適切
なエージェントの表情を生成し、フィードバックとして
提示することが可能となる。

【０４０３】さらに、前述の問題によって誘発される従
来方法の問題である、誤動作による影響の訂正や、ある
いは再度の入力によって引き起こされる利用者の負担
や、利用者の入力の際の不安による利用者の負担を解消
することができる等の実用上多大な効果が奏せられる。

【図面の簡単な説明】

【図１】本発明を説明するための図であって、本発明の
一具体例としてのマルチモーダル装置の構成例を示す
図。

【図２】本発明を説明するための図であって、本発明装
置において出力される注視対象情報の例を示す図。

【図３】本発明を説明するための図であって、本発明装
置における他メディア入力部１０２の構成例を示す図。

【図４】本発明を説明するための図であって、本発明装
置における擬人化イメージ提示部１０３の出力を含むデ
ィスプレイ画面の例を示す図。

【図５】本発明を説明するための図であって、本発明装
置における情報出力部１０４の構成例を示す図。

【図６】本発明を説明するための図であって、本発明装
置における制御部１０７の内部構成の例を示す図。

【図７】本発明を説明するための図であって、本発明装
置における制御規則記憶部２０２の内容の例を示す図。

【図８】本発明を説明するための図であって、本発明装
置における解釈規則記憶部２０３の内容の例を示す図。

【図９】本発明を説明するための図であって、本発明装
置における処理手順Ａの流れを示す図。

【図１０】本発明を説明するための図であって、本発明
装置における各時点における本装置の内部状態を説明す
る図。

【図１１】本発明を説明するための図であって、本発明
装置の擬人化イメージ提示部１０３において使用する一
例として擬人化エージェント人物の画像を示す図。

【図１２】本発明を説明するための図であって、本発明
を汎用コンピュータで実現するための装置構成例を示す
ブロック図。

【図１３】本発明を説明するための図であって、本発明
の第２の実施例に関わるマルチモーダルインタフェース
装置の構成例を示すブロック図。

【図１４】本発明を説明するための図であって、画像入
力を想定した場合における第２の実施例での入力部１１
０１および認識部１１０２の構成例を示すブロック図。

【図１５】本発明を説明するための図であって、本発明
の第２の実施例における配置情報記憶部１１０５の保持
内容の一例を示す図。

【図１６】本発明を説明するための図であって、本発明
の第２の実施例における動作例を示す状況の説明図。

【図１７】本発明を説明するための図であって、本発明
の第２の実施例における制御部１１０６における“＜処
理手順ＡＡ＞”の内容例を示すフローチャート。

【図１８】本発明を説明するための図であって、本発明
の第２の実施例における図１７のフローチャートの部分
詳細を示す図。

【図１９】本発明を説明するための図であって、本発明
の第２の実施例における図１７のフローチャートの部分
詳細を示す図。

【図２０】本発明を説明するための図であって、本発明
の第２の実施例における図１７のフローチャートの部分
詳細を示す図。

【符号の説明】

１０１…注視対象検出部１０２…他メディア入力部１０２ａ…音声認識装置１０２ｂ…文字認識装置１０２ｃ…言語解析装置１０２ｄ…操作入力解析装置１０２ｅ…画像認識装置１０２ｆ…ジェスチャ解析装置１０２ｇ…マイク１０２ｈ…キーボード１０２ｉ…ペンタブレット１０２ｊ…ＯＣＲ１０２ｋ…マウス１０２ｌ…スイッチ１０２ｍ…タッチパネル１０２ｎ…カメラ１０２ｏ…データグローブ１０２ｐ…データスーツ１０３…擬人化イメージ提示部１０４…情報出力部１０４ａ…文字画像信号生成装置１０４ｂ…音声信号生成駆動装置１０４ｃ…機器制御信号生成装置１０５…注意喚起部１０６…反応検知部１０７…制御部２０１…制御処理実行部２０２…制御規則記憶部２０３…解釈規則記憶部。１１０１…入力部１１０２…認識部１１０３…フィードバック生成部１１０４…出力部１１０５…配置情報記憶部１１０６…制御部１２０１…カメラ１２０２…Ａ／Ｄ変換部１２０３…画像メモリ１２０４…注目領域推定部１２０５…照合部１２０６…認識辞書記憶部

───────────────────────────────────────────────────── フロントページの続き (72)発明者屋野武秀兵庫県神戸市東灘区本山南町８丁目６番26 号株式会社東芝関西研究所内 (72)発明者田中克己兵庫県神戸市東灘区本山南町８丁目６番26 号株式会社東芝関西研究所内

Claims

【特許請求の範囲】

【請求項１】利用者の注視対象を検出する検出手段と、前記利用者の音声入力情報、操作入力情報、画像入力情
報及び利用者の動作情報のうち、少なくとも一つ以上の
情報を受け、その情報の中から対象装置の制御に必要な
情報を選別する制御手段と、を備えたことを特徴とする
マルチモーダルインタフェース装置。
【請求項２】利用者に対して応対する擬人化されたエー
ジェント画像を供給する擬人化イメージ提供手段と、前記利用者の注視対象を検出する検出手段と、前記利用者の音声入力情報、操作入力情報、画像入力情
報のうち、少なくとも一つ以上の入力情報を取得するメ
ディア入力手段と、前記検出手段により得られる注視対象情報を基に、前記
利用者の注視対象が擬人化イメージ提示手段により提示
されるエージェント画像のいずれの部分かを認識して、
その認識結果とエージェント画像の状態に応じ前記メデ
ィア入力認識手段からの入力の受付選択をする制御手段
と、を備えたことを特徴とするマルチモーダルインタフ
ェース装置。
【請求項３】利用者と対面してサービスを提供する擬人
化されたエージェン卜人物の画像であって、該エージェ
ント人物画像は前記利用者に、所要のジェスチャ、表情
変化を持つ画像による非言語メッセージとして当該画像
を提示する擬人化イメージ提示手段と、前記注視対象情報を参照して、メディア入力認識手段か
らの入力の受付選択する際に、擬人化イメージ提示手段
を通じて前記利用者への非言語メッセージによる信号を
提示すべく制御する制御手段と、を具備したことを特徴
とする請求項２に記載のマルチモーダルインタフェース
装置。
【請求項４】利用者の注視対象を検出する検出手段と、利用者への音声情報、あるいは操作情報、あるいは画像
情報を出力する情報出力手段と、利用者への音声情報、操作情報、画像情報のうち、少な
くとも一つ以上の情報を受け、その情報の中から対象装
置の制御に必要な情報を選別する第１の制御手段と前記
注視対象情報を参照して、少なくとも一つの情報出力手
段の、出力の開始、終了、中断、再開、あるいは提示速
度の調整動作を制御する第２の制御手段と、を備したこ
とを特徴とするマルチモーダルインタフェース装置。
【請求項５】利用者の注視対象を検出する検出手段と、前記利用者の音声入力情報、操作入力情報、画像入力情
報のうち、少なくとも一つ以上の情報を取得するメディ
ア入力手段と、利用者と対面してサービスを提供する擬人化されたエー
ジェント人物の画像であって、該エージェント人物画像
は利用者に所要のジェスチャ、表情変化を持つ画像によ
る非言語メッセージとして当該画像を提示する擬人化イ
メージ提示手段と、文字情報、音声情報、静止画像情報、動画像情報の少な
くとも一つの信号の提示により、前記利用者に対して情
報を出力する情報出力手段と、前記擬人化イメージ提示手段を通しての非言語メッセー
ジの提示により、前記利用者の注意を喚起する注意喚起
手段と、注視対象情報あるいは、前記メディア入力手段からの入
力情報のうち、少なくとも一つの情報を参照して、前記
注意喚起のための信号に対する利用者の反応を検知し、
利用者反応情報として出力する反応検知手段と、該注視対象情報に応じて、少なくとも一つのメディア入
力処理手段の、入力受付可否、処理あるいは認識動作の
開始、終了、中断、再開、処理レベル調整の動作を制御
し、注視対象情報を参照してメディア入力認識手段から
の入力を受付可否を切替える際に、利用者へ、文字情
報、音声情報、静止画像情報、動画像情報、あるいは擬
人化イメージ提示手段を通じて利用者への非言語メッセ
ージによる信号を提示すべく制御し、該注視対象情報を
参照して、少なくとも一つの情報出力手段の、出力の開
始、終了、中断、再開、処理レベル調整の動作を制御
し、情報出力手段から情報を提示する際に、注視対象情
報に応じて、注意喚起手段を通じて、前記利用者の注意
を喚起するための信号を提示するよう制御し、前記利用
者反応情報の内容に応じて、情報出力手段の動作および
注意喚起手段の少なくとも一つを制御する制御手段と、
を具備したことを特徴とするマルチモーダルインタフェ
ース装置。
【請求項６】利用者の注視対象を検出し、前記利用者の音声、ジェスチャ、操作手段による利用者
の操作情報などのうち、少なくとも一つの情報への処理
について、前記注視対象情報に応じて、入力受付の選
択、処理あるいは認識動作の開始、終了、中断、再開、
処理レベルの調整の動作を制御することを特徴とするマ
ルチモーダルインタフェース方法。
【請求項７】利用者の注視対象を検出するとともに、状況対応に変化すると共に、前記利用者と対面してサー
ビスを提供する擬人化されたエージェント人物の画像を
画像情報として利用者へ提示し、また、注視対象情報を基に、注視対象が前記エージェン
卜人物画像のどの部分かに応じて、前記利用者の音声、
ジェスチャ、操作手段による利用者の操作情報の受付を
選別することを特徴とするマルチモーダルインタフェー
ス方法。
【請求項８】文字情報、音声情報、静止画像情報、動画
像情報の少なくとも一つの信号の提示によって、利用者
に情報を提供するにあたり、利用者の注視対象を検出
し、この検出された注視対象情報を参照して、前記提示
の開始、終了、中断、再開、処理レベル調整の動作を制
御することを特徴とするマルチモーダルインタフェース
方法。
【請求項９】請求項８記載のマルチモーダルインタフェ
ース方法において、情報を提示する際に、注視対象情報に応じて、利用者
へ、文字情報、音声情報、静止画像情報、動画像情報の
少なくとも一つの信号の提示によって、利用者の注意を
喚起することを特徴とするマルチモーダルインタフェー
ス方法。
【請求項１０】請求項９記載のマルチモーダルインタフ
ェース方法において、注意喚起のための信号に対する利用者の反応を検知し、
利用者反応情報として得ると共に、利用者反応情報内容に応じて、利用者の音声入力情報、
操作入力情報、画像入力情報の取得および注意喚起の少
なくとも一つを制御するマルチモーダルインタフエース
方法。
【請求項１１】利用者の注視対象を検出して注視対象情
報として出力し、前記利用者に対面してサービスを提供する擬人化された
エージェント人物画像であって該エージェント人物画像
は前記利用者に所要のジェスチャ、表情変化を持つ画像
による非言語メッセージとして提示するようにし、また、文字情報、音声情報、静止画像情報、動画像情報
の少なくとも一つの信号の提示によって、前記利用者に
情報を出力し、前記利用者の音声入力情報、ジェスチャ入力情報、操作
入力情報のうち、少なくとも一つ以上の情報を受け、処
理を行なう際に、注視対象情報に応じて、入力受付可
否、処理あるいは認識動作の開始、終了、中断、再開、
処理レベル調整の動作を制御することを特徴とするマル
チモーダルインタフェース方法。
【請求項１２】請求項１１記載のマルチモーダルインタ
フェース方法において、注視対象情報を参照して、入力の受付可否を切替える際
に、利用者へ、文字情報、音声情報、静止画像情報、動
画像情報あるいは、擬人化イメージ人物画像により所要
の提示をすることを特徴とするマルチモーダルインタフ
ェース方法。
【請求項１３】利用者からの各種情報を随時取り込んで
入力情報として得る入力手段と、該入力手段から得られる該入力情報を処理して、該利用
者からの入力の受け付け状況を、動作状況情報として出
力する入力認識手段と、警告音、合成音声、文字列、画像、あるいは動画のう
ち、少なくとも一つを反応結果として利用者に提示する
出力手段と、前記入力認識手段から得られる動作状況情報に応じて、
利用者に提示する反応結果を得るべく前記出力手段を制
御する制御手段とを具備したことを特徴とするマルチモ
ーダルインタフェース装置。
【請求項１４】利用者からの音声入力を取り込むマイク
ロフォン、あるいは利用者の動作や表情などを観察する
カメラ、あるいは利用者の目の動きを検出するアイトラ
ッカ、あるいは頭部の動きを検知するヘッドトラッカ、
あるいは利用者の手や足など体の一部あるいは全体の動
きを検知する動きセンサ、あるいは利用者の接近、離
脱、着席などを検知する対人センサなどのうち少なくと
も一つからなり、利用者からの入力を随時取り込み入力
情報として出力する入力手段と、該入力手段から得られる入力情報を受け、音声検出処
理、音声認識、形状検出処理、画像認識、ジェスチャ認
識、表情認識、視線検出処理、あるいは動作認識処理の
うち、前記入力情報の種別に対応した必要な処理を施す
ことにより利用者からの入力の受付状況を動作状況情報
として出力する入力認識手段と、警告音、合成音声、文字列、画像のうち、少なくともい
ずれかにより、利用者に対する反応として利用者に提示
する出力手段と、前記入力認識手段から得られる動作状況情報に応じて、
利用者に提示する反応結果を得るべく前記出力手段を制
御する制御手段とを具備したことを特徴とするマルチモ
ーダルインタフェース装置。
【請求項１５】画像取得手段によって利用者の画像を取
り込み、画像情報として出力する入力手段と、該入力手段から得られる画像情報からジェスチャ入力を
抽出し、これら各処理の進行状況を動作状況情報として
随時出力する入力認識手段と、該入力認識手段から得られる該動作状況情報に応じて、
利用者による入力対応の反応を文字列、画像、あるいは
音信号のいずれかで提示する手段と、を備えることを特
徴とするマルチモーダルインタフェース装置。
【請求項１６】利用者からの音声入力を取り込むマイク
ロフォン、あるいは利用者の動作や表情などを観察する
カメラ、あるいは利用者の目の動きを検出するアイトラ
ッカ、あるいは頭部の動きを検知するヘッドトラッカ、
あるいは利用者の手や足など体の一部あるいは全体の動
きを検知する動きセンサ、あるいは利用者の接近、離
脱、着席などを検知する対人センサなどのうち少なくと
も一つからなり、利用者からの入力を随時取り込み入力
情報として出力する入力手段と、該入力手段から得られる入力情報を受け、音声検出処
理、音声認識、形状検出処理、画像認識、ジェスチャ認
識、表情認識、視線検出処理、あるいは動作認識処理の
うち、前記入力情報の種別に対応した必要な処理を施す
ことにより利用者からの入力の受付状況を動作状況情報
として出力する入力認識手段と、前記入力手段から得られる入力情報、および前記入力認
識手段から得られる動作状況情報の少なくとも一方の内
容に応じて、利用者へのフィードバックとして提示すべ
き情報を生成するフィードバック情報生成手段と、を具
備したことを特徴とするマルチモーダルインタフェース
装置。
【請求項１７】利用者と対面してサービスを提供する擬
人化されたエージェント人物の画像情報を、利用者提示
用の擬人化イメージとして生成するフィードバック情報
生成手段と、入力認識手段から得られる動作状況情報に応じて、利用
者に提示すべき擬人化イメージの表情あるいは動作の少
なくとも一方を決定し、出力手段を通じて、利用者がジ
ェスチャ表現を実現している部位を注視する表情である
フィードバック情報を生成するフィードバック情報生成
手段と、前記フィードバック情報生成手段によって生成されたフ
ィードバック情報を、出力手段から利用者へのフィード
バック情報として提示する制御手段と、を具備したこと
を特徴とする請求項１６記載のマルチモーダルインタフ
ェース装置。
【請求項１８】入力手段の空間的位置、および出力手段
の空間的位置に関する情報、および利用者の空間的位置
に関する情報の少なくとも一つを配置情報として保持す
る配置情報記憶手段と、利用者の入力した指し示しジェスチャの参照物、利用
者、利用者の顔や手などの空間位置を表す位置情報を出
力する入力認識手段と、前記配置情報記憶手段から得られる配置情報と、前記入
力認識手段から得られる位置情報と、動作状況情報との
少なくとも一つを参照して、擬人化エージェントの動
作、あるいは表情あるいは制御タイミングの少なくとも
一つを決定し、フィードバック情報として出力するフィ
ードバック手段と、を具備したことを特徴とする請求項
１７のマルチモーダルインタフェース装置。
【請求項１９】利用者からの音声、あるいは利用者の動
作や表情などを示す画像、あるいは利用者の体の一部あ
るいは全体の動き、あるいは利用者の接近、離脱、着席
などの検知情報のうち少なくとも一つからなり、利用者
からの入力情報として出力する入力ステップと、該入力ステップにより得られる入力情報をもとに、音声
検出処理、音声認識、形状検出処理、画像認識、ジェス
チャ認識、表情認識、視線検出処理、あるいは動作認識
処理のうち、入力情報種別に応じた処理を施すことによ
り、該利用者からの入力の受け付け状況を、動作状況情
報として出力する入力認識ステップと、利用者からの入力に対する反応の結果を、入力認識ステ
ップによって得られる動作状況情報に基づいて、警告
音、合成音声、文字列、画像のいずれかにより利用者に
提示するステップと、を備えることを特徴とするマルチ
モーダルインタフェース方法。
【請求項２０】利用者と対面してサービスを提供する擬
人化されたエージェント人物の画像情報を、入力認識ス
テップから得られる動作状況情報に応じて、利用者に提
示すべき擬人化イメージ情報として生成するフィードバ
ック情報生成ステップと、利用者からの入力がなされた時点でその反応として擬人
化エージェントによる反応の表情を提示する利用者フィ
ードバック提示ステップと、を具備することを特徴とす
る請求項１９記載のマルチモーダルインタフエース方
法。
【請求項２１】利用者からの音声、あるいは利用者の動
作や表情などを示す画像、あるいは利用者の体の一部あ
るいは全体の動き、あるいは利用者の接近、離脱、着席
などの検知情報のうち少なくとも一つからなり、利用者
からの入力情報として出力する入力ステップと、入力ステップにより得られる入力情報に対し、音声検出
処理、音声認識、形状検出処理、画像認識、ジェスチャ
認識、表情認識、視線検出処理、あるいは動作認識処理
のうち、入力情報種別に応じた処理を施すことにより、
該利用者からの入力の受け付け状況を、動作状況情報と
して出力する入力認識ステップと、利用者の入力した指し示しジェスチャの参照物、利用
者、利用者の特定部位の空間位置に関する情報を出力す
る認識ステップと、入力部の空間的位置、および出力部の空間的位置に関す
る情報、および利用者の空間的位置に関する情報の少な
くとも一つを配置情報として保持する配置情報記憶ステ
ップと、利用者からの入力に対する反応の結果を、入力認識ステ
ップによって得られる動作状況情報に基づいて、警告
音、合成音声、文字列、画像のいずれかにより利用者に
提示し、また、位置情報、および配置情報、動作状況情
報の少なくとも一つに応じて、利用者の指し示しジェス
チャに対する反応画像を提示するステップと、からなる
マルチモーダルインタフェース方法。