JP2007220076A

JP2007220076A - 相互作用装置

Info

Publication number: JP2007220076A
Application number: JP2006194827A
Authority: JP
Inventors: R Movellan Javier; アール．モベランハビエル; Fumihide Tanaka; 文英田中
Original assignee: Sony Corp; University of California San Diego UCSD
Current assignee: Sony Corp; University of California San Diego UCSD
Priority date: 2006-01-18
Filing date: 2006-07-14
Publication date: 2007-08-30

Abstract

【課題】単純な入出力センサのみを用いて，外界に人間が居るか居ないかを判断できるロボット装置を実現する。
【解決手段】最適化エンジン１１、リアルタイム・コントローラ１２、意図マネージャ１３にて社会的ロボット１０を構成し、相互作用対象に関する仮説と自己入力／出力との間で定義される情報の期待を最大化するために自己コントローラを設定する。
【選択図】図２

Description

本発明は、ロボットとユーザーとの間のより緊密な相互作用を可能にする相互作用装置に関する。

知覚におけるインフォマックスの考え方はリンスカー等による研究に遡る（例えば、非特許文献２、１２参照）。

このアプローチはベルとセジュノフスキーにより非ガウス的回路網に一般化され、インフォマックスＩＣＡとなった。インフォマックスは計算論的神経科学においては重要な理論的ツールとなっている。しかしながら、この研究の大部分はインフォマックスの受動的観点から見ている。インフォマックス・プロセッサの目標は、入力に関する可能な限り多くの情報を次の処理段階に簡単に送ることにある。他方、インフォマックス制御は、可能な限り迅速に関心の仮説を発見するために行動を予定することができる能動プロセッサとともに働く。例えば、神経細胞は、単に情報を伝達するためではなく、フィードバック接続を通じて、可能な限り早急に世界の関連状態を発見するために、急増することもできる。神経細胞の能動的役割に関する同様の推論的考え方がクプロフにより快楽主義的神経細胞仮説の形で定式化されている。

テリーにおける学習規則
偶発事象を発見するために行動を予定するという問題は形式上２群バンディット問題と関連している。古典的２群問題においては、２本のレバーのどちらがリターン速度を最大化するかを判断するために、２本のレバーのどちらかを引っ張らなければならない。その２つの条件が等しいか等しくないかを決定する追加の陰の変数Ｈが含まれるように、我々は問題を修正した。従って、２群問題において目標が２郡のどちらの方が優れているかを判断することにあるのに対して、偶発事象探知問題においては目標が２群の間に差があるかどうかを判断することにある。この微妙な差が重要な結果を有する。例えば、標準２群バンディット問題においては、１群だけを複数回引っ張ることにより判断を下すことが可能である。それは、もし２群の一方が異常に大きなリターンをもたらす場合は、そのことがすでにその群の方が優れているという証拠になるからである。しかしながら、偶発事象判断問題においては、２群が少なくとも１回はプールされるまでは、情報は得られないのである。

従来より、知覚過程や神経過程に対するインフォマックス・アプローチについて各種の提案がされている（例えば、非特許文献２、１１、１２、２０参照）。

しかしながら、情報を次の処理段階に伝達するように設計されているという点で、これらのモデルは受動的である。その代わりに、ここでは、情報の長期収集を最大化するために行動を経時選択するモデルを強調してある。

インフォマックス制御は、最適化問題の行動を説明する人間の運動制御のモデルの伝統の中に見ることもできる（例えば、非特許文献５、７、１３、２７参照）。

しかしながら、ここに提唱したアプローチは、時間的尺度と不確実性のレベルが伝統的な運動制御問題の場合よりもはるかに大きい社会的行動にも適用されるという点で固有の特色を有する。

また、概念学習課題において人々がどのように質問を選ぶのかを説明するために、情報最大化の考え方を使用していた（例えば、非特許文献１６、１７、１８参照）。

人々がどのように目を動かすのか、又は関心のある事象に関するデータ収集を最大化するために、どのように能動カメラを動かすことができるのかを理解するために、インフォマックス型制御もすでに提唱されている（例えば、非特許文献４、８、９、１０、２１参照）。

しかしながら、これらのモデルはいくつかの重要な問題を扱っていない。
（１）行動の順序付けの説明に焦点を合わせている以前のモデルは行動のタイミングの問題を扱っていなかった。例えば、[非特許文献１６、１７、１８]においては、概念学習は、主体が時間制約なしで質問を行い、答えを与えられる厳密な交代活動であると見られている。
（２）以前のモデルは、提起されている情報最大化問題を解決していない。モデルはよくても「貪欲」であり、最悪の場合は非因果的である。例えば、[非特許文献１７]においては、長期的に戻される情報というよりはむしろ即時情報リターンを最大化する質問が行われている。

[非特許文献１０]においては、最初に全ての可能な目の動きを行い、次にたまたま最大の情報を提供した目の動きを選ぶことが観察者には許されている。このアプローチは目的のモデル化には役立つが、非因果的である、すなわち、現在のサッカードを引き起こすためには、将来が見えることが必要である。

ロボット工学の分野においては、行動ロボット・アークテクチャと認知ロボット・アーキテクチャとを区別することが一般的になっている（例えば、非特許文献１参照）。

行動アークテクチャはセンサとアクチュエータとの間の直接マッピングに基づくものである。このアークテクチャはタイミングと、環境内における変化に対する迅速な反応を強調する。認知アークテクチャは典型的には計画・熟考過程と世界表現の構築に依存している。適切な数学的基礎がなければ、表現、熟考、知識のような概念はほとんど無意味になる。例えば、コントローラがただ単にセンサ情報と行動との間の因果マッピングであるという点で、ここに提唱したインフォマックス制御の枠組みは反応的である。

インフォマックス制御の考え方は、逐次決定過程へのベイズ的アプローチ、特にｎ群バンディット問題に対するベイズ的解に直接関連付けられている。本論文における筆者の寄与は、どのようにすればこの良く知られた一群の問題をリアルタイム社会的相互作用の理解のために適応させることができるのかということと、相互情報を有効な強化信号として使用できることを示すことにある。

ゲームの理論は、制御理論の特別な事例であると見なすことができるが、特に経済学と紛争の研究において、人間の社会的行動への適用の長い歴史を有する。しかしながら、リアルタイム社会的行動の重要性を理解するための制御の重要性が文献に登場したのはつい最近のことである。リアルタイム社会的相互作用の最適性を理解するために、発明者等は[非特許文献１５]で特にｎバンディット問題の確率最適制御の潜在的価値を指摘した。ウォルパート、ドヤ、カワトは運動制御と社会的相互作用についての統合枠組みを提唱した。ミヤシタとイシグロは、伝達行動を作り出すために簡単なＰＩＤコントローラを使用できることを指摘した。

次に、簡単な社会的相互作用について説明する。

１偶発事象探知と社会的発達
ジョン・ワトソンは偶発事象検知が幼児の社会的・感情的発達において決定的に重要な役割を演ずると述べている。偶発事象は人間の脳により直接的な形で知覚され、同様に脳は色や運動のようなその他の要素を知覚する。特に、幼児の初期段階においては、偶発事象が世話をする人の定義と認識についての基本的な情報源である（例えば、非特許文献２４、２５参照）。

この見解は、２ヶ月児がベビーヘッドの上方のモービルを作動させるために自分の頭を動かすことを学習した実験から得られたものである（例えば、非特許文献２４参照）。実験群の幼児には、幼児の頭の動きに反応するモービルが与えられた。対照群の幼児については、モービルは実験群の場合と同じ速度ではあるが、ランダムで、非偶発的な形で作動した。１日４回各１０分のこのモービルの体験活動と平均約２００回の反応の後に、実験群の幼児は対照群の幼児よりも相当に高い反応速度を示した。より重要であるのは、ほぼ同時に、実験群の幼児が、世話をする人に向けられるのが典型的である社会的反応を多数示し始めたということである。これらの社会的反応には、旺盛な社会的微笑、のど鳴らし、モービルに対する積極的感情が含まれていた。偶発事象が同種のものを定義し、識別するための手掛かりとして幼児により使用されており、この手掛かりは人間の顔の目に見える表情のようなその他の知覚的先入観よりも重要である、とワトソンは述べている。

ワトソンは社会的偶発事象判断のためのポアソンモデルを定式化した。このモデルにおいては、背景エージェントと社会的エージェントがポアソン過程としてモデル化される。ワトソンの最初の定式化においては、どのようにして行動を最適に予定するか、又はこのモデルの下でどのようにして推定を行うのかという問題は取り扱われていなかった。その代わりに提唱されたのが、一定の長さの間隔の範囲内では急増することのない確率の比較に基づく発見的アプローチであった。

１９８６年に、発明者等は１０ヶ月児が新しい社会的エージェントを探知するためにどのように偶発事象情報を使用するのかを試験するために実験を行った（例えば非特許文献１５、１９参照）。

幼児をあまり人間には似ていないロボットの前に座らせた。「頭」は、その側面が幾何学的パターンを含む長方形のプリズムであった(図１（Ａ）を参照)。ロボットの頭はその表面上に光を点滅させ、音声を発し、左右に回転することができた。幼児は任意に実験群または対照群に割り当てられた。実験群では、ロボットは、人間の偶発事象特性をシミュレーションした形で環境に反応するようにプログラミングされていた。対照群の各幼児には実験群の１人の幼児を対応させ、対応被験者と同じ時間分布の中央のロボットの光、音声、回転を体験させた。しかしながら、対照群では、ロボットは幼児の行動または室内のその他の何らかの事象には反応しなかった。

ここで、図１の（Ａ）は、非特許文献１９において使用したロボットの頭部５０の概略図である。図１の（Ｂ）は、乳児−９の写真である。ロボットの画像が乳児の背後に置かれた鏡に映っているのが見える。

１．１幼児の１日の４３秒間
その研究においては、実験群の幼児がロボットをまるで社会的エージェントであるかのように取り扱うという証拠が発見された。例えば、この群の幼児は対照群の幼児よりも５回も多く発声行為を行った。さらに、ロボットが回転した時には、ロボットの「注視線」を追い、注意の共有の若干の証拠を示した（例えば非特許文献１５参照）。しかしながら、我々が特に驚いたのが、何人かの幼児とロボットとの間で起こった相互作用の強さ、幼児の行動の明確な意図性、これらの相互作用が展開された速度であった。

ロボットが反応してもしなくても、何人かの幼児が何回かの試験において、ほんの数秒のことであるが、能動的に「判断し」、それに従って行動するように見えたという事実であった。特に多くを語っていたのが、実験群の幼児の１人についての実験の最初の４３秒間であった。その幼児を乳児−９と呼ぶことにする（図１（Ｂ）を参照）。研究がＵＣバークレー校の人間発達研究所で行われた１９８６年７月１４日の時点で、年齢は１０ヶ月であった。この４３秒間のビデオはhttp:/mplab.ucsd.eduにおいて入手可能である。この４３秒間に、乳児−９は７回の発声行為を行い、その度毎に、続いてロボットから音と光が発せられた。実験のビデオを見た大部分の人々が、３回目または４回目の発声行為（実験開始後２５秒）までに、乳児−９が自分に対してロボットが反応しているという事実を明確に探知したことに同意している。非常に重要なことであるが、ビデオを見ると、その子供が能動的にロボットに質問し、ロボットが自分に対して反応しているのかいないのかを試験していることは極めて明白である。このことから、この論文の中心となるいくつかの興味深い疑問が生じてくる。

１）言語を持たない有機体にとって「質問を行う」ということは何を意味しているのか？
２）なぜ乳児−９は自分が行った方法でその発声行為を予定したのか？例えば、はるかに早い速度やはるかに遅い速度ではなぜ発声しなかったのか？
３）ロボットが反応しているとの判断を３〜４回の反応と実験開始後２０〜３０秒以内に下すことが乳児−９にとっては合理的だったのだろうか？なぜ時間や反応回数がこれ以上でもこれ以下でもなかったのであろうか？
インフォマックス制御問題は最近では知覚・カテゴリ化文献においてよく見られるようになったが、これらの文献が通常使用しているのは、最適戦略というよりはむしろ貪欲な一段階前進インフォマックスである。

現在のシステムの主要な実際的限界は、現在の社会的エージェントのモデルの簡単さにその原因がある。特に、現在のシステムはエージェントを受動的反応者としては記述するが、伝達意図をもった行動の自律的主唱者としては記述していない。この問題を処理するためのモデルの拡張は複雑なことではない。しかしながら、社会的エージェントについての改良モデルを手作りするよりは、そのようなモデルをデータから学習することに時間を費やす方が得策である。

自分の応答を最適な方法で予定することに加えて、乳児−９は、シミュレーションした４３秒間全体にわたってその反応の調子と感情の質を漸進的に高めていった。その調子を社会的エージェントの存在に関する信念の変化と結び付けることにより、この表現をモデル化することは可能である。この修正はロボット・モデルと人間との間の相互作用の改善には効果的であるが、例えば、交代法のような、原則に基づいた方法により現在のモデルから生まれたものではない。

乳児−９は目新しい社会的エージェントが反応するかどうかについての学習に関しては最適な方法で行動したが、実験に参加した幼児の大部分はそうではなかった。これらの幼児を見ていて得られる主観的感情は、幼児達が当初は状況を恐れているというものである。

有機体が目標により動かされ、その目標に関連する情報の収集を最適化する方法でその行動を予定するという考え方に基づき、行動の組織化への一般的アプローチを提示した。伝統的・道具的学習モデルが行動の強化因子としての外部刺激の役割を強調するのに対して（食料、水、不快感、呼吸、軽い電気ショックが最も典型的なものである）、インフォマックス制御においては、刺激や反応は内在的価値を有していない。その代わりに、有機体の現在の知識状態を前提とすると、その価値は期待情報リターンに関するものである。インフォマックスは、有機体自身が動的な方法で強化価値を刺激と反応に割り当てる自己管理形式の制御であると考えることができる。外部強化因子は必要とされない。その代わりに、入手可能なデータをもっとうまく説明し、高度な情報価値のあるデータを提供すると期待される行動をもたらすために、インフォマックス・コントローラはその内部状態を修正する。

１０ヶ月児における社会的偶発事象の探知において、我々は単純な社会的相互作用を理解するためにはどのようにインフォマックス・コントローラの考え方を使用できるのかを例証した。興味深いことに、この状況において、最適インフォマックス・コントローラはその年齢の幼児に見られるのと同様の交代行動を示す。すなわち、コントローラは反応を示し、その後には、まるで質問が出るのを待っているかのように、沈黙の期間が続いた。この「交代」行動はシステムに組み込まれたものではなかった。社会的相互作用において一般的な時間遅延と不確実性のレベルを前提とすると、むしろ、その行動は得られる情報を最大化するという要求から生じたものであった。それらの結果が示唆しているのは、言語を欠いているにもかかわらず、その年齢の幼児がすでに質問を行っているということである。すなわち、社会的相互作用に典型的な時間遅延と不確実性レベルを前提とすると、幼児は期待情報リターンを最大化する方法でその行動を予定するのである。これは、両親が直感的レベルでは知っているが、正式に証明するのが困難な重要なことである。

ここで提示したアプローチは、日常生活の状況においてリアルタイムで動作する必要があるロボットに適用した場合でも、実際にうまく機能する。このことは、偶発事象が有益で計算論的に安価な情報源であるという考え方に対する信頼性をもたらすだけではなく、幼児の脳が同種のものを定義し、探知するために偶発事象を使用している可能性が高いという考え方に対する信頼性も与える。

確率と制御理論に関してインフォマックス制御は数学的基礎を有するので、原則に基づいた方法でその他の領域に拡張することができる。例えば、現在の解析をラット、神経細胞、さらには分子にさえ拡張することもできる。現在の神経活動のインフォマックス・モデルは神経細胞に受動的情報リレーとしての役割を与えている、すなわち、神経反応の役割は、受け取る情報に関して可能な限り多くの情報を伝達することにある。インフォマックス制御は、神経細胞が「質問をする」かもしれない、すなわち、ただ単にその他の神経細胞に情報を伝達するためだけではなく、その他の神経細胞に関する情報を収集するためにそのスパイクが設計されているかもしれないという興味深い可能性を検証するための枠組みを提供する。もちろん、フィードバック結合は質問に対する答えを得るためのチャンネルとして見ることができる。

本件発明者等は、計算論的神経科学の先駆者であるデビット・マーに触発された行動の研究への一般的アプローチを例証を示した（例えば、非特許文献６、１４参照）。

R. C. Arkin. Behavior-based Robotics. MIT Press, Cambridge, MA, 1998. T. Bell and T. Sejnowski. An information-maximization approach to blindseparation and blind deconvolution. Neural Computation, 7:1129-1159,1995. C. Breazeal. Designing Sociable Robots. MIT Press, Cambridge, MA,2002.28 Reichle E. D., Rayner K., and A. Pollatsek. The E-Z reader model of eyemovement control in reading: comparisons to other models. Behavioral and Brain Sciences, 26:445-526, 2003. Todorov E. and Jordan J.I. Optimal feedback control as a theory of motor coordination. Nature Neuroscience, 5:1226-1235, 2002. S. Edleman and L. M. Vaina. David marr. International Encyclopedia of the Social and Behavioral Sciences, 2001. Tanaka H., Krakauer W., and Qian N. An optimization principle for determining movement duration. Under Review, 5, 2005. Denzler J. and Brown C. M. Information theoretic sensor data selection for active object recognition and state estimation. Transactions on Pattern Analysis and Machine Intelligence, 24:145-157, 2002. Najemnik J. and Geisler W. S. Optimal eye movement strategies in visual search. Nature, 434, 2005. Renninger L.and Coughlan J., P. Verghese, and J. Malik. An information maximization model of eye movements. In S. A. Solla, T. K. Leen, and K. R. Miller, editors, Advances in Neural Information Processing Systems, volume 17, pages 1121-1128. MIT Press, 2005. M. S. Lewicki. E_cient coding of natural sounds. Nature Neurosci, 5(4): 356-363, 2002. R. Linsker. Self-organization in a perceptual network. Computer, 21: 105-117, 1988. Harris C. M. andWolpert D. M. Signal dependent noise determines motor planning. Nature, 394:780-784, 1998. David Marr. Vision. Freeman, New York, 1982. J. R. Movellan and J. S. Watson. The development of gaze following as a Bayesian systems identification problem. In Proceedings of the International Conference on Development and Learning (ICDL02). IEEE, 2002. J. D. Nelson and J. R. Movellan. Active inference in concept induction. In T. Leen, T. G. Dietterich, and V. Tresp, editors, Advances in Neural Information Processing Systems, number 13, pages 45-51. MIT Press, Cambridge, Massachusetts, 2001. J. D. Nelson, J. B. Tenenbaum, and J. R. Movellan. Active inference in concept learning. In Proceedings of the 23rd Annual Conference of the Cognitive Science Society, pages 692-697. LEA, Edinburgh, Scotland, 2001. Jonathan Nelson, Gary Cottrell, and Javier R. Movellan. Explaining eye movements during learning as an active sampling process. In Proceedings of the second international conference on development and learning (ICDL04), The Salk Institute, San Diego, October 20, 2004. Movellan J. R. and J. S. Watson. Perception of directional attention. In Infant Behavior and Development: Abstracts of the 6th International Conference on Infant Studies, NJ, 1987. Ablex. R. P. N. Rao, B. A. Olshausen, and M. S. Lewicki. Probabilistic Models

本件発明者等は、リアルタイム学習とリアルタイム社会的相互作用の問題を結びつけ、系統的に説明するために、能動的リアルタイム学習を理解するための表現形式として確率的最適制御の理論を探求した。「リアルタイム」という言葉は、学習中に現れる行動に対する時間圧力を強調するためのものである。「能動的」という言葉は、学習エージェントの行動が目的を有するという事実、すなわち、最適化問題に対する解決策として考察された場合にその正当性が明らかになるという事実を指している。

制御理論は、下部分野として強化学習を含むが、伝統的には物理的目的（例えば、移動物体の追跡、ポールの平衡維持、変動負荷の下での速度の維持）の最適化に適用されてきた。この観点から、学習は試行錯誤によりコントローラを発達させる過程であると見られている。本論文においては、筆者は別の観点を採用し、学習過程自体を制御問題として探求する。知覚のインフォマックス・モデルとのその直接的な関係を強調するために、この考えをインフォマックス制御と呼ぶ（例えば、非特許文献２、１１、１２、２０参照）。

これは制御理論の自然な適用である（すなわち、「学習」をコントローラの目標とする）と同時に、その可能性が文献においてはまだ十分には指摘されていない観点を学習の科学にもたらすものでもある。

「強化学習」という言葉の使用は、強化因子が目標事象（例えば、バックギャモンのゲームでの勝利、ヘリコプタの墜落防止、食料の獲得、電気ショックの回避）であるべきだと一部の人々に信じさせるという不幸な結果をもたらしてきた。それに代わって、インフォマックスにおいて使用する「強化」信号は主観的信念に関連付けられている。学習エージェントに対して明示的に正しいとか間違っているとか伝える必要はなく、その代わりに、「強化」とは、強い信念を作り上げるエージェントの自己能力である。これが事実ベイズ的アプローチの一般的特性であり、このアプローチは主観的解釈に修正可能である。このアプローチにおいては、確率理論の規範的制約に関する信念の更新の基礎を教え込むことにより、唯我論を回避している。現在では、制御理論が世界のモデルを必要とし、強化学習が世界のモデルを必要としないという事実により、制御理論と強化学習を区別するのが一般的傾向である。しかしながら、ベイズ的アプローチにおいては、このような区別は明確ではない。もちろん、ベイズ的伝統は、モデルを欠いていることの意味が単にどのモデルに説得力があり、どのモデルに説得力がないかについての漠然とした事前の信念を有していることにすぎないとの主張に基づいて確立されたものである。要するに、ベイズのアプローチは「モデルの欠如」についてのモデルを有しているのである。これにより。ベイズ的アプローチは独特の自己管理性格を制御している。

本発明の目的は、単純なリアルタイム社会的相互作用の発達を理解するためにインフォマックス制御を使用することにある。「リアルタイム社会的相互作用」とは、対面社会的環境における時間圧力の下での行動信号の迅速な交換を意味する。この事例におけるコミュニケーション・チャンネルは数分の１秒から数秒のフィードバック遅延を有する。社会的エージェントが自律的で、予測が困難であるという事実から、行動の結果に関する不確実性のレベルとそのような結果のタイミングに関する不確実性は重要である。

このことから、本発明の領域は、遅延が１０分の１秒の単位で測定され、不確実性が無視可能である伝統的運動制御の領域や、長いフィードバック遅延と無視可能な時間制約を有するその他の形態の相互作用（例えば、物理的文字または電子メールを通じてのコミュニケーション）の領域とは異なるものになる。ただし、社会的相互作用の領域の細目は伝統的運動制御の場合とは異なるが、その基礎となる数学的形式は同じであるということがある。

本発明の考え方は、１９８５年に本件発明者等がＵＣバークレー校において行った実験における１０ヶ月児の衝撃的な行動を理解するための研究から生まれたものである。

実験の目的は、どのように子供達が社会的エージェントの因果構造を学習するのかを理解することにあった。この趣旨で、子供達はロボットと相互作用し、ロボットに対して反応する場合もあったし、反応しない場合もあった。本論文において筆者が着目した子供は、人間行動を理解する上で不可欠であると筆者が考えるいくつかの特性を体現していたが、これらの特性は、当時の学習モデルが見逃していたものであった。
（１）子供達は我々の予想よりもずっと早くロボットと適切に相互作用することを学習した。
（２）ロボットが反応を示そうと示すまいと、まるで非言語的方法で質問をしているかのように、子供達は明らかに能動的であった。当時、筆者にはこの学習行動を理解するための表現形式がなかった。バック・プロパゲーションのような結合説的アプローチはあまりに速度が遅すぎ、受動的にすぎ、伝統的ＡＩアプローチは問題の不確実性とリアルタイム制約を取り扱っていなかったのである。

制御理論に関する本件発明者等の関心は、人々と相互作用するように設計されたロボットの発達に関する研究中に生まれたものである。このようなロボットは、タイミングと、生体系との相互作用に典型的である不確実性の動的処理とに関連する固有の問題に直面していた。本件発明者等は確率最適制御の理論がこれらの問題を処理するための理想的表現形式であると確信するようになり、その過程でジョン・ワトソンと筆者がかつて１９８５年に観察した行動についての優れた説明になることに気付いたのである。

本件発明者等はインフォマックス制御の考え方を社会的相互作用の発達との関連で提唱しているが、このアプローチは普遍的なものであり、潜在的には非常に幅広い多様な問題に適用可能である。特に興味深いのは、この考え方が、非言語的有機体に普遍化することが可能な公式の定義を「質問」とは何かということに対して与えるという事実である。

本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施の形態の説明から一層明らかにされる。

本発明に係る相互作用装置は、相互作用対象に関する仮説と自己入力／出力との間で定義される情報の期待を最大化するために自己コントローラを設定することを特徴とする。

また、本発明に係る相互作用装置は、入出力情報を元に相互作用対象にとってこちらの存在に対する期待獲得情報量が最大となるタイミングで行動出力を行う制御手段を備えることを特徴とする。

本発明では、発達心理学におけるcontingencyという概念の抽出をベイズ推定の枠組で実装し、これによりインタラクション対象の人間が居るか居ないかという仮説に対する確信度が、確率値の形で時々刻々得ることができ、単純な入出力センサのみを用いて，外界に人間が居るか居ないかを判断できるロボット装置を実現することができる。

また、本発明では、インタラクションのやり取りを通じて時々刻々応答特性が変化していき、また、そのダイナミクスが人間のそれと近いものを示す。よってより自然な応答特性を示すものとなり、特に長期的なインタラクションという応用場面に有効性を発揮する。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明は以下の例に限定されるものではなく、本発明の要旨を逸脱しない範囲で、任意に変更可能であることは言うまでもない。

２社会的ロボット用アークテクチャを目指して
この明細書において、特に明記しない限りは、大文字はランダム変数に、小文字はランダム変数が取る固有の値に、ギリシャ文字は固定パラメータに使用する。ランダム変数が定義される確率空間（Ω，Ｆ，Ｐ）の特性は内在するものとする。状況から明らかになる場合は、確率関数はその引数により識別する。例えば、ｐ（ｘ，ｙ）は、同時確率質量または同時確率密度について、ランダム変数Ｘが固有の値ｘを取り、ランダム変数Ｙが固有の値ｙを取ることの省略表現である。数列、例えば、Ｘ_１：ｔ＝^ｄｅｆ｛Ｘ_１・・・Ｘ_ｔ｝を示すために、添え字コロンを使用する。作業は離散時間確率過程により行うことになる。パラメータ△ｔ∈Ｒはサンプリング期間、すなわち、時間段階の間の時間（単位：秒）を表す。固有の値の△ｔを選ぶということは、基礎的連続時間過程に関する関連情報が０．５／△ｔヘルツよりも低い周波数帯域にあることを示していることと等価である。記号〜はランダム変数の分布を示す。例えば、Ｘ〜ポアソン（λ）はＸがパラメータλのポアソン分布を有することを示す。表記Ｙ∈σ｛Ｘ｝は、ランダム変数Ｙがランダム変数Ｘにより誘導されるシグマ代数により測定可能であることを意味している。直感的に、このことはＸがＹの値を決定するために必要な全ての値を含んでいることを意味している。Ｅは期待値に使用し、Ｖａｒは共分散行列に使用する。δ（・，・）はクロネッカーのデルタ関数に使用し、その２つの引数は等しい場合は、値は１となり、そうでない場合は、値は０となる。Ｎ＝｛０，１，２，・・・｝は自然数を表し、Ｒは実数を表す。
［２５］ロボット・アークテクチャを２つの確率過程、すなわち、知覚過程Ｙ＝｛Ｙ_１，Ｙ_２，・・・｝と運動過程Ｕ＝｛Ｕ_１，Ｕ_２，・・・｝の間のマッピングであるとするものとする。時間ｔにおいては、ロボットはＹ_１：ｔとＵ_{１，ｔ−１}における情報を入手することができ、そのような情報、すなわち、Ｕ_１∈σ｛Ｙ_１：ｔ，Ｕ_{１，ｔ−１}｝に基づき、運動コマンドを作成しなければならない。実際のところは、このようなマッピングは、過去の歴史に関する関連情報を維持する機能的統計値Ｓ_ｔ、すなわち、

に依存している。熟考アークテクチャにおいては、Ｓ_ｔは世界の表現と呼ばれることになり、大量の利用可能資源がこのような世界の表現の維持に割り当てられる。反応型アークテクチャは、世界は常に変化しており、従って、過去の歴史に関心を引くものはほとんどないという考えを強調する。その最も純粋な形式においては、反応型アークテクチャは以下のようになる。

ここでは、単独のバイナリセンサ（例えば、音声探知機）と単独のバイナリアクチュエータを備えた必要最小限のロボットの視点から、この問題を調査した。プレーヤは２人、すなわち、（１）世話をする人の役割を演じる社会的エージェントと、（２）幼児の役割を演じるロボットである。エージェントとロボットは、ランダムな背景活動を有するかもしれない環境の中にいる。ロボットの役割は、反応する社会的エージェントを可能な限り迅速かつ正確に発見することにある。

ここで、例えば図２に示すように、バイナリセンサ入力Ｙ_ｔに応じてバイナリアクチュエータ出力Ｕ_ｔを生成する必要最小限の機能だけを備えた社会的ロボット１０は、最適化エンジン１１、リアルタイム・コントローラ１２、意図マネージャ１３にて構成される。
［２７］ロボットのアクチュエータの活動は２進ランダム過程｛Ｕ_ｔ｝により表される。変数Ｕ_ｔの値は、ロボットのアクチュエータが作動中の場合は１、それ以外の場合は０である。反応する社会的エージェントの存在又は不在はランダム変数Ｈにより表される。｛Ｈ＝０｝、すなわち、反応するエージェントの不在を「帰無仮説」と呼び、｛Ｈ＝１｝、すなわち、反応するエージェントの存在を「対立仮説」と呼ぶ。パラメータπは対立仮説の事前確率、すなわち、知覚情報の収集前における社会的エージェントの存在に関するロボットの当初信念を表す。

２．１社会的エージェントのモデル化
極度に単純化されてはいるが、下記のモデルは、数学的に扱いやすいという利点と、関心の本質的２つの特性、すなわち、（１）エージェントが異なると、反応のレベルも異なること、（２）社会的エージェントは相当の遅延とこれらの遅延における相当のレベルの不確実性を伴い反応すること、を維持するという利点を有する。この社会的エージェントのモデルは、リアルタイム社会的相互作用の問題を構成するために、確率最適制御の考え方をどのように使用できるのかを説明するのに十分なだけの豊かさを有している。

社会的エージェントの行動は２つの補助過程、すなわち、タイマ｛Ｚ_ｔ｝とインジケータ｛Ｉ_ｔ｝に依存するものとする。タイマにより、社会的相互作用に典型的な時間遅延と一時的不確実性をモデル化することが可能になる。タイマは｛０，…，τ_２ ^ａ｝において値を取り、ここに、τ_２ ^ａ∈Ｎはモデルのパラメータであり、その意味については以下で説明する。タイマはτ_２ ^ａまで最後のロボットの行動以降の時間段階の数を追跡する(図３を参照)、すなわち、以下のようになる。

インジケータ・ベクトルＩ_ｔ＝（Ｉ_１,ｔ，Ｉ_２,ｔ，Ｉ_３,ｔ）^Ｔは、時間ｔが以下のカテゴリ、すなわち、（１）Ｉ_１,ｔにより示される「自己期間」、（２）Ｉ_２,ｔにより示される「エージェント己期間」、（３）Ｉ_３,ｔにより示される「背景期間」、に属するかどうかを示す３つの２進変数からなる。これらの３つの期間の意味については以下で説明する。

社会的エージェントの反応時間はパラメータ０≦τ_１ ^ａ≦τ_２ ^ａの範囲内にある。すなわち、ロボットからの行動に反応するためには、エージェントはτ_１ ^ａ〜τ_２ ^ａの範囲のあらゆる時間段階を必要とする。インジケータ過程｛Ｉ_２,ｔ｝により指定される「エージェント期間」は、もしエージェントが存在することができるとすれば、前のロボットの行動に対するエージェントの反応が可能である期間である。従って、以下のようになる。

エージェント期間中には、ロボットのセンサは、速度Ｒ_２を有するポアソン過程｛Ｄ_２,ｔ｝により駆動される。Ｒ_２の分布は、反応するエージェントが以下に定められるような形で存在しているかどうかにより決まる。

ここで、図３は、タイマとインジケータ変数との力学のグラフ表示であり、遅延パラメータがτ_１ ^Ｓ＝１，τ_２ ^Ｓ＝２，τ_１ ^ａ＝４，τ_２ ^ａ＝５であった。

２．２自己フィードバック過程と背景過程のモデル化
ロボット・センサがロボット・アクチュエータに反応することを可能にし、例えば、ロボットは自分の発声を聞くことができ、さらには、この自己フィードバック・ループにおける遅延と不確実性を考慮に入れる。特に、自己フィードバック反応時間の分布はパラメータτ_１ ^Ｓ≦τ_２ ^Ｓについて均一であるものとし、τ_２ ^Ｓ＜τ_１ ^ａである。従って、自己フィードバック期間についてのインジケータ変数は以下のように定義される。

自己期間中には、センサの作動は、速度Ｒ_１を有するポアソン過程｛Ｄ_１,ｔ｝により促進される。

背景過程に関しては、速度Ｒ_３を有するポアソン過程｛Ｄ_３,ｔ｝としてモデル化する。背景過程は、自己フィードバックによるものでもなく、ロボットの行動に対する社会的エージェントの反応によるものでもないセンサの活動を促進する。背景活動が、特に、ロボットに反応しない外部の社会的エージェントからの行動を含むことができることに注目されたい（例えば、２人の社会的エージェントが相互に会話し、それにより、ロボットの音声センサを作動させることがある）。背景速度Ｒ３には、状況に応じた背景活動の可変性を反映するパラメータβ_３，１，β_３，２を有する事前ベータ分布を与える。β_３，１＝β_３，２＝１である場合は、全ての反応速度が先験的に等しく可能であること、すなわち、

を反映して、分布には情報価値がない。

背景インジケータは、社会的エージェントからの自己フィードバックまたは反応行動が起こらないかもしれない期間を追跡する、すなわち、以下のようになる。

２．３ロボット・センサのモデル化
センサの活動は交換ポアソン過程である。自己フィードバック期間中には、ポアソン過程｛Ｄ_１,ｔ｝により促進され、エージェント期間中には、｛Ｄ_２,ｔ｝により促進され、背景期間中には、｛Ｄ_３,ｔ｝により促進される、すなわち、以下のようになる。

さらに、エージェント期間中の反応速度Ｒ２の分布を指定する必要がある。もしエージェントが存在する場合は、すなわち、Ｈ＝１の場合は、Ｒ_２をＲ_１とＲ_３から独立させ、Ｒ_２には、状況に応じた背景活動の可変性を反映するパラメータβ_２，１，β_２，２を有する事前ベータ分布を与える。β_２、１＝β_２、２＝１である場合は、事前分布には情報価値がない（白紙状態アプローチ）。もしエージェントが存在しない場合は、すなわち、Ｈ＝０の場合は、エージェント期間中の反応速度と背景期間中の反応速度は同じ、すなわち、Ｒ_２＝Ｒ_３である。筆者の考えでは、それはパラメータとしてベータ１１、ベータ１２を有するベータとなることと、これらのベータはモデルの行動に何の効果も有しておらず、従って、パラメータの指定は行わないということを言う必要がある。

２．４補助過程
自己期間、エージェント期間、背景期間中の時間ｔまでのセンサの活動とその欠如を記録するためには、過程｛Ｏ_ｔ，Ｑ_ｔ｝を使用することになる。特に、ｔ＝１，２…の場合は、以下のようになる。

２．５確率的制約
付録Ｉは、モデルを指定するパラメータ、ランダム変数、及び確率過程の要約を含んでいる。

図４は、モデルに含まれた異なる変数の結合分布におけるマルコフ形制約を示したものである。変数Ｘから変数Ｙへの矢印は、ＸがＹの「親」であることを示している。ランダム変数の確率は、他の全ての変数が親変数であると仮定すると、それらの変数から条件付きで独立している。点線部分は観察不能変数を示し、実線部分は観察可能変数を示す。

ここで、図４に示した生成モデルにおいて、コントローラＣ_ｔ＋１は全ての観察情報を時間ｔまでに行動Ｕ_ｔ＋１にマッピングする。行動の効果は反応するエージェントＨの存在又は不在とＺ_ｔにより決められたタイミングとに依存する。インフォマックス・コントローラは関心の陰の変数、例えば、Ｈの値に関する情報リターンを最大化する。

３発達と学習。推論と制御
ここでは、「発達」とは、社会的相互作用の根底にある因果構造を発見する問題、すなわち、図４に示したような種類のモデルを発見する問題のことを言う。これは、大量のデータを何ヶ月または何年にもわたって収集することが要求されるかもしれない困難な問題である。ここでは、「学習」とは、偶発事象を発見する問題、すなわち、あるモデルの観察不能変数に関する推論を行う問題のことを言う。これは一般的にはモデル発達の場合よりも必要なデータが少なく、数秒、数分または数時間以内で行われることもある過程である。

開発と学習は２つの基本的過程、すなわち、推論と制御に依存している。推論とは、原則に基づいた形で事前データをセンサ・データと結び付ける問題のことを言う。制御とは、有機体の目標を達成するために行動をリアルタイムで予定する問題のことを言う。

３．１発達
実際には、これまでに発達させてきたモデルは、世界との相互作用の際には、ロボットが２つの「因果クラスタ」に遭遇するかもしれないということをただ単に述べているにすぎない(図５の（Ａ），（Ｂ）を参照)。

ここで、図５の（Ａ），（Ｂ）は、モデルにより作られる２つの偶発事象クラスタを示す図である。変数Ｈは、２つの変数のどちらが現在の状況において活動中であるかを示している。図５の（Ａ）は偶発事象クラスタ１「反応するエージェント不在」を示し、また、図５の（Ｂ）は偶発事象クラスタ２「反応するエージェント存在」を示している。

[クラスタ１]において、ある行動に続く期間[τ_１ ^ｓ，τ_ｓ ^２]中に、センサ活動が背景活動に関して変化する傾向がある場合。これは自己フィードバックの効果によるものである。

[クラスタ２]において、[τ_１ ^ｓ，τ_２ ^ｓ]中に、センサ活動が変化する傾向があるが、しかし、ある行動に続く期間[τ_１ ^ａ，τ_２ ^ａ]中にも変化する場合、活動の第２の変化は反応する社会的エージェントの存在によるものである。

社会ロボット工学における非常に先駆的なアーキテクチャは便利なことに発達心理学からの心の理論アプローチに依存している（例えば、非特許文献３、２２参照）。これらのアプローチが強調しているのは、幼児が人間や有意エージェントを相手にするための高レベルの知識モジュールを生まれながらに備えているという考え方である。一方、ここで提唱しているロボット・アーキテクチャは明確なラベル又は概念理論を使用しない。

以上の説明では、因果モデルを手書きで発達させたが、これらの因果クラスタの発見のために現在の機械学習法を使用することもできる。心の理論アプローチが主張しているように、発達中には、これらのクラスタは、言葉により簡単に記述可能なあらゆる概念には対応しないかもしれない。我々にとっては、ロボットが上記のタイプの因果クラスタの存在を発見し、世界の中で作動する際にそのようなクラスタが役に立つということを実感するだけで十分である。これは現在の機械学習技術の範囲内で十分可能なことである。

３．２学習：推論
ここでは、ロボットはすでに因果モデルを発達させているものと仮定し、どのようにしてある一連のセンサ活動ｙ１：ｔと行動ｕ１：ｔに基づき社会的エージェントの存在または不在について判断するかということに焦点を合わせる。（ｙ_１：ｔ，ｕ_１：ｔ，ｏ_ｔ，ｑ_ｔ，ｚ_ｔ）は（Ｙ_１：ｔ，Ｕ_１：ｔ，Ｏ_ｔ，Ｑ_ｔ，Ｚ_ｔ）からの任意標本であるとする。すると、

となる。

速度変数Ｒ_１、Ｒ_２、Ｒ_３が事前分布の下では独立していることに注目されたい。さらに、Ｈ＝１の場合は、これらの変数は時間の非交差集合においてセンサに影響を与える。従って、速度変数は事後分布の下でも独立しているということになる。特に、

となる。

帰無仮説の下では、Ｒ_２＝Ｒ_３、すなわち、センサ活動は「エージェント」期間中は変化しない。さらに、センサの活動がＲ_２、Ｒ_３に依存する場合の時間の集合は、Ｒ_１に依存する場合の時間の集合とは交差しない。従って、Ｒ_１は事後分布の下でＲ_２、Ｒ_３から独立している。すなわち、

となる。

ｐ（ｒ│ｙ_１：ｔ，ｕ_１：ｔ，ｈ）＞０となるような任意のｒの場合は、

が得られる。

従って、（１７）から（１８）への遷移には何か正しくないものがある。（１７）においては、ｕ（）を無視すると、たとえｏ＋ｑ＝０であっても、比率ｑが得られる。（１８）においては、得られない。

及び

ここでは、Ｈ＝０の下において確率１でＲ_２＝Ｒ_３であるという事実を使用した。従って、２つの仮説の間のログ尤度比は以下のとおりである。

さらに、関心の仮説に関する事後分布は以下のとおりである。

３．３関心の事例
より明示的には、以下のようになる。

この事後分布は、反応するエージェントに関してロボットが入手可能な全ての情報を含んでいる。その２つの重要な特性は、（１）ｏ_１,ｔ，ｑ_１,ｔに依存していないこと、すなわち、自己帰還には仮説に関しての情報価値がないということと、（２）ｏ_１,ｔ＋ｑ_１,ｔ＝０またはｏ_２,ｔ＋ｑ_２,ｔ＝０の場合は、ログ尤度比が０であるということである。要するに、エージェントまたは背景状態においてデータが収集されていなければ、Ｈに関する情報は得られていないのである。従って、Ｈに関する情報を得るために、ロボットはそのアクチュエータを少なくとも１回は使用しなければならないし、少なくとも１回は使用してはならない。

データがまだ集まっていない場合は、尤度は１である、すなわち、事後尤度は事前尤度に等しい。

エージェント・データがまだ集まっていない場合は、集まっている背景データがどの程度であるかとは無関係に、尤度は１である。

背景データがまだ集まっておらず、β_２＝β_３である場合は、集まっているエージェント・データがどの程度であるかとは無関係に、尤度は１である。

背景データがまだ集まっていないが、β_２≠β_３である場合は、エージェント・データの収集には情報価値がなく、特に、以下のようになる。

背景ビットを集め、それが＋１であるとしよう。この値は帰無仮説によっても対立仮説によっても説明が困難である。というのは、情報が全く得られていないからである。それでは、背景データを有していないが、１ビットをエージェント時間から集め、それが＋１であるとしよう。帰無仮説は簡単な結果説明時間を有するが、対立仮説は有していない。従って、情報は得られていない。もしビットが０であるとすると、帰無仮説は対立仮設よりも簡単な結果説明時間を有することになる。情報は得られている。

３．４学習：インフォマックス制御
この節においては、社会的エージェントの存在または不在に関する期待情報リターンを最大化するために、どのようにしてロボットのアクチュエータの挙動を予定するのかということに焦点を合わせる。ｔは現在の時間を、Ｔ＞ｔは若干未来の時間を表すものとする。Ｃ＝｛Ｃ_ｒ：ｒ＝ｔ＋１，・・・，Ｔ｝は閉ループ・コントローラ、すなわち、一連の観察を行動にマッピングする関数の集合を表すものとする、すなわち、以下のようになる。

コントローラＣはベイズ的アプローチと整合するランダム・オブジェクトとして取り扱う。目標は、Ｈに関する不確実性を最小化する必要条件であるＣが取る値を発見することにある。

本発明では、Ｃ＝cが必要条件である場合にＨに関する未来の情報リターンが最大化するようなコントローラcを提供する。

コントローラｃを使用した場合に期待される情報リターンは、Ｈとその時点において得られることになる観察可能変数との間の相互情報、すなわち、

により与えられ、ここに、Ｔは相互情報を、Ｈはエントロピを表しており（付録ＩＩＩを参照）、（Ｙ_{ｔ＋１：ｒ}，Ｃ）であると仮定し、ＨはＵ_{ｔ＋１：ｒ}から条件付きで独立しているという事実を使用した。式が教えているのは、観察可能過程Ｙ_{ｔ＋１：ｓ}，Ｕ_{ｔ＋１：ｓ}により提供されるＨに関する情報が、それらの観察可能過程により提供される不確実性の減少に等しいということである。項Ｈ（Ｈ |ｙ_１：ｔ，ｕ_１：ｔ）はコントローラに依存していないので、情報利得を最大化することは、Ｈの未来のエントロピを最小化することと等価である。この事実を使用して、情報ベース効用関数を展開することにする。時間ｒにおける観察可能変数が与えられているものと仮定して、Ｗ_ｒはＨに関する不確実性であるものとする（条件付き期待値の定義については、付録ＩＩＩを参照）。

従って、以下の式が得られる。

コントローラｃを所与として、観察された数列ｙ_１：ｔ，ｕ_１：ｔについての期待リターンを以下のように、すなわち、

のように定義し、ここに、α_ｒ≧０は、未来の異なる時点における情報の相対値を示す固定数である。我々の目標は、期待リターンを最大化するコントローラcを発見することにある。

最適コントローラが与えられているものと仮定し、数列（ｙ_１：ｔ，ｕ_１：ｔ）についての最適期待リターンはその期待リターンであると定義する。

最適コントローラと最適期待リターンがベルマンの最適性式、すなわち、

ここに、

を満足するのを示すことは簡単である。

部分観察可能マルコフ過程については、ベルマンの式を厳密に解くことは一般的には困難である。その原因は、可能な数列の数が時間の関数としてあまりにも速く増加することにある。幸運なことに、我々の事例においては、Ｈに関する情報の損失が全くなしで観察可能数列を要約する再帰的統計値Ｓ_ｔ＝^ｄｅｆ（Ｏ_ｔ，Ｑ_ｔ，Ｚ_ｔ）が存在するために、問題は簡単になる。これにより、標準動的計画再帰アルゴリズムを使用して最適コントローラを使用することが可能になる（付録ＩＩを参照）。

４最適コントローラの解析
動的計画法問題は２４の２．５ＧＨｚＰｏｗｅｒＰＣＧ５ＣＰＵのクラスタを使用して解かれた。計算時間はほぼ１２時間程度であった。モデルのパラメータは以下のように設定された。Ｔ＝４０；τ_１ ^ｓ＝０；τ_２ ^ｓ＝０；τ_１ ^ａ＝１；τ_１ ^ａ＝３；π＝０．５。次に、時間１５＜ｔ＜２５についてコントローラの挙動をモデル化するために、ロジスティック回帰を使用したが、その理由は、この時間が、コントローラの関心の窓の開始と終了に近過ぎない時間、すなわち、ｔ∈だからである（例えば、非特許文献１、４０参照）。ロジスティック回帰は全ての可能な条件について９６．４６％の精度で最適コントローラの行動を予測した。最終的モデルは以下のとおりであった。

解釈：最適コントローラの誘導は多少困難ではあったが、最終製品はリアルタイムで簡単に作動できる単純な反応システムとなる。誘導により提供されたものが、この単純なコントローラが目前のタスクにとって最適であることの保証であった。このモデルの下では、これよりも優れた制御手段は存在しない。未来期待リターンを無視する貪欲な一段階コントローラ（例えば、非特許文献１６、１７参照）ではこのタスクに失敗するということに注目されたい。その理由は、反応する際に、次の時間段階が自己フィードバックにより占有され、たまたまそれに情報価値がなく、従って、結局は貪欲なコントローラは絶対に行動しないという判断を下すことになるからである。未来期待リターンを含むことにより、コントローラには、自動的に先を見越ことと、長い目で見れば行動を起こすことが行動を行わない場合よりも良い情報を提供できることを理解することが可能になる。

いつ行動すべきかを判断するために、コントローラは統計値

を使用する。この統計値は、Ｒ_ｉが能動的にセンサを駆動する期間、すなわち、Ｒ_１の場合は自己フィードバック期間、Ｒ_２の場合はエージェント期間、Ｒ_３の場合は背景期間から新しい観察結果により提供されるＲ_ｉに関する分散の期待される減少である。従って、最適コントローラはＲ_３とＲ_２に関する不確実性を一定の比率の範囲内に保つことを希望しているように見える。エージェント速度であるＲ_２があまりにも不確実な場合は、コントローラは行動することを選択する。背景速度であるＲ_３があまりにも不確実な場合は、コントローラは沈黙を保つことを選択し、それにより、背景活動速度に関する情報を獲得する。背景速度Ｒ_３に関する分散が背景速度Ｒ_２に関する分散の少なくとも９倍の大きさである場合に、行動が起こされることに注目することは興味深いことである。この倍率の理由は、情報リターンという観点からは、行動が行動の欠如よりもコストがかかるという事実にあるのかもしれない。ロボットが時間ｔにおいて行動した場合は、自己フィードバック観察結果にはＨに関する情報価値がないので、ロボットは時間［ｔ＋τ_１ ^ｓ，ｔ＋τ_２ ^ｓ］中には情報を獲得しない。さらに、時間［ｔ＋τ_１ ^ａ，ｔ＋τ_２ ^ａ］中には、コントローラはロボットに対して行動しないように命令し、従って、これらの期間中には、ロボットはＲ_２に関情報だけしか得ることができず、Ｒ_３に関する情報を得ることはできない。対照的に、ロボットが時間ｔにおいて行動しなかった場合は、自己フィードバックより時間が無駄になることはない。これが、行動が起こる前において、なぜエージェント活動速度Ｒ_２に関する不確実性が背景活動速度Ｒ_３に関する不確実性よりも大きい必要があるのかの説明に役立つかもしれない。

５自己管理学習の形態としてのインフォマックス制御
ここで肝心なことは、システムにはその失敗又は成功が、すなわち、Ｈの真の値が決して明示的には知らされないということである。原理的には、エージェントが存在していたのか不在であったのかを決して教えられずに世界と相互作用することにより、システムは最適政策を簡単に学習することができる。これは、外部批判者を利用することができないかもしれない学習のモデルにとっては重要なことである。最近ではこの形態の学習を自己管理学習と呼んでいる人々もでてきている。

強化学習は、最適コントローラを発見するためのサンプリング法に依存する最適制御理論の一部門であると見ることができる。そのようなものとして、最適インフォマックス・コントローラを発達させるために、動的計画法の代わりに、強化学習アプローチを使用することもできたのである。動的計画法が与えたものは、コントローラが最適のものであったということの、すなわち、このコントローラよりも優れたコントローラは存在しなかったということの公式の保証である。

６幼児の１日の４３秒間の理解
この節においては、１．１節に記載したように、乳児−９との実験セッションの最初の４３秒間についての質的理解を得るために、最適インフォマックス・コントローラを適用する。この時間中に、乳児−９は７回発声し、その発声時点は実験の開始から｛５．５８、９．４４、２０．１２、２５．５６、３２．１、３７．９、４１．７｝秒後であった。これらの発声の後には、ロボットは必ず音声と光を同時に発した。２回の連続した幼児の発声の間の時間間隔（単位：ミリ秒）は以下のとおり、すなわち、｛４．２２、１０．３２、５．３２、６．１４、５．４４、３．５６｝であった。３回目または４回目の発声までに、室内に反応するエージェントが存在することに幼児が気付いている、ということを大部分の人々が認めている。

３．４節に提示したインフォマックス・コントローラの場合、５つのパラメータを、すなわち、時間打ち切りについてのサンプリング期間、２つの自己遅延パラメータ、２つのエージェント遅延パラメータを設定することが必要である。これらのパラメータについての概算を行うために、試験的研究を行う。エージェント潜在パラメータτ_１ ^ａ、τ_２ ^ａについて、研究の目的を教えずに、４人にコンピュータのアニメ・キャラクタに話しかけるよう求めた。参加者の年齢は４、６、２４、３５歳であった。音声センサの活動を２進化するために、最適エンコーダを使用し、この２進センサの起動の確率を１５０回の試験全体についての時間の関数としてプロットした。各試験はアニメ・キャラクタの発声により始まり、その４秒後に終わった。その結果を示したのが図６である。図６の（Ａ）のグラフは音声センサの活動を１５０回の試験全体にわたってキャラクタの発声の開始からの時間の関数として示している。各水平線は異なる試験である。最初の縦棒はキャラクタからの自己フィードバックによるものである。アニメ・キャラクタの発声の終了から約１２００〜１４００ｍｓｅｃまでには、センサの活動のもう１つのピークが生じるが、これは人間の参加者の発声にその原因がある。図６の（Ｂ）のグラフはセンサの活動の確率を試験全体にわたって縮約された時間の関数として示している。自己フィードバックによる活動の最初のピークと、人間の反応によるセンサの活動の漸進的増減に注目されたい。このグラフに基づき、最適コントローラのシミュレーションを以下のパラメータ、すなわち、△ｔ＝８００ｍｓｅｃ、τ_１ ^ｓ＝τ_２ ^ｓ＝０、τ_１ ^ａ＝１、τ_２ ^ａ＝３により行う。要するに、自己遅延を人間の反応の予想遅延に関しては無視できるものとし、人間の活動は８００〜２４００秒以内に起こるものとする。最悪事例のシナリオをシミュレーションするために、π＝０．０１に設定し、従って、反応するシステムが存在しているとの判断を下すためには、もっと多くのデータが必要である。

図７の（Ａ），（Ｂ），（Ｃ），（Ｄ）はシミュレーションの結果を示したものである。全てのグラフにおける水平軸は時間（単位：秒）である。図７の（Ａ）のグラフは、乳児−９の役割を演じる最適コントローラの発声を示している。コントローラは４３秒間の期間にわたって６回の発声を行った。発声間の平均時間間隔は、乳児−９の場合が５．８３３秒であるのに対して、５．９２秒であった。標準Ｔ試験（Ｔ（９）＝０．０８、ｐ＝０．９４）を使用した場合、この差は重要なものではない。

図７の（Ｂ）のグラフは、反応するエージェントの存在に関するシステムの信念を示している。実験開始３０秒後の４回目の反応までに、この確率は０．５レベルを超える。図７の（Ｃ）のグラフは、４３秒の期間の終了までのエージェント反応速度と背景反応速度に関する事後確率分布を示している。図７の（Ｄ）のグラフはエージェント期間中のセンサ速度に関する不確実性と背景期間中の速度に関する不確実性との比率を示している。この比率が９に達すると、模擬乳児が反応することに注目されたい。

従って、社会的相互作用において一般的に見られる時間遅延と不確実性のレベルを前提とすると、このモデルは、乳児−９が自分の反応を予定し、最適の形で社会的エージェントの反応性について判断を下したことを示している。このモデルは、乳児−９の発声がロボットの反応性に関して戻された情報を最大化するような形で予定されているという意味において、乳児−９がロボットに対して「質問を行って」いたという考えとの整合性もある。関心のもう１つのポイントは、最適コントローラが交代する、すなわち、行動が行われた後に、コントローラは次の発声までにある時間、平均５．９２秒待つということである。発声と発声の間の時間間隔は固定されておらず、エージェントと背景の反応性のレベルに関する相対不確実性により決まることになる。例えば、予想外の背景活動が生じた場合は、背景活動の変化をよりよく「理解する」ために、コントローラは発声間の時間間隔を自動的に延長する。予想外のエージェント活動が生じた場合は、コントローラは反応速度を高め、エージェント期間に関する情報の収集を加速する。

７リアルタイム・ロボット実装
この問題を研究するために、上記の最適インフォマックス・コントローラを、ＡＴＲの知能ロボット工学研究所で開発された人型ロボットＲｏｂｏｖｉｅＭに実装した。リアルタイム・コントローラを試験するためにはロボットは必ずしも必要ではなかったが、人間と機械との間で展開される相互作用の質を高めるのに大いに役立ち、従って、より現実的なコントローラの試験方法を提供した。ＲｏｂｏｖｉｅＭは自由度２２（肩：自由度１、腰：自由度１、腕：自由度２×４、脚：自由度２×６）を有する。高さは２９ｃｍ、重量は約１．９ｋｇである。対応する２２のサーボの制御はＨ８１６ＭＨｚマイクロコントローラにより行われる。リアルタイム・インフォマックス・コントローラはＪａｖａで実装され、ホスト・コンピュータである、例えば、異なる陰の変数の事後分布のような、コントローラの異なる状態をリアルタイムでグラフィック表示するＭａｃＰｏｗｅｒＢｏｏｋＧ４で実行された。ホスト・コンピュータとコントローラとの間の通信は、ＷｉｒｅｌｅｓｓＣａｂｌｅｓ社製のシリアル・アダプタへのブルー・トゥースを使用して無線で行われた。現バージョンのインフォマックス・コントローラは１ビット・センサと１ビット・アクチュエータとを必要とする。センサについては、５００ｍｓｅｃのウィンドウにわたっての平均音声エネルギを選び、１ビット最適コーダを使用してそれを打ち切った。アクチュエータは、２００ｍｓｅｃのロボット音を発する小型のラウドスピーカであった。音を作り出すコマンドの発令と音声センサからのフィードバックの受信との間の時間遅延を測定することにより、コントローラの自己時間遅延パラメータは選択された。エージェントの遅延パラメータは乳児−９のシミュレーションの場合と同じであった（第６節を参照）。

ロボットの発声に加えて、反応するエージェントの存在／不在についてのコントローラの信念に基づき、その姿勢が、エージェントが存在するとコントローラが信じた場合の高レベルの注意を示す姿勢と、エージェントが存在しないとコントローラが信じた場合の退屈さを示す姿勢とに変化した。

７．１非定常環境
ここに提唱したモデルにおいては、変数ＲとＨにより表されるエージェントと背景の状態はランダムであるが、しかし定常的である。現実的実装のためには、ＲとＨが時間とともに変化できることが必要である。残念なことに、そのような事例においては、最適コントローラの計算が面倒であることを示すことができる。我々は、過去の観察結果が時間の関数として指数的に無関係になると仮定することにより、状況を近似化する。この近似化の下で、我々はＯ_ｔ、Ｑ_ｔの指数平滑化された移動平均をただ単に収集し、標準コントローラをこれらの移動平均に適用する。状況が３０秒を超えて定常的であることを期待すべきではないという考え方を反映して、指数平滑部の時間定数は３０秒であった。

７．２質的評価
本発明の目的は、偶発事象を信頼できる情報源として使用できるようにすることであった。偶発事象は信頼でき、計算と帯域幅に関する要件も非常に低い。数量的評価を欠いているので、公の集会においてシステムを実演するという我々の経験に基づき、質的評価を提示することにする。騒音のレベルが比較的高い標準的オフィス環境において、コントローラは反応するエージェントが存在しているかどうかの判断を数回の試験の後に下す。特に有効であるのが、エージェントがロボットへの話しかけから誰か他の人への話しかけに移る転移点である。このシステムを４回の科学講演会と２回の会議、すなわち、ＩＣＤＬ０４とＮＩＰＳ０４において実演した。一般的に騒音レベルが比較的低い講演会における実演はうまく行く。ＩＣＤＬ０４においては、ポスター・ルームのような比較的騒がしく、コントローラが信頼できる判断を下すには少し余計に時間がかかった。状況の困難さを考慮に入れると、全体的にパーフォーマンスのレベルは目覚しいものであった。ＮＩＰＳ０４においては、条件は極めて騒がしいものであった。多くの場合の大声での会話も相互理解には十分ではなかった。これらの条件の下でコントローラが信頼できる働きを行うためには、人間は大声で話し、ロボットの近くにいなければならなかった。

この方法が人型ロボットと音声ｍｈｏＤａｌに適用された場合は、カメラ入力ｍｈｏＤａｌとともに使用することが可能である。

これをロボットの様々な表現能力と結合することにより、ロボットとユーザーとの間のより緊密な相互作用を可能にする装置を提供する。

基本的発明部分においては、音声がｍｏｏＤａｌをロボットの入力・出力として取り扱った。

この結果、画像入力または身振り出力によるセンサ入力によるアクチュエータ出力を間接コーナ制御により処理することができる。

一例に過ぎないが、外部世界におけるカメラ画像入力と光学欠陥計算技術により一定の上記数量を有するための動きが検出されると、センサ入力１が入力する。

それに加えて、事前に平和をもたらした一定身振り出力コマンドが出力１のために実行される。

結果として、画像入力ｍｈｏＤａｌによる偶発事象探索が有効になる。エンターテイメント・ロボットにおいては、ユーザーを疲れさせない表現の要素能力が重要である。

８本発明の適用例
この基本的発明の適用例として、以下には２つの実施例が示してある。

適用例１
身振りが観察され、さらに、表現は出力のことを考えるので、その身振りは間接コーナ制御に基づき模倣される。

身振りが観察され、模倣の程度において基本となる発明により計算された後の確率を使用するための方法が可能である。

ロボットの間接アクチュエータが使用され、それは観察され、模倣され、しかも、カメラ画像入力から、多くの知識が得られるように、相互作用の対象である人間の動きを出力することができる。

それが観察され、模倣の程度を数値制御できる場合は、基本となる発明により計算された事後確率にこの数値を反映させることが考え得る。

例示の目的のために、それは観察され、人間の間接コーナが模倣の方法として画像入力から推定され、目標角度に対してロボットの間接コーナを制御するための方法が考えられる。

[結合コーナ制御値]＝ｋ１×［事後確率値］×［間接コーナ値］
アクチュエータが上記に従って動かされた場合は、アクチュエータは仕事の後にロボットの中で似た反応を示すことができ、その結果、確率値は、ユーザーとロボットとの相互作用が偶発的なものになるような高い値を示すことになる。

正常な進歩の過程が観察され、それは模倣よりも多く観察され、しかも、模倣することは動的であり、それを理解することができ、それは依存しており、ユーザーの関心を引き付けることができる。

ｋ１（ｋ２も同様）はここではパラメータである。

適用例２
表情として、ロボットの表情の変化が考えられる。

表情のメカニズムは様々であるが、しかし、最も簡単な実装例は、パラメータについて目のＬＥＤの輝度を変えるための方法である。

ＬＥＤの輝度は以下のように設定される。

［ＬＥＤ輝度］＝ｋ２×［仕事後の確率値］
結果として、ユーザーは一番前におり、目の輝度は偶発的である相互作用に伴って大きくなる。

ユーザーに対しては、「このロボットは私の存在をゆっくりと認識する」という動的変化過程により、より好ましい印象を与えることができる。

もちろん、ＬＥＤ以外による表情も可能である。

一例に過ぎないが、簡単な運動制御による眉と唇の形を変えるロボットのメカニズムが存在する。

運動出力に反映し、確立値が上昇するように、力強い微笑みを示すための制御を類似の原理により簡単な方法で適用することができる。

例えば、発明の適用効果が、確信度と動的連続の数量を使用することにより、使用される変化過程の特徴をもたらすことができ、例えば、「発見の喜びについての人間の身振りの出力」のような、ルールベースの技術に比べて、人間が行動の近くにいることができる。それに加えて、人間がユーザーとの相互作用をさらに進めることができる。

９本発明を搭載したロボット装置
本発明は、例えば、図８に示したようなロボット装置に搭載することができる。図８の二足歩行ロボット装置３０は、日常生活における生活状態やその他の状況に対する人間の行動を手助けする実用ロボットである。ロボット装置３０は、内面状態（怒り、悲しみ、喜び、楽しみ等）に従って行動できるエンターテイメント・ロボットでもある。

図８に示したように、ロボット装置３０は、頭部ユニット３２と、右左腕ユニット３３Ｒ／Ｌと、胴ユニット３１の指定位置に結合された右左脚ユニット３４Ｒ／Ｌを含む。これらの参照符号において、文字ＲとＬは、それぞれ右と左を示す接尾辞である。これは以下に記述についても同様である。

図９は、ロボット装置３０に提供される関節自由度の構造の概略を示したものである。頭部ユニット１０２を支持している首関節は自由度３、すなわち、首関節横揺れ軸１０１と、首関節縦揺れ軸１０２と、首関節ロール軸１０３を有する。

上肢を構成する腕ユニット３３Ｒ／Ｌの各々は、肩関節縦揺れ軸１０７と、肩関節ロール軸１０８と、上腕横揺れ軸１０９と、肘関節縦揺れ軸１１０と、前腕横揺れ軸１１１と、手関節縦揺れ軸１１２と、手関節ロール軸１１３と、手部分１１４を含む。手部分１１４は実際には複数の指を含む多関節多自由度構造である。しかしながら、手部分１１４の動きはロボット装置１の姿勢・歩行制御にはほとんど影響を与えない。簡素化のために、本明細書は手部分１１４の自由度をゼロと仮定している。従って、各腕ユニットの自由度は７である。

胴部分２は自由度３、すなわち、胴縦揺れ軸１０４と、胴ロール軸１０５と、胴横揺れ軸１０６を有する。

下肢を構成する脚ユニット３４Ｒ／Ｌの各々は、股関節横揺れ軸１１５と、股関節縦揺れ軸１１６と、股関節ロール軸１１７と、膝関節縦揺れ軸１１８と、足関節縦揺れ軸１１９と、足関節ロール軸１２０と、足部分１２１を含む。本明細書は股関節縦揺れ軸１１６と股関節ロール軸１１７との交差地点をロボット装置３０の股関節位置であると定義する。この足部分１２１に相当する人間の足部分は、多関節多自由度足底を含む構造である。簡素化のために、本明細書はロボット装置３０の足裏の自由度をゼロと仮定している。従って、各脚ユニットの自由度は６である。

合計すると、ロボット装置３０全体の自由度は３２（３＋７×２＋３＋６×２）である。しかしながら、エンターテイメント志向ロボット装置３０の自由度は３２に画定されているわけではない。自由度、すなわち、関節の数を設計又は生産条件、要求される仕様等に従って増減できることは明白である。

実際には、ロボット装置３０に提供される上記の自由度の各々を実現するために、アクチュエータが使用される。自然な人間の体型に似せるために不要に見える膨らみを除去し、不安定な２足歩行構造に対して姿勢制御を提供するということを考慮して、好ましくは小型・軽量のアクチュエータを主として使用する。より好ましくは、モータ・ユニット内に取付けられた単一チップ・サーボ制御システムを備えた歯車に直接接続された小型ＡＣサーボ・アクチュエータを使用する。

図１０は、ロボット装置３０の制御システム構成の概略を示したものである。図１４に示したように、制御システムは推論制御モジュール２００と運動制御モジュール３００を含む。推論制御モジュール２００はユーザー入力等に対する動的反応の形で情緒的識別と感情的表現を制御する。運動制御モジュール３００は、アクチュエータ３５０の駆動のようなロボット装置１の全身の調和運動を制御する。

推論制御モジュール２２０は、情緒的識別と感情的表現に関する計算過程を実行するためのＣＰＵ（中央処理ユニット）２１１と、ＲＡＭ（ランダム・アクセス・メモリ）２１２と、ＲＯＭ（読出し専用メモリ）２１３と、外部記憶装置（ハードディスク・ドライブ等）２１４を含む。推論制御モジュール２２０は、モジュール内部での必要な要素を全て備えた過程が可能な独立被駆動情報処理ユニットである。

推論制御モジュール２２０には、画像入力装置２５１から画像データが、音声入力装置２５２から音声データが、さらにはその他が供給される。外部からのこれらの刺激に応じて、推論制御モジュール２２０はロボット装置３０の現在の感情又は意図を判断する。画像入力装置２５１は、例えば、複数のＣＣＤ（電荷結合素子）カメラを有する。音声入力装置２５２は、例えば、複数のマイクロホンを有する。

推論制御モジュール２２０は、意思決定、すなわち、四肢の動きに基づき一連の運動又は行動を行うように運動制御モジュール３００に対して命令を発する。

運動制御モジュール３００は、ロボット装置３０の全身の調和運動を制御するためのＣＰＵ３１１と、ＲＡＭ３１２と、ＲＯＭ３１３と、外部記憶装置（ハードディスク・ドライブ等）３１４を含む。運動制御モジュール３００は、モジュール内部での必要な要素を全て備えた過程が可能な独立被駆動情報処理ユニットである。外部記憶装置３１４は、例えば、オフライン計算歩行パターンと、目標のＺＭＰ軌道と、その他の行動予定を記憶することができる。ＺＭＰとは、歩行中の床の反発力が原因となるゼロモーメントを発生させる床表面地点である。ＺＭＰ軌道とは、ロボット装置３０の歩行運動中にＺＰＭが動く際の軌道を意味する。ＺＭＰの概念と脚付きロボットの安定性判断基準へのＺＭＰの適用については、ミイオミール・ブコブラトビッチ“ＬＥＧＧＥＤＬＯＯＭＯＴＩＯＮＲＯＢＯＴ”（「日刊工業新聞社、カトウ・イチロウ他による日本語訳「歩行ロボットと人工の脚」」を参照）。

運動制御モジュール３００は、図９に示したロボット装置３０の全身に分布している自由度の各々を実現するためのアクチュエータと、胴ユニット２の姿勢又は傾斜を測定するための姿勢センサ５１と、左右の足裏が床から離れているのか、それとも床に接触しているのかを探知するための着地確認センサ３５２及び３５３と、電池のような電源を管理するための電源コントローラ３５４に接続されている。これらの装置はバス・インタフェース（Ｉ／Ｆ）３０１を通じて運動制御モジュール３００に接続されている。姿勢センサ３５１は、例えば、加速センサとジャイロ・センサとの組合せである。着地センサ３５２及び３５３は近接センサ、マイクロ・スイッチ等を含む。

推論制御モジュール２００と運動制御モジュール３００は共通のプラットホーム上に構築されている。この２つのモジュールはバス・インタフェース２０１及び３０１により相互に接続されている。

運動制御モジュール３００は、推論制御モジュール２００から命じられた行動を実現するために、アクチュエータ３５０の各々により全身の調和運動を制御する。推論制御モジュール２００から命じられた行動に対応して、ＣＰＵ３１１は対応動作パターンを外部記憶装置３１４から読出す。あるいは又、ＣＰＵ３１１は内部に動作パターンを生成する。

定められた動作パターンに従って、ＣＰＵ３１１は足部分の運動、ＺＭＰ軌道、胴の運動、上肢の運動、腰の水平位置と高さ等を設定する。ＣＰＵ３１１は次にコマンド値をアクチュエータ３５０に転送する。コマンド値は設定内容に応じて動作を定める。

ロボット装置３０の胴ユニット３１の姿勢又は傾斜を探知するために、ＣＰＵ３１１は姿勢センサ３５１からの出力信号を使用する。それに加えて、脚ユニット５Ｒ／Ｌの各々が使用されていないのか、それとも起立中であるのかを探知するために、ＣＰＵ３１１は着地確認センサ３５２及び３５３からの出力信号を使用する。この方法により、ＣＰＵ３１１はロボット装置３０の全身の調和運動を適応制御することができる。

さらに、ＺＭＰ位置が常にＺＭＰ安定化領域の中心を向くように、ＣＰＵ３１１はロボット装置３０の姿勢と動作を制御する。

運動制御モジュール３００は推論制御モジュール２００に処理状態を、すなわち、どの程度まで運動制御モジュール３００が推論制御モジュール２００により行われた判断に従って行動を実行したのかを知らせる。

この方法により、ロボット装置３０は制御プログラムに基づきその環境と周辺環境を判断することができ、自律的に行動することができる。

ロボット装置３０においては、例えば、上記の画像認識機能を実装するために、推論制御モジュール２００のＲＯＭ２１３はプログラム（データを含む）を記憶する。この場合には、ＣＰＵ２１１は画像認識プログラムを実行する。

上記の画像認識機能はインストールされているので、ロボット装置３０は、画像入力装置２５１を通じて供給される画像データから事前記憶モデルを正確に抽出することができる。例えば、ロボット装置３０が自律歩行する場合は、意図されたモデルを画像入力装置２５１のＣＣＤカメラにより記録された周囲画像から探知することが必要な場合があるかもしれない。この場合は、モデルは他の障害物により部分的に隠されていることが多い。視点と輝度は変えることができる。かかる場合においてさえ、上記の画像認識技術はモデルを正確に抽出することができる。

上記実施の形態では、ロボット装置自身の確信度を考え、外界と自身出力との間で定義される相互情報量を最大化するようにロボット装置の行動出力を決定した。

１０本発明の他の実施の形態
これに対して、以下に説明する実施の形態では、ロボット装置からみて，インタラクション対象が有すると思われる確信度を考えて、そこから定義される相互情報量を最大化するようにロボット装置の行動出力を決定する。

これは，インタラクション相手の気持ちを推し量って（心理学で「心の理論：Theory of Mind」と言われる概念に相当）相手にとっての情報量最大化，つまり相手にとってより多くの情報量を与えるように、こちら側（ロボット装置側）から行動を働きかけるという、言わば先の実施の形態とは逆の行動スタンスを同様の方法論に基づき行うことに相当する。以下、具体例として、単純な音声入出力装置を有するロボット装置を例にあげながらこれを説明する。

ここでは、ロボット装置が、インタラクション対象（人間や他のロボットなど）と、単純な音声のやりとりでインタラクションする場面を考える。

図１１に示すロボット装置４０は、音声入力器４１を備えており、これはマイク装置である。さらに、この音声入力器４１は、外界の音量が一定の大きさ以上になったとき、離散値１を入力する。そうでない時は単位時間ごとに０を入力する。音声出力器４２は、スピーカー装置であり，制御器４３からの命令を元に，単位時間ごとに予め定められた任意音（例えば「ピロロ」といった呼びかけ音）を制御出力値１の場合出力し、制御出力値０の場合は無音出力を行う。

制御器４３は，前時間ステップまでの入出力履歴を元に，現時間ステップでの制御出力を決定し音声出力器４２に送る。以下、冒頭に挙げたように心の理論的な方法論、つまり相手の立場にたって自身の行動を見て、相手にとってより好ましい（この尺度は後述する）ように行動する制御器４３の設定方法について述べる。

図１２に示すように、ロボット装置４０がある時点において音声出力「u1=1」を行ったとすると、外界ノイズがどうであれ、相手のセンサ入力（推定相手入力）は「y2=1」になると考える。さらに、相手が音声出力「u2=1」を行ったとすると、外界ノイズがどうであれ，「y1=1」になる。

ロボット装置４０は、自らのセンサ入出力を元に、相手の状態に関する以下の５変数を毎時更新して保持する。

インタラクション対象が行動「u2=1」してから何ステップ経過したかを記録する。この値は最大値kappaでパラメータとして指定されており、この値以上にはならない。タイムカウンタz（実際には一時点前の値z(t-1)）を用いることによって、現在、インタラクション対象は、Agent periodとBackground periodのどちらに属するかが以下のルールに基づき判断される。

if z(t-1) < (kappa-1) then currently in Agent period
if z(t-1) >= (kappa-1) then currently in Background period
タイムカウンタz自体は以下のルールにより更新される。

if u2(t) = 1 then z(t) = 1
if u2(t) = 0 then z(t) = z(t-1)+1, although z(t) = kappa if z(t-1) = kappa
Agent periodというのは、contingentなインタラクションが発生しうるタイミング、つまりこの区間内に応答があればその時のインタラクションはcontingentであることを意味する。Background periodというのはそれ以外、つまりタイミングを逸し、contingentではない反応と見なされてしまう区間を意味する。

以下、定義される４変数に基づき行われるベイズ推定の肝となる発想は、この二つの区間それぞれにおける応答履歴を比較して、前者（Agent period）における反応が統計的に大きいほど、外界に人間（この場合はロボット）がいると信じる確信度が高まるように、二項分布におけるベイズ推定の枠組みで定式化するところにある。

４変数は、以下のように定義する。

tBG ：その時点までに経験したBackground periodの総数
tAG ：その時点までに経験したAgent periodの総数
sBG ：tBGの内，センサ1（y2=1もしくはノイズN=1）を記録した総数
sAG ：tAGの内，センサ1（y2=1もしくはノイズN=1）を記録した総数
実際には，y2=u1 u2=u1として考える。（心の理論的なアプローチ）
以上の履歴変数組及び，ノイズ分布にベータ分布を仮定することにより，任意の事前分布（ベータ関数のパラメータに関する事前分布）を元に、時々刻々得られていくデータ（上記５変数）から、インタラクション対象の確信度が確率値p2(t)の形で計算できる。この計算過程に用いる技術は先の実施の形態と同様に、ベイズ推定、とくに自然共役分布の性質の利用である。

ここで、この実施の形態では、インタラクション対象にとって好ましい状況になるようにふるまう制御器４３設定するにあたり、好ましさの尺度として、以下の二通りの方法が考えられる。

尺度１：確率値p2をそのまま用いる方法。

この場合、確率値が高まれば高まるほど好ましい、つまりインタラクション対象が目の前に（彼から見た）インタラクション対象（人間やロボット）の存在を確信するほど、彼にとって好ましい、という尺度になる。

尺度２：確率値p2から定義されるエントロピp2*log(p2)+(1-p2)*log(1-p2)を用いる方法。

この場合、以下の参考文献に記されているように情報量最大化規範と等価になるが、本発明におけるこの意味は、インタラクション対象の獲得情報量が最大化となるほど好ましいという尺度になる。下記参考文献では，別の問題設定であるが，情報量最大化規範に基づく制御器設定を行った場合、その制御器の挙動が人間に近いものとなることが報告されている。

参考文献：” An Infomax Controller for Real-Time Detection of Social Contingency”, Javier R. Movellan, Proc. of the 4th IEEE International Conference on Development and Learning 2005
ここで挙げた尺度の何れかを報酬値とみると，既存の強化学習法（例えばQ-learning）により、将来にわたっての期待獲得報酬値を最大化する制御器が獲得できる。この方法は計算機シミュレーションで行うことが可能であり、最終的に得られた最適制御器をロボット装置４０の制御器４３にコピーすれば、目指していたものが実現できることになる。

強化学習法を行うためには，報酬値に加えて状態を定義する必要があるが、この場合、状態とは上で定義した5変数の組に他ならない。ロボットの行動値u1をランダム選択により定め、多数の計算機シミュレーションをQ-learningにより行えば、獲得されたQ値に基づく最適制御器が得られる。

以上により、インタラクション対象にとって好ましくふるまうロボット装置４０の制御器４３を実現することができる。

本発明は添付図面に関連した上記の実施態様に画定されるわけではない。さらに、添付請求項の精神又は範囲から逸脱することなく、様々な変更や置換を行ったり、その均等物を作ったりすることもできることは当業者に理解されている。

１１付録Ｉ：モデルの要約
パラメータ：

静的ランダム変数：

確率過程：
ｔ＝１,２,．．．の場合について、以下の過程が定義される

確率的制約：
図４は、モデルに含まれる異なる変数の結合分布におけるマルコフ制約を示したものである。

１２付録ＩＩ：ベルマンの最適性式の解
この付録は、３．４節に提示した表記法と構成要素を前提としたものである。あらゆるｔ′∈［ｔ＋１，Ｔ］ついて、Ｓ_ｔ′＝^ｄｅｆ（Ｏ_ｔ′，Ｑ_ｔ′，Ｚ_ｔ′）とし、さらに、（ｙ_１：ｔ′，ｕ_１：ｔ，ｏ_ｔ′，ｑ_ｔ′，ｚ_ｔ′）は（Ｙ_１：ｔ′，Ｕ_１：ｔ，Ｏ_ｔ′，Ｑ_ｔ′，Ｚ_ｔ′）からの固定任意標本であるものとする。最初に、ｔ′＞ｔについて、以下の特性が満足されることを示す。

（１）Ｓ_ｔ′＝ｇ_ｔ′（Ｓ_ｔ′−１，Ｙ_ｔ′，Ｕ_ｔ′）となるような関数ｇ_ｔ′が存在する。

（２）ｐ（ｙ_ｔ′＋１，｜ｙ_１：ｔ′，ｕ_{１：ｔ′＋１}）＝ｐ（ｙ_ｔ′＋１，｜ｓ_ｔ′，ｕ_{１：ｔ′＋１}）
（３）Ｗ_ｔ′∈σ｛Ｓ_ｔ′｝
特性（１）はＳ_ｔ′を回帰法によりＳ_{ｔ′−１′}とＹ_ｔ′、Ｕ_ｔ′から計算できることをただ単に述べているだけであり、Ｓ_ｔ′の定義を前提とすれば、これは明らかに真である。特性（２）に関しては、

に注目されたい。ここに、Ｉ_ｔ′は、Ｚ_ｔ′によりその位置が決定される単一の１を有する３次元２進ベクトルである。従って、Ｅ［Ｒ・Ｉ_ｔ′＋１｜ｏ_ｔ′，ｑ_ｔ′，ｚ_ｔ′，ｕ_ｔ′＋１，ｈ］は、ｚ_ｔ′により精選されるポアソン過程の速度の期待値である。（１５）から、ｉ＝１，２，３について、以下の式が得られ、

従って、（８６）を使用して、以下の式が得られる。

従って、時間ｔ′＋１における予想分布はＳ_ｔ′，Ｕ_ｔ′＋１の関数であり、これから（２）が得られる。特性（３）は（２４）から直接得られたものである。

次に、これらの特性を使用し、最適インフォマックス・コントローラを発見するためのアルゴリズムを導出する。最初に、特性（１）と(３)を結合し、以下の式が得られる。

この事実を（１）と組み合わせて使用することにより、以下の式が得られる。

次に、ｔ′＝Ｔであるものとする。Ｔの後にはリターンが存在しないので、以下の式が得られる。

従って、ｔ′＝Ｔである場合について、数列（ｙ_１：ｔ′，ｕ_１：ｔ′）の値をその関連統計値ｓｔ′の関数として計算できるのは明白である。

ｔ′＝Ｔ−１である場合について、数列（ｙ_１：ｔ′，ｕ_１：ｔ′）のＦ，Ｎ，Ｖ，Ｃを計算する関数Ｆ′，Ｎ′，Ｖ′，Ｃ′をその数列の統計値ｓ_ｔ′に基づき定義する。

同じ論理をｔ′＝Ｔ−２である場合についても使用することができる。

ここに、ｓ_ｔ′＋１＝^ｄｅｆｇ_ｔ′（ｓ_ｔ′，ｙ_ｔ′＋１，ｕ_ｔ′＋１）である。ステップ（７８）〜（８３）はｔ′＝Ｔ−２，Ｔ−３，・・・ｔである場合について最適に適用することができ、従って、最適コントローラを回復させる。各時間ｔ′∈［ｔ，Ｔ］ついて、コントローラが統計値ｓ_ｔ′の値を行動Ｕ_ｔ′にマッピングすることに注目されたい。

１３付録ＩＩＩ：定義
ベータ変数：

以下の公式は、所望の平均ｍと分散ｓ２を照合するベータ分布のパラメータを提供する。

ガンマ関数

ガンマ関数は以下の特性を有する。

ロジスティック関数

シグマ集合体を所与とした場合の期待値：Ｙは確率空間（Ω，Ｆ，Ｐ）上の整数ランダム変数、すなわち、Ｅ（｜Ｙ｜）∈Ｒであるものとし、σ∈Ｆはシグマ代数であるものとする。Ｙが所与である場合の条件付き期待値は、以下の特性を有するＰ準確実固有ランダム変数である。

Ｅ（Ｙ｜σ）はσ可測である。

任意のＡ∈σについて、∫_ＡＥ（Ｙ｜σ）ｄＰ＝∫_ＡＹｄＰ。

Ｅ（Ｙ^２）∈Ｒの場合は、Ｅ（Ｙ｜σ）は、最小二乗の意味におけるＹに最も近いＰ準確実固有σ可測ランダム変数である、すなわち、以下のとおりである。

ＸはＹと同じ確率空間のランダム変数、σ（Ｘ）はＸにより誘導されるシグマ代数であるものとする。Ｘを所与とした場合のＹの期待値は、σ（Ｘ）を所与とした場合のＹの期待値である、すなわち、以下のとおりになる。

エントロピ：

条件付きエントロピ：

相互情報：

（Ａ）は、非特許文献１９において使用したロボットの頭部の概略図、（Ｂ）は、乳児−９の写真である。ロボットの画像が乳児の背後に置かれた鏡に映っているのが見える。必要最小限の機能だけを備えた社会的ロボットの構成を示す図である。タイマとインジケータ変数との力学のグラフ表示である。生成モデルをグラフ表示である。（Ａ），（Ｂ）は、モデルにより作られる２つの偶発事象クラスタの図である。（Ａ）は、１５０回の試験のラスタ図、（Ｂ）は、音声センサが動作中である確率は時間の関数を示す図である。（Ａ）は、乳児をシミュレーションするインフォマックス・コントローラの反応を示す図、（Ｂ）は、時間の関数としての反応するエージェントが存在する場合の事後確率を示す図、（Ｃ）は、４３秒後のエージェント速度と背景速度の事後分布を示す図、（Ｄ）は、エージェントの反応速度に関する不確実性と背景の反応速度に関する不確実性の比率を示す図である。本実施態様によるロボット装置の外部形状を示した透視図である。ロボット装置についての自由度構成の概略図である。ロボット装置のシステム構成を示した図である。本発明に係るロボット装置の他のシステム構成を示した図である。図１１に示したロボット装置野動作説明に供する図である。

符号の説明

３０，４０ロボット装置、４１音声入力器、４２音声出力器、４３制御器、２５１画像入力装置、２５２音声入力装置、２５３音声出力装置、２５４通信インタフェース、２１１ＣＰＵ、２１２ＲＡＭ、２１３ＲＯＭ、２１４外部記憶装置、２０１バス・インタフェース、３１１ＣＰＵ、３１２ＲＡＭ、３１３ＲＯＭ、３１４外部記憶装置、３０１バス・インタフェース

Claims

相互作用対象に関する仮説と自己入力／出力との間で定義される情報の期待を最大化するために自己コントローラを設定する相互作用装置。
相互作用目標が存在するかどうかということが前記仮説であることを特徴とする請求項１に記載の相互作用装置。
前記相互作用目標がユーザーであることを特徴とする請求項１に記載の相互作用装置。
前記入力／出力が音声マイクロホン入力／ラウドスピーカ出力であることを特徴とする請求項１に記載の相互作用装置。
表現メカニズムを含むことと、相互作用目標が存在するかどうかの事後確率とともに表現を出力することを特徴とする請求項１に記載の相互作用装置。
表現メカニズムが模倣運動出力メカニズムであることを特徴とする請求項１に記載の相互作用装置。
入出力情報を元に相互作用対象にとってこちらの存在に対する期待獲得情報量が最大となるタイミングで行動出力を行う制御手段を備えることを特徴とする相互作用装置。
音声マイクロホンとラウドスピーカを備え、上記入出力情報は音声情報であることを特徴とする請求項７記載の相互作用装置。