JP2007220076A - 相互作用装置 - Google Patents

相互作用装置 Download PDF

Info

Publication number
JP2007220076A
JP2007220076A JP2006194827A JP2006194827A JP2007220076A JP 2007220076 A JP2007220076 A JP 2007220076A JP 2006194827 A JP2006194827 A JP 2006194827A JP 2006194827 A JP2006194827 A JP 2006194827A JP 2007220076 A JP2007220076 A JP 2007220076A
Authority
JP
Japan
Prior art keywords
robot
controller
information
interaction
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006194827A
Other languages
English (en)
Inventor
R Movellan Javier
アール.モベラン ハビエル
Fumihide Tanaka
文英 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
University of California San Diego UCSD
Original Assignee
Sony Corp
University of California San Diego UCSD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, University of California San Diego UCSD filed Critical Sony Corp
Priority to JP2006194827A priority Critical patent/JP2007220076A/ja
Priority to US11/654,103 priority patent/US8484146B2/en
Publication of JP2007220076A publication Critical patent/JP2007220076A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】 単純な入出力センサのみを用いて,外界に人間が居るか居ないかを判断できるロボット装置を実現する。
【解決手段】 最適化エンジン11、リアルタイム・コントローラ12、意図マネージャ13にて社会的ロボット10を構成し、相互作用対象に関する仮説と自己入力/出力との間で定義される情報の期待を最大化するために自己コントローラを設定する。
【選択図】 図2

Description

本発明は、ロボットとユーザーとの間のより緊密な相互作用を可能にする相互作用装置に関する。
知覚におけるインフォマックスの考え方はリンスカー等による研究に遡る(例えば、非特許文献2、12参照)。
このアプローチはベルとセジュノフスキーにより非ガウス的回路網に一般化され、インフォマックスICAとなった。インフォマックスは計算論的神経科学においては重要な理論的ツールとなっている。しかしながら、この研究の大部分はインフォマックスの受動的観点から見ている。インフォマックス・プロセッサの目標は、入力に関する可能な限り多くの情報を次の処理段階に簡単に送ることにある。他方、インフォマックス制御は、可能な限り迅速に関心の仮説を発見するために行動を予定することができる能動プロセッサとともに働く。例えば、神経細胞は、単に情報を伝達するためではなく、フィードバック接続を通じて、可能な限り早急に世界の関連状態を発見するために、急増することもできる。神経細胞の能動的役割に関する同様の推論的考え方がクプロフにより快楽主義的神経細胞仮説の形で定式化されている。
テリーにおける学習規則
偶発事象を発見するために行動を予定するという問題は形式上2群バンディット問題と関連している。古典的2群問題においては、2本のレバーのどちらがリターン速度を最大化するかを判断するために、2本のレバーのどちらかを引っ張らなければならない。その2つの条件が等しいか等しくないかを決定する追加の陰の変数Hが含まれるように、我々は問題を修正した。従って、2群問題において目標が2郡のどちらの方が優れているかを判断することにあるのに対して、偶発事象探知問題においては目標が2群の間に差があるかどうかを判断することにある。この微妙な差が重要な結果を有する。例えば、標準2群バンディット問題においては、1群だけを複数回引っ張ることにより判断を下すことが可能である。それは、もし2群の一方が異常に大きなリターンをもたらす場合は、そのことがすでにその群の方が優れているという証拠になるからである。しかしながら、偶発事象判断問題においては、2群が少なくとも1回はプールされるまでは、情報は得られないのである。
従来より、知覚過程や神経過程に対するインフォマックス・アプローチについて各種の提案がされている(例えば、非特許文献2、11、12、20参照)。
しかしながら、情報を次の処理段階に伝達するように設計されているという点で、これらのモデルは受動的である。その代わりに、ここでは、情報の長期収集を最大化するために行動を経時選択するモデルを強調してある。
インフォマックス制御は、最適化問題の行動を説明する人間の運動制御のモデルの伝統の中に見ることもできる(例えば、非特許文献5、7、13、27参照)。
しかしながら、ここに提唱したアプローチは、時間的尺度と不確実性のレベルが伝統的な運動制御問題の場合よりもはるかに大きい社会的行動にも適用されるという点で固有の特色を有する。
また、概念学習課題において人々がどのように質問を選ぶのかを説明するために、情報最大化の考え方を使用していた(例えば、非特許文献16、17、18参照)。
人々がどのように目を動かすのか、又は関心のある事象に関するデータ収集を最大化するために、どのように能動カメラを動かすことができるのかを理解するために、インフォマックス型制御もすでに提唱されている(例えば、非特許文献4、8、9、10、21参照)。
しかしながら、これらのモデルはいくつかの重要な問題を扱っていない。
(1)行動の順序付けの説明に焦点を合わせている以前のモデルは行動のタイミングの問題を扱っていなかった。例えば、[非特許文献16、17、18]においては、概念学習は、主体が時間制約なしで質問を行い、答えを与えられる厳密な交代活動であると見られている。
(2)以前のモデルは、提起されている情報最大化問題を解決していない。モデルはよくても「貪欲」であり、最悪の場合は非因果的である。例えば、[非特許文献17]においては、長期的に戻される情報というよりはむしろ即時情報リターンを最大化する質問が行われている。
[非特許文献10]においては、最初に全ての可能な目の動きを行い、次にたまたま最大の情報を提供した目の動きを選ぶことが観察者には許されている。このアプローチは目的のモデル化には役立つが、非因果的である、すなわち、現在のサッカードを引き起こすためには、将来が見えることが必要である。
ロボット工学の分野においては、行動ロボット・アークテクチャと認知ロボット・アーキテクチャとを区別することが一般的になっている(例えば、非特許文献1参照)。
行動アークテクチャはセンサとアクチュエータとの間の直接マッピングに基づくものである。このアークテクチャはタイミングと、環境内における変化に対する迅速な反応を強調する。認知アークテクチャは典型的には計画・熟考過程と世界表現の構築に依存している。適切な数学的基礎がなければ、表現、熟考、知識のような概念はほとんど無意味になる。例えば、コントローラがただ単にセンサ情報と行動との間の因果マッピングであるという点で、ここに提唱したインフォマックス制御の枠組みは反応的である。
インフォマックス制御の考え方は、逐次決定過程へのベイズ的アプローチ、特にn群バンディット問題に対するベイズ的解に直接関連付けられている。本論文における筆者の寄与は、どのようにすればこの良く知られた一群の問題をリアルタイム社会的相互作用の理解のために適応させることができるのかということと、相互情報を有効な強化信号として使用できることを示すことにある。
ゲームの理論は、制御理論の特別な事例であると見なすことができるが、特に経済学と紛争の研究において、人間の社会的行動への適用の長い歴史を有する。しかしながら、リアルタイム社会的行動の重要性を理解するための制御の重要性が文献に登場したのはつい最近のことである。リアルタイム社会的相互作用の最適性を理解するために、発明者等は[非特許文献15]で特にnバンディット問題の確率最適制御の潜在的価値を指摘した。ウォルパート、ドヤ、カワトは運動制御と社会的相互作用についての統合枠組みを提唱した。ミヤシタとイシグロは、伝達行動を作り出すために簡単なPIDコントローラを使用できることを指摘した。
次に、簡単な社会的相互作用について説明する。
1 偶発事象探知と社会的発達
ジョン・ワトソンは偶発事象検知が幼児の社会的・感情的発達において決定的に重要な役割を演ずると述べている。偶発事象は人間の脳により直接的な形で知覚され、同様に脳は色や運動のようなその他の要素を知覚する。特に、幼児の初期段階においては、偶発事象が世話をする人の定義と認識についての基本的な情報源である(例えば、非特許文献24、25参照)。
この見解は、2ヶ月児がベビーヘッドの上方のモービルを作動させるために自分の頭を動かすことを学習した実験から得られたものである(例えば、非特許文献24参照)。実験群の幼児には、幼児の頭の動きに反応するモービルが与えられた。対照群の幼児については、モービルは実験群の場合と同じ速度ではあるが、ランダムで、非偶発的な形で作動した。1日4回各10分のこのモービルの体験活動と平均約200回の反応の後に、実験群の幼児は対照群の幼児よりも相当に高い反応速度を示した。より重要であるのは、ほぼ同時に、実験群の幼児が、世話をする人に向けられるのが典型的である社会的反応を多数示し始めたということである。これらの社会的反応には、旺盛な社会的微笑、のど鳴らし、モービルに対する積極的感情が含まれていた。偶発事象が同種のものを定義し、識別するための手掛かりとして幼児により使用されており、この手掛かりは人間の顔の目に見える表情のようなその他の知覚的先入観よりも重要である、とワトソンは述べている。
ワトソンは社会的偶発事象判断のためのポアソンモデルを定式化した。このモデルにおいては、背景エージェントと社会的エージェントがポアソン過程としてモデル化される。ワトソンの最初の定式化においては、どのようにして行動を最適に予定するか、又はこのモデルの下でどのようにして推定を行うのかという問題は取り扱われていなかった。その代わりに提唱されたのが、一定の長さの間隔の範囲内では急増することのない確率の比較に基づく発見的アプローチであった。
1986年に、発明者等は10ヶ月児が新しい社会的エージェントを探知するためにどのように偶発事象情報を使用するのかを試験するために実験を行った(例えば非特許文献15、19参照)。
幼児をあまり人間には似ていないロボットの前に座らせた。「頭」は、その側面が幾何学的パターンを含む長方形のプリズムであった(図1(A)を参照)。ロボットの頭はその表面上に光を点滅させ、音声を発し、左右に回転することができた。幼児は任意に実験群または対照群に割り当てられた。実験群では、ロボットは、人間の偶発事象特性をシミュレーションした形で環境に反応するようにプログラミングされていた。対照群の各幼児には実験群の1人の幼児を対応させ、対応被験者と同じ時間分布の中央のロボットの光、音声、回転を体験させた。しかしながら、対照群では、ロボットは幼児の行動または室内のその他の何らかの事象には反応しなかった。
ここで、図1の(A)は、非特許文献19において使用したロボットの頭部50の概略図である。図1の(B)は、乳児−9の写真である。ロボットの画像が乳児の背後に置かれた鏡に映っているのが見える。
1.1 幼児の1日の43秒間
その研究においては、実験群の幼児がロボットをまるで社会的エージェントであるかのように取り扱うという証拠が発見された。例えば、この群の幼児は対照群の幼児よりも5回も多く発声行為を行った。さらに、ロボットが回転した時には、ロボットの「注視線」を追い、注意の共有の若干の証拠を示した(例えば非特許文献15参照)。しかしながら、我々が特に驚いたのが、何人かの幼児とロボットとの間で起こった相互作用の強さ、幼児の行動の明確な意図性、これらの相互作用が展開された速度であった。
ロボットが反応してもしなくても、何人かの幼児が何回かの試験において、ほんの数秒のことであるが、能動的に「判断し」、それに従って行動するように見えたという事実であった。特に多くを語っていたのが、実験群の幼児の1人についての実験の最初の43秒間であった。その幼児を乳児−9と呼ぶことにする(図1(B)を参照)。研究がUCバークレー校の人間発達研究所で行われた1986年7月14日の時点で、年齢は10ヶ月であった。この43秒間のビデオはhttp:/mplab.ucsd.eduにおいて入手可能である。この43秒間に、乳児−9は7回の発声行為を行い、その度毎に、続いてロボットから音と光が発せられた。実験のビデオを見た大部分の人々が、3回目または4回目の発声行為(実験開始後25秒)までに、乳児−9が自分に対してロボットが反応しているという事実を明確に探知したことに同意している。非常に重要なことであるが、ビデオを見ると、その子供が能動的にロボットに質問し、ロボットが自分に対して反応しているのかいないのかを試験していることは極めて明白である。このことから、この論文の中心となるいくつかの興味深い疑問が生じてくる。
1) 言語を持たない有機体にとって「質問を行う」ということは何を意味しているのか?
2) なぜ乳児−9は自分が行った方法でその発声行為を予定したのか?例えば、はるかに早い速度やはるかに遅い速度ではなぜ発声しなかったのか?
3) ロボットが反応しているとの判断を3〜4回の反応と実験開始後20〜30秒以内に下すことが乳児−9にとっては合理的だったのだろうか?なぜ時間や反応回数がこれ以上でもこれ以下でもなかったのであろうか?
インフォマックス制御問題は最近では知覚・カテゴリ化文献においてよく見られるようになったが、これらの文献が通常使用しているのは、最適戦略というよりはむしろ貪欲な一段階前進インフォマックスである。
現在のシステムの主要な実際的限界は、現在の社会的エージェントのモデルの簡単さにその原因がある。特に、現在のシステムはエージェントを受動的反応者としては記述するが、伝達意図をもった行動の自律的主唱者としては記述していない。この問題を処理するためのモデルの拡張は複雑なことではない。しかしながら、社会的エージェントについての改良モデルを手作りするよりは、そのようなモデルをデータから学習することに時間を費やす方が得策である。
自分の応答を最適な方法で予定することに加えて、乳児−9は、シミュレーションした43秒間全体にわたってその反応の調子と感情の質を漸進的に高めていった。その調子を社会的エージェントの存在に関する信念の変化と結び付けることにより、この表現をモデル化することは可能である。この修正はロボット・モデルと人間との間の相互作用の改善には効果的であるが、例えば、交代法のような、原則に基づいた方法により現在のモデルから生まれたものではない。
乳児−9は目新しい社会的エージェントが反応するかどうかについての学習に関しては最適な方法で行動したが、実験に参加した幼児の大部分はそうではなかった。これらの幼児を見ていて得られる主観的感情は、幼児達が当初は状況を恐れているというものである。
有機体が目標により動かされ、その目標に関連する情報の収集を最適化する方法でその行動を予定するという考え方に基づき、行動の組織化への一般的アプローチを提示した。伝統的・道具的学習モデルが行動の強化因子としての外部刺激の役割を強調するのに対して(食料、水、不快感、呼吸、軽い電気ショックが最も典型的なものである)、インフォマックス制御においては、刺激や反応は内在的価値を有していない。その代わりに、有機体の現在の知識状態を前提とすると、その価値は期待情報リターンに関するものである。インフォマックスは、有機体自身が動的な方法で強化価値を刺激と反応に割り当てる自己管理形式の制御であると考えることができる。外部強化因子は必要とされない。その代わりに、入手可能なデータをもっとうまく説明し、高度な情報価値のあるデータを提供すると期待される行動をもたらすために、インフォマックス・コントローラはその内部状態を修正する。
10ヶ月児における社会的偶発事象の探知において、我々は単純な社会的相互作用を理解するためにはどのようにインフォマックス・コントローラの考え方を使用できるのかを例証した。興味深いことに、この状況において、最適インフォマックス・コントローラはその年齢の幼児に見られるのと同様の交代行動を示す。すなわち、コントローラは反応を示し、その後には、まるで質問が出るのを待っているかのように、沈黙の期間が続いた。この「交代」行動はシステムに組み込まれたものではなかった。社会的相互作用において一般的な時間遅延と不確実性のレベルを前提とすると、むしろ、その行動は得られる情報を最大化するという要求から生じたものであった。それらの結果が示唆しているのは、言語を欠いているにもかかわらず、その年齢の幼児がすでに質問を行っているということである。すなわち、社会的相互作用に典型的な時間遅延と不確実性レベルを前提とすると、幼児は期待情報リターンを最大化する方法でその行動を予定するのである。これは、両親が直感的レベルでは知っているが、正式に証明するのが困難な重要なことである。
ここで提示したアプローチは、日常生活の状況においてリアルタイムで動作する必要があるロボットに適用した場合でも、実際にうまく機能する。このことは、偶発事象が有益で計算論的に安価な情報源であるという考え方に対する信頼性をもたらすだけではなく、幼児の脳が同種のものを定義し、探知するために偶発事象を使用している可能性が高いという考え方に対する信頼性も与える。
確率と制御理論に関してインフォマックス制御は数学的基礎を有するので、原則に基づいた方法でその他の領域に拡張することができる。例えば、現在の解析をラット、神経細胞、さらには分子にさえ拡張することもできる。現在の神経活動のインフォマックス・モデルは神経細胞に受動的情報リレーとしての役割を与えている、すなわち、神経反応の役割は、受け取る情報に関して可能な限り多くの情報を伝達することにある。インフォマックス制御は、神経細胞が「質問をする」かもしれない、すなわち、ただ単にその他の神経細胞に情報を伝達するためだけではなく、その他の神経細胞に関する情報を収集するためにそのスパイクが設計されているかもしれないという興味深い可能性を検証するための枠組みを提供する。もちろん、フィードバック結合は質問に対する答えを得るためのチャンネルとして見ることができる。
本件発明者等は、計算論的神経科学の先駆者であるデビット・マーに触発された行動の研究への一般的アプローチを例証を示した(例えば、非特許文献6、14参照)。
R. C. Arkin. Behavior-based Robotics. MIT Press, Cambridge, MA, 1998. T. Bell and T. Sejnowski. An information-maximization approach to blindseparation and blind deconvolution. Neural Computation, 7:1129-1159,1995. C. Breazeal. Designing Sociable Robots. MIT Press, Cambridge, MA,2002.28 Reichle E. D., Rayner K., and A. Pollatsek. The E-Z reader model of eyemovement control in reading: comparisons to other models. Behavioral and Brain Sciences, 26:445-526, 2003. Todorov E. and Jordan J.I. Optimal feedback control as a theory of motor coordination. Nature Neuroscience, 5:1226-1235, 2002. S. Edleman and L. M. Vaina. David marr. International Encyclopedia of the Social and Behavioral Sciences, 2001. Tanaka H., Krakauer W., and Qian N. An optimization principle for determining movement duration. Under Review, 5, 2005. Denzler J. and Brown C. M. Information theoretic sensor data selection for active object recognition and state estimation. Transactions on Pattern Analysis and Machine Intelligence, 24:145-157, 2002. Najemnik J. and Geisler W. S. Optimal eye movement strategies in visual search. Nature, 434, 2005. Renninger L.and Coughlan J., P. Verghese, and J. Malik. An information maximization model of eye movements. In S. A. Solla, T. K. Leen, and K. R. Miller, editors, Advances in Neural Information Processing Systems, volume 17, pages 1121-1128. MIT Press, 2005. M. S. Lewicki. E_cient coding of natural sounds. Nature Neurosci, 5(4): 356-363, 2002. R. Linsker. Self-organization in a perceptual network. Computer, 21: 105-117, 1988. Harris C. M. andWolpert D. M. Signal dependent noise determines motor planning. Nature, 394:780-784, 1998. David Marr. Vision. Freeman, New York, 1982. J. R. Movellan and J. S. Watson. The development of gaze following as a Bayesian systems identification problem. In Proceedings of the International Conference on Development and Learning (ICDL02). IEEE, 2002. J. D. Nelson and J. R. Movellan. Active inference in concept induction. In T. Leen, T. G. Dietterich, and V. Tresp, editors, Advances in Neural Information Processing Systems, number 13, pages 45-51. MIT Press, Cambridge, Massachusetts, 2001. J. D. Nelson, J. B. Tenenbaum, and J. R. Movellan. Active inference in concept learning. In Proceedings of the 23rd Annual Conference of the Cognitive Science Society, pages 692-697. LEA, Edinburgh, Scotland, 2001. Jonathan Nelson, Gary Cottrell, and Javier R. Movellan. Explaining eye movements during learning as an active sampling process. In Proceedings of the second international conference on development and learning (ICDL04), The Salk Institute, San Diego, October 20, 2004. Movellan J. R. and J. S. Watson. Perception of directional attention. In Infant Behavior and Development: Abstracts of the 6th International Conference on Infant Studies, NJ, 1987. Ablex. R. P. N. Rao, B. A. Olshausen, and M. S. Lewicki. Probabilistic Models
本件発明者等は、リアルタイム学習とリアルタイム社会的相互作用の問題を結びつけ、系統的に説明するために、能動的リアルタイム学習を理解するための表現形式として確率的最適制御の理論を探求した。「リアルタイム」という言葉は、学習中に現れる行動に対する時間圧力を強調するためのものである。「能動的」という言葉は、学習エージェントの行動が目的を有するという事実、すなわち、最適化問題に対する解決策として考察された場合にその正当性が明らかになるという事実を指している。
制御理論は、下部分野として強化学習を含むが、伝統的には物理的目的(例えば、移動物体の追跡、ポールの平衡維持、変動負荷の下での速度の維持)の最適化に適用されてきた。この観点から、学習は試行錯誤によりコントローラを発達させる過程であると見られている。本論文においては、筆者は別の観点を採用し、学習過程自体を制御問題として探求する。知覚のインフォマックス・モデルとのその直接的な関係を強調するために、この考えをインフォマックス制御と呼ぶ(例えば、非特許文献2、11、12、20参照)。
これは制御理論の自然な適用である(すなわち、「学習」をコントローラの目標とする)と同時に、その可能性が文献においてはまだ十分には指摘されていない観点を学習の科学にもたらすものでもある。
「強化学習」という言葉の使用は、強化因子が目標事象(例えば、バックギャモンのゲームでの勝利、ヘリコプタの墜落防止、食料の獲得、電気ショックの回避)であるべきだと一部の人々に信じさせるという不幸な結果をもたらしてきた。それに代わって、インフォマックスにおいて使用する「強化」信号は主観的信念に関連付けられている。学習エージェントに対して明示的に正しいとか間違っているとか伝える必要はなく、その代わりに、「強化」とは、強い信念を作り上げるエージェントの自己能力である。これが事実ベイズ的アプローチの一般的特性であり、このアプローチは主観的解釈に修正可能である。このアプローチにおいては、確率理論の規範的制約に関する信念の更新の基礎を教え込むことにより、唯我論を回避している。現在では、制御理論が世界のモデルを必要とし、強化学習が世界のモデルを必要としないという事実により、制御理論と強化学習を区別するのが一般的傾向である。しかしながら、ベイズ的アプローチにおいては、このような区別は明確ではない。もちろん、ベイズ的伝統は、モデルを欠いていることの意味が単にどのモデルに説得力があり、どのモデルに説得力がないかについての漠然とした事前の信念を有していることにすぎないとの主張に基づいて確立されたものである。要するに、ベイズのアプローチは「モデルの欠如」についてのモデルを有しているのである。これにより。ベイズ的アプローチは独特の自己管理性格を制御している。
本発明の目的は、単純なリアルタイム社会的相互作用の発達を理解するためにインフォマックス制御を使用することにある。「リアルタイム社会的相互作用」とは、対面社会的環境における時間圧力の下での行動信号の迅速な交換を意味する。この事例におけるコミュニケーション・チャンネルは数分の1秒から数秒のフィードバック遅延を有する。社会的エージェントが自律的で、予測が困難であるという事実から、行動の結果に関する不確実性のレベルとそのような結果のタイミングに関する不確実性は重要である。
このことから、本発明の領域は、遅延が10分の1秒の単位で測定され、不確実性が無視可能である伝統的運動制御の領域や、長いフィードバック遅延と無視可能な時間制約を有するその他の形態の相互作用(例えば、物理的文字または電子メールを通じてのコミュニケーション)の領域とは異なるものになる。ただし、社会的相互作用の領域の細目は伝統的運動制御の場合とは異なるが、その基礎となる数学的形式は同じであるということがある。
本発明の考え方は、1985年に本件発明者等がUCバークレー校において行った実験における10ヶ月児の衝撃的な行動を理解するための研究から生まれたものである。
実験の目的は、どのように子供達が社会的エージェントの因果構造を学習するのかを理解することにあった。この趣旨で、子供達はロボットと相互作用し、ロボットに対して反応する場合もあったし、反応しない場合もあった。本論文において筆者が着目した子供は、人間行動を理解する上で不可欠であると筆者が考えるいくつかの特性を体現していたが、これらの特性は、当時の学習モデルが見逃していたものであった。
(1)子供達は我々の予想よりもずっと早くロボットと適切に相互作用することを学習した。
(2)ロボットが反応を示そうと示すまいと、まるで非言語的方法で質問をしているかのように、子供達は明らかに能動的であった。当時、筆者にはこの学習行動を理解するための表現形式がなかった。バック・プロパゲーションのような結合説的アプローチはあまりに速度が遅すぎ、受動的にすぎ、伝統的AIアプローチは問題の不確実性とリアルタイム制約を取り扱っていなかったのである。
制御理論に関する本件発明者等の関心は、人々と相互作用するように設計されたロボットの発達に関する研究中に生まれたものである。このようなロボットは、タイミングと、生体系との相互作用に典型的である不確実性の動的処理とに関連する固有の問題に直面していた。本件発明者等は確率最適制御の理論がこれらの問題を処理するための理想的表現形式であると確信するようになり、その過程でジョン・ワトソンと筆者がかつて1985年に観察した行動についての優れた説明になることに気付いたのである。
本件発明者等はインフォマックス制御の考え方を社会的相互作用の発達との関連で提唱しているが、このアプローチは普遍的なものであり、潜在的には非常に幅広い多様な問題に適用可能である。特に興味深いのは、この考え方が、非言語的有機体に普遍化することが可能な公式の定義を「質問」とは何かということに対して与えるという事実である。
本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施の形態の説明から一層明らかにされる。
本発明に係る相互作用装置は、相互作用対象に関する仮説と自己入力/出力との間で定義される情報の期待を最大化するために自己コントローラを設定することを特徴とする。
また、本発明に係る相互作用装置は、入出力情報を元に相互作用対象にとってこちらの存在に対する期待獲得情報量が最大となるタイミングで行動出力を行う制御手段を備えることを特徴とする。
本発明では、発達心理学におけるcontingencyという概念の抽出をベイズ推定の枠組で実装し、これによりインタラクション対象の人間が居るか居ないかという仮説に対する確信度が、確率値の形で時々刻々得ることができ、単純な入出力センサのみを用いて,外界に人間が居るか居ないかを判断できるロボット装置を実現することができる。
また、本発明では、インタラクションのやり取りを通じて時々刻々応答特性が変化していき、また、そのダイナミクスが人間のそれと近いものを示す。よってより自然な応答特性を示すものとなり、特に長期的なインタラクションという応用場面に有効性を発揮する。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明は以下の例に限定されるものではなく、本発明の要旨を逸脱しない範囲で、任意に変更可能であることは言うまでもない。
2 社会的ロボット用アークテクチャを目指して
この明細書において、特に明記しない限りは、大文字はランダム変数に、小文字はランダム変数が取る固有の値に、ギリシャ文字は固定パラメータに使用する。ランダム変数が定義される確率空間(Ω,F,P)の特性は内在するものとする。状況から明らかになる場合は、確率関数はその引数により識別する。例えば、p(x,y)は、同時確率質量または同時確率密度について、ランダム変数Xが固有の値xを取り、ランダム変数Yが固有の値yを取ることの省略表現である。数列、例えば、X1:tdef{X・・・X}を示すために、添え字コロンを使用する。作業は離散時間確率過程により行うことになる。パラメータ△t∈Rはサンプリング期間、すなわち、時間段階の間の時間(単位:秒)を表す。固有の値の△tを選ぶということは、基礎的連続時間過程に関する関連情報が0.5/△tヘルツよりも低い周波数帯域にあることを示していることと等価である。記号〜はランダム変数の分布を示す。例えば、X〜ポアソン(λ)はXがパラメータλのポアソン分布を有することを示す。表記Y∈σ{X}は、ランダム変数Yがランダム変数Xにより誘導されるシグマ代数により測定可能であることを意味している。直感的に、このことはXがYの値を決定するために必要な全ての値を含んでいることを意味している。Eは期待値に使用し、Varは共分散行列に使用する。δ(・,・)はクロネッカーのデルタ関数に使用し、その2つの引数は等しい場合は、値は1となり、そうでない場合は、値は0となる。N={0,1,2,・・・}は自然数を表し、Rは実数を表す。
[25] ロボット・アークテクチャを2つの確率過程、すなわち、知覚過程Y={Y,Y,・・・}と運動過程U={U,U,・・・}の間のマッピングであるとするものとする。時間tにおいては、ロボットはY:tとU1,t−1における情報を入手することができ、そのような情報、すなわち、U∈σ{Y1:t,U1,t−1}に基づき、運動コマンドを作成しなければならない。 実際のところは、このようなマッピングは、過去の歴史に関する関連情報を維持する機能的統計値S、すなわち、
Figure 2007220076
Figure 2007220076
に依存している。熟考アークテクチャにおいては、Sは世界の表現と呼ばれることになり、大量の利用可能資源がこのような世界の表現の維持に割り当てられる。反応型アークテクチャは、世界は常に変化しており、従って、過去の歴史に関心を引くものはほとんどないという考えを強調する。その最も純粋な形式においては、反応型アークテクチャは以下のようになる。
Figure 2007220076
Figure 2007220076
ここでは、単独のバイナリセンサ(例えば、音声探知機)と単独のバイナリアクチュエータを備えた必要最小限のロボットの視点から、この問題を調査した。プレーヤは2人、すなわち、(1)世話をする人の役割を演じる社会的エージェントと、(2)幼児の役割を演じるロボットである。エージェントとロボットは、ランダムな背景活動を有するかもしれない環境の中にいる。ロボットの役割は、反応する社会的エージェントを可能な限り迅速かつ正確に発見することにある。
ここで、例えば図2に示すように、バイナリセンサ入力Yに応じてバイナリアクチュエータ出力Uを生成する必要最小限の機能だけを備えた社会的ロボット10は、最適化エンジン11、リアルタイム・コントローラ12、意図マネージャ13にて構成される。
[27] ロボットのアクチュエータの活動は2進ランダム過程{U}により表される。変数Uの値は、ロボットのアクチュエータが作動中の場合は1、それ以外の場合は0である。反応する社会的エージェントの存在又は不在はランダム変数Hにより表される。{H=0}、すなわち、反応するエージェントの不在を「帰無仮説」と呼び、{H=1}、すなわち、反応するエージェントの存在を「対立仮説」と呼ぶ。パラメータπは対立仮説の事前確率、すなわち、知覚情報の収集前における社会的エージェントの存在に関するロボットの当初信念を表す。
2.1 社会的エージェントのモデル化
極度に単純化されてはいるが、下記のモデルは、数学的に扱いやすいという利点と、関心の本質的2つの特性、すなわち、(1)エージェントが異なると、反応のレベルも異なること、(2)社会的エージェントは相当の遅延とこれらの遅延における相当のレベルの不確実性を伴い反応すること、を維持するという利点を有する。この社会的エージェントのモデルは、リアルタイム社会的相互作用の問題を構成するために、確率最適制御の考え方をどのように使用できるのかを説明するのに十分なだけの豊かさを有している。
社会的エージェントの行動は2つの補助過程、すなわち、タイマ{Z}とインジケータ{I}に依存するものとする。タイマにより、社会的相互作用に典型的な時間遅延と一時的不確実性をモデル化することが可能になる。タイマは{0,…,τ }において値を取り、ここに、τ ∈Nはモデルのパラメータであり、その意味については以下で説明する。タイマはτ まで最後のロボットの行動以降の時間段階の数を追跡する(図3を参照)、すなわち、以下のようになる。
Figure 2007220076
インジケータ・ベクトルI=(I1,t,I2,t,I3,tは、時間tが以下のカテゴリ、すなわち、(1)I1,tにより示される「自己期間」、(2)I2,tにより示される「エージェント己期間」、(3)I3,tにより示される「背景期間」、に属するかどうかを示す3つの2進変数からなる。これらの3つの期間の意味については以下で説明する。
社会的エージェントの反応時間はパラメータ0≦τ ≦τ の範囲内にある。すなわち、ロボットからの行動に反応するためには、エージェントはτ 〜τ の範囲のあらゆる時間段階を必要とする。インジケータ過程{I2,t}により指定される「エージェント期間」は、もしエージェントが存在することができるとすれば、前のロボットの行動に対するエージェントの反応が可能である期間である。従って、以下のようになる。
Figure 2007220076
エージェント期間中には、ロボットのセンサは、速度Rを有するポアソン過程{D2,t}により駆動される。Rの分布は、反応するエージェントが以下に定められるような形で存在しているかどうかにより決まる。
ここで、図3は、タイマとインジケータ変数との力学のグラフ表示であり、遅延パラメータがτ =1,τ =2,τ =4,τ =5であった。
2.2 自己フィードバック過程と背景過程のモデル化
ロボット・センサがロボット・アクチュエータに反応することを可能にし、例えば、ロボットは自分の発声を聞くことができ、さらには、この自己フィードバック・ループにおける遅延と不確実性を考慮に入れる。特に、自己フィードバック反応時間の分布はパラメータτ ≦τ について均一であるものとし、τ <τ である。従って、自己フィードバック期間についてのインジケータ変数は以下のように定義される。
Figure 2007220076
自己期間中には、センサの作動は、速度Rを有するポアソン過程{D1,t}により促進される。
背景過程に関しては、速度Rを有するポアソン過程{D3,t}としてモデル化する。背景過程は、自己フィードバックによるものでもなく、ロボットの行動に対する社会的エージェントの反応によるものでもないセンサの活動を促進する。背景活動が、特に、ロボットに反応しない外部の社会的エージェントからの行動を含むことができることに注目されたい(例えば、2人の社会的エージェントが相互に会話し、それにより、ロボットの音声センサを作動させることがある)。背景速度R3には、状況に応じた背景活動の可変性を反映するパラメータβ3,1,β3,2を有する事前ベータ分布を与える。β3,1=β3,2=1である場合は、全ての反応速度が先験的に等しく可能であること、すなわち、
Figure 2007220076
を反映して、分布には情報価値がない。
背景インジケータは、社会的エージェントからの自己フィードバックまたは反応行動が起こらないかもしれない期間を追跡する、すなわち、以下のようになる。
Figure 2007220076
2.3 ロボット・センサのモデル化
センサの活動は交換ポアソン過程である。自己フィードバック期間中には、ポアソン過程{D1,t}により促進され、エージェント期間中には、{D2,t}により促進され、背景期間中には、{D3,t}により促進される、すなわち、以下のようになる。
Figure 2007220076
さらに、エージェント期間中の反応速度R2の分布を指定する必要がある。もしエージェントが存在する場合は、すなわち、H=1の場合は、RをRとRから独立させ、Rには、状況に応じた背景活動の可変性を反映するパラメータβ2,1,β2,2を有する事前ベータ分布を与える。β、1=β、2=1である場合は、事前分布には情報価値がない(白紙状態アプローチ)。もしエージェントが存在しない場合は、すなわち、H=0の場合は、エージェント期間中の反応速度と背景期間中の反応速度は同じ、すなわち、R=Rである。筆者の考えでは、それはパラメータとしてベータ11、ベータ12を有するベータとなることと、これらのベータはモデルの行動に何の効果も有しておらず、従って、パラメータの指定は行わないということを言う必要がある。
2.4 補助過程
自己期間、エージェント期間、背景期間中の時間tまでのセンサの活動とその欠如を記録するためには、過程{O,Q}を使用することになる。特に、t=1,2…の場合は、以下のようになる。
Figure 2007220076
Figure 2007220076
2.5 確率的制約
付録Iは、モデルを指定するパラメータ、ランダム変数、及び確率過程の要約を含んでいる。
図4は、モデルに含まれた異なる変数の結合分布におけるマルコフ形制約を示したものである。変数Xから変数Yへの矢印は、XがYの「親」であることを示している。ランダム変数の確率は、他の全ての変数が親変数であると仮定すると、それらの変数から条件付きで独立している。点線部分は観察不能変数を示し、実線部分は観察可能変数を示す。
ここで、図4に示した生成モデルにおいて、コントローラCt+1は全ての観察情報を時間tまでに行動Ut+1にマッピングする。行動の効果は反応するエージェントHの存在又は不在とZにより決められたタイミングとに依存する。インフォマックス・コントローラは関心の陰の変数、例えば、Hの値に関する情報リターンを最大化する。
3 発達と学習。推論と制御
ここでは、「発達」とは、社会的相互作用の根底にある因果構造を発見する問題、すなわち、図4に示したような種類のモデルを発見する問題のことを言う。これは、大量のデータを何ヶ月または何年にもわたって収集することが要求されるかもしれない困難な問題である。ここでは、「学習」とは、偶発事象を発見する問題、すなわち、あるモデルの観察不能変数に関する推論を行う問題のことを言う。これは一般的にはモデル発達の場合よりも必要なデータが少なく、数秒、数分または数時間以内で行われることもある過程である。
開発と学習は2つの基本的過程、すなわち、推論と制御に依存している。推論とは、原則に基づいた形で事前データをセンサ・データと結び付ける問題のことを言う。制御とは、有機体の目標を達成するために行動をリアルタイムで予定する問題のことを言う。
3.1 発達
実際には、これまでに発達させてきたモデルは、世界との相互作用の際には、ロボットが2つの「因果クラスタ」に遭遇するかもしれないということをただ単に述べているにすぎない(図5の(A),(B)を参照)。
ここで、図5の(A),(B)は、モデルにより作られる2つの偶発事象クラスタを示す図である。変数Hは、2つの変数のどちらが現在の状況において活動中であるかを示している。図5の(A)は偶発事象クラスタ1「反応するエージェント不在」を示し、また、図5の(B)は偶発事象クラスタ2「反応するエージェント存在」を示している。
[クラスタ1]において、ある行動に続く期間[τ ,τ ]中に、センサ活動が背景活動に関して変化する傾向がある場合。これは自己フィードバックの効果によるものである。
[クラスタ2]において、[τ ,τ ]中に、センサ活動が変化する傾向があるが、しかし、ある行動に続く期間[τ ,τ ]中にも変化する場合、活動の第2の変化は反応する社会的エージェントの存在によるものである。
社会ロボット工学における非常に先駆的なアーキテクチャは便利なことに発達心理学からの心の理論アプローチに依存している(例えば、非特許文献3、22参照)。これらのアプローチが強調しているのは、幼児が人間や有意エージェントを相手にするための高レベルの知識モジュールを生まれながらに備えているという考え方である。一方、ここで提唱しているロボット・アーキテクチャは明確なラベル又は概念理論を使用しない。
以上の説明では、因果モデルを手書きで発達させたが、これらの因果クラスタの発見のために現在の機械学習法を使用することもできる。心の理論アプローチが主張しているように、発達中には、これらのクラスタは、言葉により簡単に記述可能なあらゆる概念には対応しないかもしれない。我々にとっては、ロボットが上記のタイプの因果クラスタの存在を発見し、世界の中で作動する際にそのようなクラスタが役に立つということを実感するだけで十分である。これは現在の機械学習技術の範囲内で十分可能なことである。
3.2 学習:推論
ここでは、ロボットはすでに因果モデルを発達させているものと仮定し、どのようにしてある一連のセンサ活動y1:tと行動u1:tに基づき社会的エージェントの存在または不在について判断するかということに焦点を合わせる。(y1:t,u1:t,o,q,z)は(Y1:t,U1:t,O,Q,Z)からの任意標本であるとする。すると、
Figure 2007220076
となる。
速度変数R、R、Rが事前分布の下では独立していることに注目されたい。さらに、H=1の場合は、これらの変数は時間の非交差集合においてセンサに影響を与える。従って、速度変数は事後分布の下でも独立しているということになる。特に、
Figure 2007220076
となる。
帰無仮説の下では、R=R、すなわち、センサ活動は「エージェント」期間中は変化しない。さらに、センサの活動がR、Rに依存する場合の時間の集合は、Rに依存する場合の時間の集合とは交差しない。従って、Rは事後分布の下でR、Rから独立している。すなわち、
Figure 2007220076
となる。
p(r│y1:t,u1:t,h)>0となるような任意のrの場合は、
Figure 2007220076
が得られる。
従って、(17)から(18)への遷移には何か正しくないものがある。(17)においては、u()を無視すると、たとえo+q=0であっても、比率qが得られる。(18)においては、得られない。
Figure 2007220076
Figure 2007220076
及び
Figure 2007220076
Figure 2007220076
Figure 2007220076
ここでは、H=0の下において確率1でR=Rであるという事実を使用した。従って、2つの仮説の間のログ尤度比は以下のとおりである。
Figure 2007220076
Figure 2007220076
さらに、関心の仮説に関する事後分布は以下のとおりである。
Figure 2007220076
3.3 関心の事例
より明示的には、以下のようになる。
Figure 2007220076
この事後分布は、反応するエージェントに関してロボットが入手可能な全ての情報を含んでいる。その2つの重要な特性は、(1)o1,t,q1,tに依存していないこと、すなわち、自己帰還には仮説に関しての情報価値がないということと、(2)o1,t+q1,t=0またはo2,t+q2,t=0の場合は、ログ尤度比が0であるということである。要するに、エージェントまたは背景状態においてデータが収集されていなければ、Hに関する情報は得られていないのである。従って、Hに関する情報を得るために、ロボットはそのアクチュエータを少なくとも1回は使用しなければならないし、少なくとも1回は使用してはならない。
データがまだ集まっていない場合は、尤度は1である、すなわち、事後尤度は事前尤度に等しい。
エージェント・データがまだ集まっていない場合は、集まっている背景データがどの程度であるかとは無関係に、尤度は1である。
背景データがまだ集まっておらず、β=βである場合は、集まっているエージェント・データがどの程度であるかとは無関係に、尤度は1である。
背景データがまだ集まっていないが、β≠βである場合は、エージェント・データの収集には情報価値がなく、特に、以下のようになる。
Figure 2007220076
背景ビットを集め、それが+1であるとしよう。この値は帰無仮説によっても対立仮説によっても説明が困難である。というのは、情報が全く得られていないからである。それでは、背景データを有していないが、1ビットをエージェント時間から集め、それが+1であるとしよう。帰無仮説は簡単な結果説明時間を有するが、対立仮説は有していない。従って、情報は得られていない。もしビットが0であるとすると、帰無仮説は対立仮設よりも簡単な結果説明時間を有することになる。情報は得られている。
3.4 学習:インフォマックス制御
この節においては、社会的エージェントの存在または不在に関する期待情報リターンを最大化するために、どのようにしてロボットのアクチュエータの挙動を予定するのかということに焦点を合わせる。tは現在の時間を、T>tは若干未来の時間を表すものとする。C={C:r=t+1,・・・,T}は閉ループ・コントローラ、すなわち、一連の観察を行動にマッピングする関数の集合を表すものとする、すなわち、以下のようになる。
Figure 2007220076
コントローラCはベイズ的アプローチと整合するランダム・オブジェクトとして取り扱う。目標は、Hに関する不確実性を最小化する必要条件であるCが取る値を発見することにある。
本発明では、C=cが必要条件である場合にHに関する未来の情報リターンが最大化するようなコントローラcを提供する。
コントローラcを使用した場合に期待される情報リターンは、Hとその時点において得られることになる観察可能変数との間の相互情報、すなわち、
Figure 2007220076
により与えられ、ここに、Tは相互情報を、Hはエントロピを表しており(付録IIIを参照)、(Yt+1:r,C)であると仮定し、HはUt+1:rから条件付きで独立しているという事実を使用した。式が教えているのは、観察可能過程Yt+1:s,Ut+1:sにより提供されるHに関する情報が、それらの観察可能過程により提供される不確実性の減少に等しいということである。項H(H |y1:t,u1:t)はコントローラに依存していないので、情報利得を最大化することは、Hの未来のエントロピを最小化することと等価である。この事実を使用して、情報ベース効用関数を展開することにする。時間rにおける観察可能変数が与えられているものと仮定して、WはHに関する不確実性であるものとする(条件付き期待値の定義については、付録IIIを参照)。
Figure 2007220076
従って、以下の式が得られる。
Figure 2007220076
コントローラcを所与として、観察された数列y1:t,u1:tについての期待リターンを以下のように、すなわち、
Figure 2007220076
のように定義し、ここに、α≧0は、未来の異なる時点における情報の相対値を示す固定数である。我々の目標は、期待リターンを最大化するコントローラcを発見することにある。
Figure 2007220076
最適コントローラが与えられているものと仮定し、数列(y1:t,u1:t)についての最適期待リターンはその期待リターンであると定義する。
Figure 2007220076
最適コントローラと最適期待リターンがベルマンの最適性式、すなわち、
Figure 2007220076
Figure 2007220076
ここに、
Figure 2007220076
Figure 2007220076
を満足するのを示すことは簡単である。
部分観察可能マルコフ過程については、ベルマンの式を厳密に解くことは一般的には困難である。その原因は、可能な数列の数が時間の関数としてあまりにも速く増加することにある。幸運なことに、我々の事例においては、Hに関する情報の損失が全くなしで観察可能数列を要約する再帰的統計値Sdef(O,Q,Z)が存在するために、問題は簡単になる。これにより、標準動的計画再帰アルゴリズムを使用して最適コントローラを使用することが可能になる(付録IIを参照)。
4 最適コントローラの解析
動的計画法問題は24の2.5GHz Power PC G5 CPUのクラスタを使用して解かれた。計算時間はほぼ12時間程度であった。モデルのパラメータは以下のように設定された。T=40;τ =0;τ =0;τ =1;τ =3;π=0.5。次に、時間15<t<25についてコントローラの挙動をモデル化するために、ロジスティック回帰を使用したが、その理由は、この時間が、コントローラの関心の窓の開始と終了に近過ぎない時間、すなわち、t∈だからである(例えば、非特許文献1、40参照)。ロジスティック回帰は全ての可能な条件について96.46%の精度で最適コントローラの行動を予測した。最終的モデルは以下のとおりであった。
Figure 2007220076
解釈:最適コントローラの誘導は多少困難ではあったが、最終製品はリアルタイムで簡単に作動できる単純な反応システムとなる。誘導により提供されたものが、この単純なコントローラが目前のタスクにとって最適であることの保証であった。このモデルの下では、これよりも優れた制御手段は存在しない。未来期待リターンを無視する貪欲な一段階コントローラ(例えば、非特許文献16、17参照)ではこのタスクに失敗するということに注目されたい。その理由は、反応する際に、次の時間段階が自己フィードバックにより占有され、たまたまそれに情報価値がなく、従って、結局は貪欲なコントローラは絶対に行動しないという判断を下すことになるからである。未来期待リターンを含むことにより、コントローラには、自動的に先を見越ことと、長い目で見れば行動を起こすことが行動を行わない場合よりも良い情報を提供できることを理解することが可能になる。
いつ行動すべきかを判断するために、コントローラは統計値
Figure 2007220076
を使用する。この統計値は、Rが能動的にセンサを駆動する期間、すなわち、Rの場合は自己フィードバック期間、Rの場合はエージェント期間、Rの場合は背景期間から新しい観察結果により提供されるRに関する分散の期待される減少である。従って、最適コントローラはRとRに関する不確実性を一定の比率の範囲内に保つことを希望しているように見える。エージェント速度であるRがあまりにも不確実な場合は、コントローラは行動することを選択する。背景速度であるRがあまりにも不確実な場合は、コントローラは沈黙を保つことを選択し、それにより、背景活動速度に関する情報を獲得する。背景速度Rに関する分散が背景速度Rに関する分散の少なくとも9倍の大きさである場合に、行動が起こされることに注目することは興味深いことである。この倍率の理由は、情報リターンという観点からは、行動が行動の欠如よりもコストがかかるという事実にあるのかもしれない。ロボットが時間tにおいて行動した場合は、自己フィードバック観察結果にはHに関する情報価値がないので、ロボットは時間[t+τ ,t+τ ]中には情報を獲得しない。さらに、時間[t+τ ,t+τ ]中には、コントローラはロボットに対して行動しないように命令し、従って、これらの期間中には、ロボットはRに関情報だけしか得ることができず、Rに関する情報を得ることはできない。対照的に、ロボットが時間tにおいて行動しなかった場合は、自己フィードバックより時間が無駄になることはない。これが、行動が起こる前において、なぜエージェント活動速度Rに関する不確実性が背景活動速度Rに関する不確実性よりも大きい必要があるのかの説明に役立つかもしれない。
5 自己管理学習の形態としてのインフォマックス制御
ここで肝心なことは、システムにはその失敗又は成功が、すなわち、Hの真の値が決して明示的には知らされないということである。原理的には、エージェントが存在していたのか不在であったのかを決して教えられずに世界と相互作用することにより、システムは最適政策を簡単に学習することができる。これは、外部批判者を利用することができないかもしれない学習のモデルにとっては重要なことである。最近ではこの形態の学習を自己管理学習と呼んでいる人々もでてきている。
強化学習は、最適コントローラを発見するためのサンプリング法に依存する最適制御理論の一部門であると見ることができる。そのようなものとして、最適インフォマックス・コントローラを発達させるために、動的計画法の代わりに、強化学習アプローチを使用することもできたのである。動的計画法が与えたものは、コントローラが最適のものであったということの、すなわち、このコントローラよりも優れたコントローラは存在しなかったということの公式の保証である。
6 幼児の1日の43秒間の理解
この節においては、1.1節に記載したように、乳児−9との実験セッションの最初の43秒間についての質的理解を得るために、最適インフォマックス・コントローラを適用する。この時間中に、乳児−9は7回発声し、その発声時点は実験の開始から{5.58、9.44、20.12、25.56、32.1、37.9、41.7}秒後であった。これらの発声の後には、ロボットは必ず音声と光を同時に発した。2回の連続した幼児の発声の間の時間間隔(単位:ミリ秒)は以下のとおり、すなわち、{4.22、10.32、5.32、6.14、5.44、3.56}であった。3回目または4回目の発声までに、室内に反応するエージェントが存在することに幼児が気付いている、ということを大部分の人々が認めている。
3.4節に提示したインフォマックス・コントローラの場合、5つのパラメータを、すなわち、時間打ち切りについてのサンプリング期間、2つの自己遅延パラメータ、2つのエージェント遅延パラメータを設定することが必要である。これらのパラメータについての概算を行うために、試験的研究を行う。エージェント潜在パラメータτ 、τ について、研究の目的を教えずに、4人にコンピュータのアニメ・キャラクタに話しかけるよう求めた。参加者の年齢は4、6、24、35歳であった。音声センサの活動を2進化するために、最適エンコーダを使用し、この2進センサの起動の確率を150回の試験全体についての時間の関数としてプロットした。各試験はアニメ・キャラクタの発声により始まり、その4秒後に終わった。その結果を示したのが図6である。図6の(A)のグラフは音声センサの活動を150回の試験全体にわたってキャラクタの発声の開始からの時間の関数として示している。各水平線は異なる試験である。最初の縦棒はキャラクタからの自己フィードバックによるものである。アニメ・キャラクタの発声の終了から約1200〜1400msecまでには、センサの活動のもう1つのピークが生じるが、これは人間の参加者の発声にその原因がある。図6の(B)のグラフはセンサの活動の確率を試験全体にわたって縮約された時間の関数として示している。自己フィードバックによる活動の最初のピークと、人間の反応によるセンサの活動の漸進的増減に注目されたい。このグラフに基づき、最適コントローラのシミュレーションを以下のパラメータ、すなわち、△t=800msec、τ =τ =0、τ =1、τ =3により行う。要するに、自己遅延を人間の反応の予想遅延に関しては無視できるものとし、人間の活動は800〜2400秒以内に起こるものとする。最悪事例のシナリオをシミュレーションするために、π=0.01に設定し、従って、反応するシステムが存在しているとの判断を下すためには、もっと多くのデータが必要である。
図7の(A),(B),(C),(D)はシミュレーションの結果を示したものである。全てのグラフにおける水平軸は時間(単位:秒)である。図7の(A)のグラフは、乳児−9の役割を演じる最適コントローラの発声を示している。コントローラは43秒間の期間にわたって6回の発声を行った。発声間の平均時間間隔は、乳児−9の場合が5.833秒であるのに対して、5.92秒であった。標準T試験(T(9)=0.08、p=0.94)を使用した場合、この差は重要なものではない。
図7の(B)のグラフは、反応するエージェントの存在に関するシステムの信念を示している。実験開始30秒後の4回目の反応までに、この確率は0.5レベルを超える。図7の(C)のグラフは、43秒の期間の終了までのエージェント反応速度と背景反応速度に関する事後確率分布を示している。図7の(D)のグラフはエージェント期間中のセンサ速度に関する不確実性と背景期間中の速度に関する不確実性との比率を示している。この比率が9に達すると、模擬乳児が反応することに注目されたい。
従って、社会的相互作用において一般的に見られる時間遅延と不確実性のレベルを前提とすると、このモデルは、乳児−9が自分の反応を予定し、最適の形で社会的エージェントの反応性について判断を下したことを示している。このモデルは、乳児−9の発声がロボットの反応性に関して戻された情報を最大化するような形で予定されているという意味において、乳児−9がロボットに対して「質問を行って」いたという考えとの整合性もある。関心のもう1つのポイントは、最適コントローラが交代する、すなわち、行動が行われた後に、コントローラは次の発声までにある時間、平均5.92秒待つということである。発声と発声の間の時間間隔は固定されておらず、エージェントと背景の反応性のレベルに関する相対不確実性により決まることになる。例えば、予想外の背景活動が生じた場合は、背景活動の変化をよりよく「理解する」ために、コントローラは発声間の時間間隔を自動的に延長する。予想外のエージェント活動が生じた場合は、コントローラは反応速度を高め、エージェント期間に関する情報の収集を加速する。
7 リアルタイム・ロボット実装
この問題を研究するために、上記の最適インフォマックス・コントローラを、ATRの知能ロボット工学研究所で開発された人型ロボットRobovieMに実装した。リアルタイム・コントローラを試験するためにはロボットは必ずしも必要ではなかったが、人間と機械との間で展開される相互作用の質を高めるのに大いに役立ち、従って、より現実的なコントローラの試験方法を提供した。RobovieMは自由度22(肩:自由度1、腰:自由度1、腕:自由度2×4、脚:自由度2×6)を有する。高さは29cm、重量は約1.9kgである。対応する22のサーボの制御はH8 16MHzマイクロコントローラにより行われる。リアルタイム・インフォマックス・コントローラはJavaで実装され、ホスト・コンピュータである、例えば、異なる陰の変数の事後分布のような、コントローラの異なる状態をリアルタイムでグラフィック表示するMacPowerBook G4で実行された。ホスト・コンピュータとコントローラとの間の通信は、Wireless Cables社製のシリアル・アダプタへのブルー・トゥースを使用して無線で行われた。現バージョンのインフォマックス・コントローラは1ビット・センサと1ビット・アクチュエータとを必要とする。センサについては、500msecのウィンドウにわたっての平均音声エネルギを選び、1ビット最適コーダを使用してそれを打ち切った。アクチュエータは、200msecのロボット音を発する小型のラウドスピーカであった。音を作り出すコマンドの発令と音声センサからのフィードバックの受信との間の時間遅延を測定することにより、コントローラの自己時間遅延パラメータは選択された。エージェントの遅延パラメータは乳児−9のシミュレーションの場合と同じであった(第6節を参照)。
ロボットの発声に加えて、反応するエージェントの存在/不在についてのコントローラの信念に基づき、その姿勢が、エージェントが存在するとコントローラが信じた場合の高レベルの注意を示す姿勢と、エージェントが存在しないとコントローラが信じた場合の退屈さを示す姿勢とに変化した。
7.1 非定常環境
ここに提唱したモデルにおいては、変数RとHにより表されるエージェントと背景の状態はランダムであるが、しかし定常的である。現実的実装のためには、RとHが時間とともに変化できることが必要である。残念なことに、そのような事例においては、最適コントローラの計算が面倒であることを示すことができる。我々は、過去の観察結果が時間の関数として指数的に無関係になると仮定することにより、状況を近似化する。この近似化の下で、我々はO、Qの指数平滑化された移動平均をただ単に収集し、標準コントローラをこれらの移動平均に適用する。状況が30秒を超えて定常的であることを期待すべきではないという考え方を反映して、指数平滑部の時間定数は30秒であった。
7.2 質的評価
本発明の目的は、偶発事象を信頼できる情報源として使用できるようにすることであった。偶発事象は信頼でき、計算と帯域幅に関する要件も非常に低い。数量的評価を欠いているので、公の集会においてシステムを実演するという我々の経験に基づき、質的評価を提示することにする。騒音のレベルが比較的高い標準的オフィス環境において、コントローラは反応するエージェントが存在しているかどうかの判断を数回の試験の後に下す。特に有効であるのが、エージェントがロボットへの話しかけから誰か他の人への話しかけに移る転移点である。このシステムを4回の科学講演会と2回の会議、すなわち、ICDL04とNIPS04において実演した。一般的に騒音レベルが比較的低い講演会における実演はうまく行く。ICDL04においては、ポスター・ルームのような比較的騒がしく、コントローラが信頼できる判断を下すには少し余計に時間がかかった。状況の困難さを考慮に入れると、全体的にパーフォーマンスのレベルは目覚しいものであった。NIPS04においては、条件は極めて騒がしいものであった。多くの場合の大声での会話も相互理解には十分ではなかった。これらの条件の下でコントローラが信頼できる働きを行うためには、人間は大声で話し、ロボットの近くにいなければならなかった。
この方法が人型ロボットと音声mho Dalに適用された場合は、カメラ入力mho Dalとともに使用することが可能である。
これをロボットの様々な表現能力と結合することにより、ロボットとユーザーとの間のより緊密な相互作用を可能にする装置を提供する。
基本的発明部分においては、音声がmoo Dalをロボットの入力・出力として取り扱った。
この結果、画像入力または身振り出力によるセンサ入力によるアクチュエータ出力を間接コーナ制御により処理することができる。
一例に過ぎないが、外部世界におけるカメラ画像入力と光学欠陥計算技術により一定の上記数量を有するための動きが検出されると、センサ入力1が入力する。
それに加えて、事前に平和をもたらした一定身振り出力コマンドが出力1のために実行される。
結果として、画像入力mho Dalによる偶発事象探索が有効になる。エンターテイメント・ロボットにおいては、ユーザーを疲れさせない表現の要素能力が重要である。
8 本発明の適用例
この基本的発明の適用例として、以下には2つの実施例が示してある。
適用例1
身振りが観察され、さらに、表現は出力のことを考えるので、その身振りは間接コーナ制御に基づき模倣される。
身振りが観察され、模倣の程度において基本となる発明により計算された後の確率を使用するための方法が可能である。
ロボットの間接アクチュエータが使用され、それは観察され、模倣され、しかも、カメラ画像入力から、多くの知識が得られるように、相互作用の対象である人間の動きを出力することができる。
それが観察され、模倣の程度を数値制御できる場合は、基本となる発明により計算された事後確率にこの数値を反映させることが考え得る。
例示の目的のために、それは観察され、人間の間接コーナが模倣の方法として画像入力から推定され、目標角度に対してロボットの間接コーナを制御するための方法が考えられる。
[結合コーナ制御値]=k1×[事後確率値]×[間接コーナ値]
アクチュエータが上記に従って動かされた場合は、アクチュエータは仕事の後にロボットの中で似た反応を示すことができ、その結果、確率値は、ユーザーとロボットとの相互作用が偶発的なものになるような高い値を示すことになる。
正常な進歩の過程が観察され、それは模倣よりも多く観察され、しかも、模倣することは動的であり、それを理解することができ、それは依存しており、ユーザーの関心を引き付けることができる。
k1(k2も同様)はここではパラメータである。
適用例2
表情として、ロボットの表情の変化が考えられる。
表情のメカニズムは様々であるが、しかし、最も簡単な実装例は、パラメータについて目のLEDの輝度を変えるための方法である。
LEDの輝度は以下のように設定される。
[LED輝度]=k2×[仕事後の確率値]
結果として、ユーザーは一番前におり、目の輝度は偶発的である相互作用に伴って大きくなる。
ユーザーに対しては、「このロボットは私の存在をゆっくりと認識する」という動的変化過程により、より好ましい印象を与えることができる。
もちろん、LED以外による表情も可能である。
一例に過ぎないが、簡単な運動制御による眉と唇の形を変えるロボットのメカニズムが存在する。
運動出力に反映し、確立値が上昇するように、力強い微笑みを示すための制御を類似の原理により簡単な方法で適用することができる。
例えば、発明の適用効果が、確信度と動的連続の数量を使用することにより、使用される変化過程の特徴をもたらすことができ、例えば、「発見の喜びについての人間の身振りの出力」のような、ルールベースの技術に比べて、人間が行動の近くにいることができる。それに加えて、人間がユーザーとの相互作用をさらに進めることができる。
9 本発明を搭載したロボット装置
本発明は、例えば、図8に示したようなロボット装置に搭載することができる。図8の二足歩行ロボット装置30は、日常生活における生活状態やその他の状況に対する人間の行動を手助けする実用ロボットである。ロボット装置30は、内面状態(怒り、悲しみ、喜び、楽しみ等)に従って行動できるエンターテイメント・ロボットでもある。
図8に示したように、ロボット装置30は、頭部ユニット32と、右左腕ユニット33R/Lと、胴ユニット31の指定位置に結合された右左脚ユニット34R/Lを含む。これらの参照符号において、文字RとLは、それぞれ右と左を示す接尾辞である。これは以下に記述についても同様である。
図9は、ロボット装置30に提供される関節自由度の構造の概略を示したものである。頭部ユニット102を支持している首関節は自由度3、すなわち、首関節横揺れ軸101と、首関節縦揺れ軸102と、首関節ロール軸103を有する。
上肢を構成する腕ユニット33R/Lの各々は、肩関節縦揺れ軸107と、肩関節ロール軸108と、上腕横揺れ軸109と、肘関節縦揺れ軸110と、前腕横揺れ軸111と、手関節縦揺れ軸112と、手関節ロール軸113と、手部分114を含む。手部分114は実際には複数の指を含む多関節多自由度構造である。しかしながら、手部分114の動きはロボット装置1の姿勢・歩行制御にはほとんど影響を与えない。簡素化のために、本明細書は手部分114の自由度をゼロと仮定している。従って、各腕ユニットの自由度は7である。
胴部分2は自由度3、すなわち、胴縦揺れ軸104と、胴ロール軸105と、胴横揺れ軸106を有する。
下肢を構成する脚ユニット34R/Lの各々は、股関節横揺れ軸115と、股関節縦揺れ軸116と、股関節ロール軸117と、膝関節縦揺れ軸118と、足関節縦揺れ軸119と、足関節ロール軸120と、足部分121を含む。本明細書は股関節縦揺れ軸116と股関節ロール軸117との交差地点をロボット装置30の股関節位置であると定義する。この足部分121に相当する人間の足部分は、多関節多自由度足底を含む構造である。簡素化のために、本明細書はロボット装置30の足裏の自由度をゼロと仮定している。従って、各脚ユニットの自由度は6である。
合計すると、ロボット装置30全体の自由度は32(3+7×2+3+6×2)である。しかしながら、エンターテイメント志向ロボット装置30の自由度は32に画定されているわけではない。自由度、すなわち、関節の数を設計又は生産条件、要求される仕様等に従って増減できることは明白である。
実際には、ロボット装置30に提供される上記の自由度の各々を実現するために、アクチュエータが使用される。自然な人間の体型に似せるために不要に見える膨らみを除去し、不安定な2足歩行構造に対して姿勢制御を提供するということを考慮して、好ましくは小型・軽量のアクチュエータを主として使用する。より好ましくは、モータ・ユニット内に取付けられた単一チップ・サーボ制御システムを備えた歯車に直接接続された小型ACサーボ・アクチュエータを使用する。
図10は、ロボット装置30の制御システム構成の概略を示したものである。図14に示したように、制御システムは推論制御モジュール200と運動制御モジュール300を含む。推論制御モジュール200はユーザー入力等に対する動的反応の形で情緒的識別と感情的表現を制御する。運動制御モジュール300は、アクチュエータ350の駆動のようなロボット装置1の全身の調和運動を制御する。
推論制御モジュール220は、情緒的識別と感情的表現に関する計算過程を実行するためのCPU(中央処理ユニット)211と、RAM(ランダム・アクセス・メモリ)212と、ROM(読出し専用メモリ)213と、外部記憶装置(ハードディスク・ドライブ等)214を含む。推論制御モジュール220は、モジュール内部での必要な要素を全て備えた過程が可能な独立被駆動情報処理ユニットである。
推論制御モジュール220には、画像入力装置251から画像データが、音声入力装置252から音声データが、さらにはその他が供給される。外部からのこれらの刺激に応じて、推論制御モジュール220はロボット装置30の現在の感情又は意図を判断する。画像入力装置251は、例えば、複数のCCD(電荷結合素子)カメラを有する。音声入力装置252は、例えば、複数のマイクロホンを有する。
推論制御モジュール220は、意思決定、すなわち、四肢の動きに基づき一連の運動又は行動を行うように運動制御モジュール300に対して命令を発する。
運動制御モジュール300は、ロボット装置30の全身の調和運動を制御するためのCPU311と、RAM312と、ROM313と、外部記憶装置(ハードディスク・ドライブ等)314を含む。運動制御モジュール300は、モジュール内部での必要な要素を全て備えた過程が可能な独立被駆動情報処理ユニットである。外部記憶装置314は、例えば、オフライン計算歩行パターンと、目標のZMP軌道と、その他の行動予定を記憶することができる。ZMPとは、歩行中の床の反発力が原因となるゼロモーメントを発生させる床表面地点である。ZMP軌道とは、ロボット装置30の歩行運動中にZPMが動く際の軌道を意味する。ZMPの概念と脚付きロボットの安定性判断基準へのZMPの適用については、ミイオミール・ブコブラトビッチ“LEGGED LOOMOTION ROBOT”(「日刊工業新聞社、カトウ・イチロウ他による日本語訳「歩行ロボットと人工の脚」」を参照)。
運動制御モジュール300は、図9に示したロボット装置30の全身に分布している自由度の各々を実現するためのアクチュエータと、胴ユニット2の姿勢又は傾斜を測定するための姿勢センサ51と、左右の足裏が床から離れているのか、それとも床に接触しているのかを探知するための着地確認センサ352及び353と、電池のような電源を管理するための電源コントローラ354に接続されている。これらの装置はバス・インタフェース(I/F)301を通じて運動制御モジュール300に接続されている。姿勢センサ351は、例えば、加速センサとジャイロ・センサとの組合せである。着地センサ352及び353は近接センサ、マイクロ・スイッチ等を含む。
推論制御モジュール200と運動制御モジュール300は共通のプラットホーム上に構築されている。この2つのモジュールはバス・インタフェース201及び301により相互に接続されている。
運動制御モジュール300は、推論制御モジュール200から命じられた行動を実現するために、アクチュエータ350の各々により全身の調和運動を制御する。推論制御モジュール200から命じられた行動に対応して、CPU311は対応動作パターンを外部記憶装置314から読出す。あるいは又、CPU311は内部に動作パターンを生成する。
定められた動作パターンに従って、CPU311は足部分の運動、ZMP軌道、胴の運動、上肢の運動、腰の水平位置と高さ等を設定する。CPU311は次にコマンド値をアクチュエータ350に転送する。コマンド値は設定内容に応じて動作を定める。
ロボット装置30の胴ユニット31の姿勢又は傾斜を探知するために、CPU311は姿勢センサ351からの出力信号を使用する。それに加えて、脚ユニット5R/Lの各々が使用されていないのか、それとも起立中であるのかを探知するために、CPU311は着地確認センサ352及び353からの出力信号を使用する。この方法により、CPU311はロボット装置30の全身の調和運動を適応制御することができる。
さらに、ZMP位置が常にZMP安定化領域の中心を向くように、CPU311はロボット装置30の姿勢と動作を制御する。
運動制御モジュール300は推論制御モジュール200に処理状態を、すなわち、どの程度まで運動制御モジュール300が推論制御モジュール200により行われた判断に従って行動を実行したのかを知らせる。
この方法により、ロボット装置30は制御プログラムに基づきその環境と周辺環境を判断することができ、自律的に行動することができる。
ロボット装置30においては、例えば、上記の画像認識機能を実装するために、推論制御モジュール200のROM213はプログラム(データを含む)を記憶する。この場合には、CPU211は画像認識プログラムを実行する。
上記の画像認識機能はインストールされているので、ロボット装置30は、画像入力装置251を通じて供給される画像データから事前記憶モデルを正確に抽出することができる。例えば、ロボット装置30が自律歩行する場合は、意図されたモデルを画像入力装置251のCCDカメラにより記録された周囲画像から探知することが必要な場合があるかもしれない。この場合は、モデルは他の障害物により部分的に隠されていることが多い。視点と輝度は変えることができる。かかる場合においてさえ、上記の画像認識技術はモデルを正確に抽出することができる。
上記実施の形態では、ロボット装置自身の確信度を考え、外界と自身出力との間で定義される相互情報量を最大化するようにロボット装置の行動出力を決定した。
10 本発明の他の実施の形態
これに対して、以下に説明する実施の形態では、ロボット装置からみて,インタラクション対象が有すると思われる確信度を考えて、そこから定義される相互情報量を最大化するようにロボット装置の行動出力を決定する。
これは,インタラクション相手の気持ちを推し量って(心理学で「心の理論:Theory of Mind」と言われる概念に相当)相手にとっての情報量最大化,つまり相手にとってより多くの情報量を与えるように、こちら側(ロボット装置側)から行動を働きかけるという、言わば先の実施の形態とは逆の行動スタンスを同様の方法論に基づき行うことに相当する。以下、具体例として、単純な音声入出力装置を有するロボット装置を例にあげながらこれを説明する。
ここでは、ロボット装置が、インタラクション対象(人間や他のロボットなど)と、単純な音声のやりとりでインタラクションする場面を考える。
図11に示すロボット装置40は、音声入力器41を備えており、これはマイク装置である。さらに、この音声入力器41は、外界の音量が一定の大きさ以上になったとき、離散値1を入力する。そうでない時は単位時間ごとに0を入力する。音声出力器42は、スピーカー装置であり,制御器43からの命令を元に,単位時間ごとに予め定められた任意音(例えば「ピロロ」といった呼びかけ音)を制御出力値1の場合出力し、制御出力値0の場合は無音出力を行う。
制御器43は,前時間ステップまでの入出力履歴を元に,現時間ステップでの制御出力を決定し音声出力器42に送る。以下、冒頭に挙げたように心の理論的な方法論、つまり相手の立場にたって自身の行動を見て、相手にとってより好ましい(この尺度は後述する)ように行動する制御器43の設定方法について述べる。
図12に示すように、ロボット装置40がある時点において音声出力「u1=1」を行ったとすると、外界ノイズがどうであれ、相手のセンサ入力(推定相手入力)は「y2=1」になると考える。さらに、相手が音声出力「u2=1」を行ったとすると、外界ノイズがどうであれ,「y1=1」になる。
ロボット装置40は、自らのセンサ入出力を元に、相手の状態に関する以下の5変数を毎時更新して保持する。
インタラクション対象が行動「u2=1」してから何ステップ経過したかを記録する。この値は最大値kappaでパラメータとして指定されており、この値以上にはならない。タイムカウンタz(実際には一時点前の値z(t-1))を用いることによって、現在、インタラクション対象は、Agent periodとBackground periodのどちらに属するかが以下のルールに基づき判断される。
if z(t-1) < (kappa-1) then currently in Agent period
if z(t-1) >= (kappa-1) then currently in Background period
タイムカウンタz自体は以下のルールにより更新される。
if u2(t) = 1 then z(t) = 1
if u2(t) = 0 then z(t) = z(t-1)+1, although z(t) = kappa if z(t-1) = kappa
Agent periodというのは、contingentなインタラクションが発生しうるタイミング、つまりこの区間内に応答があればその時のインタラクションはcontingentであることを意味する。Background periodというのはそれ以外、つまりタイミングを逸し、contingentではない反応と見なされてしまう区間を意味する。
以下、定義される4変数に基づき行われるベイズ推定の肝となる発想は、この二つの区間それぞれにおける応答履歴を比較して、前者(Agent period)における反応が統計的に大きいほど、外界に人間(この場合はロボット)がいると信じる確信度が高まるように、二項分布におけるベイズ推定の枠組みで定式化するところにある。
4変数は、以下のように定義する。
tBG :その時点までに経験したBackground periodの総数
tAG :その時点までに経験したAgent periodの総数
sBG :tBGの内,センサ1(y2=1もしくはノイズN=1)を記録した総数
sAG :tAGの内,センサ1(y2=1もしくはノイズN=1)を記録した総数
実際には,y2=u1 u2=u1として考える。(心の理論的なアプローチ)
以上の履歴変数組及び,ノイズ分布にベータ分布を仮定することにより,任意の事前分布(ベータ関数のパラメータに関する事前分布)を元に、時々刻々得られていくデータ(上記5変数)から、インタラクション対象の確信度が確率値p2(t)の形で計算できる。この計算過程に用いる技術は先の実施の形態と同様に、ベイズ推定、とくに自然共役分布の性質の利用である。
ここで、この実施の形態では、インタラクション対象にとって好ましい状況になるようにふるまう制御器43設定するにあたり、好ましさの尺度として、以下の二通りの方法が考えられる。
尺度1:確率値p2をそのまま用いる方法。
この場合、確率値が高まれば高まるほど好ましい、つまりインタラクション対象が目の前に(彼から見た)インタラクション対象(人間やロボット)の存在を確信するほど、彼にとって好ましい、という尺度になる。
尺度2:確率値p2から定義されるエントロピp2*log(p2)+(1-p2)*log(1-p2)を用いる方法。
この場合、以下の参考文献に記されているように情報量最大化規範と等価になるが、本発明におけるこの意味は、インタラクション対象の獲得情報量が最大化となるほど好ましいという尺度になる。下記参考文献では,別の問題設定であるが,情報量最大化規範に基づく制御器設定を行った場合、その制御器の挙動が人間に近いものとなることが報告されている。
参考文献:” An Infomax Controller for Real-Time Detection of Social Contingency”, Javier R. Movellan, Proc. of the 4th IEEE International Conference on Development and Learning 2005
ここで挙げた尺度の何れかを報酬値とみると,既存の強化学習法(例えばQ-learning)により、将来にわたっての期待獲得報酬値を最大化する制御器が獲得できる。この方法は計算機シミュレーションで行うことが可能であり、最終的に得られた最適制御器をロボット装置40の制御器43にコピーすれば、目指していたものが実現できることになる。
強化学習法を行うためには,報酬値に加えて状態を定義する必要があるが、この場合、状態とは上で定義した5変数の組に他ならない。ロボットの行動値u1をランダム選択により定め、多数の計算機シミュレーションをQ-learningにより行えば、獲得されたQ値に基づく最適制御器が得られる。
以上により、インタラクション対象にとって好ましくふるまうロボット装置40の制御器43を実現することができる。
本発明は添付図面に関連した上記の実施態様に画定されるわけではない。さらに、添付請求項の精神又は範囲から逸脱することなく、様々な変更や置換を行ったり、その均等物を作ったりすることもできることは当業者に理解されている。
11 付録I:モデルの要約
パラメータ:
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
静的ランダム変数:
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
確率過程:
t=1,2,...の場合について、以下の過程が定義される
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
確率的制約:
図4は、モデルに含まれる異なる変数の結合分布におけるマルコフ制約を示したものである。
12 付録II:ベルマンの最適性式の解
この付録は、3.4節に提示した表記法と構成要素を前提としたものである。あらゆるt′∈[t+1,T]ついて、St′def(Ot′,Qt′,Zt′)とし、さらに、(y1:t′,u1:t,ot′,qt′,zt′)は(Y1:t′,U1:t,Ot′,Qt′,Zt′)からの固定任意標本であるものとする。最初に、t′>tについて、以下の特性が満足されることを示す。
(1)St′=gt′(St′−1,Yt′,Ut′)となるような関数gt′が存在する。
(2)p(yt′+1,|y1:t′,u1:t′+1)=p(yt′+1,|st′,u1:t′+1
(3)Wt′∈σ{St′
特性(1)はSt′を回帰法によりSt′−1′とYt′、Ut′から計算できることをただ単に述べているだけであり、St′の定義を前提とすれば、これは明らかに真である。特性(2)に関しては、
Figure 2007220076
Figure 2007220076
に注目されたい。ここに、It′は、Zt′によりその位置が決定される単一の1を有する3次元2進ベクトルである。従って、E[R・It′+1|ot′,qt′,zt′,ut′+1,h]は、zt′により精選されるポアソン過程の速度の期待値である。(15)から、i=1,2,3について、以下の式が得られ、
Figure 2007220076
従って、(86)を使用して、以下の式が得られる。
Figure 2007220076
Figure 2007220076
Figure 2007220076
従って、時間t′+1における予想分布はSt′,Ut′+1の関数であり、これから(2)が得られる。特性(3)は(24)から直接得られたものである。
次に、これらの特性を使用し、最適インフォマックス・コントローラを発見するためのアルゴリズムを導出する。最初に、特性(1)と(3)を結合し、以下の式が得られる。
Figure 2007220076
この事実を(1)と組み合わせて使用することにより、以下の式が得られる。
Figure 2007220076
次に、t′=Tであるものとする。Tの後にはリターンが存在しないので、以下の式が得られる。
Figure 2007220076
従って、t′=Tである場合について、数列(y1:t′,u1:t′)の値をその関連統計値st′の関数として計算できるのは明白である。
Figure 2007220076
t′=T−1である場合について、数列(y1:t′,u1:t′)のF,N,V,C を計算する関数F′,N′,V′,C′をその数列の統計値st′に基づき定義する。
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
同じ論理をt′=T−2である場合についても使用することができる。
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
ここに、st′+1deft′(st′,yt′+1,ut′+1)である。ステップ(78)〜(83)はt′=T−2,T−3,・・・tである場合について最適に適用することができ、従って、最適コントローラを回復させる。各時間t′∈[t,T]ついて、コントローラが統計値st′の値を行動Ut′にマッピングすることに注目されたい。
13 付録III:定義
ベータ変数:
Figure 2007220076
Figure 2007220076
Figure 2007220076
Figure 2007220076
以下の公式は、所望の平均mと分散s2を照合するベータ分布のパラメータを提供する。
Figure 2007220076
Figure 2007220076
Figure 2007220076
ガンマ関数
Figure 2007220076
ガンマ関数は以下の特性を有する。
Figure 2007220076
Figure 2007220076
ロジスティック関数
Figure 2007220076
シグマ集合体を所与とした場合の期待値:Yは確率空間(Ω,F,P)上の整数ランダム変数、すなわち、E(|Y|)∈Rであるものとし、σ∈Fはシグマ代数であるものとする。Yが所与である場合の条件付き期待値は、以下の特性を有するP準確実固有ランダム変数である。
E(Y|σ)はσ可測である。
任意のA∈σについて、∫E(Y|σ)dP=∫YdP。
E(Y)∈Rの場合は、E(Y|σ)は、最小二乗の意味におけるYに最も近いP準確実固有σ可測ランダム変数である、すなわち、以下のとおりである。
Figure 2007220076
XはYと同じ確率空間のランダム変数、σ(X)はXにより誘導されるシグマ代数であるものとする。Xを所与とした場合のYの期待値は、σ(X)を所与とした場合のYの期待値である、すなわち、以下のとおりになる。
Figure 2007220076
エントロピ:
Figure 2007220076
条件付きエントロピ:
Figure 2007220076
相互情報:
Figure 2007220076
(A)は、非特許文献19において使用したロボットの頭部の概略図、(B)は、乳児−9の写真である。ロボットの画像が乳児の背後に置かれた鏡に映っているのが見える。 必要最小限の機能だけを備えた社会的ロボットの構成を示す図である。 タイマとインジケータ変数との力学のグラフ表示である。 生成モデルをグラフ表示である。 (A),(B)は、モデルにより作られる2つの偶発事象クラスタの図である。 (A)は、150回の試験のラスタ図、(B)は、音声センサが動作中である確率は時間の関数を示す図である。 (A)は、乳児をシミュレーションするインフォマックス・コントローラの反応を示す図、(B)は、時間の関数としての反応するエージェントが存在する場合の事後確率を示す図、(C)は、43秒後のエージェント速度と背景速度の事後分布を示す図、(D)は、エージェントの反応速度に関する不確実性と背景の反応速度に関する不確実性の比率を示す図である。 本実施態様によるロボット装置の外部形状を示した透視図である。 ロボット装置についての自由度構成の概略図である。 ロボット装置のシステム構成を示した図である。 本発明に係るロボット装置の他のシステム構成を示した図である。 図11に示したロボット装置野動作説明に供する図である。
符号の説明
30,40 ロボット装置、41 音声入力器、42 音声出力器、43 制御器、 251 画像入力装置、252 音声入力装置、253 音声出力装置、254 通信インタフェース、211 CPU、212 RAM、213 ROM、214 外部記憶装置、201 バス・インタフェース、311 CPU、312 RAM、313 ROM、314 外部記憶装置、301 バス・インタフェース

Claims (8)

  1. 相互作用対象に関する仮説と自己入力/出力との間で定義される情報の期待を最大化するために自己コントローラを設定する相互作用装置。
  2. 相互作用目標が存在するかどうかということが前記仮説であることを特徴とする請求項1に記載の相互作用装置。
  3. 前記相互作用目標がユーザーであることを特徴とする請求項1に記載の相互作用装置。
  4. 前記入力/出力が音声マイクロホン入力/ラウドスピーカ出力であることを特徴とする請求項1に記載の相互作用装置。
  5. 表現メカニズムを含むことと、相互作用目標が存在するかどうかの事後確率とともに表現を出力することを特徴とする請求項1に記載の相互作用装置。
  6. 表現メカニズムが模倣運動出力メカニズムであることを特徴とする請求項1に記載の相互作用装置。
  7. 入出力情報を元に相互作用対象にとってこちらの存在に対する期待獲得情報量が最大となるタイミングで行動出力を行う制御手段を備えることを特徴とする相互作用装置。
  8. 音声マイクロホンとラウドスピーカを備え、上記入出力情報は音声情報であることを特徴とする請求項7記載の相互作用装置。
JP2006194827A 2006-01-18 2006-07-14 相互作用装置 Pending JP2007220076A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006194827A JP2007220076A (ja) 2006-01-18 2006-07-14 相互作用装置
US11/654,103 US8484146B2 (en) 2006-01-18 2007-01-17 Interaction device implementing a bayesian's estimation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006010118 2006-01-18
JP2006194827A JP2007220076A (ja) 2006-01-18 2006-07-14 相互作用装置

Publications (1)

Publication Number Publication Date
JP2007220076A true JP2007220076A (ja) 2007-08-30

Family

ID=38497264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006194827A Pending JP2007220076A (ja) 2006-01-18 2006-07-14 相互作用装置

Country Status (1)

Country Link
JP (1) JP2007220076A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009468A (ja) * 2013-08-02 2020-01-16 ソウル マシーンズ リミティド 神経行動学的アニメーションのためのシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009468A (ja) * 2013-08-02 2020-01-16 ソウル マシーンズ リミティド 神経行動学的アニメーションのためのシステム
US11527030B2 (en) 2013-08-02 2022-12-13 Soul Machines Limited System for neurobehavioural animation
US11908060B2 (en) 2013-08-02 2024-02-20 Soul Machines Limited System for neurobehaviorual animation

Similar Documents

Publication Publication Date Title
US8484146B2 (en) Interaction device implementing a bayesian&#39;s estimation
Fung et al. Embodied ai agents: Modeling the world
Lin et al. A review on interactive reinforcement learning from human social feedback
Salichs et al. Maggie: A robotic platform for human-robot social interaction
Thomaz et al. Computational human-robot interaction
Dautenhahn Embodiment and interaction in socially intelligent life-like agents
Oztop et al. Mirror neurons and imitation: A computationally guided review
US8145492B2 (en) Robot behavior control system and method, and robot apparatus
Belpaeme et al. Multimodal child-robot interaction: building social bonds.
Ficocelli et al. Promoting interactions between humans and robots using robotic emotional behavior
Trafton et al. Children and robots learning to play hide and seek
JP2005199403A (ja) 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
Broekens et al. Towards transparent robot learning through TDRL-based emotional expressions
Sheng et al. A comprehensive review of humanoid robots
Butz et al. Anticipatory behavior in adaptive learning systems: From brains to individual and social behavior
Tzafestas Sociorobot world
Bianco et al. Functional advantages of an adaptive theory of mind for robotics: a review of current architectures
Nebreda et al. The social machine: artificial intelligence (AI) approaches to theory of mind
Katiyar et al. Recent trends towards cognitive science: from robots to humanoids
Butz et al. Anticipations, brains, individual and social behavior: An introduction to anticipatory systems
Świetlicka A Survey on Artificial Neural Networks in Human—Robot Interaction
Keshinro Human Activity Recognition Using Deep Learning Methods for Human-Robot Interaction
Levinson et al. Automatic language acquisition by an autonomous robot
JP2007220076A (ja) 相互作用装置
Wilkes et al. Designing for human‐robot symbiosis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120626