JP2006247780A

JP2006247780A - コミュニケーションロボット

Info

Publication number: JP2006247780A
Application number: JP2005066734A
Authority: JP
Inventors: Noriaki Mitsunaga; 法明光永; Takayuki Kanda; 崇行神田; Hiroshi Ishiguro; 浩石黒
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-03-10
Filing date: 2005-03-10
Publication date: 2006-09-21
Anticipated expiration: 2025-03-10
Also published as: JP5120745B2

Abstract

【構成】コミュニケーションロボット１２はＣＰＵを含み、ＣＰＵはロボット１２の全体処理を司る。ロボット１２は、人間１４とのインタラクション中におけるモーションキャプチャシステム２０から入力される座標データおよび方向データから、自身と人間１４との距離（対人距離）およびロボット１２に対する人間１４の顔の向きを検出する。ロボット１２は、対人距離および人間１４の顔の向きからインタラクションパラメータ（対人距離、注視時間、モーション開始時間、モーション速度）の適切度すなわちインタラクションの快・不快を検出し、これを最適化するように、インタラクションパラメータを更新する。
【効果】個別に適応して快適なインタラクションを行うことができる。
【選択図】図１

Description

この発明はコミュニケーションロボットに関し、特にたとえば、人間との間で発話および身体動作の少なくとも一方を含むインタラクション行動を行う、コミュニケーションロボットに関する。

自然なコミュニケーションを行うためには、相手への適応が重要であり、たとえば人が快適に過ごすためには、適度なパーソナルスペースが必要である。このパーソナルスペースはコミュニケーションの内容により異なることが非特許文献１に開示されている。また、非特許文献２に開示されるように、視線を合わせる頻度が人により異なることも知られている。快適なパーソナルスペースや視線頻度は人により異なるが、人はコミュニケーション相手に合わせ、互いに快適さを保っている。たとえば、相手が近すぎると感じれば少し離れ、また、非特許文献３に開示されるように、見つめられ過ぎると感じれば視線を反らす。さらに、非特許文献４〜非特許文献６に開示されるように、人と関わるロボットについて、パーソナルスペースの考え方を応用する研究が行われている。

また、この種のコミュニケーションロボットに近似する背景技術の一例が特許文献１に開示される。この特許文献１によれば、行動パターン生成装置は、たとえば、ロボットに適用される。行動パターン生成装置は、ロボットに対するユーザの対人距離を検出し、対人距離に応じてロボットに対するユーザの親密度を求めて、親密度に応じて、ユーザがロボットをコミュニケーション対象としているかどうかを判断するようにしてある。また、行動パターン生成装置では、ユーザの音声の強弱やトーンの高低、さらには血圧や体温等に基づいて、ユーザの感情が推定される。行動パターン生成装置は、対人距離やユーザの感情に応じた行動をロボットに実行させるようにしてある。
E. T. Hall. The Hidden Dimension. Double Day Publishing, 1966. S. Duncan jr. and D. W. Fiske. Face-to-Face Interaction: Research, Methods, and Theory. Lawrence Erlbaum Associates, Inc., Publishers, 1977. E. Sundstrom and I. Altman. Interpersonal relationships and personal space: Research review and theoretical model. Human Ecology, 4(1), 1976. 中嶋移動体ロボットに対するヒトの個体距離に関する研究．博士論文、九州芸術工科大学，１９９８． Y. Nakauchi and R. Simmons. A social robot that stands in line. Autonomous Robots, 1:313-324, 2002. T. Tasaki, S. Matsumoto, K. Komatani, T. Ogata, H. G. Okuno. Dynamic communication of humanoid robot with multiple people based on interaction distance. In Proc. of International Workshop on Robot and Human Interaction (Ro-Man-2004), pp.81-86, IEEE, 2004. 特開２００４−６６３６７号

しかし、背景技術のロボットでは、パーソナルスペースは固定的であり、個人に適応させたものは存在しなかった。ただし、特許文献１に開示される行動パターン生成装置では、ユーザの音声の強弱やトーンの高低、さらには、血圧や体温等に基づいてユーザの感情を推定するようにしてあるため、この点では、個人および個人の感情に適応させたコミュニケーション（インタラクション）を行っていると言えるが、対人距離については、閾値処理により、ロボットとコミュニケーションしているか否かを判断するのみである。つまり、適切なパーソナルスペースを個人に適応させていなかった。このため、ロボットとコミュニケーションするユーザないし人間は、コミュニケーションにおいて不快に感じてしまうこともあった。

それゆえに、この発明の主たる目的は、新規な、コミュニケーションロボットを提供することである。

この発明の他の目的は、人同士のような自然なインタラクションを実現できる、コミュニケーションロボットを提供することである。

請求項１の発明は、人間との間でインタラクションするコミュニケーションロボットであって、インタラクションについてのパラメータを設定するパラメータ設定手段、パラメータ設定手段によって設定されたパラメータに従って発話および身体動作の少なくとも一方を含むインタラクションを実行するインタラクション実行手段、インタラクション中におけるパラメータの適切度を検出する適切度検出手段、および適切度検出手段によって検出された適切度を最適化する最適化手段を備える、コミュニケーションロボットである。

請求項１の発明では、コミュニケーションロボットは、人間との間で、身体動作および発話少なくとも一方を含むインタラクション行動を実行する。パラメータ設定手段は、インタラクション（インタラクション行動）についてのパラメータを設定する。インタラクション実行手段は、パラメータ設定手段によって設定されたパラメータに従ってインタラクション行動を実行する。適切度検出手段は、インタラクション中におけるパラメータの適切度を検出する。ここで、インタラクション（コミュニケーション）相手としての人間がインタラクションを快いと感じている場合には、パラメータの適切度は高いと言える。一方、人間がインタラクションを不快に感じている場合には、パラメータの適切度は低いと言える。たとえば、インタラクションを不快に感じているか否かは、コミュニケーションロボットに対する人間の距離（移動距離）、コミュニケーションロボットに対する人間の顔の向き、人間が貧乏ゆすりをしているか否か、人間の顔の表情（笑い（柔らかい）、辛い（硬い））や人間の足音の大小で知ることができる。最適化手段は、適切度検出手段によって検出された適切度を最適化する。つまり、インタラクションパラメータがインタラクション相手に適応される。

請求項１の発明によれば、インタラクションパラメータをインタラクション相手に適応させるので、インタラクションを重ねるに従って、快適にインタラクションを行うことができる。したがって、人同士のような自然なコミュニケーションが可能である。

請求項２の発明は請求項１に従属し、インタラクション中における人間の移動距離を検出する移動距離検出手段、およびインタラクション中において人間がコミュニケーションロボット自身の顔を見る時間を検出する時間検出手段をさらに備え、適切度検出手段は、パラメータ設定手段によって設定されたパラメータでインタラクションを実行したときの行動距離検出手段および時間検出手段の少なくとも一方の検出結果に基づいて、当該パラメータの適切度を検出する。

請求項２の発明では、コミュニケーションロボットは、行動距離検出手段および時間検出手段をさらに備える。移動距離検出手段は、インタラクション中における人間の移動距離を検出する。また、時間検出手段は、インタラクション中において人間が自身の顔を見ている時間すなわち注視している時間を検出する。たとえば、インタラクション中における人間の移動距離が長い（大きい）場合や注視時間が短い場合には、人間はインタラクションに不快さを感じていると判断できる。逆に、移動距離が短い（小さい）場合や注視時間が長い場合には、人間はインタラクションを快適である感じていると判断できる。適切度検出手段は、パラメータ設定手段によって設定されたパラメータでインタラクションを実行したときの行動距離検出手段および時間検出手段の少なくとも一方の検出結果に基づいて、当該パラメータの適切度を検出する。

請求項２の発明によれば、インタラクション中における人間の所作に基づいてインタラクションの快適さを知ることができ、快適さを増大させるように、パラメータを最適化することができる。

請求項３の発明は請求項１または２に従属し、パラメータは、人間とのインタラクションにおける対人距離、人間の顔に自身の顔を向ける時間の長さ、発話から身体動作の動作開始までの遅れ時間および身体動作の動作速度の少なくとも１つを含む。

請求項３の発明では、パラメータは、ロボットと人間とがコミュニケーションする場合に、インタラクションの快適さを決定すると考えられる成分を含む。具体的には、パラメータは、人間とのインタラクションにおける対人距離、人間の顔に自身の顔を向ける時間の長さ（注視時間）、発話から身体動作の動作開始までの遅れ時間および身体動作の動作速度の少なくとも１つを含む。

請求項３の発明によれば、インタラクションの快適さを決定すると考えられる成分を更新するようにすれば、パラメータの適切度を最適化して、快適なインタラクションを実現することができる。

請求項４の発明は請求項３に従属し、対人距離は、親密距離、個体距離および社会距離を含む。

請求項４の発明では、対人距離は、親密距離、個体距離および社会距離を含む。これは、インタラクション行動の種類に応じて適切な対人距離を、個人に適応して取るようにさせるためである。たとえば、自己紹介や挨拶のようなインタラクション行動を実行する場合には、社会距離が取られる。

請求項４の発明によれば、パラメータの対人距離として親密距離、個体距離および社会距離を含むので、インタラクション行動の種類に応じた対人距離を、個人に対応して取らせることができる。

請求項５の発明は請求項１ないし４のいずれかに従属し、最適化手段は、パラメータを更新するパラメータ更新手段を含む。

請求項５の発明では、パラメータ更新手段が、パラメータを更新する。したがって、たとえば、インタラクションする度に、パラメータの適切度を最適化されるように、パラメータを更新することができる。

請求項５の発明によれば、インタラクションを行う度に、パラメータを更新して、パラメータの適切度を最適化するので、インタラクションを繰り返すに従ってより快適なインタラクションを行うことができる。

請求項６の発明は請求項１ないし５のいずれかに従属し、パラメータを人間に対応して記憶するパラメータ記憶手段、およびインタラクションの開始時に人間を識別する人間識別手段をさらに備え、パラメータ設定手段は、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されているとき、当該パラメータを設定し、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されていないとき、パラメータ記憶手段によって記憶されているすべてのパラメータの平均値を設定する。

請求項６の発明では、パラメータ記憶手段は、パラメータを人間に対応して記憶する。つまり、人間との間でインタラクションを実行し、最適化されたパラメータを当該人間に対応して記憶する。人間識別手段は、インタラクション開始時に人間を識別する。パラメータ設定手段は、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されているとき、つまり以前インタラクションした相手であれば、当該パラメータを設定する。しかし、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されていないとき、つまり以前インタラクションした相手でなければ、パラメータ記憶手段によって記憶されているすべてのパラメータの平均値を設定する。ただし、かかる場合には、今回インタラクションする人間と似ている人間についてのパラメータを設定するようにしてもよい。

請求項６の発明によれば、インタラクションした経験がある人間に対しては前回最適化されたパラメータを用いるので、今回のインタラクションでは、その当初から比較的快適なインタラクションを実行できる。

この発明によれば、インタラクション時の人間の移動距離および顔の向きに基づいてインタラクションについてのパラメータの適切度を検出し、これを最適化するので、インタラクション相手に適応させることができる。つまり、個人に適応したインタラクションにより、人同士のような自然なコミュニケーションを実現することができる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１を参照して、この実施例のコミュニケーションロボットシステム（以下、単に「システム」という。）１０は、コミュニケーションロボット（以下、単に「ロボット」という。）１２を含む。このロボット１２は、たとえば人間１４のようなコミュニケーションの対象（相手）とコミュニケーションすることを目的とした相互作用指向のものであり、身体動作（身振り、手振り）および発話（音声）の少なくとも一方を用いたコミュニケーション（インタラクション）の行動（以下、「インタラクション行動」ということがある。）を行う機能を備えている。

ロボット１２は、人間のような身体を有し、その身体を用いてインタラクションのために必要な複雑な身体動作を生成する。具体的には、図２を参照して、ロボット１２は台車３２を含み、この台車３２の下面には、このロボット１２を自律移動させる車輪３４が設けられる。この車輪３４は、車輪モータ（ロボット１２の内部構成を示す図３において参照番号「３６」で示す。）によって駆動され、台車３２すなわちロボット１２を前後左右任意の方向に動かすことができる。

なお、図２では示さないが、この台車３２の前面には、衝突センサ（図３において参照番号「３８」で示す。）が取り付けられ、この衝突センサ３８は、台車３２への人や他の障害物の接触を検知する。そして、ロボット１２の移動中に障害物との接触を検知すると、直ちに車輪３４の駆動を停止してロボット１２の移動を急停止させる。

また、ロボット１２の背の高さは、この実施例では、人、特に子供に威圧感を与えることがないように、１００ｃｍ程度とされている。ただし、この背の高さは任意に変更可能である。

台車３２の上には、多角形柱のセンサ取付パネル４０が設けられ、このセンサ取付パネル４０の各面には、超音波距離センサ４２が取り付けられる。この超音波距離センサ４２は、取付パネル４０すなわちロボット１２の周囲の主として人との間の距離を計測するものである。

台車３２の上には、さらに、ロボット１２の胴体が、その下部が上述の取付パネル４０に囲まれて、直立するように取り付けられる。この胴体は下部胴体４４と上部胴体４６とから構成され、これら下部胴体４４および上部胴体４６は、連結部４８によって連結される。連結部４８には、図示しないが、昇降機構が内蔵されていて、この昇降機構を用いることによって、上部胴体４６の高さすなわちロボット１２の高さを変化させることができる。昇降機構は、後述のように、腰モータ（図３において参照番号「５０」で示す。）によって駆動される。上で述べたロボット１２の身長１００ｃｍは、上部胴体４６をそれの最下位置にしたときの値である。したがって、ロボット１２の身長は１００ｃｍ以上にすることができる。

上部胴体４６のほぼ中央には、１つの全方位カメラ５２と、１つのマイク１６とが設けられる。全方位カメラ５２は、ロボット１２の周囲を撮影するもので、後述の眼カメラ５４と区別される。マイク１６は、周囲の音、とりわけ人の声を取り込む。

上部胴体４６の両肩には、それぞれ、肩関節５６Ｒおよび５６Ｌによって、上腕５８Ｒおよび５８Ｌが取り付けられる。肩関節５６Ｒおよび５６Ｌは、それぞれ３軸の自由度を有する。すなわち、右肩関節５６Ｒは、Ｘ軸，Ｙ軸およびＺ軸の各軸廻りにおいて上腕５８Ｒの角度を制御できる。Ｙ軸は、上腕５８Ｒの長手方向（または軸）に平行な軸であり、Ｘ軸およびＺ軸は、そのＹ軸に、それぞれ異なる方向から直交する軸である。左肩関節５６Ｌは、Ａ軸，Ｂ軸およびＣ軸の各軸廻りにおいて上腕５８Ｌの角度を制御できる。Ｂ軸は、上腕５８Ｌの長手方向（または軸）に平行な軸であり、Ａ軸およびＣ軸は、そのＢ軸に、それぞれ異なる方向から直交する軸である。

上腕５８Ｒおよび５８Ｌのそれぞれの先端には、肘関節６０Ｒおよび６０Ｌを介して、前腕６２Ｒおよび６２Ｌが取り付けられる。肘関節６０Ｒおよび６０Ｌは、それぞれ、Ｗ軸およびＤ軸の軸廻りにおいて、前腕６２Ｒおよび６２Ｌの角度を制御できる。

なお、上腕５８Ｒおよび５８Ｌならびに前腕６２Ｒおよび６２Ｌ（いずれも図２）の変位を制御するＸ，Ｙ，Ｚ，Ｗ軸およびＡ，Ｂ，Ｃ，Ｄ軸では、「０度」がホームポジションであり、このホームポジションでは、上腕５８Ｒおよび５８Ｌならびに前腕６２Ｒおよび６２Ｌは下方向に向けられる。

また、図２では示さないが、上部胴体４６の肩関節５６Ｒおよび５６Ｌを含む肩の部分や上述の上腕５８Ｒおよび５８Ｌならびに前腕６２Ｒおよび６２Ｌを含む腕の部分には、それぞれ、タッチセンサ（図３において参照番号６４で包括的に示す。）が設けられていて、これらのタッチセンサ６４は、人がロボット１２のこれらの部位に接触したかどうかを検知する。

前腕６２Ｒおよび６２Ｌのそれぞれの先端には、手に相当する球体６６Ｒおよび６６Ｌがそれぞれ固定的に取り付けられる。ただし、指の機能（握る、掴む、摘むなど）が必要な場合には、球体６６Ｒおよび６６Ｌに代えて、人の手の形をした「手」を用いることも可能である。

上部胴体４６の中央上方には、首関節６８を介して、頭部７０が取り付けられる。この首関節６８は、３軸の自由度を有し、Ｓ軸，Ｔ軸およびＵ軸の各軸廻りに角度制御可能である。Ｓ軸は首から真上に向かう軸であり、Ｔ軸およびＵ軸は、それぞれ、このＳ軸に対して異なる方向で直交する軸である。頭部７０には、人の口に相当する位置に、スピーカ７２が設けられる。スピーカ７２は、ロボット１２が、それの周囲の人に対して音声または声によってコミュニケーションを図るために用いられる。ただし、スピーカ７２は、ロボット１２の他の部位たとえば胴体に設けられてもよい。

また、頭部７０には、目に相当する位置に眼球部７４Ｒおよび７４Ｌが設けられる。眼球部７４Ｒおよび７４Ｌは、それぞれ眼カメラ５４Ｒおよび５４Ｌを含む。なお、右の眼球部７４Ｒおよび左の眼球部７４Ｌをまとめて眼球部７４といい、右の眼カメラ５４Ｒおよび左の眼カメラ５４Ｌをまとめて眼カメラ５４ということもある。眼カメラ５４は、ロボット１２に接近した人の顔や他の部分ないし物体等を撮影してその映像信号を取り込む。

なお、上述の全方位カメラ５２および眼カメラ５４のいずれも、たとえばＣＣＤやＣＭＯＳのような固体撮像素子を用いるカメラであってよい。

たとえば、眼カメラ５４は眼球部７４内に固定され、眼球部７４は眼球支持部（図示せず）を介して頭部７０内の所定位置に取り付けられる。眼球支持部は、２軸の自由度を有し、α軸およびβ軸の各軸廻りに角度制御可能である。α軸およびβ軸は頭部７０に対して設定される軸であり、α軸は頭部７０の上へ向かう方向の軸であり、β軸はα軸に直交しかつ頭部７０の正面側（顔）が向く方向に直交する方向の軸である。この実施例では、頭部７０がホームポジションにあるとき、α軸はＳ軸に平行し、β軸はＵ軸に平行するように設定されている。このような頭部７０において、眼球支持部がα軸およびβ軸の各軸廻りに回転されることによって、眼球部７４ないし眼カメラ５４の先端（正面）側が変位され、カメラ軸すなわち視線方向が移動される。

なお、眼カメラ５４の変位を制御するα軸およびβ軸では、「０度」がホームポジションであり、このホームポジションでは、図２に示すように、眼カメラ５４のカメラ軸は頭部７０の正面側（顔）が向く方向に向けられ、視線は正視状態となる。

図３には、ロボット１２の内部構成を示すブロック図が示される。この図３に示すように、ロボット１２は、全体の制御のためにマイクロコンピュータまたはＣＰＵ７６を含み、このＣＰＵ７６には、バス７８を通して、メモリ８０，モータ制御ボード８２，センサ入力／出力ボード８４および音声入力／出力ボード８６が接続される。

メモリ８０は、図示しないが、ＲＯＭやＨＤＤ、ＲＡＭ等を含み、ＲＯＭまたはＨＤＤにはこのロボット１２の制御プログラムおよびデータ等が予め格納されている。ＣＰＵ７６は、このプログラムに従って処理を実行する。具体的には、ロボット１２の身体動作を制御するための複数のプログラム（行動モジュールと呼ばれる。）が記憶される。たとえば、行動モジュールが示す身体動作としては、「握手」、「抱っこ」、「指差し」…などがある。行動モジュールが示す身体動作が「握手」である場合には、当該行動モジュールを実行すると、ロボット１２は、たとえば、右手を前に差し出す。また、行動モジュールが示す身体動作が「抱っこ」である場合には、当該行動モジュールを実行すると、ロボット１２は、たとえば、両手を広げた状態で前に差し出し、人間が近づくと、両手を閉じる。さらに、行動モジュールが示す身体動作が「指差し」である場合には、当該行動モジュールを実行すると、ロボット１２は、たとえば、右手（右腕）または左手（左腕）で所望の方向を指示する。また、ＲＡＭは、一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用され得る。

モータ制御ボード８２は、たとえばＤＳＰ(Digital Signal Processor)で構成され、右腕、左腕、頭および眼等の身体部位を駆動するためのモータを制御する。すなわち、モータ制御ボード８２は、ＣＰＵ７６からの制御データを受け、右肩関節５６ＲのＸ，ＹおよびＺ軸のそれぞれの角度を制御する３つのモータと右肘関節６０ＲのＷ軸の角度を制御する１つのモータを含む計４つのモータ（図３ではまとめて、「右腕モータ」として示す。）８８の回転角度を調節する。また、モータ制御ボード８２は、左肩関節５６ＬのＡ，ＢおよびＣ軸のそれぞれの角度を制御する３つのモータと左肘関節６０ＬのＤ軸の角度を制御する１つのモータとを含む計４つのモータ（図３ではまとめて、「左腕モータ」として示す。）９０の回転角度を調節する。モータ制御ボード８２は、また、首関節６８のＳ，ＴおよびＵ軸のそれぞれの角度を制御する３つのモータ（図３ではまとめて、「頭部モータ」として示す。）９２の回転角度を調節する。モータ制御ボード８２は、また、腰モータ５０、および車輪３４を駆動する２つのモータ（図３ではまとめて、「車輪モータ」として示す。）３６を制御する。さらに、モータ制御ボード８２は、右眼球部７４Ｒのα軸およびβ軸のそれぞれの角度を制御する２つのモータ（図３ではまとめて、「右眼球モータ」として示す。）９４の回転角度を調節し、また、左眼球部７４Ｌのα軸およびβ軸のそれぞれの角度を制御する２つのモータ（図３ではまとめて、「左眼球モータ」として示す。）９６の回転角度を調節する。

なお、この実施例の上述のモータは、車輪モータ３６を除いて、制御を簡単化するためにそれぞれステッピングモータまたはパルスモータであるが、車輪モータ３６と同様に、直流モータであってよい。

センサ入力／出力ボード８４も、同様に、ＤＳＰで構成され、各センサやカメラからの信号を取り込んでＣＰＵ７６に与える。すなわち、超音波距離センサ４２の各々からの反射時間に関するデータがこのセンサ入力／出力ボード８４を通して、ＣＰＵ７６に入力される。また、全方位カメラ５２からの映像信号が、必要に応じてこのセンサ入力／出力ボード８４で所定の処理が施された後、ＣＰＵ７６に入力される。眼カメラ５４からの映像信号も、同様にして、ＣＰＵ７６に与えられる。また、タッチセンサ６４からの信号がセンサ入力／出力ボード８４を介してＣＰＵ７６に与えられる。

スピーカ７２には音声入力／出力ボード８６を介して、ＣＰＵ７６から、合成音声データが与えられ、それに応じて、スピーカ７２からはそのデータに従った音声または声が出力される。また、マイク２４からの音声入力が、音声入力／出力ボード８６を介してＣＰＵ７６に取り込まれる。

また、ＣＰＵ７６には、バス７８を通して、通信ＬＡＮボード９８が接続される。この通信ＬＡＮボード９８も、同様に、ＤＳＰで構成され、ＣＰＵ７６から与えられた送信データを無線通信装置１００に与え、無線通信装置１００から送信データを送信させる。また、通信ＬＡＮボード９８は無線通信装置１００を介してデータを受信し、受信データをＣＰＵ７６に与える。

さらに、ＣＰＵ７６には、バス７８を通して、データベース１０２が接続される。図示は省略するが、データベース１０２には、後述するインタラクションパラメータΘが対応する人物（人間１４等）の名称ないしは識別情報（タグ情報，識別番号）とともに記憶される。また、人物の識別情報に対応して、ロボット１２の眼カメラ５４で撮影した人物の顔画像および全身画像から推定した身長の値も記憶される。これは、後述するように、インタラクション相手に応じて、インタラクションパラメータΘの初期値を設定するようにしてあるためである。

なお、この実施例では、データベース１０２をロボット１２内部に設けるようにしてあるが、ロボット１２の外部に通信可能に設けるようにしてもよい。

図１に戻って、システム１０はモーションキャプチャシステム２０を含む。モーションキャプチャシステム（３次元動作計測装置）２０としては、公知のモーションキャプチャシステムが適用される。たとえば、ＶＩＣＯＮ社(http://www.vicon.com/)の光学式のモーションキャプチャシステムを用いることができる。図示は省略するが、モーションキャプチャシステム２０は、ＰＣ或いはＷＳのようなコンピュータを含み、このコンピュータとロボット１２とが、有線または無線ＬＡＮ（図示せず）によって互いに接続される。

図４を用いて具体的に説明すると、モーションキャプチャシステム２０においては、複数（少なくとも３つ）の赤外線照射機能を有するカメラ２０ａが、空間ないし環境に存在するロボット１２および人間１４に対して異なる方向に配置される。ロボット１２および人間１４には、複数（この実施例では、４個）の赤外線反射マーカ３０が取り付けられる。具体的には、図４からも分かるように、赤外線反射マーカ３０は、ロボット１２および人間１４共に、眼の上（額）と肩とに取り付けられる。これは、この実施例では、ロボット１２および人間１４の位置（３次元位置）および顔（視線）の方向を検出するためである。ただし、位置や顔の方向を正確に検出するために、さらに他の部位に赤外線反射マーカ３０を取り付けるようにしてもよい。

モーションキャプチャシステム２０のコンピュータは、カメラ２０ａから画像データをたとえば６０Hz（１秒間に６０フレーム）で取得し、画像データを画像処理することによって、その計測時の全ての画像データにおける各マーカ３０の２次元位置を抽出する。そして、コンピュータは、画像データにおける各マーカ３０の２次元位置に基づいて、実空間における各マーカ３０の３次元位置を算出するとともに、ロボット１２および人間１４の顔の方向も算出する。次いで、コンピュータは、算出した３次元位置の座標データ（位置データ）および顔の方向データを、ロボット１２（ＣＰＵ７６）からの要求に応じてロボット１２に送信する。

ロボット１２は、モーションキャプチャシステム２０から送信される座標データおよび方向データを取得し、自身および人間１４の３次元位置を取得する。そして、ロボット１２は、自身を中心（原点）とした場合（ロボット座標）における、人間１４の位置（距離）を検出（算出）する。また、ロボット１２は、方向データに基づいて、人間１４がロボット１２の顔を見ているかどうかを判断する。

このような構成のロボット１２は、上述したように、人間１４との間でコミュニケーションする場合には、身体動作（ジェスチャ）および音声（発話）の少なくとも一方を用いたインタラクション行動を行う。たとえば、ロボット１２は、自身に対する人間１４のジェスチャや発話を検出して、そのようなインタラクション行動を決定する。

ここで、人と人とのコミュニケーションについて考察すると、自然な（快適な）コミュニケーションを行うためには、相手への適応が重要である。たとえば、人が快適に過ごすためには、適度なパーソナルスペースが必要であり、コミュニケーションの内容により異なる。また、視線を合わせる頻度が人により異なることも知られている。快適なパーソナルスペースや視線頻度は人により異なるが、人はコミュニケーション相手に合わせ、互いに快適さを保っている。たとえば、相手が近すぎると感じれば少し離れ、見つめられ過ぎると感じれば視線を反らす。こういった適応を人は無意識に行っている。

したがって、ロボット１２と人間１４とがインタラクション（コミュニケーション）する場合には、ロボット１２が、相手に合わせて、適切なパーソナルスペースを確保したり、視線を合わせる頻度を個人に合わせたりする必要がある。

また、人とロボットとの間のインタラクションにおいて、身体動作を解析した研究(T. Kanda, H. Ishiguro, M. Imai, and T. Ono. Body Movement Analysis of Human-Robot Interaction. In Int. Joint Conference on Artificial Intelligence (IJCAI 2003),pp.177-182, 2003)によると、ロボットの振る舞いに好印象を持つ被験者はロボットに顔を向ける傾向があり、インタラクション中の移動距離も短い傾向が見られている。また、パートナーの動きが緩慢で退屈である場合や、速過ぎて理解できない場合にも他に顔を向けると考えるのは自然である。

以上より、ロボット１２とのインタラクションにおいて、人の快・不快が無意識に移動距離とロボットに顔を向ける時間とに現れる（いずれか一方でも可。）と仮定して、報酬関数（図５参照）を設計した。ここで、ロボット１２のインタラクション行動についてのパラメータ（インタラクションパラメータ）Θとしては、３種の対人距離（親密距離、個体距離、社会距離）、人の顔の方向にカメラ（眼カメラ５４）を向ける時間の長さ、発話からモーション再生までの遅れ時間、モーションの速度である。ロボット１２は、報酬関数の演算により得られる報酬を最大化するように、方策勾配型強化学習（policy gradient reinforcement learning :ＰＧＲＬ）により、パラメータΘを学習し、インタラクションパートナー（ここでは、人間１４）に個人適応する。どのようなパラメータΘが適切であるかを直接得ることが出来ないため、学習方法として教師なし学習が必要である。これは、たとえば、個々に適切と思う対人距離（パーソナルスペース等）が異なるからである。また、人とのインタラクションにおいて学習するためには収束が速いことも重要であることから、方策勾配型強化学習が用いられる。

報酬関数は、ロボット１２のＣＰＵ７６によってソフト的に処理される。その機能的なブロック図が図５に示される。図５を参照して、報酬関数２００は、入力端子Ｐ１およびＰ２を含む。この入力端子Ｐ１およびＰ２には、モーションキャプチャシステム２０から入力された位置データがそのまま入力される。ただし、後述するように、１つのインタラクション行動が実行される毎に、報酬関数２００による演算を実行するようにしてあるため、入力端子Ｐ１およびＰ２には、１つのインタラクション行動を実行中に得られた、時間変化に従う位置データが入力されるのである。

入力端子Ｐ１に入力された位置データは、フィルタ部２０２でノイズ除去される。たとえば、フィルタ部２０２は、５HzのＬＰＦであり、位置データに含まれる高域成分を除去する。これは、細かい人間１４の身体の揺れを移動距離に含めないためである。高域成分が除去された位置データは積分部２０４で積分される。つまり、人間１４の移動距離が算出される。そして、積分部２０４の出力に、正規化／重み付け部２０６で、正規化および重み付けが施され、加算器２０８に反転して入力される。これは、上述したように、インタラクション中における人間１４の移動量は、インタラクションを不快に感じていると考えられ、報酬としてはマイナス要因だからである。

一方、入力端子Ｐ２に入力された位置データは、首角度算出部２１０に与えられ、首角度算出部２１０によってロボット１２に対する人間１４の首角度が算出される。厳密に言うと、ロボット１２の顔に対する人間１４の顔の向きが算出されるのである。人間１４の首角度が算出されると、閾値処理部２１２で、所定の角度（この実施例では、１０°）以下であるかどうかが判断される。つまり、人間１４がロボット１２の顔を見ているかどうかが判断される。ここで、図６に示すように、ロボット１２と人間１４とが対面しているとき、ロボット１２と人間１４とを結ぶ直線（線分）に対して人間１４の顔の方向がなす角度が１０°以下である場合には、人間１４がロボット１２の顔を見ていると判断するようにしてある。ただし、人間１４がロボット１２の顔を見ているかどうかを厳密に判断する場合には、人間１４の視線方向も検出する必要があると考えられる。そして、閾値処理部２１２では、首角度算出部２１０によって算出された首角度が１０°以下である場合には、閾値処理部２１２で、その時間が加算される。つまり、インタラクション中に、人間１４がロボット１２の顔を見ている時間の合計が算出されるのである。そして、閾値処理部２１２の出力に、正規化／重み付け部２１４で、正規化および重み付けが施され、加算器２０８にそのまま入力する。これは、上述したように、インタラクション中における人間１４がロボット１２の顔を見る時間は、インタラクションを快いと感じていると考えられ、報酬としてはプラス要因だからである。そして、加算器２０８の結果が報酬取得部２１６に与えられる。

なお、この実施例においては、正規化／重み付け部２０６および２１４における重み付けは、簡単のため、１対１となるようにした。ただし、対人距離またはロボットに顔を向ける時間のいずれか一方に基づいて、報酬すなわちインタラクション中における快適さを知ることができるため、たとえば、１対０や０対１で重み付けするようにしてもよい。

また、この実施例では、対人距離およびロボットに顔をむける時間に基づいて、インタラクションの快適さを知るようにしてあるが、これに限定される必要はない。たとえば、人間の足音の大小、人間がいわゆる貧乏ゆすりをしているか否か、または、人間の顔の表情（笑い（柔らかい）、辛い（硬い））によって、インタラクションの快適さを知ることもできる。たとえば、人間の足音はいらいらに関係し、足音が小さければ、いらいらしておらず、インタラクショクションが快適であると言え、逆に、足音が大きければ、いらいらしており、インタラクションが不快であると言える。ただし、人間の足音は、騒音計により検出することができる。また、人間が貧乏ゆすりをしているか否か、および人間の顔の表情は、画像認識技術を用いることにより検出することができる。

このような報酬関数２００による演算は、インタラクションにおいて、ロボット１２がインタラクション行動を実行する毎に実行される。そして、人間１４がインタラクションを快いと感じるように、ロボット１２のインタラクションパラメータΘを強化学習により求める。

ここで、Ｑ学習に代表される強化学習では、最適な振る舞い(政策ないし方策)を学習するために、出来るだけ広範囲の空間を探索し、あらゆる方策を試行する。そのため、学習結果はグローバルに最適なものが得られるが探索には長期間かかってしまう。それに対し方策勾配型強化学習（または、方策勾配法による強化学習）では、現在の方策を、報酬を得られる方向へ修正していくことで局所最適解を求める。報酬から方策を直接変化させるので、報酬伝播の遅れが少なく学習時間が短い特長がある。この実施例では、インタラクション開始以降は、センサによってインタラクションを変化させないオープンループシステムの方策勾配型強化学習を採用した。

具体的には、図７および図８で示すフロー図に従って全体処理を実行し、その中で強化学習を実行し、インタラクションパラメータΘを更新するようにしてある。ここで、この実施例における方策勾配型強化学習のアルゴリズムについて簡単に説明する。学習には、まず現在の方策すなわちインタラクションパラメータΘを少し変動させたＴ通りの方策θ_ijを用意する。方策θ_ijは、インタラクションパラメータΘの各成分θ_jにランダムにε_j，０，−ε_jのいずれかを加えて生成する。ただし、変動ステップサイズε_jはパラメータ（インタラクションパラメータΘの成分）θ_j毎に異なる値でよい。

次に、それぞれの方策Ｒ_iに従ってインタラクションをＴ回行い、報酬を得る。Ｔ通りの方策θ_ijすべてについてインタラクションを行った後、報酬関数２００のインタラクションパラメータΘに対する勾配Ａを近似的に求める。各パラメータθ_jについて、ε_jを加えた時の平均報酬、０を加えた時の平均報酬、−ε_jを加えた時の平均報酬を、それぞれ求める。

０を加えた時の平均報酬が最も大きい場合には、各パラメータθ_jについての勾配Ａは０とする。一方、０を加えた時の平均報酬が最も大きくない場合には、各パラメータθ_jについての勾配Ａは、εを加えた時の平均報酬と−εを加えた時の平均報酬との差とする。勾配Ａを求めた後、勾配Ａを正規化して、ηを掛けたものに、各成分にε_jの重みをつけ、インタラクションパラメータΘを更新する。このＴ回のインタラクションとインタラクションパラメータΘの更新が１ステップである。これを繰り返すことで、報酬が極大となる、つまり人間１４が快いと感じるインタラクション行動を実行できる、インタラクションパラメータΘに更新される。

図７に示すように、ＣＰＵ７６は、全体処理を開始すると、ステップＳ１で、インタラクションの相手（たとえば、人間１４）が過去にインタラクションしたことのある人物であるかどうかを判断する。図示は省略するが、たとえば、人間１４にタグを装着させて、タグの受信機をロボット１２に設けておき、データベース１０２を参照して、タグの識別情報（タグ情報または番号）に対応する人物についてのインタラクションパラメータΘが記憶されているかどうかを判断する。ここで、その人物についてのインタラクションパラメータΘが記憶されている場合には、過去にインタラクションしたことがあると判断することができる。一方、その人物についてのインタラクションパラメータΘが記憶されていない場合には、過去にインタラクションしたことがないと判断することができる。

ステップＳ１で“ＹＥＳ”であれば、つまり過去にインタラクションしたことがあれば、ステップＳ３で、インタラクションパラメータΘをデータベース１０２から読み出し、変数Θに代入して、ステップＳ１１に進む。一方、ステップＳ１で“ＮＯ”であれば、つまり過去にインタラクションしたことがなければ、ステップＳ５で、インタラクションの相手に似た人物とインタラクションした経験があるかどうかを判断する。

この実施例では、似た人物か否かは、人物の顔（主に形状）と身長とに基づいて判断される。人物の顔や身長は、ロボット１２に設けられた眼カメラ５４の撮影画像（顔画像および全身画像）に基づいて判断（推定）される。上述したように、インタラクションした人物についての顔画像と推定した身長とを、タグ情報に対応してデータベース１０２に記憶しておくので、現在インタラクションしている人物の顔画像および推定した身長と比較することにより、似た人物が存在するかどうかを判断することができる。つまり、似た人物とインタラクションした経験があるかどうかを判断することができるのである。

ステップＳ５で“ＹＥＳ”であれば、つまり似た人物とインタラクションした経験があれば、ステップＳ７で、似た人物のインタラクションパラメータΘをデータベース１０２か読み出し、変数Θに代入して、ステップＳ１１に進む。一方、ステップＳ５で“ＮＯ”であれば、つまり似た人物とインタラクションした経験がなければ、ステップＳ９で、平均的なインタラクションパラメータΘをデータベース１０２から読み出し、変数Θに代入して、ステップＳ１１に進む。ここで、平均的なインタラクションパラメータΘは、たとえば、データベース１０２に記憶してあるすべてのインタラクションパラメータΘの平均値である。

なお、図示は省略するが、初めて全体処理を実行する場合には、インタラクションパラメータΘはデータベース１０２に記憶されていないため、ユーザによって初期値が設定（入力）される。

ステップＳ１１では、インタラクション回数ｉを初期化（ｉ＝１）する。続くステップＳ１３では、変数Θに基づいて今回試すインタラクションパラメータΘ_iの決定処理（図９参照）を実行する。なお、この決定処理については、後で詳細に説明するため、ここではその詳細な説明は省略する。次に、ステップＳ１５では、インタラクション行動を実行する。ただし、ここでは、予め用意されている複数のインタラクション行動のうち、いずれか１つのインタラクション行動がランダム（所定のルール）或いは人間１４の振る舞いに応じて選択的に実行される。

続いて、ステップＳ１７では、インタラクションの評価を算出し、変数Ｒ_iに代入する。ここで、インタラクションの評価は、上述した報酬関数２００（図５）に従って求められる報酬である。図８に示すように、次のステップＳ１９では、インタラクション回数ｉを１加算（ｉ＝ｉ＋１）する。そして、ステップＳ２１では、インタラクション回数ｉが所定回数Ｔ（たとえば、１０）を超えたかどうかを判断する。ステップＳ２１で“ＮＯ”であれば、つまりインタラクション回数ｉが所定回数以下であれば、図７に示したステップＳ１３に戻る。一方、ステップＳ２１で“ＹＥＳ”であれば、つまりインタラクション回数ｉが所定回数Ｔを超えていれば、ステップＳ２３で、インタラクションパラメータΘの更新処理（図１０参照）を実行して、ステップＳ２５で、インタラクションの終了かどうかを判断する。ここでは、たとえば、インタラクションの終了指示が入力されたり、一定時間が経過したりしたかを判断しているのである。

ステップＳ２５で“ＮＯ”であれば、つまりインタラクションの終了でなければ、図７に示したステップＳ１１に戻る。一方、ステップＳ２５で“ＹＥＳ”であれば、つまりインタラクションの終了であれば、更新された変数Θを、インタラクション相手に対応するインタラクションパラメータΘとして、データベース１０２に登録（更新）して、全体処理を終了する。

図９は、図７に示したステップＳ１３の今回試すインタラクションパラメータΘ_iの決定処理を示すフロー図である。この図９を参照して、ＣＰＵ７６は、今回試すインタラクションパラメータΘ_iの決定処理を開始すると、ステップＳ４１で、変数ｊに初期値を設定する（ｊ＝１）。続くステップＳ４３では、０，ε_j，−ε_jからランダムに１つ選択し、変数Δに代入する。次のステップＳ４５では、今回試すインタラクションパラメータΘ_iの第ｊ番目の成分θ_ijを算出する（θ_ij＝θ_j＋Δ）。続いて、ステップＳ４７で、変数ｊをインクリメントする（ｊ＝ｊ＋１）。そして、ステップＳ４９で、変数ｊがインタラクションパラメータΘ（インタラクションパラメータベクトル）の大きさ（全成分θ_jの個数）ｎを超えているかどうかを判断する。ステップＳ４９で“ＮＯ”であれば、つまり変数ｊがインタラクションパラメータΘの大きさｎ以下であれば、そのままステップＳ４３に戻る。一方、ステップＳ４９で“ＹＥＳ”であれば、つまり変数ｊがインタラクションパラメータΘの大きさｎを超えていれば、今回試すインタラクションパラメータΘ_iを決定したと判断して、今回試すインタラクションパラメータΘ_iの決定処理をリターンする。

図１０は、図８に示したステップＳ２３におけるインタラクションパラメータΘの更新処理を示すフロー図である。図１０を参照して、ＣＰＵ７６は、インタラクションパラメータΘの更新処理を開始すると、ステップＳ６１で、変数ｊに初期値を設定する（ｊ＝１）。続くステップＳ６３では、今回試したインタラクションパラメータΘ_iについて、θ_ijをθ_jとした場合の平均報酬Ｒ０，θ_ijをθ_j＋ε_jとした場合の平均報酬Ｒ１，θ_ijをθ_j−ε_jとした場合の平均報酬Ｒ２を、それぞれ求める。ただし、θ_jはインタラクションパラメータ（ベクトル）Θの第ｊ成分であり、θ_ijはインタラクションパラメータΘ_iの第ｊ成分であり、ε_jはインタラクションパラメータΘの第ｊ成分を変動させる値である。

次にステップＳ６５では、ステップＳ６３で算出したＲ０，Ｒ１，Ｒ２を用いて、Ｒ０＞Ｒ１であり、かつＲ０＞Ｒ２であるかどうかを判断する。ステップＳ６５で“ＹＥＳ”であれば、つまりＲ０＞Ｒ１であり、かつＲ０＞Ｒ２であれば、ステップＳ６５で、勾配Ａの第ｊ成分ａ_jに０を設定（ａ_j＝０）して、ステップＳ７１に進む。一方、ステップＳ６５で“ＮＯ”であれば、つまりＲ０≦Ｒ１およびＲ０≦Ｒ２の少なくとも一方を満たしていれば、ステップＳ６９で、勾配Ａの第ｊ成分ａ_jに平均報酬Ｒ１と平均報酬Ｒ２の差分（ａ_j＝Ｒ１−Ｒ２）を設定して、ステップＳ７１に進む。

ステップＳ７１では、変数ｊをインクリメントする。そして、ステップＳ７３では、変数ｊがインタラクションパラメータΘの大きさｎを超えているかどうかを判断する。ステップＳ７１で“ＮＯ”であれば、つまり変数ｊがインタラクションパラメータΘの大きさｎを超えていれば、ステップＳ６３に戻る。一方、ステップＳ７３で“ＹＥＳ”であれば、つまり変数ｊがインタラクションパラメータΘの大きさｎ以下であれば、ステップＳ７５で、勾配Ａを正規化（Ａ＝Ａ／｜Ａ｜）する。続くステップＳ７７では、勾配Ａの第ｊ成分ａ_jを更新（ａ_j＝ａ_j×ε_j×η）する。ただし、ηはスカラーであり、全体としての更新の大きさを決定するパラメータである。そして、ステップＳ７９で、インタラクションパラメータΘを更新（Θ＝Θ＋Ａ）して、インタラクションΘの更新処理をリターンする。

このような構成のロボット１２を実際に人間（被験者）との間でインタラクションさせて、インタラクションパラメータΘを更新させるとともに、被験者がロボット１２とのインタラクションから受けた印象（快・不快）等から強化学習によるパラメータΘの適応度を実験により検証した。上述したように、インタラクションパラメータΘは、３種類の対人距離（親密距離、個体距離、社会距離）、人の顔の方向に眼カメラ５４を向ける時間の長さ（注視時間）、発話からモーション再生（インタラクション行動の開始）までの遅れ時間、モーション再生速度である。ロボット１２に用意するすべのモーション（インタラクション行動）は、対人距離によって分類し（図１２参照）、同じ分類に含まれるインタラクション行動では、同じ距離を用いた。１つののモーションに関係するインタラクションパラメータΘは距離、注視時間、遅れ時間、再生速度の4つの要素（パラメータθ_j）である。適応するパラメータθ_jを多くすると、学習に時間がかかってしまうため、インタラクションに大きな影響があると考えられる。また、パラメータθ_jは可能な限り少ない方が、実装が容易であるため、上述したようなパラメータθ_jを選択することとした。

また、人とロボット１２との距離（対人距離）は、それぞれの額間の水平距離とした。ロボット１２は５秒を１周期として、人の顔を見て、他の方向を向く。注視時間は、この人の顔を見る時間の５秒に対する割合とした。ここで、５秒を１周期としたのは、人と人とのインタラクションにおける注視の周期に合わせたためである。遅れ時間は、たとえばロボット１２が「握手してね」と発話してから、手を出すモーションを再生するまでの時間である。再生速度はモーションを作成した際の動きの速さを１としてある。

実験は、モーションキャプチャシステム２０を有する実験室において、精度良くモーションキャプチャが行える中央の所定範囲（４．５×３．５（ｍ））で行った。図１１に示すように、１２台のカメラ２０ａからなるモーションキャプチャシステム２０が備えられている。ただし、図１１においては、簡単のため、カメラ２０ａ以外のコンピュータ等は省略してある。このような構成で、実験領域内では１（ｍｍ）程度の測定精度がある。上述したように、マーカ３０が被験者（人間１４）とロボット１２の額と肩とに取り付けられ、そのマーカ３０からそれぞれの額の位置および方向を求めた。モーションキャプチャにより求められた位置と方向はロボット１２にＬＡＮのようなネットワークを介して送り、ロボット１２の動作決定と報酬関数２００の計算に用いた。実験中では、通信による時間遅れは０．１秒以内であり、この通信による遅れは無視することができた。

図１２には、実験のために用意したロボット１２の振る舞い（インタラクション行動）についての第１テーブルが示される。図１２を参照して分かるように、インタラクション行動としては、抱っこ(Hug)、握手(Shake hands) 、どこから来たの？(Ask where person comes from)、ロボビー（ロボット１２の商品名）ってかわいい？(Ask if robot is cute)、触ってね(Ask person to touch robot)、じゃんけん(Play paper-scissors-stone)、あっちむいてほい(Play pointing game)、運動(Perform arm-swinging exercise)、自己紹介(Hold “thank you” monologue)、相手を見る(just looking)の１０通りである。これらのインタラクションを、親密距離(intimate distance)、個体距離(personal distance)、社会距離(social distance)の３つの対人距離に、予備実験により分類した。なお、分類の予備実験では、８名の被験者を集めて、ロボット１２の位置を固定し、各被験者に、それぞれのインタラクションに適していると考える距離に移動してもらい、その距離を測定した。被験者間で多少の距離の差は見られたが、分散は小さく、分類に影響するほどではなかった。

次に実験の手順について説明する。実験開始時に、ロボット１２は、モーションキャプチャシステム２０の測定領域の中央に存在し、被験者はロボット１２の正面に立った状態から、リラックスして自然な気持ちでロボット１２とインタラクションするよう求められた。モーションキャプチャシステム２０の測定範囲内に存在することを要求した以外は、被験者に対してインタラクションについて何も要求していない。

実験においては、ロボット１２と各被験者との間で、約３０分間のインタラクションを行った。この３０分の間に、上述した１０個のインタラクション行動をランダムに実行した。詳細な説明は省略するが、いずれのインタラクション行動を実行する場合にも、ロボット１２は、その腕や頭の動きを伴う。つまり、身体動作を伴うのである。たとえば、抱っこ(hug)では、ロボット１２が「抱っこしてね」と発声し、腕を広げ、これに応じて、人（被験者）がロボット１２の正面の適当な位置（距離）に立つと、その後、腕で当該人に抱きつく。３０分間のインタラクションを行い、上述したような強化学習を行った。また、上述したように、報酬関数２００はロボット１２が１つのインタラクション行動を終了(約１０秒)する毎に計算される。インタラクションパラメータΘの各成分（パラメータ）θ_jを少しずつ変化させ、Ｔ回（この実施例では、１０回）のインタラクションが終了すると、報酬からインタラクションパラメータΘの変動方向(勾配Ａ)を決定し、インタラクションパラメータΘを更新した。図１３には、各パラメータθ_jに対応して、各々の初期値およびステップサイズを示す第２テーブルが示される。具体的には、パラメータ「親密距離」では、初期値が５０（ｃｍ）であり、ステップサイズが１５（ｃｍ）である。パラメータ「個体距離」では、初期値が８０（ｃｍ）であり、ステップサイズが１５（ｃｍ）である。パラメータ「社会距離」では、初期値が１００（ｃｍ）であり、ステップサイズが１５（ｃｍ）である。パラメータ「注視時間」では、初期値が０．７であり、ステップサイズが０．１である。パラメータ「遅れ時間」では、初期値が０．１７（ｓ）であり、ステップサイズが０．３（ｓ）である。パラメータ「再生速度」では、初期値が１．０であり、ステップサイズが０．１である。

インタラクション後、被験者にロボット１２の動きとインタラクションについて、ロボット１２の動き、距離、視線の合わせ方の印象と、実験中それらがどのように変化していったかを聞き、個人距離の測定を行った。親密距離、個体距離、社会距離、それぞれについてモーションを行っているロボット１２の正面の適当と感じる位置へ被験者に立ってもらい、モーションキャプチャシステム２０で距離を測定した。ここでは、注視時間０．７５、遅れ時間０．３（ｓ）、再生速度１．０とし、親密距離についてはインタラクション「抱っこ」を用い、個体距離についてはインタラクション「握手」を用い、社会距離についてはインタラクション「ありがとう(Hold “thank you” monologue)」を用いた。また、適当と感じる距離からロボット１２を近づけた場合と、逆にロボット１２を遠ざけた場合とで、被験者が距離を適切でないと感じる位置を測定した。

さらに、１つのパラメータθ_jのみを低、中、高と３通りに変化させ、他のパラメータθ_jを全被験者の平均値に固定した場合のロボット１２のインタラクションモーションを被験者に見せ、適切と感じるものを選択してもらった。注視時間と再生速度の測定には、「ありがとう」のモーションを用い、人との距離は１．０（ｍ）とした。遅れ時間の測定には、「抱っこ」のモーションを用い、距離についてはロボット１２の移動を止めて、被験者に適切と思われる位置に立ってもらった。これは、親密距離は個人差が大きかったためである。被験者の中には、複数の値で適切であると感じた者や中間の値が適切であると感じた者がいた。

このような実験を１５名の被験者に対して行った。被験者は、１名を除き、日本人で、全員がロボット１２の発話を聞き取ることが出来た。被験者の年齢は２０才から３５才で、多くは２０才から２５才であった。また、被験者のうち、６名が女性で、残りは男性であった。ただし、被験者の中に、ロボット１２について知っている者が多少いた。

被験者のうち、３名は我々が期待したようには振舞わなかった。具体的には、ロボット１２のインタラクションが適当なものであっても、そうでなくても、顔の方向を変えたり、立ち位置を変えることなく、感想を言葉でロボット１２或いは実験者に述べたり、顔に表出したりするのみであった。このような被験者は、想定しているインタラクション評価モデルには当てはまらず、システム１０（強化学習の処理）は正しく動作しない。したがって、以下に説明する実験結果においては、これら被験者（３名の被験者）の結果を除いている。それ以外の多くの被験者に対しては、１５分から２０分(約１０回のＰＧＲＬのパラメータ更新)で適切な値にインタラクションパラメータΘが収束した。

図１４（Ａ），（Ｂ），（Ｃ）には、１２名の被験者の距離（親密距離、個体距離、社会距離）について、適応の結果得られた値と被験者が適当と判断した値を示す。距離に関しては、全インタラクション最後の１／４の期間(約７分半)の平均を示している。これはＰＧＲＬが常に極所最適値を探索しているためである。図１４（Ａ）〜（Ｃ）において、「＊」印が適応した結果であり、縦棒は被験者を示し、横棒のうち短い棒は許容限度（許容範囲）を示し、横棒のうち長い棒は最適とした値（最適値）を示す。

図１５（Ａ），図１５（Ｂ）および図１５（Ｃ）は、注視時間(motion meeting ratio)、遅れ時間(waiting time)、モーション再生速度(motion speed)についての結果を示す。図１５（Ａ）〜図１５（Ｃ）において、「○」印は被験者が適当と判断した値であり、「＊」印は適応結果(全インタラクション最後の１／４の期間の平均)である。ただし、２つの値の中間が適当とした被験者については、中間に「▽」印を記してある。図１４（Ａ）〜図１４（Ｃ）および図１５（Ａ）〜図１５（Ｃ）から、被験者の判断との一致度合はパラメータθ_jによって大きく異なると言える。これは、それぞれのパラメータθ_jのインタラクションへの重要性が異なり、報酬へ寄与の大きいパラメータθ_jから収束し、許容範囲の広いパラメータθ_jの収束は遅くなるためである。

また、ロボット１２がよく適応できていた被験者の印象には、パラメータθ_jの変化があまり含まれない傾向があった。これは、自然な適応が行われると、パラメータθ_jの適応が認識されなくなる可能性を示唆している。

図１６は、各パラメータθ_jの最適とされる値（最適値）からの分散を１２名の被験者について平均した第３テーブルを示す。分散は、全インタラクションについての最後の１／４期間について計算した。これは、最後の１／４期間中におけるパラメータθ_jの変動の影響を分散に含めるためである。また、各パラメータθ_jは、その更新のステップサイズが１になるように正規化している。なお、図１６の第３テーブルでは、参考のため、右端に初期値の分散を示している。第３テーブルからも分かるように、個人距離、社会距離を除いて、ステップサイズの１．１倍以下になっている。許容される範囲は、個人距離についてはステップサイズの３倍であり、社会距離に関しては５倍であった。社会距離に関しては、1人の被験者を除き、適応結果は許容範囲に入った。したがって、ＰＧＲＬに基づいた適応により各パラメータθ_jは適切な値に収束したと言える。より誤差を小さくするには、ステップサイズをより小さくしたり、適応が進むにつれて徐々に小さくしたりする必要があると考えられる。

また、第３テーブルに示すように、初期値もそれほど最適値から離れているわけではないが、最適値への収束には１０回程度の適応が必要となっている。ただし、図１４（Ａ）〜図１４（Ｃ）および図１５（Ａ）〜図１５（Ｃ）に示したように、被験者によっては、１５回〜２０回の適応でも最適値に収束しないパラメータθ_jがあった。また、報酬関数２００を意識し、現在のインタラクションパラメータΘに応じて、一貫して人が同じ振る舞いをした場合には、４〜５回の適応で収束した。なお、かかる場合には、シミュレーション上では、３〜４回で最適値へ収束することもあった。したがって、収束するまでに必要な適応の回数が多くなってしまう一因としては、人の動きが毎回一定ではないことが考えられる。以下では、適応結果により被験者を4つのグループに分け、更に詳細な実験結果を説明する。

まず、最適値への適応が良好であり、被験者の印象も良い場合について説明する。ロボット１２は、３名の被験者（被験者２，１０，１２）に対してスムーズに適応した。各パラメータθ_jの最適値への収束が見られ、この３名の被験者は、「インタラクションについて適当と感じる」と述べた。つまり、ロボット１２がインタラクションしたときのインタラクションパラメータΘが適切であったと言える。この３名の被験者に見られた共通点は、ロボット１２とのインタラクションを楽しみ、ロボット１２であることを意識せず、人に対する場合と同様にロボット１２と接していたことである。

図１７（Ａ）〜（Ｆ）は、被験者１０についての各パラメータθ_jの変化を示す。被験者１０は、「ロボット１２の振る舞い（インタラクション行動）の改善が速かった」と感想を述べている。図１７（Ａ）〜（Ｆ）からも分かるように、個体距離が若干最適値から離れているだけで、各パラメータθ_jは十分に最適値近くに収束しており、被験者１０の感想と一致する結果であると言える。また、被験者は、モーション開始のタイミング（遅れ時間）に関して許容範囲が広く、適応結果も許容範囲内に入っていることが分かる。

次に、一部のパラメータθ_jが最適値に収束していないが、被験者の印象がよい場合について説明する。２名の被験者（被験者５，８）は、「ロボット１２の動作について印象が良かった」と回答したが、一部のパラメータθ_jは最適値から大きく外れていた。図１８（Ａ）〜図１８（Ｆ）は、被験者５に対する各パラメータθ_jの変化を示す。図１８（Ａ）〜図１８（Ｆ）からも分かるように、３つの個人距離に関しては最適値に収束しており、モーション開始のタイミング（遅れ時間）に関しては許容範囲が広く、適切に学習したと言えるが、他の２つのパラメータθ_j（注視時間，再生速度）は最適値から大きく離れている。しかし、被験者５は、「注視時間、再生速度についても適当であった」と述べた。この原因としては、実験中の条件と最適値を測定した条件の違い、或いは、被験者５のパラメータθ_j（特に、注視時間，再生時間）の許容範囲が実際には広かったと考えられる。また、被験者５は、他の被験者には見られない行動（振る舞い）を行った。具体的には、この被験者５は、社会距離に分類される、ロボット１２が話すインタラクションにおいても、ロボット１２の各部を触っていた。その結果、社会距離が他の被験者と比較してかなり短くなっている。また、このような振る舞いを予期していなかったが、他の被験者と同じ報酬関数２００（図５参照）により、ロボット１２は被験者５が満足する適応が出来たと言える。

続いて、最適値へ収束（適応）したが、被験者が一部の適応について不満をもった場合について説明する。図１９（Ａ）〜（Ｆ）は、被験者７に対するロボット１２の各パラメータθ_jの適応を示す。各パラメータθ_jは最適値へ十分に収束しているように見られるが、被験者７は距離に関して近過ぎたと述べた。しかし、図１９（Ａ）〜（Ｃ）から分かるように、社会距離を除き被験者が許容する最も遠い距離近くに収束している。また、被験者７は、初期の印象としては「ためらった感じ」だったが、次第に「活発」になる印象を受けたと述べている。距離に関する印象が良くなかったのは、ロボット１２はＰＧＲＬによる適応により、被験者７の好みに合わせてモーションの再生速度を上げていったが、最適距離の測定はモーションの再生速度を「１」で行ったためと考えられる。この場合、被験者７にとっての最適距離は、より遠かった可能性がある。

次に、一部のパラメータθ_jが最適値へ収束せず、被験者も一部の適応に不満を持った場合について説明する。５名の被験者（被験者１，３，４，６，１１）については、一部のパラメータθ_jが最適値へ収束せず、各被験者もそれらのパラメータθ_jの適応結果については不満を述べた。図２０（Ａ）〜（Ｆ）は、被験者１に対するパラメータθ_jの変化の様子を示す。なお、この実験は、トラブルにより他の被験者よりも実験時間が２１分間と短くなっている。

図２０（Ａ）〜（Ｃ）を参照して分かるように、個体距離と社会距離とについては最適値へ収束しているが、親密距離については許容範囲に入っていない。これは、被験者１に対してロボット１２が取った親密距離が許容範囲外にあり、どの距離に対しても被験者１はほぼ同じ振る舞いであったため、最適な距離に近付くようパラメータθ_jを変化することができなかったと考えられる。また、被験者１は親密距離が不適当であったと述べている。図２０（Ｄ）に示すように、視線を合わせる頻度（注視時間）は、適応により約９０％になっている。被験者１は、注視時間については、１００％が最もよく、７５％〜５０％程度でもよいと述べたので、適当な値に収束していると言える。被験者１は、遅れ時間についてはあまり気にならないと述べ、再生速度についてはどの値でもよいと述べたため、親密距離以外はうまく適応したと言える。

図２１（Ａ）〜（Ｆ）は、被験者３に対するパラメータθ_jの変化の様子を示す。被験者３は、「個体距離が実験の前半で不適当であった」と指摘した。このことは、図２１（Ｂ）の個体距離のグラフと一致している。視線合わせ頻度（注視時間）については、図２１（Ｄ）示すように、適応の結果は７５％程度であり、最適値は１００％であったが、被験者３は「十分に満足できた」と述べた。親密距離の適応結果は、ロボット１２が安全のため人に接触しないように設けた下限の１５（ｃｍ）になっている。この被験者３は、タイミング（遅れ時間）については許容範囲が広かったため、図２１（Ｅ）に示すように、適応の結果は適当と言える。ただし、図２１（Ｆ）に示すように、被験者３では、再生速度の適応結果が最適値から大きく離れている。また、被験者３は、再生速度は不適当だったと述べている。これは、被験者３は、モーションが速すぎると、ロボット１２をじっと見る傾向があり、ロボット１２が再生速度を上げ過ぎて、報酬が誤って大きくなったためと考えられる。

最後に、上手く適応できなかった場合について説明する。図２２（Ａ）〜（Ｆ）は、被験者９に対するパラメータθ_jの変化の様子を示す。図２２（Ａ）〜（Ｆ）から分かるように、個人距離と視線合わせ頻度（注視時間）以外のパラメータθ_jは最適値から大きく離れている。被験者９は、「ロボビー（ロボット１２）に嫌われていて、ロボビーはいやいや普通に振舞うよう努力している印象を受けた」と述べている。実験中の様子からは大きな問題があるとは観察されなかったが、被験者９が素直にロボット１２に対して反応しなかった可能性がある。

以上より、ロボット１２の個人適応の実現を確認することができた。また、適応したロボット１２の振る舞いが自然に見えたという感想が被験者から得られている。個人適応は、より自然に人とインタラクションを行えるロボット１２の実現への重要な要素の一つであり、この実施例における手法はその一歩となると言える。

この実施例によれば、ＲＰＧＬによりロボットの振る舞いをインタラクション相手に合わせることができるので、人間同士がコミュニケーションするように、自然なコミュニケーションを実行することができる。

なお、これらの実施例では、モーションキャプチャシステムを用いて、ロボットおよび人間の３次元位置とロボットおよび人間の視線方向とを検出するようにしたが、これは他のセンサを用いて検出することも可能である。たとえば、ロボットに、ステレオカメラ（イメージセンサ）や超音波センサを搭載すれば、超音波センサの出力やステレオカメラによる視差で、人間との距離を測定することができる。また、人間の顔の向きは、カメラの画像から顔の向きをパターンマッチングして検出することができる。ただし、超音波センサとしては、ロボットに搭載されている超音波距離センサを用いたりすることが可能である。

また、この実施例では、方策勾配型強化学習により、インタラクションパラメータを更新するようにしたが、これに限定される必要はなく、他のアルゴリズムによって更新することもできる。たとえば、遺伝的アルゴリズムによりインタラクションパラメータを更新することができる。

さらに、この実施例では、今回試すインタラクションパラメータΘ_iの決定処理）（図９）では、ｉ番目に試すパラメータθ_jを決定する場合に、Δ（０，ε_j，−ε_j）を用いるようにしてあるが、これに限らず、乱数を用いることもできる。ただし、乱数を用いる場合には、これに従ってインタラクションパラメータΘの更新処理（図１０）も変更する必要がある。

さらにまた、この実施例では、対人距離として、親密距離、個体距離、社会距離を用いるようにしたが、これに限定されるべきではない。たとえば、握手専用の「握手距離」、挨拶用の「挨拶距離」のような他の距離を仮定して調整した方が良い結果が出る可能性がある。

図１はこの発明のコミュニケーションロボットシステムの一例を示す図解図である。図２は図１実施例に示すロボットの外観を説明するための図解図である。図３は図１および図２に示すロボットの電気的な構成を示す図解図である。図４はモーションキャプチャシステムで検出するマーカのロボットおよび人間の装着状態およびカメラの配置例を示す図解図である。図５は図１および図２に示すロボットのＣＰＵによって演算される報酬関数の機能ブロック図である。図６は図５に示す報酬関数において人間がロボットの方を向いていると判断される場合の角度を説明するための図解図である。図７は図３に示すＣＰＵの強化学習の処理の一部を示すフロー図である。図８は図３に示すＣＰＵの強化学習の処理の他の一部であり、図７に後続するフロー図である。図９は図３に示すＣＰＵのΘ_iの決定処理を示すフロー図である。図１０は図３に示すＣＰＵのΘの更新処理を示すフロー図である。図１１は図１に示すシステムを適用した実験環境を説明するための図解図である。図１２は対人距離に対するロボットの振る舞いを示す第１テーブルを示す図解図である。図１３は実験におけるパラメータの初期値およびステップサイズを示す第２テーブルを示す図解図である。図１４は１２名の被験者の距離について、適応の結果得られた値と被験者が適当と判断した値とを示す図解図である。図１５は１２名の被験者の注視時間、遅れ時間およびモーション再生速度についての適応の結果を示す図解図である。図１６は各パラメータの最適地からの分散を１２名の被験者について平均した値および初期値の分散を示す第３テーブルを示す図解図である。図１７は被験者１０についてのパラメータの変化の様子を示すグラフである。図１８は被験者５についてのパラメータの変化の様子を示すグラフである。図１９は被験者７についてのパラメータの変化の様子を示すグラフである。図２０は被験者１についてのパラメータの変化の様子を示すグラフである。図２１は被験者３についてのパラメータの変化の様子を示すグラフである。図２２は被験者９についてのパラメータの変化の様子を示すグラフである。

符号の説明

１０ …コミュニケーションロボットシステム
１２ …コミュニケーションロボット
２０ …モーションキャプチャシステム
３８ …衝突センサ
４２ …超音波距離センサ
５２ …全方位カメラ
５４ …眼カメラ
６４ …タッチセンサ
７６ …ＣＰＵ
８０ …メモリ
８２ …モータ制御ボード
８４ …センサ入力／出力ボード
８６ …音声入力／出力ボード
８８−９６ …モータ
９８ …通信ＬＡＮボード
１００ …無線通信装置
１０２ …データベース

Claims

人間との間でインタラクションするコミュニケーションロボットであって、
インタラクションについてのパラメータを設定するパラメータ設定手段、
前記パラメータ設定手段によって設定されたパラメータに従って発話および身体動作の少なくとも一方を含むインタラクションを実行するインタラクション実行手段、
インタラクション中における前記パラメータの適切度を検出する適切度検出手段、および
前記適切度検出手段によって検出された適切度を最適化する最適化手段を備える、コミュニケーションロボット。
インタラクション中における前記人間の移動距離を検出する移動距離検出手段、および
インタラクション中において前記人間がコミュニケーションロボット自身の顔を見る時間を検出する時間検出手段をさらに備え、
前記適切度検出手段は、前記パラメータ設定手段によって設定されたパラメータでインタラクションを実行したときの前記行動距離検出手段および前記時間検出手段の少なくとも一方の検出結果に基づいて、当該パラメータの適切度を検出する、請求項１記載のコミュニケーションロボット。
前記パラメータは、前記人間とのインタラクションにおける対人距離、前記人間の顔に自身の顔を向ける時間の長さ、発話から身体動作の動作開始までの遅れ時間および身体動作の動作速度の少なくとも１つを含む、請求項１または２記載のコミュニケーションロボット。
前記対人距離は、親密距離、個体距離および社会距離を含む、請求項３記載のコミュニケーションロボット。
前記最適化手段は、前記パラメータを更新するパラメータ更新手段を含む、請求項１ないし４のいずれかに記載のコミュニケーションロボット。
前記パラメータを前記人間に対応して記憶するパラメータ記憶手段、および
インタラクションの開始時に前記人間を識別する人間識別手段をさらに備え、
前記パラメータ設定手段は、前記人間識別手段によって識別された人間に対応するパラメータが前記パラメータ記憶手段によって記憶されているとき、当該パラメータを設定し、前記人間識別手段によって識別された人間に対応するパラメータが前記パラメータ記憶手段によって記憶されていないとき、前記パラメータ記憶手段によって記憶されているすべてのパラメータの平均値を設定する、請求項１ないし５のいずれかに記載のコミュニケーションロボット。