WO2021095464A1

WO2021095464A1 - ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット

Info

Publication number: WO2021095464A1
Application number: PCT/JP2020/039554
Authority: WO
Inventors: 真衣黒瀬; 竜米谷
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2019-11-13
Filing date: 2020-10-21
Publication date: 2021-05-20
Anticipated expiration: 2022-05-13
Also published as: JP2021077286A; EP4060446B1; JP7400371B2; EP4060446A4; EP4060446A1; CN114667494A; US20220397900A1; US12474704B2; CN114667494B

Abstract

ロボット制御モデル学習装置（１０）は、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を入力として、環境に介入する介入行動を含む複数の行動の中からロボットの状態に応じた行動を選択して出力するロボット制御モデルを、介入行動を実行した介入回数をマイナスの報酬として強化学習する。

Description

ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット

　開示の技術は、ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボットに関する。

　ＲＲＴ(Rapidly-exploring Random Tree) やＰＲＭ (Probabilistic RoadMap) に代表される経路計画手法では、サンプルされた空間上の各地点をノードとしたグラフ探索を行うことにより初期位置から目的位置への経路を導出する。

　これらの手法は、静的で既知な環境を対象としており、動的な環境下では環境が変化する度に「再計画」を行う必要がある。

　既存の「再計画」手法は、環境変化に応じてマップを更新し、連続的に変形可能な別の大域的経路を探索することを基本とするが、群衆環境のような密集・連続的に変化が生じるような環境では解が見つからず、再計画においてロボットの停止が頻繁に起こり得る。

　また、群衆などの混雑環境下では、単純には断続的に目の前の障害物を除去し続け環境に多大なストレスを与えてしまう。

　非特許文献１（Decentralized Non-communicating Multiagent Collision Avoidance with Deep Reinforcement Learning https://arxiv.org/pdf/1609.07845）には、深層強化学習によって衝突回避方策を獲得する技術が開示されている。非特許文献１に開示の技術では、周辺のエージェントと衝突を回避しながら目的地に対する到達時間を最小化する方策を獲得する。

　非特許文献２（Socially Aware Motion Planning with Deep Reinforcement Learning https://arxiv.org/pdf/1703.08862.pdf）には、非特許文献１に開示の技術を改良した技術が開示されている。非特許文献２に開示の技術では、人間の衝突回避行動の特性を加味した報酬関数にソーシャルノルム（社会規範）を加えることにより、社会的に自然な回避行動を実現している。

　非特許文献３（ZMP https://news.mynavi.jp/article/20180323-604926/）には、経路計画上の障害物（人間）に対して道を譲るよう働きかける介入行動を行うことにより、ロボット自身の経路計画を変更せずに自律走行する技術が開示されている。

　しかしながら、上記非特許文献１、２に開示の技術は、何れも環境に対する消極的な衝突回避行動のみを扱い、介入行動は扱わない。

　また、非特許文献１、２に開示の技術は、少数のエージェントとのインタラクションが想定されたものであり、群衆環境下は想定されていない。

　また、非特許文献３に開示の技術のように、単純な方策による介入は、実装は容易であるものの、介入の頻度が高くなると環境側のストレスの要因となると共に、周囲の歩行者グループの輸送効率を悪化させてしまう場合がある。

　開示の技術は、上記の点に鑑みてなされたものであり、動的な環境においてロボットを目的地へ移動させる場合に、ロボットが周囲の環境に介入する介入行動の回数を少なくすることができるロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボットを提供することを目的とする。

　開示の第１態様は、ロボット制御モデル学習方法であって、コンピュータが、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を入力として、前記環境に介入する介入行動を含む複数の行動の中から前記ロボットの状態に応じた行動を選択して出力するロボット制御モデルを、前記介入行動を実行した介入回数をマイナスの報酬として強化学習する学習工程を備える。

　上記第１態様において、前記行動は、前記ロボットの移動方向、前記ロボットの移動速度、及び前記介入行動の少なくとも１つを含み、前記報酬は、前記ロボットが前記目的地に到着するまでの到着時間及び前記介入回数の少なくとも一方が小さくなるように与えられるようにしてもよい。

　上記第１態様において、前記行動は、前記ロボットが他の物体との衝突を回避する回避行動を含み、前記報酬は、前記衝突を回避する回避回数が小さくなるように与えられるようにしてもよい。

　上記第１態様において、前記学習工程は、前記ロボットの状態を表す状態価値関数を更新することにより強化学習するようにしてもよい。

　開示の第２態様は、ロボット制御モデル学習装置であって、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を入力として、前記環境に介入する介入行動を含む複数の行動の中から前記ロボットの状態に応じた行動を選択して出力するロボット制御モデルを、前記介入行動を実行した介入回数をマイナスの報酬として強化学習する学習部を含む。

　開示の第３態様は、ロボット制御モデル学習プログラムであって、コンピュータに、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を入力として、前記環境に介入する介入行動を含む複数の行動の中から前記ロボットの状態に応じた行動を選択して出力するロボット制御モデルを、前記介入行動を実行した介入回数をマイナスの報酬として強化学習する学習工程を含む処理を実行させる。

　開示の第４態様は、ロボット制御方法であって、コンピュータが、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得工程と、前記状態情報と、ロボット制御モデル学習方法により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御工程と、を含む処理を実行する。

　開示の第５態様は、ロボット制御装置であって、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得部と、前記状態情報と、ロボット制御モデル学習装置により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御部と、を含む。

　開示の第６態様は、ロボット制御プログラムであって、コンピュータに、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得工程と、前記状態情報と、ロボット制御モデル学習方法により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御工程と、を含む処理を実行させる。

　開示の第７態様は、ロボットであって、動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得部と、前記ロボットを自律走行させる自律走行部と、前記状態情報と、ロボット制御モデル学習装置により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御部と、を含むロボット制御装置と、を備える。

　開示の技術によれば、動的な環境においてロボットを目的地へ移動させる場合に、ロボットが周囲の環境に介入する介入行動の回数を少なくすることができる。

ロボット制御モデル学習システムの概略構成を示す図である。ロボット制御モデル学習装置のハードウェア構成を示すブロック図である。ロボット制御モデル学習装置の機能構成を示すブロック図である。ロボットが群衆の中を目的地まで移動する様子を示す図である。ロボット制御モデル学習装置によるロボット制御モデル学習処理の流れを示すフローチャートである。ロボット制御装置の機能構成を示すブロック図である。ロボット制御装置のハードウェア構成を示すブロック図である。ロボット制御装置によるロボット制御処理の流れを示すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。

　図１は、ロボット制御モデル学習システム１の概略構成を示す図である。

　図１に示すように、ロボット制御モデル学習システム１は、ロボット制御モデル学習装置１０及びシミュレータ２０を備える。シミュレータ２０については後述する。

　次に、ロボット制御モデル学習装置１０について説明する。

　図２は、ロボット制御モデル学習装置１０のハードウェア構成を示すブロック図である。

　図２に示すように、ロボット制御モデル学習装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、モニタ１６、光ディスク駆動装置１７及び通信インタフェース１８を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　本実施形態では、ストレージ１４には、ロボット制御モデル学習プログラムが格納されている。ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ１１は、ストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ストレージ１４に記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、キーボード１５１、及びマウス１５２等のポインティングデバイスを含み、各種の入力を行うために使用される。モニタ１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。モニタ１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。光ディスク駆動装置１７は、各種の記録媒体(ＣＤ－ＲＯＭ又はブルーレイディスクなど)に記憶されたデータの読み込みや、記録媒体に対するデータの書き込み等を行う。

　通信インタフェース１８は、シミュレータ２０等の他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、ロボット制御モデル学習装置１０の機能構成について説明する。

　図３は、ロボット制御モデル学習装置１０の機能構成の例を示すブロック図である。

　図３に示すように、ロボット制御モデル学習装置１０は、機能構成として、状態価値算出部３０及び行動選択部３２を有する。各機能構成は、ＣＰＵ１１がストレージ１４に記憶されたロボット制御プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。なお、状態価値算出部３０及び行動選択部３２は、学習部の一例である。

　本実施形態では、価値ベース（Ｖａｌｕｅ－Ｂａｓｅｄ）の深層強化学習により後述する状態価値関数を学習する場合について説明する。

　状態価値算出部３０は、シミュレータ２０から状態情報を取得する。シミュレータ２０は、例えば図４に示すように、自律走行型のロボットＲＢが、目的地ｐ_ｇまで移動する場合に、ロボットＲＢの周囲に存在する人間ＨＢ等のように、移動する物体を含む動的な環境をシミュレーションする機能を有する。シミュレータ２０は、ロボットＲＢの状態及びロボットＲＢの周囲の環境に関する状態情報を状態価値算出部３０に出力する。

　ここで、状態情報とは、ロボットＲＢの状態に関するロボット情報、ロボットＲＢの周囲の環境に関する環境情報、及びロボットＲＢが到達すべき目的地に関する目的地情報を含む。

　ロボット情報は、ロボットＲＢの位置及び速度の情報を含む。本実施形態では、ロボットＲＢの速度ｖを以下のように二次元座標系におけるベクトルで表す。

ｖ＝｛ｖ_ｘ、ｖ_ｙ｝

　また、本実施形態では、ロボットＲＢの位置ｐを以下のように二次元座標系における座標で表す。

ｐ＝｛ｐ_ｘ、ｐ_ｙ｝

　本実施形態では、時刻ｔにおけるロボットＲＢの状態ｓ_ｔを以下のように表す。

ｓ_ｔ＝｛ｐ_ｘ、ｐ_ｙ、ｖ_ｘ、ｖ_ｙ、ｒ_ｂ｝

　ここで、ｒ_ｂは、ロボットＲＢの影響半径を表す。後述するように、影響半径ｒ_ｂは、ロボットＲＢとロボットＲＢ以外の他の物体とが衝突したか否かを判定する際に用いられる。

　環境情報は、動的な環境に関する情報、具体的には、例えばロボットＲＢの周囲に存在する人間ＨＢ等の移動する物体の位置及び速度の情報を含む。本実施形態では、環境情報が、人間ＨＢに関する情報である場合について説明する。

　本実施形態では、図４に示すように、ロボットＲＢの周囲の人間ＨＢの状態~ｓ_ｔを以下のように表す。なお、本実施形態では、便宜上、数式等において、「~（チルダ）」、「＾（ハット）」の記号が文字の上に付されている文字を表記する場合、当該記号を文字の前に表記する場合がある。

　ここで、Ｎは周囲に存在する人間ＨＢの数である。そして、~ｓ_ｔ ^１、~ｓ_ｔ ^２、・・・~ｓ_ｔ ^Ｎは、各人間ＨＢのｔ時刻における状態、すなわち位置及び速度を表す。

　また、本実施形態では、時刻ｔにおけるロボットＲＢの状態ｓ_ｔ及びロボットＲＢの周囲に存在する人間ＨＢの状態~ｓ_ｔを結合した状態ｓ_ｔ ^ｊｎを以下のように表す。

　目的地情報は、目的地ｐ_ｇの位置情報を含む。目的地の位置ｐ_ｇは、以下のように二次元座標系における座標で表す。

ｐ_ｇ＝｛ｐ_ｇｘ、ｐ_ｇｙ｝

　状態価値算出部３０は、取得した状態情報に基づいて、報酬関数Ｒ（ｓ^ｊｎ、ａ）を用いて報酬ｒを算出する。ここで、ａは行動を表し、ロボットＲＢの移動方向、移動速度、介入行動、及び回避行動の少なくとも１つを含む。そして、報酬ｒは、ロボットＲＢが目的地ｐ_ｇに到着するまでの到着時間、介入行動が実行された回数である介入回数、及びロボットＲＢが衝突を回避する回避回数が小さくなるように与えられる。

　ここで、介入行動とは、ロボットＲＢが停止せずに移動するために、周囲の人間ＨＢに対してロボットＲＢの存在を報知する行動である。具体的には、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らしたりする等の行動であるが、介入行動はこれらに限られるものではない。また、回避行動とは、ロボットＲＢが他の物体との衝突を回避する行動であり、他の物体を避けることができる方向及び速度で移動する行動をいう。

　本実施形態では、報酬関数Ｒ（ｓ^ｊｎ、ａ）を以下のように設定する。なお、以下では単に報酬関数Ｒと称する場合がある。

　ここで、ｒ_ｅは環境から得られる報酬、ｒ_ｃは介入による影響報酬である。また、αは報酬ｒ_ｅの重み、βは報酬ｒ_ｃの重みであり、任意の値に設定される。報酬ｒ_ｅ、報酬ｒ_ｃは、以下のように表される。

　ここで、ｄは、ロボットＲＢと人間ＨＢとが衝突しているか否かを判定するために用いられる距離であり、次式で表される。

　ｄ＝Ｄ－（ｒ_ｂ＋ｒ_ｈ）

　Ｄは、ロボットＲＢと人間ＨＢとの距離を表す。ｒ_ｂは、前述したロボットＲＢの影響半径であり、ｒ_ｈは人間ＨＢの影響半径である。なお、ｒ_ｂ＝ｒ_ｈとしてもよいし、ｒ_ｂ≠ｒ_ｈとしてもよい。ｄが０未満の場合は、ロボットＲＢの影響半径ｒ_ｂ内の領域と人間ＨＢの影響半径ｒ_ｈ内の領域とが一部重なり合った状態、すなわちロボットＲＢと人間ＨＢとが接近した状態を表す。本実施形態では、ｄが０未満の場合は、ロボットＲＢと人間ＨＢとが衝突したものとみなす。

　また、ｂ_ｔは、時刻ｔにおいてロボットＲＢが周囲の環境に対して介入行動を行ったか否かを示す介入パラメータである。介入パラメータｂ_ｔが「０」の場合は介入行動を行っていないことを表す。一方、介入パラメータが「０」以外の値の場合は、ロボットＲＢが介入行動を行ったことを表す。

　上記に示すように、報酬ｒ_ｅは、距離ｄが０未満、すなわちロボットＲＢが人間ＨＢと衝突したとみなせる場合は「ε_ｃ」となる。

　また、報酬ｒ_ｅは、ロボットＲＢの位置ｐが目的地ｐ_ｇに到達した場合は、「ε_ｇ」となる。ここで、報酬ε_ｇが取り得る値の範囲は、０≦ε_ｇ≦１である。そして、報酬ε_ｇは、目的地ｐ_ｇに到着するまでの到着時間が遅くなるほど小さい値となるように、すなわち「０」に近づくように与えられる。また、報酬ε_ｇは、目的地ｐ_ｇに到着するまでの到着時間が早くなるほど大きい値となるように、すなわち「１」に近づくように与えられる。

　また、報酬ｒ_ｅは、上記以外の場合「０」となる。

　また、報酬ｒ_ｃは、介入パラメータｂ_ｔが「０」以外の値の場合は「ε_ｂ」となる。すなわち、ε_ｂは、介入行動に関する報酬と言える。また、介入パラメータｂ_ｔが「０」の場合は、報酬ｒ_ｃは「０」となる。

　ここで、ε_ｃ、ε_ｂは、ネガティブな報酬として０未満の値、すなわちマイナスの値に設定される。すなわち、ε_ｃは衝突回避に関する報酬、ε_ｂは介入行動に関する報酬と言える。なお、ε_ｃを距離ｄの関数で表してもよい。また、ε_ｂを介入パラメータｂ_ｔの関数で表してもよい。

　また、状態価値算出部３０は、時刻ｔにおける状態の価値ｙ_ｔを状態価値関数Ｖ（ｓ_ｔ ^ｊｎ）を用いた次式により算出する。

　　　・・・（１）

　ここで、ｒ_ｔは報酬関数Ｒにより算出された時刻ｔにおける報酬である。また、Δｔは、１ステップにおける時間の増加分である。また、γは報酬の割引率であり、以下のように定義される。

　すなわち、割引率γは、０以上且つ１以下の値を取り得る。また、割引率γは、遠い将来に得られる報酬ほど割り引いて評価されるような値に設定される。

　状態価値関数Ｖ（ｓ_ｔ ^ｊｎ）は、後述する方策関数πを用いて選択された方策において、ロボットＲＢ及び周囲の人間ＨＢが状態ｓ^ｊｎであることの価値を表す関数であり、次式で表される。ここで、「＊」は、最適であることを表しており、Ｖ^＊は最適な状態価値関数を、π^＊は最適な方策関数を表す。なお、以下では、単に状態価値関数Ｖと称する場合がある。

　　　・・・（２）

　上記（２）式は、状態価値関数Ｖ（ｓ_ｔ ^ｊｎ）が、割引率γで割り引かれた、将来得られる報酬を累積した割引累積報酬和、すなわち期待報酬であることを示している。本実施形態では、状態価値関数Ｖを、ディープニューラルネットワーク（Ｖａｌｕｅ－ｎｅｔｗｏｒｋ）を用いて近似する。以下では、状態価値関数Ｖを表すディープニューラルネットワークをＶネットワークと称する。

　状態価値算出部３０は、Ｖネットワークを学習する。本実施形態では一例としてＥｘｐｅｒｉｅｎｃｅ　ｒｅｐｌｙ　ｂｕｆｆｅｒを用いた勾配降下法によりＶネットワークを学習する。すなわち、バッファＥに状態Ｓ_ｔ ^ｊｎ、価値ｙ_ｔを記憶しておき、バッファＥからランダムに状態Ｓ_ｔ ^ｊｎ、価値ｙ_ｔのペアを読み出し、読み出したペアを教師データとしてＶネットワークを学習する。すなわちＶネットワークのパラメータを更新する。

　行動選択部３２は、状態価値算出部３０が算出した状態の価値に基づいて、ロボットＲＢがとるべき行動ａ_ｔを選択する。行動ａ_ｔは、下記（３）式で示される方策関数π（ｓ_ｔ ^ｊｎ）を用いて選択される。なお、以下では単に方策関数πと称する場合がある。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（３）

　ここで、Ｐ（ｓ_ｔ ^ｊｎ、ｓ_ｔ＋Δｔ ^ｊｎ｜ａ_ｔ）は、行動ａ_ｔを選択した場合の状態遷移確率を表す。

　行動選択部３２は、方策関数π（ｓ_ｔ ^ｊｎ）により選択された行動ａ_ｔをシミュレータ２０に出力する。これにより、シミュレータ２０は、シミュレーションによりロボットＲＢに行動ａ_ｔを実行させる。例えば行動ａ_ｔが、移動方向ｍ_ｔ及び移動速度ｖ_ｔで移動することであった場合は、シミュレータ２０は、シミュレーションにおいて移動方向ｍ_ｔ及び移動速度ｖ_ｔでロボットＲＢを移動させる。また、行動ａ_ｔが介入行動であった場合は、シミュレータ２０は、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らす等の介入行動を実行した場合に周囲の人間ＨＢが取り得る回避行動をシミュレーションする。このようにロボットＲＢが行動ａ_ｔを実行することにより、ロボットＲＢの状態ｓ_ｔ及び周囲の人間ＨＢの状態~ｓ_ｔも変化する。そして、変化後の状態について、上記と同様に、報酬ｒの算出、状態価値Ｖの算出、行動ａの選択及び実行、Ｖネットワークのパラメータの更新の処理を繰り返すことにより、Ｖネットワークを学習する。

　このように、ロボット制御モデル学習装置１０は、機能的には、状態情報を入力し、入力した状態情報に対応する行動を選択して出力するロボット制御モデルと言える。

　次に、ロボット制御モデル学習装置１０の作用について説明する。

　図５は、ロボット制御モデル学習装置１０によるロボット制御モデル学習処理の流れを示すフローチャートである。ＣＰＵ１１がストレージ１４からロボット制御モデル学習プログラムを読み出して、ＲＡＭ１３に展開し実行することにより、ロボット制御モデル学習処理が行なわれる。

　ステップＳ１００では、ＣＰＵ１１が、状態価値算出部３０として、目的地ｐ_ｇの位置情報をシミュレータ２０から取得する。

　ステップＳ１０２では、ＣＰＵ１１が、状態価値算出部３０として、状態価値関数Ｖを初期化する。すなわち、Ｖネットワークのパラメータを初期化する。

　ステップＳ１０４では、ＣＰＵ１１が、状態価値算出部３０として、ロボットＲＢの状態ｓ_ｔを初期化する。

　ステップＳ１０６では、ＣＰＵ１１が、状態価値算出部３０として、周囲の人間ＨＢの状態~ｓ_ｔを初期化する。

　ステップＳ１０８では、ＣＰＵ１１が、行動選択部３２として、ロボットＲＢが最初にとる行動ａを設定し、設定した行動ａをシミュレータ２０に出力することによりロボットＲＢに行動ａを実行させる。これにより、シミュレータ２０は、シミュレーションにおいて行動ａを実行する。

　ステップＳ１１０では、ＣＰＵ１１が、状態価値算出部３０として、シミュレータ２０からロボットＲＢの状態ｓ_ｔを取得する。

　ステップＳ１１２では、ＣＰＵ１１が、状態価値算出部３０として、シミュレータ２０から周囲の人間ＨＢの状態~ｓ_ｔを取得する。

　ステップＳ１１４では、ＣＰＵ１１が、状態価値算出部３０として、シミュレータ２０から取得したロボットＲＢ及び周囲の人間ＨＢの状態ｓ_ｔ ^ｊｎと、行動ａ_ｔと、に基づいて、報酬関数Ｒにより報酬ｒ_ｔを算出する。

　ステップＳ１１６では、ＣＰＵ１１が、状態価値算出部３０として、上記（１）式により状態の価値ｙ_ｔを算出する。

　ステップＳ１１８では、ＣＰＵ１１が、行動選択部３２として、上記（３）式により行動ａ_ｔを選択し、選択した行動ａ_ｔをシミュレータ２０に出力する。これにより、シミュレータ２０は、シミュレーションにおいてロボットＲＢに行動ａ_ｔを実行させる。

　ステップＳ１２０では、ＣＰＵ１１が、状態価値算出部３０として、ロボットＲＢの状態ｓ_ｔ ^ｊｎ及び状態価値ｙ_ｔをペアとしてバッファＥに記憶する。

　ステップＳ１２２では、ＣＰＵ１１が、状態価値算出部３０として、Ｖネットワークのパラメータを更新する。すなわちＶネットワークを学習する。このとき、バッファＥに記憶された過去の状態ｓ^ｊｎ及び状態価値ｙをランダムに選択し、これを教師データとしてＶネットワークのパラメータを更新する。すなわち強化学習における勾配降下法を用いてＶネットワークのパラメータを更新する。なお、ステップＳ１２２の処理は、毎回実行せずに複数回に１回実行すればよい。

　ステップＳ１２４では、ＣＰＵ１１が、状態価値算出部３０として、ロボットＲＢが目的地ｐ_ｇに到達したか否かを判定する。すなわち、ロボットＲＢの位置ｐが、目的地ｐ_ｇと一致するか否かを判定する。そして、ロボットＲＢが目的地ｐ_ｇに到達したと判定した場合は、ステップＳ１２６へ移行する。一方、ロボットＲＢが目的地ｐ_ｇに到達していないと判定した場合は、ステップＳ１１０へ移行し、ロボットＲＢが目的地ｐ_ｇに到達したと判定されるまでステップＳ１１０～Ｓ１２４の処理を繰り返す。すなわち、Ｖネットワークを学習する。なお、ステップＳ１１０～Ｓ１２４までの処理は、学習工程の一例である。

　ステップＳ１２６では、ＣＰＵ１１が、状態価値算出部３０として、学習を終了する終了条件を満たすか否かを判定する。終了条件は、本実施形態では、例えばロボットＲＢがスタート地点から目的地ｐ_ｇに到着するまでを１エピソードとして、予め定めた数（例えば１００）のエピソードが終了した場合である。ＣＰＵ１１は、終了条件を満たすと判定した場合は本ルーチンを終了する。一方、終了条件を満たさない場合はステップＳ１００へ移行し、目的地ｐ_ｇを変えてステップＳ１００～Ｓ１２６までの処理を終了条件を満たすまで繰り返す。

　以上より、本実施形態では、報酬関数Ｒによって算出される報酬ｒ_ｔは、衝突回避に関する報酬ε_ｃ及び介入行動に関する報酬ε_ｂを含み、これらはネガティブな報酬としてマイナスの値をとる。このような報酬関数Ｒを用いてＶネットワークを学習することにより、ロボットＲＢが介入行動をとる介入回数及び衝突回避の回数を少なくすることができる。これにより、周囲の環境にストレスを与えることを減らしつつ、ロボットＲＢが目的地ｐ_ｇに到着するまでの時間を短縮することができる。

　次に、ロボット制御モデル学習装置１０により学習されたロボット制御モデルにより制御されるロボットＲＢについて説明する。

　図６には、ロボットＲＢの概略構成を示した。図６に示すように、ロボットＲＢは、ロボット制御装置４０、カメラ４２、ロボット情報取得部４４、報知部４６、及び自律走行部４８を備える。ロボット制御装置４０は、状態情報取得部５０及び制御部５２を備える。

　カメラ４２は、スタート地点から目的地ｐ_ｇに移動するまでの間、ロボットＲＢの周囲を予め定めた間隔で撮影し、撮影した撮影画像をロボット制御装置４０の状態情報取得部５０に出力する。

　ロボット情報取得部４４は、ロボットＲＢの状態ｓ_ｔを取得する。すなわちロボットＲＢの位置及び速度を取得する。具体的には、ロボットＲＢの位置ｐは、例えばＧＰＳ（Global Positioning System）装置を用いて取得してもよいし、ＳＬＡＭ（Simultaneous Localization and Mapping）等の公知の自己位置推定技術を用いて取得してもよい。また、ロボットＲＢの速度は、例えば速度センサを用いて取得する。

　ロボット情報取得部４４は、取得したロボットＲＢの状態ｓ_ｔを状態情報取得部５０に出力する。

　状態情報取得部５０は、カメラ４２が撮影した撮影画像に基づいて人間ＨＢの状態~ｓ_ｔを取得する。具体的には、公知の手法を用いて撮影画像を解析し、ロボットＲＢの周囲に存在する人間ＨＢの位置及び速度を算出する。

　また、状態情報取得部５０には、例えば外部装置から通信により目的地情報が入力される。

　状態情報取得部５０は、取得した目的地情報、ロボットＲＢの状態ｓ_ｔ、及び人間ＨＢの状態~ｓ_ｔを含む状態情報を制御部５２に出力する。

　制御部５２は、ロボット制御モデル学習装置１０で学習されたロボット制御モデルの機能を有する。すなわち、Ｖネットワークが学習済みの状態価値算出部３０及び行動選択部３２の機能を有する。

　制御部５２は、入力された状態情報に対応する行動を選択し、選択した行動に基づいて報知部４６及び自律走行部４８の少なくとも一方を制御する。

　報知部４６は、音声を出力したり、警告音を出力したりすることにより、ロボットＲＢの存在を周囲の人間ＨＢに報知する機能を有する。

　自律走行部４８は、タイヤ及びタイヤを駆動するモータ等のロボットＲＢを自律走行させる機能を有する。

　制御部５２は、選択された行動が、指定された方向及び速度でロボットＲＢを移動させる行動であった場合は、指定された方向及び速度でロボットＲＢが移動するように自律走行部４８を制御する。

　また、制御部５２は、選択された行動が介入行動であった場合には、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らすよう報知部４６を制御する。

　次に、ロボット制御装置４０のハードウェア構成について説明する。

　図７に示すように、ロボット制御装置４０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）６１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）６２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）６３、ストレージ６４、及び通信インタフェース６５を有する。各構成は、バス６６を介して相互に通信可能に接続されている。

　本実施形態では、ストレージ６４には、ロボット制御プログラムが格納されている。ＣＰＵ６１は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ６１は、ストレージ６４からプログラムを読み出し、ＲＡＭ６３を作業領域としてプログラムを実行する。ＣＰＵ６１は、ストレージ６４に記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

　ＲＯＭ６２は、各種プログラム及び各種データを格納する。ＲＡＭ６３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ６４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　通信インタフェース６５は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、ロボット制御装置４０の作用について説明する。

　図８は、ロボット制御装置４０によるロボット制御処理の流れを示すフローチャートである。ＣＰＵ５１がストレージ６４からロボット制御プログラムを読み出して、ＲＡＭ６３に展開し実行することにより、ロボット制御処理が行なわれる。

　ステップＳ２００では、ＣＰＵ６１が、状態情報取得部５０として、目的地ｐ_ｇの位置情報を例えば図示しない外部装置から通信により取得する。

　ステップＳ２０２では、ＣＰＵ６１が、状態情報取得部５０として、ロボット情報取得部４４からロボットＲＢの状態ｓ_ｔを取得する。

　ステップＳ２０４では、ＣＰＵ６１が、状態価値算出部３０として、カメラ４２で撮影された撮影画像に基づいて、周囲の人間ＨＢの状態~ｓ_ｔを取得する。

　ステップＳ２０６では、ＣＰＵ６１が、制御部５２として、状態情報取得部５０から取得したロボットＲＢ及び周囲の人間ＨＢの状態ｓ_ｔ ^ｊｎと、行動ａ_ｔと、に基づいて、報酬関数Ｒにより報酬ｒ_ｔを算出する。

　ステップＳ２０８では、ＣＰＵ６１が、制御部５２として、上記（１）式により状態の価値ｙ_ｔを算出する。

　ステップＳ２１０では、ＣＰＵ６１が、制御部５２として、上記（３）式により行動ａ_ｔを選択し、選択した行動ａ_ｔに基づいて報知部４６及び自律走行部４８の少なくとも一方を制御する。これにより、ロボットＲＢは、行動ａ_ｔを実行する。

　ステップＳ２１２では、ＣＰＵ６１が、制御部５２として、ロボットＲＢが目的地ｐ_ｇに到達したか否かを判定する。すなわち、ロボットＲＢの位置ｐが、目的地ｐ_ｇと一致するか否かを判定する。そして、ロボットＲＢが目的地ｐ_ｇに到達したと判定した場合は、本ルーチンを終了する。一方、ロボットＲＢが目的地ｐ_ｇに到達していないと判定した場合は、ステップＳ２０２へ移行し、ロボットＲＢが目的地ｐ_ｇに到達したと判定されるまでステップＳ２０２～Ｓ２１２の処理を繰り返す。なお、ステップＳ２０２～Ｓ２１２までの処理は、制御工程の一例である。

　このように、本実施形態では、ロボット制御モデル学習装置１０によって学習されたロボット制御モデルに基づいてロボットＲＢが制御される。これにより、ロボットＲＢが介入行動をとる介入回数及び衝突回避の回数を少なくすることができる。従って、周囲の環境にストレスを与えることを減らしつつ、ロボットＲＢが目的地ｐ_ｇに到着するまでの時間を短縮することができる。

　なお、本実施形態では、状態価値関数Ｖを学習する場合について説明したが、学習方法はこれに限られるものではない。例えば、状態価値関数Ｖを学習することに代えて、ロボットＲＢの行動価値を算出する行動価値関数Ｑ（ｓ^ｊｎ、ａ）を学習するようにしてもよい。

　また、本実施形態では、報酬関数Ｒが出力する報酬として、衝突回避に関する報酬ε_ｃ、介入行動に関する報酬ε_ｂを含む場合について説明したが、衝突回避に関する報酬ε_ｃを含まないようにしてもよい。

　また、本実施形態では、ロボットＲＢがカメラ４２を備えた構成について説明したが、これに限られない。例えば、カメラ４２を省略し、外部装置からロボットＲＢを俯瞰した俯瞰画像を取得し、取得した俯瞰画像を解析することによりロボットＲＢの周囲の人間ＨＢの状態~ｓ_ｔを取得するようにしてもよい。

　また、本実施形態では、ロボットＲＢがロボット制御装置４０を備えた場合について説明したが、ロボット制御装置４０の機能を外部サーバに設けてもよい。この場合、ロボットＲＢは、カメラ４２で撮影した撮影画像及びロボット情報取得部４４で取得したロボット情報を外部サーバに送信し、外部サーバから指示された行動を実行する。

　なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行したロボット制御処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、ロボット制御モデル学習処理及びロボット制御処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、ロボット制御モデル学習プログラムがストレージ１４に予め記憶され、ロボット制御プログラムがストレージ６４に予め記憶されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

１０ロボット制御モデル学習装置
２０シミュレータ
３０状態価値算出部
３２行動選択部
４０ロボット制御装置
４２カメラ
４４ロボット情報取得部
４６報知部
４８自律走行部
５０状態情報取得部
５２制御部
ＨＢ人間
ＲＢロボット

Claims

　コンピュータが、
　動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を入力として、前記環境に介入する介入行動を含む複数の行動の中から前記ロボットの状態に応じた行動を選択して出力するロボット制御モデルを、前記介入行動を実行した介入回数をマイナスの報酬として強化学習する学習工程
　を含む処理を実行するロボット制御モデル学習方法。
　前記行動は、前記ロボットの移動方向、前記ロボットの移動速度、及び前記介入行動の少なくとも１つを含み、
　前記報酬は、前記ロボットが前記目的地に到着するまでの到着時間及び前記介入回数の少なくとも一方が小さくなるように与えられる
　請求項１記載のロボット制御モデル学習方法。
　前記行動は、前記ロボットが他の物体との衝突を回避する回避行動を含み、
　前記報酬は、前記衝突を回避する回避回数が小さくなるように与えられる
　請求項１又は請求項２記載のロボット制御モデル学習方法。
　前記学習工程は、前記ロボットの状態を表す状態価値関数を更新することにより強化学習する
　請求項１～３の何れか１項に記載のロボット制御モデル学習方法。
　動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を入力として、前記環境に介入する介入行動を含む複数の行動の中から前記ロボットの状態に応じた行動を選択して出力するロボット制御モデルを、前記介入行動を実行した介入回数をマイナスの報酬として強化学習する学習部
　を含むロボット制御モデル学習装置。
　コンピュータに、
　動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を入力として、前記環境に介入する介入行動を含む複数の行動の中から前記ロボットの状態に応じた行動を選択して出力するロボット制御モデルを、前記介入行動を実行した介入回数をマイナスの報酬として強化学習する学習工程
　を含む処理を実行させるためのロボット制御モデル学習プログラム。
　コンピュータが、
　動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得工程と、
　前記状態情報と、請求項１～４の何れか１項に記載のロボット制御モデル学習方法により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御工程と、
　を含む処理を実行するロボット制御方法。
　動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得部と、
　前記状態情報と、請求項５記載のロボット制御モデル学習装置により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御部と、
　を含むロボット制御装置。
　コンピュータに、
　動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得工程と、
　前記状態情報と、請求項１～４の何れか１項に記載のロボット制御モデル学習方法により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御工程と、
　を含む処理を実行させるためのロボット制御プログラム。
　動的な環境において目的地まで自律走行するロボットの状態を表す状態情報を取得する取得部と、
　前記ロボットを自律走行させる自律走行部と、
　前記状態情報と、請求項５記載のロボット制御モデル学習装置により学習されたロボット制御モデルと、に基づいて、前記ロボットが前記目的地に移動するように制御する制御部と、を含むロボット制御装置と、
　を含むロボット。