JP2019079227A - 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム - Google Patents
状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム Download PDFInfo
- Publication number
- JP2019079227A JP2019079227A JP2017205050A JP2017205050A JP2019079227A JP 2019079227 A JP2019079227 A JP 2019079227A JP 2017205050 A JP2017205050 A JP 2017205050A JP 2017205050 A JP2017205050 A JP 2017205050A JP 2019079227 A JP2019079227 A JP 2019079227A
- Authority
- JP
- Japan
- Prior art keywords
- state
- action
- unit
- selection
- transition rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Feedback Control In General (AREA)
Abstract
【課題】状態や状態遷移規則が不明な環境であっても、行動を選択するための状態や状態遷移規則を獲得することができるようにする。【解決手段】状態獲得部210が、選択された行動を行ったときの行動後の環境の状態を獲得し、報酬計算部220が、獲得した状態と選択された行動とに基づいて、状態において行動を行った際の報酬を計算し、パラメタ更新部240が、選択された行動と報酬とに基づいて、状態を入力とし、行動を選択するためのモデルのパラメタを更新し、行動選択部270が、行動後の状態を入力とし、モデルを用いて、行動を選択し、反復終了条件を満たすまで、獲得、計算、更新、及び選択を繰り返し、状態獲得部210は、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、獲得した状態を、状態の集合に追加し、状態の集合に基づいて、状態遷移規則を獲得する。【選択図】図2
Description
本発明は、状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラムに関し、特に、状態における行動を選択するための状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラムに関する。
人間の意思決定を補助する意思決定支援システムは、医学的診断、銀行での融資決定、企業での経営判断など、様々な分野で幅広い実用システムを含む。こういった意思決定支援システムの強化は、近年発展が著しい人工知能研究の重要な課題の一つと考えられる。
意思決定支援システムの構成に定型は存在しないが、ここでは一つの方法論として、事象を一つの状態として記述し、ある行動を取ることで現在の状態から次の状態へ遷移する状態遷移モデルを考える。そして、得られる期待利得が最も大きい最終状態へ到達できるように現在の状態における取るべき行動を提示する、という戦略を用いるシステムを仮定する。つまり、ここで取り上げる意思決定支援システムは、現時点の状態から最良の最終状態へ到達するために必要な行動を自動で選択して提示するシステムとなる。
一般的に、意思決定支援システムにおいては、選択できる行動の数や、取り得る状態の総数の多さに依存して問題の難易度も変わってくる。仮に、行動を選択する際に必要な情報が、現在の状態の情報として全て取得することが可能、かつ、行動に対する状態の遷移が決定的な(不確定要素はない)場合、計算時間を無限に使うことが許されるなら、現在の状態における最良の行動を、システムを用いて自動的に計算できる可能性は高い。
ただし、現実的には、現在の状態に対する情報が全て取得可能と言う状況はほとんど起こり得ない。また、行動に対する状態の遷移は必ずしも一意ではなく、確率的に次の状態が決定する場合がほとんどである。つまり、通常、様々な不確定要素を考慮しながら最適な行動の選択を強いられる。
近年の人工知能技術の高まりの中で、ポーカーといった閉じた環境の中であれば「自分の行動(手)を決定する際に相手の手配の情報は不明」かつ「自分のとった行動に対する相手の行動は不確定」という情報が不完全かつ不確定な環境でも、人間のプロを超える強さをもつエージェントを構築可能な方法論が考案されている(例えば、非特許文献1)。ここで、「閉じた環境」とは、環境下で取り得る状態の種類が時間と共に増えたり減ったりすることはなく不変であり列挙可能、ということを意味することとする。具体的な方法としては、不確定不完全情報環境下で、現在の状態から未来の状態への遷移を仮定しながら探索し、最も「失敗の少ない(後悔がない)」状態に到達する行動を取る戦略を用いている。このように閉じた環境で、かつ、比較的状態数の少ない環境では、行動を決定する際に必要な情報が不完全かつ不確定であったとしても、最良の結果、あるいは、最良に近い結果を得る行動を自動で選択することができるようになりつつある。
Martin Zinkevich, Michael Johanson, Michael Bowling, and Carmelo Piccione. Regret minimization in gameswithincomplete information. In J. C. Platt, D. Koller, Y. Singer, and S. T. Roweis, editors, Advances inNeural Information Processing Systems 20, pages 1729{1736. 2008.
前述の非特許文献1では、システムは、環境(ゲームのルール)、状態、及び状態遷移規則をあらかじめ与えられて知っている、と言う仮定で構築されている。状態や状態遷移規則が分かっていれば、それを用いて勝率や利得のシミュレーションを行うことが可能であり、膨大なシミュレーション計算により、全ての状態においてどのような行動を取るべきかの指針を得ることができる。
しかし、実世界の問題では、状態の定義とある行動をとった際に状態がどのように遷移するか遷移規則を獲得することは困難であるし、全て書き出すのは不可能に近い。実問題では一般的に状態の遷移規則は不明であり、かつ、状態の種類数も膨大な数になるためである。つまり、状態遷移規則や状態の定義を事前にシステムに与えることができないため、閉じた環境で現在有望な方法論である非特許文献1などを実応用システムへ適用できない、といった問題がある。
本発明はこの課題に鑑みてなされたものであり、状態や状態遷移規則が不明な環境であっても、行動を選択するための状態や状態遷移規則を獲得することができる状態遷移規則獲得装置、行動選択学習装置、状態遷移規則獲得方法、およびプログラムを提供することを目的とする。
また、本発明は、状態や状態遷移規則が不明な環境であっても、適切な行動を選択することができる行動選択装置、行動選択方法、およびプログラムを提供することを目的とする。
本発明に係る状態遷移規則獲得装置は、選択された行動を行ったときの行動後の状態を獲得する状態獲得部と、前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算する報酬計算部と、前記選択された行動と前記報酬計算部により計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新するパラメタ更新部と、前記行動後の状態を入力とし、前記モデルを用いて、行動を選択する行動選択部と、予め定められた反復終了条件を満たすまで、前記状態獲得部による獲得、前記報酬計算部による計算、前記パラメタ更新部による更新、及び前記行動選択部による選択を繰り返させる終了判定部と、を備え、前記状態獲得部は、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、前記獲得した状態を、前記状態の集合に追加し、前記状態の集合に基づいて、状態遷移規則を獲得する。
また、本発明に係る状態遷移規則獲得方法は、状態獲得部が、選択された行動を行ったときの行動後の環境の状態を獲得するステップと、報酬計算部が、前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算するステップと、パラメタ更新部が、前記選択された行動と前記報酬計算部により計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新するステップと、行動選択部が、前記行動後の状態を入力とし、前記モデルを用いて、行動を選択するステップと、終了判定部が、予め定められた反復終了条件を満たすまで、前記状態獲得部による獲得、前記報酬計算部による計算、前記パラメタ更新部による更新、及び前記行動選択部による選択を繰り返させるステップと、を備え、前記状態獲得部が獲得するステップは、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、前記獲得した状態を、前記状態の集合に追加し、前記状態の集合に基づいて、状態遷移規則を獲得する。
本発明に係る状態遷移規則獲得装置及び状態遷移規則獲得方法によれば、状態獲得部が、入力された行動を行ったときの行動後の環境の状態を獲得し、報酬計算部が、獲得した状態と選択された行動とに基づいて、状態において行動を行った際の報酬を計算し、パラメタ更新部が、選択された行動と報酬計算部により計算された報酬とに基づいて、状態を入力とし、行動を選択するためのモデルのパラメタを更新する。
そして、行動選択部が、行動後の状態を入力とし、モデルを用いて、行動を選択し、終了判定部が、予め定められた反復終了条件を満たすまで、状態獲得部による獲得、報酬計算部による計算、パラメタ更新部による更新、及び行動選択部による選択を繰り返させ、状態獲得部は、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、獲得した状態を、状態の集合に追加し、状態の集合に基づいて、状態遷移規則を獲得する。
このように、予め定められた反復終了条件を満たすまで、入力された行動を行ったときの行動後の環境の状態を獲得し、獲得した状態と選択された行動とに基づいて、状態において行動を行った際の報酬を計算し、選択された行動と報酬計算部により計算された報酬とに基づいて、状態を入力とし、行動を選択するためのモデルのパラメタを更新し、行動後の状態を入力とし、モデルを用いて、行動を選択することを繰り返し、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、獲得した状態を、状態の集合に追加し、状態の集合に基づいて、状態遷移規則を獲得することにより、状態や状態遷移規則が不明な環境であっても、行動を選択するための状態や状態遷移規則を獲得することができる。
本発明に係る行動選択学習装置は、上記の状態遷移規則獲得装置と、前記状態遷移規則獲得装置により得られた前記状態の集合及び状態遷移規則に基づいて、前記状態と前記行動との各ペアに対して、前記状態において行動を行った時の期待利得を学習する行動選択方策獲得部と、前記行動選択方策獲得部における学習が収束するまで、前記状態遷移規則獲得装置による処理、及び前記行動選択方策獲得部による学習を繰り返させる収束判定部と、を備えて構成される。
このように、状態遷移規則獲得装置と、行動選択方策獲得部が、状態遷移規則獲得装置により得られた状態の集合及び状態遷移規則に基づいて、状態と行動との各ペアに対して、状態において行動を行った時の期待利得を学習し、学習が収束するまで、状態遷移規則獲得装置による処理、及び行動選択方策獲得部による学習を繰り返させることにより、状態や状態遷移規則が不明な環境であっても、行動を選択するための状態や状態遷移規則を獲得することができる。
本発明に係る状態遷移規則獲得装置は、前記モデルは、前記行動後の状態を入力とし、行動を選択するための多層ニューラルネットワークであるとすることができる。
本発明に係る行動選択学習装置は、前記報酬計算部は、前記状態において前記行動を行った際の報酬を、前記状態を訪問した回数と、前記状態において前記行動を選択した回数と、前記状態において前記行動を行った時の期待利得とに基づいて計算することができる。
本発明に係る行動選択装置は、予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態に対して、前記期待利得が最大となる行動を選択する行動選択部を備えることを特徴とする行動選択装置であって、前記期待利得は、選択された行動を行った時の行動後の環境の状態を獲得し、前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算し、前記選択された行動と計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新し、前記行動後の状態を入力とし、前記モデルを用いて、行動を選択することを予め定められた反復終了条件を満たすまで繰り返すことと、前記状態の集合及び状態遷移規則に基づいて、前記状態と前記行動との各ペアに対して、前記状態において行動を行った時の期待利得を学習することと、を交互に繰り返すことにより予め学習される。
また、本発明に係る行動選択方法は、行動選択部が、予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態に対して、前記期待利得が最大となる行動を選択するステップを備えることを特徴とする行動選択方法であって、前記期待利得は、選択された行動を行った時の行動後の環境の状態を獲得し、前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算し、前記選択された行動と計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新し、前記行動後の状態を入力とし、前記モデルを用いて、行動を選択することを予め定められた反復終了条件を満たすまで繰り返すことと、前記状態の集合及び状態遷移規則に基づいて、前記状態と前記行動との各ペアに対して、前記状態において行動を行った時の期待利得を学習することと、を交互に繰り返すことにより予め学習されることを特徴とする。
本発明に係る行動選択装置及び行動選択方法によれば、予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態に対して、期待利得が最大となる行動を選択する。
そして、期待利得は、選択された行動を行った時の行動後の環境の状態を獲得し、獲得した状態と選択された行動とに基づいて、状態において行動を行った際の報酬を計算し、選択された行動と計算された報酬とに基づいて、状態を入力とし、行動を選択するためのモデルのパラメタを更新し、行動後の状態を入力とし、モデルを用いて、行動を選択することを予め定められた反復終了条件を満たすまで繰り返すことと、状態の集合及び状態遷移規則に基づいて、状態と行動との各ペアに対して、状態において行動を行った時の期待利得を学習することと、を交互に繰り返すことにより予め学習される。
このように、選択された行動を行った時の行動後の環境の状態を獲得し、獲得した状態と選択された行動とに基づいて、状態において行動を行った際の報酬を計算し、選択された行動と計算された報酬とに基づいて、状態を入力とし、行動を選択するためのモデルのパラメタを更新し、行動後の状態を入力とし、モデルを用いて、行動を選択することを予め定められた反復終了条件を満たすまで繰り返すことと、状態の集合及び状態遷移規則に基づいて、状態と行動との各ペアに対して、状態において行動を行った時の期待利得を学習することと、を交互に繰り返すことにより予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態に対して、期待利得が最大となる行動を選択することにより、状態や状態遷移規則が不明な環境であっても、適切な行動を選択することができる。
本発明に係るプログラムは、上記の状態遷移規則獲得装置、行動選択学習装置、又は行動選択装置の各部として機能させるためのプログラムである。
本発明の行動選択学習装置、行動選択学習方法、およびプログラムによれば、状態や状態遷移規則が不明な環境であっても、行動を選択するための状態や状態遷移規則を獲得することができる。
また、本発明の行動選択装置、行動選択方法、およびプログラムによれば、状態や状態遷移規則が不明な環境であっても、適切な行動を選択することができる。
以下、本発明の実施の形態について図面を用いて説明する。
<本発明の実施の形態の原理>
まず、本発明の実施形態の原理について説明する。
まず、本発明の実施形態の原理について説明する。
本発明の実施の形態では、実環境を仮想的に実現するシミュレータを仮定する。このシミュレータは意思決定支援システムがある行動を選択すると、その環境下でどのようなことが起こるかを提示するものである。このシミュレータは過去の事例などを元に情報を提示するものとする。また同時に、その時の状態の利得も提示するものとする。
まず、意思決定支援システムは、状態及び状態遷移規則を獲得する処理を行う(処理1)。ここでは、環境下で取り得る状態と状態遷移規則を獲得することを目指す。このために、シミュレーション下で、新たな状態や状態遷移を発見すべく探索を行う。この探索には、例えば強化学習の一種であるQ学習に深層学習を適用したdeep Q−network(DQN)などを用いる。
エージェントは、環境から状態とその状態に対する利得を獲得し、より利得が得られると考えられる状態へ優先的に遷移できるような行動を学習していく。
次に、意思決定支援システムは、行動選択の方策を獲得する処理を行う(処理2)。ここでは、得られた状態と状態遷移規則に相当するものを利用して、各状態での行動の利得計算を行う。
具体的には、意思決定支援システムは、状態とその状態に対する行動のペアに対して、最終状態まで遷移した際に最も損失が大きいものが小さくなるように学習を進めていく。すなわち、最終状態まで遷移した際の損失をxiとすると、損失xiのうち、最も大きい値(max(xi))が、なるべく小さい値になるように(min(max(xi)))学習する。この学習を繰り返し行うことによって、状態とその状態に対する行動のペアの良さが次第に得られることになる。最終的に十分な回数シミュレーションを行うと、各状態で取るべき行動が得られるようになる。
そして、意思決定支援システムは、行動選択の方策の収束判定の処理を行う(処理3)。行動選択の方策が収束している場合は処理を終了し、そうでない場合は処理1に戻る。すなわち、処理1及び処理2を繰り返し行うことで最終的な行動選択の戦略を得る。
<<処理1.状態と状態遷移規則の獲得>>
状態の集合をSとする。また、状態遷移の集合をT=S×Sとする。基本的に、Sは初期状態は空集合を仮定する。ただし、繰り返し処理により本処理を行う場合は、一つ前の処理の最終状態が、本処理の初期状態となる。よって、その場合、Sは空集合ではなくなるが、Sの初期状態は本処理には影響を与えないので、どのような集合が与えられても良い。
状態の集合をSとする。また、状態遷移の集合をT=S×Sとする。基本的に、Sは初期状態は空集合を仮定する。ただし、繰り返し処理により本処理を行う場合は、一つ前の処理の最終状態が、本処理の初期状態となる。よって、その場合、Sは空集合ではなくなるが、Sの初期状態は本処理には影響を与えないので、どのような集合が与えられても良い。
次にAを行動の集合とする。また、aとsをそれぞれ(時間に依存しない)行動と状態を表す記号として用いる。つまり
であり、
である。本発明では、多層ニューラルネットワークによる強化学習の枠組みを用いて状態と状態遷移規則の探索を行う。ここでは、多層ニューラルネットワーク全体をMθで表し、そのパラメタをθとする。
であり、
である。本発明では、多層ニューラルネットワークによる強化学習の枠組みを用いて状態と状態遷移規則の探索を行う。ここでは、多層ニューラルネットワーク全体をMθで表し、そのパラメタをθとする。
時刻をtとし、時刻tの状態を
と表記することにする。時刻tの状態において取り得る行動の集合A(st)に対して、各行動
を、多層ニューラルネットワークを用いて確率値によりモデル化する。また、時刻tの終了状態ftは、0または1を返す関数で、終了状態であれば1、そうでなければ0を返す。
と表記することにする。時刻tの状態において取り得る行動の集合A(st)に対して、各行動
を、多層ニューラルネットワークを用いて確率値によりモデル化する。また、時刻tの終了状態ftは、0または1を返す関数で、終了状態であれば1、そうでなければ0を返す。
そして、以下のアルゴリズムに則って、状態及び状態遷移を獲得する。
ステップ1.(初期化)t=1、多層ニューラルネットワークMθの構成を読み込み。
ステップ2.一時刻前の行動at−1を環境に投入、t=0の場合は「行動なし」と仮定。
ステップ3.行動に対する、状態st、行動に対する報酬r(st−1,at−1)、及び終了状態ftを環境から取得。
ステップ4.新しい状態を発見したらその状態stをSへ追加。
ステップ5.行動at−1、行動に対する報酬r(st−1,at−1)を用いてネットワークのパラメタθを更新。
ステップ6.終了判定:ftが1(終了状態)であれば、終了し、ftが0(終了状態でない)なら、以下の処理を継続。
ステップ7.ステップ3.で取得した状態を入力とし、ステップ1.で構築したネットワークの定義に従ってネットワークの各要素の値を計算し、時刻tの行動として、行動
の値がもっとも高い行動を選択。
ステップ8.stで行動atを取ることに対する報酬r(st,at)を更新。例えば、後述の式(1)を用いて更新する。
ステップ9.t=t+1として、ステップ2.に戻る。
ステップ1.(初期化)t=1、多層ニューラルネットワークMθの構成を読み込み。
ステップ2.一時刻前の行動at−1を環境に投入、t=0の場合は「行動なし」と仮定。
ステップ3.行動に対する、状態st、行動に対する報酬r(st−1,at−1)、及び終了状態ftを環境から取得。
ステップ4.新しい状態を発見したらその状態stをSへ追加。
ステップ5.行動at−1、行動に対する報酬r(st−1,at−1)を用いてネットワークのパラメタθを更新。
ステップ6.終了判定:ftが1(終了状態)であれば、終了し、ftが0(終了状態でない)なら、以下の処理を継続。
ステップ7.ステップ3.で取得した状態を入力とし、ステップ1.で構築したネットワークの定義に従ってネットワークの各要素の値を計算し、時刻tの行動として、行動
の値がもっとも高い行動を選択。
ステップ8.stで行動atを取ることに対する報酬r(st,at)を更新。例えば、後述の式(1)を用いて更新する。
ステップ9.t=t+1として、ステップ2.に戻る。
ある状態stで行動atをとった際の報酬r(st,at)は、atの結果得られる状態st+1が未知の状態であった場合に高い評価値を与え、既知の状態の場合は訪問回数が多ければ多いほど報酬が減衰する関数を用いる。この関数は、上記ステップ8において、報酬r(st,at)を更新する際に用いられる。
報酬の具体的な定義は、無限に考えられるが、例えば、upper confidence bound(UCB)と呼ばれる計算式に基づいて計算する場合を考える。
ここで、g(st,at)を時刻tの状態stにおいて選択した行動atを行った際にえられる期待利得、n(st)を時刻tの状態stを訪問した回数、n(st,at)を時刻tの状態stにおいて行動atを選択した回数、をそれぞれ表す。また、αは第一項と第二項の重み係数である。
UCBに基づく行動選択を無限回行うと、式(1)の第二項が0に漸近的に近づくので、r(st,at)の値に従った評価値となる。逆に、状態stを初めて訪問した場合、あるいは、ほとんど訪問していない場合は、ランダムに近い評価値となる。
また、その丁度中間に相応する場合は、ある状態stにおいてとった行動atに対して過去に同じ行動をとった回数が少ない場合ほど優先的に選択するような評価値となる。
<<処理2.行動選択の方策の獲得>>
得られた状態の集合Sと状態遷移規則Tを用いて、従来法であるCFR(非特許文献1)などを用いて、行動選択の方策を獲得する。より具体的には、ある時刻tの状態stにおいて選択した行動atに対する期待利得g(st,at)を計算し保持する。
得られた状態の集合Sと状態遷移規則Tを用いて、従来法であるCFR(非特許文献1)などを用いて、行動選択の方策を獲得する。より具体的には、ある時刻tの状態stにおいて選択した行動atに対する期待利得g(st,at)を計算し保持する。
<<処理3.行動選択の方策の収束判定>>
全てのst及びatのペアに対して得られた期待利得g(st,at)が、前回の処理結果との差分が十分に小さければ、学習の処理を終了する。もし、期待利得の差分が十分小さくない場合は、再度、上記処理1に戻る。
全てのst及びatのペアに対して得られた期待利得g(st,at)が、前回の処理結果との差分が十分に小さければ、学習の処理を終了する。もし、期待利得の差分が十分小さくない場合は、再度、上記処理1に戻る。
<<行動選択>>
最終的に、意思決定支援システムが、上記学習により得られたg(s,a)に基づいて状態stに対する行動を選択する。より具体的には、ある状態sに対して、最良のg(s,a)となる行動
を提示する。
最終的に、意思決定支援システムが、上記学習により得られたg(s,a)に基づいて状態stに対する行動を選択する。より具体的には、ある状態sに対して、最良のg(s,a)となる行動
を提示する。
以下、与えられた状態に対して行動選択の戦略を自動的に獲得する行動選択学習装置について述べた後、獲得した行動選択の戦略を用いて、実際に提示する行動選択装置について述べる。
<本発明の実施の形態に係る行動選択学習装置の構成>
図1を参照して、本発明の実施の形態に係る行動選択学習装置の構成について説明する。図1は、本発明の実施の形態に係る行動選択学習装置の構成を示すブロック図である。
図1を参照して、本発明の実施の形態に係る行動選択学習装置の構成について説明する。図1は、本発明の実施の形態に係る行動選択学習装置の構成を示すブロック図である。
行動選択学習装置10は、CPUと、RAMと、後述する行動選択学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図1に示すように、本実施形態に係る行動選択学習装置10は、状態遷移規則獲得部100と、シミュレーション部110と、状態記憶部120と、期待利得記憶部130と、行動選択方策獲得部140と、収束判定部150と、出力部160とを備えて構成される。
状態遷移規則獲得部100は、入力された行動を行ったときの行動後の環境の状態を獲得し、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、獲得した状態を、状態の集合に追加し、状態の集合に基づいて、状態遷移規則を獲得する。
具体的には、図2に示すように、状態遷移規則獲得部100は、初期化部200と、状態獲得部210と、報酬計算部220と、計算データ記憶部230と、パラメタ更新部240と、モデル記憶部250と、終了判定部260と、行動選択部270と、行動記憶部280とを備える。
初期化部200は、状態遷移規則獲得部100の処理が開始され、または収束判定部150から状態遷移規則獲得部100の処理を行う命令を受け取ると、時刻tを1に初期化し、行動at−1(a0:行動なし)を状態獲得部210に入力する。
状態獲得部210は、選択された行動を行ったときの行動後の環境の状態を獲得する。
具体的には、状態獲得部210は、初期化部200により入力され、又は行動選択部270により選択された行動at−1をシミュレーション部110に渡す。そして、シミュレーション部110により計算された行動at−1を行った場合における行動後の環境の状態stと終了状態ftとを獲得する。
ここで、状態sは、例えば環境がトランプ等のカードゲームであれば、札を取得・捨てる等の行動後における手札の状態や場に出された札の状態等であり、ロボット等であれば、移動等の行動後におけるロボット等に搭載されたカメラに撮像される画像等である。
また、終了状態ftは、環境がトランプ等のカードゲームであれば、ゲームの決着(勝敗)が付いているか否か、ロボット等であれば、ロボットが停止すべきか否か、目的を達成したか否か、目的達成可能性の判断ができるか否か等の、環境の終了状態である。
そして、状態獲得部210は、獲得した状態stが、既に獲得した状態の集合Sと比較して、新しい状態であれば、獲得した状態stを、状態記憶部120に記憶されている状態の集合Sに追加し、状態の集合Sに基づいて、状態遷移規則Tを獲得する。
このとき、獲得した状態が新しい状態であるか否かの判断は、状態が手札の組み合わせのような離散的である場合、一致する状態が含まれているか否かによって行う。また、状態が画像のような連続的である場合、状態間の類似度(例えば、画像の類似度)が閾値以上であれば、新しい状態であると判断する。この他にも、開いた環境では様々な状態が存在し得るため、状態同士を比較することによる様々な基準を設けることができる。
そして、状態獲得部210は、獲得した状態stを報酬計算部220へ渡す。
報酬計算部220は、獲得した状態stにおいて行動atを行った際の報酬r(st,at)を、計算データ記憶部230に記憶されている時刻tにおける状態stを訪問した回数n(st)、及び状態stにおいて行動atを選択した回数n(st,at)と、期待利得記憶部130に記憶されている状態stにおいて行動atを行った時の期待利得g(st,at)とに基づいて計算する。
具体的には、報酬計算部220は、状態stにおいて選択し得る行動atを行った時n(st)、n(st,at)、及び期待利得g(st,at)から、上記式(1)に従って、報酬r(st,at)を計算する。報酬計算部220は、状態stにおいて選択し得る行動at全てについて、報酬r(st,at)の計算を行う。
そして、報酬計算部220は、計算した報酬r(st,at)をパラメタ更新部240に渡す。
計算データ記憶部230は、時刻tにおけるstの訪問回数n(st)、及び時刻tの状態stにおいて行動atを選択した回数n(st,at)を記憶している。
パラメタ更新部240は、入力された行動at−1と報酬計算部220により計算された前回の状態st−1において行動at−1を取ったことに対する報酬r(st−1,at−1)とに基づいて、状態stを入力とし、行動atを選択するためのモデルのパラメタを更新する。本実施形態において、当該モデルは、行動後の状態を入力とし、行動を選択するための多層ニューラルネットワークMθである。
具体的には、パラメタ更新部240は、行動at−1と、行動at−1に対する報酬r(st−1,at−1)とに基づいて、報酬が高い行動を選択するように、多層ニューラルネットワークMθのパラメタθを更新し、更新したパラメタθをモデル記憶部250に記憶させる。
モデル記憶部250は、多層ニューラルネットワークMθのパラメタθを記憶している。また、モデル記憶部250は、パラメタ更新部240から、パラメタθの更新を受け付けると、パラメタθを更新する。
終了判定部260は、予め定められた反復終了条件を満たすまで、状態獲得部210による獲得、報酬計算部220による計算、パラメタ更新部240による更新、及び行動選択部270による選択を繰り返させる。
具体的には、終了判定部260は、状態獲得部210が獲得した終了状態ftが、終了状態を表すか否かを判定する。終了状態ftが1(終了状態)であれば、行動選択方策獲得部140に処理を開始させる。
また、終了状態ftが0(終了状態でない)であれば、行動選択部270に処理を行わせる。
行動選択部270は、行動at−1を行った後の状態stを入力とし、多層ニューラルネットワークMθを用いて、行動atを選択する。
具体的には、行動選択部270は、行動記憶部280に記憶されている行動の集合A、及びモデル記憶部250に記憶されている多層ニューラルネットワークMθにより、状態stに対して取り得る行動
の、確率値を計算する。例えば、stを入力として多層ニューラルネットワークMθの定義に従って、Mθの各要素の値を計算し、時刻tの行動として、最も確率の高い行動atを選択する。
の、確率値を計算する。例えば、stを入力として多層ニューラルネットワークMθの定義に従って、Mθの各要素の値を計算し、時刻tの行動として、最も確率の高い行動atを選択する。
そして、行動選択部270は、計算データ記憶部230に記憶されている時刻tにおけるstの訪問回数n(st)、及び時刻tの状態stにおいて行動atを選択した回数n(st,at)に1を追加し、報酬r(st,at)を更新し、選択した行動atを行動at−1として状態獲得部210に渡す。
行動記憶部280は、当該環境における行動aの集合Aが、予め記憶されている。
シミュレーション部110は、入力された行動aを行った後の環境を計算し、行動後の環境を返す。行動後の環境には、環境の状態、環境の終了状態等が含まれる。ここで用いる環境は、状態や状態遷移規則が不明な環境(開いた環境)であるが、閉じた環境であってもよい。
状態記憶部120は、状態遷移規則獲得部100により得られた状態sの集合S及び状態遷移規則Tを記憶している。また、状態獲得部210によって新しい状態と判断された状態を、状態の集合Sに追加する。なお、状態獲得部210によって状態が追加されるまでは、状態の集合Sは空集合であってもよい。
期待利得記憶部130は、行動選択方策獲得部140により学習された期待利得gを記憶している。
行動選択方策獲得部140は、状態遷移規則獲得部100により得られた状態の集合S及び状態遷移規則Tに基づいて、状態sと行動aとの各ペアに対して、状態sにおいて行動aを行った時の期待利得g(s,a)を学習する。
具体的には、行動選択方策獲得部140は、状態記憶部120に記憶されている状態の集合Sと状態遷移規則Tを用いてシミュレーション部110による計算を行い、従来法であるCFR(非特許文献1)等を用いて、行動選択の方策を獲得する。より具体的には、全ての状態sと行動aとのペア、すなわち、ある時刻tの状態stにおいて選択した行動atに対して、期待利得g(st,at)を計算して、当該方策を獲得する。
そして、行動選択方策獲得部140は、獲得した期待利得gを期待利得記憶部130に記憶させる。
収束判定部150は、行動選択方策獲得部140における学習が収束するまで、状態遷移規則獲得部100による処理、及び行動選択方策獲得部140による学習を繰り返させる。
具体的には、収束判定部150は、全てのst及びatのペアに対して得られた期待利得g(st,at)と、前回の処理結果である期待利得g(st−1,at−1)との差分が十分に小さければ、学習が収束したと判定し、収束判定結果を出力部160に渡す。
また、差分が十分小さくない場合は、再度、状態遷移規則獲得部100に対して処理を行わせる。
出力部160は、収束判定部150から取得した収束判定結果を出力する。
<本発明の実施の形態に係る行動選択学習装置の作用>
図3は、本発明の実施の形態に係る行動選択学習装置の行動選択学習処理ルーチンを示すフローチャートである。
図3は、本発明の実施の形態に係る行動選択学習装置の行動選択学習処理ルーチンを示すフローチャートである。
行動選択学習装置が起動すると、図3に示す行動選択学習処理ルーチンが実行される。
まず、ステップS100において、状態遷移規則獲得部100が、後述する状態と状態遷移規則の獲得処理ルーチンを実行することにより、状態の集合Sと状態遷移規則Tが、状態記憶部120に記憶される。
次に、ステップS110において、行動選択方策獲得部140が、状態遷移規則獲得部100により得られた状態の集合S及び状態遷移規則Tに基づいて、状態sと行動aとの各ペアに対して、状態sにおいて行動aを行った時の期待利得g(s,a)を学習する。
ステップS120において、収束判定部150は、行動選択方策獲得部140における学習が収束したか否かを判定する。
学習が収束していないと判定した場合(ステップS120のNO)、収束判定部150は、ステップS100に戻り、状態遷移規則獲得部100による処理(ステップS100)、及び行動選択方策獲得部140による学習(ステップS110)を繰り返させる。
一方、学習が収束したと判定した場合(ステップS120のYES)、ステップS130において、出力部160は、収束判定結果を出力する。
次に、図4を用いて、ステップS100における状態と状態遷移規則の獲得処理ルーチンについて説明する。
状態遷移規則獲得部100の処理が開始され、または収束判定部150から状態遷移規則獲得部100の処理を行う命令を受け取ると、図4に示す状態と状態遷移規則の獲得処理ルーチンが実行される。
ステップS200において、初期化部200は、時刻tを1に初期化し、行動at−1(a0:行動なし)を状態獲得部210に入力する。
ステップS210において、状態獲得部210は、行動at−1をシミュレーション部110に渡す。
ステップS220において、状態獲得部210は、シミュレーション部110により計算された行動at−1を行った場合における環境の状態stと終了状態ftとを獲得する。
ステップS230において、状態獲得部210は、獲得した状態stが、既に獲得した状態の集合Sと比較して、新しい状態か否かを判定する。
獲得した状態stが、新しい状態である場合(ステップS230のYES)、ステップS240において、状態獲得部210は、獲得した状態stを、状態記憶部120に記憶されている状態の集合Sに追加し、状態の集合Sに基づいて、状態遷移規則Tを獲得する。
獲得した状態stが、新しい状態でない場合(ステップS230のNO)、ステップS240の処理を行わず、ステップS250に進む。
ステップS250において、パラメタ更新部240は、報酬計算部220が前回計算した、前回の状態st−1において行動at−1を行った際の報酬r(st−1,at−1)を取得する。
ステップS260において、パラメタ更新部240は、入力された行動at−1と取得した報酬r(st−1,at−1)とに基づいて、多層ニューラルネットワークMθのパラメタを更新する。
ステップS270において、終了判定部260は、状態獲得部210が獲得した終了状態ftが、終了状態を表す1であるか否かを判定する。
終了状態ftが1でない場合(ステップS270のNO)、終了状態ftは終了状態でないと判定し、ステップS280に進む。
ステップS280において、行動選択部270は、行動at−1を行った後の状態stを入力とし、多層ニューラルネットワークMθを用いて、行動atを選択する。
ステップS290において、行動選択部270は、計算データ記憶部230に記憶されている時刻tにおけるstの訪問回数n(st)、及び時刻tの状態stにおいて行動atを選択した回数n(st,at)に1を追加し、報酬r(st,at)を更新する。報酬r(st,at)の更新は、報酬計算部220が、獲得した状態stにおいて行動atを行った際の報酬r(st,at)を、計算データ記憶部230に記憶されている時刻tにおける状態stを訪問した回数n(st)、及び状態stにおいて行動atを選択した回数n(st,at)と、期待利得記憶部130に記憶されている状態stにおいて行動atを行った時の期待利得g(st,at)とに基づいて計算することにより行う。
ステップS300において、行動選択部270は、選択した行動atを行動at−1として状態獲得部210に渡し、ステップS210に戻る。
一方、終了状態ftが1である場合(ステップS270のYES)、終了判定部260は、
以上説明したように、本実施形態に係る行動選択学習装置によれば、予め定められた反復終了条件を満たすまで、入力された行動を行ったときの行動後の環境の状態を獲得し、獲得した状態と選択された行動とに基づいて、状態において行動を行った際の報酬を計算し、選択された行動と報酬計算部により計算された報酬とに基づいて、状態を入力とし、行動を選択するためのモデルのパラメタを更新し、行動後の状態を入力とし、モデルを用いて、行動を選択することを繰り返し、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、獲得した状態を、状態の集合に追加し、状態の集合に基づいて、状態遷移規則を獲得することにより、状態や状態遷移規則が不明な環境であっても、行動を選択するための状態や状態遷移規則を獲得することができる。
また、本実施形態に係る行動選択学習装置によれば、状態遷移規則獲得装置と、行動選択方策獲得部が、状態遷移規則獲得装置により得られた状態の集合及び状態遷移規則に基づいて、状態と行動との各ペアに対して、状態において行動を行った時の期待利得を学習し、学習が収束するまで、状態遷移規則獲得装置による処理、及び行動選択方策獲得部による学習を繰り返させることにより、状態や状態遷移規則が不明な環境であっても、行動を選択するための状態や状態遷移規則を獲得することができる。
<本発明の実施の形態に係る行動選択装置の構成>
次に、本実施形態に係る行動選択装置について説明する。本実施形態において、行動選択装置は、選択した行動を行うように制御する対象である制御対象(例えば、ロボット)に搭載されているものとして説明する。本実施形態に係る行動選択装置は、実際に制御対象が目的地まで移動する実環境において、制御対象のセンサによって得られる状態(例えば、制御対象に搭載されたカメラによって撮像される画像)を行動選択装置に入力し、これに対して期待利得が最大となる(例えば、目的地に到達するために必要な)行動(例えば、右に曲がる、直進する等)を行うように、制御対象を制御するように構成されるものとする。
次に、本実施形態に係る行動選択装置について説明する。本実施形態において、行動選択装置は、選択した行動を行うように制御する対象である制御対象(例えば、ロボット)に搭載されているものとして説明する。本実施形態に係る行動選択装置は、実際に制御対象が目的地まで移動する実環境において、制御対象のセンサによって得られる状態(例えば、制御対象に搭載されたカメラによって撮像される画像)を行動選択装置に入力し、これに対して期待利得が最大となる(例えば、目的地に到達するために必要な)行動(例えば、右に曲がる、直進する等)を行うように、制御対象を制御するように構成されるものとする。
図5を参照して、本実施形態に係る行動選択装置について説明する。図5は、本発明の実施の形態に係る行動選択装置の構成を示すブロック図である。
行動選択装置20は、CPUと、RAMと、後述する行動選択学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図5に示すように、本実施形態に係る行動選択装置20は、入力部300と、行動選択部310と、期待利得記憶部320と、出力部330と、制御部340とを備えて構成される。
入力部300は、制御対象のセンサによって得られた状態sの入力を受け付ける。そして、入力部300は、受け付けた状態sを、行動選択部310に渡す。
行動選択部310は、予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態sに対して、期待利得が最大となる行動aを選択する。
具体的には、行動選択部310は、期待利得記憶部320が記憶している学習済みの期待利得g(s,a)に基づいて、入力された状態sに対して、期待利得g(s,a)が最大となる行動aを選択する。すなわち、ある状態sに対して、最良のg(s,a)となる行動
を選択する。そして、行動選択部310は、選択した行動aを出力部330に渡す。
を選択する。そして、行動選択部310は、選択した行動aを出力部330に渡す。
期待利得記憶部320は、上述の行動選択学習装置10によって学習された期待利得を記憶している。
出力部330は、ディスプレイ、プリンタ、磁気ディスクなどで実装され、行動選択部310が選択した行動aを出力する。
また、出力部330は、行動選択部310が選択した行動aを制御部340に出力する。
制御部340は、出力部330により入力された行動を行うように制御対象の行動を制御する。例えば、右に曲がる、直進する等の行動をロボットに対して命令する。
<本発明の実施の形態に係る行動選択装置の作用>
図6は、本発明の実施の形態に係る行動選択装置の行動選択処理ルーチンを示すフローチャートである。
図6は、本発明の実施の形態に係る行動選択装置の行動選択処理ルーチンを示すフローチャートである。
入力部300に、制御対象のセンサによって得られた状態が入力されると、図6に示す行動選択処理ルーチンが実行される。
まず、ステップS400において、入力部300は、制御対象のセンサによって得られた状態sの入力を受け付ける。
次に、ステップS410において、入力された状態sに基づいて、終了状態であるか否かを判定する。終了状態である場合(ステップS410のYES)には、行動選択処理ルーチンを終了する。一方、終了状態で無い場合(ステップS410のNO)には、ステップS420へ進む。
ステップS420において、行動選択部310は、期待利得記憶部320に記憶されている期待利得を読み込む。
ステップS430において、上記ステップS420で読み込んだ期待利得に基づいて、上記ステップS400で取得した状態sに対して、期待利得が最大となる行動aを選択する。
ステップS440において、出力部330は、行動選択部310が選択した行動aを出力する。また、出力部330は、行動選択部310が選択した行動aを制御部340に出力し、上記ステップS400へ戻る。
この後、制御部340により制御対象に対して行動の制御が行われ、制御対象のセンサによって状態が取得されることにより、行動選択処理ルーチンが繰り返される。
以上説明したように、行動選択装置によれば、選択された行動を行った時の行動後の環境の状態を獲得し、獲得した状態と選択された行動とに基づいて、状態において行動を行った際の報酬を計算し、選択された行動と計算された報酬とに基づいて、状態を入力とし、行動を選択するためのモデルのパラメタを更新し、行動後の状態を入力とし、モデルを用いて、行動を選択することを予め定められた反復終了条件を満たすまで繰り返すことと、状態の集合及び状態遷移規則に基づいて、状態と行動との各ペアに対して、状態において行動を行った時の期待利得を学習することと、を交互に繰り返すことにより予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態に対して、期待利得が最大となる行動を選択することにより、状態や状態遷移規則が不明な環境であっても、適切な行動を選択することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
本実施形態において、行動選択装置は、制御対象のセンサによって取得された実環境の状態を入力としたが、シミュレータにより計算した環境の状態を入力としてもよい。例えば、環境がトランプ等のカードゲームであれば、シミュレータにより計算された札を取得・捨てる等の行動後における手札の状態や場に出された札の状態等を入力とするように構成してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 行動選択学習装置
20 行動選択装置
100 状態遷移規則獲得部
110 シミュレーション部
120 状態記憶部
130 期待利得記憶部
140 行動選択方策獲得部
150 収束判定部
160 出力部
200 初期化部
210 状態獲得部
220 報酬計算部
230 計算データ記憶部
240 パラメタ更新部
250 モデル記憶部
260 終了判定部
270 行動選択部
280 行動記憶部
300 入力部
310 行動選択部
320 期待利得記憶部
330 出力部
340 制御部
20 行動選択装置
100 状態遷移規則獲得部
110 シミュレーション部
120 状態記憶部
130 期待利得記憶部
140 行動選択方策獲得部
150 収束判定部
160 出力部
200 初期化部
210 状態獲得部
220 報酬計算部
230 計算データ記憶部
240 パラメタ更新部
250 モデル記憶部
260 終了判定部
270 行動選択部
280 行動記憶部
300 入力部
310 行動選択部
320 期待利得記憶部
330 出力部
340 制御部
Claims (8)
- 選択された行動を行ったときの行動後の環境の状態を獲得する状態獲得部と、
前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算する報酬計算部と、
前記選択された行動と前記報酬計算部により計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新するパラメタ更新部と、
前記行動後の状態を入力とし、前記モデルを用いて、行動を選択する行動選択部と、
予め定められた反復終了条件を満たすまで、前記状態獲得部による獲得、前記報酬計算部による計算、前記パラメタ更新部による更新、及び前記行動選択部による選択を繰り返させる終了判定部と、
を備え、
前記状態獲得部は、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、前記獲得した状態を、前記状態の集合に追加し、前記状態の集合に基づいて、状態遷移規則を獲得する
ことを特徴とする状態遷移規則獲得装置。 - 請求項1記載の状態遷移規則獲得装置と、
前記状態遷移規則獲得装置により得られた前記状態の集合及び状態遷移規則に基づいて、前記状態と前記行動との各ペアに対して、前記状態において行動を行った時の期待利得を学習する行動選択方策獲得部と、
前記行動選択方策獲得部における学習が収束するまで、前記状態遷移規則獲得装置による処理、及び前記行動選択方策獲得部による学習を繰り返させる収束判定部と、
を備えることを特徴とする行動選択学習装置。 - 前記モデルは、前記行動後の状態を入力とし、行動を選択するための多層ニューラルネットワークであることを特徴とする請求項1記載の状態遷移規則獲得装置。
- 前記報酬計算部は、前記状態において前記行動を行った際の報酬を、前記状態を訪問した回数と、前記状態において前記行動を選択した回数と、前記状態において前記行動を行った時の期待利得とに基づいて計算することを特徴とする請求項2記載の行動選択学習装置。
- 予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態に対して、前記期待利得が最大となる行動を選択する行動選択部
を備えることを特徴とする行動選択装置であって、
前記期待利得は、
選択された行動を行った時の行動後の環境の状態を獲得し、前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算し、前記選択された行動と計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新し、前記行動後の状態を入力とし、前記モデルを用いて、行動を選択することを予め定められた反復終了条件を満たすまで繰り返すことと、
前記状態の集合及び状態遷移規則に基づいて、前記状態と前記行動との各ペアに対して、前記状態において行動を行った時の期待利得を学習することと、
を交互に繰り返すことにより予め学習される行動選択装置。 - 状態獲得部が、選択された行動を行ったときの行動後の環境の状態を獲得するステップと、
報酬計算部が、前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算するステップと、
パラメタ更新部が、前記選択された行動と前記報酬計算部により計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新するステップと、
行動選択部が、前記行動後の状態を入力とし、前記モデルを用いて、行動を選択するステップと、
終了判定部が、予め定められた反復終了条件を満たすまで、前記状態獲得部による獲得、前記報酬計算部による計算、前記パラメタ更新部による更新、及び前記行動選択部による選択を繰り返させるステップと、
を備え、
前記状態獲得部が獲得するステップは、獲得した状態が、既に獲得した状態の集合と比較して、新しい状態であれば、前記獲得した状態を、前記状態の集合に追加し、前記状態の集合に基づいて、状態遷移規則を獲得することを特徴とする状態遷移規則獲得方法。 - 行動選択部が、予め学習された、環境の状態において行動を行った時の期待利得に基づいて、入力された状態に対して、前記期待利得が最大となる行動を選択するステップ
を備えることを特徴とする行動選択方法であって、
前記期待利得は、
選択された行動を行った時の行動後の環境の状態を獲得し、前記獲得した前記状態と前記選択された行動とに基づいて、前記状態において前記行動を行った際の報酬を計算し、前記選択された行動と計算された報酬とに基づいて、前記状態を入力とし、行動を選択するためのモデルのパラメタを更新し、前記行動後の状態を入力とし、前記モデルを用いて、行動を選択することを予め定められた反復終了条件を満たすまで繰り返すことと、
前記状態の集合及び状態遷移規則に基づいて、前記状態と前記行動との各ペアに対して、前記状態において行動を行った時の期待利得を学習することと、
を交互に繰り返すことにより予め学習されることを特徴とする行動選択方法。 - コンピュータを、請求項1若しくは請求項3記載の状態遷移規則獲得装置、請求項2若しくは請求項4記載の行動選択学習装置、又は請求項5記載の行動選択装置の各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017205050A JP2019079227A (ja) | 2017-10-24 | 2017-10-24 | 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017205050A JP2019079227A (ja) | 2017-10-24 | 2017-10-24 | 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2019079227A true JP2019079227A (ja) | 2019-05-23 |
Family
ID=66626568
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017205050A Pending JP2019079227A (ja) | 2017-10-24 | 2017-10-24 | 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2019079227A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021082014A (ja) * | 2019-11-19 | 2021-05-27 | 株式会社Preferred Networks | 推定装置、訓練装置、推定方法、訓練方法、プログラム及び非一時的コンピュータ可読媒体 |
| CN114667494A (zh) * | 2019-11-13 | 2022-06-24 | 欧姆龙株式会社 | 机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人 |
| JP2023526211A (ja) * | 2020-05-21 | 2023-06-21 | イントリンジック イノベーション エルエルシー | 分散型ロボット実証学習 |
| JP2023526962A (ja) * | 2020-05-21 | 2023-06-26 | イントリンジック イノベーション エルエルシー | ロボットデモンストレーション学習用スキルテンプレート |
| JP2023528249A (ja) * | 2020-05-21 | 2023-07-04 | イントリンジック イノベーション エルエルシー | ロボット実証学習のためのスキルテンプレート配布 |
-
2017
- 2017-10-24 JP JP2017205050A patent/JP2019079227A/ja active Pending
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114667494A (zh) * | 2019-11-13 | 2022-06-24 | 欧姆龙株式会社 | 机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人 |
| JP2021082014A (ja) * | 2019-11-19 | 2021-05-27 | 株式会社Preferred Networks | 推定装置、訓練装置、推定方法、訓練方法、プログラム及び非一時的コンピュータ可読媒体 |
| JP7579632B2 (ja) | 2019-11-19 | 2024-11-08 | 株式会社Preferred Networks | 推定装置、システム及び方法 |
| JP2023526211A (ja) * | 2020-05-21 | 2023-06-21 | イントリンジック イノベーション エルエルシー | 分散型ロボット実証学習 |
| JP2023526962A (ja) * | 2020-05-21 | 2023-06-26 | イントリンジック イノベーション エルエルシー | ロボットデモンストレーション学習用スキルテンプレート |
| JP2023528249A (ja) * | 2020-05-21 | 2023-07-04 | イントリンジック イノベーション エルエルシー | ロボット実証学習のためのスキルテンプレート配布 |
| JP7427113B2 (ja) | 2020-05-21 | 2024-02-02 | イントリンジック イノベーション エルエルシー | ロボットデモンストレーション学習用スキルテンプレート |
| JP7487341B2 (ja) | 2020-05-21 | 2024-05-20 | イントリンジック イノベーション エルエルシー | ロボット実証学習のためのスキルテンプレート配布 |
| JP7487338B2 (ja) | 2020-05-21 | 2024-05-20 | イントリンジック イノベーション エルエルシー | 分散型ロボット実証学習 |
| US11986958B2 (en) | 2020-05-21 | 2024-05-21 | Intrinsic Innovation Llc | Skill templates for robotic demonstration learning |
| US12296484B2 (en) | 2020-05-21 | 2025-05-13 | Intrinsic Innovation Llc | Skill template distribution for robotic demonstration learning |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109511277B (zh) | 多状态连续动作空间的合作式方法及系统 | |
| CN114139637B (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
| Wang et al. | Distributed reinforcement learning for robot teams: A review | |
| JP2019079227A (ja) | 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム | |
| US8112369B2 (en) | Methods and systems of adaptive coalition of cognitive agents | |
| CN113614743B (zh) | 用于操控机器人的方法和设备 | |
| CN118444887B (zh) | 一种基于深度强化学习的游戏智能体设计方法及系统 | |
| CN112766496B (zh) | 基于强化学习的深度学习模型安全性保障压缩方法与装置 | |
| Sewak et al. | Value-approximation based deep reinforcement learning techniques: an overview | |
| KR20180089769A (ko) | 행동 결정 장치 및 방법, 컴퓨터 판독 가능한 저장 매체 | |
| CN118752492B (zh) | 基于深度强化学习的多任务多机器人的运动控制方法 | |
| CN111639695B (zh) | 一种基于改进果蝇优化算法对数据进行分类的方法及系统 | |
| CN118115229A (zh) | 一种基于强化学习的跨行为信息推荐方法 | |
| Agarwal et al. | A comprehensive analysis of classical machine learning and modern deep learning methodologies | |
| CN117474077A (zh) | 一种基于oar模型与强化学习的辅助决策方法和装置 | |
| Konstantakopoulos et al. | A deep learning and gamification approach to energy conservation at nanyang technological university | |
| CN118876073B (zh) | 基于分布式鲁棒元强化学习的机器人运动控制方法 | |
| CN119396320A (zh) | 智能交互方法、计算设备、存储介质及程序产品 | |
| Li | Focus of attention in reinforcement learning | |
| CN114154566B (zh) | 一种基于深度强化学习的边缘计算主动服务方法及系统 | |
| Ansari et al. | Language expansion in text-based games | |
| CN113537269B (zh) | 图像处理方法、装置及设备 | |
| CN118052278A (zh) | 用于知识推理的方法、装置、设备和存储介质 | |
| Burch | A survey of machine learning | |
| CN112843726A (zh) | 智能体处理方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20171026 |