JP2019082809A - 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム - Google Patents

価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム Download PDF

Info

Publication number
JP2019082809A
JP2019082809A JP2017209276A JP2017209276A JP2019082809A JP 2019082809 A JP2019082809 A JP 2019082809A JP 2017209276 A JP2017209276 A JP 2017209276A JP 2017209276 A JP2017209276 A JP 2017209276A JP 2019082809 A JP2019082809 A JP 2019082809A
Authority
JP
Japan
Prior art keywords
value function
traffic
instruction
action
function parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017209276A
Other languages
English (en)
Other versions
JP6832267B2 (ja
Inventor
匡宏 幸島
Masahiro Kojima
匡宏 幸島
恭太 堤田
Kyota Tsutsumida
恭太 堤田
達史 松林
Tatsufumi Matsubayashi
達史 松林
浩之 戸田
Hiroyuki Toda
浩之 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017209276A priority Critical patent/JP6832267B2/ja
Publication of JP2019082809A publication Critical patent/JP2019082809A/ja
Application granted granted Critical
Publication of JP6832267B2 publication Critical patent/JP6832267B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Traffic Control Systems (AREA)

Abstract

【課題】移動体の数が増加しても、最適な交通状況を実現することができるようにする。【解決手段】同時動的制御シミュレーション実行部31が、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行し、価値関数パラメタ学習部32が、同時動的制御シミュレーション実行部31によるシミュレーションの結果に基づいて、価値関数のパラメタを学習する。【選択図】図1

Description

本発明は、価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラムに関し、特に、移動体による交通を制御するための価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラムに関する。
従来から、都市の交通渋滞や大規模イベントなどにおける人の混雑は社会的な課題になっている。交通渋滞は、渋滞中の車に乗車する人の時間を奪い、流通システムの遅れを生む原因にもなる。イベント会場における混雑もドミノ倒しなどの非劇的な雑踏事故を生む原因になりうる。
この点、強化学習(非特許文献1)によって信号機の制御を行うことで、車両の待ち時間を減少させる技術が存在する(非特許文献2)。
Reinforcement learning: An introduction, Richard S Sutton and Andrew G. Barto, MIT press Cambridge, 1998. Using a deep reinforcement learning agent for traffic signal control, Genders, Wade and Razavi, Saiedeh, arXiv preprint arXiv:1611.01142, 2016.
実際には目的地に到達するための移動経路は多数存在しているため、車両や人の移動経路についても加味して考える必要がある。
しかし、非特許文献2の技術では、移動経路について考慮されていないため、移動経路を加味した渋滞緩和を行うことができなかった。
また、移動経路について強化学習を行ったとしても、各車両毎に移動経路を決定するため、車両数が増大すると、アクションの数が指数的に増大してしまう。このような膨大なアクション数を持つ場合、探索空間が増大し、強化学習によって正しく各車両の移動経路を推定することが極めて困難となる、という問題があった。
本発明は、上記の点に鑑みてなされたものであり、移動体の数が増加しても、最適な交通状況を実現するための価値関数パラメタを学習することができる価値関数パラメタ学習装置、価値関数パラメタ学習方法、およびプログラムを提供することを目的とする。
また、本発明は、移動体の数が増加しても、最適な交通状況を実現することができる信号情報指示装置、移動経路指示装置、信号情報指示方法、移動経路指示方法、およびプログラムを提供することを目的とする。
本発明に係る価値関数パラメタ学習装置は、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行する同時動的制御シミュレーション実行部と、前記同時動的制御シミュレーション実行部によるシミュレーションの結果に基づいて、前記価値関数のパラメタを学習する価値関数パラメタ学習部とを備えて構成される。
また、本発明に係る価値関数パラメタ学習方法は、同時動的制御シミュレーション実行部が、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行するステップと、価値関数パラメタ学習部が、前記同時動的制御シミュレーション実行部によるシミュレーションの結果に基づいて、前記価値関数のパラメタを学習するステップとを含む。
本発明に係る価値関数パラメタ学習装置及び価値関数パラメタ学習方法によれば、同時動的制御シミュレーション実行部が、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行する。
そして、価値関数パラメタ学習部が、同時動的制御シミュレーション実行部によるシミュレーションの結果に基づいて、価値関数のパラメタを学習する。
このように、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを行い、シミュレーションの結果に基づいて、価値関数パラメタを学習することにより、移動体の数が増加しても、最適な交通状況を実現するための価値関数パラメタを学習することができる。
本発明に係る信号情報指示装置は、価値関数パラメタ学習装置によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各信号機に対して指示を行うことができる。
また、本発明に係る信号情報指示方法は、信号情報指示装置が、上記価値関数パラメタ学習方法によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各信号機に対して指示を行うことができる。
本発明に係る移動経路指示装置は、上記価値関数パラメタ学習装置によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各区間を通過する移動体に対して行う進むべき経路の指示を行うことができる。
また、本発明に係る移動経路指示方法は、移動経路指示装置が、上記価値関数パラメタ学習方法によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各区間を通過する移動体に対して行う進むべき経路の指示を行うことができる。
本発明に係るプログラムは、上記の価値関数パラメタ学習装置の各部として機能させるためのプログラムである。
また、本発明に係るプログラムは、上記の信号情報指示装置の各部として機能させるためのプログラムである。
本発明の価値関数パラメタ学習装置、価値関数パラメタ学習方法、およびプログラムによれば、移動体の数が増加しても、最適な交通状況を実現するための価値関数パラメタを学習することができる。
本発明の信号情報指示装置、移動経路指示装置、信号情報指示方法、移動経路指示方法、およびプログラムによれば、移動体の数が増加しても、最適な交通状況を実現することができる。
本発明の実施の形態に係る交通制御システムの構成を示す概略図である。 本発明の実施の形態に係る価値関数パラメタ学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る制御処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る提案エージェントの一例を表す図である。
以下、本発明の実施の形態について図面を用いて説明する。
<本発明の実施の形態の原理>
まず、本発明の実施形態の原理について説明する。
本実施形態は、都市の交通渋滞や大規模イベントなどにおける人の混雑を解消するための技術である。特に本発明の実施形態は人や車などの「移動体」の経路とそれら移動体に対して進行許可・停止などの指示を与える「信号機」を同時に最適化することで混雑を解消する技術である。本発明の実施形態の新規性は、移動体の経路と信号機の最適化を個別に行うのではなく、同時に行うことで全体最適化を行うことにある。
この全体最適のための本実施形態の鍵となるアイディアは、移動体の経路と信号機を制御する指示主体(これをエージェント(Agent)と呼ぶ)の定義とこの指示主体の最適な制御策の推定方法にある。本実施形態に係るエージェント(以下、提案エージェント)の定義と学習方法によって、移動体の数や指示決定に用いる観測のセンサ数が膨大となる場合であっても、最適な制御策の推定が可能になる。これによって、人の混雑を解消することを実現する。
本実施形態は、このような車、人などの混雑を解消する混雑緩和を行うための技術である。特に本実施形態は人や車などの「移動体の経路」とそれら移動体に対して進行許可・停止などの指示を与える「信号機」を同時に最適化することで混雑を解消する技術である。
なお、ここで移動体と呼んでいるものは、人や動物、バイク、車、鉄道、ヘリコプター、飛行機など、一般に移動する、動くもの全てのものを指す。川や水路を流れる水や、ネットワークを流れるパケットも移動体である。
また、信号機と呼んでいるものは、いわゆる道路の信号機(交通信号機)だけでなく、警察官による手信号など、人、車などの上記移動体に対して進行許可・停止などを指示する機能をもつ全てのものを指す。
以下、これより簡便さのために「移動体の経路」とは車の移動経路、「信号機」とは道路の交通信号機を意味するものとして交通制御の文脈で記述を進めるが、「移動体の経路」と「信号機」は上記のいずれのものであってもよい。
本実施形態では、道路に設置してあるセンサや車、信号から観測される値に基づいて、動的(適応的)に信号機と車両の移動経路を制御できる、という設定を考える。
ここで、制御とは、信号機の場合には信号を青にするもしくは赤にすること、経路の場合には車両が移動する経路を強制し、もしくは間接的に指示することを指す。なお、センサなどの観測値に基づいて信号を変えることのできる信号は感応式信号などと呼ばれ普及している。
上記の設定のもと、本実施形態は、任意の観測値を入力、とるべき制御策を出力とする関数(この関数のことを最適方策と呼ぶ)をシミュレーションまたは実環境を通して学習する。一旦最適方策が学習できれば、それに従って制御を実施することで渋滞が緩和できる。
このような最適方策を学習するアプローチは強化学習と呼ばれる。強化学習は、本発明のような信号機と車両の移動経路のように複数のものを制御する場合ではなく、信号機単独のものを制御する場合でも利用できるアプローチである。実際、強化学習によって信号機単独の制御を行う既存技術が存在する(非特許文献2)。
本発明の実施形態はその既存技術の大きな発展系の一つである。そこで、まずこの既存研究について紹介する。
<<強化学習>>
まずはじめに強化学習について簡単に説明する。強化学習はマルコフ決定過程(Markov Decision Process、MDP)(非特許文献1)として定義された設定で最適方策を見つける手法である。MDPは、簡単にいえば行動主体(例えばロボット)と外界の相互作用を記述したものであり、ロボットがとりうる状態の集合

、ロボットがとりうる行動の集合

、ロボットがある状態である行動を取った際の状態の遷移の仕方を定める遷移関数

、ロボットがある状態でとった行動の良さに関する情報を与える報酬関数

、未来に受け取る報酬の考慮度合いをコントロールする割引率γ(ただし、0≦γ<1)の5つの組

で定義される。
このMDPの設定のもと、ロボットには各状態でどの行動を実行するかの自由度が与えられる。このロボットが各状態sにいる時に実行する行動aを決定する関数を方策と呼び、πと書く。ここで、

であり、π(s)で状態sにいるときに実行する行動を表す。
強化学習では複数存在する方策のうち、最も現在から将来にいたるまで得られる報酬の期待割引和を最大化する方策、最適方策を求める。最適方策を導く際に重要な役割を果たすのが価値関数Qπである。
ここで、Sは、ある時刻kにおける状態であり、Sは集合

における最初の状態sを表す。
この関数は、状態sで行動aを実行し、そのあとは方策πにしたがって無限に行動し続けた場合に得られる報酬の期待割引和を表している。方策πが最適方策であったとき、最適方策における価値関数Q(最適価値関数)は、

を満たすことが知られ、この式のことをベルマン最適方程式と呼ぶ。
Q学習に代表される強化学習の多くの手法は、上記の式の関係性を利用して、この最適価値関数をまずはじめに推定し、その結果を用いて、下記式(3)と設定することで最適方策πを得ている。
<<強化学習による信号制御>>
単独の信号制御を行う既存技術(非特許文献2)は前節の強化学習のアプローチにもとづき信号の制御策を発見している。信号制御の場合、MDPにおける行動は例えば「南北方向を青、東西方向を赤にする」、「南北方向を赤、東西方向を青にする」という信号の設定を切り替える操作に対応する。
同様に状態は、上記行動の決定の際に利用できる情報、例えば道路に設置してあるセンサや車両から送信される情報などに対応する。
報酬は、例えば「信号で停止している車両の台数の符号反転(−1をかける)」と設定しておけば、停止する車両の数が少なくなるような最適方策が発見されると期待できる。
前述した既存技術(非特許文献2)は、上記の設定に加え、Space Invaderなどゲーム分野で大きな成功を収めているDeep Q−Network(DQN)(参考文献1)のアプローチを採用している。
[参考文献1]
Human-level control through deep reinforcement learning, Mnih, Volodymyr and Kavukcuoglu, Koray and Silver, David and Rusu, Andrei A and Veness, Joel and Bellemare, Marc G and Graves, Alex and Riedmiller, Martin and Fidjeland, Andreas K and Ostrovski, Georg and others, Nature, 2015.
この研究では、最適価値関数をパラメタをもつニューラルネットワークで近似することを考える。
このパラメタを、シミュレーションを通して学習することで最適価値関数と最適方策を得ている。このアプローチは、とりうる状態の数が非常に多い場合に有効な方法であることが知られている。信号制御の場合でも、センサ数やそこから送られてくる情報の種類が多い場合、一つ一つの状態が数10〜数100次元のベクトルで表現される場合があり、このようなアプローチが採用されている。
このようなDQNを用いた強化学習によって、既存技術(参考文献2)では最適方策によって、車両の待ち時間を減少させることができたと報告されている。
<<原理>>
本発明に係る実施形態は、上記既存技術を大幅に発展させ、信号機と車両の移動経路を同時に最適化することによってさらに車両の待ち時間を減少させる技術である。
信号機と車両の移動経路とを同時に最適化を行うために、本実施形態では、移動経路指示機、という仮想的な機械を導入する。
この移動経路指示機は、ある道路の一定区間を走行している車両に対して進むべき経路を指示する、というものである。
例えば、図4に示すように、その区間を通行した車両のその区間の通過後にとりうる経路としてルート1またはルート2の2種類が存在するとき、この移動経路指示機は、その車両がルート1に進むか、ルート2に進むべきかを指示する。
なお、この指示には、車両が必ず従うとしても良いし、一定の確率に従って指示に従うか否かが決まるとしてもよい。
提案エージェントは、信号機と上記移動経路指示機の両方の行動を決定するエージェントである。図4の例では、提案エージェントの取りうる行動は全8種類であり、各状態においてどの行動を選択するかを定める方策を、強化学習を用いて学習する。
上記提案エージェントの行動を反映することのできる交通シミュレータなどを用意することで、提案エージェントの価値関数パラメタ推定には、任意の強化学習手法が適用でき、DQN(参考文献1)以外の手法、例えばDouble DQN(参考文献2)などを用いてもよい。
[参考文献2]
Deep Reinforcement Learning with Double Q-Learning, Van Hasselt, Hado and Guez, Arthur and Silver, David, AAAI, 2016.
上記の提案エージェントの優れた点は、エージェントのとりうる行動数が車両の数に依存しない、という点にある。
車両毎に移動経路を決定する、というエージェントの定義では、アクションの数が、(信号機のアクション数)×(車両1のアクション数(ルート数))×(車両2のアクション数(ルート数))…と車両数の増大にともないアクションの数が指数的に増大していく。
すなわち、このような膨大なアクション数を持つエージェントを定義してしまうと、探索空間が増大し、強化学習によって正しく価値関数を推定することが極めて困難となる。
提案エージェントでは、このような困難さを回避することで、信号機と車両の移動経路を最適化する最適方策と価値関数を推定する。
<本発明の実施の形態に係る交通制御システムの構成>
図1を参照して、本発明の実施の形態に係る交通制御システムの構成について説明する。図1は、本発明の実施の形態に係る交通制御システムの構成を示すブロック図である。
図1に示すように、本実施形態に交通制御システム100は、価値関数パラメタ学習装置1と、外部装置2と、センサ3と、信号情報指示装置4と、移動経路指示装置5とを備えて構成される。
価値関数パラメタ学習装置1は、CPUと、RAMと、後述する行動選択学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
価値関数パラメタ学習装置1は、シミュレーション設定処理部10と、価値関数モデル設定処理部20と、価値関数パラメタ推定部30と、価値関数制御パラメタ処理部40と、記録部50と、入出力部60とを備えて構成される。
シミュレーション設定処理部10は、入出力部60から取得したシミュレーションを行うために必要な情報を、シミュレーション設定記録部51に格納する。
具体的には、シミュレーション設定処理部10は、シミュレーション設定に関する情報、例えば、道路ネットワーク、信号位置、センサ位置等をシミュレーション設定記録部51に格納する。
価値関数モデル設定処理部20は、入出力部60から取得した価値関数モデルの設定に関する情報を、価値関数モデル設定記録部52に格納する。
具体的には、価値関数モデル設定処理部20は、価値関数モデルの設定に関する情報、例えばニューラルネットワークの層数、中間素子数、活性化関数等を価値関数モデル設定記録部52に格納する。
価値関数パラメタ推定部30は、シミュレーション設定記録部51に記録されているシミュレーション設定に関する情報、価値関数モデル設定記録部52に記録されている価値関数モデルの設定に関する情報を入力とし、同時動的制御シミュレーション実行部31の処理を繰り返し実行することで、価値関数パラメタを学習し、学習した価値関数パラメタを価値関数パラメタ記録部53に格納する。
価値関数パラメタ推定部30は、同時動的制御シミュレーション実行部31と、価値関数パラメタ学習部32とを備えて構成される。
同時動的制御シミュレーション実行部31は、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行する。
具体的には、同時動的制御シミュレーション実行部31は、価値関数パラメタ学習部32から、シミュレーション設定に関する情報と、価値関数モデルの設定に関する情報とを取得して、シミュレーションを実行する。
より具体的には、同時動的制御シミュレーション実行部31は、シミュレーション設定に関する情報に基づいて、道路に設置してあるセンサから送信される情報を、交通状況を表す状態とし、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を、行動とし、信号で停止している車両の台数の符号反転(−1をかける)を、報酬として、価値関数を用いて、行動を決定し、決定した行動を行ったときの交通状況をシミュレーションする。
ここで計算される報酬は、状態sから求められる報酬関数

であるが、状態sにおける行動aも加味した報酬関数

としても良い。
そして、同時動的制御シミュレーション実行部31は、シミュレーションの結果を価値関数パラメタ学習部32に渡す。
価値関数パラメタ学習部32は、同時動的制御シミュレーション実行部31によるシミュレーションの結果に基づいて、価値関数のパラメタを学習する。
具体的には、まず、価値関数パラメタ学習部32は、シミュレーション設定記録部51からシミュレーション設定に関する情報を取得し、価値関数モデル設定記録部52から価値関数モデルの設定に関する情報を取得する。
次に、価値関数パラメタ学習部32は、シミュレーション設定に関する情報と、価値関数モデルの設定に関する情報とを、同時動的制御シミュレーション実行部31に渡し、予め定めた反復条件を満たすまで、同時動的制御シミュレーション実行部31にシミュレーションを繰り返し実行させる。
ここで、反復条件は、所定回数を繰り返す、価値関数パラメタに変化が無くなった、価値関数パラメタの学習が収束した等、様々な条件を設定することができる。
そして、価値関数パラメタ学習部32は、同時動的制御シミュレーション実行部31から取得したシミュレーション結果に基づいて、価値関数パラメタを学習する。
より具体的には、同時動的制御シミュレーション実行部31によるシミュレーション結果から得られる報酬と価値関数の値とに基づいて、最適方策を得ることができる価値関数パラメタ(例えば、式(4)におけるパラメタθ)を学習する。
その後、価値関数パラメタ学習部32は、学習した価値関数パラメタを、価値関数パラメタ記録部53に記録する。
価値関数制御パラメタ処理部40は、価値関数パラメタ記録部53に記録されている価値関数パラメタを、入出力部60に渡す。
記録部50は、シミュレーション設定記録部51と、価値関数モデル設定記録部52と、価値関数パラメタ記録部53とを備えて構成される。
シミュレーション設定記録部51は、シミュレーション設定処理部10から取得したシミュレーションを行うために必要な情報を記録している。
また、シミュレーション設定記録部51は、予め設定されたシミュレーションを行うために必要な情報を記録している。
価値関数モデル設定記録部52は、価値関数モデル設定処理部20から取得した価値関数モデルの設定に関する情報を記録している。
また、価値関数モデル設定記録部52は、予め設定された価値関数モデルの設定に関する情報を記録している。
価値関数パラメタ記録部53は、価値関数パラメタ学習部32により学習された価値関数パラメタを記録している。
入出力部60は、外部装置2から、シミュレーションを行うために必要な情報と、価値関数モデルの設定に関する情報とを受け付ける。
入出力部60は、シミュレーションを行うために必要な情報が入力されると、シミュレーション設定処理部10に、シミュレーションを行うために必要な情報を渡す。
入出力部60は、価値関数モデルの設定に関する情報が入力されると、価値関数モデル設定処理部20に、価値関数モデルの設定に関する情報を渡す。
また、入出力部60は、価値関数制御パラメタ処理部40から、価値関数パラメタを受け取ると、外部装置2へ出力する。
外部装置2は、シミュレーションを行うために必要な情報と、価値関数モデルの設定に関する情報とを設定する装置であり、予め設定されたシミュレーションを行うために必要な情報や予め設定された価値関数モデルの設定に関する情報に修正・変更がある場合に、修正・変更を受け付ける。
そして、修正・変更を受け付けると、修正・変更されたシミュレーションを行うために必要な情報および/または価値関数モデルの設定に関する情報を、入出力部60に渡す。
また、外部装置2は、入力された交通状況を表すセンサ情報と、入力された価値関数パラメタとを、信号情報指示装置4と、各移動経路指示装置5とにそれぞれ渡す。
具体的には、まず、外部装置2は、入出力部60から価値関数パラメタと、複数のセンサ3の各々から、当該センサ3によって計測された交通状況を表すセンサ情報とを取得する。ここで、センサ情報は、車両の速度、車両の台数、車両が通ったか否かなどのそのセンサによって得られる車両の情報である。
次に、外部装置2は、信号情報指示装置4と、各移動経路指示装置5とに対して、取得した交通状況を表すセンサ情報と、価値関数パラメタとを渡す。
センサ3は、道路に複数設置されているセンサであり、各設置地点における交通の状況を計測する。例えば、設置地点の画像や設置地点を通過した車両の速度、所定時間内の車両台数、車両が通過したこと等を計測する。
信号情報指示装置4は、価値関数パラメタ学習装置1によって学習された価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する状態について、最適方策となる行動を決定し、決定された行動に含まれる各信号機に対する指示に従って、各信号機に対して指示を行う。
具体的には、まず、信号情報指示装置4は、外部装置2から、センサ情報と、価値関数パラメタとを取得し、取得したセンサ情報に対応する状態を求める。
次に、信号情報指示装置4は、取得した価値関数パラメタを用いて、求めた交通状況の状態について、最適方策となる行動を決定する。
そして、信号情報指示装置4は、決定された行動に含まれる各信号機に対する指示にしたがって、各信号機に対して、「赤にする」、「青にする」等の指示を行う。
移動経路指示装置5は、価値関数パラメタ学習装置1によって学習された価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する状態について、最適方策となる行動を決定し、決定された行動に含まれる自装置の区間を通過する移動体に対して行う進むべき経路の指示に従って、自装置の区間を通過する移動体に対して行う進むべき経路の指示を行う。
具体的には、まず、移動経路指示装置5は、外部装置2から、センサ情報と、価値関数パラメタとを取得し、取得したセンサ情報に対応する状態を求める。
次に、移動経路指示装置5は、取得した価値関数パラメタを用いて、求めた交通状況の状態について、最適方策となる行動を決定する。
そして、移動経路指示装置5は、決定された行動に含まれる自装置の区間を通過する移動体に対して行う進むべき経路の指示にしたがって、自装置の区間を通過する車両に対して「ルート1に進む」、「ルート2に進む」等の指示を行う。
<本発明の実施の形態に係る価値関数パラメタ学習装置の作用>
図2は、本発明の実施の形態に係る価値関数パラメタ学習処理ルーチンを示すフローチャートである。
価値関数パラメタ学習装置1に価値関数パラメタ学習処理の実行命令がなされると、価値関数パラメタ推定部30において、図2に示す価値関数パラメタ学習処理ルーチンが実行される。
まず、ステップS100において、価値関数パラメタ学習部32は、シミュレーション設定記録部51からシミュレーション設定に関する情報を取得する。このシミュレーション設定に関する情報は、予め設定されたものでもよいし、シミュレーション設定処理部10により格納されたものでもよい。
ステップS110において、価値関数パラメタ学習部32は、価値関数モデル設定記録部52から価値関数モデルの設定に関する情報を取得する。この価値関数モデルの設定に関する情報は、予め設定されたものでもよいし、価値関数モデル設定処理部20により格納されたものでもよい。
ステップS120において、価値関数パラメタ学習部32は、価値関数パラメタを初期化する。
ステップS130において、同時動的制御シミュレーション実行部31は、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行する。
ステップS140において、価値関数パラメタ学習部32は、同時動的制御シミュレーション実行部31によるシミュレーションの結果に基づいて、価値関数のパラメタを学習する。
ステップS150において、価値関数パラメタ学習部32は、予め定めた反復条件を満たすか否かを判定する。
予め定めた反復条件を満たしていない場合(ステップS150のNO)、ステップS130〜S140の処理を繰り返す。
予め定めた反復条件を満たしている場合(ステップS150のYES)、ステップS160において、入出力部60は、ステップS140により学習された価値関数パラメタを、外部装置2へ出力する。
<本発明の実施の形態に係る信号情報指示装置4及び移動経路指示装置5の作用>
図3は、本発明の実施の形態に係る制御処理ルーチンを示すフローチャートである。
外部装置2から価値関数パラメタが入力されると、信号情報指示装置4において、図3に示す制御処理ルーチンが実行される。
まず、ステップS200において、信号情報指示装置4は、外部装置2から入力された、価値関数パラメタ学習装置1によって学習された価値関数パラメタを取得する。
ステップS210において、信号情報指示装置4は、外部装置2から、各センサ3のセンサ情報を取得し、取得したセンサ情報に対応する状態を求める。
ステップS220において、信号情報指示装置4は、ステップS200で取得した価値関数のパラメタを用いて、ステップS210により求められた交通状況を表すセンサ情報に対応する状態について、最適方策となる行動を決定する。
ステップS230において、信号情報指示装置4は、ステップS220により決定した行動に含まれる各信号機に対する指示に従って、各信号機に対して指示を行う。
また、各移動経路指示装置5においても、上記図3に示す制御処理ルーチンと同様の処理ルーチンを実行し、決定した行動に含まれる、自装置の区間を通過する移動体に対して行う進むべき経路の指示を含む行動に従って、自装置の区間を通過する移動体に対して行う進むべき経路の指示を行う。
以上説明したように、本実施形態に係る価値関数パラメタ学習装置によれば、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを行い、シミュレーションの結果に基づいて、価値関数パラメタを学習するため、移動体の数が増加しても、最適な交通状況を実現するための価値関数パラメタを学習することができる。
また、本実施形態に係る外部装置によれば、価値関数パラメタ学習装置によって学習された価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する状態について、行動を決定し、決定された行動に従って、各信号機に対する指示、及び各区間を通過する移動体に対して行う進むべき経路の指示を行うため、移動体の数が増加しても、最適な交通状況を実現することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
本実施形態では、信号情報指示装置4と、各移動経路指示装置5とが、各センサ3から取得したセンサ情報に基づいて状態を求め、行動を決定する例を説明したが、外部装置2が、各センサ3からセンサ情報を取得し、それぞれセンサ情報に対応する状態を求めて、行動を決定する構成としても良い。この場合、外部装置2が、信号情報指示装置4と、各移動経路指示装置5に対して、各信号機に対する指示、及び経路の指示を出す。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納し、またはネットワークを介して提供することも可能である。
1 価値関数パラメタ学習装置
2 外部装置
3 センサ
4 信号情報指示装置
5 移動経路指示装置
10 シミュレーション設定処理部
20 価値関数モデル設定処理部
30 価値関数パラメタ推定部
31 同時動的制御シミュレーション実行部
32 価値関数パラメタ学習部
40 価値関数制御パラメタ処理部
50 記録部
51 シミュレーション設定記録部
52 価値関数モデル設定記録部
53 価値関数パラメタ記録部
60 入出力部
100 交通制御システム

Claims (8)

  1. 交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行する同時動的制御シミュレーション実行部と、
    前記同時動的制御シミュレーション実行部によるシミュレーションの結果に基づいて、前記価値関数のパラメタを学習する価値関数パラメタ学習部と、
    を含む価値関数パラメタ学習装置。
  2. 請求項1記載の価値関数パラメタ学習装置によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各信号機に対して指示を行う信号情報指示装置。
  3. 請求項1記載の価値関数パラメタ学習装置によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各区間を通過する移動体に対して行う進むべき経路の指示を行う移動経路指示装置。
  4. 同時動的制御シミュレーション実行部が、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行するステップと、
    価値関数パラメタ学習部が、前記同時動的制御シミュレーション実行部によるシミュレーションの結果に基づいて、前記価値関数のパラメタを学習するステップと、
    を含む価値関数パラメタ学習方法。
  5. 信号情報指示装置が、請求項4記載の価値関数パラメタ学習方法によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各信号機に対して指示を行う信号情報指示方法。
  6. 移動経路指示装置が、請求項4記載の価値関数パラメタ学習方法によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各区間を通過する移動体に対して行う進むべき経路の指示を行う移動経路指示方法。
  7. コンピュータを、請求項1記載の価値関数パラメタ学習装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項2記載の信号情報指示装置として機能させるためのプログラム。
JP2017209276A 2017-10-30 2017-10-30 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム Active JP6832267B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017209276A JP6832267B2 (ja) 2017-10-30 2017-10-30 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017209276A JP6832267B2 (ja) 2017-10-30 2017-10-30 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019082809A true JP2019082809A (ja) 2019-05-30
JP6832267B2 JP6832267B2 (ja) 2021-02-24

Family

ID=66671152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017209276A Active JP6832267B2 (ja) 2017-10-30 2017-10-30 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6832267B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021090413A1 (ja) * 2019-11-06 2021-05-14 日本電信電話株式会社 制御装置、制御システム、制御方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274935A (ja) * 1991-02-28 1992-09-30 Toyota Central Res & Dev Lab Inc 車両の操作量決定装置
JPH06131589A (ja) * 1992-10-16 1994-05-13 Nagoya Denki Kogyo Kk 交通状況検出方法
JP2017162385A (ja) * 2016-03-11 2017-09-14 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274935A (ja) * 1991-02-28 1992-09-30 Toyota Central Res & Dev Lab Inc 車両の操作量決定装置
JPH06131589A (ja) * 1992-10-16 1994-05-13 Nagoya Denki Kogyo Kk 交通状況検出方法
JP2017162385A (ja) * 2016-03-11 2017-09-14 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021090413A1 (ja) * 2019-11-06 2021-05-14 日本電信電話株式会社 制御装置、制御システム、制御方法及びプログラム
JPWO2021090413A1 (ja) * 2019-11-06 2021-05-14
JP7396367B2 (ja) 2019-11-06 2023-12-12 日本電信電話株式会社 制御装置、制御システム、及びプログラム

Also Published As

Publication number Publication date
JP6832267B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
KR102461831B1 (ko) 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법
Zheng et al. Behavioral decision‐making model of the intelligent vehicle based on driving risk assessment
CN110646009B (zh) 一种基于dqn的车辆自动驾驶路径规划的方法及装置
Chu et al. Model-based deep reinforcement learning for CACC in mixed-autonomy vehicle platoon
JP6913969B2 (ja) 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置
El-Tantawy et al. Design of reinforcement learning parameters for seamless application of adaptive traffic signal control
Wen A dynamic and automatic traffic light control expert system for solving the road congestion problem
Liu et al. V2X-based decentralized cooperative adaptive cruise control in the vicinity of intersections
Makantasis et al. Deep reinforcement‐learning‐based driving policy for autonomous road vehicles
CN110796856A (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
WO2023123906A1 (zh) 交通信号灯控制方法及相关设备
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
Jutury et al. Adaptive neuro-fuzzy enabled multi-mode traffic light control system for urban transport network
Nakka et al. A multi-agent deep reinforcement learning coordination framework for connected and automated vehicles at merging roadways
Li et al. On-ramp merging for highway autonomous driving: An application of a new safety indicator in deep reinforcement learning
Park et al. Deep Q-network-based traffic signal control models
CN107563543A (zh) 一种基于群体智能的城市交通优化服务方法与系统
Ding et al. Centralized cooperative intersection control under automated vehicle environment
CN117711182B (zh) 一种交叉口环境智能网联车辆轨迹协同优化方法
Yen et al. Deep reinforcement learning based platooning control for travel delay and fuel optimization
CN117601904B (zh) 车辆行驶轨迹的规划方法、装置、车辆及存储介质
Shabab et al. Deep reinforcement learning-based short-term traffic signal optimizing using disaggregated vehicle data
Zou et al. Traffic-r1: Reinforced llms bring human-like reasoning to traffic signal control systems
Yu et al. Comparative Study of Intersection Management Algorithms for Autonomous Vehicles
Yuan et al. Deep reinforcement learning based green wave speed guidance for human-driven connected vehicles at signalized intersections

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210201

R150 Certificate of patent or registration of utility model

Ref document number: 6832267

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350