JP2019082809A - 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム - Google Patents
価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム Download PDFInfo
- Publication number
- JP2019082809A JP2019082809A JP2017209276A JP2017209276A JP2019082809A JP 2019082809 A JP2019082809 A JP 2019082809A JP 2017209276 A JP2017209276 A JP 2017209276A JP 2017209276 A JP2017209276 A JP 2017209276A JP 2019082809 A JP2019082809 A JP 2019082809A
- Authority
- JP
- Japan
- Prior art keywords
- value function
- traffic
- instruction
- action
- function parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Traffic Control Systems (AREA)
Abstract
Description
まず、本発明の実施形態の原理について説明する。
まずはじめに強化学習について簡単に説明する。強化学習はマルコフ決定過程(Markov Decision Process、MDP)(非特許文献1)として定義された設定で最適方策を見つける手法である。MDPは、簡単にいえば行動主体(例えばロボット)と外界の相互作用を記述したものであり、ロボットがとりうる状態の集合
、ロボットがとりうる行動の集合
、ロボットがある状態である行動を取った際の状態の遷移の仕方を定める遷移関数
、ロボットがある状態でとった行動の良さに関する情報を与える報酬関数
、未来に受け取る報酬の考慮度合いをコントロールする割引率γ(ただし、0≦γ<1)の5つの組
で定義される。
であり、π(s)で状態sにいるときに実行する行動を表す。
における最初の状態sを表す。
を満たすことが知られ、この式のことをベルマン最適方程式と呼ぶ。
Q学習に代表される強化学習の多くの手法は、上記の式の関係性を利用して、この最適価値関数をまずはじめに推定し、その結果を用いて、下記式(3)と設定することで最適方策π*を得ている。
Human-level control through deep reinforcement learning, Mnih, Volodymyr and Kavukcuoglu, Koray and Silver, David and Rusu, Andrei A and Veness, Joel and Bellemare, Marc G and Graves, Alex and Riedmiller, Martin and Fidjeland, Andreas K and Ostrovski, Georg and others, Nature, 2015.
本発明に係る実施形態は、上記既存技術を大幅に発展させ、信号機と車両の移動経路を同時に最適化することによってさらに車両の待ち時間を減少させる技術である。
Deep Reinforcement Learning with Double Q-Learning, Van Hasselt, Hado and Guez, Arthur and Silver, David, AAAI, 2016.
図1を参照して、本発明の実施の形態に係る交通制御システムの構成について説明する。図1は、本発明の実施の形態に係る交通制御システムの構成を示すブロック図である。
であるが、状態sにおける行動aも加味した報酬関数
としても良い。
図2は、本発明の実施の形態に係る価値関数パラメタ学習処理ルーチンを示すフローチャートである。
図3は、本発明の実施の形態に係る制御処理ルーチンを示すフローチャートである。
2 外部装置
3 センサ
4 信号情報指示装置
5 移動経路指示装置
10 シミュレーション設定処理部
20 価値関数モデル設定処理部
30 価値関数パラメタ推定部
31 同時動的制御シミュレーション実行部
32 価値関数パラメタ学習部
40 価値関数制御パラメタ処理部
50 記録部
51 シミュレーション設定記録部
52 価値関数モデル設定記録部
53 価値関数パラメタ記録部
60 入出力部
100 交通制御システム
Claims (8)
- 交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行する同時動的制御シミュレーション実行部と、
前記同時動的制御シミュレーション実行部によるシミュレーションの結果に基づいて、前記価値関数のパラメタを学習する価値関数パラメタ学習部と、
を含む価値関数パラメタ学習装置。 - 請求項1記載の価値関数パラメタ学習装置によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各信号機に対して指示を行う信号情報指示装置。
- 請求項1記載の価値関数パラメタ学習装置によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各区間を通過する移動体に対して行う進むべき経路の指示を行う移動経路指示装置。
- 同時動的制御シミュレーション実行部が、交通状況を表す状態と、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動との組み合わせに対する価値関数を用いて、各区間を通過する移動体に対して行う進むべき経路の指示、及び各信号機に対する指示を含む行動を行ったときの交通状況のシミュレーションを実行するステップと、
価値関数パラメタ学習部が、前記同時動的制御シミュレーション実行部によるシミュレーションの結果に基づいて、前記価値関数のパラメタを学習するステップと、
を含む価値関数パラメタ学習方法。 - 信号情報指示装置が、請求項4記載の価値関数パラメタ学習方法によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各信号機に対して指示を行う信号情報指示方法。
- 移動経路指示装置が、請求項4記載の価値関数パラメタ学習方法によって学習された前記価値関数のパラメタを用いて、入力された交通状況を表すセンサ情報に対応する前記状態について、前記行動を決定し、前記決定された行動に従って、各区間を通過する移動体に対して行う進むべき経路の指示を行う移動経路指示方法。
- コンピュータを、請求項1記載の価値関数パラメタ学習装置の各部として機能させるためのプログラム。
- コンピュータを、請求項2記載の信号情報指示装置として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017209276A JP6832267B2 (ja) | 2017-10-30 | 2017-10-30 | 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017209276A JP6832267B2 (ja) | 2017-10-30 | 2017-10-30 | 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019082809A true JP2019082809A (ja) | 2019-05-30 |
| JP6832267B2 JP6832267B2 (ja) | 2021-02-24 |
Family
ID=66671152
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017209276A Active JP6832267B2 (ja) | 2017-10-30 | 2017-10-30 | 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6832267B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021090413A1 (ja) * | 2019-11-06 | 2021-05-14 | 日本電信電話株式会社 | 制御装置、制御システム、制御方法及びプログラム |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04274935A (ja) * | 1991-02-28 | 1992-09-30 | Toyota Central Res & Dev Lab Inc | 車両の操作量決定装置 |
| JPH06131589A (ja) * | 1992-10-16 | 1994-05-13 | Nagoya Denki Kogyo Kk | 交通状況検出方法 |
| JP2017162385A (ja) * | 2016-03-11 | 2017-09-14 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
-
2017
- 2017-10-30 JP JP2017209276A patent/JP6832267B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04274935A (ja) * | 1991-02-28 | 1992-09-30 | Toyota Central Res & Dev Lab Inc | 車両の操作量決定装置 |
| JPH06131589A (ja) * | 1992-10-16 | 1994-05-13 | Nagoya Denki Kogyo Kk | 交通状況検出方法 |
| JP2017162385A (ja) * | 2016-03-11 | 2017-09-14 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021090413A1 (ja) * | 2019-11-06 | 2021-05-14 | 日本電信電話株式会社 | 制御装置、制御システム、制御方法及びプログラム |
| JPWO2021090413A1 (ja) * | 2019-11-06 | 2021-05-14 | ||
| JP7396367B2 (ja) | 2019-11-06 | 2023-12-12 | 日本電信電話株式会社 | 制御装置、制御システム、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6832267B2 (ja) | 2021-02-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102461831B1 (ko) | 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법 | |
| Zheng et al. | Behavioral decision‐making model of the intelligent vehicle based on driving risk assessment | |
| CN110646009B (zh) | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 | |
| Chu et al. | Model-based deep reinforcement learning for CACC in mixed-autonomy vehicle platoon | |
| JP6913969B2 (ja) | 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置 | |
| El-Tantawy et al. | Design of reinforcement learning parameters for seamless application of adaptive traffic signal control | |
| Wen | A dynamic and automatic traffic light control expert system for solving the road congestion problem | |
| Liu et al. | V2X-based decentralized cooperative adaptive cruise control in the vicinity of intersections | |
| Makantasis et al. | Deep reinforcement‐learning‐based driving policy for autonomous road vehicles | |
| CN110796856A (zh) | 车辆变道意图预测方法及变道意图预测网络的训练方法 | |
| WO2023123906A1 (zh) | 交通信号灯控制方法及相关设备 | |
| CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
| Jutury et al. | Adaptive neuro-fuzzy enabled multi-mode traffic light control system for urban transport network | |
| Nakka et al. | A multi-agent deep reinforcement learning coordination framework for connected and automated vehicles at merging roadways | |
| Li et al. | On-ramp merging for highway autonomous driving: An application of a new safety indicator in deep reinforcement learning | |
| Park et al. | Deep Q-network-based traffic signal control models | |
| CN107563543A (zh) | 一种基于群体智能的城市交通优化服务方法与系统 | |
| Ding et al. | Centralized cooperative intersection control under automated vehicle environment | |
| CN117711182B (zh) | 一种交叉口环境智能网联车辆轨迹协同优化方法 | |
| Yen et al. | Deep reinforcement learning based platooning control for travel delay and fuel optimization | |
| CN117601904B (zh) | 车辆行驶轨迹的规划方法、装置、车辆及存储介质 | |
| Shabab et al. | Deep reinforcement learning-based short-term traffic signal optimizing using disaggregated vehicle data | |
| Zou et al. | Traffic-r1: Reinforced llms bring human-like reasoning to traffic signal control systems | |
| Yu et al. | Comparative Study of Intersection Management Algorithms for Autonomous Vehicles | |
| Yuan et al. | Deep reinforcement learning based green wave speed guidance for human-driven connected vehicles at signalized intersections |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191205 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200923 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201006 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201113 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210201 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6832267 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |