JP7357537B2 - 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム - Google Patents
制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム Download PDFInfo
- Publication number
- JP7357537B2 JP7357537B2 JP2019233323A JP2019233323A JP7357537B2 JP 7357537 B2 JP7357537 B2 JP 7357537B2 JP 2019233323 A JP2019233323 A JP 2019233323A JP 2019233323 A JP2019233323 A JP 2019233323A JP 7357537 B2 JP7357537 B2 JP 7357537B2
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- event
- search
- reinforcement learning
- control device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Program-control systems
- G05B19/02—Program-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41875—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by quality surveillance of production
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60G—VEHICLE SUSPENSION ARRANGEMENTS
- B60G17/00—Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load
- B60G17/015—Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load the regulating means comprising electric or electronic elements
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/008—Registering or indicating the working of vehicles communicating information to a remotely located station
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/08—Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
- G07C5/0841—Registering performance data
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0043—Signal treatments, identification of variables or parameters, parameter estimation or state estimation
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/34—Director, elements to supervisory
- G05B2219/34082—Learning, online reinforcement learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Manufacturing & Machinery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Transportation (AREA)
- Human Computer Interaction (AREA)
- Feedback Control In General (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Vehicle Body Suspensions (AREA)
Description
強化学習を用いて車両に対する所定の制御を行う制御装置であって、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする制御装置が提供される。
図1を参照して、本実施形態に係る車両制御システム10の概要について説明する。車両制御システム10は、所定システムの一例としての車両100、および情報処理サーバの一例としてのデータ収集サーバ110とを含む。本実施形態では、車両100が、強化学習を用いて車両の構成要素であるダンパを制御する場合を例に説明する。しかし、車両が強化学習を用いて、ダンパ制御以外の他の構成要素を制御(例えば走行時の操舵やアクセル制御)を行う場合にも適用可能である。また、以下で説明する実施形態では、車両が備える制御部が強化学習を用いたダンパ制御を行う場合を例に説明する。しかし、制御部による処理を、車両内に搭載された情報処理装置が行うようにしてもよい。すなわち、本実施形態は、情報処理装置が、車両からセンサ情報等を取得して、強化学習を用いたダンパ制御用の制御信号を車両に出力する構成によって実現されてもよい。なお、以下の説明では、車両が備える制御部或いは上記情報処理装置を制御装置という場合がある。
次に、図2を参照して、本実施形態に係る車両100の機能構成例について説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。
次に、図3を参照して、強化学習を用いたダンパ制御処理の概要について説明する。
更に、図4を参照して、モデル処理部214の構成例とダンパ制御処理におけるモデル処理部214の動作例について説明する。図4は、アクタークリティック手法を用いる場合のモデル処理部214の内部構成例と、モデル処理部214のニューラルネットワーク(NN)のネットワーク構成例を模式的に示している。
次に、図6を参照して、車両100のライフサイクルにおいて発生するイベントに応じてモデル処理部214に設定される探索パラメータの変化について説明する。
次に、車両におけるダンパ制御処理の一連の動作について、図7を参照して説明する。なお、本処理は、図3の説明において時刻tのフィードバックデータが得られた時点から開始される。なお、モデル処理部214の動作は、例えば5Hzの動作周波数で行われるものとする。また、本処理では、例えば、初期の探索パラメータがモデル処理部214に設定されている。更に、モデル処理部214およびアクター401などの制御部200内の構成による処理は、CPU210がROM212に格納されたプログラムをRAM211に展開、実行することにより実現される。
次に、車両における探索パラメータ設定処理の一連の動作について、図8を参照して説明する。なお、本処理は、図3の説明において時刻tのフィードバックデータが得られた時点から開始され、図7を参照して説明したダンパ制御処理と独立して並列に実行される。本処理は、CPU210がROM212に格納されたプログラムをRAM211に展開、実行することにより実現される。
次に、情報処理サーバの一例としてのデータ収集サーバの機能構成例について、図9を参照して説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。
次に、図10を参照して、データ収集サーバ110における探索パラメータ送信処理の一連の動作について説明する。なお、本処理は、制御部900のCPU910が、ROM912に記憶されたプログラムをRAM911に展開、実行することにより実現される。
上述の実施形態では、車両100の制御部200において、フィードバックデータを取得し、強化学習を用いて方策を算出したうえで探索の確率に応じた方策を選択し、制御変数を出力するようにした。しかしながら、当該制御部200の処理をデータ収集サーバ110側で行ってもよい。すなわち、車両がフィードバックデータをデータ送信サーバに送信する。データ収集サーバ110は、受信したフィードバックデータに対し強化学習を用いて方策を算出したうえで探索の確率に応じた方策を選択し、当該方策に応じた制御変数を車両100に対して出力する。この場合、図7を参照して説明した各ステップ、及び、図8を参照して説明した各ステップを、データ収集サーバ110の制御部900が実施すればよい。S803におけるイベント検出は、イベント検知に必要な情報を車両100から受信してもよい。例えば、データ収集サーバ110がイベントの検知部を備え、車両から製造完了や車両登録の情報を受信したり、車両からの学習データのデータ量をカウントしたり、所定の時点からの経過時間をカウントしてもよい。
1.上記実施形態の制御装置(例えば、200或いは100)は、
所定システムのライフサイクルにおけるイベントを検知する検知手段(例えば、217)と、
イベントが検知されたことに応じて、検出されたイベントに応じて特定される探索パラメータを、強化学習における探索の割合を調整する値として設定する設定手段(例えば、216)と、
設定された探索パラメータに従って強化学習を用いた所定システムに対する所定の制御を実行する処理手段(例えば、214)と、を有し、
設定手段は、第1のイベントが検知された場合、第1のイベントの後である第1の期間に設定される探索の割合を、第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする探索パラメータを設定する。
設定手段は、第1の期間に設定される探索の割合を非ゼロとする探索パラメータを設定する。
設定手段は、第1の期間に設定される探索の割合と、第2の期間に設定されていた探索の割合とが非連続となる探索パラメータを設定する。
イベントは、所定システムに対する手続きの完了、所定システムの特定の使用状態への到達、及び、所定システムを制御する構成要素の更新の少なくともいずれかを含む。
車両に対する手続きの完了は、所定システムの製造完了、及び、所定システムの登録完了の少なくともいずれかを含む。
所定システムの特定の使用状態への到達は、所定の時点からの所定日数の経過、所定の時点からの所定走行距離の走行の少なくともいずれかを含む。
所定システムを制御する構成要素の更新は、強化学習に用いられる学習モデルのバージョンの更新を含む。
検出されたイベントに応じて、前記探索パラメータを特定する特定手段を更に有する。
検出されたイベントを外部サーバに送信する送信手段(例えば、102)と、
イベントに応じて特定された探索パラメータを外部サーバから受信する受信手段(例えば、102)と、を更に有する。
探索パラメータは、所定システムごと、又は所定システムのモデルごとに異なる。
処理手段によって実行される強化学習のモデルに対する入力情報と出力情報とを、学習データとして外部サーバに提供する。
この実施形態によれば、外部サーバに、強化学習の学習に有用である利用可能なばらつきのあるデータを送信することができる。
Claims (16)
- 強化学習を用いて車両に対する所定の制御を行う制御装置であって、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする制御装置。 - 前記設定手段は、前記第1の期間に設定される探索の割合を非ゼロとする前記探索パラメータを設定する、ことを特徴とする請求項1に記載の制御装置。
- 前記設定手段は、前記第1の期間に設定される探索の割合と、前記第2の期間に設定されていた探索の割合とが非連続となる前記探索パラメータを設定する、ことを特徴とする請求項1または2に記載の制御装置。
- 前記第1のイベントは、更に、前記車両の特定の使用状態への到達を含む、ことを特徴とする請求項1から3のいずれか1項に記載の制御装置。
- 前記第1のイベントは、前記車両の利用開始までの前記車両に対する手続きの完了を含み、当該手続きの完了は、前記車両の製造完了、及び、前記車両の登録完了の少なくともいずれかを含む、ことを特徴とする請求項1に記載の制御装置。
- 前記車両の特定の使用状態への到達は、所定の時点からの所定日数の経過、所定の時点からの所定走行距離の走行の少なくともいずれかを含む、ことを特徴とする請求項4に記載の制御装置。
- 前記第1のイベントは、前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新を含む、ことを特徴とする請求項1に記載の制御装置。
- 検知された前記イベントに応じて、前記探索パラメータを特定する特定手段を更に有する、ことを特徴とする請求項1から7のいずれか1項に記載の制御装置。
- 検知された前記イベントを外部サーバに送信する送信手段と、
前記イベントに応じて特定された前記探索パラメータを前記外部サーバから受信する受信手段と、を更に有する、ことを特徴とする請求項1から7のいずれか1項に記載の制御装置。 - 前記探索パラメータは、車両ごと、又は車両のモデルごとに異なる、ことを特徴とする、請求項1から9のいずれか1項に記載の制御装置。
- 前記処理手段によって実行される前記強化学習のモデルに対する入力情報と出力情報とを、学習データとして外部サーバに提供する提供手段を更に有する、ことを特徴とする請求項1から10のいずれか1項に記載の制御装置。
- 強化学習を用いて車両に対する所定の制御を行う制御装置の制御方法であって、
検知手段が、前記車両のライフサイクルにおけるイベントを検知する検知工程と、
設定手段が、前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定工程と、
処理手段が、設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理工程と、を有し、
前記設定工程では、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする制御装置の制御方法。 - コンピュータを、請求項1から11のいずれか1項に記載の制御装置の各手段として機能させるためのプログラム。
- 強化学習を用いて車両に対する所定の制御を行う情報処理サーバであって、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御のための処理を実行する処理手段と、
前記処理手段による処理結果を前記車両に送信する送信手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする情報処理サーバ。 - 情報処理サーバで実行される、強化学習を用いて車両に対する所定の制御を行う情報処理方法であって、
検知手段が、前記車両のライフサイクルにおけるイベントを検知する検知工程と、
設定手段が、前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定工程と、
処理手段が、設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御のための処理を実行する処理工程と、
送信手段が、処理工程における処理結果を前記車両に送信する送信工程と、を有し、
前記設定工程では、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする情報処理方法。 - 強化学習を用いて車両に対する所定の制御を行う制御装置と、情報処理サーバとを含む制御システムであって、
前記制御装置は、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントを前記情報処理サーバに送信する第1の送信手段と、
前記情報処理サーバから受信した、前記イベントに応じて特定された探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、制御装置と、
前記情報処理サーバは、
前記イベントに応じて、前記探索パラメータを特定する特定手段と、
特定した前記探索パラメータを前記車両に送信する第2の送信手段と、を有する、ことを特徴とする制御システム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019233323A JP7357537B2 (ja) | 2019-12-24 | 2019-12-24 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
| US17/106,458 US11934951B2 (en) | 2019-12-24 | 2020-11-30 | Control apparatus, control method for control apparatus, non-transitory computer readable storage medium, information processing server, information processing method, and control system for controlling system using reinforcement learning |
| CN202011398791.XA CN113022582B (zh) | 2019-12-24 | 2020-12-02 | 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019233323A JP7357537B2 (ja) | 2019-12-24 | 2019-12-24 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021103356A JP2021103356A (ja) | 2021-07-15 |
| JP7357537B2 true JP7357537B2 (ja) | 2023-10-06 |
Family
ID=76437236
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019233323A Active JP7357537B2 (ja) | 2019-12-24 | 2019-12-24 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11934951B2 (ja) |
| JP (1) | JP7357537B2 (ja) |
| CN (1) | CN113022582B (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4050430A1 (de) * | 2021-02-24 | 2022-08-31 | Siemens Aktiengesellschaft | Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung |
| US20250391280A1 (en) * | 2021-05-06 | 2025-12-25 | Intelligent Fusion Technology, Inc. | Method, device and system of intelligent cooperative perception (icooper) framework |
| DE102023004450B3 (de) * | 2023-11-04 | 2024-11-07 | Mercedes-Benz Group AG | Verfahren zur Vorsteuerung eines Fahrerassistenzsystems |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017167866A (ja) | 2016-03-17 | 2017-09-21 | 株式会社ジェイテクト | 工作機械用管理システム |
| US20180165602A1 (en) | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
| JP2018151876A (ja) | 2017-03-13 | 2018-09-27 | 株式会社日立製作所 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
| JP2018152012A (ja) | 2017-03-15 | 2018-09-27 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10328980A (ja) * | 1997-05-27 | 1998-12-15 | Sony Corp | 工程管理装置及び方法 |
| US6917925B2 (en) | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
| DE102017105377A1 (de) | 2016-03-17 | 2017-09-21 | Jtekt Corporation | Steuerkonsole für Werkzeugmaschinen und Verwaltungssystem für Werkzeugmaschinen |
| CN109791409B (zh) * | 2016-09-23 | 2022-11-29 | 苹果公司 | 自主车辆的运动控制决策 |
| US10296004B2 (en) * | 2017-06-21 | 2019-05-21 | Toyota Motor Engineering & Manufacturing North America, Inc. | Autonomous operation for an autonomous vehicle objective in a multi-vehicle environment |
| US10235881B2 (en) * | 2017-07-28 | 2019-03-19 | Toyota Motor Engineering & Manufacturing North America, Inc. | Autonomous operation capability configuration for a vehicle |
| US11027751B2 (en) * | 2017-10-31 | 2021-06-08 | Nissan North America, Inc. | Reinforcement and model learning for vehicle operation |
| JP6845529B2 (ja) | 2017-11-08 | 2021-03-17 | 本田技研工業株式会社 | 行動決定システム及び自動運転制御装置 |
| CN109960246B (zh) * | 2017-12-22 | 2021-03-30 | 华为技术有限公司 | 动作控制方法及装置 |
| JP6748135B2 (ja) * | 2018-03-19 | 2020-08-26 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
| US11086317B2 (en) * | 2018-03-30 | 2021-08-10 | Intel Corporation | Emotional adaptive driving policies for automated driving vehicles |
| US10990096B2 (en) | 2018-04-27 | 2021-04-27 | Honda Motor Co., Ltd. | Reinforcement learning on autonomous vehicles |
| US11480972B2 (en) * | 2018-11-13 | 2022-10-25 | Qualcomm Incorporated | Hybrid reinforcement learning for autonomous driving |
-
2019
- 2019-12-24 JP JP2019233323A patent/JP7357537B2/ja active Active
-
2020
- 2020-11-30 US US17/106,458 patent/US11934951B2/en active Active
- 2020-12-02 CN CN202011398791.XA patent/CN113022582B/zh active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017167866A (ja) | 2016-03-17 | 2017-09-21 | 株式会社ジェイテクト | 工作機械用管理システム |
| US20180165602A1 (en) | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
| JP2018151876A (ja) | 2017-03-13 | 2018-09-27 | 株式会社日立製作所 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
| JP2018152012A (ja) | 2017-03-15 | 2018-09-27 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20210192344A1 (en) | 2021-06-24 |
| JP2021103356A (ja) | 2021-07-15 |
| US11934951B2 (en) | 2024-03-19 |
| CN113022582A (zh) | 2021-06-25 |
| CN113022582B (zh) | 2024-02-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7361775B2 (ja) | 自律運転のための個人運転スタイル学習 | |
| US20210023905A1 (en) | Damper control system, vehicle, information processing apparatus and control method thereof, and storage medium | |
| JP7357537B2 (ja) | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム | |
| CN115257809B (zh) | 一种人在环的自动驾驶车辆交互学习控制方法及设备 | |
| CN115534970A (zh) | 对车辆的行驶动态调节系统进行最佳参数化的方法和装置 | |
| US11579574B2 (en) | Control customization system, control customization method, and control customization program | |
| CN113614743B (zh) | 用于操控机器人的方法和设备 | |
| CN118810796A (zh) | 基于驾驶意图和深度强化学习的智能汽车决策方法 | |
| CN118387096A (zh) | 用于控制车辆的方法、装置 | |
| CN120595610A (zh) | 一种基于动态特征学习优化的智能汽车纵向控制方法 | |
| CN119294471A (zh) | 深度强化学习泛化性的评估方法及应用 | |
| CN117962921A (zh) | 车辆轨迹规划方法、装置、计算机设备及存储介质 | |
| CN117148716A (zh) | 模型训练及基于神经网络模型的车辆控制的方法、装置 | |
| US20250042472A1 (en) | System and method for modifying vehicular steering geometry guided by intelligent tires | |
| CN121404260B (zh) | 车辆蠕行控制方法、装置、电子设备及存储介质 | |
| CN120245948B (zh) | 一种车身稳定性控制方法、系统、设备、介质及产品 | |
| EP4483244B1 (en) | Method and device for controlling a technical system in real time | |
| CN120671782B (zh) | 一种自动驾驶策略生成、车载大模型部署方法及装置 | |
| EP4263327B1 (en) | System and method for reinforcement learning of steering geometry | |
| US20220036183A1 (en) | Method and device for the fusion of sensor signals using a neural network | |
| CN121005002A (zh) | 车辆的控制方法和系统 | |
| CN121224471A (zh) | 分布式驱动车辆优化控制方法、装置、设备、介质及产品 | |
| CN117454737A (zh) | 一种用于自动驾驶车辆学习性能力的评价方法及系统 | |
| CN121224473A (zh) | 车辆的转矩分配方法、装置、设备、可读存储介质和产品 | |
| CN120573132A (zh) | 大语言模型赋能强化学习的自动驾驶汽车行为决策方法及设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210103 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211126 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221026 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221031 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221222 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230407 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230606 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230828 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230926 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7357537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |