JP7484504B2 - 制御装置、制御方法及びプログラム - Google Patents
制御装置、制御方法及びプログラム Download PDFInfo
- Publication number
- JP7484504B2 JP7484504B2 JP2020116255A JP2020116255A JP7484504B2 JP 7484504 B2 JP7484504 B2 JP 7484504B2 JP 2020116255 A JP2020116255 A JP 2020116255A JP 2020116255 A JP2020116255 A JP 2020116255A JP 7484504 B2 JP7484504 B2 JP 7484504B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- target deviation
- change amount
- value
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Feedback Control In General (AREA)
Description
まず、第一の実施形態について説明する。
まず、本実施形態に係る制御装置10の全体構成について、図1を参照しながら説明する。図1は、第一の実施形態に係る制御装置10の全体構成の一例を示す図である。
次に、操作量学習・計算部112の動作について、図2を参照しながら説明する。図2は、操作量学習・計算部112の動作の一例を説明するための図である。
次に、強化学習部123の動作について、図3を参照しながら説明する。図3は、強化学習部123の動作の一例を説明するための図である。
次に、一例として、或る時刻tにおいて、ε-Greedy法により行動選択部132が行動a=a(t)を選択する場合について説明する。
次に、行動a(t)を操作変化量du(t)に変換する場合の詳細について説明する。行動・操作変化量変換部124は、図4に示す行動・操作変化量変換処理を実行することで、行動a(t)を操作変化量du(t)に変換する。図4は、第一の実施形態に係る行動・操作変化量変換処理の一例を示すフローチャートである。
次に、第二の実施形態について説明する。第二の実施形態では行動a(t)を操作変化量du(t)に変換する行動・操作変化量変換処理が第一の実施形態と異なり、それ以外は第一の実施形態と同様である。このため、以降では、行動・操作変化量変換処理についてのみ説明する。
行動・操作変化量変換部124は、図6に示す行動・操作変化量変換処理を実行することで、行動a(t)を操作変化量du(t)に変換する。図6は、第二の実施形態に係る行動・操作変化量変換処理の一例を示すフローチャートである。なお、図6のステップS201~ステップS203及びステップS205~ステップS207は、図4のステップS101~ステップS103及びステップS105~ステップS107とそれぞれ同様であるため、その説明を省略する。
次に、上記の第一の実施形態及び第二の実施形態に係る制御装置10のハードウェア構成について、図7を参照しながら説明する。図7は、一実施形態に係る制御装置10のハードウェア構成の一例を示す図である。
次に、上記の第一の実施形態及び第二の実施形態の実施例について説明する。本実施例では、第一の実施形態及び第二の実施形態に係る制御装置10のフィルタ部111は、目標偏差e0(t)とその微分値とを出力するものとする。すなわち、補正目標偏差e*(t)として、
・割引率γ=0.95
・行動集合A={0,1,2}
・学習回数(エピソード回数)=200(回)
・ニューラルネットワークのパラメータとして、セル数=150、層数=3、入出力次元=2×3
また、ブレンド調整係数は以下とした。
・δ=10-7
深層強化学習に用いられる報酬はR(t)=-||e*(t)||とした。また、図4のステップS106及び図6のステップS206でアフィン変換を行う際にはdu(t)=0.5・aalt(t)-0.5により変換を行った。
20 制御対象モデル
30 制御対象
40 切替器
50 切替器
101 計測部
102 差分器
103 操作量更新部
104 タイマ
111 フィルタ部
112 操作量学習・計算部
113 加算器
121 報酬計算部
122 目標偏差・状態変換部
123 強化学習部
124 行動・操作変化量変換部
131 行動価値関数更新部
132 行動選択部
Claims (7)
- 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置であって、
現在の制御量と目標値との差分である目標偏差を算出する目標偏差算出手段と、
前記目標偏差に対して所定のフィルタ処理を行って、前記目標偏差を補正した補正目標偏差を算出するフィルタ手段と、
前記補正目標偏差に基づいて、強化学習によって新たな操作変化量を学習及び算出する操作変化量算出手段と、
前記操作変化量を現在の操作量に加算する加算手段と、
を有し、
前記操作変化量算出手段には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手段と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って、ニューラルネットワークで実現される行動価値関数を学習し、前記行動価値関数から最適行動を決定及び出力する強化学習手段と、
前記最適行動と、前記操作量を変化させない行動を表す事前行動とをブレンドしたブレンド行動を生成し、アフィン変換により前記ブレンド行動を前記操作変化量に変換する変換手段と、が含まれる、
ことを特徴とする制御装置。 - 前記操作変化量算出手段は、
変換後の前記操作変化量を、所定の制約条件を満たすように更に変換する、ことを特徴とする請求項1に記載の制御装置。 - 前記変換手段は、
前記最適行動に関する前記行動価値関数の値と、前記事前行動に関する前記行動価値関数の値と、前記強化学習手段が出力し得る行動に関する前記行動価値関数の最悪値とに基づいて計算された重みにより、前記ブレンド行動を生成する、ことを特徴とする請求項1又は2に記載の制御装置。 - 前記変換手段は、
前記重みにより前記最適行動又は前記事前行動のいずれかを確率的に選択し、選択された行動を前記ブレンド行動として生成する、ことを特徴とする請求項3に記載の制御装置。 - 前記フィルタ手段は、
前記目標偏差に対して定数倍、微分値の計算、積分値の計算、移動平均値の計算、過去の目標偏差の時系列の出力、又はこれらの組み合わせを前記フィルタ処理として行って、前記補正目標偏差を算出する、ことを特徴とする請求項1乃至4の何れか一項に記載の制御装置。 - 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置が、
現在の制御量と目標値との差分である目標偏差を算出する目標偏差算出手順と、
前記目標偏差に対して所定のフィルタ処理を行って、前記目標偏差を補正した補正目標偏差を算出するフィルタ手順と、
前記補正目標偏差に基づいて、強化学習によって新たな操作変化量を学習及び算出する操作変化量算出手順と、
前記操作変化量を現在の操作量に加算する加算手順と、
を実行し、
前記操作変化量算出手順には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って、ニューラルネットワークで実現される行動価値関数を学習し、前記行動価値関数から最適行動を決定及び出力する強化学習手順と、
前記最適行動と、前記操作量を変化させない行動を表す事前行動とをブレンドしたブレンド行動を生成し、アフィン変換により前記ブレンド行動を前記操作変化量に変換する変換手順と、が含まれる、
ことを特徴とする制御方法。 - 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置に、
現在の制御量と目標値との差分である目標偏差を算出する目標偏差算出手順と、
前記目標偏差に対して所定のフィルタ処理を行って、前記目標偏差を補正した補正目標偏差を算出するフィルタ手順と、
前記補正目標偏差に基づいて、強化学習によって新たな操作変化量を学習及び算出する操作変化量算出手順と、
前記操作変化量を現在の操作量に加算する加算手順と、
を実行させ、
前記操作変化量算出手順には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って、ニューラルネットワークで実現される行動価値関数を学習し、前記行動価値関数から最適行動を決定及び出力する強化学習手順と、
前記最適行動と、前記操作量を変化させない行動を表す事前行動とをブレンドしたブレンド行動を生成し、アフィン変換により前記ブレンド行動を前記操作変化量に変換する変換手順と、が含まれる、
ことを特徴とするプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020116255A JP7484504B2 (ja) | 2020-07-06 | 2020-07-06 | 制御装置、制御方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020116255A JP7484504B2 (ja) | 2020-07-06 | 2020-07-06 | 制御装置、制御方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022014099A JP2022014099A (ja) | 2022-01-19 |
| JP7484504B2 true JP7484504B2 (ja) | 2024-05-16 |
Family
ID=80185223
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020116255A Active JP7484504B2 (ja) | 2020-07-06 | 2020-07-06 | 制御装置、制御方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7484504B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7800387B2 (ja) | 2022-11-11 | 2026-01-16 | 横河電機株式会社 | 装置、方法およびプログラム |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007206857A (ja) | 2006-01-31 | 2007-08-16 | Fanuc Ltd | 電動機の制御装置 |
| JP2011123616A (ja) | 2009-12-09 | 2011-06-23 | Fanuc Ltd | 高速揺動動作を高精度化するサーボ制御システム |
| JP2019071405A (ja) | 2017-10-06 | 2019-05-09 | キヤノン株式会社 | 制御装置、リソグラフィ装置、測定装置、加工装置、平坦化装置及び物品製造方法 |
| JP2020095352A (ja) | 2018-12-10 | 2020-06-18 | 富士電機株式会社 | 制御装置、制御方法及びプログラム |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0677201B2 (ja) * | 1986-04-04 | 1994-09-28 | 三菱重工業株式会社 | 繰返し制御器 |
| JPH05265510A (ja) * | 1992-03-17 | 1993-10-15 | Yaskawa Electric Corp | 学習制御装置 |
-
2020
- 2020-07-06 JP JP2020116255A patent/JP7484504B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007206857A (ja) | 2006-01-31 | 2007-08-16 | Fanuc Ltd | 電動機の制御装置 |
| JP2011123616A (ja) | 2009-12-09 | 2011-06-23 | Fanuc Ltd | 高速揺動動作を高精度化するサーボ制御システム |
| JP2019071405A (ja) | 2017-10-06 | 2019-05-09 | キヤノン株式会社 | 制御装置、リソグラフィ装置、測定装置、加工装置、平坦化装置及び物品製造方法 |
| JP2020095352A (ja) | 2018-12-10 | 2020-06-18 | 富士電機株式会社 | 制御装置、制御方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022014099A (ja) | 2022-01-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Schwenzer et al. | Review on model predictive control: An engineering perspective | |
| JP7206874B2 (ja) | 制御装置、制御方法及びプログラム | |
| Yan et al. | Data-driven load frequency control for stochastic power systems: A deep reinforcement learning method with continuous action search | |
| Normey-Rico et al. | A unified approach to design dead-time compensators for stable and integrative processes with dead-time | |
| Zribi et al. | A new PID neural network controller design for nonlinear processes | |
| Abrazeh et al. | Virtual hardware-in-the-loop FMU co-simulation based digital twins for heating, ventilation, and air-conditioning (HVAC) systems | |
| Albalawi et al. | A feedback control framework for safe and economically‐optimal operation of nonlinear processes | |
| WO2019008075A1 (en) | METHOD AND APPARATUS FOR PERFORMING CONTROL OF A MOVEMENT OF A ROBOT ARM | |
| CN1170463A (zh) | 控制停滞时间显著过程等过程的可变前景预测器 | |
| CN103472723A (zh) | 基于多模型广义预测控制器的预测控制方法及系统 | |
| Hasan et al. | Fractional-order PID controller for permanent magnet DC motor based on PSO algorithm | |
| JP6380552B2 (ja) | 制御装置、そのプログラム、プラント制御方法 | |
| JP6927446B1 (ja) | 制御装置、制御方法及びプログラム | |
| Hodzic et al. | Grey predictor reference model for assisting particle swarm optimization for wind turbine control | |
| CN120821291B (zh) | 一种基于强化学习的四旋翼无人机姿态预设性能控制方法 | |
| JP6901037B1 (ja) | 制御装置、制御方法及びプログラム | |
| JP7014330B1 (ja) | 制御装置、制御方法、及びプログラム | |
| JP7484504B2 (ja) | 制御装置、制御方法及びプログラム | |
| Chidrawar et al. | Generalized predictive control and neural generalized predictive control | |
| JP7283095B2 (ja) | 制御装置、制御方法及びプログラム | |
| US20240272594A1 (en) | Control device, control method, and recording medium | |
| CN119965983A (zh) | 基于电站监控系统的抽水蓄能电站智能调控方法 | |
| Mahmoodabadi et al. | Adaptive robust PID sliding control of a liquid level system based on multi-objective genetic algorithm optimization | |
| Tuan et al. | Enhanced Adaptive Neuro Sliding Mode Controller Parameter Optimization for Coupled Tank System | |
| Rayme et al. | Control System based on Reinforcement Learning applied to a Klatt-Engell Reactor |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230614 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240131 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240327 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240415 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7484504 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |









