JPH06314106A

JPH06314106A - 学習制御装置

Info

Publication number: JPH06314106A
Application number: JP12531193A
Authority: JP
Inventors: Yuji Nakamura; 裕司中村; Shingo Ando; 慎悟安藤; Etsujirou Shimura; 悦二郎示村
Original assignee: Yaskawa Electric Corp
Current assignee: Yaskawa Electric Corp
Priority date: 1993-04-28
Filing date: 1993-04-28
Publication date: 1994-11-08

Abstract

(57)【要約】【目的】状態空間モデルを直接利用して演算することに
より、演算量の少ない学習制御装置を提供する。【構成】１周期前の制御入力ｕ(i')に補正量σ(i) を加
算してｕ(i) 求める手段と、目標指令を記憶し偏差ｅ(i
-D) を求める手段と、状態ベクトルｘを記憶してその１
周期前からの変化分ηを求める手段と、学習制御用定数
を記憶する手段と、偏差、状態変化分ベクトル、補正
量、制御入力の時系列データを記憶する手段と、前記時
系列データと制御対象の状態空間モデルにより、Ｍサン
プリング未来までの偏差予測値ｅ^* と偏差ｅ(i-D) およ
び補正量σに関する評価関数が最小となるように、現在
時刻の補正量σ(i) を決定する手段とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、工作機械、ロボット等
の制御装置に関する。

【０００２】

【従来の技術】繰り返し目標値に対する学習制御装置と
しては、本出願人が特開平1ー237701号公報、特願平3-35
4789、および、特願平4-289431において提案した装置が
ある。これらの装置では、同じ目標値に対する動作を繰
り返し、偏差、補正量、制御入力、および、制御対象の
ステップ応答をもとに未来偏差予測値が最小となるよう
に制御入力が決定されるため、最終的には目標値と出力
が一致し、高精度な追従動作が実現される。

【０００３】

【発明が解決しようとする課題】しかし従来技術では、
未来偏差の予測の際に、制御対象の十分整定するまでの
ステップ応答が必要であり、制御対象の状態空間モデル
が得られている場合、シミュレーション等によりステッ
プ応答を算出することも考えられるが、直接的でなく、
その分の手間がかかり、さらに、整定時間の増加やサン
プリング周期の短縮に伴って演算量が増加するなどの問
題があった。そこで本発明は、状態空間モデルを直接利
用し、演算量の少ない学習制御装置を提供することを目
的とする。

【０００４】

【課題を解決するための手段】上記問題点を解決するた
め、本願第１の発明では、周期Ｌで同じパターンを繰り
返す目標指令に制御対象の出力を追従させるよう、現在
時刻ｉにおいて、目標指令ｒ(i) （= ｒ(i') i'=i-L ）
と、D(D ≧0)サンプリング前の制御対象の出力ｙ(i-D)
および状態ベクトルｘ(i-D) を入力し、制御入力ｕ(i)
を制御対象へ出力する学習制御装置において、１周期前
の制御入力ｕ(i')に補正量σ(i) を加算してｕ(i) を求
める手段と、目標指令を記憶し、偏差ｅ(i-D) を求める
手段と、状態ベクトルｘを記憶して、その１周期前から
の変化分ηを求める手段と、学習制御用定数を記憶する
手段と、偏差、状態変化分ベクトル、補正量、制御入力
の時系列データを記憶する手段と、前記時系列データと
制御対象の状態空間モデルにより、Ｍサンプリング未来
までの偏差予測値ｅ^*と偏差ｅ(i-D) および補正量σに
関する評価関数

【０００５】

【数７】

【０００６】が最小となるように、現在時刻の補正量σ
(i) を決定する手段とを備えることを特徴とし、本願第
２の発明では、周期Ｌで同じパターンを繰り返す目標指
令に制御対象の出力を追従させるよう、現在時刻ｉにお
いて、目標指令増分値Δｒ(i) （= Δｒ(i') i'=i-L ）
と、D(D ≧0)サンプリング前の制御対象の出力増分値Δ
ｙ(i-D)および状態増分値ベクトルΔｘ(i-D) を入力
し、制御入力ｕ(i) を制御対象へ出力する学習制御装置
において、１周期前の制御入力増分値Δｕ(i')に補正量
増分値Δσ(i) を加算して、Δｕ(i) を求める手段と、
目標指令増分値を記憶し、偏差増分値および偏差を求め
る手段と、状態増分値ベクトルΔｘを記憶して、その１
周期前からの変化分Δηを求める手段と、学習制御用定
数を記憶する手段と、補正量増分値より補正量を求める
手段と、偏差増分値、補正量増分値、制御入力増分値の
時系列データを記憶する手段と、前記偏差と状態増分値
ベクトルの変化分と補正量と時系列データ、および、制
御対象の状態空間モデルにより、Ｍサンプリング未来ま
での偏差増分値の予測値Δｅ^*と偏差ｅおよび補正量に
関する評価関数

【０００７】

【数８】

【０００８】が最小となるように、現在時刻の補正量増
分値Δσ(i) を決定する手段と、制御入力増分値より制
御入力を求める手段とを備えることを特徴とする。

【０００９】

【作用】上記手段により、状態空間モデルを直接利用
し、演算量の少ない学習制御装置が実現され、高精度な
追従動作が可能となる。

【００１０】

【実施例】まず本願第１の発明の具体的実施例を図１に
示して説明する。図中１は本発明の学習制御装置であ
り、現在時刻ｉにおいて、周期Ｌで同じパターンを繰り
返す目標指令の現在値ｒ(i) （= ｒ(i') i'=i-L ）と、
D(D ≧0)サンプリング前の制御対象の出力ｙ(i-D) およ
び状態ベクトルｘ(i-D) を入力し、制御入力ｕ(i) を制
御対象へ出力する。２は、目標指令ｒ(i),ｒ(i-1),…,
ｒ(i-D) を記憶するメモリ、３は、１周期分の状態ベク
トルを記憶するメモリ、４は、定数ｑ_M1 ,…, ｑ_M,
Ｑ, Ｅ, ｇ₀,ｇ₁,Ｓ, Ｓ_D, ｓ₁,…, ｓ_Dを記憶するメ
モリである。１０は、メモリ２に記憶された目標指令ｒ
(i-D) と、出力ｙ(i-D) との差ｅ(i-D) を求める減算
器、１１は、メモリ３に記憶された状態ベクトルｘ(i'-
D)と、ｘ(i-D) との差η(i-D) を求める減算器である。
５、６は過去の偏差および状態ベクトルを記憶するメモ
リであり、減算器１０および１１の出力ｅ(i-D) 、η(i
-D) が新たに記憶される。７は過去の補正量を記憶する
メモリ、８は過去１周期分の制御入力を記憶するメモリ
である。９は演算器であり、

【００１１】

【数９】

【００１２】ただし、D=0 のときは右辺最終項は零とす
る。なる演算によって補正量σ(i) を算出する。算出さ
れたσ(i) は、加算器１２に入力されるとともにメモリ
７に記憶される。加算器１２は、演算器９の出力σ(i)
とメモリ８に記憶されたｕ(i')とを加算して制御入力ｕ
(i) を算出する。得られた制御入力ｕ(i) は、学習制御
装置１の出力として制御対象に出力されるとともに、メ
モリ８に記憶される。ここで(1) 式の導出を行う。時刻
ｉにおいて、制御入力ｕ(i) は、加算器１２により次式
で決定される。ｕ(i) = ｕ(i') + σ(i) (2) そこで、未来偏差予測値ｅ^*(i+m) (1≦M1≦m ≦M)が最
小となるように、現在時刻の補正量σ(i) を決定するこ
とを考える。いま制御対象の離散化モデルが、以下の状
態空間表現で得られているとする。

【００１３】

【数１０】

【００１４】ただし、ｘ(i) Ｒ^nx1は状態ベクトルであ
り、＾はモデル値であることを表す。上式のモデルを用
いれば、

【００１５】

【数１１】

【００１６】で定義される出力変化分δ(i) と状態変化
分ベクトルη(i) のモデルは次式となる。

【００１７】

【数１２】

【００１８】時刻ｉにおいては実測値η(i-D) が得られ
るため、時刻i-D 以降の

【００１９】

【数１３】

【００２０】を実測値η(i-D) を用いて表すと、(5) 式
より、

【００２１】

【数１４】

【００２２】となる。そこでσ(j)=σ(i) (j>i) と仮定
し、時刻i-D 以降の状態変化分ベクトルを

【００２３】

【数１５】

【００２４】あるいは、

【００２５】

【数１６】

【００２６】で予測する。ここでは(8) 式右辺の

【数１７】

【００２７】は(7) 式によって与えているが、(6) 式右
辺の

【００２８】

【数１８】

【００２９】に(8) 式で得られたη^*(i+m-1) を代入し
て求めても良い。 (4),(5),(7),(8)式、および、σ(j)=
σ(i) (j>i) の仮定により、出力変化分予測値δ^*(i+
m) は、

【００３０】

【数１９】

【００３１】あるいは、

【００３２】

【数２０】

【００３３】で与えられる。ただし h_j,H_jは、モデル
(3) 式の重み系列およびその積算値である（ h_j= ｃＡ
^j-1ｂ, H_j=h₁+…+h_j(j≧1) ）。したがって、未来
偏差予測値ｅ^*(i+m) を、ｅ^*(i+m) = ｅ(i'+m) - δ^*(i+m) M1≦m ≦M (10) で与え、評価関数

【００３４】

【数２１】

【００３５】が最小となるように補正量σ(i) を決定す
ると、∂Ｊ/ ∂σ(i) = 0 より、前記(1) 式を得る。た
だし各定数ｑ_m, Ｑ, Ｅ, Ｓ, Ｓ_D, ｓ_j、およびベク
トルｇ₀,ｇ₁は、次式で与えられる。

【００３６】

【数２２】

【００３７】また、(7) 式の代わりに、

【００３８】

【数２３】

【００３９】によって

【００４０】

【数２４】

【００４１】を与え、(8b),(10) 式の予測式を用いて、
(11)式の評価関数（ただし、α=0）を最小とするよう補
正量を決定すれば、各試行を間欠的に行い各試行間に次
回１試行分の補正量を次式によりまとめて算出すること
もできる。

【００４２】

【数２５】

【００４３】ただし、ベクトルｇは次式で与えられる。

【００４４】

【数２６】

【００４５】つぎに本願第２の発明の具体的実施例を図
２に示して説明する。図中２１は本発明の学習制御装置
であり、現在時刻ｉにおいて、周期Ｌで同じパターンを
繰り返す目標指令の増分値Δｒ(i) （= Δｒ(i') i'=i-
L ）と、D(D ≧0)サンプリング前の制御対象の出力増分
値Δｙ(i-D) および状態増分値ベクトルΔｘ(i-D) を入
力し、制御入力ｕ(i) を制御対象へ出力する。Δはサン
プリング周期間の増分値を表す。２２は、目標指令増分
値Δｒ(i),…, Δｒ(i-D) を記憶するメモリ、２３は、
１周期分の状態増分値ベクトルを記憶するメモリ、２４
は、定数ｖ_-D+1 ,…, ｖ_M, Ｅ, ｇ₀,Ｓ, ｓ₁,…, ｓ_D
を記憶するメモリである。２９は、メモリ２２に記憶さ
れたΔｒ(i-D) と、Δｙ(i-D) との差Δｅ(i-D)を求め
る減算器、３０は、メモリ２３に記憶されたΔｘ(i'-D)
と、Δｘ(i-D) との差Δη(i-D) を求める減算器であ
る。２５は過去の偏差増分値を記憶するメモリであり、
減算器２９の出力Δｅ(i-D) が新たに記憶される。２６
は過去の補正量増分値を記憶するメモリ、２７は過去１
周期分の制御入力増分値を記憶するメモリであり、３
２、３３は、偏差ｅ(i-D) および補正量σ(i-1) を求め
る積算器である。２８は演算器であり、

【００４６】

【数２７】

【００４７】ただし、D=0 のときは右辺最終項は零とす
る。なる演算により補正量増分値Δσ(i) を算出する。
算出されたΔσ(i) は、加算器３１と積算器３３に入力
されるとともにメモリ２６に記憶される。加算器３１
は、Δσ(i) とメモリ２７に記憶されたΔｕ(i')とを加
算して制御入力増分値Δｕ(i) を算出する。得られたΔ
ｕ(i) は、積算器３４に入力されるとともに、メモリ２
７に記憶される。積算器３４によって求められた制御入
力ｕ(i) は、学習制御装置２１の出力として制御対象に
出力される。ここで(21)式の導出を行う。時刻ｉにおい
て、制御入力増分値Δｕ(i) は、加算器３１により次式
で決定される。 Δｕ(i) = Δｕ(i') + Δσ(i) (22) そこで、未来偏差予測値が最小となるように、現在時刻
の補正量増分値Δσ(i)を決定することを考える。いま
制御対象の状態空間モデルが、前記(3) 式で得られてい
るとすると、出力変化分増分値Δδ(i) と状態変化分増
分値ベクトルΔη(i) のモデルは次式となる。

【００４８】

【数２８】

【００４９】時刻ｉにおいては実測値Δη(i-D) が得ら
れるため、時刻i-D 以降の状態変化分増分値ベクトル
を、(23)式より、

【００５０】

【数２９】

【００５１】で予測し、さらにΔσ(j)=0 (j>i) とすれ
ば、出力変化分増分値の予測値は、

【００５２】

【数３０】

【００５３】で与えられる。したがって、未来偏差予測
値ｅ^*(i+m) を、

【００５４】

【数３１】

【００５５】で与え、評価関数

【００５６】

【数３２】

【００５７】が最小となるように、補正量増分値Δσ
(i) を決定すると、∂Ｊ/ ∂Δσ(i)=0より、前記(21)
式を得る。ただし各定数、ｖ_m, Ｅ, Ｓ, ｓ_j、および
ベクトルｇ₀は次式で与えられる。

【００５８】

【数３３】

【００５９】また、本願第１、第２の発明において、状
態変化分ベクトルηおよびその増分値ベクトルΔηの実
測値が得られない場合には、オブザーバによる推定値を
用いれば良い。

【００６０】

【発明の効果】以上述べたように本発明によれば、状態
空間モデルを直接利用し、演算量の少ない学習制御装置
が実現され、高精度な追従動作が可能となるという効果
がある。

【図面の簡単な説明】

【図１】本願第１の発明の具体的実施例を示す図

【図２】本願第２の発明の具体的実施例を示す図

【符号の説明】

１学習制御装置２目標指令を記憶するメモリ３状態ベクトルを記憶するメモリ４定数を記憶するメモリ５偏差を記憶するメモリ６状態変化分を記憶するメモリ７補正量を記憶するメモリ８制御入力を記憶するメモリ９演算器１０、１１減算器１２加算器

Claims

【特許請求の範囲】

【請求項１】周期Ｌで同じパターンを繰り返す目標指
令に制御対象の出力を追従させるよう、現在時刻ｉにお
いて、目標指令ｒ(i) （= ｒ(i') i'=i-L ）と、D( D≧
0)サンプリング前の制御対象の出力ｙ(i-D) および状態
ベクトルｘ(i-D) を入力し、制御入力ｕ(i) を制御対象
へ出力する学習制御装置において、１周期前の制御入力ｕ(i')に補正量σ(i) を加算してｕ
(i) を求める手段と、目標指令を記憶し偏差ｅ(i-D) を求める手段と、状態ベクトルｘを記憶してその１周期前からの変化分η
を求める手段と、学習制御用定数を記憶する手段と、偏差、状態変化分ベクトル、補正量、制御入力の時系列
データを記憶する手段と、前記時系列データと制御対象の状態空間モデルによりＭ
サンプリング未来までの偏差予測値ｅ^*と偏差ｅ(i-D)
および補正量σに関する評価関数【数１】が最小となるように現在時刻の補正量σ(i) を決定する
手段とを備えることを特徴とする学習制御装置。
【請求項２】現在時刻の補正量σ(i) を【数２】（ここで、ｑ_m, Ｑ, Ｅ, ｇ₀,ｇ₁,Ｓ, Ｓ_D, ｓ_jは学
習制御用定数であり、D=0 のときは右辺最終項は零とす
る）として決定する手段を備えることを特徴とする請求
項１記載の学習制御装置。
【請求項３】１周期ごとの各試行を間欠的に行い、各
試行間に次回試行分の補正量を【数３】（ここで、ｑ_m, ｇ, Ｓは学習制御用定数、【数４】は前記状態空間モデルにより算出される状態変化分ベク
トル）により１試行分まとめて決定する手段を備えるこ
とを特徴とする請求項１記載の学習制御装置。
【請求項４】周期Ｌで同じパターンを繰り返す目標指
令に制御対象の出力を追従させるよう、現在時刻ｉにお
いて、目標指令増分値Δｒ(i) （= Δｒ(i')i'=i-L ）
と、D( D≧0)サンプリング前の制御対象の出力増分値Δ
ｙ(i-D) および状態増分値ベクトルΔｘ(i-D) を入力
し、制御入力ｕ(i) を制御対象へ出力する学習制御装置
において、１周期前の制御入力増分値Δｕ(i')に補正量増分値Δσ
(i) を加算してΔｕ(i) を求める手段と、目標指令増分値を記憶し偏差増分値および偏差を求める
手段と、状態増分値ベクトルΔｘを記憶して、その１周期前から
の変化分Δηを求める手段と、学習制御用定数を記憶する手段と、補正量増分値より補正量を求める手段と、偏差増分値、補正量増分値、制御入力増分値の時系列デ
ータを記憶する手段と、前記偏差と状態増分値ベクトルの変化分と補正量と時系
列データ、および、制御対象の状態空間モデルによりＭ
サンプリング未来までの偏差増分値の予測値Δｅ^*と偏
差ｅおよび補正量に関する評価関数【数５】が最小となるように現在時刻の補正量増分値Δσ(i) を
決定する手段と、制御入力増分値より制御入力を求める手段とを備えるこ
とを特徴とする学習制御装置。
【請求項５】現在時刻の補正量増分値Δσ(i) を【数６】（ここで、ｖ_m, Ｅ, ｇ₀,Ｓ, ｓ_jは学習制御用定数で
あり、D=0 のときは右辺最終項は零とする）として決定
する手段を備えることを特徴とする請求項４記載の学習
制御装置。
【請求項６】状態変化分ベクトルη(i-D) 、あるい
は、その増分値ベクトルΔη(i-D) をオブザーバにより
推定する手段を備えることを特徴とする請求項１あるい
は４記載の学習制御装置。