JPH06314106A - 学習制御装置 - Google Patents

学習制御装置

Info

Publication number
JPH06314106A
JPH06314106A JP12531193A JP12531193A JPH06314106A JP H06314106 A JPH06314106 A JP H06314106A JP 12531193 A JP12531193 A JP 12531193A JP 12531193 A JP12531193 A JP 12531193A JP H06314106 A JPH06314106 A JP H06314106A
Authority
JP
Japan
Prior art keywords
increment value
correction amount
deviation
state
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP12531193A
Other languages
English (en)
Inventor
Yuji Nakamura
裕司 中村
Shingo Ando
慎悟 安藤
Etsujirou Shimura
悦二郎 示村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaskawa Electric Corp
Original Assignee
Yaskawa Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaskawa Electric Corp filed Critical Yaskawa Electric Corp
Priority to JP12531193A priority Critical patent/JPH06314106A/ja
Publication of JPH06314106A publication Critical patent/JPH06314106A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【目的】状態空間モデルを直接利用して演算することに
より、演算量の少ない学習制御装置を提供する。 【構成】1周期前の制御入力u(i')に補正量σ(i) を加
算してu(i) 求める手段と、目標指令を記憶し偏差e(i
-D) を求める手段と、状態ベクトルxを記憶してその1
周期前からの変化分ηを求める手段と、学習制御用定数
を記憶する手段と、偏差、状態変化分ベクトル、補正
量、制御入力の時系列データを記憶する手段と、前記時
系列データと制御対象の状態空間モデルにより、Mサン
プリング未来までの偏差予測値e* と偏差e(i-D) およ
び補正量σに関する評価関数が最小となるように、現在
時刻の補正量σ(i) を決定する手段とを備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、工作機械、ロボット等
の制御装置に関する。
【0002】
【従来の技術】繰り返し目標値に対する学習制御装置と
しては、本出願人が特開平1ー237701号公報、特願平3-35
4789、および、特願平4-289431において提案した装置が
ある。これらの装置では、同じ目標値に対する動作を繰
り返し、偏差、補正量、制御入力、および、制御対象の
ステップ応答をもとに未来偏差予測値が最小となるよう
に制御入力が決定されるため、最終的には目標値と出力
が一致し、高精度な追従動作が実現される。
【0003】
【発明が解決しようとする課題】しかし従来技術では、
未来偏差の予測の際に、制御対象の十分整定するまでの
ステップ応答が必要であり、制御対象の状態空間モデル
が得られている場合、シミュレーション等によりステッ
プ応答を算出することも考えられるが、直接的でなく、
その分の手間がかかり、さらに、整定時間の増加やサン
プリング周期の短縮に伴って演算量が増加するなどの問
題があった。そこで本発明は、状態空間モデルを直接利
用し、演算量の少ない学習制御装置を提供することを目
的とする。
【0004】
【課題を解決するための手段】上記問題点を解決するた
め、本願第1の発明では、周期Lで同じパターンを繰り
返す目標指令に制御対象の出力を追従させるよう、現在
時刻iにおいて、目標指令r(i) (= r(i') i'=i-L )
と、D(D ≧0)サンプリング前の制御対象の出力y(i-D)
および状態ベクトルx(i-D) を入力し、制御入力u(i)
を制御対象へ出力する学習制御装置において、1周期前
の制御入力u(i')に補正量σ(i) を加算してu(i) を求
める手段と、目標指令を記憶し、偏差e(i-D) を求める
手段と、状態ベクトルxを記憶して、その1周期前から
の変化分ηを求める手段と、学習制御用定数を記憶する
手段と、偏差、状態変化分ベクトル、補正量、制御入力
の時系列データを記憶する手段と、前記時系列データと
制御対象の状態空間モデルにより、Mサンプリング未来
までの偏差予測値e* と偏差e(i-D) および補正量σに
関する評価関数
【0005】
【数7】
【0006】が最小となるように、現在時刻の補正量σ
(i) を決定する手段とを備えることを特徴とし、本願第
2の発明では、周期Lで同じパターンを繰り返す目標指
令に制御対象の出力を追従させるよう、現在時刻iにお
いて、目標指令増分値Δr(i) (= Δr(i') i'=i-L )
と、D(D ≧0)サンプリング前の制御対象の出力増分値Δ
y(i-D)および状態増分値ベクトルΔx(i-D) を入力
し、制御入力u(i) を制御対象へ出力する学習制御装置
において、1周期前の制御入力増分値Δu(i')に補正量
増分値Δσ(i) を加算して、Δu(i) を求める手段と、
目標指令増分値を記憶し、偏差増分値および偏差を求め
る手段と、状態増分値ベクトルΔxを記憶して、その1
周期前からの変化分Δηを求める手段と、学習制御用定
数を記憶する手段と、補正量増分値より補正量を求める
手段と、偏差増分値、補正量増分値、制御入力増分値の
時系列データを記憶する手段と、前記偏差と状態増分値
ベクトルの変化分と補正量と時系列データ、および、制
御対象の状態空間モデルにより、Mサンプリング未来ま
での偏差増分値の予測値Δe* と偏差eおよび補正量に
関する評価関数
【0007】
【数8】
【0008】が最小となるように、現在時刻の補正量増
分値Δσ(i) を決定する手段と、制御入力増分値より制
御入力を求める手段とを備えることを特徴とする。
【0009】
【作用】上記手段により、状態空間モデルを直接利用
し、演算量の少ない学習制御装置が実現され、高精度な
追従動作が可能となる。
【0010】
【実施例】まず本願第1の発明の具体的実施例を図1に
示して説明する。図中1は本発明の学習制御装置であ
り、現在時刻iにおいて、周期Lで同じパターンを繰り
返す目標指令の現在値r(i) (= r(i') i'=i-L )と、
D(D ≧0)サンプリング前の制御対象の出力y(i-D) およ
び状態ベクトルx(i-D) を入力し、制御入力u(i) を制
御対象へ出力する。2は、目標指令r(i),r(i-1),…,
r(i-D) を記憶するメモリ、3は、1周期分の状態ベク
トルを記憶するメモリ、4は、定数qM1 ,…, qM ,
Q, E, g0,g1,S, SD , s1,…, sD を記憶するメ
モリである。10は、メモリ2に記憶された目標指令r
(i-D) と、出力y(i-D) との差e(i-D) を求める減算
器、11は、メモリ3に記憶された状態ベクトルx(i'-
D)と、x(i-D) との差η(i-D) を求める減算器である。
5、6は過去の偏差および状態ベクトルを記憶するメモ
リであり、減算器10および11の出力e(i-D) 、η(i
-D) が新たに記憶される。7は過去の補正量を記憶する
メモリ、8は過去1周期分の制御入力を記憶するメモリ
である。9は演算器であり、
【0011】
【数9】
【0012】ただし、D=0 のときは右辺最終項は零とす
る。なる演算によって補正量σ(i) を算出する。算出さ
れたσ(i) は、加算器12に入力されるとともにメモリ
7に記憶される。加算器12は、演算器9の出力σ(i)
とメモリ8に記憶されたu(i')とを加算して制御入力u
(i) を算出する。得られた制御入力u(i) は、学習制御
装置1の出力として制御対象に出力されるとともに、メ
モリ8に記憶される。ここで(1) 式の導出を行う。時刻
iにおいて、制御入力u(i) は、加算器12により次式
で決定される。 u(i) = u(i') + σ(i) (2) そこで、未来偏差予測値e* (i+m) (1≦M1≦m ≦M)が最
小となるように、現在時刻の補正量σ(i) を決定するこ
とを考える。いま制御対象の離散化モデルが、以下の状
態空間表現で得られているとする。
【0013】
【数10】
【0014】ただし、x(i) Rnx1 は状態ベクトルであ
り、^はモデル値であることを表す。上式のモデルを用
いれば、
【0015】
【数11】
【0016】で定義される出力変化分δ(i) と状態変化
分ベクトルη(i) のモデルは次式となる。
【0017】
【数12】
【0018】時刻iにおいては実測値η(i-D) が得られ
るため、時刻i-D 以降の
【0019】
【数13】
【0020】を実測値η(i-D) を用いて表すと、(5) 式
より、
【0021】
【数14】
【0022】となる。そこでσ(j)=σ(i) (j>i) と仮定
し、時刻i-D 以降の状態変化分ベクトルを
【0023】
【数15】
【0024】あるいは、
【0025】
【数16】
【0026】で予測する。ここでは(8) 式右辺の
【数17】
【0027】は(7) 式によって与えているが、(6) 式右
辺の
【0028】
【数18】
【0029】に(8) 式で得られたη* (i+m-1) を代入し
て求めても良い。 (4),(5),(7),(8)式、および、σ(j)=
σ(i) (j>i) の仮定により、出力変化分予測値δ* (i+
m) は、
【0030】
【数19】
【0031】あるいは、
【0032】
【数20】
【0033】で与えられる。ただし hj ,Hj は、モデル
(3) 式の重み系列およびその積算値である( hj = cA
j-1 b, Hj =h1+…+hj (j≧1) )。したがって、未来
偏差予測値e* (i+m) を、 e* (i+m) = e(i'+m) - δ* (i+m) M1≦m ≦M (10) で与え、評価関数
【0034】
【数21】
【0035】が最小となるように補正量σ(i) を決定す
ると、∂J/ ∂σ(i) = 0 より、前記(1) 式を得る。た
だし各定数qm , Q, E, S, SD , sj 、およびベク
トルg0,g1 は、次式で与えられる。
【0036】
【数22】
【0037】また、(7) 式の代わりに、
【0038】
【数23】
【0039】によって
【0040】
【数24】
【0041】を与え、(8b),(10) 式の予測式を用いて、
(11)式の評価関数(ただし、α=0)を最小とするよう補
正量を決定すれば、各試行を間欠的に行い各試行間に次
回1試行分の補正量を次式によりまとめて算出すること
もできる。
【0042】
【数25】
【0043】ただし、ベクトルgは次式で与えられる。
【0044】
【数26】
【0045】つぎに本願第2の発明の具体的実施例を図
2に示して説明する。図中21は本発明の学習制御装置
であり、現在時刻iにおいて、周期Lで同じパターンを
繰り返す目標指令の増分値Δr(i) (= Δr(i') i'=i-
L )と、D(D ≧0)サンプリング前の制御対象の出力増分
値Δy(i-D) および状態増分値ベクトルΔx(i-D) を入
力し、制御入力u(i) を制御対象へ出力する。Δはサン
プリング周期間の増分値を表す。22は、目標指令増分
値Δr(i),…, Δr(i-D) を記憶するメモリ、23は、
1周期分の状態増分値ベクトルを記憶するメモリ、24
は、定数v-D+1 ,…, vM , E, g0,S, s1,…, sD
を記憶するメモリである。29は、メモリ22に記憶さ
れたΔr(i-D) と、Δy(i-D) との差Δe(i-D)を求め
る減算器、30は、メモリ23に記憶されたΔx(i'-D)
と、Δx(i-D) との差Δη(i-D) を求める減算器であ
る。25は過去の偏差増分値を記憶するメモリであり、
減算器29の出力Δe(i-D) が新たに記憶される。26
は過去の補正量増分値を記憶するメモリ、27は過去1
周期分の制御入力増分値を記憶するメモリであり、3
2、33は、偏差e(i-D) および補正量σ(i-1) を求め
る積算器である。28は演算器であり、
【0046】
【数27】
【0047】ただし、D=0 のときは右辺最終項は零とす
る。なる演算により補正量増分値Δσ(i) を算出する。
算出されたΔσ(i) は、加算器31と積算器33に入力
されるとともにメモリ26に記憶される。加算器31
は、Δσ(i) とメモリ27に記憶されたΔu(i')とを加
算して制御入力増分値Δu(i) を算出する。得られたΔ
u(i) は、積算器34に入力されるとともに、メモリ2
7に記憶される。積算器34によって求められた制御入
力u(i) は、学習制御装置21の出力として制御対象に
出力される。ここで(21)式の導出を行う。時刻iにおい
て、制御入力増分値Δu(i) は、加算器31により次式
で決定される。 Δu(i) = Δu(i') + Δσ(i) (22) そこで、未来偏差予測値が最小となるように、現在時刻
の補正量増分値Δσ(i)を決定することを考える。いま
制御対象の状態空間モデルが、前記(3) 式で得られてい
るとすると、出力変化分増分値Δδ(i) と状態変化分増
分値ベクトルΔη(i) のモデルは次式となる。
【0048】
【数28】
【0049】時刻iにおいては実測値Δη(i-D) が得ら
れるため、時刻i-D 以降の状態変化分増分値ベクトル
を、(23)式より、
【0050】
【数29】
【0051】で予測し、さらにΔσ(j)=0 (j>i) とすれ
ば、出力変化分増分値の予測値は、
【0052】
【数30】
【0053】で与えられる。したがって、未来偏差予測
値e* (i+m) を、
【0054】
【数31】
【0055】で与え、評価関数
【0056】
【数32】
【0057】が最小となるように、補正量増分値Δσ
(i) を決定すると、∂J/ ∂Δσ(i)=0より、前記(21)
式を得る。ただし各定数、vm , E, S, sj 、および
ベクトルg0 は次式で与えられる。
【0058】
【数33】
【0059】また、本願第1、第2の発明において、状
態変化分ベクトルηおよびその増分値ベクトルΔηの実
測値が得られない場合には、オブザーバによる推定値を
用いれば良い。
【0060】
【発明の効果】以上述べたように本発明によれば、状態
空間モデルを直接利用し、演算量の少ない学習制御装置
が実現され、高精度な追従動作が可能となるという効果
がある。
【図面の簡単な説明】
【図1】本願第1の発明の具体的実施例を示す図
【図2】本願第2の発明の具体的実施例を示す図
【符号の説明】
1 学習制御装置 2 目標指令を記憶するメモリ 3 状態ベクトルを記憶するメモリ 4 定数を記憶するメモリ 5 偏差を記憶するメモリ 6 状態変化分を記憶するメモリ 7 補正量を記憶するメモリ 8 制御入力を記憶するメモリ 9 演算器 10、11 減算器 12 加算器

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 周期Lで同じパターンを繰り返す目標指
    令に制御対象の出力を追従させるよう、現在時刻iにお
    いて、目標指令r(i) (= r(i') i'=i-L )と、D( D≧
    0)サンプリング前の制御対象の出力y(i-D) および状態
    ベクトルx(i-D) を入力し、制御入力u(i) を制御対象
    へ出力する学習制御装置において、 1周期前の制御入力u(i')に補正量σ(i) を加算してu
    (i) を求める手段と、 目標指令を記憶し偏差e(i-D) を求める手段と、 状態ベクトルxを記憶してその1周期前からの変化分η
    を求める手段と、 学習制御用定数を記憶する手段と、 偏差、状態変化分ベクトル、補正量、制御入力の時系列
    データを記憶する手段と、 前記時系列データと制御対象の状態空間モデルによりM
    サンプリング未来までの偏差予測値e* と偏差e(i-D)
    および補正量σに関する評価関数 【数1】 が最小となるように現在時刻の補正量σ(i) を決定する
    手段とを備えることを特徴とする学習制御装置。
  2. 【請求項2】 現在時刻の補正量σ(i) を 【数2】 (ここで、qm , Q, E, g0,g1,S, SD , sj は学
    習制御用定数であり、D=0 のときは右辺最終項は零とす
    る)として決定する手段を備えることを特徴とする請求
    項1記載の学習制御装置。
  3. 【請求項3】 1周期ごとの各試行を間欠的に行い、各
    試行間に次回試行分の補正量を 【数3】 (ここで、qm , g, Sは学習制御用定数、 【数4】 は前記状態空間モデルにより算出される状態変化分ベク
    トル)により1試行分まとめて決定する手段を備えるこ
    とを特徴とする請求項1記載の学習制御装置。
  4. 【請求項4】 周期Lで同じパターンを繰り返す目標指
    令に制御対象の出力を追従させるよう、現在時刻iにお
    いて、目標指令増分値Δr(i) (= Δr(i')i'=i-L )
    と、D( D≧0)サンプリング前の制御対象の出力増分値Δ
    y(i-D) および状態増分値ベクトルΔx(i-D) を入力
    し、制御入力u(i) を制御対象へ出力する学習制御装置
    において、 1周期前の制御入力増分値Δu(i')に補正量増分値Δσ
    (i) を加算してΔu(i) を求める手段と、 目標指令増分値を記憶し偏差増分値および偏差を求める
    手段と、 状態増分値ベクトルΔxを記憶して、その1周期前から
    の変化分Δηを求める手段と、 学習制御用定数を記憶する手段と、 補正量増分値より補正量を求める手段と、 偏差増分値、補正量増分値、制御入力増分値の時系列デ
    ータを記憶する手段と、 前記偏差と状態増分値ベクトルの変化分と補正量と時系
    列データ、および、制御対象の状態空間モデルによりM
    サンプリング未来までの偏差増分値の予測値Δe* と偏
    差eおよび補正量に関する評価関数 【数5】 が最小となるように現在時刻の補正量増分値Δσ(i) を
    決定する手段と、 制御入力増分値より制御入力を求める手段とを備えるこ
    とを特徴とする学習制御装置。
  5. 【請求項5】 現在時刻の補正量増分値Δσ(i) を 【数6】 (ここで、vm , E, g0,S, sj は学習制御用定数で
    あり、D=0 のときは右辺最終項は零とする)として決定
    する手段を備えることを特徴とする請求項4記載の学習
    制御装置。
  6. 【請求項6】 状態変化分ベクトルη(i-D) 、あるい
    は、その増分値ベクトルΔη(i-D) をオブザーバにより
    推定する手段を備えることを特徴とする請求項1あるい
    は4記載の学習制御装置。
JP12531193A 1993-04-28 1993-04-28 学習制御装置 Pending JPH06314106A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12531193A JPH06314106A (ja) 1993-04-28 1993-04-28 学習制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12531193A JPH06314106A (ja) 1993-04-28 1993-04-28 学習制御装置

Publications (1)

Publication Number Publication Date
JPH06314106A true JPH06314106A (ja) 1994-11-08

Family

ID=14906970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12531193A Pending JPH06314106A (ja) 1993-04-28 1993-04-28 学習制御装置

Country Status (1)

Country Link
JP (1) JPH06314106A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019160017A (ja) * 2018-03-15 2019-09-19 オムロン株式会社 学習装置、学習方法、及びそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019160017A (ja) * 2018-03-15 2019-09-19 オムロン株式会社 学習装置、学習方法、及びそのプログラム

Similar Documents

Publication Publication Date Title
KR970003823B1 (ko) 주기적 목표치에 최적하게 추종하는 제어방식
JP6972342B2 (ja) システムの動作を制御する制御システム及び方法
JPH10133703A (ja) 適応的ロバスト制御装置
Fraser et al. Perturbation techniques for flexible manipulators
KR100342788B1 (ko) 예견제어방법
JP4697139B2 (ja) サーボ制御装置
JP2002062906A (ja) 予測制御装置
Frey et al. Advanced-step real-time iterations with four levels–new error bounds and fast implementation in acados
JP3158439B2 (ja) 予見制御装置
CN114404220A (zh) 上肢康复机器人重力补偿方法、装置及上肢康复机器人
JPH03105510A (ja) サーボ制御装置
JPH06314106A (ja) 学習制御装置
JP3191836B2 (ja) 学習制御装置
Sanchez et al. Recurrent neural block form control
JP3256950B2 (ja) 最適予見学習制御装置
JP3109605B2 (ja) 学習制御方法
JP2541163B2 (ja) 周期的目標値に最適に追従する制御方式
JP3196907B2 (ja) 出力検出にむだ時間を持つ系の学習制御装置
JP2003274684A (ja) サーボ制御装置
JP3870767B2 (ja) 予測制御方法
JP3152251B2 (ja) 増分値演算による学習制御方法
JP3036654B2 (ja) 学習制御方式
Ringkowski et al. Gaussian process based multi-rate observer for the dynamic positioning error of a measuring machine
JP3039814B2 (ja) 学習制御方式
JP3039573B2 (ja) 学習制御方式