JPH02299002A

JPH02299002A - 適応制御器

Info

Publication number: JPH02299002A
Application number: JP1119447A
Authority: JP
Inventors: Naoki Imazaki; 直樹今崎; Toru Yamaguchi; 亨山口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-05-12
Filing date: 1989-05-12
Publication date: 1990-12-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は、未知のダイナミクスを有する制御対象システ
ムに対し、ある評価関数を最小にするような制御ゲイン
を適用して制御するとき、当該制御ゲインは一定時間ご
とに同定される制御対象システムのダイナミクスに基づ
いて随時更新されるようになされた適応制御器に関する
。

（従来の技術）２次形式の評価関数を最小にするように制御ゲインを決
定する最適レギュレータの理論は、できあがった最適制
御器を含む閉ループシステムが安定となるばかりでなく
、ゲイン余裕や位相余裕が大きい。即ち、ロバスト性を
もっていることで制御方法として高く評価され、広い範
囲で実用化されている。

ところで、制御対象システムに対して最適制御器を構成
し、上述のような性質を得るためには、制御対象システ
ムのダイナミクスがある特定の線形微分方程式として厳
密に与えられることが必要である。

このため、実際上制御対象システムのダイナミクスが未
知の場合や当該ダイナミクスが時間に伴って変化する場
合には、例えば制御対象同定方法を用いて制御対象シス
テムのダイナミクスを同定する方法がとられている。こ
のような方法は、制御対象同定方法と呼ばれており、従
来より様々な方法が提案されている。

（発明が解決しようとする課題）しかしながら、従来よりあるこれらの制御対象同定方法
では、適用できる制御対象システムに限界がある上、手
順が複雑で熟練した技術者に頼らざるを得なかった。ま
た、オンラインで常時同定を繰り返すことは困難であっ
た。

本発明はこのような課題を解決するためになされたもの
で、未知のダイナミクスを有する種々の制御対象システ
ムに対して常にシステム同定を行い、ある評価関数を最
小化する安定化制御ゲインを更新し適用することが容易
に実現し得る適応制御器を提供することを目的としてい
る。

［発明の構成］（課題を解決するための手段）本発明の適応制御器は上記した目的を達成するために、
未知のダイナミクスを有する制御対象システムに対し、
一定時間ごとに制御対象同定部によりモデル同定し、得
られたモデルに対し所定の評価関数を最小にするよう制
御ゲインを決定し、該制御ゲインにより前記制御対象シ
ステムを制御するように構成された適応制御器において
、前記制御対象同定部が、複数のユニット層から構成さ
れるニューラルネットワークからなり、中間ユニット層
の各ユニットの出力が下層ユニット層と共に、該中間ユ
ニット層自体にも入力されるように構成されたモデル同
定回路と、前記制御対象システムに対し所定の基準入力
信号を送出し、該基■人力信号に対する前記制御対象シ
ステムからのシステム応答信号を記のすると共に、前記
モデル同定回路に対し前記基準人力信号を送出し、該基
準入力信号に対する前記モデル同定回路からのモデル応
答信号を入力し、かつ該モデル応答信号と前記システム
応答信号との誤差に基づき前記モデル同定回路の内部状
態を前記誤差が減少するよう補正をするモデル同定制御
部とを備え、前記補正を複数種類の前記基準入力信号に
ついて繰返し行うことにより、前記モデル同定回路の内
部状態が前記制御対象システムのダイナミクスを実現す
るようにしたものである。

（作　用）本発明では、制御対象同定方法として中間ユニット層に
おける各ユニットの出力か下層のみならず中間ユニット
層自信にも入力されるように構成されたニューラルネッ
トワークを用いた手法を用いているので、未知のグイナ
ミクスを有する種々の制御対象システムに対して常にシ
ステム同定を行いある評価関数を最小化する安定化制御
ゲインを更新し適用する適応制御器を容易に実現し得る
。

（実施例）以下、本発明の実施例を図面に基づいて詳細に説明する
。

第１図は本発明の一実施例に係る適応制御器を採用した
制御システムの構成を説明するためのブロック図である
。

同図において、１０は全体として制御システムを示し、
動作として２つの機能を並列的に実行する。これはマル
チＣＰＵ構成により、容易に実現できる。即ち、第１の
機能は制御対象である制御対象システム３を適応制御器
１１により制御する制御機能であり、第２の機能は制御
対象システム３のダイナミクスをモデル同定制御部１に
より同定し、モデル同定回路２に制御対象システム３の
モデルを形成するモデル同定機能である。

制御システム１０において、第１の機能即ち制御機能は
、第２の機能即ちモデル同定機能の動作／非動作にかか
わらずリアルタイムに継続される。

即ち、適応制御器１１から出力された制御人力Ｕは制御
対象システム３に入力されると共に、モデル同定回路２
に入力される。ここで、モデル同定機能動作中は、モデ
ル同定制御部１から出力される基準入力信号ＲＥＰが制
御人力Ｕに対して重畳される。制御対象システム３は入
力された制御人力Ｕに対する応答出力ｙを出力し、当該
応答出力ｙは適応制御器１１にフィードバック人力され
る。

か（して、制御対象システム３及び適応制御器１１によ
り閉ループ系が構成される。

第２図は上述した適応制御器１１の構成を詳細に示すブ
ロック図である。

同図に示すように適応制御器１１では、制御対象システ
ム３より入力された応答出力ｙは、状態合成回路１２に
与えられる。状態合成回路１２は、応答出力ｙ及び状態
モデル回路１３から出力されるモデル状態信号ｘＭより
制御対象システム３の状態を推定し、当該推定結果を観
測状態信号マとして最適制御器１４に入力する。

ここで、状態合成回路１２は、次のようにして観測状態
信号マを求める。即ち、ｒ次元の応答出力ｙのうちｉ　
　（ｏ≦ｉ≦「）次元分はそのまま制御対象システム３
の状態を表しているという場合、このｉ次元分の応答出
力ｙをそのまま観測状態信号マのｉ次元分として。残る
次元の観測状態信号マについては、状態モデル回路１３
からのモデル状態信号ｘＭを適用する。状態モデル回路
１３は、一定時間ごとに制御システム１０のモデル同定
機能により同定された制御対象システムのダイナミクス
を示すパラメータ（ゲイン構成回路１５から与えられる
。）から構成されており、制御対象システム３と同一の
制御人力Ｕを与えることにより制御対象システム３の状
態を表すと思われるモデル状態信号ｘＭを出力する。

最適制御器１４に内蔵される制御ゲインにはゲイン構成
回路１５から一定時間ごとに与えられる。

最適制御器１４はこの制御ゲインＫを介して入力された
観Ａｐ１状態信号マを制御人力Ｕに変換し出力する。

ゲイン構成回路１５は、モデル同定回路２から一定時間
ごとに得られる制御対象システム３のダイナミクスを表
すパラメータ（φ、Ｂ）より、ある２次形式評価関数を
最小にするような安定化最適制御ゲインＫを演算すると
共に、制御対象システム３の状態モデルφＢを演算し、
それぞれにより一定時間ごとに最適制御器１４及び状態
モデル回路１３を更新する。

かくして、このよ、うな適応制御器１１の構成によれば
、制御対象システム３のグイナミクスが変動した場合に
も、継続的に最適制御が可能な適応型最適制御が実現さ
れる。

ここで、適応型最適制御を実現する理論を以下で述べる
。

即ち、モデル同定回路２から得られる制御対象システム
のダイナミクスが次式、）（ｊ＋１ｓ＊φｘｔ＋Ｂｕｔ　　　　　　＝（１）Ｙ
ｔ　−Ｃｘｔ　　　　　　　　　　　−（２）のような
離散形で表されるとする。ここで、ｘ　ｔ＋１（１＝０
．１．２．−　）は、ｔ＝ｔ＋ｉＸ△ｔにおける制御対
象システム３の状態を表すｎ次元ベクトル、ｕｔは制御
対象システム３に対する入力を表すｍ次元ベクトル、ｙ
ｔは制御対象システム３の出力を表すｒ次元ベクトルで
あり、φ、Ｂ、Ｃ。

はそれぞれｎＸｎ％ｎｘｍ、ｒＸｎ次元の定係数マトリ
クスである。このとき、次式、Ｊ−Σ（ｘ’　ｔ　Ｑｘｔ　＋ｕ’　ｔ　Ｒｕｔ　）−
（３）ＩＩＯで表される２次形式評価関数Ｊを考える。ここで、Ｑは
半止定のｎｘｎ次元マトリクス、Ｒは止定のｍＸｍ次元
マトリクスで、オペレータが適当に選定する。いま（φ
、Ｂ）が可到達、即ち、ｒａｎｋ　［Ｂ　、　　φＢ−
，φＩＩ−ＩＢ］＝ｎ　　　−（４）及び、（Ｑ）、φ
）が可観測、即ち、ｒａｎｋ［（Ｑ’　）　’　、　　φ′（Ｑ’　）　’
　、　−−−−・−・・・、　（φ’）”（Ｑへ　）’
）−ｎ　　　　・・・　（５）であれば、（３）式で表
される２次評価関数Ｊを最小にする制御入力１１　ｔは
唯一に定まり、次式、ｕｔ　−−Ｋｘｔ　　　　　　　
　　　　−（６）Ｋ−（Ｒ＋Ｂ’　ＳＢ）”’　Ｂ’　
ＳΦ　　・・・（７）で与えられる。ここで、ＫはｍＸ
ｎのマトリクスで表される安定化制御ゲインであり、Ｓ
は次式の離散型リカッチ方程式、Ｓ−Ｑ＋Φ′　ＳΦ− Φ’　ＳＢ　（Ｒ＋Ｂ’　ＳＢ）”Ｂ’　ＳΦ・・・（
８）の唯−止定対称解を表すｎＸｎのマトリクスである。即
ち、適応制御器１１は内部の適応制御器１４に（７）式
で表される安定化制御ゲインＫを有し、（６）式を満足
するように、入力される状態ｘｔを制御人力ｕｔに変換
し出力する。

因みに、安定化制御ゲインにとして（７）式で表される
ものを用いた場合、制御システム１０が全体として安定
となるばかりでなく、低感度特性や大きなゲイン余裕を
もつといった、いわゆるロバスト性を有することが知ら
れており、制御系として優れた性質をもつこととなる。

さて、制御システム１０の第２の機能であるモデル同定
機能は一定時間ごとに起動され、制御対象システム３の
ダイナミクスをモデルとして有するモデル同定回路２を
更新するようになされている。

このときモデル同定制御部１は以下のようにしてモデル
同定回路２に制御対象システム３のダイナミクスを実現
させる。

即ち、モデル同定機能動作時のモデル同定システムの構
成を示す第３図において、一定時間ごとにモデル同定機
能動作を開始させる制御回路４が、基準信号発生信号Ｓ
１を基準信号発生回路５に出力すると、基準信号発生回
路５は、基準信号ＲＥＦを制御対象システム３に入力す
ると共に、モデル同定回路２に入力する。このとき、制
御対象システム３及びモデル同定回路２は、それぞれ基
準信号ＲＥＰに対する応答である、応答信号Ｉ？ＥＳ及
びモデル応答信号１７ＥＳＭを出力し、当該応答信号Ｒ
ＥＳ及びモデル応答信号ＲＥＳＭの差ＥＲＲが学習／判
定回路６に入力される。

学習／判定回路６は、制御回路４から学習／判定開始信
号Ｓ２を受けたとき、入力された誤差信号ＥＲＲを評価
する。そして、誤差信号ＥＲＲが十分少さいと判断され
た場合には、モデル同定回路２が学習が完了したとして
学習完了信号Ｓ３を制御回路４に出力する。これに対し
、誤差信号ＥＲＲが未だに大きいと判断された場合には
、モデル補正信号ＣＯＲをモデル同定回路２に出力し、
例えばバックプロパゲーションの手法を用いてモデル同
定回路２の内部状態を補正する。

モデル同定回路２は、例えば第４図に示すようなニュー
ラルネットワークにより構成される。

即ち、入力層にｍ個のニューロンジ１１、ν１２゜・・
・、シ１．ｍ、中間層にｎ個のニューロンジ２１．ν２
２、・・・、シ２ｎ、出力層に１個のニューロンジ３１
．ν３２、・・・、ν３ｒｓを有する３層構造のネット
ワークで、ｍ次元の学習基準信号ＲＥＰＸ（ｒｒ　＋　
、　＝−、ｒｆ’ｉ。

・・・、　ｒｆ’ａ）を受けたとき、ｒ次元のモデル応
答信号ＲＥＳＭ（０３１，−＝、　０３に、−、０３ｒ
）を出力する。

入力層のニューロンジ１１（１≦ｌ≦Ｉ）は人力された
学習基準信号ｒｆ’ｌをそのまま出力０１ｊ０１ｉ＝ｒ
ｆｉ（１≦Ｉ　５ｍ）　　　　　　　　・＝　（９）と
して中間層のニューロンジ２１ν２２・・・、ν２ｎに
送出する。

中間層のニューロンジ２ｊ（１≦ｊ≦口）は入力ｎｅｔ
２ｊとして次式、（１≦ｊ≦ｎ）　　　　　・・・（１０）を受は取る。

（１０）式において、Ｗ２ｊｌｉ（１≦ｉ≦ｍ）は入力
層のニューロンジ１１の出力０１１に対する重みであり
、Ｗ２ｊ２　（１≦ｊ≦ｎ）は中間層のニューロンジ２
１の出力０２１に対する重みである。

一般にＷ２ｊ２１≠０としているので、中間層のニュー
ロンジ２ｊ　（１≦ｊ≦ｎ）は入力層のみならず、自分
自身を含めて中間層の出力も入力として受は取ることに
なる。また、中間層のニューロンジ２ｊの出力０２ｊ（
１≦ｊ≦ｎ）は次式、０２ｊ−ｆ　２ｊ（ｎｅｔ２Ｎ　　　　　　　　　　　
＝・　（１１）で表される。ここでｆ　２ｊ　（・）は
例えばｓ１ｇｍｏｉｄ関数を表す。

出力層のニューロンジ３ｋ（１≦に≦「）は入力ｎｅｔ
３にとして次式、ｎｅｔ３に一ΣＷ３に２ｊ０２ｊ　（１≦に≦ｒ）−（
１２）３為Ｉを受は取る。

（１２）式において、Ｗ３に２ｊ　（１≦ｊ≦ｎ）は中
間層のニューロンジ２ｊの出力０２ｊに対する重みであ
る。−力出力層のニューロンジ３にの出力０３ｋ（ｌ≦
に≦ｒ）は次式、０３ｋ　−ｆ３ｋ（ｎｅｔ３ｋ）　　　　　　　　−（
１Ｂ　）で表される。ここでｆ３ｋ（・）は例えば５１
ｇ１ｏｉｄ関数である。

いま、ベクトルｘ、ｘ”　、ｕｓ　ｙＳＦ２　　（・）
、Ｆ３　　（・）及びマトリクスφ、ＢＳＣを以下のよ
うに定義する。

ｘ　＝　［０２１，−１０２ｊ、−・・、０２ｎ）’　
ｅＲ”・・・（１４）（以下、余白）Ｘ　”　　１ｍｌ＋［ｎｅｔ　　２１．−１ｎｅｔ　　２ｊ、−・・、ｎｅ
ｔ　　２ｎ］　　’　　Ｅ　Ｒｎ・・・　（１５）ｕ　＝　　［ｒｆ’Ｌ　　、・・・、ｒｌ’ｉ　　・・
・、ｒ［’ｍ］’−ＲＥＦＩＥＲ”　　　　　　　　　
　　　　　　　　　−（１６）ｙ　−［０３１，−・・
、０３に、−・・、０３ｒ］’−ＲＥＳＭ（Ｒｒ　　　
　　　　　　　　　　　　　・・・　（１７）Ｆ２　　
（・　）　− ［ｆ２１（−）　　　、−ｆ２ｊ（−）　　　−・・　
、　　ｆ　　２ｎ　　（・　）　　コ　　′・・・　（
１８）Ｆ３　　（・　）　− ［ｆｌｌ（−）　　　、−＝ｆ３ｋ（−）　　　・・・
　、　　ｆ　　３ｒ　　（・　）　　　コ　　′・・・
　（１９）（以下、余白）（以下、余白）このとき、次式のような関係が得られる。ただし、Ｘ５
ｕＳＹに付随するＦサフィックスｔは、時刻ｔにおける
値を示し、同様にｔ＋１は時刻を十Δｔ（△ｔは定数）
における値を示す。

Ｘ１１ｔ＋１−ｍφＸｉ　＋Ｉ３　ｕｔ　　　　　　　
＋＋＋　（２３）ｘｔ　−Ｆ２　　（ｘ’　ｔ）　　　
　　　　　　　−（２４）ｙ　ｔ　−Ｆ　３　　（Ｃｘ
　ｔ）−（２５）Ｆ２　　（・）、Ｆ３（・）が線形関
数であれば、式（２３）、（２４）、（２５）は離散時
間システムの状態方程式と等価となる。Ｆ２　　（・）
、Ｆ３　　（・）として、例えば５１ｇｆｆ１ｏｉｄ関
数を選んだ場合、バイアス点近接であれば十分線形であ
ると仮定できるので、結局モデル形式回路２は離散時間
システムのモデルとなることが可能である。

即ち、モデル同定回路２に対し、基準信号ＲＥＦを時系
列的に与えてやることにより、応答信号ＲＥＳを時系列
的に得られ、例えばパックプロパゲーションの手法を用
いて学習することにより、モデル同定回路２の内部状態
は、基準信号ＲＥＦ及び応答信号ＲＥＳに対応する離散
時間システムのダイナミクスを実現することになる。基
準信号ＲＥＦとしては、システムを表現するのに適して
いるＭ系列関数を用いるのが適当と思われる。

ここで、モデル同定回路２の内部状態を法定する要素は
、（１８）〜（２２）式で表されるマトリクスであるが
、これらは学習／判定回路６から送出されるモデル補正
信号ＣＯＩ？に基づいて修正される。代表的な修正方法
であるバックプロパゲーションでは、モデル補正信号Ｃ
ｏｔ？は２乗誤差を表す。

因みに第４図のような構成のニューラルネットワークを
用いた場合、フィードフォワード型ニューラルネットワ
ークよりも広範囲のシステムが表現できることが知られ
ており、またフィードフォワード型ニューラルネットワ
ークで同等のものが実現し得たとしても、構成ユニット
であるニューロンの数が多く必要なことが知られている
。

以上のように本発明によれば、制御対象同定方法として
中間ユニット層における各ユニットの出力が下層のみな
らず中間ユニット層自身にも入力されるように構成され
たニューラルネットワークを用いた手法を用いることに
より、未知のダイナミクスを有する種々の制御対象シス
テムに対して、常に制御対象を同定し、その同定モデル
を用いである２次評制関数を最小化する安定化制御ゲイ
ンを適用する適応型制御器を容易に実現し得る。

なお、上述の実施例においては、最適制御器１４に入力
する制御対象システム３の観測状態信号マとして、応答
出力ｙ及び状態モデル回路１３のモデル状態信号ｘＭの
組合わせを用いたが、これに代え、オブザーバを用いて
応答出力ｙ及び制御人力Ｕに基づいて状態Ｘを推定する
ようにしても良い。

［発明の効果］上述したように本発明によれば、制御対象同定方法とし
て中間ユニット層における各ユニットの出力が下層のみ
ならず中間ユニット層自信にも人力されるように構成さ
れたニューラルネットワークを用いた手法を用いている
ので、未知のダイナミクスを有する種々の制御対象シス
テムに対して常にシステム同定を行いある評価関数を最
小化する安定化制御ゲインを更新じ適用する適応制御器
を容易に実現し得る。

【図面の簡単な説明】

第１図は本発明による最適制御器を適用した制御システ
ムの全体構成を示すブロック図、第２図はモデル同定モ
ードにおける制御システムの構成を示すブロック図、第
３図はモデル同定機能を説明するためのブロック図、第
４図はモデル同定回路の詳細構造を示す路線的系統図で
ある。１・・・モデル同定制御部２・・・モデル同定回路３・・・制御対象システム１０・・・制御システム１１・・・適応制御器１２・・・状態合成回路出願人　　　　　　株式会社　東芝代理人　弁理士　　須　山　佐　− 第１図

Claims

【特許請求の範囲】未知のダイナミクスを有する制御対象システムに対し、
一定時間ごとに制御対象同定部によりモデル同定し、得
られたモデルに対し所定の評価関数を最小にするよう制
御ゲインを決定し、該制御ゲインにより前記制御対象シ
ステムを制御するように構成された適応制御器において
、前記制御対象同定部が、複数のユニット層から構成されるニューラルネットワー
クからなり、中間ユニット層の各ユニットの出力が下層
ユニット層と共に、該中間ユニット層自体にも入力され
るように構成されたモデル同定回路と、前記制御対象システムに対し所定の基準入力信号を送出
し、該基準入力信号に対する前記制御対象システムから
のシステム応答信号を記憶すると共に、前記モデル同定
回路に対し前記基準入力信号を送出し、該基準入力信号
に対する前記モデル同定回路からのモデル応答信号を入
力し、かつ該モデル応答信号と前記システム応答信号と
の誤差に基づき前記モデル同定回路の内部状態を前記誤
差が減少するよう補正をするモデル同定制御部とを備え
、前記補正を複数種類の前記基準入力信号について繰返し
行うことにより、前記モデル同定回路の内部状態が前記
制御対象システムのダイナミクスを実現するようにした
ことを特徴とする適応制御器。