JPH03189856A - 外部評価基準の学習方式 - Google Patents
外部評価基準の学習方式Info
- Publication number
- JPH03189856A JPH03189856A JP1328401A JP32840189A JPH03189856A JP H03189856 A JPH03189856 A JP H03189856A JP 1328401 A JP1328401 A JP 1328401A JP 32840189 A JP32840189 A JP 32840189A JP H03189856 A JPH03189856 A JP H03189856A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- output
- input
- self
- external
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
- Image Processing (AREA)
- Manipulator (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
自己評価基準に従って、外部からの入力情報とその入力
情報に対する自システムの処理結果の外部への出力との
対応を評価する機能を有するシステムにおいて、外部出
力に対する外部からの評価を自己評価基準に取り込むた
めに、外部評価の評価基準を学習する外部評価基準の学
習方式に関し、自己評価基準を持って教師パターンを作
成することのできる学習システムにおいて、システムの
外部への出力に対する評価を自己評価基準として学習す
ることを目的とし、 自己評価基準を持ち、該自己評価基準に従って外部から
の入力情報と該入力情報に対する自システムの処理結果
の外部への出力との対応を評価する機能を有するシステ
ムにおいて、該外部出力に対する外部からの評価を前記
自己評価基準に取込むために外部評価の評価基準を学習
する自己学習方式であって、前記システムの実行時に、
ある一時点の入力情報と該入力情報に対する自システム
の出力結果に対しての該一時点の次の時点の入力情報と
を含む評価入力パターンを評価対象情報として、該評価
入力パターンを前記自己評価基準に従って評価し、該評
価結果を評価信号として出力する自己評価手段と、前記
外部出力に対する外部評価を受け取り、該外部評価を前
記評価入力パターンと対応させて、前記自己評価手段に
外部評価の評価基準を学習させるための評価教師パター
ンとして記憶する評価教師パターン記憶手段とを備える
ように構成する。
情報に対する自システムの処理結果の外部への出力との
対応を評価する機能を有するシステムにおいて、外部出
力に対する外部からの評価を自己評価基準に取り込むた
めに、外部評価の評価基準を学習する外部評価基準の学
習方式に関し、自己評価基準を持って教師パターンを作
成することのできる学習システムにおいて、システムの
外部への出力に対する評価を自己評価基準として学習す
ることを目的とし、 自己評価基準を持ち、該自己評価基準に従って外部から
の入力情報と該入力情報に対する自システムの処理結果
の外部への出力との対応を評価する機能を有するシステ
ムにおいて、該外部出力に対する外部からの評価を前記
自己評価基準に取込むために外部評価の評価基準を学習
する自己学習方式であって、前記システムの実行時に、
ある一時点の入力情報と該入力情報に対する自システム
の出力結果に対しての該一時点の次の時点の入力情報と
を含む評価入力パターンを評価対象情報として、該評価
入力パターンを前記自己評価基準に従って評価し、該評
価結果を評価信号として出力する自己評価手段と、前記
外部出力に対する外部評価を受け取り、該外部評価を前
記評価入力パターンと対応させて、前記自己評価手段に
外部評価の評価基準を学習させるための評価教師パター
ンとして記憶する評価教師パターン記憶手段とを備える
ように構成する。
本発明は例えばニューラルネットワーク等の学習システ
ムの学習方式に係り、さらに詳しくは自己評価基準に従
って、外部からの入力情報とその入力情報に対する自シ
ステムの処理結果の外部への出力との対応を評価する機
能を有するシステムにおいて、外部出力に対する外部か
らの評価を自己評価基準に取り込むために、外部評価の
評価基準を学習する外部評価基準の学習方式に関する。
ムの学習方式に係り、さらに詳しくは自己評価基準に従
って、外部からの入力情報とその入力情報に対する自シ
ステムの処理結果の外部への出力との対応を評価する機
能を有するシステムにおいて、外部出力に対する外部か
らの評価を自己評価基準に取り込むために、外部評価の
評価基準を学習する外部評価基準の学習方式に関する。
近年ニューラルネットワーク等の学習システムがアルフ
ァベットフォント認識や、画像認識等のパターン認識、
適応フィルター、ロボット等の各種制御に応用されるよ
うになっている。しかしながら、教師データを必要とす
る学習方式では、人間の手で教師データを作成するのが
困難、または不可能な場合があるために、自動的に外部
環境に適応する学習方式が望まれるようになっている。
ァベットフォント認識や、画像認識等のパターン認識、
適応フィルター、ロボット等の各種制御に応用されるよ
うになっている。しかしながら、教師データを必要とす
る学習方式では、人間の手で教師データを作成するのが
困難、または不可能な場合があるために、自動的に外部
環境に適応する学習方式が望まれるようになっている。
〔従来の技術及び発明が解決しようとする課題〕教師パ
ターンを学習することのできる学習システムとしてのニ
ューラルネットワークは広範な分野で応用されている。
ターンを学習することのできる学習システムとしてのニ
ューラルネットワークは広範な分野で応用されている。
バーセプトロン型の階層ニューラルネットワークは例え
ば入力層、中間層および出力層の3つの層から成り、入
力層に対する入力パターンに対して、出力層から出力パ
タ−−ンを出力する。ニューラルネットワークがある入
力パターンに対して正しい出カバターンを出力できるよ
うにするために、教師パターンを用いてニューラルネッ
トワークの学習が行われる。すなわちある入力パターン
に対して正しい出カバターンが提示され、正しい出カバ
ターンを出力することができるように、例えばパックプ
ロパゲーション法によってニューラルネットワーク内の
重みの決定がなされる。このように従来はニューラルネ
ットワークでは人間があらかじめ用意した教師パターン
によって学習が行われていた。
ば入力層、中間層および出力層の3つの層から成り、入
力層に対する入力パターンに対して、出力層から出力パ
タ−−ンを出力する。ニューラルネットワークがある入
力パターンに対して正しい出カバターンを出力できるよ
うにするために、教師パターンを用いてニューラルネッ
トワークの学習が行われる。すなわちある入力パターン
に対して正しい出カバターンが提示され、正しい出カバ
ターンを出力することができるように、例えばパックプ
ロパゲーション法によってニューラルネットワーク内の
重みの決定がなされる。このように従来はニューラルネ
ットワークでは人間があらかじめ用意した教師パターン
によって学習が行われていた。
しかしながら、実際のアプリケーションの場合には時系
列を扱ったパターン、教師パターン自体が変化するパタ
ーン、予測不能な状態に対するパターンなどがあるため
、教師パターンとして用意するパターンの種類や量の決
定が難しく、教師パターンを作成するのに非常に時間が
かかるという問題点があった。従って実際のアプリケー
ションで実用的な学習システムを作成するためには、学
習システム自身が入力パターンと出カバターンとの対応
をつけ、自システム内に保持している自己評価基準に従
って対応づけられた入力パターンを評価し、正しい入出
カバターンを教師パターンとして学習するようなアルゴ
リズムが必要となる。
列を扱ったパターン、教師パターン自体が変化するパタ
ーン、予測不能な状態に対するパターンなどがあるため
、教師パターンとして用意するパターンの種類や量の決
定が難しく、教師パターンを作成するのに非常に時間が
かかるという問題点があった。従って実際のアプリケー
ションで実用的な学習システムを作成するためには、学
習システム自身が入力パターンと出カバターンとの対応
をつけ、自システム内に保持している自己評価基準に従
って対応づけられた入力パターンを評価し、正しい入出
カバターンを教師パターンとして学習するようなアルゴ
リズムが必要となる。
さらに、上述のように自己評価基準に従って教師パター
ンを作成できるシステムにおいても、自システムのシス
テムに対する外部からの評価を受け取るインタフェース
を持たない方式では、自己評価基準をあらかじめ一定の
ものとしてシステムに取りつけることになる。このため
システムを様々な分野で応用する場合には応用分野毎に
自己評価基準を取替えなければならず、柔軟性に欠ける
という問題点もある。このため外部評価に対するインタ
フェースを持ち、外部評価の評価基準を自己学習するシ
ステムが求められている。
ンを作成できるシステムにおいても、自システムのシス
テムに対する外部からの評価を受け取るインタフェース
を持たない方式では、自己評価基準をあらかじめ一定の
ものとしてシステムに取りつけることになる。このため
システムを様々な分野で応用する場合には応用分野毎に
自己評価基準を取替えなければならず、柔軟性に欠ける
という問題点もある。このため外部評価に対するインタ
フェースを持ち、外部評価の評価基準を自己学習するシ
ステムが求められている。
本発明は、自己評価基準を持って教師パターンを作成す
ることのできる学習システムにおいて、システムの外部
への出力に対する評価を自己評価基準として学習するこ
とを目的とする。
ることのできる学習システムにおいて、システムの外部
への出力に対する評価を自己評価基準として学習するこ
とを目的とする。
第1図は本発明の原理ブロック図である。同図は自己評
価基準に従って外部からの入力情報とその人力情報に対
する自システム、例えばニューラルネットワークの処理
結果の外部への出力との対応を評価する機能を有する学
習システムにおいて、その外部出力に対する外部からの
評価を自己評価基準に取り込むために、外部評価の評価
基準を学習する自己学習方式の原理ブロック図である。
価基準に従って外部からの入力情報とその人力情報に対
する自システム、例えばニューラルネットワークの処理
結果の外部への出力との対応を評価する機能を有する学
習システムにおいて、その外部出力に対する外部からの
評価を自己評価基準に取り込むために、外部評価の評価
基準を学習する自己学習方式の原理ブロック図である。
第1図において自己評価手段1はシステムの実行時にお
いである一時点の入力情報、例えばニューラルネットワ
ークへの入力パターンと、その入力情報に対するシステ
ムの出力結果、すなわち出カバターンに対して外部から
入力される次の時点の入力情報とを含む評価入力パター
ンを評価対象情報として自己評価基準に従って評価し、
その評価結果、すなわち良または否を評価信号として出
力する。
いである一時点の入力情報、例えばニューラルネットワ
ークへの入力パターンと、その入力情報に対するシステ
ムの出力結果、すなわち出カバターンに対して外部から
入力される次の時点の入力情報とを含む評価入力パター
ンを評価対象情報として自己評価基準に従って評価し、
その評価結果、すなわち良または否を評価信号として出
力する。
また評価教師パターン記憶手段2は前述の外部への出力
に対する外部評価を受け取って、その外部評価を評価入
力パターンと対応させ、自己評価手段lに外部評価の評
価基準を学習させるための評価教師パターンとして記憶
する。
に対する外部評価を受け取って、その外部評価を評価入
力パターンと対応させ、自己評価手段lに外部評価の評
価基準を学習させるための評価教師パターンとして記憶
する。
第1図においてシステムの実行時に評価教師パターン記
憶手段2に記憶された評価教師パターン、すなわち評価
入力パターンとそれに対応する外部評価が、学習時にお
いて自己評価手段1、例えばニューラルネットワークに
与えられ、自己評価手段1はその評価教師パターンを学
習する。これによってシステムの出力に対する外部評価
が自己評価手段】の自己評価基準として取り込まれる。
憶手段2に記憶された評価教師パターン、すなわち評価
入力パターンとそれに対応する外部評価が、学習時にお
いて自己評価手段1、例えばニューラルネットワークに
与えられ、自己評価手段1はその評価教師パターンを学
習する。これによってシステムの出力に対する外部評価
が自己評価手段】の自己評価基準として取り込まれる。
本発明が対象とするシステムは自己評価基準に従って外
部からの入力情報、例えば入力パターンと、その人カバ
ターンに対する自システムの処理部、例えばニューラル
ネットワークの処理結果の外部への出力との対応を評価
する機能を持つものであり、その評価は自己評価手段1
によって行われる。
部からの入力情報、例えば入力パターンと、その人カバ
ターンに対する自システムの処理部、例えばニューラル
ネットワークの処理結果の外部への出力との対応を評価
する機能を持つものであり、その評価は自己評価手段1
によって行われる。
自己評価手段1が評価する評価人カバターンはある時点
、例えば時刻tにおけるシステムへの入力パターンとそ
の次の時点、すなわち時刻t+1におけるシステムへの
入力パターンとを含む評価入力パターンを用いて行われ
るが、実際に評価されるものは時刻tにおける入力パタ
ーンとシステムの処理部、例えばニューラルネットワー
クの出力する出カバターンとの対応であり、この時刻t
における入出カバターンがシステム内に一時記憶され、
時刻j+lにおいて自己評価手段1が出力する評価信号
が良である場合に、その入出カバターンが例えばシステ
ムの処理部に対する教師パターンテーブルに蓄えれ、シ
ステムの学習時においてこの教師パターンテーブルに蓄
えれた教師パターンを用いてシステムの処理部、例えば
ニューラルネットワークの学習が行われる。
、例えば時刻tにおけるシステムへの入力パターンとそ
の次の時点、すなわち時刻t+1におけるシステムへの
入力パターンとを含む評価入力パターンを用いて行われ
るが、実際に評価されるものは時刻tにおける入力パタ
ーンとシステムの処理部、例えばニューラルネットワー
クの出力する出カバターンとの対応であり、この時刻t
における入出カバターンがシステム内に一時記憶され、
時刻j+lにおいて自己評価手段1が出力する評価信号
が良である場合に、その入出カバターンが例えばシステ
ムの処理部に対する教師パターンテーブルに蓄えれ、シ
ステムの学習時においてこの教師パターンテーブルに蓄
えれた教師パターンを用いてシステムの処理部、例えば
ニューラルネットワークの学習が行われる。
時刻tにおける入出カバターンに対する時刻t+1にお
ける自己評価手段1の評価信号が否であるときには、そ
の入出カバターンは教師パターンテーブルには格納され
ず、システムの処理部の学習は自己評価手段1が出力す
る評価信号が良である入出カバターンに対してのみ行わ
れることになる。
ける自己評価手段1の評価信号が否であるときには、そ
の入出カバターンは教師パターンテーブルには格納され
ず、システムの処理部の学習は自己評価手段1が出力す
る評価信号が良である入出カバターンに対してのみ行わ
れることになる。
以上のように、本発明によれば評価入力パターンに対す
るシステムの外部からの評価が評価教師パターンとして
自己評価手段1によって学習されることになる。
るシステムの外部からの評価が評価教師パターンとして
自己評価手段1によって学習されることになる。
第2図は本発明における学習システムの実施例の全体構
成ブロック図である。同図において、システムは外部情
報が入力される人力部3、必要に応じて過去の外部情報
を記憶するためのメモリ(STM)4、入力部3によっ
て作成された入力パターンを処理する処理部、例えばニ
ューラルネットワーク5、処理部5の出力に加算される
ノイズを発生するノイズ発生部6、加算器7、加算器7
の出力を外部出力に変換する出力部8、入力部3の出力
する入力パターンとそれに対する加算器7の出力すなわ
ち出カバターンとを対応づけ、その対応関係を入出カバ
ターンとして出力する入出カバターン対応部9、入出カ
バターン対応部9のの出力する入出カバターンとシステ
ムの外部から与えられる外部評価、すなわち強化信号等
を用いて入出カバターン対応部9の出力する入出カバタ
ーンの良、否を判別し、判別結果が良である人出カバタ
ーンを出力する評価部10、および評価部10から出力
される評価が良である入出カバターンを記憶し、処理部
5の学習時にその入出カバターンを教師パターンとして
出力する教師パターンテーブル部11から成っている。
成ブロック図である。同図において、システムは外部情
報が入力される人力部3、必要に応じて過去の外部情報
を記憶するためのメモリ(STM)4、入力部3によっ
て作成された入力パターンを処理する処理部、例えばニ
ューラルネットワーク5、処理部5の出力に加算される
ノイズを発生するノイズ発生部6、加算器7、加算器7
の出力を外部出力に変換する出力部8、入力部3の出力
する入力パターンとそれに対する加算器7の出力すなわ
ち出カバターンとを対応づけ、その対応関係を入出カバ
ターンとして出力する入出カバターン対応部9、入出カ
バターン対応部9のの出力する入出カバターンとシステ
ムの外部から与えられる外部評価、すなわち強化信号等
を用いて入出カバターン対応部9の出力する入出カバタ
ーンの良、否を判別し、判別結果が良である人出カバタ
ーンを出力する評価部10、および評価部10から出力
される評価が良である入出カバターンを記憶し、処理部
5の学習時にその入出カバターンを教師パターンとして
出力する教師パターンテーブル部11から成っている。
第2図において、ノイズ発生部6の出力するノイズは処
理部5に対する教師パターンを積極的に発見する目的で
処理部5の出力に加算される。すなわち処理部5、例え
ばニューラルネットワークはある入力パターンに対して
は常に同じ出カバターンを出力する。そこである入力パ
ターンに対してどのような出カバターンを得るのが正し
いか、すなわち正しい教師パターンを得るために、処理
部5の出力に対してノイズを加算してその出カバターン
に対する外部出力をシステムの外部へ出力することによ
って、システムを揺らして行動し、その行動に対する外
部情報の変化が前述の自己評価基準に従って評価される
ために、正しい出カバターン、すなわち教師パターンを
探すことが容易となる。
理部5に対する教師パターンを積極的に発見する目的で
処理部5の出力に加算される。すなわち処理部5、例え
ばニューラルネットワークはある入力パターンに対して
は常に同じ出カバターンを出力する。そこである入力パ
ターンに対してどのような出カバターンを得るのが正し
いか、すなわち正しい教師パターンを得るために、処理
部5の出力に対してノイズを加算してその出カバターン
に対する外部出力をシステムの外部へ出力することによ
って、システムを揺らして行動し、その行動に対する外
部情報の変化が前述の自己評価基準に従って評価される
ために、正しい出カバターン、すなわち教師パターンを
探すことが容易となる。
第3図は第2図における評価部10の実施例の構成ブロ
ック図である。同図において評価部は第1図の自己評価
手段1に対応する自己評価部I2、評価教師パターン記
憶手段2に対応する評価教師パターンテーブル部13、
入出カバターンを一時記憶する短期記憶部14、入出カ
バターンと短期記憶部14の出力する過去の入出カバタ
ーンとを用いて、現在の入力パターンと過去の入力パタ
ーンとを含む評価部カバターンを作成する評価入力部1
5、自己評価部12の出力する評価信号の良、否に従っ
て、評価信号が良である時に過去の入出カバターンを第
2図の教師パターンテーブル部11に出力する評価出力
部16から成る。
ック図である。同図において評価部は第1図の自己評価
手段1に対応する自己評価部I2、評価教師パターン記
憶手段2に対応する評価教師パターンテーブル部13、
入出カバターンを一時記憶する短期記憶部14、入出カ
バターンと短期記憶部14の出力する過去の入出カバタ
ーンとを用いて、現在の入力パターンと過去の入力パタ
ーンとを含む評価部カバターンを作成する評価入力部1
5、自己評価部12の出力する評価信号の良、否に従っ
て、評価信号が良である時に過去の入出カバターンを第
2図の教師パターンテーブル部11に出力する評価出力
部16から成る。
第2図においてシステムの実行時に、システムに入力さ
れた外部情報から作成された入力パターンに対して処理
部5、例えばニューラルネットワクの処理が行われ、ノ
イズ発往部6の発生するノイズが加算された出カバター
ンが出力部8によって外部出力に変換されて、システム
外部へ出力される。それと同時に、システム内部では入
力パターンと加算器7の出力する出カバターンとが入出
カバターン対応部9によって入出カバターンとして評価
部10に出力される。以上の動作が時刻tにおいて行わ
れたものとすると、外部出力によって外部の環境が変わ
り、時刻t+1においては新しい外部情報が入力部3に
与えられる。この外部情報を用いて、時刻t+1におい
て、時刻りにおけると同様に入出カバターンが入出カバ
ターン対応部9から評価部10に与えられる。
れた外部情報から作成された入力パターンに対して処理
部5、例えばニューラルネットワクの処理が行われ、ノ
イズ発往部6の発生するノイズが加算された出カバター
ンが出力部8によって外部出力に変換されて、システム
外部へ出力される。それと同時に、システム内部では入
力パターンと加算器7の出力する出カバターンとが入出
カバターン対応部9によって入出カバターンとして評価
部10に出力される。以上の動作が時刻tにおいて行わ
れたものとすると、外部出力によって外部の環境が変わ
り、時刻t+1においては新しい外部情報が入力部3に
与えられる。この外部情報を用いて、時刻t+1におい
て、時刻りにおけると同様に入出カバターンが入出カバ
ターン対応部9から評価部10に与えられる。
一方第3図においては時刻tにおける入出カバターンは
短期記憶部14に一時記憶される。そして時刻t+1に
おける入出カバターンと短期記憶部14の出力、すなわ
ち時刻tにおける入出カバターンとが評価入力部15に
入力され、評価入力部15から時刻tにおける入力パタ
ーンと時刻t+1における入力パターンとを含む評価部
カバターンが自己評価部12と評価教師パターンテーブ
ル部13に与えられる。
短期記憶部14に一時記憶される。そして時刻t+1に
おける入出カバターンと短期記憶部14の出力、すなわ
ち時刻tにおける入出カバターンとが評価入力部15に
入力され、評価入力部15から時刻tにおける入力パタ
ーンと時刻t+1における入力パターンとを含む評価部
カバターンが自己評価部12と評価教師パターンテーブ
ル部13に与えられる。
自己評価部12は入力された評価部カバターンを自己評
価基準に従って評価し、良または否を示す評価信号を評
価出力部16に出力する。評価出力部16はこの評価信
号が良である時に、時刻tにおける入出カバターン、す
なわち過去の入出カバターンを第2図の教師パターンテ
ーブル部11に出力する。また評価教師パターンテーブ
ル部13は時刻t+1においてシステムの外部から与え
られる外部評価、すなわち強化信号と評価部カバターン
との対応を評価教師パターンとして記憶する。
価基準に従って評価し、良または否を示す評価信号を評
価出力部16に出力する。評価出力部16はこの評価信
号が良である時に、時刻tにおける入出カバターン、す
なわち過去の入出カバターンを第2図の教師パターンテ
ーブル部11に出力する。また評価教師パターンテーブ
ル部13は時刻t+1においてシステムの外部から与え
られる外部評価、すなわち強化信号と評価部カバターン
との対応を評価教師パターンとして記憶する。
システムの学習時には、第2図では教師パターンテーブ
ル部11に格納されている教師パターンを用いて処理部
5、例えばニューラルネットワークの学習が行われ、ま
た第3図では評価教師パターンテーブル部13に記憶さ
れている評価教師パターンを用いて自己評価部12の学
習が行われる。
ル部11に格納されている教師パターンを用いて処理部
5、例えばニューラルネットワークの学習が行われ、ま
た第3図では評価教師パターンテーブル部13に記憶さ
れている評価教師パターンを用いて自己評価部12の学
習が行われる。
第4図は本発明の学習方式を用いたロボットの制御の実
施例である。同図においてロボット17はターゲット1
8に近づいてそれを捕らえるという捕獲行動を行うもの
とする。ロボット17は視覚センサ19を持ち、このセ
ンサの出力を第2図の入力部3に外部情報として与え、
処理部5の出力にノイズ発生部6が発生するノイズが加
算された出カバターンが出力部8によってロボットのモ
ータの回転角度に変換され、その回転角度に応じてロボ
ットの進行方向角度20が決定され、ロボットI7はそ
の角度方向に一歩移動するものとし、これを1ステツプ
と呼ぶことにする。
施例である。同図においてロボット17はターゲット1
8に近づいてそれを捕らえるという捕獲行動を行うもの
とする。ロボット17は視覚センサ19を持ち、このセ
ンサの出力を第2図の入力部3に外部情報として与え、
処理部5の出力にノイズ発生部6が発生するノイズが加
算された出カバターンが出力部8によってロボットのモ
ータの回転角度に変換され、その回転角度に応じてロボ
ットの進行方向角度20が決定され、ロボットI7はそ
の角度方向に一歩移動するものとし、これを1ステツプ
と呼ぶことにする。
第5図はロボットの移動軌跡の実施例である。
同図はロボットが1ステツプずつターゲット18に向か
ってそのスタート位置から移動した移動軌跡を示してい
る。本実施例ではロボットがターゲットを捕らえるまで
を1トライアルとし、ロボットがターゲットを捕らえる
までの移動ステップ数が100ステツプを越えるか、移
動中に壁にあたった場合にはそのトライアルが失敗に終
わるものとして後述するシミュレーションが行われ、そ
の結果第5図のような移動軌跡が得られる。
ってそのスタート位置から移動した移動軌跡を示してい
る。本実施例ではロボットがターゲットを捕らえるまで
を1トライアルとし、ロボットがターゲットを捕らえる
までの移動ステップ数が100ステツプを越えるか、移
動中に壁にあたった場合にはそのトライアルが失敗に終
わるものとして後述するシミュレーションが行われ、そ
の結果第5図のような移動軌跡が得られる。
第6図は本発明の学習方式におけるシステム全体の処理
の実施例のフローチャートである。同図において処理が
スタートすると、まず321で入力部3によって外部情
報が入力パターンに変換され、S22でその入力パター
ンが入出カバターン対応部9に送られ、S23で入力パ
ターンに対する処理部5、例えばニューラルネットワー
クによる処理が行われる。ここで処理部5は例えば3層
のニューラルネットワークで構成されている。
の実施例のフローチャートである。同図において処理が
スタートすると、まず321で入力部3によって外部情
報が入力パターンに変換され、S22でその入力パター
ンが入出カバターン対応部9に送られ、S23で入力パ
ターンに対する処理部5、例えばニューラルネットワー
クによる処理が行われる。ここで処理部5は例えば3層
のニューラルネットワークで構成されている。
処理部5の出力に対して、S24でノイズ発生部6がノ
イズを発生し、S25でそのノイズが加算器7によって
加算される。そしてノイズが加算された出カバターンが
326で入出カバターン対応部9に送られ、S22で送
られた入力パターンと対応づけられ、S27で人出カバ
ターン対応部9から入出カバターンとして出力される。
イズを発生し、S25でそのノイズが加算器7によって
加算される。そしてノイズが加算された出カバターンが
326で入出カバターン対応部9に送られ、S22で送
られた入力パターンと対応づけられ、S27で人出カバ
ターン対応部9から入出カバターンとして出力される。
この入出カバターンはS28で評価部10によって自己
評価基準に従って評価され、その評価結果が良である時
に329でその入出カバターンが教師バタンテーブル部
11に送られる。
評価基準に従って評価され、その評価結果が良である時
に329でその入出カバターンが教師バタンテーブル部
11に送られる。
加算器7の出力する出カバターンは530において出力
部8により外部出力に変換され、システムの外部に出力
される。その外部出力によって331で外部の環境が変
化し、例えばロボットの制御の場合には視覚センサ19
の出力が変化する。
部8により外部出力に変換され、システムの外部に出力
される。その外部出力によって331で外部の環境が変
化し、例えばロボットの制御の場合には視覚センサ19
の出力が変化する。
そして332で行動停止条件、すなわち前述のロボット
の場合にはターゲットを捕らえるが、移動ステツプ数が
100を越えるか、ロボットが壁にあたるという条件を
満たしているか否かが判定され、満たしていない場合に
はS21からの処理が繰返される。
の場合にはターゲットを捕らえるが、移動ステツプ数が
100を越えるか、ロボットが壁にあたるという条件を
満たしているか否かが判定され、満たしていない場合に
はS21からの処理が繰返される。
S32で行動停止条件が満たされている場合には、S3
3で教師パターンテーブル部11に蓄えられている教師
パターンを用いてバックプロパゲーション法(以下BP
法と略する)によって処理部5の学習が、またS34で
評価教師パターンテーブル部13に蓄えられている評価
教師パターンを用いてBP法により自己評価部12の学
習が行われ、処理を終了する。
3で教師パターンテーブル部11に蓄えられている教師
パターンを用いてバックプロパゲーション法(以下BP
法と略する)によって処理部5の学習が、またS34で
評価教師パターンテーブル部13に蓄えられている評価
教師パターンを用いてBP法により自己評価部12の学
習が行われ、処理を終了する。
第7図は評価部10の処理実施例のフローチャートであ
る。同図において処理が開始されると、まずS35で入
出カバターン対応部9から入出カバターンが送られ、そ
の入出カバターンが336で短期記憶部14に記憶され
る。そしてS37で現在のステップがロボットの移動の
第1ステップすなわち初ステップ目であるか否かが判定
され、初ステップ目の場合には前述の評価式カバターン
が得られないために処理を終了する。
る。同図において処理が開始されると、まずS35で入
出カバターン対応部9から入出カバターンが送られ、そ
の入出カバターンが336で短期記憶部14に記憶され
る。そしてS37で現在のステップがロボットの移動の
第1ステップすなわち初ステップ目であるか否かが判定
され、初ステップ目の場合には前述の評価式カバターン
が得られないために処理を終了する。
S37で初ステップ目でない場合には、338で評価入
力部15によって評価式カバターンが作成され、その評
価式カバターンに対してS39で自己評価部12により
評価が行われ、その結果の評価信号が340で評価出力
部16に出力される。
力部15によって評価式カバターンが作成され、その評
価式カバターンに対してS39で自己評価部12により
評価が行われ、その結果の評価信号が340で評価出力
部16に出力される。
またS41で評価式カバターンは評価教師パターンテー
ブル部13に送られる。一方システムの外部から与えら
れる外部評価、すなわち強化信号が342で評価教師パ
ターンテーブル部13に与えられ、S43でその外部評
価が評価式カバターンと対応づけられて評価教師パター
ンテーブル部13に記憶されて、処理が終了する。
ブル部13に送られる。一方システムの外部から与えら
れる外部評価、すなわち強化信号が342で評価教師パ
ターンテーブル部13に与えられ、S43でその外部評
価が評価式カバターンと対応づけられて評価教師パター
ンテーブル部13に記憶されて、処理が終了する。
以下、前述のロボットのターゲットの捕獲行動に対する
本発明の学習方式のシミュレーションについてさらに詳
細に説明する。第4図においてロボットI7の視覚セン
サ19には複数のセンサ素子が横1列に並んでおり、タ
ーゲット18を捕らえた部分が反応し、反応した素子の
出力は1となり、反応しない素子の出力は0となる。今
回のシミュレーションでは視覚センサ19は11個の素
子から成り、視覚センサ19の視野は左右45度であり
、1個の素子の視野は約8度である。
本発明の学習方式のシミュレーションについてさらに詳
細に説明する。第4図においてロボットI7の視覚セン
サ19には複数のセンサ素子が横1列に並んでおり、タ
ーゲット18を捕らえた部分が反応し、反応した素子の
出力は1となり、反応しない素子の出力は0となる。今
回のシミュレーションでは視覚センサ19は11個の素
子から成り、視覚センサ19の視野は左右45度であり
、1個の素子の視野は約8度である。
本実施例では過去の情報の流れを含んだ処理(時系列処
理)を可能にするために、第2図の処理部5、すなわち
ニューラルネットワークへの入力は視覚センサ19の現
在の出力のみでなく、過去のセンサ出力をも入力させる
ものとし、今回のシミュレーションでは2ステツプ前ま
での視覚センサ情報を処理部5への入力としている。こ
のため入力層、中間層、及び出力層から成る3層のニュ
ーラルネットワークである処理部5の入力層は、11個
の視覚センサ素子の3時系列分合計33ユニットと、B
P法による学習をしやすくするためのスレシホールド用
の1ユニツトで構成され、中間層は10ユニツトであり
、出力層はロボットの回転角度を決定するための1ユニ
ツトであるものとする。
理)を可能にするために、第2図の処理部5、すなわち
ニューラルネットワークへの入力は視覚センサ19の現
在の出力のみでなく、過去のセンサ出力をも入力させる
ものとし、今回のシミュレーションでは2ステツプ前ま
での視覚センサ情報を処理部5への入力としている。こ
のため入力層、中間層、及び出力層から成る3層のニュ
ーラルネットワークである処理部5の入力層は、11個
の視覚センサ素子の3時系列分合計33ユニットと、B
P法による学習をしやすくするためのスレシホールド用
の1ユニツトで構成され、中間層は10ユニツトであり
、出力層はロボットの回転角度を決定するための1ユニ
ツトであるものとする。
本実施例では処理部5に過去のセンサ出力を入力パター
ンの中に含めて与えるために、システムへの外部情報は
一旦メモリSTM4に蓄えられ、入力部3には現在の外
部情報とメモリSTM4から取出された過去の情報とが
送られ、これが入力部3によって入力パターンに組立て
られて処理部5に出力される。そして処理部5の出力に
ノイズが加算されて出カバターンが得られ、その出カバ
ターンが出力部8によりロボットのモータの回転角度に
変換され、それが外部出力として出力されるが、この回
転角度には今回のシミュレーションでは左右45度のリ
ミットを設けた。
ンの中に含めて与えるために、システムへの外部情報は
一旦メモリSTM4に蓄えられ、入力部3には現在の外
部情報とメモリSTM4から取出された過去の情報とが
送られ、これが入力部3によって入力パターンに組立て
られて処理部5に出力される。そして処理部5の出力に
ノイズが加算されて出カバターンが得られ、その出カバ
ターンが出力部8によりロボットのモータの回転角度に
変換され、それが外部出力として出力されるが、この回
転角度には今回のシミュレーションでは左右45度のリ
ミットを設けた。
第3図の自己評価部12も前述のようにニューラルネッ
トワークで構成され、入力層、中間層、及び出力層から
成る3層のネットワークであるものとする。そして入力
層は現在の視覚センサ入力11個と、1ステツプ(以下
Sと略する)前の視覚センサ人力11個と、IS前のロ
ボットのモータの回転角度1個の23個の入力が入力さ
れる23ユニント、中間層は5ユニツト、出力層は評価
信号として良または否を決定するための1ユニツトであ
るものとする。
トワークで構成され、入力層、中間層、及び出力層から
成る3層のネットワークであるものとする。そして入力
層は現在の視覚センサ入力11個と、1ステツプ(以下
Sと略する)前の視覚センサ人力11個と、IS前のロ
ボットのモータの回転角度1個の23個の入力が入力さ
れる23ユニント、中間層は5ユニツト、出力層は評価
信号として良または否を決定するための1ユニツトであ
るものとする。
評価入力部15により現在の視覚センサ入力とIS前の
視覚センサ入力、及びIS前の回転角度出力とが抽出さ
れ、評価式カバターンとして自己評価部12に与えられ
る。自己評価部12はこの評価式カバターンを処理し、
評価信号を出力することにより短期記憶部14に記憶さ
れているIS前の入出カバターンを教師パターンテーブ
ル部11に記憶させるかどうかを評価出力部16に選択
させる。この場合の自己評価部12の自己評価基準につ
いては、学習時において評価教師パターンテーブル部工
3に蓄えられている評価教師パターンを用いて学習が行
われるものとする。
視覚センサ入力、及びIS前の回転角度出力とが抽出さ
れ、評価式カバターンとして自己評価部12に与えられ
る。自己評価部12はこの評価式カバターンを処理し、
評価信号を出力することにより短期記憶部14に記憶さ
れているIS前の入出カバターンを教師パターンテーブ
ル部11に記憶させるかどうかを評価出力部16に選択
させる。この場合の自己評価部12の自己評価基準につ
いては、学習時において評価教師パターンテーブル部工
3に蓄えられている評価教師パターンを用いて学習が行
われるものとする。
第8図は第2図における処理部5に対する入力パターン
と出カバターンのデータの実施例であり、また第9図は
第3図における自己評価部12における評価式カバター
ンと出カバターンとしての評価信号のデータの実施例で
ある。前述のように処理部5には、人カバターンとして
現在の視覚センサの出力AとIs前の視覚センサ出力B
1および2S前の視覚センサ出力Cとが入力パターンの
中に取入れられ、処理部5に入力される。第8図でロボ
ットのスタート時点をS(ステップ、以下同様)0とす
ると、SOにおけるデータBおよびCは全てOである。
と出カバターンのデータの実施例であり、また第9図は
第3図における自己評価部12における評価式カバター
ンと出カバターンとしての評価信号のデータの実施例で
ある。前述のように処理部5には、人カバターンとして
現在の視覚センサの出力AとIs前の視覚センサ出力B
1および2S前の視覚センサ出力Cとが入力パターンの
中に取入れられ、処理部5に入力される。第8図でロボ
ットのスタート時点をS(ステップ、以下同様)0とす
ると、SOにおけるデータBおよびCは全てOである。
SOにおける加算器7の出力、すなわちノイズ発生部6
が発生したノイズが加算された出力りは1.00となっ
ており、前述のようにこの出力によってロボットの進行
方向角度が決定される。
が発生したノイズが加算された出力りは1.00となっ
ており、前述のようにこの出力によってロボットの進行
方向角度が決定される。
データEはデータA、B、Cを含む入力パターンとそれ
に対応する出カバターン、すなわちデータDによって構
成される入出カバターンに対する第3図の自己評価部1
2の評価信号を示している。
に対応する出カバターン、すなわちデータDによって構
成される入出カバターンに対する第3図の自己評価部1
2の評価信号を示している。
この評価信号は実際には次のS、すなわちSlにおいて
自己評価部12から出力されるものであるが、SOにお
ける入出カバターンに対する評価信号であり、その値を
SOの位置に示しである。そしてこの値が1である時に
対応する入出カバターンは教師パターンテーブル部11
に格納され、学習時にこの入出カバターンの学習が行わ
れる。すなわちデータEの値が1である入力パターン(
A。
自己評価部12から出力されるものであるが、SOにお
ける入出カバターンに対する評価信号であり、その値を
SOの位置に示しである。そしてこの値が1である時に
対応する入出カバターンは教師パターンテーブル部11
に格納され、学習時にこの入出カバターンの学習が行わ
れる。すなわちデータEの値が1である入力パターン(
A。
B、 C) に対して出カバターン(D)を実現する
ような学習が行われる。
ような学習が行われる。
第8図のSlではSOにおける入力データAがデータB
となり、データAとしてはSlにおける現在の視覚セン
サ出力が与えられる。その結果処理部5からの出力にノ
イズが加算された出カバターンDは0.59となる。こ
の値は前述のようにロボットのモータの回転角度を0か
ら1の範囲で正規化したものである。またS2ではSO
におけるデータAがCに、またSlにおけるデータAが
Bになり、データAはS2における現在の視覚センサ出
力である。以下同様にしてロボットが停止条件、すなわ
ちターゲットを捕らえるか、S数が100に達するか、
あるいは壁にあたるかのいずれかを満たすまで一般に数
1.O3のデータが得られるが、第8図では簡単のため
S5までのデータを示しである。
となり、データAとしてはSlにおける現在の視覚セン
サ出力が与えられる。その結果処理部5からの出力にノ
イズが加算された出カバターンDは0.59となる。こ
の値は前述のようにロボットのモータの回転角度を0か
ら1の範囲で正規化したものである。またS2ではSO
におけるデータAがCに、またSlにおけるデータAが
Bになり、データAはS2における現在の視覚センサ出
力である。以下同様にしてロボットが停止条件、すなわ
ちターゲットを捕らえるか、S数が100に達するか、
あるいは壁にあたるかのいずれかを満たすまで一般に数
1.O3のデータが得られるが、第8図では簡単のため
S5までのデータを示しである。
第9図において自己評価部12に与えられる評価式カバ
ターンは前述のように現在の視覚センザ出力F、IS前
の視覚センサ出力G、及びIs前の処理部5の出カバタ
ーン、すなわち加算器7の出力1(から構成され、これ
に対して自己評価部12から出力される出カバターン、
すなわち評価信号はデータI、また外部からシステムに
与えられる外部評価すなわち強化信号はデータJである
。
ターンは前述のように現在の視覚センザ出力F、IS前
の視覚センサ出力G、及びIs前の処理部5の出カバタ
ーン、すなわち加算器7の出力1(から構成され、これ
に対して自己評価部12から出力される出カバターン、
すなわち評価信号はデータI、また外部からシステムに
与えられる外部評価すなわち強化信号はデータJである
。
第9図において81ではSOにおけるデータAがデータ
Gに、また、SlにおけるデータAがデータFに、また
SOにおけるデータDがデータHとなり、これらが評価
入力部15によって評価式カバターンとされ、自己評価
部12に入力される。
Gに、また、SlにおけるデータAがデータFに、また
SOにおけるデータDがデータHとなり、これらが評価
入力部15によって評価式カバターンとされ、自己評価
部12に入力される。
自己評価部12、すなわちニューラルネットワークはこ
の入力パターンに対する処理を行い、評価信号としてデ
ータI、ここでは1.00を出力する。
の入力パターンに対する処理を行い、評価信号としてデ
ータI、ここでは1.00を出力する。
この値は前述のように第8図におけるSOのデータEと
なる。。またSOにおいて出力部8から出力された外部
出力に対する外部評価がデータJとして評価教師パター
ンテーブル部13に与えられ、学習時には入力パターン
(F、G、H)に対して出カバターン(J)を実現する
ような学習が行われる。この学習は評価教師パターンテ
ーブル部13に記憶されているすべての評価教師パター
ンを対象として成されるが、入力パターン(F、G、H
)に対して正しい出カバターン(J)が出力される場合
すなわち学習済の評価教師パターンに対してはBP法に
よる学習は実行されない。S2以降のデータはSlにお
けると全(同様であるので、その説明を省略する。
なる。。またSOにおいて出力部8から出力された外部
出力に対する外部評価がデータJとして評価教師パター
ンテーブル部13に与えられ、学習時には入力パターン
(F、G、H)に対して出カバターン(J)を実現する
ような学習が行われる。この学習は評価教師パターンテ
ーブル部13に記憶されているすべての評価教師パター
ンを対象として成されるが、入力パターン(F、G、H
)に対して正しい出カバターン(J)が出力される場合
すなわち学習済の評価教師パターンに対してはBP法に
よる学習は実行されない。S2以降のデータはSlにお
けると全(同様であるので、その説明を省略する。
本実施例では例えば第5図に示したようにロボットがそ
のスタート位置からIsずつ移動し、例えば数1O3の
動作の後にターゲット18を捕らえるまでの1トライア
ルの間に、Is毎にシステムの外部出力に対する外部評
価とその評価対象である評価式カバターンとが評価教師
パターンとして評価教師パターンテーブル部13に蓄え
られ、またその評価式カバターンに対する自己評価部1
2の評価信号が良である時にIs前の入出カバターンが
教師パターンとして教師パターンテーブル部11に蓄え
られる。そして1トライアルのロボ・7トの移動終了後
、処理部5と自己評価部12の学習が行われる。
のスタート位置からIsずつ移動し、例えば数1O3の
動作の後にターゲット18を捕らえるまでの1トライア
ルの間に、Is毎にシステムの外部出力に対する外部評
価とその評価対象である評価式カバターンとが評価教師
パターンとして評価教師パターンテーブル部13に蓄え
られ、またその評価式カバターンに対する自己評価部1
2の評価信号が良である時にIs前の入出カバターンが
教師パターンとして教師パターンテーブル部11に蓄え
られる。そして1トライアルのロボ・7トの移動終了後
、処理部5と自己評価部12の学習が行われる。
この学習は前述のようにBP法を用いて行われる。BP
法では例えば入力層のユニットえからの中間層のユニッ
トjへの結合の重みW jiの重み更新量の式が次式で
与えられる。
法では例えば入力層のユニットえからの中間層のユニッ
トjへの結合の重みW jiの重み更新量の式が次式で
与えられる。
ΔW、tt (n+t) =nδjQ4+αΔW、、(
i)ここでΔWB(n)はn回目の重み更新時における
更新量を示し、1はユニットjの誤差を、また01はユ
ニット、の出力を示す。
i)ここでΔWB(n)はn回目の重み更新時における
更新量を示し、1はユニットjの誤差を、また01はユ
ニット、の出力を示す。
上式の第1項は2乗誤差E、への重みWjiの影であり
、その比例定数nは学習定数と呼ばれる。
、その比例定数nは学習定数と呼ばれる。
そしてこの係数が大きいほど1回の重み更新量は大きく
なり、学習速度を高速にするためには振動が起こらない
範囲でnはできるだけ大きく選ばれる。また第2項は重
みの振動を防ぐために重みの変化式に加えられる慣性項
であり、その糸数αは学習速度定数と呼ばれ、1回前の
重みの更新量が今回の重みの更新量に与える影響の大き
さを決めるものとなる。
なり、学習速度を高速にするためには振動が起こらない
範囲でnはできるだけ大きく選ばれる。また第2項は重
みの振動を防ぐために重みの変化式に加えられる慣性項
であり、その糸数αは学習速度定数と呼ばれ、1回前の
重みの更新量が今回の重みの更新量に与える影響の大き
さを決めるものとなる。
本実施例におけるシミュレーションでは処理部5、およ
び自己評価部12のニューラルネットワークに対する学
習定数の値を共に0.03、学習速度定数の値を共に0
.01として学習を行った。またシステムの外部出力に
対する外部評価の基準として次の2つの基準を用いた。
び自己評価部12のニューラルネットワークに対する学
習定数の値を共に0.03、学習速度定数の値を共に0
.01として学習を行った。またシステムの外部出力に
対する外部評価の基準として次の2つの基準を用いた。
第1の外部評価基準:ロボットがターゲットに接近する
と良い、それ以外は悪いとする。
と良い、それ以外は悪いとする。
第2の外部評価基準二ロボットがターゲットにある程度
近づくまではターゲットに接近すると良い。ロボットが
ターゲットにある程度近づいたらターゲットの周りを回
りながらターゲットに近づくと良い、それ以外は悪いと
する。
近づくまではターゲットに接近すると良い。ロボットが
ターゲットにある程度近づいたらターゲットの周りを回
りながらターゲットに近づくと良い、それ以外は悪いと
する。
第10図は第1の外部評価基準を用いたロボットの学習
効果の実施例である。第10図(a)はテスト時に第2
図のノイズ発生部6の発生するノイズを加算した出カバ
ターンを用いてテストしたものであり、また(b1図は
処理部5の出力にノイズを加算しないものをそのまま出
カバターンとしたものである。なお実行時には当然ノイ
ズ発生部6の発生するノイズが常に加算されている。
効果の実施例である。第10図(a)はテスト時に第2
図のノイズ発生部6の発生するノイズを加算した出カバ
ターンを用いてテストしたものであり、また(b1図は
処理部5の出力にノイズを加算しないものをそのまま出
カバターンとしたものである。なお実行時には当然ノイ
ズ発生部6の発生するノイズが常に加算されている。
第10図には未学習状態、および10.30.50.7
0.100,500.1000回のトライアルが終了し
た後のテストの結果がそれぞれ示されているが、50ト
ライアル目ではロボットはほぼ確実にターゲットに接近
するようになっており、またネットワークの出力にノイ
ズをかけたテストでもターゲットに接近するようになっ
ている。
0.100,500.1000回のトライアルが終了し
た後のテストの結果がそれぞれ示されているが、50ト
ライアル目ではロボットはほぼ確実にターゲットに接近
するようになっており、またネットワークの出力にノイ
ズをかけたテストでもターゲットに接近するようになっ
ている。
第2の外部評価基準を用いた第11図の実施例でもロボ
ットはターゲットに接近していくが、特にfa1図のノ
イズをかけた場合には、一般に初めはターゲットに接近
していくが、ターゲットに近づいたところでかえってタ
ーゲットから遠ざかるような行動をとっている例が見ら
れる。
ットはターゲットに接近していくが、特にfa1図のノ
イズをかけた場合には、一般に初めはターゲットに接近
していくが、ターゲットに近づいたところでかえってタ
ーゲットから遠ざかるような行動をとっている例が見ら
れる。
以上の実施例では、処理部5および自己評価部12の学
習をロボットの1トライアルの行動終了後に行うものと
したが、これを1ステツプ毎に行うことも当然可能であ
る。またシステムの外部からの外部評価の評価教師パタ
ーンテーブル部13への入力タイミングも、実際のアプ
リケージジンに応じて適宜変更することが可能である。
習をロボットの1トライアルの行動終了後に行うものと
したが、これを1ステツプ毎に行うことも当然可能であ
る。またシステムの外部からの外部評価の評価教師パタ
ーンテーブル部13への入力タイミングも、実際のアプ
リケージジンに応じて適宜変更することが可能である。
以上詳細に説明したように、本発明によれば学習システ
ムは外部からの簡単な評価(強化信号)を用いて外部評
価の評価基準を学習し、それを自システムの自己評価基
準として用いることが可能となる。また学習システムが
自己評価基準に従った教師パターンを作成し、それを用
いて自システムに入力される外部情報の処理自体の学習
も行うことができる。従って外部から学習システムの自
己評価基準の置き換えを行う必要はなく、学習システム
の振る舞いだけを監視して外部から強化信号による評価
を与えるだけでよいことになる。このため学習システム
を様々な分野で応用する場合に応用分野毎に自己評価基
準を取り換える必要がなくなり、柔軟性に富んだ学習シ
ステムの構築に寄与するところが大きい。
ムは外部からの簡単な評価(強化信号)を用いて外部評
価の評価基準を学習し、それを自システムの自己評価基
準として用いることが可能となる。また学習システムが
自己評価基準に従った教師パターンを作成し、それを用
いて自システムに入力される外部情報の処理自体の学習
も行うことができる。従って外部から学習システムの自
己評価基準の置き換えを行う必要はなく、学習システム
の振る舞いだけを監視して外部から強化信号による評価
を与えるだけでよいことになる。このため学習システム
を様々な分野で応用する場合に応用分野毎に自己評価基
準を取り換える必要がなくなり、柔軟性に富んだ学習シ
ステムの構築に寄与するところが大きい。
第1図は本発明の原理ブロック図、
第2図は学習システムの実施例の全体構成を示すブロッ
ク図、 第3図は評価部の実施例の構成を示すブロック図、 第4図は本発明の学習報労式を用いたロボットの制御の
実施例を示す図、 第5図はロボットのスタート位置からターゲットまでの
移動軌跡の実施例を示す図、 第6図は本発明の学習方式の全体処理実施例のフローチ
ャート、 第7図は評価部の処理実施例のフローチャート、第8図
は処理部における入力パターンと出カバターンのデータ
の実施例を示す図、 第9図は自己評価部における入力パターンと出カバター
ンのデータの実施例を示す図、第10図(al、 (b
lは第1の外部評価基準を用いたロボットの学習効果の
実施例の説明図、第11図(al、 (b)は第2の外
部評価基準を用いたロボットの学習効果の実施例の説明
図である。 5・・・処理部、 9・・・入出カバターン対応部、 10・・・評価部、 11・・・教師パターンテーブル部、 12・・・自己評価部、
ク図、 第3図は評価部の実施例の構成を示すブロック図、 第4図は本発明の学習報労式を用いたロボットの制御の
実施例を示す図、 第5図はロボットのスタート位置からターゲットまでの
移動軌跡の実施例を示す図、 第6図は本発明の学習方式の全体処理実施例のフローチ
ャート、 第7図は評価部の処理実施例のフローチャート、第8図
は処理部における入力パターンと出カバターンのデータ
の実施例を示す図、 第9図は自己評価部における入力パターンと出カバター
ンのデータの実施例を示す図、第10図(al、 (b
lは第1の外部評価基準を用いたロボットの学習効果の
実施例の説明図、第11図(al、 (b)は第2の外
部評価基準を用いたロボットの学習効果の実施例の説明
図である。 5・・・処理部、 9・・・入出カバターン対応部、 10・・・評価部、 11・・・教師パターンテーブル部、 12・・・自己評価部、
Claims (1)
- 【特許請求の範囲】 1)自己評価基準を持ち、該自己評価基準に従って外部
からの入力情報と該入力情報に対する自システムの処理
結果の外部への出力との対応を評価する機能を有するシ
ステムにおいて、 該外部出力に対する外部からの評価を前記自己評価基準
に取込むために外部評価の評価基準を学習する自己学習
方式であって、 前記システムの実行時に、ある一時点の入力情報と該入
力情報に対する自システムの出力結果に対しての該一時
点の次の時点の入力情報とを含む評価入力パターンを評
価対象情報として、該評価入力パターンを前記自己評価
基準に従って評価し、該評価結果を評価信号として出力
する自己評価手段(1)と、 前記外部出力に対する外部評価を受け取り、該外部評価
を前記評価入力パターンと対応させて、前記自己評価手
段(1)に外部評価の評価基準を学習させるための評価
教師パターンとして記憶する評価教師パターン記憶手段
(2)とを備えたことを特徴とする外部評価基準の学習
方式。 2)前記システムの学習時に、該評価教師パターン記憶
手段(2)に記憶された評価教師パターンを前記自己評
価手段(1)が学習することを特徴とする請求項1記載
の外部評価基準の学習方式。 3)前記自システムの出力結果が入力情報の処理結果に
対してノイズを加算したものであることを特徴とする請
求項1記載の外部評価基準の学習方式。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1328401A JPH03189856A (ja) | 1989-12-20 | 1989-12-20 | 外部評価基準の学習方式 |
| DE69025576T DE69025576T2 (de) | 1989-12-20 | 1990-12-20 | System zum Lernen eines externen Auswertungsstandards |
| EP90314012A EP0434423B1 (en) | 1989-12-20 | 1990-12-20 | A system for learning an external evaluation standard |
| US07/961,055 US5420964A (en) | 1989-12-20 | 1992-10-14 | System, for learning an external evaluation standard |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1328401A JPH03189856A (ja) | 1989-12-20 | 1989-12-20 | 外部評価基準の学習方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03189856A true JPH03189856A (ja) | 1991-08-19 |
Family
ID=18209844
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1328401A Pending JPH03189856A (ja) | 1989-12-20 | 1989-12-20 | 外部評価基準の学習方式 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5420964A (ja) |
| EP (1) | EP0434423B1 (ja) |
| JP (1) | JPH03189856A (ja) |
| DE (1) | DE69025576T2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018018226A (ja) * | 2016-07-26 | 2018-02-01 | 富士通株式会社 | 制御方法、制御プログラム及び情報処理装置 |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5673367A (en) * | 1992-10-01 | 1997-09-30 | Buckley; Theresa M. | Method for neural network control of motion using real-time environmental feedback |
| US6000827A (en) * | 1993-09-10 | 1999-12-14 | Fujitsu Limited | System identifying device and adaptive learning control device |
| JP3633642B2 (ja) * | 1994-02-28 | 2005-03-30 | 富士通株式会社 | 情報の処理装置 |
| US5761387A (en) * | 1994-09-12 | 1998-06-02 | Fuji Xerox Co., Ltd. | System controller |
| US5802506A (en) * | 1995-05-26 | 1998-09-01 | Hutchison; William | Adaptive autonomous agent with verbal learning |
| EP0935202A1 (en) * | 1998-01-19 | 1999-08-11 | Sony France S.A. | Hardware or software architecture implementing self-biased conditioning |
| US7577631B2 (en) * | 2001-09-10 | 2009-08-18 | Feldhake Michael J | Cognitive image filtering |
| US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
| US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
| CN106205244A (zh) * | 2016-07-04 | 2016-12-07 | 杭州医学院 | 基于信息融合与机器学习的智能计算机辅助教学系统 |
| US20200143261A1 (en) * | 2018-11-02 | 2020-05-07 | Unchained Logic, LLC | Systems and methods for processing content using a pattern language |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4884216A (en) * | 1987-11-09 | 1989-11-28 | Michael Kuperstein | Neural network system for adaptive sensory-motor coordination of multijoint robots for single postures |
| US4933871A (en) * | 1988-12-21 | 1990-06-12 | Desieno Duane | Graded learning device and method |
-
1989
- 1989-12-20 JP JP1328401A patent/JPH03189856A/ja active Pending
-
1990
- 1990-12-20 EP EP90314012A patent/EP0434423B1/en not_active Expired - Lifetime
- 1990-12-20 DE DE69025576T patent/DE69025576T2/de not_active Expired - Fee Related
-
1992
- 1992-10-14 US US07/961,055 patent/US5420964A/en not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018018226A (ja) * | 2016-07-26 | 2018-02-01 | 富士通株式会社 | 制御方法、制御プログラム及び情報処理装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US5420964A (en) | 1995-05-30 |
| EP0434423A2 (en) | 1991-06-26 |
| DE69025576D1 (de) | 1996-04-04 |
| DE69025576T2 (de) | 1996-07-11 |
| EP0434423B1 (en) | 1996-02-28 |
| EP0434423A3 (en) | 1993-02-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109765820B (zh) | 一种用于自动驾驶控制策略的训练系统 | |
| Yoo et al. | Adaptive dynamic surface control of flexible-joint robots using self-recurrent wavelet neural networks | |
| Abdollahi et al. | A stable neural network-based observer with application to flexible-joint manipulators | |
| Yang et al. | A combined backstepping and small-gain approach to robust adaptive fuzzy control for strict-feedback nonlinear systems | |
| Schaal et al. | Scalable techniques from nonparametric statistics for real time robot learning | |
| Schaal et al. | Real-time robot learning with locally weighted statistical learning | |
| JPH03189856A (ja) | 外部評価基準の学習方式 | |
| Gaskett | Q-learning for robot control | |
| CN110516389B (zh) | 行为控制策略的学习方法、装置、设备及存储介质 | |
| Ma et al. | Reward shaping for reinforcement learning with an assistant reward agent | |
| Hafez et al. | Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space | |
| Khan et al. | A Methodology for Developing Adaptive Fuzzy Cognitive Maps for Decision Support. | |
| Franchi et al. | A comparison between two bio-inspired adaptive models of Vestibulo-Ocular Reflex (VOR) implemented on the iCub robot | |
| Kawaharazuka et al. | Dynamic task control method of a flexible manipulator using a deep recurrent neural network | |
| Billard et al. | Robust learning of arm trajectories through human demonstration | |
| CN115319741B (zh) | 机器人控制模型的训练方法和机器人控制方法 | |
| Xiao et al. | A reinforcement learning approach for robot control in an unknown environment | |
| JPH0460752A (ja) | ニューラルネットワークの学習装置 | |
| Talebi et al. | A neural-network based observer for flexible-joint manipulators | |
| Zhou et al. | Incorporating perception-based information in reinforcement learning using computing with words | |
| Hassanein et al. | Auto-generating fuzzy system modelling of physical systems | |
| Kuan et al. | Compensation of unstructured uncertainty in manipulators using neural networks | |
| CN120715911B (zh) | 基于样本学习的机械指令控制方法及系统 | |
| JP2966076B2 (ja) | 学習装置の自己学習方法 | |
| Uc-Cetina | Supervised reinforcement learning using behavior models |