JPH03189856A

JPH03189856A - 外部評価基準の学習方式

Info

Publication number: JPH03189856A
Application number: JP1328401A
Authority: JP
Inventors: Tamami Sugasaka; 菅坂　玉美; Kazushige Saga; 一繁佐賀; Minoru Sekiguchi; 実関口; Shigemi Osada; 茂美長田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-12-20
Filing date: 1989-12-20
Publication date: 1991-08-19
Also published as: US5420964A; EP0434423A2; DE69025576D1; DE69025576T2; EP0434423B1; EP0434423A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　　　要〕自己評価基準に従って、外部からの入力情報とその入力
情報に対する自システムの処理結果の外部への出力との
対応を評価する機能を有するシステムにおいて、外部出
力に対する外部からの評価を自己評価基準に取り込むた
めに、外部評価の評価基準を学習する外部評価基準の学
習方式に関し、自己評価基準を持って教師パターンを作
成することのできる学習システムにおいて、システムの
外部への出力に対する評価を自己評価基準として学習す
ることを目的とし、自己評価基準を持ち、該自己評価基準に従って外部から
の入力情報と該入力情報に対する自システムの処理結果
の外部への出力との対応を評価する機能を有するシステ
ムにおいて、該外部出力に対する外部からの評価を前記
自己評価基準に取込むために外部評価の評価基準を学習
する自己学習方式であって、前記システムの実行時に、
ある一時点の入力情報と該入力情報に対する自システム
の出力結果に対しての該一時点の次の時点の入力情報と
を含む評価入力パターンを評価対象情報として、該評価
入力パターンを前記自己評価基準に従って評価し、該評
価結果を評価信号として出力する自己評価手段と、前記
外部出力に対する外部評価を受け取り、該外部評価を前
記評価入力パターンと対応させて、前記自己評価手段に
外部評価の評価基準を学習させるための評価教師パター
ンとして記憶する評価教師パターン記憶手段とを備える
ように構成する。

〔産業上の利用分野〕

本発明は例えばニューラルネットワーク等の学習システ
ムの学習方式に係り、さらに詳しくは自己評価基準に従
って、外部からの入力情報とその入力情報に対する自シ
ステムの処理結果の外部への出力との対応を評価する機
能を有するシステムにおいて、外部出力に対する外部か
らの評価を自己評価基準に取り込むために、外部評価の
評価基準を学習する外部評価基準の学習方式に関する。

近年ニューラルネットワーク等の学習システムがアルフ
ァベットフォント認識や、画像認識等のパターン認識、
適応フィルター、ロボット等の各種制御に応用されるよ
うになっている。しかしながら、教師データを必要とす
る学習方式では、人間の手で教師データを作成するのが
困難、または不可能な場合があるために、自動的に外部
環境に適応する学習方式が望まれるようになっている。

〔従来の技術及び発明が解決しようとする課題〕教師パ
ターンを学習することのできる学習システムとしてのニ
ューラルネットワークは広範な分野で応用されている。

バーセプトロン型の階層ニューラルネットワークは例え
ば入力層、中間層および出力層の３つの層から成り、入
力層に対する入力パターンに対して、出力層から出力パ
タ−−ンを出力する。ニューラルネットワークがある入
力パターンに対して正しい出カバターンを出力できるよ
うにするために、教師パターンを用いてニューラルネッ
トワークの学習が行われる。すなわちある入力パターン
に対して正しい出カバターンが提示され、正しい出カバ
ターンを出力することができるように、例えばパックプ
ロパゲーション法によってニューラルネットワーク内の
重みの決定がなされる。このように従来はニューラルネ
ットワークでは人間があらかじめ用意した教師パターン
によって学習が行われていた。

しかしながら、実際のアプリケーションの場合には時系
列を扱ったパターン、教師パターン自体が変化するパタ
ーン、予測不能な状態に対するパターンなどがあるため
、教師パターンとして用意するパターンの種類や量の決
定が難しく、教師パターンを作成するのに非常に時間が
かかるという問題点があった。従って実際のアプリケー
ションで実用的な学習システムを作成するためには、学
習システム自身が入力パターンと出カバターンとの対応
をつけ、自システム内に保持している自己評価基準に従
って対応づけられた入力パターンを評価し、正しい入出
カバターンを教師パターンとして学習するようなアルゴ
リズムが必要となる。

さらに、上述のように自己評価基準に従って教師パター
ンを作成できるシステムにおいても、自システムのシス
テムに対する外部からの評価を受け取るインタフェース
を持たない方式では、自己評価基準をあらかじめ一定の
ものとしてシステムに取りつけることになる。このため
システムを様々な分野で応用する場合には応用分野毎に
自己評価基準を取替えなければならず、柔軟性に欠ける
という問題点もある。このため外部評価に対するインタ
フェースを持ち、外部評価の評価基準を自己学習するシ
ステムが求められている。

本発明は、自己評価基準を持って教師パターンを作成す
ることのできる学習システムにおいて、システムの外部
への出力に対する評価を自己評価基準として学習するこ
とを目的とする。

〔課題を解決するための手段〕

第１図は本発明の原理ブロック図である。同図は自己評
価基準に従って外部からの入力情報とその人力情報に対
する自システム、例えばニューラルネットワークの処理
結果の外部への出力との対応を評価する機能を有する学
習システムにおいて、その外部出力に対する外部からの
評価を自己評価基準に取り込むために、外部評価の評価
基準を学習する自己学習方式の原理ブロック図である。

第１図において自己評価手段１はシステムの実行時にお
いである一時点の入力情報、例えばニューラルネットワ
ークへの入力パターンと、その入力情報に対するシステ
ムの出力結果、すなわち出カバターンに対して外部から
入力される次の時点の入力情報とを含む評価入力パター
ンを評価対象情報として自己評価基準に従って評価し、
その評価結果、すなわち良または否を評価信号として出
力する。

また評価教師パターン記憶手段２は前述の外部への出力
に対する外部評価を受け取って、その外部評価を評価入
力パターンと対応させ、自己評価手段ｌに外部評価の評
価基準を学習させるための評価教師パターンとして記憶
する。

〔作　　　用〕

第１図においてシステムの実行時に評価教師パターン記
憶手段２に記憶された評価教師パターン、すなわち評価
入力パターンとそれに対応する外部評価が、学習時にお
いて自己評価手段１、例えばニューラルネットワークに
与えられ、自己評価手段１はその評価教師パターンを学
習する。これによってシステムの出力に対する外部評価
が自己評価手段】の自己評価基準として取り込まれる。

本発明が対象とするシステムは自己評価基準に従って外
部からの入力情報、例えば入力パターンと、その人カバ
ターンに対する自システムの処理部、例えばニューラル
ネットワークの処理結果の外部への出力との対応を評価
する機能を持つものであり、その評価は自己評価手段１
によって行われる。

自己評価手段１が評価する評価人カバターンはある時点
、例えば時刻ｔにおけるシステムへの入力パターンとそ
の次の時点、すなわち時刻ｔ＋１におけるシステムへの
入力パターンとを含む評価入力パターンを用いて行われ
るが、実際に評価されるものは時刻ｔにおける入力パタ
ーンとシステムの処理部、例えばニューラルネットワー
クの出力する出カバターンとの対応であり、この時刻ｔ
における入出カバターンがシステム内に一時記憶され、
時刻ｊ＋ｌにおいて自己評価手段１が出力する評価信号
が良である場合に、その入出カバターンが例えばシステ
ムの処理部に対する教師パターンテーブルに蓄えれ、シ
ステムの学習時においてこの教師パターンテーブルに蓄
えれた教師パターンを用いてシステムの処理部、例えば
ニューラルネットワークの学習が行われる。

時刻ｔにおける入出カバターンに対する時刻ｔ＋１にお
ける自己評価手段１の評価信号が否であるときには、そ
の入出カバターンは教師パターンテーブルには格納され
ず、システムの処理部の学習は自己評価手段１が出力す
る評価信号が良である入出カバターンに対してのみ行わ
れることになる。

以上のように、本発明によれば評価入力パターンに対す
るシステムの外部からの評価が評価教師パターンとして
自己評価手段１によって学習されることになる。

〔実　　施　　例〕

第２図は本発明における学習システムの実施例の全体構
成ブロック図である。同図において、システムは外部情
報が入力される人力部３、必要に応じて過去の外部情報
を記憶するためのメモリ（ＳＴＭ）４、入力部３によっ
て作成された入力パターンを処理する処理部、例えばニ
ューラルネットワーク５、処理部５の出力に加算される
ノイズを発生するノイズ発生部６、加算器７、加算器７
の出力を外部出力に変換する出力部８、入力部３の出力
する入力パターンとそれに対する加算器７の出力すなわ
ち出カバターンとを対応づけ、その対応関係を入出カバ
ターンとして出力する入出カバターン対応部９、入出カ
バターン対応部９のの出力する入出カバターンとシステ
ムの外部から与えられる外部評価、すなわち強化信号等
を用いて入出カバターン対応部９の出力する入出カバタ
ーンの良、否を判別し、判別結果が良である人出カバタ
ーンを出力する評価部１０、および評価部１０から出力
される評価が良である入出カバターンを記憶し、処理部
５の学習時にその入出カバターンを教師パターンとして
出力する教師パターンテーブル部１１から成っている。

第２図において、ノイズ発生部６の出力するノイズは処
理部５に対する教師パターンを積極的に発見する目的で
処理部５の出力に加算される。すなわち処理部５、例え
ばニューラルネットワークはある入力パターンに対して
は常に同じ出カバターンを出力する。そこである入力パ
ターンに対してどのような出カバターンを得るのが正し
いか、すなわち正しい教師パターンを得るために、処理
部５の出力に対してノイズを加算してその出カバターン
に対する外部出力をシステムの外部へ出力することによ
って、システムを揺らして行動し、その行動に対する外
部情報の変化が前述の自己評価基準に従って評価される
ために、正しい出カバターン、すなわち教師パターンを
探すことが容易となる。

第３図は第２図における評価部１０の実施例の構成ブロ
ック図である。同図において評価部は第１図の自己評価
手段１に対応する自己評価部Ｉ２、評価教師パターン記
憶手段２に対応する評価教師パターンテーブル部１３、
入出カバターンを一時記憶する短期記憶部１４、入出カ
バターンと短期記憶部１４の出力する過去の入出カバタ
ーンとを用いて、現在の入力パターンと過去の入力パタ
ーンとを含む評価部カバターンを作成する評価入力部１
５、自己評価部１２の出力する評価信号の良、否に従っ
て、評価信号が良である時に過去の入出カバターンを第
２図の教師パターンテーブル部１１に出力する評価出力
部１６から成る。

第２図においてシステムの実行時に、システムに入力さ
れた外部情報から作成された入力パターンに対して処理
部５、例えばニューラルネットワクの処理が行われ、ノ
イズ発往部６の発生するノイズが加算された出カバター
ンが出力部８によって外部出力に変換されて、システム
外部へ出力される。それと同時に、システム内部では入
力パターンと加算器７の出力する出カバターンとが入出
カバターン対応部９によって入出カバターンとして評価
部１０に出力される。以上の動作が時刻ｔにおいて行わ
れたものとすると、外部出力によって外部の環境が変わ
り、時刻ｔ＋１においては新しい外部情報が入力部３に
与えられる。この外部情報を用いて、時刻ｔ＋１におい
て、時刻りにおけると同様に入出カバターンが入出カバ
ターン対応部９から評価部１０に与えられる。

一方第３図においては時刻ｔにおける入出カバターンは
短期記憶部１４に一時記憶される。そして時刻ｔ＋１に
おける入出カバターンと短期記憶部１４の出力、すなわ
ち時刻ｔにおける入出カバターンとが評価入力部１５に
入力され、評価入力部１５から時刻ｔにおける入力パタ
ーンと時刻ｔ＋１における入力パターンとを含む評価部
カバターンが自己評価部１２と評価教師パターンテーブ
ル部１３に与えられる。

自己評価部１２は入力された評価部カバターンを自己評
価基準に従って評価し、良または否を示す評価信号を評
価出力部１６に出力する。評価出力部１６はこの評価信
号が良である時に、時刻ｔにおける入出カバターン、す
なわち過去の入出カバターンを第２図の教師パターンテ
ーブル部１１に出力する。また評価教師パターンテーブ
ル部１３は時刻ｔ＋１においてシステムの外部から与え
られる外部評価、すなわち強化信号と評価部カバターン
との対応を評価教師パターンとして記憶する。

システムの学習時には、第２図では教師パターンテーブ
ル部１１に格納されている教師パターンを用いて処理部
５、例えばニューラルネットワークの学習が行われ、ま
た第３図では評価教師パターンテーブル部１３に記憶さ
れている評価教師パターンを用いて自己評価部１２の学
習が行われる。

第４図は本発明の学習方式を用いたロボットの制御の実
施例である。同図においてロボット１７はターゲット１
８に近づいてそれを捕らえるという捕獲行動を行うもの
とする。ロボット１７は視覚センサ１９を持ち、このセ
ンサの出力を第２図の入力部３に外部情報として与え、
処理部５の出力にノイズ発生部６が発生するノイズが加
算された出カバターンが出力部８によってロボットのモ
ータの回転角度に変換され、その回転角度に応じてロボ
ットの進行方向角度２０が決定され、ロボットＩ７はそ
の角度方向に一歩移動するものとし、これを１ステツプ
と呼ぶことにする。

第５図はロボットの移動軌跡の実施例である。

同図はロボットが１ステツプずつターゲット１８に向か
ってそのスタート位置から移動した移動軌跡を示してい
る。本実施例ではロボットがターゲットを捕らえるまで
を１トライアルとし、ロボットがターゲットを捕らえる
までの移動ステップ数が１００ステツプを越えるか、移
動中に壁にあたった場合にはそのトライアルが失敗に終
わるものとして後述するシミュレーションが行われ、そ
の結果第５図のような移動軌跡が得られる。

第６図は本発明の学習方式におけるシステム全体の処理
の実施例のフローチャートである。同図において処理が
スタートすると、まず３２１で入力部３によって外部情
報が入力パターンに変換され、Ｓ２２でその入力パター
ンが入出カバターン対応部９に送られ、Ｓ２３で入力パ
ターンに対する処理部５、例えばニューラルネットワー
クによる処理が行われる。ここで処理部５は例えば３層
のニューラルネットワークで構成されている。

処理部５の出力に対して、Ｓ２４でノイズ発生部６がノ
イズを発生し、Ｓ２５でそのノイズが加算器７によって
加算される。そしてノイズが加算された出カバターンが
３２６で入出カバターン対応部９に送られ、Ｓ２２で送
られた入力パターンと対応づけられ、Ｓ２７で人出カバ
ターン対応部９から入出カバターンとして出力される。

この入出カバターンはＳ２８で評価部１０によって自己
評価基準に従って評価され、その評価結果が良である時
に３２９でその入出カバターンが教師バタンテーブル部
１１に送られる。

加算器７の出力する出カバターンは５３０において出力
部８により外部出力に変換され、システムの外部に出力
される。その外部出力によって３３１で外部の環境が変
化し、例えばロボットの制御の場合には視覚センサ１９
の出力が変化する。

そして３３２で行動停止条件、すなわち前述のロボット
の場合にはターゲットを捕らえるが、移動ステツプ数が
１００を越えるか、ロボットが壁にあたるという条件を
満たしているか否かが判定され、満たしていない場合に
はＳ２１からの処理が繰返される。

Ｓ３２で行動停止条件が満たされている場合には、Ｓ３
３で教師パターンテーブル部１１に蓄えられている教師
パターンを用いてバックプロパゲーション法（以下ＢＰ
法と略する）によって処理部５の学習が、またＳ３４で
評価教師パターンテーブル部１３に蓄えられている評価
教師パターンを用いてＢＰ法により自己評価部１２の学
習が行われ、処理を終了する。

第７図は評価部１０の処理実施例のフローチャートであ
る。同図において処理が開始されると、まずＳ３５で入
出カバターン対応部９から入出カバターンが送られ、そ
の入出カバターンが３３６で短期記憶部１４に記憶され
る。そしてＳ３７で現在のステップがロボットの移動の
第１ステップすなわち初ステップ目であるか否かが判定
され、初ステップ目の場合には前述の評価式カバターン
が得られないために処理を終了する。

Ｓ３７で初ステップ目でない場合には、３３８で評価入
力部１５によって評価式カバターンが作成され、その評
価式カバターンに対してＳ３９で自己評価部１２により
評価が行われ、その結果の評価信号が３４０で評価出力
部１６に出力される。

またＳ４１で評価式カバターンは評価教師パターンテー
ブル部１３に送られる。一方システムの外部から与えら
れる外部評価、すなわち強化信号が３４２で評価教師パ
ターンテーブル部１３に与えられ、Ｓ４３でその外部評
価が評価式カバターンと対応づけられて評価教師パター
ンテーブル部１３に記憶されて、処理が終了する。

以下、前述のロボットのターゲットの捕獲行動に対する
本発明の学習方式のシミュレーションについてさらに詳
細に説明する。第４図においてロボットＩ７の視覚セン
サ１９には複数のセンサ素子が横１列に並んでおり、タ
ーゲット１８を捕らえた部分が反応し、反応した素子の
出力は１となり、反応しない素子の出力は０となる。今
回のシミュレーションでは視覚センサ１９は１１個の素
子から成り、視覚センサ１９の視野は左右４５度であり
、１個の素子の視野は約８度である。

本実施例では過去の情報の流れを含んだ処理（時系列処
理）を可能にするために、第２図の処理部５、すなわち
ニューラルネットワークへの入力は視覚センサ１９の現
在の出力のみでなく、過去のセンサ出力をも入力させる
ものとし、今回のシミュレーションでは２ステツプ前ま
での視覚センサ情報を処理部５への入力としている。こ
のため入力層、中間層、及び出力層から成る３層のニュ
ーラルネットワークである処理部５の入力層は、１１個
の視覚センサ素子の３時系列分合計３３ユニットと、Ｂ
Ｐ法による学習をしやすくするためのスレシホールド用
の１ユニツトで構成され、中間層は１０ユニツトであり
、出力層はロボットの回転角度を決定するための１ユニ
ツトであるものとする。

本実施例では処理部５に過去のセンサ出力を入力パター
ンの中に含めて与えるために、システムへの外部情報は
一旦メモリＳＴＭ４に蓄えられ、入力部３には現在の外
部情報とメモリＳＴＭ４から取出された過去の情報とが
送られ、これが入力部３によって入力パターンに組立て
られて処理部５に出力される。そして処理部５の出力に
ノイズが加算されて出カバターンが得られ、その出カバ
ターンが出力部８によりロボットのモータの回転角度に
変換され、それが外部出力として出力されるが、この回
転角度には今回のシミュレーションでは左右４５度のリ
ミットを設けた。

第３図の自己評価部１２も前述のようにニューラルネッ
トワークで構成され、入力層、中間層、及び出力層から
成る３層のネットワークであるものとする。そして入力
層は現在の視覚センサ入力１１個と、１ステツプ（以下
Ｓと略する）前の視覚センサ人力１１個と、ＩＳ前のロ
ボットのモータの回転角度１個の２３個の入力が入力さ
れる２３ユニント、中間層は５ユニツト、出力層は評価
信号として良または否を決定するための１ユニツトであ
るものとする。

評価入力部１５により現在の視覚センサ入力とＩＳ前の
視覚センサ入力、及びＩＳ前の回転角度出力とが抽出さ
れ、評価式カバターンとして自己評価部１２に与えられ
る。自己評価部１２はこの評価式カバターンを処理し、
評価信号を出力することにより短期記憶部１４に記憶さ
れているＩＳ前の入出カバターンを教師パターンテーブ
ル部１１に記憶させるかどうかを評価出力部１６に選択
させる。この場合の自己評価部１２の自己評価基準につ
いては、学習時において評価教師パターンテーブル部工
３に蓄えられている評価教師パターンを用いて学習が行
われるものとする。

第８図は第２図における処理部５に対する入力パターン
と出カバターンのデータの実施例であり、また第９図は
第３図における自己評価部１２における評価式カバター
ンと出カバターンとしての評価信号のデータの実施例で
ある。前述のように処理部５には、人カバターンとして
現在の視覚センサの出力ＡとＩｓ前の視覚センサ出力Ｂ
１および２Ｓ前の視覚センサ出力Ｃとが入力パターンの
中に取入れられ、処理部５に入力される。第８図でロボ
ットのスタート時点をＳ（ステップ、以下同様）０とす
ると、ＳＯにおけるデータＢおよびＣは全てＯである。

ＳＯにおける加算器７の出力、すなわちノイズ発生部６
が発生したノイズが加算された出力りは１．００となっ
ており、前述のようにこの出力によってロボットの進行
方向角度が決定される。

データＥはデータＡ、Ｂ、Ｃを含む入力パターンとそれ
に対応する出カバターン、すなわちデータＤによって構
成される入出カバターンに対する第３図の自己評価部１
２の評価信号を示している。

この評価信号は実際には次のＳ、すなわちＳｌにおいて
自己評価部１２から出力されるものであるが、ＳＯにお
ける入出カバターンに対する評価信号であり、その値を
ＳＯの位置に示しである。そしてこの値が１である時に
対応する入出カバターンは教師パターンテーブル部１１
に格納され、学習時にこの入出カバターンの学習が行わ
れる。すなわちデータＥの値が１である入力パターン（
Ａ。

Ｂ、　　Ｃ）　に対して出カバターン（Ｄ）を実現する
ような学習が行われる。

第８図のＳｌではＳＯにおける入力データＡがデータＢ
となり、データＡとしてはＳｌにおける現在の視覚セン
サ出力が与えられる。その結果処理部５からの出力にノ
イズが加算された出カバターンＤは０．５９となる。こ
の値は前述のようにロボットのモータの回転角度を０か
ら１の範囲で正規化したものである。またＳ２ではＳＯ
におけるデータＡがＣに、またＳｌにおけるデータＡが
Ｂになり、データＡはＳ２における現在の視覚センサ出
力である。以下同様にしてロボットが停止条件、すなわ
ちターゲットを捕らえるか、Ｓ数が１００に達するか、
あるいは壁にあたるかのいずれかを満たすまで一般に数
１．Ｏ３のデータが得られるが、第８図では簡単のため
Ｓ５までのデータを示しである。

第９図において自己評価部１２に与えられる評価式カバ
ターンは前述のように現在の視覚センザ出力Ｆ、ＩＳ前
の視覚センサ出力Ｇ、及びＩｓ前の処理部５の出カバタ
ーン、すなわち加算器７の出力１（から構成され、これ
に対して自己評価部１２から出力される出カバターン、
すなわち評価信号はデータＩ、また外部からシステムに
与えられる外部評価すなわち強化信号はデータＪである
。

第９図において８１ではＳＯにおけるデータＡがデータ
Ｇに、また、ＳｌにおけるデータＡがデータＦに、また
ＳＯにおけるデータＤがデータＨとなり、これらが評価
入力部１５によって評価式カバターンとされ、自己評価
部１２に入力される。

自己評価部１２、すなわちニューラルネットワークはこ
の入力パターンに対する処理を行い、評価信号としてデ
ータＩ、ここでは１．００を出力する。

この値は前述のように第８図におけるＳＯのデータＥと
なる。。またＳＯにおいて出力部８から出力された外部
出力に対する外部評価がデータＪとして評価教師パター
ンテーブル部１３に与えられ、学習時には入力パターン
（Ｆ、Ｇ、Ｈ）に対して出カバターン（Ｊ）を実現する
ような学習が行われる。この学習は評価教師パターンテ
ーブル部１３に記憶されているすべての評価教師パター
ンを対象として成されるが、入力パターン（Ｆ、Ｇ、Ｈ
）に対して正しい出カバターン（Ｊ）が出力される場合
すなわち学習済の評価教師パターンに対してはＢＰ法に
よる学習は実行されない。Ｓ２以降のデータはＳｌにお
けると全（同様であるので、その説明を省略する。

本実施例では例えば第５図に示したようにロボットがそ
のスタート位置からＩｓずつ移動し、例えば数１Ｏ３の
動作の後にターゲット１８を捕らえるまでの１トライア
ルの間に、Ｉｓ毎にシステムの外部出力に対する外部評
価とその評価対象である評価式カバターンとが評価教師
パターンとして評価教師パターンテーブル部１３に蓄え
られ、またその評価式カバターンに対する自己評価部１
２の評価信号が良である時にＩｓ前の入出カバターンが
教師パターンとして教師パターンテーブル部１１に蓄え
られる。そして１トライアルのロボ・７トの移動終了後
、処理部５と自己評価部１２の学習が行われる。

この学習は前述のようにＢＰ法を用いて行われる。ＢＰ
法では例えば入力層のユニットえからの中間層のユニッ
トｊへの結合の重みＷ　ｊｉの重み更新量の式が次式で
与えられる。

ΔＷ、ｔｔ　（ｎ＋ｔ）　＝ｎδｊＱ４＋αΔＷ、、（
ｉ）ここでΔＷＢ（ｎ）はｎ回目の重み更新時における
更新量を示し、１はユニットｊの誤差を、また０１はユ
ニット、の出力を示す。

上式の第１項は２乗誤差Ｅ、への重みＷｊｉの影であり
、その比例定数ｎは学習定数と呼ばれる。

そしてこの係数が大きいほど１回の重み更新量は大きく
なり、学習速度を高速にするためには振動が起こらない
範囲でｎはできるだけ大きく選ばれる。また第２項は重
みの振動を防ぐために重みの変化式に加えられる慣性項
であり、その糸数αは学習速度定数と呼ばれ、１回前の
重みの更新量が今回の重みの更新量に与える影響の大き
さを決めるものとなる。

本実施例におけるシミュレーションでは処理部５、およ
び自己評価部１２のニューラルネットワークに対する学
習定数の値を共に０．０３、学習速度定数の値を共に０
．０１として学習を行った。またシステムの外部出力に
対する外部評価の基準として次の２つの基準を用いた。

第１の外部評価基準：ロボットがターゲットに接近する
と良い、それ以外は悪いとする。

第２の外部評価基準二ロボットがターゲットにある程度
近づくまではターゲットに接近すると良い。ロボットが
ターゲットにある程度近づいたらターゲットの周りを回
りながらターゲットに近づくと良い、それ以外は悪いと
する。

第１０図は第１の外部評価基準を用いたロボットの学習
効果の実施例である。第１０図（ａ）はテスト時に第２
図のノイズ発生部６の発生するノイズを加算した出カバ
ターンを用いてテストしたものであり、また（ｂ１図は
処理部５の出力にノイズを加算しないものをそのまま出
カバターンとしたものである。なお実行時には当然ノイ
ズ発生部６の発生するノイズが常に加算されている。

第１０図には未学習状態、および１０．３０．５０．７
０．１００，５００．１０００回のトライアルが終了し
た後のテストの結果がそれぞれ示されているが、５０ト
ライアル目ではロボットはほぼ確実にターゲットに接近
するようになっており、またネットワークの出力にノイ
ズをかけたテストでもターゲットに接近するようになっ
ている。

第２の外部評価基準を用いた第１１図の実施例でもロボ
ットはターゲットに接近していくが、特にｆａ１図のノ
イズをかけた場合には、一般に初めはターゲットに接近
していくが、ターゲットに近づいたところでかえってタ
ーゲットから遠ざかるような行動をとっている例が見ら
れる。

以上の実施例では、処理部５および自己評価部１２の学
習をロボットの１トライアルの行動終了後に行うものと
したが、これを１ステツプ毎に行うことも当然可能であ
る。またシステムの外部からの外部評価の評価教師パタ
ーンテーブル部１３への入力タイミングも、実際のアプ
リケージジンに応じて適宜変更することが可能である。

〔発　明　の　効　果〕

以上詳細に説明したように、本発明によれば学習システ
ムは外部からの簡単な評価（強化信号）を用いて外部評
価の評価基準を学習し、それを自システムの自己評価基
準として用いることが可能となる。また学習システムが
自己評価基準に従った教師パターンを作成し、それを用
いて自システムに入力される外部情報の処理自体の学習
も行うことができる。従って外部から学習システムの自
己評価基準の置き換えを行う必要はなく、学習システム
の振る舞いだけを監視して外部から強化信号による評価
を与えるだけでよいことになる。このため学習システム
を様々な分野で応用する場合に応用分野毎に自己評価基
準を取り換える必要がなくなり、柔軟性に富んだ学習シ
ステムの構築に寄与するところが大きい。

【図面の簡単な説明】

第１図は本発明の原理ブロック図、第２図は学習システムの実施例の全体構成を示すブロッ
ク図、第３図は評価部の実施例の構成を示すブロック図、第４図は本発明の学習報労式を用いたロボットの制御の
実施例を示す図、第５図はロボットのスタート位置からターゲットまでの
移動軌跡の実施例を示す図、第６図は本発明の学習方式の全体処理実施例のフローチ
ャート、第７図は評価部の処理実施例のフローチャート、第８図
は処理部における入力パターンと出カバターンのデータ
の実施例を示す図、第９図は自己評価部における入力パターンと出カバター
ンのデータの実施例を示す図、第１０図（ａｌ、　（ｂ
ｌは第１の外部評価基準を用いたロボットの学習効果の
実施例の説明図、第１１図（ａｌ、　（ｂ）は第２の外
部評価基準を用いたロボットの学習効果の実施例の説明
図である。５・・・処理部、９・・・入出カバターン対応部、１０・・・評価部、１１・・・教師パターンテーブル部、１２・・・自己評価部、

Claims

【特許請求の範囲】１）自己評価基準を持ち、該自己評価基準に従って外部
からの入力情報と該入力情報に対する自システムの処理
結果の外部への出力との対応を評価する機能を有するシ
ステムにおいて、該外部出力に対する外部からの評価を前記自己評価基準
に取込むために外部評価の評価基準を学習する自己学習
方式であって、前記システムの実行時に、ある一時点の入力情報と該入
力情報に対する自システムの出力結果に対しての該一時
点の次の時点の入力情報とを含む評価入力パターンを評
価対象情報として、該評価入力パターンを前記自己評価
基準に従って評価し、該評価結果を評価信号として出力
する自己評価手段（１）と、前記外部出力に対する外部評価を受け取り、該外部評価
を前記評価入力パターンと対応させて、前記自己評価手
段（１）に外部評価の評価基準を学習させるための評価
教師パターンとして記憶する評価教師パターン記憶手段
（２）とを備えたことを特徴とする外部評価基準の学習
方式。２）前記システムの学習時に、該評価教師パターン記憶
手段（２）に記憶された評価教師パターンを前記自己評
価手段（１）が学習することを特徴とする請求項１記載
の外部評価基準の学習方式。３）前記自システムの出力結果が入力情報の処理結果に
対してノイズを加算したものであることを特徴とする請
求項１記載の外部評価基準の学習方式。