JPH0683792A

JPH0683792A - ニューラルネットワークの学習装置およびニューラルネットワークの学習パターン呈示方法

Info

Publication number: JPH0683792A
Application number: JP3139982A
Authority: JP
Inventors: Junichi Tono; 純一東野; Kazuhiko Kawasaki; 川崎　　和彦; Miyuki Hara; 幸原
Original assignee: Hitachi Ltd; Hitachi Seibu Software Co Ltd
Current assignee: Hitachi Ltd; Hitachi Seibu Software Co Ltd
Priority date: 1991-06-12
Filing date: 1991-06-12
Publication date: 1994-03-25
Also published as: GB2256737B; GB9212357D0; US5555439A; GB2256737A

Abstract

(57)【要約】【目的】バックプロパゲーション学習方法では、学習パ
ターンの教師信号の誤りのため矛盾パターンを含む場
合、学習計算が終了しないという問題点がある。また、
誤りではないが識別が非常に困難な学習パターンも存在
する。この場合、学習計算は終了する可能性はあるが、
非常に長い計算時間を必要とする。本発明では、学習の
繰返し計算の過程でこのようなパターンを検出し、自動
的に除去する。【構成】パターンの学習履歴を記憶する学習履歴記憶部
７において、パターンを除去するか否かを判定する。そ
の結果に基づき、繰返し学習時、パターン呈示制御部８
においてパターンの呈示を制御する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、パターンを識別するニ
ューラルネットワークの学習装置に関し、特にニューラ
ルネットワークの学習パターン呈示方法に関するもので
ある。

【０００２】

【従来の技術】パターン認識技術がよく用いられる技術
分野に音声認識，文字認識，画像認識ならびに図形認識
等がある。従来用いられている統計的な識別方法では、
識別するために必要な特徴量を算出する方法を開発する
必要がある。個人のクセなどの特徴をより良く識別する
ことによる識別率の向上は、特に音声認識や文字認識に
求められている。しかし、識別対象が変化した場合、そ
の識別方法と特徴量辞書などの識別用のデータの変更が
容易ではない。ニューラルネットワークは、学習機能を
利用して、識別方法の開発が不要となるだけでなく、こ
のような適応的な識別能力を装置に持たせることを可能
にするものである。

【０００３】ここで、ニューラルネットワークにおいて
はバックプロパゲーションを用いた学習が一般的に用い
られており、これについて説明する。バックプロパゲー
ションを用いた学習アルゴリズムの場合、教師付き学習
であるため、入力パターンに対してニューラルネットワ
ークが出力すべき値を教師パターンのパターンとして用
意する必要がある。入力パターンに対してニューラルネ
ットワークを通して出力値を得て、この出力値と入力パ
ターンに対応する教師パターンの値とを比較し、もし誤
差の値が基準より大きい場合には、収束条件を満たさな
いと判断し、ニューラルネットワークの重みを更新して
学習を行なう。

【０００４】このようなバックプロパゲーションを用い
た学習には、学習に長時間の計算時間を必要としたり、
局所的な最小値に陥り学習が進まないといった問題があ
る。すなわち、バックプロパゲーションが、数理計画法
における最適化計算，所謂「山登り」方法に基づくた
め、繰返し計算のステップ幅や、モーメントの値の設定
が適切でないと、正しく最適点が見つからないという問
題である。そこで、特開昭1−320565 号公報に記載され
た「ニューラルネットの学習効率化方法」では、文字認
識や音声認識などパターン認識問題を、学習方法として
バックプロパゲーションを用いたニューラルネットの学
習時に発生する上記の問題の解決方法を明らかにしてい
る。学習の繰返し計算過程においてステップ幅とモーメ
ントの値を変更することによって、学習の繰返し計算を
正しく進めるという方法である。また、学習の進み方
は、最適化計算におけるステップ幅やモーメントといっ
たパラメータの選択方法だけではなく、学習させるパタ
ーンそのものの特質に依存する。パターンを予めいくつ
かのグループに分割しておき、グループ毎に個別に学習
させ、後に全体を学習させることによって高速化させる
方法が明らかにされている（特開平2−219167 号公報参
照）。

【０００５】バックプロパゲーションでは何通りものパ
ターンを繰返し学習させることから、それぞれのパター
ンの学習の進み具合が異なってくる。一般に学習の後半
では、学習パターンのなかの多数のパターンはすでに学
習が終了している場合が多い。そこで、学習の完了した
パターンに対しては重み修正を行なわないようにして全
体の計算時間を短縮させる方法が明らかにされている
（特開平2−220169 号公報参照）。

【０００６】しかしながら、バックプロパゲーション学
習が長時間の計算時間を必要としたり、計算が正しく進
行しない原因の一つに、学習させるべきパターン集合の
なかで、非常に類似したパターンを全く異なったカテゴ
リーに分類させたり、全く異なったパターンを同じカテ
ゴリーに分類させたりする場合の存在がある。そもそ
も、バックプロパゲーションは所謂「教師付き学習」と
呼ばれるように、正しい教師信号を必要とする。この教
師信号は、パターンをどのカテゴリーに分類するかを決
定するもので、普通、人から与えられる。従って、人が
教師信号を誤って作成する場合も存在する。もし教師信
号に誤りがあると、バックプロパゲーションの学習計算
が必要以上に繰返し、場合によっては、無限にループす
ることになる。さらに、このような計算量が増大すると
いう状況は、教師に矛盾を含む場合だけでなく、入力パ
ターンそのものに十分な情報量が存在しない場合にも発
生する。すなわち、情報が欠落していると分類そのもの
が不可能になる。このような特質をバックプロパゲーシ
ョン学習が有することから、例外的なパターンを予め取
り除く方法が特開平2−235170 号公報で明らかにされて
いる。ここでは学習に効果的なパターンのみを統計的な
手法によって、予め選択しておく。効果的なパターンと
は、異なるカテゴリーの境界付近に属するパターンであ
る。カテゴリーの中央に属するパターンは計算時間を長
引かせることになり、別にカテゴリーの領域に入ってし
まったパターンは不必要に学習時間を長くし、学習サン
プル以外のパターンでの分類性能を低下させることにな
ると記述されている。しかし、学習中に例外的なパター
ンを検出し除去する方法に関しては考慮されていない。

【０００７】

【発明が解決しようとする課題】ニューラルネットワー
クの学習方法として、バックプロパゲーションを用いた
場合、識別させようとする学習用のパターンを何回も繰
返しネットワークに呈示し、重み係数を更新する。従来
方法では、学習パターンを毎回同じように呈示するた
め、もし、学習パターンの教師信号に誤りがあり矛盾パ
ターンを含む場合、学習計算が終了しないという問題点
がある。また、誤りではないが識別が非常に困難な学習
パターンも存在する。この場合、学習計算は終了する可
能性はあるが、非常に長い計算時間を必要とする。

【０００８】本発明では、教師信号に誤りが含まれる場
合や、学習の困難なパターンが含まれている場合、学習
の繰返し計算の過程で誤りを検出し自動的にそのパター
ンを除去することによって、学習を正しく進行させ高速
化することが目的である。

【０００９】

【課題を解決するための手段】上記の目的を解決するた
め、本発明ではパターン毎の学習履歴を記憶する学習履
歴記憶部を設けることによって、矛盾したパターン及び
学習の困難なパターンを検出する。そして、矛盾パター
ンまたは学習困難パターンとして検出されたパターンを
次の学習繰返しではネットワークに呈示しないようにす
るため、パターン呈示を制御するパターン呈示制御部を
設ける。

【００１０】

【作用】バックプロパゲーション学習では、教師信号と
ほぼ等しい値を出力（収束）するまで、教師と出力の誤
差に基づいて重みを更新する。学習用に用意したパター
ンそれぞれの誤差の履歴は普通異なる。あるパターンは
少ない回数の重み更新で収束するが、別のパターンはも
っと多くの繰返しを必要とすることがある。全ての学習
用のパターンが収束するためには、既にあるパターンが
収束していたとしても、別の未収束のパターンが重みを
更新すると、状態が変化し収束条件を満たさなくなる場
合がある。従って、収束しているパターンも繰返し出力
をチェックし、学習するか否かを判定しなければならな
い。

【００１１】このようなパターン毎の重み更新をしたか
否かという学習の履歴を記憶しておくことによって、そ
のパターンの学習がどの程度容易か、困難かを推定でき
る。学習の計算方法の性質によって、上記に述べた矛盾
パターンの学習回数は、他の矛盾していないパターンの
学習回数に比べて一般に多くなる。学習の途中経過で
は、矛盾パターンや学習困難パターン同士の重み更新が
競合する。すなわち、競合しているパターン（ＡとＢと
する）のなかの一つのパターン（Ａ）が収束したとして
も、別の収束していたパターン（Ｂ）はネットワークの
状態が変化したことによって、収束条件を満たさなくな
る。そのためパターンＢによって再び重みが更新される
が、このことによって、今度はパターンＡが収束条件を
満たさなくなる。

【００１２】このような学習回数の違いや学習の履歴を
記憶する手段を設けることによって、矛盾パターンの検
出を可能にする。さらに、パターン呈示制御部によっ
て、学習回数か履歴情報から、ある判定基準によってパ
ターンを矛盾パターンとみなし、次回の学習からパター
ンを呈示しなくすることによって矛盾パターンが除去さ
れる。

【００１３】

【実施例】以下、図を用いて本発明の実施例を説明す
る。本発明での学習パターン呈示方法を実現する装置の
構成を図１に示す。バックプロパゲーション学習アルゴ
リズムの場合、教師付き学習であるため、入力パターン
に対してニューラルネットワークが出力すべき値を教師
パターンとして用意しなければならない。これらの入力
パターンと教師パターンはそれぞれ入力パターン記憶部
１と教師パターン記憶部５に格納される。ニューラルネ
ット部２は多層型のネットワークであり、出力パターン
記憶部３に入力パターンからネットワークを通って計算
される出力値を格納する。

【００１４】ここで、ニューラルネットワーク部は、特
に図示しないが、複数のパターンを入力する手段から構
成される入力層と、パターンを出力する手段を持つ複数
のデータ処理手段から構成される出力層と、複数のデー
タ処理手段から構成される少なくとも１層以上からなる
中間層から構成され、それぞれのデータ処理手段は、入
力層により近い下位層に属する複数のデータ処理手段と
接続され、それぞれの接続に対応した重み係数を格納す
る記憶手段を持ち、下位層からの出力値と、重み係数か
ら計算される値を、出力層により近い上位層に属する複
数のデータ処理手段へ出力するように構成され、入力パ
ターンと出力パターンの複数組に対して、ある入力パタ
ーンを入力層から入力した時、出力層から、入力パター
ンに対応する出力パターンにほぼ等しくなるように、デ
ータ処理手段の重み係数を調節し、総ての入力パターン
に対して対応する出力パターンにほぼ等しいパターンが
出力層から出力されるまで、重み係数の調節を繰返す多
層型のニューラルネットワーク部である。

【００１５】そして、このニューラルネットワーク部の
出力値と入力パターンに対応する教師パターンの値とを
比較部４によって比較し、もし誤差の値が基準より大き
い場合には、収束条件を満たさないと判断し、重み演算
部６でニューラルネット部２の重みを更新する。この重
みの更新量の計算方法に関しては、例えば、ラメルハー
トらの文献（Rumelhart,D.E.,Hinton,G.E., Williams,
R.J.: ParallelDistributed Processing :Explorations
in the Microstructure of Cognition.Volume 1: Foun
dations, Chapter 8, The MIT Press, Cambridge, Mass
(1986)参照）が詳しい。

【００１６】本発明に特徴的な構成要素は、学習履歴記
憶部７とパターン呈示制御部８である。学習履歴記憶部
７では、すべての学習パターン（入力パターンと教師パ
ターンの組）の比較部４の比較結果を格納する。パター
ン呈示制御部８では、学習の繰返し回数やパターンの学
習履歴から、学習を継続させるか否かを判定し、判定結
果を入力パターン記憶部１と教師パターン記憶部５に格
納する。学習時にパターン呈示を省略するという判定結
果であれば、その学習パターンは除去されたことにな
る。

【００１７】図２は、図１で述べた学習パターン呈示方
法を利用した学習装置の構成を示す。本発明はパターン
を識別するニューラルネットワークの学習方法に関する
ものであり、音声認識，文字認識，画像認識ならびに図
形認識などに利用される。ここでは、文字認識のように
認識対象が変化する場合を例に説明する。手書き文字の
認識の場合では、使用者によって文字の書き方が異なる
ため、予め作成した認識用の辞書を使用者毎に修正する
ことが好ましい。また、同じ使用者であっても習熟度に
対応して、書き方が異なることが多い。そのため、装置
の使用期間を通じて辞書の更新が用意に出来ることも望
まれる。

【００１８】図２において、装置全体は全体制御部１０
で制御される。入力された文字を読み取って、パターン
からコードに変換する。マウスなどのポインティング・
デバイスやキーボードから入力する機能とほぼ等価な機
能を実現する。一般には、例えば印刷された文字や手書
きの文字を画像として光学的に入力するスキャナ５１
や、特殊なペンを用いて入力する入出力表示一体型のタ
ブレット５２や、書物などの入力に適したカメラ５３な
どの入力装置がある。スキャナ５１では、紙の上の印刷
文字や手書き文字が対象である。印刷文字の場合では、
辞書作成に用いた文字フォントの種類や文字の大きさ
と、利用者が読み取ろうとする種類と大きさが一致しな
いこともある。また、利用者の印刷装置に特有のカスレ
などがあることもある。さらに、手書き文字の場合で
は、利用者によって文字の書き方が異なり、書き癖を辞
書に登録することが出来れば、認識率を向上させる効果
がある。このような場合、予め作成してある辞書に加え
て、利用者固有の辞書が再編成できる。また、タブレッ
ト５２は、小型の計算機の入力装置として用いられ、利
用者の好み・クセ等によって、より入力し易い方法や認
識率の向上のため辞書の修正が実現できる。カメラ５３
では、スキャナでは入力することが困難な場合に用いら
れることがある。一般に、入力画像の品質は周囲の光源
に左右されることがあり、予め設定された辞書の適応的
な修正機能が必要になる。

【００１９】以上のような入力装置はパターン入力制御
部５０によって制御される。入力されたパターンは入力
パターン記憶部２１に格納される。既に学習が終了して
辞書が存在している場合、もしくは辞書の修正が終了し
ている場合、入力されたパターンがどのコードに対応す
るかの認識はニューラルネット実行制御部２０によって
制御される。ニューラルネット部６０が出力パターン記
憶部２２に認識結果を出力する。この結果は全体制御部
１０によって参照される。

【００２０】学習の実行、または辞書の修正はニューラ
ルネット学習制御部３０によって制御される。標準的な
パターンは学習用基本入出力パターン記憶部３１に格納
されている。入出力パターンとは、パターン入力制御部
５０によって蓄積された何通りかの入力パターンとその
パターンの認識結果の組を意味する。このパターンはパ
ターン入力制御部５０からの入力パターンではなく、予
め他の装置によって収集されたパターンも含む。さら
に、利用者において辞書を修正するために準備したパタ
ーンは学習用拡張入出力パターン記憶部３２に格納され
ている。

【００２１】パターン作成蓄積制御部４０は学習用のパ
ターンを蓄積した３１もしくは３２の記憶部からニュー
ラルネットの学習に必要なパターンを作成し、２１と２
２の記憶部に格納する。また、パターン作成蓄積制御部
４０は学習用のパターンを蓄積するために、パターン入
力制御部５０からパターンを入力する。この時、全体制
御部１０によって利用者に特有のパターンを拡張入出力
パターン記憶部３２に蓄積するように制御される。

【００２２】尚、図１との対応で言えば、入力パターン
記憶部１は図２の２１に、ニューラルネット部２は図２
の６０に、出力パターン記憶部３は図２の２２に対応す
る。図１の教師パターン記憶部５は学習基本入出力パタ
ーン記憶部３１または学習用拡張パターン記憶部３２の
中の出力パターンを記憶する部分に対応し、これらの中
に記憶されている出力パターンを、学習する際に教師パ
ターンとして用いる。また、図１の重み演算部６，学習
履歴記憶部７，パターン呈示制御部８は図２のニューラ
ルネット学習制御部３０に含まれていると考えて良い。

【００２３】以下、本発明の特徴を明らかにするため
に、従来一般的に用いられているパターンの呈示方法に
関してさらに詳細に述べる。

【００２４】図３は、一般的に用いられている学習方
法，パターン呈示部の制御がない場合の第１の学習方法
の例である。第１の学習方法は総ての学習において誤差
分から重みを修正するものである。ブロック３１０にお
いて学習の繰返し回数ｉｔｒを０に初期化する。ブロッ
ク３２０では、学習の繰返し回数を増加させ、同時に呈
示するパターンの番号ｐを０に初期化する。ブロック３
３０では、パターン番号ｐのパターンについて、ニュー
ラルネットにおける前向きの計算，出力値と教師値の比
較，誤差の逆向きの計算，ニューラルネットの重みの更
新などを実行する。ブロック３４０では、今計算の終了
したパターンの番号が、学習パターン記憶部に格納され
ている最後のパターンか否かを判定する。最後でなけれ
ば、次のパターンに対してブロック３３０の計算を実行
する。もし最後のパターンの場合、ブロック３５０にお
いてすべてのパターンが学習収束条件を満足していたか
否かを判定する。もし満足していれば、学習計算は終了
する。もし、満足していなかった場合には、ブロック３
２０に戻り最初のパターンから計算を繰返す。

【００２５】この第１の学習方法の場合では、ブロック
３３０においてパターン呈示後、重みを毎回更新するこ
とになる。制御方法が簡単なためハードウェアでの実現
が容易である。また、汎用計算機上においても、毎回同
様な計算が実行されるため、演算をベクトル的に実行す
るスーパーコンピュータ等では、計算効率が向上すると
いう利点がある。

【００２６】しかしながら、過剰学習という欠点があ
る。パターンの収束条件はブロック３５０で判定される
ため、収束条件を満足しているパターンでも、ブロック
330でその誤差に応じて重みが更新される。従って、小
数のパターンが収束していない場合、既に収束条件を満
足しているパターンの誤差は学習が繰返されることによ
って、収束条件よりもさらに小さくなる傾向にある。こ
のように、必要以上の精度で誤差を小さくすることを過
剰学習と呼んである。この現象が発生すると、パターン
全体の誤差の平均は小さくなるものの、特定のパターン
では誤差が平均よりもかなり大きくなり、全体の収束を
遅らせる。さらに、学習パターン以外のパターンの認識
率が低下することもある。

【００２７】図４は、一般的に用いられている第２の学
習方法の例であり、上記の過剰学習を防止するととも
に、学習を高速化させるのに効果的な方法である。第２
の学習方法は学習条件を満たさなかったパターンの対す
る誤差分からのみ重みを修正するものである。図３と比
べて、ブロック４３１とブロック４３２が追加されてい
る。その他のブロック４１０，４２０，４３０，４４
０，４５０は、図３の310,３２０，３３０，３４０，３
５０と同様である。すなわち、収束条件を満足していな
いパターンのみブロック４３２において重みを更新す
る。既に収束したパターンも、他のパターンの重み更新
によって収束条件を満足しなくなった場合のみ、再びブ
ロック４３２が実行される。これによって、パターン全
体にわたって誤差が拡散される効果がある。また、学習
過程の後半では学習初期と比べて、収束していないパタ
ーン数が減少する。すなわち、ブロック４３２は実行さ
れない場合が増加するため、一般に学習時間が短縮され
る。

【００２８】図５は、一般的に用いられている第３の学
習方法の例であり、図３と比べてブロック５３０（図３
では３３０に対応）で重みを更新する替わりに、重みの
修正分を蓄積用のバッファに加算してゆき、パターンを
最後まで呈示し終わった時点で、重みを更新する。蓄積
バッファはブロック５２０で初期化しておく。このよう
に、重み更新を全パターンの呈示が終了してから実施す
ると、パターンの呈示順序による影響がなくなるのと同
時に、蓄積することによって誤差が拡散されるという利
点がある。

【００２９】図６は、一般的に用いられている第４の学
習方法の例であり、前述した二つの方法（図４と図５）
を組み合わせた手法である。いずれも、与えられたパタ
ーンを全て学習するための方法であり、学習パターンの
中に矛盾するパターンが混入していた場合には学習を終
了させることが出来ない。

【００３０】次に、教師パターンを作成するときに間違
ったため、矛盾するパターンが含まれた場合のパターン
呈示方法を説明する。矛盾ではないが、非常に類似して
いるにも拘らず教師パターンが全く異なる場合も存在す
る。以下の説明では、両者を学習困難パターンと呼び、
特に断らない限り区別しない。

【００３１】排他的論理和（ＸＯＲ）を例に学習困難パ
ターンを説明する。図７はＸＯＲ問題に用いるネットワ
ークの形状を示す。入力ノードが２つ（入力ノード１と
入力ノード２）、１層の中間層が２つのノードを持ち、
出力ノードは１つの３層構造ネットワークである。ＸＯ
Ｒ問題とは、入力の２つの値の排他的論理和を出力する
関数を多層型ニューラルネットワークで近似させる問題
である。ここでは、４通りの入力パターンに対して、Ｘ
ＯＲの値を出力するまで、ノード間のパスの重みを更新
することが学習の目的である。

【００３２】図８に、ＸＯＲの４通りの入出力パターン
（１から４まで）と学習困難パターンの一例（５から８
まで）を示す。１から４の入力パターンに関して入力ノ
ード１と入力ノード２の排他的論理和の値が出力ノード
１の値になっている。この１から４までのＸＯＲを構成
するパターンに対して、パターン５から８までのパター
ンの少なくとも１つが混入すると、学習困難パターンの
混入した状態になる。図８には、論理値の表現に小数値
を用いている。すなわち、論理“０”が０.０で、
“１”が１.０である。バックプロパゲーションの場
合、学習は収束計算になるため、０.０や１.０を出力
することは出来ない。収束範囲を設定して、その範囲に
なれば収束したものとみなす。例えば、収束範囲を０.
１と設定すれば、論理“０”は［−０.１，０.１］の
範囲、論理“１”は［０.９，１.１］の範囲を示す。論
理演算のように０か１しかとらない場合は、この範囲を
０.４程度にしても良い。関数近似を学習させる場合に
は、必要とする近似精度に応じてこの範囲を設定する必
要がある。

【００３３】図８に示した入出力パターンの組み合わせ
の中で、パターン５はパターン１と矛盾している。従っ
て、パターン１から５まで合計５つのパターンを学習さ
せようとすると、パターン５とパターン１は矛盾するた
め学習は終了しない。パターン６はパターン１とは矛盾
してはいないが、入力パターンが非常に類似しているに
も拘らず、出力値の論理が反転している。従って、パタ
ーン１，２，３，４，６の組み合わせの学習は、不可能
ではないが、ＸＯＲの学習に比べて長い学習時間を要す
る。パターン７，８は類似度が異なっている。教師パタ
ーンを人が与える場合には、間違って別の教師パターン
と矛盾する値を与える可能性がある。また、パターン認
識問題のように分類の困難なパターンも存在する。例え
ば、活字文字認識の場合、数字の１(ｏｎｅ)と英小文字
のｌ(ｅｌ)のように、ある種のフォントでは区別がない
場合が存在する。

【００３４】次に学習困難パターンの存在による影響を
説明する。合計５通りのパターンの組み合わせの学習繰
返し回数を、図９に示す。パターン組合せ１はＸＯＲの
場合であり、４つのパターンが収束した時の、パターン
毎のネットワークの重みを更新した回数（ＢＰ回数）で
ある。パターン呈示は、図９に示した方法を用いた。学
習収束条件を満たしていないパターンの誤差のみを逆伝
播させる方式である。このため、パターン毎の学習回数
は等しくはない。パターン１は１７回の学習で収束、パ
ターン２は２０回の学習で収束している。等しくはない
が、ほぼ同じ程度のＢＰ回数で収束している。組合せ２
はＸＯＲにパターン５を追加したものである。パターン
１と５が矛盾しているため、収束しない。繰返しの制限
回数で終了している。組合せ３も同様に収束せず、制限
回数で終了している。制限回数を大きくすれば収束する
可能性はあるが、学習困難パターンのＢＰ回数は、この
回数以上になる。組合せ４と５は収束しているが、ＢＰ
回数が組合せ１に比べて多いことが分かる。このよう
に、ＢＰ回数から学習困難パターンの存在を推定するこ
とができる。

【００３５】この推定には、何回かの学習の後、あるパ
ターンのＢＰ回数が他のパターンのそれよりも多いか否
かを判定すれば良い。しかしながら、学習がどのように
進行するかは未知なので、判定時期を時前に設定してお
くことはできない。十分学習した後に判定しても、学習
困難パターンの除去は出来るが、学習時間の短縮化には
効果がない。従って、学習の過程において、いつ，どの
パターンを除去するか否かを判定しなければならない。

【００３６】図１０は、０，１，…，９の手書きの数字
の場合における、学習過程の一例である。横軸は学習の
繰返し回数を示す。これは、図４における、ｉｔｒの値
である。縦軸は、学習収束条件を満たさなかったパター
ンの数を示す。この数とは、図３におけるブロック４３
２を通ったパターンの数である。学習に用いた手書きの
数字パターンは、１５×１５の濃淡画像である。このパ
ターンは６４×６４の２値画像から、８×８の領域の画
素値を加算し、４画素ずつシフトすることによって１５
×１５画像に変換することによって得られたものであ
る。図１７にそのパターンの一例を示す。総計１３８２
個の学習パターンは、初めの数１０回の学習で、ほぼ学
習が終了し始めたものの、小数のパターンの学習が継続
することによって、４００回以上繰り返しても全体のパ
ターンの学習完了にはならない。この図のグラフから分
かるように、繰返し回数の大きくなるパターンの除去が
可能であれば、学習を高速化することが可能になる。こ
こで用いたネットワークは、入力層のノード数が２２５
（１５×１５），中間層のノード数が１２８，出力層の
ノード数が１０（数字の種類に対応）の３層構造であ
り、各層間は総てのノードが接続されている。すなわ
ち、中間層の一つのノードは入力層の総てのノードと、
そして、出力層の一つのノードは中間層の総てのノード
と接続されている。図１１は、学習途中におけるパター
ン毎のＢＰ回数の一例を、優先フラグと除去フラグと共
に示したものである。ここで、優先フラグは、学習困難
と判定されても除去しないことを指定する。除去フラグ
は、学習困難と判定し、それ以降の学習には用いないこ
とを示す。パターン４はＢＰ回数が６０で除去されてい
るが、パターン３は優先フラグが設定されているため除
去フラグはセットされない。このように、優先フラグの
セットされたパターンは自動的に除去されないため、競
合するパターンのみを除去することが出来る。

【００３７】図１２は、横軸をＢＰ回数にした時の、そ
の回数に相当するパターンの数を示す。これは、図１０
における学習の繰返し回数が１００回の時の状態であ
る。大半のパターンのＢＰ回数が６０回程度以下である
ことがわかる。この図に示すような分布形状から、ある
閾値となるＢＰ回数を求め、その回数以上になるパター
ンを学習困難パターンと判定する。

【００３８】次に、学習困難パターンを判定するための
ＢＰ回数の閾値を求める一方法を説明する。図１３は、
図１２に示したグラフを表に書き直したもので、ＢＰ回
数を１０回きざみとしたときのヒストグラムを示す。こ
れから、ＢＰ回数の平均値ｍと標準偏差σを求めると、
それぞれ１６.４，１２.６になる。例えば、閾値として
ｍ＋４・σを用いると、ＢＰ回数は６６.８である。こ
の結果、除去されるパターンはヒストグラムＮo.７の一
部、そしてＮo.８，９，１０のパターンである。

【００３９】以上に述べた学習困難パターンの除去方法
のフローチャートを、図１４に示す。図４に述べた学習
方法のブロック４３１，４３２，４４０，４５０の部分
が対応する。

【００４０】ブロック１４３１でパターンｐが学習収束
条件を満たさない場合には、収束条件を満たさないパタ
ーンのみブロック１４３２において重みを更新する。既
に収束したパターンも他のパターンの重み更新によって
収束条件を満足しなくなった場合のみ再びブロック１４
３２が実行される。また、学習を開始する前処理とし
て、パターン毎のＢＰ回数を初期化（０にする）してお
き、ブロック１４３３において、ブロック１４３１で学
習収束条件を満たさないと判定され、ブロック１４３２
で重みを更新したパターンのＢＰ回数を１だけ増やす。

【００４１】ブロック１４４０で最後のパターンまで繰
返した時、ブロック１４４１においてパターン除去判定
を実行するか否かを判定する。学習繰返しがＩＴＲ以上
と制限しているのは、ある程度十分な統計分布が得られ
た後、除去判定を実行するためである。統計分布とは、
図１２，図１３で示すようなパターン毎のＢＰ回数の分
布である。ブロック１４４２において、ＢＰ回数の平均
値ｍと標準偏差σを求める。ブロック１４４３で総ての
パターンについて、パターンのＢＰ回数をブロック１４
４４で閾値と比較する。この閾値はパタメータｙで設定
が可能である。そして、閾値を越えたＢＰ回数を持ち、
優先フラグが０のパターンのみ除去フラグを１とする。
ブロック１４５０′において、除去フラグが０のパター
ン総てが学習収束条件を満たすか否かを判定し、条件を
満たすと学習を終了する。

【００４２】図１５及び図１６は、図１４のブロック１
４４４の閾値パタメータｙをそれぞれ３，５に設定した
場合の、学習繰返し回数に対する学習終了条件を満たさ
なかったパターンの数を示す。それぞれ、図１５では、
繰返し回数が約４０回，図１６では、約１１０回程度で
学習が終了している。４００回の学習繰返し回数でも収
束しなかった（図１０参照）場合に比べると、学習困難
パターンの除去効果が解る。

【００４３】図１８に学習困難パターンとして除去され
た手書き文字のパターンの一例を示す。図に記した２３
ケのパターンは図１５の示した条件の場合の除去パター
ンである。また、右上に＊で示した４ケのパターンは図
１６の条件に相当する。この学習では、優先フラグは設
定していない。これらのパターンから解るように、変形
の大きいもの、別の数字と類似しているものなどであ
る。本明細書で言う学習困難パターンとは、一つのニュ
ーラルネットワークを用いた場合に学習が困難であるパ
ターンを指す。従って、ここで除去されたパターンのみ
を、認識するようなネットワークを別に設けた場合、学
習が完了する可能性はある。しかしながら、この場合で
もパターンの除去そのものは有効である。

【００４４】以上に述べた学習困難パターンの除去方法
は、ＢＰ回数の統計分布に依存していた。図１９から図
２２は、手書き文字以外の学習パターンに対する統計分
布である。これらは、いずれも学習が終了した場合であ
るが、ＢＰ回数の小さい所にピークがあり、ＢＰ回数の
大きい所はパターン数が小さいという同様の統計的性質
を示している。図１９は、論理和ＡＮＤ問題での場合で
あり、この場合のパターンは合計４ケであるが、学習を
複数回実施することによって、パターンの数が多い場合
の統計的な分布を推定したものである。図２０は、論理
和ＯＲ問題の場合であり、この場合のパターンは合計４
ケであるが、学習を複数回実施することによって、パタ
ーンの数が多い場合の統計的な分布を推定したものであ
る。図２１は、排他的論理和ＸＯＲ問題の場合であり、
この場合のパターンは合計４ケであるが、学習を複数回
実施することによって、パターンの数が多い場合の統計
的な分布を推定したものである。図２２は、入力ノード
が５，中間層のノードが２０，出力ノードが５のネット
ワークを用い、入出力パターンは、要素数が５のベクト
ルが２０の場合を示し、この全要素数２００のベクトル
２０組は区間［０，１］の一様乱数から発生させたもの
である。

【００４５】パターン毎のＢＰ回数の統計分布に基づく
除去判定の他にも、学習の履歴から除去の判定も可能で
ある。統計分布に基づく方法は、ある学習繰返し回数で
の判定のため、学習繰返しの前後（ｉｔｒ，ｉｔｒ＋
１）において、学習したパターンがどの程度変化したか
を判定することが出来ない。バックプロパゲーション学
習アルゴリズムには、学習困難なパターンは学習が継続
するという性質がある。この性質を利用するには、学習
の履歴（時間軸方向）からの判定が有効である。この判
定方法を、図２３に示す。図１４に示した除去方法での
ブロック1442から１４４５に相当する部分が、図２２に
おけるブロック２３４０１から23408 である。

【００４６】ブロック２３４０１においてパターンＰま
での学習を実行した後、それぞれのパターンのＢＰ回数
の最大値ｍａｘを求める。ｍａｘの値を持つパターンは
複数存在する可能性があるため、そのパターン数ｎｕｍ
も求める。ブロック23402 において、最大値ｍａｘが前
回の学習繰返しのｍａｘよりも１回多く、かつｎｕｍが
等しい場合にブロック２３４０４に分岐する。学習困難
パターンの可能性のあるパターンのＢＰ回数は一般に大
きくなること、そして学習が継続するという性質に着目
した判定条件である。ｍａｘとｎｕｍのみを算出すれば
よいため、計算効率が良い。また、学習困難パターンの
中で競合し合うカテゴリーに属しているパターン同士の
ＢＰ回数が、ほぼ等しくなること、しかし、学習実行が
入れ替わることから、ブロック２３４０２の判定方法
は、簡便かつ有効である。すなわち、統計分布に基づく
方法では、競合し合うパターンを総て除去するが、学習
履歴に基づく方法では、異なるカテゴリーのパターンの
みを除去出来る。ブロック２３４０２の条件が何回継続
しているかを求めるために、ブロック２３４０４におい
てｃｏｎｔを１増やす。条件を満たしていない場合は、
ブロック２３４０３でｃｏｎｔを１に初期化する。継続
回数ｃｏｎｔが閾値ＣＯＮＴを越えた場合、ブロック２
３４０６以降において、対象となるパターンをブロック
２３４０７で判定し、ブロック２３４０８で除去フラグ
を設定する。閾値ＣＯＮＴの値が小さい場合、除去され
易い。逆に、ＣＯＮＴの値が大きい場合、除去されにく
くなる。ＣＯＮＴの値が小さい場合は、図１４で説明し
た統計分布に基づく方法におけるブロック１４４４のパ
タメータｙの小さい場合に相当する。

【００４７】

【発明の効果】入力パターンと教師パターンの組である
学習パターンに、相矛盾するようなパターンが含まれて
いたり、学習が困難であるようなパターンが含まれてい
る場合でも、このようなパターンを学習繰返し計算中に
取除くことによって、学習を終了させることが可能にな
る。これによって、学習時間の高速化が実現される。こ
こで除去されるパターンは、実験の結果から、確かに学
習パターンの特異なパターンであると判定できる。

【００４８】また、入力パターンを呈示後、必ず重み係
数を修正するのではなく、教師パターンとの差がある閾
値以下の場合に限定することによって、修正時間を省略
することが出来、学習の高速化が期待できる。この限定
は、既に学習収束条件を満足したパターンに対して、そ
れ以上の精度で近似しないため、過剰に学習することを
防ぐ。

【００４９】重み係数の調節にあるパターンを必ず用い
ることを指定する優先フラグを設けることによって、競
合しあう学習困難パターンのどちらかを学習させるよう
に出来る。

【００５０】バックプロパゲーション学習方法において
は、学習困難なパターンに対してはそのパターンの学習
回数、すなわち、そのパターンが何回重み係数の調節に
用いられたかを示す回数、が大きくなるという性質を持
っているため、この学習回数の履歴から学習困難である
か否かを判定することが出来る。

【図面の簡単な説明】

【図１】本発明にかかる学習パターン呈示方法を実現す
る装置の構成を示す図である。

【図２】ニューラルネットワークの学習パターン呈示方
法を利用した学習装置の全体構成図である。

【図３】パターン呈示制御部のない場合の第１の学習方
法の例を示す図である。

【図４】パターン呈示制御部のない場合の第２の学習方
法の例を示す図である。

【図５】パターン呈示制御部のない場合の第３の学習方
法の例を示す図である。

【図６】パターン呈示制御部のない場合の第４の学習方
法の例を示す図である。

【図７】ＸＯＲ問題に用いるネットワーク形状を示す図
である。

【図８】学習困難パターンを含む入出力パターンの一例
を示す図である。

【図９】学習困難パターンの存在による影響を説明する
ための学習繰返し回数を示す図である。

【図１０】手書きの数字の場合における学習過程の一例
を示す図である。

【図１１】学習途中におけるパターン毎のＢＰ回数の一
例を示す図である。

【図１２】ＢＰ回数と学習終了条件を満たさなかったパ
ターン数の関係を示す図である。

【図１３】ＢＰ回数のパターン数のヒストグラムを示す
図である。

【図１４】統計分布に基づく学習困難パターン除去方法
の概略のフローを示す図である。

【図１５】学習困難パターンを除去した場合の学習過程
の第１の例を示す図である。

【図１６】学習困難パターンを除去した場合の学習過程
の第２の例を示す図である。

【図１７】典型的な手書き数字の一例を示す図である。

【図１８】学習困難パターンとして除去された手書き数
字の一例を示す図である。

【図１９】ＢＰ回数と学習終了条件を満たさなかったパ
ターン数の関係を示す第１の図である。

【図２０】ＢＰ回数と学習終了条件を満たさなかったパ
ターン数の関係を示す第２の図である。

【図２１】ＢＰ回数と学習終了条件を満たさなかったパ
ターン数の関係を示す第３の図である。

【図２２】ＢＰ回数と学習終了条件を満たさなかったパ
ターン数の関係を示す第４の図である。

【図２３】学習履歴に基づく学習困難パターン除去方法
の概略のフローを示す図である。

【符号の説明】

１…入力パターン記憶部、２…ニューラルネット部、３
…出力パターン記憶部、４…比較部、５…教師パターン
記憶部、６…重み演算部、７…学習履歴記憶部、８…パ
ターン呈示制御部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者原幸神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】複数のパターンを入力する手段から構成さ
れる入力層と、パターンを出力する手段を持つ複数のデ
ータ処理手段から構成される出力層と、複数のデータ処
理手段から構成される少なくとも１層以上からなる中間
層から構成され、それぞれのデータ処理手段は、入力層
により近い下位層に属する複数のデータ処理手段と接続
され、それぞれの接続に対応した重み係数を格納する記
憶手段を持ち、下位層からの出力値と、前記重み係数か
ら計算される値を、出力層により近い上位層に属する複
数のデータ処理手段へ出力するように構成され、入力パ
ターンと出力パターンの複数組に対して、ある入力パタ
ーンを入力層から入力した時、出力層から、前記の入力
パターンに対応する出力パターンにほぼ等しくなるよう
に、前記データ処理手段の重み係数を調節し、総ての入
力パターンに対して対応する出力パターンにほぼ等しい
パターンが出力層から出力されるまで、前記重み係数の
調節を繰返す多層型のニューラルネットワークの学習装
置において、前記重み係数の調節毎にある入力パターンから計算され
る出力パターンと、望ましい出力パターンである教師パ
ターンとの比較結果を記憶する学習履歴記憶部と、その内容に基づきどの入力パターンと教師パターンの組
を重み係数の調節用に用いるかを決定するパターン呈示
制御部とを有することを特徴とするニューラルネットワ
ークの学習装置。
【請求項２】請求項１記載において、前記パターン呈示
制御部は、ある入力パターンから計算される出力パター
ンと、望ましい教師パターンとの差がある閾値以下の場
合のみ、重み係数を調節することを特徴とするニューラ
ルネットワークの学習装置。
【請求項３】請求項１記載において、前記パターン呈示
制御部は、必ず重み係数の調節に用いることを指定する
優先フラグを有することを特徴とするニューラルネット
ワークの学習装置。
【請求項４】請求項１記載において、前記学習履歴制御
部は、入力パターンと教師パターンを何回重み係数の調
節に用いたかを記憶する手段を有することを特徴とする
ニューラルネットワークの学習装置。
【請求項５】請求項４記載において、前記パターン呈示
制御部は、前記学習履歴制御部からの重み係数の調節回
数の統計分布に基づき、以降の学習計算時、あるパター
ンを重み係数の調節に用いるか否かを決定することを特
徴とするニューラルネットワークの学習装置。
【請求項６】請求項５記載において、前記パターン呈示
制御部は、ある回数以後の学習繰返しで、重み係数の調
節に用いるか否かを決定することを特徴とするニューラ
ルネットワークの学習装置。
【請求項７】請求項４記載において、前記学習履歴制御
部は、学習繰返し毎に重み係数の調節回数の変化を記憶
する手段を有することを特徴とするニューラルネットワ
ークの学習装置。
【請求項８】請求項７記載において、前記パターン呈示
制御部は、前記学習履歴制御部からのある回数以後の学
習繰返しで、重み係数の調節に用いるか否かを決定する
ことを特徴とするニューラルネットワークの学習装置。
【請求項９】複数のパターンを入力する手段から構成さ
れる入力層と、パターンを出力する手段を持つ複数のデ
ータ処理手段から構成される出力層と、複数のデータ処
理手段から構成される少なくとも１層以上からなる中間
層から構成され、それぞれのデータ処理手段は、入力層
により近い下位層に属する複数のデータ処理手段と接続
され、それぞれの接続に対応した重み係数を格納する記
憶手段を持ち、下位層からの出力値と、前記重み係数か
ら計算される値を、出力層により近い上位層に属する複
数のデータ処理手段へ出力するように構成され、入力パ
ターンと出力パターンの複数組に対して、ある入力パタ
ーンを入力層から入力した時、出力層から、前記の入力
パターンに対応する出力パターンにほぼ等しくなるよう
に、前記データ処理手段の重み係数を調節し、総ての入
力パターンに対して対応する出力パターンにほぼ等しい
パターンが出力層から出力されるまで、前記重み係数の
調節を繰返す多層型のニューラルネットワークの学習装
置において、前記入力パターンを記憶する入力パターン記憶部と、前記出力パターンを記憶する出力パターン記憶部と、望ましい出力パターンである教師パターンを記憶する教
師パターン記憶部と、前記重み係数の調節毎にある入力パターンから計算され
る出力パターンと、前記教師パターンとの比較を行なう
比較部と、その比較結果を記憶する学習履歴記憶部と、その内容に基づきどの入力パターンと教師パターンの組
を重み係数の調節用に用いるかを決定するパターン呈示
制御部と、その決定の基づき前記重み係数を演算する重み演算部と
を有することを特徴とするニューラルネットワークの学
習装置。
【請求項１０】認識対象となるパターンを入力する入力
部と、入力されたパターンを記憶する入力パターン記憶部と、出力されたパターンを記憶するパターン記憶部と、望ましい出力パターンである教師パターンを記憶する教
師パターン記憶部と、前記入力パターンと前記教師パターンを複数組与え、あ
る入力パターンを入力した時、その入力パターンに対応
する教師パターンにほぼ等しくなるように、重み係数を
調節し、総ての入力パターンに対して対応する教師パタ
ーンにほぼ等しい出力パターンが出力されるまで、前記
重み係数の調節を繰返す多層型のニューラルネットワー
ク部と、前記重み係数の調節毎にある入力パターンから計算され
る出力パターンと、前記教師パターンとの比較結果を記
憶し、その内容に基づきどの入力パターンと教師パター
ンの組を重み係数の調節用に用いるかを決定し、その決
定の基づき前記重み係数を演算するニューラルネット学
習制御部とを有することを特徴とするニューラルネット
ワークを用いた認識装置。
【請求項１１】入力パターンと望ましい出力パターンで
ある教師パターンを複数組与え、ある入力パターンを入
力した時、その入力パターンに対応する教師パターンに
ほぼ等しくなるように、重み係数を調節し、総ての入力
パターンに対して対応する教師パターンにほぼ等しい出
力パターンが出力されるまで、前記重み係数の調節を繰
返す多層型のニューラルネットワークの学習パターン呈
示方法において、前記重み係数の調節毎にある入力パターンから計算され
る出力パターンと、前記教師パターンとを比較し、その比較結果に基づきどの入力パターンと教師パターン
の組を重み係数の調節用に用いるかを決定することを特
徴とするニューラルネットワークの学習パターン呈示方
法。
【請求項１２】請求項１１記載において、ある入力パタ
ーンから計算される出力パターンと、前記教師パターン
との差がある閾値以下の場合のみ、重み係数を調節する
ことを特徴とするニューラルネットワークの学習パター
ン呈示方法。
【請求項１３】請求項１１記載において、入力パターン
と教師パターンの組のうち、重み係数の調節に用いる組
を指定することを特徴とするニューラルネットワークの
学習パターン呈示方法。
【請求項１４】請求項１１記載において、入力パターン
と教師パターンを何回重み係数の調節に用いたかを記憶
することを特徴とするニューラルネットワークの学習パ
ターン呈示方法。
【請求項１５】請求項１４記載において、重み係数の調
節回数の統計分布に基づき、以降の学習計算時、あるパ
ターンを重み係数の調節に用いるか否かを決定すること
を特徴とするニューラルネットワークの学習パターン呈
示方法。
【請求項１６】請求項１５記載において、ある回数以後
の学習繰返しで、重み係数の調節に用いるか否かを決定
することを特徴とするニューラルネットワークの学習パ
ターン呈示方法。
【請求項１７】請求項１４記載において、学習繰返し毎
に重み係数の調節回数の変化を記憶することを特徴とす
るニューラルネットワークの学習パターン呈示方法。
【請求項１８】請求項１７記載において、ある回数以後
の学習繰返しで、重み係数の調節に用いるか否かを決定
することを特徴とするニューラルネットワークの学習パ
ターン呈示方法。