JPH05159086A

JPH05159086A - ニューラルネットワークの学習方式

Info

Publication number: JPH05159086A
Application number: JP3319136A
Authority: JP
Inventors: Kazuhiro Obara; 和博小原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1991-12-03
Filing date: 1991-12-03
Publication date: 1993-06-25

Abstract

(57)【要約】【目的】入力パターンの学習の進み具合いを個別に監
視し、汎化能力の高いニューラルネットワークを構築し
得るニューラルネットワークの学習方式を提供する。【構成】入力パターンＰ１を入力したときの出力層の
出力パターンＯ１と教師パターンＴ１との２乗誤差Ｅ１
が所定の値α以上のときには、バックプロパゲーション
・アルゴリズムによる重みの更新処理を行い、前記２乗
誤差Ｅ１が所定の値α未満のときに、前記重みの更新処
理を行わないという動作を入力パターン毎に実行する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力層、中間層および
出力層からなる多層構造型ニューラルネットワークの学
習方式に関する。

【０００２】

【従来の技術】入力層、中間層および出力層からなる多
層構造型ニューラルネットワークに入力パターンと教師
パターンを与えて、バックプロパゲーション・アルゴリ
ズム［参考文献 Rumelhart,D.E.et al.:Parallel Dist
ributed Processing,Vol.1,MITPress（1986）］によ
り、上記入力パターンと上記教師パターン間の相関関係
を学習させる場合の従来技術を以下に説明する。

【０００３】図１は、多層構造型ニューラルネットワー
クの構成例を示す図である。同図において、１は入力層
のニューロンを、２は中間層のニューロンを、３は出力
層のニューロンをそれぞれ示す。

【０００４】入力パターンをＰ_i（ｉ＝１，２，…，
Ｎ）、教師パターンをＴ_i（ｉ＝１，２，…，Ｎ）とす
る。また、Ｐ_iを入力したときのニューラルネットワー
クの出力層の出力パターンＯ_i（ｉ＝１，２，…，Ｎ）
とする。

【０００５】従来技術では、すべての入力パターンを対
象とした上記出力パターンと上記教師パターンとの平均
２乗誤差Ｅ_mの値があらかじめ設定した値よりも小さく
なったとき、学習を停止するという方法が採用されてい
た。出力層のニューロンの指標をｊ（ｊ＝１，２，…，
Ｍ）としたとき、Ｅ_mは次のように定義される。

【０００６】Ｅ_m＝（１／Ｎ）ΣＥ_p （１）Ｅ_p＝（１／２）Σ（Ｔ_pj−Ｏ_pj）² （２）例えば、手書き数字のメッシュ特徴（図２（ａ）〜
（ｄ）は１６×１６メッシュの手書き数字「０」〜
「３」のメッシュ特徴の例である）を入力層１への入力
パターンとし、出力層３への教師パターンとして、断定
的な値を与えて（数字「０」を入力としたときには、
「０」に対応する出力層のニューロンだけに１、残りの
ニューロンには０を与え、他の数字のときも同様な教師
パターンを与えて）、バックプロパゲーション・アルゴ
リズムにより学習を進め、平均２乗誤差が０．０１より
小さくなったら学習を停止する。

【０００７】

【発明が解決しようとする課題】従来技術のように、入
力パターンごとに区別することなく、すべての入力パタ
ーンでの平均２乗誤差で学習の停止条件を設定したとき
に生じる問題を説明する。

【０００８】一般的に言って、Ｎ個の入力パターンを学
習に用いたとき、すべての入力パターンが同じ速度で学
習されていくとはかぎらない。比較的速く学習されるパ
ターン（２乗誤差が速やかに小さくなっていくパター
ン）と、なかなか学習が進まないパターン（２乗誤差が
なかなか小さくならないパターン）というように分かれ
る。このような状況下で、従来技術のようにトータルに
見て停止条件を設定すると、どの入力パターンも、ニュ
ーラルネットワークの学習に関して、同じくらい重要な
意味をもつようなケースでは次のような問題が生じる。

【０００９】すなわち、従来技術では、もっと学習さ
せたいのに（他のパターンが十分学習され、平均２乗誤
差が設定値よりも小さくなってしまったために）学習を
打ち切られたり、十分学習が行われているのに（他の
パターンの学習が十分行われていないために）さらに学
習を進めることになる。

【００１０】上記により、用意した入力パターンを満
偏なく学習させる（各パターンでの２乗誤差をできるだ
け同じように小さくする）ことができなくなる。また、
上記により、必要以上に特定のパターンを学習させる
（過剰学習させる）ことになる。これらが原因で、汎化
能力の高いニューラルネットワークを構築できないとい
う問題が生じる。

【００１１】本発明は、上記に鑑みてなされたもので、
その目的とするところは、入力パターンの学習の進み具
合いを個別に監視し、汎化能力の高いニューラルネット
ワークを構築し得るニューラルネットワークの学習方式
を提供することにある。

【００１２】

【課題を解決するための手段】上記目的を達成するた
め、本発明のニューラルネットワークの学習方式は、入
力層、中間層および出力層からなる多層構造型ニューラ
ルネットワークに入力パターンと教師パターンを与え
て、バックプロパゲーション・アルゴリズムにより入力
パターンと教師パターンとの間の相関関係を学習させる
ニューラルネットワークの学習方式であって、入力パタ
ーンを入力したときの出力層の出力パターンと教師パタ
ーンとの２乗誤差が所定の値以上のときには、バックプ
ロパゲーション・アルゴリズムによる重みの更新処理を
行い、前記２乗誤差が所定の値未満のときに、前記重み
の更新処理を行わないという動作を入力パターン毎に実
行することを要旨とする。

【００１３】

【作用】本発明のニューラルネットワークの学習方式で
は、入力パターンを入力したときの出力層の出力パター
ンと教師パターンとの２乗誤差が所定の値以上のときに
は、バックプロパゲーション・アルゴリズムによる重み
の更新処理を行い、前記２乗誤差が所定の値未満のとき
に、前記重みの更新処理を行わないという動作を入力パ
ターン毎に実行している。

【００１４】

【実施例】以下、図面を用いて本発明の実施例を説明す
る。

【００１５】本実施例では、入力パターンとして、図２
に例示するような手書き数字のメッシュ特徴を与え、教
師パターンとして、上述したように例えば数字「０」を
入力したときには、「０」に対応する出力層のニューロ
ンのみに１を与え、残りのニューロンには０を与えると
いうように断定的な値を与える場合を例にとって説明を
行う。

【００１６】入力パターンをＰ_i（ｉ＝１，２，…，
Ｎ）、教師パターンをＴ_i（ｉ＝１，２，…，Ｎ）とす
る。Ｐ_iを入力したときの出力パターンをＯ_i（ｉ＝
１，２，…，Ｎ）とする。

【００１７】Ｐ_iが数字「０」の入力パターンのときに
は、Ｔ_i＝（１０００００００００）である（「０」に
対応する出力層のニューロンには１、その他のニューロ
ンには０を教師信号として与えるという意味）。Ｐ_iが
数字「１」の入力パターンのときには、Ｔ_i＝（０１０
０００００００）である（他の数字に対応する入力パタ
ーンのときも同様）。

【００１８】多層構造型ニューラルネットワークの規模
は、入力層のニューロン数は２５６個（入力パターンが
１６×１６のメッシュ特徴なので）、出力層のニューロ
ン数は１０個（手書き数字には、１０個のクラスがある
ので）、中間層のニューロン数は２０個（これは通常、
試行錯誤的に決定する）である。

【００１９】次に、図３を参照して、作用を説明する。

【００２０】まず、パターンＰ₁をニューラルネットワ
ークの入力層１に入力する（ステップ１１０）。それか
ら、順方向（入力層→中間層→出力層）に計算して、出
力層での出力パターンＯ₁を得る（ステップ１２０）。

【００２１】前述した式（２）に従って、Ｔ₁とＯ₁と
の間の２乗誤差Ｅ₁を計算する（ステップ１３０）。そ
して、計算した２乗誤差Ｅ₁があらかじめ設定した値α
以上のときには、バックプロパゲーション・アルゴリズ
ムにしたがい、逆方向（出力層→中間層→入力層）で重
みの更新を行なう。α未満のときには重みの更新は行な
わない（ステップ１４０）。

【００２２】そして、上記ステップ１１０〜ステップ１
４０と同様の動作を他の入力パターン（Ｐ₂〜Ｐ_N）に
対して実行する（ステップ１５０）。すべての入力パタ
ーン（Ｐ₁〜Ｐ_N）を対象とした平均２乗誤差Ｅ_mを式
（１）および式（２）にしたがって計算する（ステップ
１６０）。

【００２３】計算した平均２乗誤差Ｅ_mがあらかじめ設
定した値β未満のときには、ニューラルネットワークの
学習を停止する。β以上のときには、上記の第１からの
一連の動作を繰り返す（ステップ１７０）。

【００２４】例えば、α＝０．００５、β＝０．０１０
と設定して、上記の学習を実行させたとする。従来の学
習方式では、個々のパターンの学習の進み具合いを見な
いで、平均２乗誤差だけで学習の停止条件を規定してい
た。従って、特定のパターンでは２乗誤差が十分小さい
（例えば０．００１）のに対し、学習の遅いパターンで
は２乗誤差がかなり大きい（例えば０．０５０）のに学
習が停止してしまうという、学習上のアンバランスが生
じる。

【００２５】これに対し、本発明の学習方式では、２乗
誤差が０．００５未満に到達したパターンに対する学習
動作（重みの更新）は行なわず、２乗誤差が０．００５
以上のパターンに対する学習動作のみ実行する。

【００２６】従って、トータルに見たときの停止条件
（平均２乗誤差がβ未満になったとき学習を終了する）
は従来技術と同じであるが、個々の入力パターンで見た
ときの学習内容がまったく異なってくる。つまり、すべ
ての入力パターンにおける２乗誤差が従来技術に比べ
て、ばらつきが少なく、減るように学習が進むようにな
る。

【００２７】従って、本発明の学習方式では、従来技術
に比べて、入力パターンに関して偏りの少ない学習が実
現できるとともに、特定のパターンに対する過剰学習を
抑えることができる。これらの結果として従来技術より
も汎化能力の高いニューラルネットワークを構築できる
ことは明らかである。

【００２８】

【発明の効果】以上説明したように、本発明によれば、
入力パターンを入力したときの出力層の出力パターンと
教師パターンとの２乗誤差が所定の値以上のときには、
バックプロパゲーション・アルゴリズムによる重みの更
新処理を行い、前記２乗誤差が所定の値未満のときに、
前記重みの更新処理を行わないという動作を入力パター
ン毎に実行しているので、学習が十分進んだ状態にある
パターンの学習は停止し、学習がまだ十分でないパター
ンの学習のみ継続し、従って入力パターンに関して偏り
の少ない学習が実現できるとともに、特定のパターンに
対する過剰学習を抑えることができ、結果として汎化能
力の高いニューラルネットワークを構築することができ
る。

【図面の簡単な説明】

【図１】多層構造型ニューラルネットワークの構成を示
す図である。

【図２】手書き数字のメッシュ特徴の例を示す図であ
る。

【図３】本発明の一実施例に係わるニューラルネットワ
ークの学習方式の作用を示すフローチャートである。

【符号の説明】

１入力層のニューロン２中間層のニューロン３出力層のニューロン

Claims

【特許請求の範囲】

【請求項１】入力層、中間層および出力層からなる多
層構造型ニューラルネットワークに入力パターンと教師
パターンを与えて、バックプロパゲーション・アルゴリ
ズムにより入力パターンと教師パターンとの間の相関関
係を学習させるニューラルネットワークの学習方式であ
って、入力パターンを入力したときの出力層の出力パタ
ーンと教師パターンとの２乗誤差が所定の値以上のとき
には、バックプロパゲーション・アルゴリズムによる重
みの更新処理を行い、前記２乗誤差が所定の値未満のと
きに、前記重みの更新処理を行わないという動作を入力
パターン毎に実行することを特徴とするニューラルネッ
トワークの学習方式。