JPH01320565A

JPH01320565A - ニューラルネットの学習効率化方法

Info

Publication number: JPH01320565A
Application number: JP63153827A
Authority: JP
Inventors: Masami Nakamura; 中村　雅己; Kiyohiro Kano; 清宏鹿野
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date: 1988-06-22
Filing date: 1988-06-22
Publication date: 1989-12-26
Anticipated expiration: 2010-11-13
Also published as: JPH07104848B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分′ｆｆ］この発明はニューラルネットの学習効率化方法に関し、
パターン認識、たとえば文字認識や音声認識、法則の発
見たとえば文章中の単語列予測等の問題をニューラルネ
ットにおいて、バックプロパゲーション法を用いて学習
を行なう際の学習効率化方法に関する。

［従来の技術］この発明が改善しようとするバックプロパゲーションの
学習アルゴリズムについて、以下に説明する。

第５図はバックプロパゲーションアルゴリズムが対象と
する多層ネットワークの構造を示す図であり、第６図は
第５図に示した各ユニットの人出力関係を示す図である
。

バックプロパゲーション学習アルゴリズムが対象とする
ネットワークは、第５図に示すように、入力層、出力層
およびＨｉ　ｄｄｅｎ−Ｌａｙｅ　ｒと呼ばれる中間層
で形成される多層ネットワークである。

ネットワークのユニット間は入力層から出力層に向かっ
て結合されており、第６図に示すように、それぞれのユ
ニッ゛トｊでは他のユニットｉからの入力、すなわちユ
ニットｉの出力とユニットｉ。

５間の結合重み係数ＷＪｉの積の総和ｎｅｔ）ｍΣＷＪ
　ｌ　　・ｏｌをとり、さらに入出力関数ｆ　（ｘ）を
通して、出力信号ｏ＝　−ｔ　（ｎｅＪ　）を出す。

すなわち、成る入力信号のパターンをネットワークの入
力層に入れたときに、上述のような計算をすべてのユニ
ットで行ない（但し、入力層では入出力関数を通さない
ことが多い）、最終的に出力層から出た信号パターンが
望ましいパターンになるように、ユニット間の結合重み
係数を決定する。

ここでは、評価関数として教師信号とニューラルネット
の出力信号の誤差の二乗和ＥＦを用いている。

Ｅｒ−１／２・Σ（ｔｐ　Ｊ　　　ＯＦ　Ｊ　）　２・
・・（１）ここでｔｐ）は入カバターンＰに対する出カ
ニニットｊの教師信号であり、ＯＰＪ　は出カニニット
ｊの出力信号である。この誤差関数ＥＰをすべての入カ
バターンに対して最小にする必要がある。

よって問題はＥ−ΣＥｒを最小にするような結合重み係
数を決定するという最小化問題となる。

この問題を解くために、バックプロパゲーション学習ア
ルゴリズムでは、最急降下法を用いている。すなわち、
入カバターンｐごとの結合重み係数ＷＪＩの更新量ΔＰ
ＷＪｉ　を次の値（２）式のようにエラー交換の勾配に
比例した形で与える。

Δｐ　ｗ、、ｏＣ−３Ｅｐ　／ａｗ；　＋　　　　−（
２）まず・　ＰＥｐ　／３ｗ、、を求める。

ａＥｒ　／’；）Ｗ；　Ｉ−ａＥｐ　／９ｎ　ｅ　ｔｒ
　）　　・ｎ　ｅ　ｔ　Ｆ　Ｊ　／　３　Ｗｊ　Ｉ　　
　　　　　　　”’　（３）ｎｅｔｐ２−ΣＷＪＩ　　
・ＯＰｋであるから右辺のに右側はｎ　ｅ　ｔｐ　Ｊ　／ａｗｊ＋　−”／２＋　ＷＪ　＋
　’ΣＷｊ　ｋ　　ｅｏｐ　１−ＯＰ　Ｉ　　　　　　
　−（４）である。次に、ユニットｊに対して、 δｐ　Ｊ　−−ａＥｐ　／９ｎｅｔｒ　Ｊ　　　　−（
５）と置くことにより、 −フＥｐ　／ａ　ｗＪ　＋　−δｐ　Ｊ　　・ｏｒ　＋
　　・”　（６）よって、第（２）式の学習規則は ΔｐＷＪｌ　−７７’δＰ　；　　ＩＩｏｐ　＋　　　
　−（７）となる。ここで、ηはステップサイズを決定
する定数である。

次に、δＰ、を求め、 δｐ　、−−３Ｅｒ　／ａｎｅ　ｔｐ　。

＝−ａＥｒ　／ａｏｐ　」　・”ａｏｒ　Ｊ　／ｎｅｔ
ｒ　ｊ　　　　　　　　　　　・・・（８）ここで、□
Ｐ、−ｆ　（ｎｅｔｐｊ）であるから右辺の右側は３ｏｐｊ１つｎｅｔｒｊ−ｆ’　　（ｎｅｌ」）・・・
（９）である。右辺の左側はユニットｊが出カニニットかそう
でないかによって式は異なる。ユニットｊが出カニニッ
トの場合、ＥＰ−１／２・Σ（ｔｒＪ　　０ＦＪ）２・・・（１）
であるから、 ’；ｉＥｒ　／７３ｏｐ　Ｊ　−（ｔｒ　；　−ＯＦ　
Ｊ　）・・・（１０）となり、直接δＰＪが次の第（１１）式のように求まる
。

δＰＪ　　＝（ｔｐＪ　−ｏｒｂ）　　・ｆ’　　（ｎ
ｅｔｒＪ）（ユニットｊ；出カニニット）　　　・・・
（ｉ　１）一方、ユニットｊが出カニニットでない場合
、ＥＦがＯＦＪの直接の関数とならない。したがって、
次式のように変形してδＰ、の再帰関数として求めると
いう工夫を行なう。

３Ｅｐ　／３０Ｐ　Ｊ−ΣｅａＥｐ／、）ｎｅｔｐ。

ト、３／ａｏ、Ｊ　（Σｗｋｋ　・Ｏｒ　＋　）−Σφ３
Ｅｒ　／３ｎ　ｅ　ｔｒ　　１　−Ｖ／ｌ　Ｊ一−Σδ
ＦｉＷｋ　ｊ　　　　　　　　　　　　・・・　（１２
）δＰ、ｊ　　−ｆ’　　（ｎｅｔｐ　Ｊ　）　　命Σ
δＰＩＷｌｊ（ユニットｊ；中間ユニット）　　　　　
・・・（１３）このように、ΔＦＷＪｉ　を計算するの
に必要な誤差情報σＰ、を出力層から人力層へ逆に伝搬
しているのでバックプロパゲーションという。

バックプロパゲーション学習アルゴリズムでは、ユニッ
トの入出力関数ｆ　（ｘ）として、上述の第（１１）式
および第（１３）式から明らかなように、微分可能な関
数が必要とされる。Ｄ、　　Ｅ、　Ｒｕｍｅｌｈａｒｔ
　　ｅｔ　　ａｌ：Ｐａｒａｌｌｅｌ　　Ｄｉｓｔｒｉ
ｂｕｔｅｄ　　Ｐｒｏｃｅｓｓｉｎｇ、Ｍ、Ｉ、Ｔ、Ｐ
ｒｅｓｓ　（１９８６）では、次のような非線形単調増
加のシグモイド関数を用いるのがよいとしている。

ｆ　（ｘ）−１／１＋ｅ−”　　　　　　　−（１４）
すなわち、ユニットｊの出力は次の式のようになる。

ｆ　（ｎｅ　ｔｌ）　−ａｔ　Ｊ　−１／　（１＋ｅ−
１ｔＰｊ）・・・（１５）ここで、入力の総和ｎｅｔｒＪはｎｅｔｒ、１−ΣＷｊ
ｉ’ＯＰｉ　十〇、としてバイアス成分θｊを加える。

実際のネットワークでは、人力ユニ・ント以外のすべて
のユニットと結合する、出力が常に１のバイアスユニッ
トを考え、θ、をその結合重み係数とみなして学習する
。

ｆ　（口ｅｔｐＪ）の導関数を求めると、ｆ’　　（ｎ
ｅ　ｔｐ　Ｊ）ｍａｏｐ　、、／２ｉｎｅ　ｔｒ　Ｊ−
ＯＦ　Ｊ　　・（１−ＯＰ　；　）　　　　　　　　−
（１６）よって、結合重み係数ＷＪＩの更新量ΔＰ　Ｗ
）　（は次の式で得られる。

Δｐ　ＷＪ　Ｈ■η争δｐ　＝　　ａｏｐ　＋　　　・
＝　（１７）但１７、ユニットｊが出カニニットの場合
は、δｐ、ｗｍｏｐ）　　＠　（１−ＯＰＪ）　　・　
（ｔｐ７−ＯＰ　Ｊ　）　　　　　　　　　　　　　　
　　・・・（１８）であり、ユニットｊが中間ユニット
の場合は、δｒ　　Ｊ−ｏｒｉ　　　−（１ｏｒ　　Ｊ
　）　　−Σ　δＰ　　、　　Ｗ　Ｋｊ・・・　（１つ
）である。

結合重み係数ｗ４．の更新は、入カバターンが複数ある
のが一般的であるので、１つの入カバターン提示ごとに
実行するか、次式のように全入カバターン提示後に ΔＷｊｌ−η・Σ（δｒ７　　中ｏｒｌ）・・・（２０
）として実行するか、２つの方法がある。

［発明が解決しようとする課題］上述のごとく、バックプロパゲーション学習アルゴリズ
ムの基本原理は最急降下法であるため、最短距離で最小
値に到達するためには、更新幅（ΔＷ、、）を無限小に
する必要があるが、実際問題として、計算繰返し回数が
増加するため、収束速度は遅くなる。そこで、なるべく
大きな更新幅（ΔＷＪ　Ｉ　）を得るために、上述の第
（７）式のηの値を大きくとりたいが、更新方向が振動
しやすくなる。前述のＲｕｍｅｌ　ｈａ　ｒ　ｔの文献
では、前回の更新幅をモーメンタム量として次式のよう
に加算することにより振動を抑制することを提案］７て
いる。

ΔＷＪ　＋　　（ｎ＋１）　−７７争ａｐ　）　豪ｏｐ
　１＋α・ΔＷｊ　＋　　（ｎ）　　　　　　　　　　
　・・・（２１）ここで、αはモーメンタム量を調整す
るパラメータである。このη、αは定数であるが、これ
らの最適な値（収束が速くなる値）はエラー空間の形状
、すなわちタスクの種類やサンプルデータの量によって
異なるはずであり、さらに学習進行の程度によっても変
化すると考えられる。このように、従来はタスクに合っ
たη、αの値を経験的に決めていたため、学習に時間が
かがったり、不適当な局所的最小値に陥りやすいという
問題点があった。

それゆえに、この発明の主たる目的は、学習繰返し計蛋
ごともしくは何回かの学習繰返し計算に１回の割合で、
エラーが最小となるようにη２　αをダイナミックに変
更する方法を提供することである。

［課題を解決するための手段］この発明はバックプロパゲーション法を用いた多層ニュ
ーラルネットの学習において゛、学習の繰返し計算ごと
あるい°は何回かの学習繰返し計算に１回の割合で、ニ
ューラルネットの出力誤差が最小値もしくは最小に近い
値をとるように、更新ステップ幅およびモーメンタムの
パラメータの値を変更するようにしたニューラルネット
の学習効率化方法である。

［作用］この発明に係るニューラルネットの学習効率化方法は、
学習：１算繰返しごとに、次式によりエラー　Ｅ　Ｐが
最小となるようにη、αをダイナミックに変更する。

ＥＰ　　（ＷＪ　＋　　（ｋ）＋ΔＷｊ　ｌ　　（ｋ）
　　（７７（ｋ）、α（ｋ））’）（η込、αｍ）） η、αの値を有限個用意して、その中からエラーＥＰが
最も小さくなるη、αを選択する。

［発明の実施例］第１図はこの発明の一実施例である単語列予測のための
多層ネットワークの構造を示す図である。

この発明を文章中の単語を予測するニューラルネットワ
ークモデルに適用した実施例を以下に示す。このモデル
は現在の単語の品詞から次の単語の品詞を予測しようと
するものである。実験条件を次に示す。

（１）　タスクは単語列予測モデルである。

（２）　ネットワーク入力は現在の単語の品詞番号（品
詞番号に相当するユニットのみ“１”であり、他はすべ
て“Ｏ“である）。

（３）　ネットワーク出力教師信号は次の単語の品詞番
号である。

（４）　ネットワーク構造は第１図に示すように、バッ
クプロパゲーションアルゴリズムが対象とする多層ネッ
トワークであり、入力層は８９個のユニット（品詞の数
）であり、中間層は１６個のユニットが２層であり、出
力層は８９個のユニット（品詞の数）である。

（５）　サンプル数は１センテンス２３である。

（６）　パラメータは次のとおりである。

ステップ幅ηは従来方法では０．１または０゜４の一定
値であるのに対して、この発明では、（１／２，１．２
）Ｘη（ｋ”−１）、すなわち前回の値の１／２，１．
２倍の３種類が選択される。

モーメンタムαは従来方法では０または０．９の一定値
であるのに対して、この発明では０，０゜９の２種類が
選択される。

第２図は学習効果率法の効果を確認実験した結果を表に
表わした図であり、第３図および第４図は向じくグラフ
で示したものである。

第２図および第３図から明らかなように、この発明では
ステップ幅ηを３種類選択しかつモーメンタムαを２種
類選択した場合には、収束するまでの繰返し計算回数が
３５回（ＣＡＳＥＩ）であるのに対して、従来のように
、ステップ幅ηを０゜１に固定しかつモーメンタムαを
０．９に固定した場合、収束するまでの繰返し計算回数
が１５３回（ＣＡＳＥ２）になり、この発明による方法
の方が従来に比べ、て４．３倍以上収束が速くなってい
る。

また、パラメータが一定の場合の、たとえばステップ幅
η−０，４のときはエラーの振動が生じやす＜　（ＣＡ
ＳＥ３．ＣＡＳＥ４）　、ステップ幅η−０，１であれ
ば収束が遅くなる（ＣＡＳＥ２゜ＣＡＳＥ５）。さらに
、モーメンタムαについては、α−０，９の場合ステッ
プ幅ηの値も大きければ不安定な状態が持続しくＣＡＳ
Ｅ３）、α−〇の場合、学習が進んでも収束速度が加速
しない（ＣＡＳＥ５）。

次に、この発明によるステップ幅η、モーメンタムαを
ダイナミックに変更する方法により、タスクに対してエ
ラーの収束判定で学習サンプル数を増加させる実験を行
なった。ここでは、モーメンタムαは（０，０，２，０
，９）の３種類を選択することにした。その結果を第４
図に示す。モーメンタムαについては学習初期およびサ
ンプル数が増加した場合、α−０あるいは０．２をとり
、それ以外はほとんどα−０，９を選択している。

これは、学習の初期はリンクウェイトの修正方向が不安
定であるため、モーメンタムαによる加速はオーバシュ
ートを起こしやすいからであり、サンプル数が増加した
場合も、エラー空間が変形するため、過去のリンクウェ
イトの修正方向を引きずらない方が良いからである。

一方、ステップ幅ηについてはサンプル数が増加するに
従って減少している。すなわち、この発明では、サンプ
ルの数の大きさに対して、自動的にステップ幅ηの値を
正規化しているのがわかる。

［発明の効果］以上のように、この発明によれば、タスクの種類や学習
サンプルの量に対して最適に近いパラメータの値を自動
選択し、学習の進行状況に応じてパラメータを自動調整
しており、結果として学習の効率化を図ることができた
。今回は１回の繰返し計算ごとにすべてのパラメータの
組合わせに対して計算を行なったため、ステップ幅ηを
３種類。

モーメンタムαを２種類の場合、１回の繰返し計算に６
倍の時間を必要とした。しかし、実験結果から明らかな
ように、成る程度学習が進めば毎回パラメータを変更す
る必要はないので、変更のインターバルを大きくとるこ
とによりこの問題は解消される。

また、ここでは有限個のステップ幅η、モーメンタムα
の値から最小値を選んでいるが、二次元探索法などによ
り、ステップ幅η、モーメンタムαの値を決定してもよ
いのはもちろんのことである。

【図面の簡単な説明】

第１図はこの発明の実施例である単語列予測のだめの多
層ネットワークの構造を示す図である。第２図はこの発明による効果の確認実験結果を表に表わ
した図である。第３図および第４図はこの発明による効
果の確認実験結果をグラフに示した図である。第５図は
バックプロパゲーションアルゴリズムが対象とする多層
ネットワークの構造を示す図である。第６図は第５図に
示した各ユニットの入出力関係を示す図である。第１図第２図第３図第５図第６図手続補正書昭和６′う年１０Ｊ１２６＋１、発明の名称ニューラルネットの学習効率化方法３、捕１Ｆをする者中外との関係　　特許出願人住　所　京都府川楽部精華町大字乾谷小字三平谷５番地
名　称　株式会＞１エイ・ティ・アール自動翻訳１゛ヒ
話研究所代表者　樗松　　明４、代理人住　所　大阪市北区南森町２−’Ｊ−［”Ｊ　１番２９
号　住友銀行南森町とル６、補正の対象図面の第３図ならびに第４図７、補正の内容（１）　図面の第３図ならびに第４図を別紙のとおり補
正する。以上

Claims

【特許請求の範囲】　バックプロパゲーション法を用いた多層ニューラルネ
ットの学習において、前記学習の繰返し計算ごとあるいは何回かの学習繰返し
計算に１回の割合で、ニューラルネットの出力誤差が最
小値もしくは最小に近い値をとるように、更新ステップ
幅およびモーメンタムのパラメータの値を変更すること
を特徴とする、ニューラルネットの学習効率化方法。