JPH047660A

JPH047660A - ニューラルネットワークによる情報処理装置

Info

Publication number: JPH047660A
Application number: JP2107580A
Authority: JP
Inventors: Ikuo Matsuba; 松葉　育雄; Ichiro Sugita; 一朗杉田
Original assignee: Hitachi Ltd; Hitachi Keiyo Engineering Co Ltd
Current assignee: Hitachi Ltd; Hitachi KE Systems Ltd
Priority date: 1990-04-25
Filing date: 1990-04-25
Publication date: 1992-01-13
Anticipated expiration: 2013-10-15
Also published as: EP0454037A3; JP2810202B2; DE69130840D1; DE69130840T2; EP0454037A2; US5255347A; EP0454037B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、従来の計算機では解決困難なパータン認識な
ど、各種の情報を統合している情報処理を行うニューラ
ルネットワークの構成に関する。

〔従来の技術〕

従来、パラレル・デイストリビューティラド・プロセッ
シング■とＩＩ　（１９８６年）　（Ｐａｒａｌｌｅｌ
Ｄｉｓｔｒｕｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ　　Ｉ
　　ａｎｄ　ＩＩ、　（１９８６）で述べられているよ
うに、データとデータの一対一関係の記憶・学習法があ
った。

〔発明が解決しようとする課題〕

上記従来技術は、入カデータの質的に異なる特徴を混合
して情報処理することによりネットワークの所望のタス
クを充分に実行できる、などのニューラルネットワーク
の特性を充分に考慮していないため、パータン認識を始
め、時系列データなど時間的変化を扱う情報処理を充分
に行うことができなかった。

本発明の目的は、入カデータの質的に異なる特徴を個別
に処理、記憶し、とりまく環境の不確定性要素を考慮し
た上で、各特徴の統合処理を具備したことを特徴とする
ニューラルネットワークによる情報処理装置を提供する
ことにある。

〔課題を解決するための手段〕

上記１的を達成するために、第１図に示すように、次元
の異なる各種の情報を統合して処理するニューラルネッ
トワークによる情報処理装置において、確定的な入カデ
ータに対しては後の処理の混同を避けるため、前処理を
経て、階層的特徴抽出器１０２で前処理１０６を通過し
たデータを予めいくつかの特徴に分けて別々のデータと
して扱い、それぞれの特徴データ１０７に対応するニュ
ーラルネットワーク群１０３の学習機能付ニューラルネ
ットワーク１０８でそれぞれの特徴データを並列的に学
習により記憶する。取り巻く環境の不確実であいまいな
外部要因１１０であるデータは、競合・協調型ニューラ
ルネットワークでニューラルネットワーク処理をした後
、異種情報統合ロジック生成装置１０４で特徴データの
合成に必要な情報を決定する。最後に、競合・協調型ニ
ューラルネットワークで処理した不確定的な入カデータ
を用いて入力時に分離した特徴データを学習機能付異種
情報合成装置１０５で合成し、最終的な出力情報１０９
とする情報処理を行なう。

〔作用〕

第１図において、まず、人カデータ数に対応した１ある
いは複数個のニューロンで構成されたネットワークの入
力部からデータを入力し、ニューロンで処理できるよう
に例えばＯと１の間の値になるように規格化し、更に必
要に応じて量子化し。

時系列データ処理、プロセス制御など対象に応じて１例
えば平均的挙動に不可欠な大域的特徴、微細な変動を表
わす局所的特徴など、必要な異なる特徴がネットワーク
の出力部に位置するニューロンから出力を可能とする。

ニューロン間は情報伝達効率を変更できるシナプスで結
合され、各ニューロンは重み付き総入力の値に応じてそ
の出力を決定するしきい値論理を実行し、それらが必要
に応じた規模の数で結合した入力層と出力層を含む２層
あるいは２層以上の多層型ニューラルネットワークで構
成され、階層的特徴抽出器からの出カデータを入力層お
よび出力層に与え、過去の事例から学習により学習機能
付ニューラルネットワークへの入力と出力との対応関係
つまり写像をシナプス結合の値を調整することでシナプ
ス結合間に分散的に学習により記憶する。

異種情報統合ロジック生成装置では、統計的な手段で、
測定不可能な１あるいは複数の未知要因に対する因果関
係を頼りにした競合・協調型ニューラルネットワークの
出力として、不確実であいまいなデータの最終的な情報
処理に与える影響、たとえば階層的特徴抽出器で抽出さ
れた特徴データの重み付けに関するルールなどを決定す
る。

学習機能付異種情報合成装置において、異種情報統合ロ
ジック生成装置からの出カデータから、たとえば階層的
特徴抽出ネットワークで抽出された特徴データの重み付
けに関するルールに含まれる１あるいは複数のパラメー
タを過去の事例からニューラルネットワークで学習し、
決定する。

〔実施例〕

以下、本発明による実施例を述べる。

具体的な例として、以下では時系列データ処理を扱う。

ニューラルネットワークを用いた時系列データ処理方式
は、静的信号処理、静止画像処理のような静的な処理に
比べると、かなり進展が遅いように思われる。通常の多
層ニューラルネットワークは、入カデータとそれに対応
する一般に符号化されたデータの写像関係を学習により
記憶するように設計されている。それ故、時間的要素に
入る余地はなく１時系列データのようなダイナミックス
を対象にする場合には、ネットワークの構成を新たに設
計しなければならない。勿論１時系列データにしても、
ある系列（時間）区間のデータを−まとめのパターンと
見なし静的に考えるならば、既に提案されているニュー
ラルネットワークでも処理できる。しかし、時系列とし
ての重要な時間相関が全く無視される。これまで時系列
データ処理として成功をおさめたと言えるものは必ずし
もなく、時間経過の重要な音声関係ですらも静的データ
の写像の記憶問題として捉えられている程度にすぎない
。時系列に本質的な時間相関の学習記憶という観点から
ネットワークの設計しているものは１文献等では見当ら
ない。

本発明の一実施例である株価の動向を予測においては、
従来のプロセス系とは異なり対象のダナミックスがあま
り明確ではなく、しかも不特定多数の外部要因が存在す
るのではないかと思われるほど複雑な挙動を示す。本実
施例では長期開先の予測を前提にした時系列データ処理
が可能なニューラルネットワークの提案を行なうが、測
定不能な不確実環境下における一般的な問題に対しても
データ処理が可能な方式になっている。ここで扱う問題
は予測問題に限定されているが、状態推定など一般の制
御問題にも有効に使えるものと期待している。以降は、
本発明で提案するニューラルネットワークの基本構想、
およびその詳細処理内容を述べ、最後に本発明の有効性
を示すために、不確認な環境下における時系列データの
典型的な例として１株価データの動向予測に応用する。

以下に、ニューラルネットワークを時系列データ処理に
応用する場合に克服しなければならない３つの課題につ
いて列挙する。

時系列データ処理に限らすニューラルネットワークを応
用する場合にまず考慮しなければならないことは、ニュ
ーロンの出力関数としてシグモイドのような非線飽和関
数を用いていることである。

なぜならば、この飽和性のため、変動成分が大きいデー
タに対してはそれが必要であろうが不必要であろうがス
ムーズにしてしまい、データの変動が消滅させる効果が
ある。この効果のため、ノイズが付加された情報に対し
ても一見軟柔な連想処理ができるかのように見えるのが
、変動成分に意味がある一般の系列データを対象にする
場合には十分気を付けなければならない。おそらく最も
確実な方法は、このような変動成分を予め元のデータか
ら取りだして独立に処理することであろう。

ここでは、この処理を入カデータの特徴抽出処理と考え
る。

次に、長期開先の予測を前提にした時系列データ処理に
応用する場合を想定すると、まず静的データ処理と時系
列データ処理との間には本質的な考えの相違がある。静
的データ処理方式はパターンとパターンの写像の記憶問
題であるが、時系列データはそうではなく、ある時刻の
データと次の時刻のデータとの関係、つまり時間相関を
決定することが本質的な課題である。別な言い方をする
と、対象の動的過程を何等かの方法で決定することであ
る。この処理過程は出力情報を入力側にフィードバック
することにより、出カデータの各データを−あるいは数
時刻前のデータと関連させることができるフィードバッ
クニューラルネットワークで行う。

最後に考慮しなければならないことは、データの変動に
影響する不特定多数の外部的要因である。

既知の特定外部要因は別にしても、事実上、全ての外部
要因を特定できるわけではなく、しかもかなり多数存在
する場合がほとんどである。このため、不特定多数の外
部要因の影響をマクロに捉え、要因が多数あることを積
極的に取り入れて、シナージェティック的な統計手段で
このマクロな影響を決定する手段（モデル）を提供する
。実際のデータを利用してこの統計手段の有効性を確認
した。

各処理の詳細な説明に入る前に、第１図を用いて全体シ
ステムのデータの流れについて大まかに説明する。

与えられた異種情報１０１の時系列データをＮＮ　（Ｎ
　＝　１　ｔ　２　＋　３　＋・・・・・・）で表わす
。データ処理の第一段階は、ＸＮの特徴をどのように捉
えるかである。つまり、ニューラルネットワークへの入
力としてＸＮをそのまま用いるのか、それともなんらか
の加工したものを用いるべきかである。

当然、対象に依存することであるが、ここで第５図に示
すように２種類の加工データを考える。−船釣なニュー
ラルネットワークの性質として、ニューロンの出力関数
として飽和関数（シグモイド）を利用しているので１元
のデータ５０１を滑らかにする傾向がある。つまり、ノ
イズ除去の効果を持っている。しかし、後で述べる株価
データのように変動そのものが重要な場合には、飽和関
数のノイズ除去効果により変動成分が消去されてしまう
ことになる。そこで、変動そのものを別なデータ５０３
としてＸＮから、例えば微分演算を施して利用する。さ
らに、高次の変動が必要な場合には、高暗の微分をとれ
ば良い。別な方法としては、たとえば幅の異なるガウシ
アンフィルターを用意すれば同様の処理を行なうことが
できる。このようにして分離したデータを、仮りにＹデ
ータ、Ｘデータと名付けることにする。これらのデータ
を外部要因の影響をシナージェティック的な統計手段で
決定するモデルを考慮して合成し、最終的な予測データ
を出力する。

階層的特徴抽出器１０２では、第５図に示すように、与
えられた時系列データ５０１をＸＮ＝αＸＹＮ＋（１−
α）ＸＸＮのように大域的特徴５０２を表わすＹデータ
と局所的特徴５０３を表わすＸデータに分解する。

このようにＹ、Ｘと名付けた系列データは、以下のよう
にして与えられたデータＸＮ（Ｎ　＝　１　、２　。

３、・・・・・・）から構成する。（第２２図）特徴を
抽出するために構成されたネットワーク２２０１から、
次式に従ってデータを分割２２０２する。

ＸＹＮ＝ＸＮＸＸＮ：　　（Ｘｎ＋Σ、＝、Ｘ　、　）　　　　　　
　（２）ここに、αはＯから１までの正のパラメータで
、ＹとＸのデータの混合比率を表わす。式（１）では、
元のデータＸＮをそのまま用いているが、ニューロンの
飽和出力関数の特性を利用して、ノイズなどの不必要な
情報を除去したデータが得られる。もっとも、陽に平均
操作を施したデータ＜ＸＮ＞でも良い。ＸデータはＸＮ
の局所的な特徴、つまり変動成分を表わすようにしたい
ので、ここではＸＮをある基準時刻における値Ｘｎから
、差のデータＸＪを用いて表現することにした。データ
の局所的特徴はこれ以外にも、たとえば幅の異なるガウ
シアンフィルター処理でも抽出できるが。

最も単純な上式を利用することにする。ＹとＸのデータ
は、例えば、第４図に示す簡単な結合定数を固定したネ
ットワークで生成できる。前処理された各データ４０１
は、それぞれ入力層４０２から出力層４０３に伝播し、
入力層のニューロンと出力層のニューロンは各データ処
理に応じて、正負の値をもつ定数４０４で結合されてお
り、出カデータ４０５が取り出される。

ニューラルネットワークで学習するデータは結局ＸＮと
Ｘ１で、予測時刻以前の過去の時系列データを教師デー
タとして使用する。勿論、これらのデータは独立ではな
いが、ニューロンの飽和出力関数を考慮し、データの変
動分は独立した別のデータと考えた。ここで暗に対象と
している株価データは、この変動分が重要な意味をもつ
のであるが、そうでない場合にはこのような分離の必要
性はない。

大域的特徴と局所的特徴の比を表わす定数αはある意味
では学習パラメターになっているが、これを決定する要
因は直接データに内在するものではなく、むしろ外部的
なものと考えられる。しかし、外部的要因は一般には必
ずしも全て特定できるわけではなく、学習可能なパラメ
ータにはなりえないのである。しかし、全く決定不可能
というわけではなく、以下に述べる様に、一般の場合に
は満足されているだろうと思われるある条件を前提にす
れば、統計的性質を利用した方法で決定できる。

データ群Ｘ、〜Ｘｎ６０１から長期開先のデータ群Ｘ　
ｎ　＋　ｚ〜ＸＮ６０２を予測する問題に限定する。

第６図に示すように、学習過程においては、ｎ時刻まで
のデータをすべて利用できる。これ以外にも、状態推定
など通常の制御処理も同様に扱うことができるが、ここ
では予測問題に限定する。従来の単純な多層ニューラル
ネットワーク的な観点からは、たとえばＸ１〜ＸｎとＸ
　ｎ　＋　１〜ＸＮの写像関係の記憶として捉えること
になるであろう。しかし、これでは最初の予測出カデー
タＸ　ｎ＋、は別にしても、それ以降のＸ　ｎ　＋　ｚ
〜ＸＮは各出カデータに関連しているはずの−あるいは
数時刻前のデータの影響が全く無視されてしまう。これ
では、時系列データとしての特質は全く意味をなさず１
通常のパターン間の写像と異なることがない。系列デー
タ、一般に既知、あるいは未知の関数Ｆを用いて、ＸＪ＝Ｆ（ＸＪ−１，ＸＪ−２，・・・・・・）　　ｊ
”ＬＬ３＋・・・・・と書けることから容易に理解でき
る。別な言い方をすると１時系列データ処理はパターン
間の写像記憶ではなく、データ間の相関関係の連想、つ
まり関数Ｆを決定することである。

ここで提案する時系列データ処理用の二二一ラルネット
ワークの入出力関係を第６図に示す。

このネットワークは大域的特徴Ｙと局所的特徴Ｘの両デ
ータに共通して用いるが、もちろん、ニューロン間の結
合定数はそれぞれ異なる。それぞれのネットワークをＹ
記憶、Ｘ記憶と名付ける。

ネットワークの特徴は、図に示すように出力情報入力側
にフィードバック６０５されていることにある。このフ
ィードバックにより、出カデータ群Ｙ　ｎ＋ｘ〜ＹＮの
各データを−あるいは数時刻前のデータと関連させるこ
とができる。ところが、このフィードバック６０５が存
在するために一時刻先の予測は当然可能であるが、本実
施例の課題である長期開先の予測は原理的に不可能にな
ってしまう。そこで、学習過程においてはすべてのデー
タが利用できるのでフィードバック６０５が存在しても
何等支障がないが、第７図に示すように、認識過程（予
測過程）においてはフィードバックをカットできるよう
にする。これを達成するために、出カデータに対応する
入カデータとして、ＸＪ　　　ＹＪｊ＝ｎ＋１．　　ｎ＋２゜、ＮＸＪ−ＹＪ　ｌ　　　ｊ＝ｎ＋１．　　ｎ＋２．　　　
　　、＋＋＋＋＋　　Ｎを用いることにした。絶対値を
付けたのは、ニューロンへの入力が正に限られているか
らである。

学習過程が終了すると、ＸＪ＝ＹＪｌ　ｊ　＝　ｎ　＋
　１　。

ｎ＋２．・・・、Ｎが実現しているはずなので、期待ど
おり認識過程においてはフィードバックが消滅する。し
かしながら、学習過程で時系列データとしての相関関係
はニューロン間の結合定数に分散記憶６０４されている
ので、単なるパターン間の写像とは本質的に異なる。尚
、入力が０になってもニューロンの出力特性から０．５
が出力されるので、常にニューロンは活動状態にある。

〔アルゴリズム〕　（第２３図） ■：演算の開始。（２３０１） ■：係数定数ｗｔａ（ｎ）の初期値を設定する。

■：各対象に対し各層のニューロンの状態Ｘ１（Ｑ）を
決定する（２３０３） ■：教師情報を用いて出力層でのｚｔ　（Ｌ）を計算す
る。（２３０４） ■：出力層に結合する係数定数ＷｉＪ（Ｌ）を、ＺＩ（
Ｌ）を用いて決定する。（２３０５）■：上下層ＺＩ　
（Ｑ）を、上層ですでに決定されているＷＩＪ　（Ｑ　
＋　１　）から求める。

■：■の処理を入力層まで繰り返す。

■：以上の様にして決定されたＷ□（Ｑ）を初期値とし
、フィードバック項式（４）を入力層に入力する。（２
３０８） ■：繰返しを終了するかどうか収束判定をし、収束しな
ければ、■から■の処理を繰返す。

［相］：収束すれば、演算を終了。（２３１０）時間相
関を取り入れる方法は上記の方法以外にも、たとえば、
学習の初期過程において式（４）に代わりＸ４およびＸ
Ｊをフィードバックし、それ以降はフィードバックを強
制的にＯにおくことも可能であろう。

以上で、学習機能付ニューラルネットワークの入出力関
係の特徴を述べたが、具体的には多層（以下の例では３
層）ニューラルネットワークを前提とする。

最後に、学習機能付異種情報合成装置１０５で決定する
のがパラメータαである。先に述べたようにこれを決定
する外部要因は必ずしも全て特定できるわけではないの
で、何か別のアプローチで必要である。ここでは、外部
的要因が多数あるとの前提を積極的に利用して、シナー
ジェテイック的な統計手法でαを決定する手段（モデル
）を導く。外部的要因はいずれにしてもデータＸＮに反
映されるものであるが、αはもともと大域的な特徴と局
所的な特徴の比率を表わすパラメターであることを考慮
すると、間接的に外部要因の全体的な影響を一つのパラ
メターに縮約して表したのがデータのバラツキＸＮ／Ｘ
Ｎと考えられる。このバラツキは時刻に依存するので、
簡単に、ｎ＝ｍａｘ（ＸＮ／ＸＮ）をスカラー指標とす
る。結局１課題はηの関数としてαを決定することであ
る。この関数を、ファジー理論ではメンバシップ関数と
呼ばれている。

今、外部要因を添字ｊで表わし、αにも添字を付ける。

定義から、０≦α−≦１である。これは。

各外部要因はそれぞれηに与える影響度は異なることを
示すものである。この定義から各外部要因に対して、エ
ネルギー関数−α１η２なる関数を最小化するようにα
、が決定されているとモデル化できる。ここにη２はデ
ータの揺らぎの分散的な大きさを示すもので、揺らぎの
小さいときは、α、＝１となり、そうでない場合にはα
４＝０を選択する。つまり、揺らぎの小さい平均的な挙
動が重要な場合には、データＸを用い、変動の大きな場
合には、むしろ変動分表わすデータＹを重視する。一般
には、その中間的な値を採ることになる。

更に、ある要因ｉと別な要因ｊが同調あるいは競合して
変動するものとすれば、外部要因すべてについて重み付
は和をとると、Ｅ＝−ｆΣ目に＋Ｊ（７７”αｔ）　（’Ｉ”（！ａ）
ｎｋｄ　ａｈなるエネルギーが仮定できる。ここに、正
定数ｋｉＪは重みを表わす。これを全エネルギーとし、
確率分ｅｘｐ（−Ｅ）で平均したパラメターくα〉＝Σ
ＪくαＪ〉／（要因数）を求めると、〈αｔ＞〜／　ａ
　ｔｅｘｐ（−Ｅ　）ｄ　ａ　ｔ／ｅｘｐ（−Ｅ　）〜
１／η２（６）となり、η２に逆比例することになる。この結果は異種
情報統合ロジック作成器１０４で与えられる。

実施例として株価の動向予測を選んだ理由は、従来のプ
ロセス系とは異なり対象のダナミックスがあまり明確で
はなくしかも不特定多数の外部要因が存在する複雑な挙
動を示すので、新しい工学的アプローチの必要性のある
分野のように思われる。

本発明によるニューラルネットワークによる情報処理装
置の有効性を示すため、時系列データの典型例として株
価データの長期間予測を取り扱う。

課題は、与えられたデータ群Ｘ工〜Ｘｎ（ｎ＝１０）か
ら長期開先のデータ群Ｘｎ＋ｘ〜ＸＮ（Ｎ：２０）を予
測することである。元の株価データをニューラルネット
ワークに入力するために、第２図に示すように、０と１
の間に入るように前処理部１０６で規格化２０２しなけ
ればならない。ここでは、学習に用いたメカデータ２０
１を、全学習データの平均をＯとなるように線形変換後
、更にシグモイド変換を施し、正格化２０１した。さら
に必要に応じて、量子化処理２０３を施す。シグモイド
関数の傾きは、最小値は０付近、同じく最大値は１付近
になるように設定した。尚、実数データは、本来ならば
バイナリ−データに変換したほうがニューロンへの入力
として適切の様に思われるが、今の所、線形変換とシグ
モイド変換をうまく行なえば、バイナリ−データを利用
した結果との重大な相違が見出されていない。しかも、
ニューロン数および結合数が大幅に増えるので、以下に
示すシミュレーション実験では上記の様な方法を用いる
。学習過程のネットワークの入力は２０個、中間層は４
０個、出力は１０個のニューロンで構成し、認識過程で
は入カデータ用のニューロンは１０個である。使用した
株価データは８足データなので各データの添字は日をあ
られすが、実質的には日はあまり意味がないのでここで
は単位と呼んでおくことにする。学習に使用したデータ
は６４単位であり、２単位おきに順番に学習に用いたた
め、合計２２組のデータを教師として利用した。尚、す
べてのデータが入力されるようにランダムに選んだ１０
組の教師データでも、はぼ同じ学習結論が得られている
。Ｘデータ、Ｙデータとも各教師データを１０００００
回逆伝播法（学習係数は０．５で、慣性項は考えていな
い）で学習させた。出力誤差は１０−２〜１０−３程度
である。

先に、大域的特徴と局所的特徴の比αがη２に逆比例す
ることを理論的に導いた。学習時の用いたデータで最も
適したαをプロットすると、この関係が確かに成立し、
しかも、比例係数が２３となることがわかる。この関係
を用いれば、予測の際にも過去のデータ変動成分からα
を決定できるので、予測データａＸｔｐｒ＋　（１−（
Ｅ）　ＸＸＮが決定できる。

株価データ８０３の動向予測の一例を第９図に示す６図
中、予測期間８０１を矢印付の太線で、予測期間中の実
際の株価データを細線で表す。むろん、予測期間中の実
際の株価データは学習にはいっさい使用していない。全
体的には絶対値、傾向ともほぼ満足のいくものである。

ただし、９単位先ぐらいになるとやはり実際のデータの
傾向から少しずれてくる。現在、２０サンプルのデータ
で検証した結果、１６サンプルまでが予測できた。

つまり、８０％の的中率である。

学習機能付異種情報合成装置９０３の一使用例に関して
、以下に述べる。

入カデータ群９０１は重ならないようにして指定された
位置から入力する。各データは指定された順番に従って
、同期させて入力するための入力制御装Ｗ９０２で制御
されている。各データに対応した神経回路網の出力を、
必要に応じて外部情報９０４あるいは内部情報を用いて
、評価するための評価装置９０５に入力する。そこで計
算された評価値に基づいて、神経回路網を変更するため
の学習装置９０６を動作させる。

第１１図は各素子１１０１の入出力関係を表わす。各デ
ータの神経回路網への入力方向に従って。

たとえば入力１１０２に対応して、出力１１０４、また
入力１１０３に対応させて出力１１０５を出す。各素子
は神経回路網の内にある位置に従って、ある特定のデー
タのみを処理する場合もあり、また第１０図のように複
雑のデータをある順序に従って処理する場合もある。

入カデータが２個の場合を例にとり、動作の例を第１２
図に従って説明する。各入カデータ１２０１．１２０２
は複数の素子の状態として表わされるものとし、それぞ
れの値を神経回路網１２０３の端に位置する同数の素子
に与える。神経回路網１２０３は、しきい値論理素子１
２０６が必要に応じて互いに結合されているような構造
になっている。ただし、構造として特徴あることは、こ
の神経回路網は、各データが処理される素子だけを見れ
ば、それらの素子はそのデータに対しては、多層構造を
した神経回路網を構成している。従って、全体としては
、各データに対応した多層型神経回路網を複合して構成
したのが第１２図の神経回路網である。従って、入カデ
ータ１２ｏ１と、それに対応した出カデータ１２０４の
対応関係を、各素子間の結合定数に分散的に記憶するこ
とが可能である。同様に、もう−っの入カデータ１２０
２に対応した出カデータ１２０５との関係も記憶するこ
とが可能となる。さらに本発明による神経回路網１２０
３の特徴は、各データ間の関係を、各データに対応する
多層型神経回路網の接する位置に対する素子１２０７で
、各層型神経回路網の各層ごとに、各データの特徴的な
関係を記憶できる。

第１３図は、各入カデータの処理プロセスを示す。もし
、データ間の関係を考えなければ（素子１３０１を無視
すれば）全ての入カデータに対し、並列的に処理ができ
るので、入カデータ数には無関係に、高速な処理ができ
ることになる。しかし、素子１３０１を考えると、その
素子は関連するデータを同時に処理する必要があるので
、各データを同期させて入力する。このようにすると、
各時刻においてはどちらかの入カデータのみを処理して
いることになり、混存することはなくなる。

神経回路網における学習とは、入カデータと教師データ
との写像関係を、素子間の結合定数の値として記憶する
ことである。一般によく用いられている逆伝播法（パッ
クプロパゲーション法）では、与えられた入カデータか
ら得られる出カデータと教師データとの２乗誤差を０に
するように結合定数を修正する。本発明での学習法では
、第１４図に示すように、入カデータ１４０１と教師デ
ータ１４０２を同期させて入力する。そして、神経回路
網の出力素子１４０３から、それぞれのデータに対応し
た、出力１４０４．１４０５を比較器１４０６に入力す
る。ここで、出力素子は。

従来の学習用多層型神経回路網におけるちょうど中間層
の素子に対応するものである。

入カデータ１４０１と教師データ１４０２から得られる
出カデータ１４０４と出カデータ１４０５の値が等しく
なるよう学習装Ｗ１４０７で結合定数を修正する。この
ようにすると、入カデータ１４０１と教師データ１４０
２を一対一に対応さることができるので、学習ができる
ことになる。

しかも、従来法とは異なり、同期的な演算処理が可能な
ので、高速な学習処理が望める。第１５図に、具体的な
処理プロセスを示す。入カデータ１５０１、教師データ
をそれぞれ読み出し信号に同期させて神経回路網に入力
する。そして、それぞれのデータに対する出カデータの
２乗誤差１５０２が、学習が進むに従って０に収束して
ゆく。

学習機能付ニューラルネットワーク１０８において、逆
伝播法はパターン認識等で広く用いられている代表的学
習アルゴリズムである。多層型ニューラルネットワーク
では、第８図に示すように、信号７０４は入力層７０１
から、中間層７０２をへて、出力層７０３に向かって伝
播する。出力層では記憶すべき対象の符号化された情報
が教師情報として与えられる。結合定数は予め与えられ
ていないので、意味のない出力しか得られない。そこで
、出力情報と教師情報との誤差に基づき結合定数を徐々
に変更し、誤差がなくなるまで繰り返す。逆伝播法はこ
の考え方をそのままアルゴリズムの型で与えたものであ
るが、数学的に厳密に構成されたものではない。このた
め、学習速度、学習手順、学習容量など学習能力に関し
た重要なことがらはノウハウとして蓄積されているに過
ぎない。しかし、数学的裏付けが欠如し直感的に構成し
ているにも関わらず各種の応用が発表されていることか
ら分かるように予期せぬ高い能力を備えている。特に重
要なことがらは、原理的には学習可能な場合（与えられ
た学習パターンをすべて記憶できる十分余裕のある結合
定数で構成されたネットワーク、あるいは単純に学習パ
ターン数と同サイズの中間層で構成されたネットワーク
）にも、例えば初期値により必ずしも出力誤差がＯにな
らない、つまり学習しない場合が多いことである。

学習時間の制約から、あまり結合定数を多くしたくない
が、あまり少ないと学習しにくくなる傾向がある。原理
的に学習可能な程度の少数の結合定数ニューラルネット
ワークを構成したいのであるが、学習可能な初期値設定
に苦労することになる。

このようなトレードオフ関係を改善するためには、結合
定数の初期値に係らず学習できるアルゴリズムの提案が
必要になってきた。

学機能付ニューラルネットワーク１０８での学習で特に
重要な出力誤差の収束性を保証するように、ランジェバ
ン型確率微分方程式を基礎にした確率学習アルゴリズム
を与えることである。逆伝播法は誤差の最小化を最北降
下法で求めようとしているため、わずかな偶然を除けば
本質的に絶対的な最小化はできない。第１６図に示すよ
うに、一般に出力誤差１６０１には多数の極小解１６０
２が存在するため、逆伝播法のように確率的要素を内在
しないアルゴリズムでは極小解に陥るとそこから脱出す
る術をもたない。このため、組み合せ最適化問題などで
良く用いられている、ゆらぎ１６０３を利用して極小解
から脱出して最小化するＳｉｍｕｌａｔｅｄ　Ａｎｎｅ
ｌｉｎｇ法を学習アルゴリズムに適用した。シミュレー
ション結果は、予期したように従来の逆伝播法より学習
性能が向上した。

神経回路モデル（第３図）はパターンＵＫ　２等で通常
良く用いられている多層神経回路網である。

入力層から第Ω層のｉ番目ニューロン状態をｘ＋ｎｎ（
Ω＝１．２．・・・、Ｌ）とし、ｘ、（Ｑ）＝ｆ＋（Σ
ＪＷｔＪ（Ｑ）Ｘａ（ｆｌ　　　１））と書く、ここに
、ＷＩＪ（Ｑ）は２層のｉニューロンとρ−１層のｊニ
ューロン間のシナプス結合３０１、ｆ、は０，１に飽和
するしきい値開数３０２で、一般にシグモイド関数３０
５ｆｔ（Ｚ）＝　１　／（１＋ｅｘｐ　（−（Ｚ−θ）
／Ｔ））を採る場合が多いが、階段関数３０４も用いら
れる。Ｔは温度に相当するパラメータ、θはしきい値で
ある。

層番号りは出力層に対応する。式（７）における和はＱ
−１層のすべての他ニューロンからの出力３０３の和を
とる密結合構造でも、ある一定の範囲に存在するニュー
ロンの和をとる受容野的構造でもよい。

今、記憶パターンがＰ種類あり、その番号をｎ（１，２
，・・・、ｐ）で表わすと、式（７）をＰ個連立させる
ことになり、ｘｔ”（Ｑ　）＝　　ｆ　Ｉ（ΣＪＷＩＪ（ｆｌ　）Ｘ
Ｊ”（Ｑ　　−１））なる方程式群を得る。学習として
最も重要な事項なことは、すべてのパターンを同じ結合
定数で記憶できるようにすることである。異なる結合定
数で記憶するのであれば問題は簡単であり、意味がない
。このことは結合定数にある程度冗長性を持たせること
の重要性を示すものであり、従来多くの応用で密結合構
造を採用している理由である。

第１の例として従来の代表的学習方法は逆伝播法と呼ば
れるアルゴリズムで、出力層での２乗誤差Ｅ＝０．５Σ
ｔ　（ｘｔ　（Ｌ）　−Ｄｌ）”を最小にするように結
合定数を決定する。ここに、ＤＩは学習により記憶させ
たい対象に対応する教師情報である。この方法自体最小
化を保証しないにも関わらず、意外にも収束、つまり学
習できる場合が多い。

その理由として、最初に考えられるのは、誤差Ｏを満た
す解はたくさんあっても意外と極小解が少ない可能性が
ある。これに関しては、現在にいたるまで明確な解答が
得られていない。第二の可能性は、極小解を避ける確率
的メカニズムがなんらかの方法で入っていることである
。可能性として、学習用パターンをランダムに与えるこ
とから生じる確率性があるが、はとんど効果がない。最
も重要なことは、結合定数のランダム性による。はとん
どのシミュレーション実験では、結合定数の初期値とし
て正負の混じった゛乱数′を設定している。この理由は
、すべて同一符号の結合定数だと明らかに意味のない解
しか得られないため、簡単に設定できる乱数にしている
。しかも、学習過程において結合定数のすべてが変動す
るわけではなく、冗長性のため多数の結合定数が初期値
のまま、あるいは初期値付近の値に停留している場合が
多い。このため、多くの場合、陽に外部から確率性を導
入することなく結合定数の乱数初期値から極小解を避け
る学習ができている。

以上に述べた逆伝播法における確率性導入の説明から、
この確率性を積極的に導入して逆伝播法を確率逆伝播法
に拡張するために、Ｅの最小化ではなく、確率分布ｅｘｐ（−Ｅ／Ｔ）の最大化に置き換えよう。ここに１温度′Ｔは正の定数
で、ノイズの分散を表わす。確率の最大化（実現状態）
は、結合定数の時間変化としてランジェバン型確率微分
方程式％式％（１２）に等価である。ここに、ηは正の定数で、ξｔＪ（ｎ）
は平均値Ｏで分散Ｔの独立な付加ランダムノイズ（以下
では、白色ガウス分布を仮定する）である。逆伝播法と
の違いは単に右辺にランダム項は付加されているだけで
あるが、この項こそが極小解を回避ならしめるのである
。この式は一つの記憶に対する学習としては数学的にも
厳密なものであるが、多数の情報を記憶するとなるとそ
のままでは成立せず拡張する必要があるが、しかし、逆
伝播法では厳密な取り扱いがなく、学習方法は上式に従
う結合定数を各記憶対象ごとに適当に繰り返しているに
過ぎない。

式（９）の右辺を具体的に計算すると、確率逆伝播法と
して以下のようなアルゴリズムが導ける。

＊ｗｉＪ（Ｌ）＝ηＺ１（Ｌ）ＸＪ（Ｌ　　１）＋ＷｉＪ
（Ｌ）十ξＩＪ（Ｌ）Ｚｌ（Ｌ）＝（ＤＩ−ＸＩ（Ｌ）
）Ｘｌ（Ｌ）（１−ＸＩ（Ｌ））＊ＷＩＪ（Ｑ）＝ηＺｔ（ｊｌ）Ｘａ（Ｑｌ）＋ＷｔＪ（
Ｑ）＋ξＩＪ（Ｉ２）ｚｉ（Ｑ）＝（ΣｋＷｋバｔｉ＋
１）ｚｈ（Ω＋１））ｘ、（ｎ）（１−Ｘｓ（Ｑ））ｆｆ＝Ｌ−１，・・・、２，１（ｌＯ）逆伝播法で現われる微小変位ΔＷ、、（Ｑ）は本ネ来の定義から離れて、ｗｉＪ（ｎ）−ｗｔａ（Ｑ）とし
ているので厳密には逆伝播法はＥの最小化だけを行って
いるのではないことに注意する必要がある。

記憶数が１であればこの定式化は厳密にＥの最小化を行
うものであるが、多数のパターンを同時に記憶する場合
には意味がはっきりしない。たとえば、ランダムに多数
のパターンを記憶する場合に＊は、　ｗｔａ（Ｑ）とＷ　ｔ　Ｊ　（ρ）を決定する過
程での対応するパターンが異なっている。

（アルゴリズム〕　（第２４図） ■：演算の開始。（２４０１） ■：係数定数Ｗｌ、（Ｑ）及びノイズの標準偏差の温度
の初期値を設定する。（２４０２）■：各対象に対し各
層のニューロンの状態ＸＩ（ｊ２）を決定する。（２４
０３） ■：教師情報を用いて出力層でのＺ＋　（Ｌ）を計算す
る。（２４０４） ■：出力層に結合する係数定数ＷＩＪ　（Ｌ）を、Ｚ＋
　（Ｌ）とランダムノイズξＩＪ　（Ｌ）を用いて決定
する。（２４０５） ■：上下層Ｚ＋（Ｑ）を、上層ですでに決定されている
ＷＩＪ（Ｑ＋１）から求める。

■：■の処理を入力層まで繰り返す。

０２以上の様にして決定されたＷＩＪ（Ｑ）を初期値と
し、ノイズの標準偏差の温度を、例えば式（１８）に従
って変更する。

■：繰返しを終了するかどうか収束判定をし、収束しな
ければ、■から■の処理を繰返す。

［相］：収束すれば、演算を終了、（２４０９）式（１
０）における付加ノイズを全て独立して生成すると処理
時間が長くなるため、外部ノイズをシナプス結合数と学
習回数の積に相当する数生成することによる長時間の処
理時間を回避することを目的に、第１７図に示すように
シナプス結合数に相当するノイズで作成した表１７０１
と、学習回数に相当するノイズで作成した表１７０２を
用意し、学習の各繰り返し過程においてシナプス結合に
対応するノイズと学習回数に対応するノイズの積を外部
ノイズとする。

第２の例として、同一出願人により特願平１−９７３５
０で提案された最大原理に基づく高速学習アルゴリズム
について述べる。最大原理の出発点はコスト関数Ｊの定
義である。まず、逆伝播法と同じく、出力層での２乗誤
差の最小化を行う関数Σ。ＸＩ　（Ｘ、ｎ（Ｌ）−ＤＩ
’）２を用意する。形式的には逆伝播法と同じようだが
重要な違いがある。

逆伝播では記憶対象についての和がなく、アルゴリズム
の構成後無理矢理に多くの対象を記憶するように最小化
を繰返し用いている。このため、記憶順番を固定したり
ランダムにしたり別々に求めて最後に足しあわせるなど
様々な方法が提案されている。本方式では上記のコスト
関数に結合定数の組合せの中から選択するための項をつ
け加えて。

次の様なコスト関数Ｊを採用する。

Ｊ＝０．５Σ、Σ＋（Ｘｔｎ（Ｌ）Ｄｔｎ）２＋０．５
Σ、ｋ（Ｑ）Σ。

ＸＪ（Ｗｔａ（ｆｌ）　　ＷＩＪ（Ｑ）　）”ここに、
ｋ（Ω）は層番号に依存する正の定数で＊あり、ｗｉＪ（Ｑ）　　は既に記憶されている固定値で
ある。第二項は新たに学習により結合定数が変更された
としても、既に記憶された値からあまりずれないように
制御するためのものである。最大原理ではコスト関数も
方程式系に組み入れて定式化するので、新しい変数Ｘ５
（Ｑ）を用意する。ここに、Ｓは層に依存した関数ｓ　
（Ｑ）で、各層内の最後のニューロンの次の番号を割り
当てる。新しい変数が従う方程式はＸ５（Ｑ）＝Ｘｓ（４−１）十Σ。Ｘｔ（Ｘｔｌｌ（Ｌ
）　　Ｄｔつ”／Ｌ＋ｋ（ｆｉ）ΣｉΣａ（ＷＩＪ（Ｑ
）　　Ｗｔａ（Ｑ）　　）”　　　　　（１２）Ｈ；Σ
、（Σ、ΣＩＺ皿”（Ｑ）ｆｉ（ΣＪＷＩＪ（Ｑ）ＸＪ
”（Ω−１））＋Ｚｓ’（りｆｓ（１２））本式に現われる変数ｚｔ”（ｎ）は補助変数で、最小化
のための重要な変数である。補助変数の従う方程式は随
伴方程式と呼ばれ、Ｚｔ（Ｑ−１）＝ａＨ／δＸｔｌｌ
（ｆｉ　　１）より決定さレル。

結合定数の従う方程式は、ハミルトニアンＨをＷＩＪ（
Ω）について微分し、０とおくことにより容易に得られ
る。入力層と出力層での値が与えられている構成から本
質的に２点境界値問題となっているので、解析的に解法
する手段は望めない。

一般には、繰返し法で収束計算することになる。

と仮定する。右辺を仮りにｆｓ（ρ）とおくとコスト関
数の代わりに動的方程式を一つ追加することになるが、
取り扱いが容易となる。次に系のハミルトニアンＨを定
義する。

ＷＩＪ（Ｌ）＝（１／ｋ（ｆｆ））ΣｎＺｌ”（Ｌ）Ｘ
Ｊ”（Ｌ　　１）＋Ｗｓａ（Ｌ）Ｚｔ”（Ｌ）＝（１／ＬＴ）（Ｄｔ”　　Ｘｔ”（Ｌ）
）Ｘｔ”（Ｌ）”（１−Ｘｔ”（Ｌ））ＷＩＪ（Ｑ）＝（１／ｋ（Ｑ））ΣｎＺｔ”（ｆｌ）Ｘ
Ｊ”（ｎ　　　　１）＋ＷＩＪ（ｊｌ）Ｚｌ”（ｎ）＝（１／Ｔ）（ΣｔΣ、Ｗｋｉ”（Ｑ＋　
１）−Ｚｋ”ＣＱ　＋１））ｘｔ”（Ｑ）（１−ｘｔｒ
ｌ（ｎ））出力層を除いた各層では結合定数に関する和ΣｈＷｋＡ
（Ｑ＋１）Ｚｈ”（Ｑ＋１）を求めなければならない部
分があるので、完全ではないが並列化し易いことが推察
できる。出力層以外の層では、結合定数に関する上述し
た和を計算する部分があり。

それは原理的に並列化できない。並列化するための方法
として、既に決定されているーステップ前の結合定数を
用いれば近似的には可能である。

大規模な神経回路網で計算時間が大幅にかかるところは
ニューロンの状態変化を求めるところではなく、結合定
数の変更部分であることに注意する。特に、添字ｉｊの
全てについて計算しなければならない。ニューロン状態
は、＊ ΣＪＷＩＪ　（Ｑ　）ＸＪ”　（ｎ　　１　）の総入力
と結合定数の変更式においてはΣ＝Ｗｈｔ　　（Ｑ＋１
）　Ｚｈ”　（Ａ＋１）で決定されるので、これらの量
を直接計算した方が得策である。ここでＷｉＪ（Ｑ）で
なく−ステップ前のＷＩＪ（Ω）を用いたのは学習済の
結合定数から次の学習対象に対し計算をすることによる
ものである。そこで、これらの和を■Ｉ′″（Ｑ）、＝
ｔ”（Ｑ）で表わす。

Ｈ＋１ｌ（Ｑ　）＝　ＩＪＷＩＪ　（Ｑ　）ＸＪｎ（Ｑ
−１）　　（１５）Ｅ、”（Ｑ）−４ＪＷｋＪ（Ｑ）Ｚ
ｋ’（Ｑ−１）　　（１６）式（１４）を式（１５）を
代入すると上式に対する階差方程式、つまり学習方程式
は容易に求まる。

プログラム的には、２重Ｄｏループが１重ＤＯループに
なり演算が早まる。これらの方程式に、逆伝播法と同様
に確率要素を導入すると。

ｎｔ”（Ｑ）＝ｎｔ”　（１２）＋（１／ｋ（ｆｉ））
Σ、（ｚｔ”　ｎ）本：ＴＪＸａ”（Ｑ−１））ＸＪ”（ｆｆ−１）ｌｔ”（
Ｑ）　　　（１７）なる階差方程式が得られる。ここに
、ξ１ｎ（Ｑ）は平均値Ｏで分散Ｔの独立なランダム変
数である。

初期値が与えられると順次ｎ＋”（ｊ２）が計算可能と
なる。ただし、初期の繰返しでは係数定数よりｎｔ（Ｉ
ｌ）−を求めなければならないが、全計算量に対しては
ほとんど無視出来る程度である。式（１７）はニューロ
ンの状態変化量が小さい場合の謂わば第１近似に対応す
るものである。以上のようにしてｎ１ｌｌ（ｎ）が決定
されると、Ｅｌ”　（Ｑ）に対する階差方程式は式（１
６）から求まる。

学習終了後における結合定数は、ｌ’ｌ、ｎ　（Ｑ）　
＝ΣｈＷｔｈ　（Ｑ　）　Ｘｋ”　（Ｑ　　１　）を全
記憶対象に対して成立することを要求することで決まる
。たとえば、２乗誤差の最急降下法から、容易に求めら
れる。ここに、ΔＷｉＪ（ｆｌ）は結合定数の変化分で
、λは収束計算の定数で一般に１よりも小さく正である
。この時にもやはり、付加ノイズの効果を導入する。

シミュレーション実験として確率逆伝播法でも確率高速
学習方式でも確率性導入の効果は同じなので、ここでは
前者のシミュレーション結果のみを報告する。学習用入
力として、４個の適当な図形パターンを用意した。入力
画像１９０２は１６Ｘ１６ビクセル、出力画像１９０３
も１６Ｘ１６ピクセルである。ニューラルネットワーク
１９０１は出力層は１６×１６個、中間層は１２×１２
〜３×３個、そしい入力層は１６×１６個のニューロン
から構成されている（第１９図）。

教師パターンと入カバターンを同一にとったので、出力
層は入力層と同じ規模である。また層間の素子は全て結
合したので、結合定数の合計は７３７２８〜４６０８個
となる。Ｔは変数とし、係数としてη＝０．５を採用し
、学習回数は各学習パターンに対しそれぞれ１０００回
実行した。

最初の例は、第２０図に示すように逆伝播法２００１で
も収束し易い場合（中間層は１２×１２）２００４であ
る。出力誤差２００２におけるプラトー（変動がない状
態が長く続く状況を示す）の存在が学習を異常に長引か
せている。結合定数の初期値は−０，０１〜０．０１の
一様乱数である。付加する白色ガウスノイズの平均値は
Ｏ１分散はＴであるが、Ｔ１８０１は通常のシミュレー
ティッドアニーリング法でよく用いられるギースンのク
ーリングスケジュール１８０２Ｔ＝βｖ’　ｌ　／ｌｏ
ｇ　（１＋　ｔ　）　　　　　　　　（１ｇ）を利用し
た（第１８図）。ここに、ｔは学習回数１８０３を示す
。βが例えば０．０３１６のような大きな値だと言うま
でもなく、付加ノイズに結合定数が支配されてしまい学
習が意味をなさなくなる。また逆にβ＝Ｏ，０ＯＯ１の
ように小さ過ぎると確率学習として意味がなくなるので
、その結果はほとんど従来の逆伝播法と同じである。β
として０．００１（初期値の１０％程度の乱数）とする
と、収束回数がほぼ半分になり、外部乱数の効果が現わ
れる。さらに値を大きくし、β＝０．０１（初期値の５
０％程度の乱数）にすると、１０−３までしか収束しな
いが収束過程が顕著に異なっている。初期のプラトーを
回避することができている。クーリングスケジュールと
しては上記以外にも、たとえばＴ＝βｖ’（１；ｔ）、
Ｔ＝βｖ’（１／ｖ’ｔ）でも同様の結果が得られる。

次の例は、逆伝−播法ではほとんど収束しない場合（中
間層は５×５〜３Ｘ３）である。第２１図に出力誤差２
１０１の学習回数ｔ２１０２に関する変動を示すが、少
なくともｔ＝１０００では１０′″２程度までしか収束
しない。特に中間層サイズが３×３の場合２１０３には
収束がほとんど望めない、中間層のサイズ以外は上記と
同条件であるが中間層をしぼったために、冗長な結合定
数が少なくなり、学習しにくくなっている。この例に、
Ｔ＝Ｏ，Ｏ１ｖ’ｌ／ｌｏｇ　（１＋ｔ）なるクーリン
グスケジュールで本手法を適用すると、出力誤差が１０
−４までおちる。一般の場合を想定すると、当然の事な
がらこのような初期値設定で悩まされることなくニュー
ラルネットワークを構成できる。

〔発明の効果〕

本発明によれば、複雑なデータおよびそれらの関係を別
なデータに関係づけることができ、従来の学習のように
一対一のデータ対応関係の写像より広範囲な写像を実現
することができる。これにより、例えば、視覚情報や音
声情報を同時に扱うことが可能となり、パターン認識策
を従来以上の精度で行うことができるようになる。

【図面の簡単な説明】

第１図は本発明のニューラルネットワークによる情報処
理装置の全体構成図、第２図は前処理部、第３眉はニュ
ーロンの特性、第４図は特徴抽出機構、第５図は特徴デ
ータ群、第６〜第８図は学習機能付ニューラルネットワ
ークの構成図、第９図はシミュレーション例、第１０図
は学習機能付異種情報合成装置、第１１〜１５図はその
詳細構造、第１６図は出力誤差の概念図、第１７図はノ
イズ表、第１８図はクリーニングスケジュール、第１９
図はネットワーク構成、第２０．２１図はシミュレーシ
ョン例、第２２〜２４図はアルゴリズムのフローチャー
トである。１０６：前処理部１０７：特徴抽出用ニューラルネットワーク１０８：学
習機能付ニューラルネットワーク１０９：出力情報第１図ュ、−う７．オフ、ヮーヮｍ〜１０３給２図告信号へ７０午ニューロンニューロンへの総、Ｘ力第５区把４図、４０２八４０３入力層出ｎ層第６区学習過程躬７図詔、請逼〕！ ×１→−二−フル′ Ｘカデータ出ηデ′−りＮ１２り≠ １２ρ／多／ｑ図 ′Ｘ／１Ｉｏｌ／＋ρ２シブフ゛ス系↓１合ゝ１６１）／イＭ４ｓメオ芋２ゲ図

Claims

【特許請求の範囲】

１．次元の異なる各種の情報を統合処理するニューラル
ネットワークにおいて、確定的な入力データに対して後
の処理の混同を避けるため予めいくつかの特徴に分けて
別々のデータとして扱い、それぞれ特徴データに対応す
る学習機能付ニューラルネットワークでそれぞれの特徴
データを並列的に学習記憶する階層的特徴抽出器と、不
確定な入カデータに対して競合・協調型ニューラルネッ
トワークでニューラルネットワーク処理をした後、特徴
データの合成に必要な情報を決定する異種情報統合ロジ
ック生成装置と、前記競合・協調型ニューラルネットワ
ークで処理した不確定的な入カデータを用いて入力時に
分離した特徴データを合成し、最終的な出力データとす
る学習機能付異種情報合成装置とからなることを特徴と
するニューラルネットワークによる情報処理装置。
２．前記階層的特徴抽出器は、入カデータ数に対応した
１あるいは複数個のニューロンで構成されたネットワー
クの入力部からデータを入力し、ニューロンで処理でき
るように所定範囲の値になるように規格化し、必要に応
じて量子化し、時系列データ処理、プロセス制御など対
象に応じて、例えば平均的挙動に不可欠な大域的特徴、
微細な変動を表わす局所的特徴などの必要な異なる特徴
がネットワークの出力部に位置するニューロンから出力
されることを可能としたネットワーク構成からなること
を特徴とする請求項１項記載のニューラルネットワーク
による情報処理装置。
３．前記学習機能付ニューラルネットワークは、ニュー
ロン間は情報伝達効率を変更できるシナプスで結合され
、各ニューロンは重み付き総入力の値に応じてその出力
を決定するしきい値論理を実行し、それらが必要に応じ
た規模の数で結合した入力肩と出力層を含む２層あるい
は３層以上の多層型ニューラルネットワークで構成され
、階層的特徴抽出からの出力データを入力層および出力
層に与え、過去の事例から学習により学習機能付ニュー
ラルネットワークへの入力と出力との対応関係つまり写
像をシナプス結合の値を調整することでシナプス結合間
に分散的に記憶する部分からなることを特徴とする請求
項１記載のニューラルネットワークによる情報処理装置
。
４．前記異種情報統合ロジック生成装置は、統計的な手
段で、測定不可能な１あるいは複数の未知要因に対する
因果関係に基づき競合・協調型ニューラルネットワーク
の出力として、不確実であいまいなデータが最終的な情
報処理を与える影響をあらわす、階層的特徴抽出器で抽
出された特徴データの重み付けに関するルールを決定す
る部分からなることを特徴とする請求項１項記載のニュ
ーラルネットワークによる情報処理装置。
５．前記学習機能付異種情報合成装置は、請求項４記載
の異種情報統合ロジック生成装置からの出力データから
、たとえば階層的特徴抽出器で抽出されて特徴データの
重み付けに関するルールに含まれる１あるいは複数のパ
ラメータを過去の事例からニューラルネットワーク学習
し、決定する部分からなることを特徴とする請求項１記
載のニューラルネットワークによる情報処理装置。
６．前記階層的特徴抽出器は、データを異なる特徴に分
離する過程を、サイズの異なるフィルターによるか、ま
たは対応するシナプス結合を固定した２層あるいは２層
以上の多層型ニューラルネットワークにより実現するこ
とを特徴とする請求項２記載のニューラルネットワーク
による情報処理装置。
７．信号あるいは画像などのパターン識別、認識処理は
前記学習機能付ニューラルネットワークで処理可能であ
るが、時間的要素を含む時系列データの識別、認識ある
いは予測処理において、連続するデータの時間的相関関
係を学習することを目的に、学習機能付ニューラルネッ
トワークの入力部に時間的に連続する学習用の時系列デ
ータを与え、出力部に後の識別、認識あるいは予測過程
で必要な時間間隔の学習用の時系列データを与え、特に
出力部でのデータの時間的相関関係を学習を保証するこ
とを目的に出力部のデータを入力部に同時刻のデータに
フィードバックし、学習終了後の認識過程ではフィード
バックした入力部には常に０あるいは固定値を与えるこ
とを特徴とする請求項３項記載のニューラルネットワー
クによる情報処理装置。
８．出力部における学習機能付ニューラルネットワーク
の出力と予め希望する値として与えた教師データとの出
力誤差の最小化のための収束過程、つまり学習過程にお
いて、多層ネットワークの中間に位置する中間層のニュ
ーロン数を分類に必要な程度の数、あるいはその数をで
きる限り少なくする場合には、出力誤差の局所解である
ローカルミニマムを回避し、かつ収束過程で出力誤差が
増加する超過学習を避けるために、シナプス結合の変更
則において外部ノイズを付加することにより確率性を利
用することで所望の出力誤差の最小化を保証することを
特徴とする請求項３項記載のニューラルネットワーク。
９．請求項８項記載のシナプス結合則に付加する外部ノ
イズをシナプス結合数と学習回数の積に相当する数生成
することによる長時間の処理時間を回避することを目的
に、シナプス結合数に相当するノイズで作成した表と、
学習回数に相当するノイズで作成した表を用意し、学習
の各繰り返し過程においてシナプス結合に対応するノイ
ズとすることを特徴とする請求項８項記載の学習機能付
ニューラルネットワーク。
１０．請求項９項記載のシナプス結合則に付加する外部
ノイズを利用して出力誤差の最小化を保証することを目
的に、外部ノイズに学習回数に依存して０まで低下する
変数との積を新めて外部ノイズとしてシナプス結合に付
加することを特徴とする請求項８項記載の学習機能付ニ
ューラルネットワーク。
１１．同質、あるいは異質のデータ群を同期をとりなが
ら入力し、それらのデータ群およびそれらの関連を外部
あるいは内部情報に多対一に対応づけることを目的に、
多入力−出力のしきい値論理素子で構成されたラティス
状の神経回路網において、重ならないようにした回路網
の各入力位置からそれぞれのデータを入力し、それぞれ
定められた方向に伝播させ、出力位置において各データ
に対応した情報を出力し、各出力情報を外部あるいは内
部情報にマッチングするように、各素子間の結合を修正
することで神経回路網を変更することを特徴とする請求
項４項記載の学習機能付異種情報合成装置。
１２．各入カデータを同期させて入力することにより、
各素子はいずれかの入カデータに対応したデータを処理
し、神経網全体としては常に全ての入カデータを並列的
に処理することを特徴とする請求項４項記載の学習機能
付異種情報合成装置。
１３．各入カデータは、そのデータのみが処理されてい
くプロセスは多層状の神経回路網を入力層から出力層に
伝播してゆくプロセスと等価であり、素子間の結合を修
正することで入カデータに対応する出力データと外部あ
るいは内部で与えられた情報に一対一に写像できること
を特徴とする請求項４項記載学習機能付異種情報合成装
置。
１４．出力データは各入カデータに対応した出力データ
群と、入カデータ間の関連データから構成することによ
り、各入カデータの認識と同時に入カデータ間の関連も
認識でき、たとえばノイズ等により入カデータが劣化し
認識できない場合でも、関連情報からその入カデータの
認識率を高められることを特徴とする請求項４項記載の
学習機能付異種情報合成装置。
１５．各出力データおよびそれらの関連情報を横軸に、
それらのデータに対するそれぞれの認識率をたて軸にと
りグラフを作成すると、このグラフでデータ間の関連に
関するあいまいさを表現することが可能となり、あらか
じめ定めておいたあいまいさを表現する関数と比較する
ことにより機械的に、あるいはマンマシンインタフェー
スを通じて対話的にデータ間の関連を判断することを特
徴とする請求項４項記載の学習機能付異種情報合成装置
。