JPH047660A - ニューラルネットワークによる情報処理装置 - Google Patents
ニューラルネットワークによる情報処理装置Info
- Publication number
- JPH047660A JPH047660A JP2107580A JP10758090A JPH047660A JP H047660 A JPH047660 A JP H047660A JP 2107580 A JP2107580 A JP 2107580A JP 10758090 A JP10758090 A JP 10758090A JP H047660 A JPH047660 A JP H047660A
- Authority
- JP
- Japan
- Prior art keywords
- data
- neural network
- learning
- output
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、従来の計算機では解決困難なパータン認識な
ど、各種の情報を統合している情報処理を行うニューラ
ルネットワークの構成に関する。
ど、各種の情報を統合している情報処理を行うニューラ
ルネットワークの構成に関する。
従来、パラレル・デイストリビューティラド・プロセッ
シング■とII (1986年) (Parallel
Distrubuted Processing I
and II、 (1986)で述べられているよ
うに、データとデータの一対一関係の記憶・学習法があ
った。
シング■とII (1986年) (Parallel
Distrubuted Processing I
and II、 (1986)で述べられているよ
うに、データとデータの一対一関係の記憶・学習法があ
った。
上記従来技術は、入カデータの質的に異なる特徴を混合
して情報処理することによりネットワークの所望のタス
クを充分に実行できる、などのニューラルネットワーク
の特性を充分に考慮していないため、パータン認識を始
め、時系列データなど時間的変化を扱う情報処理を充分
に行うことができなかった。
して情報処理することによりネットワークの所望のタス
クを充分に実行できる、などのニューラルネットワーク
の特性を充分に考慮していないため、パータン認識を始
め、時系列データなど時間的変化を扱う情報処理を充分
に行うことができなかった。
本発明の目的は、入カデータの質的に異なる特徴を個別
に処理、記憶し、とりまく環境の不確定性要素を考慮し
た上で、各特徴の統合処理を具備したことを特徴とする
ニューラルネットワークによる情報処理装置を提供する
ことにある。
に処理、記憶し、とりまく環境の不確定性要素を考慮し
た上で、各特徴の統合処理を具備したことを特徴とする
ニューラルネットワークによる情報処理装置を提供する
ことにある。
上記1的を達成するために、第1図に示すように、次元
の異なる各種の情報を統合して処理するニューラルネッ
トワークによる情報処理装置において、確定的な入カデ
ータに対しては後の処理の混同を避けるため、前処理を
経て、階層的特徴抽出器102で前処理106を通過し
たデータを予めいくつかの特徴に分けて別々のデータと
して扱い、それぞれの特徴データ107に対応するニュ
ーラルネットワーク群103の学習機能付ニューラルネ
ットワーク108でそれぞれの特徴データを並列的に学
習により記憶する。取り巻く環境の不確実であいまいな
外部要因110であるデータは、競合・協調型ニューラ
ルネットワークでニューラルネットワーク処理をした後
、異種情報統合ロジック生成装置104で特徴データの
合成に必要な情報を決定する。最後に、競合・協調型ニ
ューラルネットワークで処理した不確定的な入カデータ
を用いて入力時に分離した特徴データを学習機能付異種
情報合成装置105で合成し、最終的な出力情報109
とする情報処理を行なう。
の異なる各種の情報を統合して処理するニューラルネッ
トワークによる情報処理装置において、確定的な入カデ
ータに対しては後の処理の混同を避けるため、前処理を
経て、階層的特徴抽出器102で前処理106を通過し
たデータを予めいくつかの特徴に分けて別々のデータと
して扱い、それぞれの特徴データ107に対応するニュ
ーラルネットワーク群103の学習機能付ニューラルネ
ットワーク108でそれぞれの特徴データを並列的に学
習により記憶する。取り巻く環境の不確実であいまいな
外部要因110であるデータは、競合・協調型ニューラ
ルネットワークでニューラルネットワーク処理をした後
、異種情報統合ロジック生成装置104で特徴データの
合成に必要な情報を決定する。最後に、競合・協調型ニ
ューラルネットワークで処理した不確定的な入カデータ
を用いて入力時に分離した特徴データを学習機能付異種
情報合成装置105で合成し、最終的な出力情報109
とする情報処理を行なう。
第1図において、まず、人カデータ数に対応した1ある
いは複数個のニューロンで構成されたネットワークの入
力部からデータを入力し、ニューロンで処理できるよう
に例えばOと1の間の値になるように規格化し、更に必
要に応じて量子化し。
いは複数個のニューロンで構成されたネットワークの入
力部からデータを入力し、ニューロンで処理できるよう
に例えばOと1の間の値になるように規格化し、更に必
要に応じて量子化し。
時系列データ処理、プロセス制御など対象に応じて1例
えば平均的挙動に不可欠な大域的特徴、微細な変動を表
わす局所的特徴など、必要な異なる特徴がネットワーク
の出力部に位置するニューロンから出力を可能とする。
えば平均的挙動に不可欠な大域的特徴、微細な変動を表
わす局所的特徴など、必要な異なる特徴がネットワーク
の出力部に位置するニューロンから出力を可能とする。
ニューロン間は情報伝達効率を変更できるシナプスで結
合され、各ニューロンは重み付き総入力の値に応じてそ
の出力を決定するしきい値論理を実行し、それらが必要
に応じた規模の数で結合した入力層と出力層を含む2層
あるいは2層以上の多層型ニューラルネットワークで構
成され、階層的特徴抽出器からの出カデータを入力層お
よび出力層に与え、過去の事例から学習により学習機能
付ニューラルネットワークへの入力と出力との対応関係
つまり写像をシナプス結合の値を調整することでシナプ
ス結合間に分散的に学習により記憶する。
合され、各ニューロンは重み付き総入力の値に応じてそ
の出力を決定するしきい値論理を実行し、それらが必要
に応じた規模の数で結合した入力層と出力層を含む2層
あるいは2層以上の多層型ニューラルネットワークで構
成され、階層的特徴抽出器からの出カデータを入力層お
よび出力層に与え、過去の事例から学習により学習機能
付ニューラルネットワークへの入力と出力との対応関係
つまり写像をシナプス結合の値を調整することでシナプ
ス結合間に分散的に学習により記憶する。
異種情報統合ロジック生成装置では、統計的な手段で、
測定不可能な1あるいは複数の未知要因に対する因果関
係を頼りにした競合・協調型ニューラルネットワークの
出力として、不確実であいまいなデータの最終的な情報
処理に与える影響、たとえば階層的特徴抽出器で抽出さ
れた特徴データの重み付けに関するルールなどを決定す
る。
測定不可能な1あるいは複数の未知要因に対する因果関
係を頼りにした競合・協調型ニューラルネットワークの
出力として、不確実であいまいなデータの最終的な情報
処理に与える影響、たとえば階層的特徴抽出器で抽出さ
れた特徴データの重み付けに関するルールなどを決定す
る。
学習機能付異種情報合成装置において、異種情報統合ロ
ジック生成装置からの出カデータから、たとえば階層的
特徴抽出ネットワークで抽出された特徴データの重み付
けに関するルールに含まれる1あるいは複数のパラメー
タを過去の事例からニューラルネットワークで学習し、
決定する。
ジック生成装置からの出カデータから、たとえば階層的
特徴抽出ネットワークで抽出された特徴データの重み付
けに関するルールに含まれる1あるいは複数のパラメー
タを過去の事例からニューラルネットワークで学習し、
決定する。
以下、本発明による実施例を述べる。
具体的な例として、以下では時系列データ処理を扱う。
ニューラルネットワークを用いた時系列データ処理方式
は、静的信号処理、静止画像処理のような静的な処理に
比べると、かなり進展が遅いように思われる。通常の多
層ニューラルネットワークは、入カデータとそれに対応
する一般に符号化されたデータの写像関係を学習により
記憶するように設計されている。それ故、時間的要素に
入る余地はなく1時系列データのようなダイナミックス
を対象にする場合には、ネットワークの構成を新たに設
計しなければならない。勿論1時系列データにしても、
ある系列(時間)区間のデータを−まとめのパターンと
見なし静的に考えるならば、既に提案されているニュー
ラルネットワークでも処理できる。しかし、時系列とし
ての重要な時間相関が全く無視される。これまで時系列
データ処理として成功をおさめたと言えるものは必ずし
もなく、時間経過の重要な音声関係ですらも静的データ
の写像の記憶問題として捉えられている程度にすぎない
。時系列に本質的な時間相関の学習記憶という観点から
ネットワークの設計しているものは1文献等では見当ら
ない。
は、静的信号処理、静止画像処理のような静的な処理に
比べると、かなり進展が遅いように思われる。通常の多
層ニューラルネットワークは、入カデータとそれに対応
する一般に符号化されたデータの写像関係を学習により
記憶するように設計されている。それ故、時間的要素に
入る余地はなく1時系列データのようなダイナミックス
を対象にする場合には、ネットワークの構成を新たに設
計しなければならない。勿論1時系列データにしても、
ある系列(時間)区間のデータを−まとめのパターンと
見なし静的に考えるならば、既に提案されているニュー
ラルネットワークでも処理できる。しかし、時系列とし
ての重要な時間相関が全く無視される。これまで時系列
データ処理として成功をおさめたと言えるものは必ずし
もなく、時間経過の重要な音声関係ですらも静的データ
の写像の記憶問題として捉えられている程度にすぎない
。時系列に本質的な時間相関の学習記憶という観点から
ネットワークの設計しているものは1文献等では見当ら
ない。
本発明の一実施例である株価の動向を予測においては、
従来のプロセス系とは異なり対象のダナミックスがあま
り明確ではなく、しかも不特定多数の外部要因が存在す
るのではないかと思われるほど複雑な挙動を示す。本実
施例では長期開先の予測を前提にした時系列データ処理
が可能なニューラルネットワークの提案を行なうが、測
定不能な不確実環境下における一般的な問題に対しても
データ処理が可能な方式になっている。ここで扱う問題
は予測問題に限定されているが、状態推定など一般の制
御問題にも有効に使えるものと期待している。以降は、
本発明で提案するニューラルネットワークの基本構想、
およびその詳細処理内容を述べ、最後に本発明の有効性
を示すために、不確認な環境下における時系列データの
典型的な例として1株価データの動向予測に応用する。
従来のプロセス系とは異なり対象のダナミックスがあま
り明確ではなく、しかも不特定多数の外部要因が存在す
るのではないかと思われるほど複雑な挙動を示す。本実
施例では長期開先の予測を前提にした時系列データ処理
が可能なニューラルネットワークの提案を行なうが、測
定不能な不確実環境下における一般的な問題に対しても
データ処理が可能な方式になっている。ここで扱う問題
は予測問題に限定されているが、状態推定など一般の制
御問題にも有効に使えるものと期待している。以降は、
本発明で提案するニューラルネットワークの基本構想、
およびその詳細処理内容を述べ、最後に本発明の有効性
を示すために、不確認な環境下における時系列データの
典型的な例として1株価データの動向予測に応用する。
以下に、ニューラルネットワークを時系列データ処理に
応用する場合に克服しなければならない3つの課題につ
いて列挙する。
応用する場合に克服しなければならない3つの課題につ
いて列挙する。
時系列データ処理に限らすニューラルネットワークを応
用する場合にまず考慮しなければならないことは、ニュ
ーロンの出力関数としてシグモイドのような非線飽和関
数を用いていることである。
用する場合にまず考慮しなければならないことは、ニュ
ーロンの出力関数としてシグモイドのような非線飽和関
数を用いていることである。
なぜならば、この飽和性のため、変動成分が大きいデー
タに対してはそれが必要であろうが不必要であろうがス
ムーズにしてしまい、データの変動が消滅させる効果が
ある。この効果のため、ノイズが付加された情報に対し
ても一見軟柔な連想処理ができるかのように見えるのが
、変動成分に意味がある一般の系列データを対象にする
場合には十分気を付けなければならない。おそらく最も
確実な方法は、このような変動成分を予め元のデータか
ら取りだして独立に処理することであろう。
タに対してはそれが必要であろうが不必要であろうがス
ムーズにしてしまい、データの変動が消滅させる効果が
ある。この効果のため、ノイズが付加された情報に対し
ても一見軟柔な連想処理ができるかのように見えるのが
、変動成分に意味がある一般の系列データを対象にする
場合には十分気を付けなければならない。おそらく最も
確実な方法は、このような変動成分を予め元のデータか
ら取りだして独立に処理することであろう。
ここでは、この処理を入カデータの特徴抽出処理と考え
る。
る。
次に、長期開先の予測を前提にした時系列データ処理に
応用する場合を想定すると、まず静的データ処理と時系
列データ処理との間には本質的な考えの相違がある。静
的データ処理方式はパターンとパターンの写像の記憶問
題であるが、時系列データはそうではなく、ある時刻の
データと次の時刻のデータとの関係、つまり時間相関を
決定することが本質的な課題である。別な言い方をする
と、対象の動的過程を何等かの方法で決定することであ
る。この処理過程は出力情報を入力側にフィードバック
することにより、出カデータの各データを−あるいは数
時刻前のデータと関連させることができるフィードバッ
クニューラルネットワークで行う。
応用する場合を想定すると、まず静的データ処理と時系
列データ処理との間には本質的な考えの相違がある。静
的データ処理方式はパターンとパターンの写像の記憶問
題であるが、時系列データはそうではなく、ある時刻の
データと次の時刻のデータとの関係、つまり時間相関を
決定することが本質的な課題である。別な言い方をする
と、対象の動的過程を何等かの方法で決定することであ
る。この処理過程は出力情報を入力側にフィードバック
することにより、出カデータの各データを−あるいは数
時刻前のデータと関連させることができるフィードバッ
クニューラルネットワークで行う。
最後に考慮しなければならないことは、データの変動に
影響する不特定多数の外部的要因である。
影響する不特定多数の外部的要因である。
既知の特定外部要因は別にしても、事実上、全ての外部
要因を特定できるわけではなく、しかもかなり多数存在
する場合がほとんどである。このため、不特定多数の外
部要因の影響をマクロに捉え、要因が多数あることを積
極的に取り入れて、シナージェティック的な統計手段で
このマクロな影響を決定する手段(モデル)を提供する
。実際のデータを利用してこの統計手段の有効性を確認
した。
要因を特定できるわけではなく、しかもかなり多数存在
する場合がほとんどである。このため、不特定多数の外
部要因の影響をマクロに捉え、要因が多数あることを積
極的に取り入れて、シナージェティック的な統計手段で
このマクロな影響を決定する手段(モデル)を提供する
。実際のデータを利用してこの統計手段の有効性を確認
した。
各処理の詳細な説明に入る前に、第1図を用いて全体シ
ステムのデータの流れについて大まかに説明する。
ステムのデータの流れについて大まかに説明する。
与えられた異種情報101の時系列データをNN (N
= 1 t 2 + 3 +・・・・・・)で表わす
。データ処理の第一段階は、XNの特徴をどのように捉
えるかである。つまり、ニューラルネットワークへの入
力としてXNをそのまま用いるのか、それともなんらか
の加工したものを用いるべきかである。
= 1 t 2 + 3 +・・・・・・)で表わす
。データ処理の第一段階は、XNの特徴をどのように捉
えるかである。つまり、ニューラルネットワークへの入
力としてXNをそのまま用いるのか、それともなんらか
の加工したものを用いるべきかである。
当然、対象に依存することであるが、ここで第5図に示
すように2種類の加工データを考える。−船釣なニュー
ラルネットワークの性質として、ニューロンの出力関数
として飽和関数(シグモイド)を利用しているので1元
のデータ501を滑らかにする傾向がある。つまり、ノ
イズ除去の効果を持っている。しかし、後で述べる株価
データのように変動そのものが重要な場合には、飽和関
数のノイズ除去効果により変動成分が消去されてしまう
ことになる。そこで、変動そのものを別なデータ503
としてXNから、例えば微分演算を施して利用する。さ
らに、高次の変動が必要な場合には、高暗の微分をとれ
ば良い。別な方法としては、たとえば幅の異なるガウシ
アンフィルターを用意すれば同様の処理を行なうことが
できる。このようにして分離したデータを、仮りにYデ
ータ、Xデータと名付けることにする。これらのデータ
を外部要因の影響をシナージェティック的な統計手段で
決定するモデルを考慮して合成し、最終的な予測データ
を出力する。
すように2種類の加工データを考える。−船釣なニュー
ラルネットワークの性質として、ニューロンの出力関数
として飽和関数(シグモイド)を利用しているので1元
のデータ501を滑らかにする傾向がある。つまり、ノ
イズ除去の効果を持っている。しかし、後で述べる株価
データのように変動そのものが重要な場合には、飽和関
数のノイズ除去効果により変動成分が消去されてしまう
ことになる。そこで、変動そのものを別なデータ503
としてXNから、例えば微分演算を施して利用する。さ
らに、高次の変動が必要な場合には、高暗の微分をとれ
ば良い。別な方法としては、たとえば幅の異なるガウシ
アンフィルターを用意すれば同様の処理を行なうことが
できる。このようにして分離したデータを、仮りにYデ
ータ、Xデータと名付けることにする。これらのデータ
を外部要因の影響をシナージェティック的な統計手段で
決定するモデルを考慮して合成し、最終的な予測データ
を出力する。
階層的特徴抽出器102では、第5図に示すように、与
えられた時系列データ501をXN=αXYN+(1−
α)XXNのように大域的特徴502を表わすYデータ
と局所的特徴503を表わすXデータに分解する。
えられた時系列データ501をXN=αXYN+(1−
α)XXNのように大域的特徴502を表わすYデータ
と局所的特徴503を表わすXデータに分解する。
このようにY、Xと名付けた系列データは、以下のよう
にして与えられたデータXN(N = 1 、2 。
にして与えられたデータXN(N = 1 、2 。
3、・・・・・・)から構成する。(第22図)特徴を
抽出するために構成されたネットワーク2201から、
次式に従ってデータを分割2202する。
抽出するために構成されたネットワーク2201から、
次式に従ってデータを分割2202する。
XYN=XN
XXN: (Xn+Σ、=、X 、 )
(2)ここに、αはOから1までの正のパラメータで
、YとXのデータの混合比率を表わす。式(1)では、
元のデータXNをそのまま用いているが、ニューロンの
飽和出力関数の特性を利用して、ノイズなどの不必要な
情報を除去したデータが得られる。もっとも、陽に平均
操作を施したデータ<XN>でも良い。XデータはXN
の局所的な特徴、つまり変動成分を表わすようにしたい
ので、ここではXNをある基準時刻における値Xnから
、差のデータXJを用いて表現することにした。データ
の局所的特徴はこれ以外にも、たとえば幅の異なるガウ
シアンフィルター処理でも抽出できるが。
(2)ここに、αはOから1までの正のパラメータで
、YとXのデータの混合比率を表わす。式(1)では、
元のデータXNをそのまま用いているが、ニューロンの
飽和出力関数の特性を利用して、ノイズなどの不必要な
情報を除去したデータが得られる。もっとも、陽に平均
操作を施したデータ<XN>でも良い。XデータはXN
の局所的な特徴、つまり変動成分を表わすようにしたい
ので、ここではXNをある基準時刻における値Xnから
、差のデータXJを用いて表現することにした。データ
の局所的特徴はこれ以外にも、たとえば幅の異なるガウ
シアンフィルター処理でも抽出できるが。
最も単純な上式を利用することにする。YとXのデータ
は、例えば、第4図に示す簡単な結合定数を固定したネ
ットワークで生成できる。前処理された各データ401
は、それぞれ入力層402から出力層403に伝播し、
入力層のニューロンと出力層のニューロンは各データ処
理に応じて、正負の値をもつ定数404で結合されてお
り、出カデータ405が取り出される。
は、例えば、第4図に示す簡単な結合定数を固定したネ
ットワークで生成できる。前処理された各データ401
は、それぞれ入力層402から出力層403に伝播し、
入力層のニューロンと出力層のニューロンは各データ処
理に応じて、正負の値をもつ定数404で結合されてお
り、出カデータ405が取り出される。
ニューラルネットワークで学習するデータは結局XNと
X1で、予測時刻以前の過去の時系列データを教師デー
タとして使用する。勿論、これらのデータは独立ではな
いが、ニューロンの飽和出力関数を考慮し、データの変
動分は独立した別のデータと考えた。ここで暗に対象と
している株価データは、この変動分が重要な意味をもつ
のであるが、そうでない場合にはこのような分離の必要
性はない。
X1で、予測時刻以前の過去の時系列データを教師デー
タとして使用する。勿論、これらのデータは独立ではな
いが、ニューロンの飽和出力関数を考慮し、データの変
動分は独立した別のデータと考えた。ここで暗に対象と
している株価データは、この変動分が重要な意味をもつ
のであるが、そうでない場合にはこのような分離の必要
性はない。
大域的特徴と局所的特徴の比を表わす定数αはある意味
では学習パラメターになっているが、これを決定する要
因は直接データに内在するものではなく、むしろ外部的
なものと考えられる。しかし、外部的要因は一般には必
ずしも全て特定できるわけではなく、学習可能なパラメ
ータにはなりえないのである。しかし、全く決定不可能
というわけではなく、以下に述べる様に、一般の場合に
は満足されているだろうと思われるある条件を前提にす
れば、統計的性質を利用した方法で決定できる。
では学習パラメターになっているが、これを決定する要
因は直接データに内在するものではなく、むしろ外部的
なものと考えられる。しかし、外部的要因は一般には必
ずしも全て特定できるわけではなく、学習可能なパラメ
ータにはなりえないのである。しかし、全く決定不可能
というわけではなく、以下に述べる様に、一般の場合に
は満足されているだろうと思われるある条件を前提にす
れば、統計的性質を利用した方法で決定できる。
データ群X、〜Xn601から長期開先のデータ群X
n + z〜XN602を予測する問題に限定する。
n + z〜XN602を予測する問題に限定する。
第6図に示すように、学習過程においては、n時刻まで
のデータをすべて利用できる。これ以外にも、状態推定
など通常の制御処理も同様に扱うことができるが、ここ
では予測問題に限定する。従来の単純な多層ニューラル
ネットワーク的な観点からは、たとえばX1〜XnとX
n + 1〜XNの写像関係の記憶として捉えること
になるであろう。しかし、これでは最初の予測出カデー
タX n+、は別にしても、それ以降のX n + z
〜XNは各出カデータに関連しているはずの−あるいは
数時刻前のデータの影響が全く無視されてしまう。これ
では、時系列データとしての特質は全く意味をなさず1
通常のパターン間の写像と異なることがない。系列デー
タ、一般に既知、あるいは未知の関数Fを用いて、 XJ=F(XJ−1,XJ−2,・・・・・・) j
”LL3+・・・・・と書けることから容易に理解でき
る。別な言い方をすると1時系列データ処理はパターン
間の写像記憶ではなく、データ間の相関関係の連想、つ
まり関数Fを決定することである。
のデータをすべて利用できる。これ以外にも、状態推定
など通常の制御処理も同様に扱うことができるが、ここ
では予測問題に限定する。従来の単純な多層ニューラル
ネットワーク的な観点からは、たとえばX1〜XnとX
n + 1〜XNの写像関係の記憶として捉えること
になるであろう。しかし、これでは最初の予測出カデー
タX n+、は別にしても、それ以降のX n + z
〜XNは各出カデータに関連しているはずの−あるいは
数時刻前のデータの影響が全く無視されてしまう。これ
では、時系列データとしての特質は全く意味をなさず1
通常のパターン間の写像と異なることがない。系列デー
タ、一般に既知、あるいは未知の関数Fを用いて、 XJ=F(XJ−1,XJ−2,・・・・・・) j
”LL3+・・・・・と書けることから容易に理解でき
る。別な言い方をすると1時系列データ処理はパターン
間の写像記憶ではなく、データ間の相関関係の連想、つ
まり関数Fを決定することである。
ここで提案する時系列データ処理用の二二一ラルネット
ワークの入出力関係を第6図に示す。
ワークの入出力関係を第6図に示す。
このネットワークは大域的特徴Yと局所的特徴Xの両デ
ータに共通して用いるが、もちろん、ニューロン間の結
合定数はそれぞれ異なる。それぞれのネットワークをY
記憶、X記憶と名付ける。
ータに共通して用いるが、もちろん、ニューロン間の結
合定数はそれぞれ異なる。それぞれのネットワークをY
記憶、X記憶と名付ける。
ネットワークの特徴は、図に示すように出力情報入力側
にフィードバック605されていることにある。このフ
ィードバックにより、出カデータ群Y n+x〜YNの
各データを−あるいは数時刻前のデータと関連させるこ
とができる。ところが、このフィードバック605が存
在するために一時刻先の予測は当然可能であるが、本実
施例の課題である長期開先の予測は原理的に不可能にな
ってしまう。そこで、学習過程においてはすべてのデー
タが利用できるのでフィードバック605が存在しても
何等支障がないが、第7図に示すように、認識過程(予
測過程)においてはフィードバックをカットできるよう
にする。これを達成するために、出カデータに対応する
入カデータとして、XJ YJ j=n+1. n+2゜ 、N XJ−YJ l j=n+1. n+2.
、+++++ Nを用いることにした。絶対値を
付けたのは、ニューロンへの入力が正に限られているか
らである。
にフィードバック605されていることにある。このフ
ィードバックにより、出カデータ群Y n+x〜YNの
各データを−あるいは数時刻前のデータと関連させるこ
とができる。ところが、このフィードバック605が存
在するために一時刻先の予測は当然可能であるが、本実
施例の課題である長期開先の予測は原理的に不可能にな
ってしまう。そこで、学習過程においてはすべてのデー
タが利用できるのでフィードバック605が存在しても
何等支障がないが、第7図に示すように、認識過程(予
測過程)においてはフィードバックをカットできるよう
にする。これを達成するために、出カデータに対応する
入カデータとして、XJ YJ j=n+1. n+2゜ 、N XJ−YJ l j=n+1. n+2.
、+++++ Nを用いることにした。絶対値を
付けたのは、ニューロンへの入力が正に限られているか
らである。
学習過程が終了すると、XJ=YJl j = n +
1 。
1 。
n+2.・・・、Nが実現しているはずなので、期待ど
おり認識過程においてはフィードバックが消滅する。し
かしながら、学習過程で時系列データとしての相関関係
はニューロン間の結合定数に分散記憶604されている
ので、単なるパターン間の写像とは本質的に異なる。尚
、入力が0になってもニューロンの出力特性から0.5
が出力されるので、常にニューロンは活動状態にある。
おり認識過程においてはフィードバックが消滅する。し
かしながら、学習過程で時系列データとしての相関関係
はニューロン間の結合定数に分散記憶604されている
ので、単なるパターン間の写像とは本質的に異なる。尚
、入力が0になってもニューロンの出力特性から0.5
が出力されるので、常にニューロンは活動状態にある。
〔アルゴリズム〕 (第23図)
■:演算の開始。(2301)
■:係数定数wta(n)の初期値を設定する。
■:各対象に対し各層のニューロンの状態X1(Q)を
決定する(2303) ■:教師情報を用いて出力層でのzt (L)を計算す
る。(2304) ■:出力層に結合する係数定数WiJ(L)を、ZI(
L)を用いて決定する。(2305)■:上下層ZI
(Q)を、上層ですでに決定されているWIJ (Q
+ 1 )から求める。
決定する(2303) ■:教師情報を用いて出力層でのzt (L)を計算す
る。(2304) ■:出力層に結合する係数定数WiJ(L)を、ZI(
L)を用いて決定する。(2305)■:上下層ZI
(Q)を、上層ですでに決定されているWIJ (Q
+ 1 )から求める。
■:■の処理を入力層まで繰り返す。
■:以上の様にして決定されたW□(Q)を初期値とし
、フィードバック項式(4)を入力層に入力する。(2
308) ■:繰返しを終了するかどうか収束判定をし、収束しな
ければ、■から■の処理を繰返す。
、フィードバック項式(4)を入力層に入力する。(2
308) ■:繰返しを終了するかどうか収束判定をし、収束しな
ければ、■から■の処理を繰返す。
[相]:収束すれば、演算を終了。(2310)時間相
関を取り入れる方法は上記の方法以外にも、たとえば、
学習の初期過程において式(4)に代わりX4およびX
Jをフィードバックし、それ以降はフィードバックを強
制的にOにおくことも可能であろう。
関を取り入れる方法は上記の方法以外にも、たとえば、
学習の初期過程において式(4)に代わりX4およびX
Jをフィードバックし、それ以降はフィードバックを強
制的にOにおくことも可能であろう。
以上で、学習機能付ニューラルネットワークの入出力関
係の特徴を述べたが、具体的には多層(以下の例では3
層)ニューラルネットワークを前提とする。
係の特徴を述べたが、具体的には多層(以下の例では3
層)ニューラルネットワークを前提とする。
最後に、学習機能付異種情報合成装置105で決定する
のがパラメータαである。先に述べたようにこれを決定
する外部要因は必ずしも全て特定できるわけではないの
で、何か別のアプローチで必要である。ここでは、外部
的要因が多数あるとの前提を積極的に利用して、シナー
ジェテイック的な統計手法でαを決定する手段(モデル
)を導く。外部的要因はいずれにしてもデータXNに反
映されるものであるが、αはもともと大域的な特徴と局
所的な特徴の比率を表わすパラメターであることを考慮
すると、間接的に外部要因の全体的な影響を一つのパラ
メターに縮約して表したのがデータのバラツキXN/X
Nと考えられる。このバラツキは時刻に依存するので、
簡単に、n=max(XN/XN)をスカラー指標とす
る。結局1課題はηの関数としてαを決定することであ
る。この関数を、ファジー理論ではメンバシップ関数と
呼ばれている。
のがパラメータαである。先に述べたようにこれを決定
する外部要因は必ずしも全て特定できるわけではないの
で、何か別のアプローチで必要である。ここでは、外部
的要因が多数あるとの前提を積極的に利用して、シナー
ジェテイック的な統計手法でαを決定する手段(モデル
)を導く。外部的要因はいずれにしてもデータXNに反
映されるものであるが、αはもともと大域的な特徴と局
所的な特徴の比率を表わすパラメターであることを考慮
すると、間接的に外部要因の全体的な影響を一つのパラ
メターに縮約して表したのがデータのバラツキXN/X
Nと考えられる。このバラツキは時刻に依存するので、
簡単に、n=max(XN/XN)をスカラー指標とす
る。結局1課題はηの関数としてαを決定することであ
る。この関数を、ファジー理論ではメンバシップ関数と
呼ばれている。
今、外部要因を添字jで表わし、αにも添字を付ける。
定義から、0≦α−≦1である。これは。
各外部要因はそれぞれηに与える影響度は異なることを
示すものである。この定義から各外部要因に対して、エ
ネルギー関数−α1η2なる関数を最小化するようにα
、が決定されているとモデル化できる。ここにη2はデ
ータの揺らぎの分散的な大きさを示すもので、揺らぎの
小さいときは、α、=1となり、そうでない場合にはα
4=0を選択する。つまり、揺らぎの小さい平均的な挙
動が重要な場合には、データXを用い、変動の大きな場
合には、むしろ変動分表わすデータYを重視する。一般
には、その中間的な値を採ることになる。
示すものである。この定義から各外部要因に対して、エ
ネルギー関数−α1η2なる関数を最小化するようにα
、が決定されているとモデル化できる。ここにη2はデ
ータの揺らぎの分散的な大きさを示すもので、揺らぎの
小さいときは、α、=1となり、そうでない場合にはα
4=0を選択する。つまり、揺らぎの小さい平均的な挙
動が重要な場合には、データXを用い、変動の大きな場
合には、むしろ変動分表わすデータYを重視する。一般
には、その中間的な値を採ることになる。
更に、ある要因iと別な要因jが同調あるいは競合して
変動するものとすれば、外部要因すべてについて重み付
は和をとると、 E=−fΣ目に+J(77”αt) (’I”(!a)
nkd ahなるエネルギーが仮定できる。ここに、正
定数kiJは重みを表わす。これを全エネルギーとし、
確率分exp(−E)で平均したパラメターくα〉=Σ
JくαJ〉/(要因数)を求めると、〈αt>〜/ a
texp(−E )d a t/exp(−E )〜
1/η2(6) となり、η2に逆比例することになる。この結果は異種
情報統合ロジック作成器104で与えられる。
変動するものとすれば、外部要因すべてについて重み付
は和をとると、 E=−fΣ目に+J(77”αt) (’I”(!a)
nkd ahなるエネルギーが仮定できる。ここに、正
定数kiJは重みを表わす。これを全エネルギーとし、
確率分exp(−E)で平均したパラメターくα〉=Σ
JくαJ〉/(要因数)を求めると、〈αt>〜/ a
texp(−E )d a t/exp(−E )〜
1/η2(6) となり、η2に逆比例することになる。この結果は異種
情報統合ロジック作成器104で与えられる。
実施例として株価の動向予測を選んだ理由は、従来のプ
ロセス系とは異なり対象のダナミックスがあまり明確で
はなくしかも不特定多数の外部要因が存在する複雑な挙
動を示すので、新しい工学的アプローチの必要性のある
分野のように思われる。
ロセス系とは異なり対象のダナミックスがあまり明確で
はなくしかも不特定多数の外部要因が存在する複雑な挙
動を示すので、新しい工学的アプローチの必要性のある
分野のように思われる。
本発明によるニューラルネットワークによる情報処理装
置の有効性を示すため、時系列データの典型例として株
価データの長期間予測を取り扱う。
置の有効性を示すため、時系列データの典型例として株
価データの長期間予測を取り扱う。
課題は、与えられたデータ群X工〜Xn(n=10)か
ら長期開先のデータ群Xn+x〜XN(N:20)を予
測することである。元の株価データをニューラルネット
ワークに入力するために、第2図に示すように、0と1
の間に入るように前処理部106で規格化202しなけ
ればならない。ここでは、学習に用いたメカデータ20
1を、全学習データの平均をOとなるように線形変換後
、更にシグモイド変換を施し、正格化201した。さら
に必要に応じて、量子化処理203を施す。シグモイド
関数の傾きは、最小値は0付近、同じく最大値は1付近
になるように設定した。尚、実数データは、本来ならば
バイナリ−データに変換したほうがニューロンへの入力
として適切の様に思われるが、今の所、線形変換とシグ
モイド変換をうまく行なえば、バイナリ−データを利用
した結果との重大な相違が見出されていない。しかも、
ニューロン数および結合数が大幅に増えるので、以下に
示すシミュレーション実験では上記の様な方法を用いる
。学習過程のネットワークの入力は20個、中間層は4
0個、出力は10個のニューロンで構成し、認識過程で
は入カデータ用のニューロンは10個である。使用した
株価データは8足データなので各データの添字は日をあ
られすが、実質的には日はあまり意味がないのでここで
は単位と呼んでおくことにする。学習に使用したデータ
は64単位であり、2単位おきに順番に学習に用いたた
め、合計22組のデータを教師として利用した。尚、す
べてのデータが入力されるようにランダムに選んだ10
組の教師データでも、はぼ同じ学習結論が得られている
。Xデータ、Yデータとも各教師データを100000
回逆伝播法(学習係数は0.5で、慣性項は考えていな
い)で学習させた。出力誤差は10−2〜10−3程度
である。
ら長期開先のデータ群Xn+x〜XN(N:20)を予
測することである。元の株価データをニューラルネット
ワークに入力するために、第2図に示すように、0と1
の間に入るように前処理部106で規格化202しなけ
ればならない。ここでは、学習に用いたメカデータ20
1を、全学習データの平均をOとなるように線形変換後
、更にシグモイド変換を施し、正格化201した。さら
に必要に応じて、量子化処理203を施す。シグモイド
関数の傾きは、最小値は0付近、同じく最大値は1付近
になるように設定した。尚、実数データは、本来ならば
バイナリ−データに変換したほうがニューロンへの入力
として適切の様に思われるが、今の所、線形変換とシグ
モイド変換をうまく行なえば、バイナリ−データを利用
した結果との重大な相違が見出されていない。しかも、
ニューロン数および結合数が大幅に増えるので、以下に
示すシミュレーション実験では上記の様な方法を用いる
。学習過程のネットワークの入力は20個、中間層は4
0個、出力は10個のニューロンで構成し、認識過程で
は入カデータ用のニューロンは10個である。使用した
株価データは8足データなので各データの添字は日をあ
られすが、実質的には日はあまり意味がないのでここで
は単位と呼んでおくことにする。学習に使用したデータ
は64単位であり、2単位おきに順番に学習に用いたた
め、合計22組のデータを教師として利用した。尚、す
べてのデータが入力されるようにランダムに選んだ10
組の教師データでも、はぼ同じ学習結論が得られている
。Xデータ、Yデータとも各教師データを100000
回逆伝播法(学習係数は0.5で、慣性項は考えていな
い)で学習させた。出力誤差は10−2〜10−3程度
である。
先に、大域的特徴と局所的特徴の比αがη2に逆比例す
ることを理論的に導いた。学習時の用いたデータで最も
適したαをプロットすると、この関係が確かに成立し、
しかも、比例係数が23となることがわかる。この関係
を用いれば、予測の際にも過去のデータ変動成分からα
を決定できるので、予測データaXtpr+ (1−(
E) XXNが決定できる。
ることを理論的に導いた。学習時の用いたデータで最も
適したαをプロットすると、この関係が確かに成立し、
しかも、比例係数が23となることがわかる。この関係
を用いれば、予測の際にも過去のデータ変動成分からα
を決定できるので、予測データaXtpr+ (1−(
E) XXNが決定できる。
株価データ803の動向予測の一例を第9図に示す6図
中、予測期間801を矢印付の太線で、予測期間中の実
際の株価データを細線で表す。むろん、予測期間中の実
際の株価データは学習にはいっさい使用していない。全
体的には絶対値、傾向ともほぼ満足のいくものである。
中、予測期間801を矢印付の太線で、予測期間中の実
際の株価データを細線で表す。むろん、予測期間中の実
際の株価データは学習にはいっさい使用していない。全
体的には絶対値、傾向ともほぼ満足のいくものである。
ただし、9単位先ぐらいになるとやはり実際のデータの
傾向から少しずれてくる。現在、20サンプルのデータ
で検証した結果、16サンプルまでが予測できた。
傾向から少しずれてくる。現在、20サンプルのデータ
で検証した結果、16サンプルまでが予測できた。
つまり、80%の的中率である。
学習機能付異種情報合成装置903の一使用例に関して
、以下に述べる。
、以下に述べる。
入カデータ群901は重ならないようにして指定された
位置から入力する。各データは指定された順番に従って
、同期させて入力するための入力制御装W902で制御
されている。各データに対応した神経回路網の出力を、
必要に応じて外部情報904あるいは内部情報を用いて
、評価するための評価装置905に入力する。そこで計
算された評価値に基づいて、神経回路網を変更するため
の学習装置906を動作させる。
位置から入力する。各データは指定された順番に従って
、同期させて入力するための入力制御装W902で制御
されている。各データに対応した神経回路網の出力を、
必要に応じて外部情報904あるいは内部情報を用いて
、評価するための評価装置905に入力する。そこで計
算された評価値に基づいて、神経回路網を変更するため
の学習装置906を動作させる。
第11図は各素子1101の入出力関係を表わす。各デ
ータの神経回路網への入力方向に従って。
ータの神経回路網への入力方向に従って。
たとえば入力1102に対応して、出力1104、また
入力1103に対応させて出力1105を出す。各素子
は神経回路網の内にある位置に従って、ある特定のデー
タのみを処理する場合もあり、また第10図のように複
雑のデータをある順序に従って処理する場合もある。
入力1103に対応させて出力1105を出す。各素子
は神経回路網の内にある位置に従って、ある特定のデー
タのみを処理する場合もあり、また第10図のように複
雑のデータをある順序に従って処理する場合もある。
入カデータが2個の場合を例にとり、動作の例を第12
図に従って説明する。各入カデータ1201.1202
は複数の素子の状態として表わされるものとし、それぞ
れの値を神経回路網1203の端に位置する同数の素子
に与える。神経回路網1203は、しきい値論理素子1
206が必要に応じて互いに結合されているような構造
になっている。ただし、構造として特徴あることは、こ
の神経回路網は、各データが処理される素子だけを見れ
ば、それらの素子はそのデータに対しては、多層構造を
した神経回路網を構成している。従って、全体としては
、各データに対応した多層型神経回路網を複合して構成
したのが第12図の神経回路網である。従って、入カデ
ータ12o1と、それに対応した出カデータ1204の
対応関係を、各素子間の結合定数に分散的に記憶するこ
とが可能である。同様に、もう−っの入カデータ120
2に対応した出カデータ1205との関係も記憶するこ
とが可能となる。さらに本発明による神経回路網120
3の特徴は、各データ間の関係を、各データに対応する
多層型神経回路網の接する位置に対する素子1207で
、各層型神経回路網の各層ごとに、各データの特徴的な
関係を記憶できる。
図に従って説明する。各入カデータ1201.1202
は複数の素子の状態として表わされるものとし、それぞ
れの値を神経回路網1203の端に位置する同数の素子
に与える。神経回路網1203は、しきい値論理素子1
206が必要に応じて互いに結合されているような構造
になっている。ただし、構造として特徴あることは、こ
の神経回路網は、各データが処理される素子だけを見れ
ば、それらの素子はそのデータに対しては、多層構造を
した神経回路網を構成している。従って、全体としては
、各データに対応した多層型神経回路網を複合して構成
したのが第12図の神経回路網である。従って、入カデ
ータ12o1と、それに対応した出カデータ1204の
対応関係を、各素子間の結合定数に分散的に記憶するこ
とが可能である。同様に、もう−っの入カデータ120
2に対応した出カデータ1205との関係も記憶するこ
とが可能となる。さらに本発明による神経回路網120
3の特徴は、各データ間の関係を、各データに対応する
多層型神経回路網の接する位置に対する素子1207で
、各層型神経回路網の各層ごとに、各データの特徴的な
関係を記憶できる。
第13図は、各入カデータの処理プロセスを示す。もし
、データ間の関係を考えなければ(素子1301を無視
すれば)全ての入カデータに対し、並列的に処理ができ
るので、入カデータ数には無関係に、高速な処理ができ
ることになる。しかし、素子1301を考えると、その
素子は関連するデータを同時に処理する必要があるので
、各データを同期させて入力する。このようにすると、
各時刻においてはどちらかの入カデータのみを処理して
いることになり、混存することはなくなる。
、データ間の関係を考えなければ(素子1301を無視
すれば)全ての入カデータに対し、並列的に処理ができ
るので、入カデータ数には無関係に、高速な処理ができ
ることになる。しかし、素子1301を考えると、その
素子は関連するデータを同時に処理する必要があるので
、各データを同期させて入力する。このようにすると、
各時刻においてはどちらかの入カデータのみを処理して
いることになり、混存することはなくなる。
神経回路網における学習とは、入カデータと教師データ
との写像関係を、素子間の結合定数の値として記憶する
ことである。一般によく用いられている逆伝播法(パッ
クプロパゲーション法)では、与えられた入カデータか
ら得られる出カデータと教師データとの2乗誤差を0に
するように結合定数を修正する。本発明での学習法では
、第14図に示すように、入カデータ1401と教師デ
ータ1402を同期させて入力する。そして、神経回路
網の出力素子1403から、それぞれのデータに対応し
た、出力1404.1405を比較器1406に入力す
る。ここで、出力素子は。
との写像関係を、素子間の結合定数の値として記憶する
ことである。一般によく用いられている逆伝播法(パッ
クプロパゲーション法)では、与えられた入カデータか
ら得られる出カデータと教師データとの2乗誤差を0に
するように結合定数を修正する。本発明での学習法では
、第14図に示すように、入カデータ1401と教師デ
ータ1402を同期させて入力する。そして、神経回路
網の出力素子1403から、それぞれのデータに対応し
た、出力1404.1405を比較器1406に入力す
る。ここで、出力素子は。
従来の学習用多層型神経回路網におけるちょうど中間層
の素子に対応するものである。
の素子に対応するものである。
入カデータ1401と教師データ1402から得られる
出カデータ1404と出カデータ1405の値が等しく
なるよう学習装W1407で結合定数を修正する。この
ようにすると、入カデータ1401と教師データ140
2を一対一に対応さることができるので、学習ができる
ことになる。
出カデータ1404と出カデータ1405の値が等しく
なるよう学習装W1407で結合定数を修正する。この
ようにすると、入カデータ1401と教師データ140
2を一対一に対応さることができるので、学習ができる
ことになる。
しかも、従来法とは異なり、同期的な演算処理が可能な
ので、高速な学習処理が望める。第15図に、具体的な
処理プロセスを示す。入カデータ1501、教師データ
をそれぞれ読み出し信号に同期させて神経回路網に入力
する。そして、それぞれのデータに対する出カデータの
2乗誤差1502が、学習が進むに従って0に収束して
ゆく。
ので、高速な学習処理が望める。第15図に、具体的な
処理プロセスを示す。入カデータ1501、教師データ
をそれぞれ読み出し信号に同期させて神経回路網に入力
する。そして、それぞれのデータに対する出カデータの
2乗誤差1502が、学習が進むに従って0に収束して
ゆく。
学習機能付ニューラルネットワーク108において、逆
伝播法はパターン認識等で広く用いられている代表的学
習アルゴリズムである。多層型ニューラルネットワーク
では、第8図に示すように、信号704は入力層701
から、中間層702をへて、出力層703に向かって伝
播する。出力層では記憶すべき対象の符号化された情報
が教師情報として与えられる。結合定数は予め与えられ
ていないので、意味のない出力しか得られない。そこで
、出力情報と教師情報との誤差に基づき結合定数を徐々
に変更し、誤差がなくなるまで繰り返す。逆伝播法はこ
の考え方をそのままアルゴリズムの型で与えたものであ
るが、数学的に厳密に構成されたものではない。このた
め、学習速度、学習手順、学習容量など学習能力に関し
た重要なことがらはノウハウとして蓄積されているに過
ぎない。しかし、数学的裏付けが欠如し直感的に構成し
ているにも関わらず各種の応用が発表されていることか
ら分かるように予期せぬ高い能力を備えている。特に重
要なことがらは、原理的には学習可能な場合(与えられ
た学習パターンをすべて記憶できる十分余裕のある結合
定数で構成されたネットワーク、あるいは単純に学習パ
ターン数と同サイズの中間層で構成されたネットワーク
)にも、例えば初期値により必ずしも出力誤差がOにな
らない、つまり学習しない場合が多いことである。
伝播法はパターン認識等で広く用いられている代表的学
習アルゴリズムである。多層型ニューラルネットワーク
では、第8図に示すように、信号704は入力層701
から、中間層702をへて、出力層703に向かって伝
播する。出力層では記憶すべき対象の符号化された情報
が教師情報として与えられる。結合定数は予め与えられ
ていないので、意味のない出力しか得られない。そこで
、出力情報と教師情報との誤差に基づき結合定数を徐々
に変更し、誤差がなくなるまで繰り返す。逆伝播法はこ
の考え方をそのままアルゴリズムの型で与えたものであ
るが、数学的に厳密に構成されたものではない。このた
め、学習速度、学習手順、学習容量など学習能力に関し
た重要なことがらはノウハウとして蓄積されているに過
ぎない。しかし、数学的裏付けが欠如し直感的に構成し
ているにも関わらず各種の応用が発表されていることか
ら分かるように予期せぬ高い能力を備えている。特に重
要なことがらは、原理的には学習可能な場合(与えられ
た学習パターンをすべて記憶できる十分余裕のある結合
定数で構成されたネットワーク、あるいは単純に学習パ
ターン数と同サイズの中間層で構成されたネットワーク
)にも、例えば初期値により必ずしも出力誤差がOにな
らない、つまり学習しない場合が多いことである。
学習時間の制約から、あまり結合定数を多くしたくない
が、あまり少ないと学習しにくくなる傾向がある。原理
的に学習可能な程度の少数の結合定数ニューラルネット
ワークを構成したいのであるが、学習可能な初期値設定
に苦労することになる。
が、あまり少ないと学習しにくくなる傾向がある。原理
的に学習可能な程度の少数の結合定数ニューラルネット
ワークを構成したいのであるが、学習可能な初期値設定
に苦労することになる。
このようなトレードオフ関係を改善するためには、結合
定数の初期値に係らず学習できるアルゴリズムの提案が
必要になってきた。
定数の初期値に係らず学習できるアルゴリズムの提案が
必要になってきた。
学機能付ニューラルネットワーク108での学習で特に
重要な出力誤差の収束性を保証するように、ランジェバ
ン型確率微分方程式を基礎にした確率学習アルゴリズム
を与えることである。逆伝播法は誤差の最小化を最北降
下法で求めようとしているため、わずかな偶然を除けば
本質的に絶対的な最小化はできない。第16図に示すよ
うに、一般に出力誤差1601には多数の極小解160
2が存在するため、逆伝播法のように確率的要素を内在
しないアルゴリズムでは極小解に陥るとそこから脱出す
る術をもたない。このため、組み合せ最適化問題などで
良く用いられている、ゆらぎ1603を利用して極小解
から脱出して最小化するSimulated Anne
ling法を学習アルゴリズムに適用した。シミュレー
ション結果は、予期したように従来の逆伝播法より学習
性能が向上した。
重要な出力誤差の収束性を保証するように、ランジェバ
ン型確率微分方程式を基礎にした確率学習アルゴリズム
を与えることである。逆伝播法は誤差の最小化を最北降
下法で求めようとしているため、わずかな偶然を除けば
本質的に絶対的な最小化はできない。第16図に示すよ
うに、一般に出力誤差1601には多数の極小解160
2が存在するため、逆伝播法のように確率的要素を内在
しないアルゴリズムでは極小解に陥るとそこから脱出す
る術をもたない。このため、組み合せ最適化問題などで
良く用いられている、ゆらぎ1603を利用して極小解
から脱出して最小化するSimulated Anne
ling法を学習アルゴリズムに適用した。シミュレー
ション結果は、予期したように従来の逆伝播法より学習
性能が向上した。
神経回路モデル(第3図)はパターンUK 2等で通常
良く用いられている多層神経回路網である。
良く用いられている多層神経回路網である。
入力層から第Ω層のi番目ニューロン状態をx+nn(
Ω=1.2.・・・、L)とし、x、(Q)=f+(Σ
JWtJ(Q)Xa(fl 1))と書く、ここに
、WIJ(Q)は2層のiニューロンとρ−1層のjニ
ューロン間のシナプス結合301、f、は0,1に飽和
するしきい値開数302で、一般にシグモイド関数30
5ft(Z)= 1 /(1+exp (−(Z−θ)
/T))を採る場合が多いが、階段関数304も用いら
れる。Tは温度に相当するパラメータ、θはしきい値で
ある。
Ω=1.2.・・・、L)とし、x、(Q)=f+(Σ
JWtJ(Q)Xa(fl 1))と書く、ここに
、WIJ(Q)は2層のiニューロンとρ−1層のjニ
ューロン間のシナプス結合301、f、は0,1に飽和
するしきい値開数302で、一般にシグモイド関数30
5ft(Z)= 1 /(1+exp (−(Z−θ)
/T))を採る場合が多いが、階段関数304も用いら
れる。Tは温度に相当するパラメータ、θはしきい値で
ある。
層番号りは出力層に対応する。式(7)における和はQ
−1層のすべての他ニューロンからの出力303の和を
とる密結合構造でも、ある一定の範囲に存在するニュー
ロンの和をとる受容野的構造でもよい。
−1層のすべての他ニューロンからの出力303の和を
とる密結合構造でも、ある一定の範囲に存在するニュー
ロンの和をとる受容野的構造でもよい。
今、記憶パターンがP種類あり、その番号をn(1,2
,・・・、p)で表わすと、式(7)をP個連立させる
ことになり、 xt”(Q )= f I(ΣJWIJ(fl )X
J”(Q −1))なる方程式群を得る。学習として
最も重要な事項なことは、すべてのパターンを同じ結合
定数で記憶できるようにすることである。異なる結合定
数で記憶するのであれば問題は簡単であり、意味がない
。このことは結合定数にある程度冗長性を持たせること
の重要性を示すものであり、従来多くの応用で密結合構
造を採用している理由である。
,・・・、p)で表わすと、式(7)をP個連立させる
ことになり、 xt”(Q )= f I(ΣJWIJ(fl )X
J”(Q −1))なる方程式群を得る。学習として
最も重要な事項なことは、すべてのパターンを同じ結合
定数で記憶できるようにすることである。異なる結合定
数で記憶するのであれば問題は簡単であり、意味がない
。このことは結合定数にある程度冗長性を持たせること
の重要性を示すものであり、従来多くの応用で密結合構
造を採用している理由である。
第1の例として従来の代表的学習方法は逆伝播法と呼ば
れるアルゴリズムで、出力層での2乗誤差E=0.5Σ
t (xt (L) −Dl)”を最小にするように結
合定数を決定する。ここに、DIは学習により記憶させ
たい対象に対応する教師情報である。この方法自体最小
化を保証しないにも関わらず、意外にも収束、つまり学
習できる場合が多い。
れるアルゴリズムで、出力層での2乗誤差E=0.5Σ
t (xt (L) −Dl)”を最小にするように結
合定数を決定する。ここに、DIは学習により記憶させ
たい対象に対応する教師情報である。この方法自体最小
化を保証しないにも関わらず、意外にも収束、つまり学
習できる場合が多い。
その理由として、最初に考えられるのは、誤差Oを満た
す解はたくさんあっても意外と極小解が少ない可能性が
ある。これに関しては、現在にいたるまで明確な解答が
得られていない。第二の可能性は、極小解を避ける確率
的メカニズムがなんらかの方法で入っていることである
。可能性として、学習用パターンをランダムに与えるこ
とから生じる確率性があるが、はとんど効果がない。最
も重要なことは、結合定数のランダム性による。はとん
どのシミュレーション実験では、結合定数の初期値とし
て正負の混じった゛乱数′を設定している。この理由は
、すべて同一符号の結合定数だと明らかに意味のない解
しか得られないため、簡単に設定できる乱数にしている
。しかも、学習過程において結合定数のすべてが変動す
るわけではなく、冗長性のため多数の結合定数が初期値
のまま、あるいは初期値付近の値に停留している場合が
多い。このため、多くの場合、陽に外部から確率性を導
入することなく結合定数の乱数初期値から極小解を避け
る学習ができている。
す解はたくさんあっても意外と極小解が少ない可能性が
ある。これに関しては、現在にいたるまで明確な解答が
得られていない。第二の可能性は、極小解を避ける確率
的メカニズムがなんらかの方法で入っていることである
。可能性として、学習用パターンをランダムに与えるこ
とから生じる確率性があるが、はとんど効果がない。最
も重要なことは、結合定数のランダム性による。はとん
どのシミュレーション実験では、結合定数の初期値とし
て正負の混じった゛乱数′を設定している。この理由は
、すべて同一符号の結合定数だと明らかに意味のない解
しか得られないため、簡単に設定できる乱数にしている
。しかも、学習過程において結合定数のすべてが変動す
るわけではなく、冗長性のため多数の結合定数が初期値
のまま、あるいは初期値付近の値に停留している場合が
多い。このため、多くの場合、陽に外部から確率性を導
入することなく結合定数の乱数初期値から極小解を避け
る学習ができている。
以上に述べた逆伝播法における確率性導入の説明から、
この確率性を積極的に導入して逆伝播法を確率逆伝播法
に拡張するために、Eの最小化ではなく、確率分布 exp(−E/T) の最大化に置き換えよう。ここに1温度′Tは正の定数
で、ノイズの分散を表わす。確率の最大化(実現状態)
は、結合定数の時間変化としてランジェバン型確率微分
方程式 %式%(12) に等価である。ここに、ηは正の定数で、ξtJ(n)
は平均値Oで分散Tの独立な付加ランダムノイズ(以下
では、白色ガウス分布を仮定する)である。逆伝播法と
の違いは単に右辺にランダム項は付加されているだけで
あるが、この項こそが極小解を回避ならしめるのである
。この式は一つの記憶に対する学習としては数学的にも
厳密なものであるが、多数の情報を記憶するとなるとそ
のままでは成立せず拡張する必要があるが、しかし、逆
伝播法では厳密な取り扱いがなく、学習方法は上式に従
う結合定数を各記憶対象ごとに適当に繰り返しているに
過ぎない。
この確率性を積極的に導入して逆伝播法を確率逆伝播法
に拡張するために、Eの最小化ではなく、確率分布 exp(−E/T) の最大化に置き換えよう。ここに1温度′Tは正の定数
で、ノイズの分散を表わす。確率の最大化(実現状態)
は、結合定数の時間変化としてランジェバン型確率微分
方程式 %式%(12) に等価である。ここに、ηは正の定数で、ξtJ(n)
は平均値Oで分散Tの独立な付加ランダムノイズ(以下
では、白色ガウス分布を仮定する)である。逆伝播法と
の違いは単に右辺にランダム項は付加されているだけで
あるが、この項こそが極小解を回避ならしめるのである
。この式は一つの記憶に対する学習としては数学的にも
厳密なものであるが、多数の情報を記憶するとなるとそ
のままでは成立せず拡張する必要があるが、しかし、逆
伝播法では厳密な取り扱いがなく、学習方法は上式に従
う結合定数を各記憶対象ごとに適当に繰り返しているに
過ぎない。
式(9)の右辺を具体的に計算すると、確率逆伝播法と
して以下のようなアルゴリズムが導ける。
して以下のようなアルゴリズムが導ける。
*
wiJ(L)=ηZ1(L)XJ(L 1)+WiJ
(L)十ξIJ(L)Zl(L)=(DI−XI(L)
)Xl(L)(1−XI(L))* WIJ(Q)=ηZt(jl)Xa(Ql)+WtJ(
Q)+ξIJ(I2)zi(Q)=(ΣkWkバti+
1)zh(Ω+1))x、(n)(1−Xs(Q)) ff=L−1,・・・、2,1 (lO) 逆伝播法で現われる微小変位ΔW、、(Q)は本ネ 来の定義から離れて、wiJ(n)−wta(Q)とし
ているので厳密には逆伝播法はEの最小化だけを行って
いるのではないことに注意する必要がある。
(L)十ξIJ(L)Zl(L)=(DI−XI(L)
)Xl(L)(1−XI(L))* WIJ(Q)=ηZt(jl)Xa(Ql)+WtJ(
Q)+ξIJ(I2)zi(Q)=(ΣkWkバti+
1)zh(Ω+1))x、(n)(1−Xs(Q)) ff=L−1,・・・、2,1 (lO) 逆伝播法で現われる微小変位ΔW、、(Q)は本ネ 来の定義から離れて、wiJ(n)−wta(Q)とし
ているので厳密には逆伝播法はEの最小化だけを行って
いるのではないことに注意する必要がある。
記憶数が1であればこの定式化は厳密にEの最小化を行
うものであるが、多数のパターンを同時に記憶する場合
には意味がはっきりしない。たとえば、ランダムに多数
のパターンを記憶する場合に* は、 wta(Q)とW t J (ρ)を決定する過
程での対応するパターンが異なっている。
うものであるが、多数のパターンを同時に記憶する場合
には意味がはっきりしない。たとえば、ランダムに多数
のパターンを記憶する場合に* は、 wta(Q)とW t J (ρ)を決定する過
程での対応するパターンが異なっている。
(アルゴリズム〕 (第24図)
■:演算の開始。(2401)
■:係数定数Wl、(Q)及びノイズの標準偏差の温度
の初期値を設定する。(2402)■:各対象に対し各
層のニューロンの状態XI(j2)を決定する。(24
03) ■:教師情報を用いて出力層でのZ+ (L)を計算す
る。(2404) ■:出力層に結合する係数定数WIJ (L)を、Z+
(L)とランダムノイズξIJ (L)を用いて決定
する。(2405) ■:上下層Z+(Q)を、上層ですでに決定されている
WIJ(Q+1)から求める。
の初期値を設定する。(2402)■:各対象に対し各
層のニューロンの状態XI(j2)を決定する。(24
03) ■:教師情報を用いて出力層でのZ+ (L)を計算す
る。(2404) ■:出力層に結合する係数定数WIJ (L)を、Z+
(L)とランダムノイズξIJ (L)を用いて決定
する。(2405) ■:上下層Z+(Q)を、上層ですでに決定されている
WIJ(Q+1)から求める。
■:■の処理を入力層まで繰り返す。
02以上の様にして決定されたWIJ(Q)を初期値と
し、ノイズの標準偏差の温度を、例えば式(18)に従
って変更する。
し、ノイズの標準偏差の温度を、例えば式(18)に従
って変更する。
■:繰返しを終了するかどうか収束判定をし、収束しな
ければ、■から■の処理を繰返す。
ければ、■から■の処理を繰返す。
[相]:収束すれば、演算を終了、(2409)式(1
0)における付加ノイズを全て独立して生成すると処理
時間が長くなるため、外部ノイズをシナプス結合数と学
習回数の積に相当する数生成することによる長時間の処
理時間を回避することを目的に、第17図に示すように
シナプス結合数に相当するノイズで作成した表1701
と、学習回数に相当するノイズで作成した表1702を
用意し、学習の各繰り返し過程においてシナプス結合に
対応するノイズと学習回数に対応するノイズの積を外部
ノイズとする。
0)における付加ノイズを全て独立して生成すると処理
時間が長くなるため、外部ノイズをシナプス結合数と学
習回数の積に相当する数生成することによる長時間の処
理時間を回避することを目的に、第17図に示すように
シナプス結合数に相当するノイズで作成した表1701
と、学習回数に相当するノイズで作成した表1702を
用意し、学習の各繰り返し過程においてシナプス結合に
対応するノイズと学習回数に対応するノイズの積を外部
ノイズとする。
第2の例として、同一出願人により特願平1−9735
0で提案された最大原理に基づく高速学習アルゴリズム
について述べる。最大原理の出発点はコスト関数Jの定
義である。まず、逆伝播法と同じく、出力層での2乗誤
差の最小化を行う関数Σ。XI (X、n(L)−DI
’)2を用意する。形式的には逆伝播法と同じようだが
重要な違いがある。
0で提案された最大原理に基づく高速学習アルゴリズム
について述べる。最大原理の出発点はコスト関数Jの定
義である。まず、逆伝播法と同じく、出力層での2乗誤
差の最小化を行う関数Σ。XI (X、n(L)−DI
’)2を用意する。形式的には逆伝播法と同じようだが
重要な違いがある。
逆伝播では記憶対象についての和がなく、アルゴリズム
の構成後無理矢理に多くの対象を記憶するように最小化
を繰返し用いている。このため、記憶順番を固定したり
ランダムにしたり別々に求めて最後に足しあわせるなど
様々な方法が提案されている。本方式では上記のコスト
関数に結合定数の組合せの中から選択するための項をつ
け加えて。
の構成後無理矢理に多くの対象を記憶するように最小化
を繰返し用いている。このため、記憶順番を固定したり
ランダムにしたり別々に求めて最後に足しあわせるなど
様々な方法が提案されている。本方式では上記のコスト
関数に結合定数の組合せの中から選択するための項をつ
け加えて。
次の様なコスト関数Jを採用する。
J=0.5Σ、Σ+(Xtn(L)Dtn)2+0.5
Σ、k(Q)Σ。
Σ、k(Q)Σ。
XJ(Wta(fl) WIJ(Q) )”ここに、
k(Ω)は層番号に依存する正の定数で* あり、wiJ(Q) は既に記憶されている固定値で
ある。第二項は新たに学習により結合定数が変更された
としても、既に記憶された値からあまりずれないように
制御するためのものである。最大原理ではコスト関数も
方程式系に組み入れて定式化するので、新しい変数X5
(Q)を用意する。ここに、Sは層に依存した関数s
(Q)で、各層内の最後のニューロンの次の番号を割り
当てる。新しい変数が従う方程式は X5(Q)=Xs(4−1)十Σ。Xt(Xtll(L
) Dtつ”/L+k(fi)ΣiΣa(WIJ(Q
) Wta(Q) )” (12)H;Σ
、(Σ、ΣIZ皿”(Q)fi(ΣJWIJ(Q)XJ
”(Ω−1))+Zs’(りfs(12)) 本式に現われる変数zt”(n)は補助変数で、最小化
のための重要な変数である。補助変数の従う方程式は随
伴方程式と呼ばれ、Zt(Q−1)=aH/δXtll
(fi 1)より決定さレル。
k(Ω)は層番号に依存する正の定数で* あり、wiJ(Q) は既に記憶されている固定値で
ある。第二項は新たに学習により結合定数が変更された
としても、既に記憶された値からあまりずれないように
制御するためのものである。最大原理ではコスト関数も
方程式系に組み入れて定式化するので、新しい変数X5
(Q)を用意する。ここに、Sは層に依存した関数s
(Q)で、各層内の最後のニューロンの次の番号を割り
当てる。新しい変数が従う方程式は X5(Q)=Xs(4−1)十Σ。Xt(Xtll(L
) Dtつ”/L+k(fi)ΣiΣa(WIJ(Q
) Wta(Q) )” (12)H;Σ
、(Σ、ΣIZ皿”(Q)fi(ΣJWIJ(Q)XJ
”(Ω−1))+Zs’(りfs(12)) 本式に現われる変数zt”(n)は補助変数で、最小化
のための重要な変数である。補助変数の従う方程式は随
伴方程式と呼ばれ、Zt(Q−1)=aH/δXtll
(fi 1)より決定さレル。
結合定数の従う方程式は、ハミルトニアンHをWIJ(
Ω)について微分し、0とおくことにより容易に得られ
る。入力層と出力層での値が与えられている構成から本
質的に2点境界値問題となっているので、解析的に解法
する手段は望めない。
Ω)について微分し、0とおくことにより容易に得られ
る。入力層と出力層での値が与えられている構成から本
質的に2点境界値問題となっているので、解析的に解法
する手段は望めない。
一般には、繰返し法で収束計算することになる。
と仮定する。右辺を仮りにfs(ρ)とおくとコスト関
数の代わりに動的方程式を一つ追加することになるが、
取り扱いが容易となる。次に系のハミルトニアンHを定
義する。
数の代わりに動的方程式を一つ追加することになるが、
取り扱いが容易となる。次に系のハミルトニアンHを定
義する。
WIJ(L)=(1/k(ff))ΣnZl”(L)X
J”(L 1)+Wsa(L) Zt”(L)=(1/LT)(Dt” Xt”(L)
)Xt”(L)”(1−Xt”(L)) WIJ(Q)=(1/k(Q))ΣnZt”(fl)X
J”(n 1)+WIJ(jl) Zl”(n)=(1/T)(ΣtΣ、Wki”(Q+
1)−Zk”CQ +1))xt”(Q)(1−xtr
l(n)) 出力層を除いた各層では結合定数に関する和ΣhWkA
(Q+1)Zh”(Q+1)を求めなければならない部
分があるので、完全ではないが並列化し易いことが推察
できる。出力層以外の層では、結合定数に関する上述し
た和を計算する部分があり。
J”(L 1)+Wsa(L) Zt”(L)=(1/LT)(Dt” Xt”(L)
)Xt”(L)”(1−Xt”(L)) WIJ(Q)=(1/k(Q))ΣnZt”(fl)X
J”(n 1)+WIJ(jl) Zl”(n)=(1/T)(ΣtΣ、Wki”(Q+
1)−Zk”CQ +1))xt”(Q)(1−xtr
l(n)) 出力層を除いた各層では結合定数に関する和ΣhWkA
(Q+1)Zh”(Q+1)を求めなければならない部
分があるので、完全ではないが並列化し易いことが推察
できる。出力層以外の層では、結合定数に関する上述し
た和を計算する部分があり。
それは原理的に並列化できない。並列化するための方法
として、既に決定されているーステップ前の結合定数を
用いれば近似的には可能である。
として、既に決定されているーステップ前の結合定数を
用いれば近似的には可能である。
大規模な神経回路網で計算時間が大幅にかかるところは
ニューロンの状態変化を求めるところではなく、結合定
数の変更部分であることに注意する。特に、添字ijの
全てについて計算しなければならない。ニューロン状態
は、 * ΣJWIJ (Q )XJ” (n 1 )の総入力
と結合定数の変更式においてはΣ=Wht (Q+1
) Zh” (A+1)で決定されるので、これらの量
を直接計算した方が得策である。ここでWiJ(Q)で
なく−ステップ前のWIJ(Ω)を用いたのは学習済の
結合定数から次の学習対象に対し計算をすることによる
ものである。そこで、これらの和を■I′″(Q)、=
t”(Q)で表わす。
ニューロンの状態変化を求めるところではなく、結合定
数の変更部分であることに注意する。特に、添字ijの
全てについて計算しなければならない。ニューロン状態
は、 * ΣJWIJ (Q )XJ” (n 1 )の総入力
と結合定数の変更式においてはΣ=Wht (Q+1
) Zh” (A+1)で決定されるので、これらの量
を直接計算した方が得策である。ここでWiJ(Q)で
なく−ステップ前のWIJ(Ω)を用いたのは学習済の
結合定数から次の学習対象に対し計算をすることによる
ものである。そこで、これらの和を■I′″(Q)、=
t”(Q)で表わす。
H+1l(Q )= IJWIJ (Q )XJn(Q
−1) (15)E、”(Q)−4JWkJ(Q)Z
k’(Q−1) (16)式(14)を式(15)を
代入すると上式に対する階差方程式、つまり学習方程式
は容易に求まる。
−1) (15)E、”(Q)−4JWkJ(Q)Z
k’(Q−1) (16)式(14)を式(15)を
代入すると上式に対する階差方程式、つまり学習方程式
は容易に求まる。
プログラム的には、2重Doループが1重DOループに
なり演算が早まる。これらの方程式に、逆伝播法と同様
に確率要素を導入すると。
なり演算が早まる。これらの方程式に、逆伝播法と同様
に確率要素を導入すると。
nt”(Q)=nt” (12)+(1/k(fi))
Σ、(zt” n)本 :TJXa”(Q−1))XJ”(ff−1)lt”(
Q) (17)なる階差方程式が得られる。ここに
、ξ1n(Q)は平均値Oで分散Tの独立なランダム変
数である。
Σ、(zt” n)本 :TJXa”(Q−1))XJ”(ff−1)lt”(
Q) (17)なる階差方程式が得られる。ここに
、ξ1n(Q)は平均値Oで分散Tの独立なランダム変
数である。
初期値が与えられると順次n+”(j2)が計算可能と
なる。ただし、初期の繰返しでは係数定数よりnt(I
l)−を求めなければならないが、全計算量に対しては
ほとんど無視出来る程度である。式(17)はニューロ
ンの状態変化量が小さい場合の謂わば第1近似に対応す
るものである。以上のようにしてn1ll(n)が決定
されると、El” (Q)に対する階差方程式は式(1
6)から求まる。
なる。ただし、初期の繰返しでは係数定数よりnt(I
l)−を求めなければならないが、全計算量に対しては
ほとんど無視出来る程度である。式(17)はニューロ
ンの状態変化量が小さい場合の謂わば第1近似に対応す
るものである。以上のようにしてn1ll(n)が決定
されると、El” (Q)に対する階差方程式は式(1
6)から求まる。
学習終了後における結合定数は、l’l、n (Q)
=ΣhWth (Q ) Xk” (Q 1 )を全
記憶対象に対して成立することを要求することで決まる
。たとえば、2乗誤差の最急降下法から、容易に求めら
れる。ここに、ΔWiJ(fl)は結合定数の変化分で
、λは収束計算の定数で一般に1よりも小さく正である
。この時にもやはり、付加ノイズの効果を導入する。
=ΣhWth (Q ) Xk” (Q 1 )を全
記憶対象に対して成立することを要求することで決まる
。たとえば、2乗誤差の最急降下法から、容易に求めら
れる。ここに、ΔWiJ(fl)は結合定数の変化分で
、λは収束計算の定数で一般に1よりも小さく正である
。この時にもやはり、付加ノイズの効果を導入する。
シミュレーション実験として確率逆伝播法でも確率高速
学習方式でも確率性導入の効果は同じなので、ここでは
前者のシミュレーション結果のみを報告する。学習用入
力として、4個の適当な図形パターンを用意した。入力
画像1902は16X16ビクセル、出力画像1903
も16X16ピクセルである。ニューラルネットワーク
1901は出力層は16×16個、中間層は12×12
〜3×3個、そしい入力層は16×16個のニューロン
から構成されている(第19図)。
学習方式でも確率性導入の効果は同じなので、ここでは
前者のシミュレーション結果のみを報告する。学習用入
力として、4個の適当な図形パターンを用意した。入力
画像1902は16X16ビクセル、出力画像1903
も16X16ピクセルである。ニューラルネットワーク
1901は出力層は16×16個、中間層は12×12
〜3×3個、そしい入力層は16×16個のニューロン
から構成されている(第19図)。
教師パターンと入カバターンを同一にとったので、出力
層は入力層と同じ規模である。また層間の素子は全て結
合したので、結合定数の合計は73728〜4608個
となる。Tは変数とし、係数としてη=0.5を採用し
、学習回数は各学習パターンに対しそれぞれ1000回
実行した。
層は入力層と同じ規模である。また層間の素子は全て結
合したので、結合定数の合計は73728〜4608個
となる。Tは変数とし、係数としてη=0.5を採用し
、学習回数は各学習パターンに対しそれぞれ1000回
実行した。
最初の例は、第20図に示すように逆伝播法2001で
も収束し易い場合(中間層は12×12)2004であ
る。出力誤差2002におけるプラトー(変動がない状
態が長く続く状況を示す)の存在が学習を異常に長引か
せている。結合定数の初期値は−0,01〜0.01の
一様乱数である。付加する白色ガウスノイズの平均値は
O1分散はTであるが、T1801は通常のシミュレー
ティッドアニーリング法でよく用いられるギースンのク
ーリングスケジュール1802T=βv’ l /lo
g (1+ t ) (1g)を利用し
た(第18図)。ここに、tは学習回数1803を示す
。βが例えば0.0316のような大きな値だと言うま
でもなく、付加ノイズに結合定数が支配されてしまい学
習が意味をなさなくなる。また逆にβ=O,0OO1の
ように小さ過ぎると確率学習として意味がなくなるので
、その結果はほとんど従来の逆伝播法と同じである。β
として0.001(初期値の10%程度の乱数)とする
と、収束回数がほぼ半分になり、外部乱数の効果が現わ
れる。さらに値を大きくし、β=0.01(初期値の5
0%程度の乱数)にすると、10−3までしか収束しな
いが収束過程が顕著に異なっている。初期のプラトーを
回避することができている。クーリングスケジュールと
しては上記以外にも、たとえばT=βv’(1;t)、
T=βv’(1/v’t)でも同様の結果が得られる。
も収束し易い場合(中間層は12×12)2004であ
る。出力誤差2002におけるプラトー(変動がない状
態が長く続く状況を示す)の存在が学習を異常に長引か
せている。結合定数の初期値は−0,01〜0.01の
一様乱数である。付加する白色ガウスノイズの平均値は
O1分散はTであるが、T1801は通常のシミュレー
ティッドアニーリング法でよく用いられるギースンのク
ーリングスケジュール1802T=βv’ l /lo
g (1+ t ) (1g)を利用し
た(第18図)。ここに、tは学習回数1803を示す
。βが例えば0.0316のような大きな値だと言うま
でもなく、付加ノイズに結合定数が支配されてしまい学
習が意味をなさなくなる。また逆にβ=O,0OO1の
ように小さ過ぎると確率学習として意味がなくなるので
、その結果はほとんど従来の逆伝播法と同じである。β
として0.001(初期値の10%程度の乱数)とする
と、収束回数がほぼ半分になり、外部乱数の効果が現わ
れる。さらに値を大きくし、β=0.01(初期値の5
0%程度の乱数)にすると、10−3までしか収束しな
いが収束過程が顕著に異なっている。初期のプラトーを
回避することができている。クーリングスケジュールと
しては上記以外にも、たとえばT=βv’(1;t)、
T=βv’(1/v’t)でも同様の結果が得られる。
次の例は、逆伝−播法ではほとんど収束しない場合(中
間層は5×5〜3X3)である。第21図に出力誤差2
101の学習回数t2102に関する変動を示すが、少
なくともt=1000では10′″2程度までしか収束
しない。特に中間層サイズが3×3の場合2103には
収束がほとんど望めない、中間層のサイズ以外は上記と
同条件であるが中間層をしぼったために、冗長な結合定
数が少なくなり、学習しにくくなっている。この例に、
T=O,O1v’l/log (1+t)なるクーリン
グスケジュールで本手法を適用すると、出力誤差が10
−4までおちる。一般の場合を想定すると、当然の事な
がらこのような初期値設定で悩まされることなくニュー
ラルネットワークを構成できる。
間層は5×5〜3X3)である。第21図に出力誤差2
101の学習回数t2102に関する変動を示すが、少
なくともt=1000では10′″2程度までしか収束
しない。特に中間層サイズが3×3の場合2103には
収束がほとんど望めない、中間層のサイズ以外は上記と
同条件であるが中間層をしぼったために、冗長な結合定
数が少なくなり、学習しにくくなっている。この例に、
T=O,O1v’l/log (1+t)なるクーリン
グスケジュールで本手法を適用すると、出力誤差が10
−4までおちる。一般の場合を想定すると、当然の事な
がらこのような初期値設定で悩まされることなくニュー
ラルネットワークを構成できる。
本発明によれば、複雑なデータおよびそれらの関係を別
なデータに関係づけることができ、従来の学習のように
一対一のデータ対応関係の写像より広範囲な写像を実現
することができる。これにより、例えば、視覚情報や音
声情報を同時に扱うことが可能となり、パターン認識策
を従来以上の精度で行うことができるようになる。
なデータに関係づけることができ、従来の学習のように
一対一のデータ対応関係の写像より広範囲な写像を実現
することができる。これにより、例えば、視覚情報や音
声情報を同時に扱うことが可能となり、パターン認識策
を従来以上の精度で行うことができるようになる。
第1図は本発明のニューラルネットワークによる情報処
理装置の全体構成図、第2図は前処理部、第3眉はニュ
ーロンの特性、第4図は特徴抽出機構、第5図は特徴デ
ータ群、第6〜第8図は学習機能付ニューラルネットワ
ークの構成図、第9図はシミュレーション例、第10図
は学習機能付異種情報合成装置、第11〜15図はその
詳細構造、第16図は出力誤差の概念図、第17図はノ
イズ表、第18図はクリーニングスケジュール、第19
図はネットワーク構成、第20.21図はシミュレーシ
ョン例、第22〜24図はアルゴリズムのフローチャー
トである。 106:前処理部 107:特徴抽出用ニューラルネットワーク108:学
習機能付ニューラルネットワーク109:出力情報 第1図 ュ、−う7.オフ、ヮーヮm〜103 給2図 告 信号へ70午 ニューロン ニューロンへの総、X力 第5区 把4図 、402 八403 入力層 出n層 第6区 学習過程 躬7図 詔、請逼〕! ×1→−二−フル′ Xカデータ 出ηデ′−り N12り≠ 12ρ/ 多 /q 図 ′X/1Iol /+ρ2 シブフ゛ス系↓1合 ゝ161)/ イM4sメオ 芋 2ゲ 図
理装置の全体構成図、第2図は前処理部、第3眉はニュ
ーロンの特性、第4図は特徴抽出機構、第5図は特徴デ
ータ群、第6〜第8図は学習機能付ニューラルネットワ
ークの構成図、第9図はシミュレーション例、第10図
は学習機能付異種情報合成装置、第11〜15図はその
詳細構造、第16図は出力誤差の概念図、第17図はノ
イズ表、第18図はクリーニングスケジュール、第19
図はネットワーク構成、第20.21図はシミュレーシ
ョン例、第22〜24図はアルゴリズムのフローチャー
トである。 106:前処理部 107:特徴抽出用ニューラルネットワーク108:学
習機能付ニューラルネットワーク109:出力情報 第1図 ュ、−う7.オフ、ヮーヮm〜103 給2図 告 信号へ70午 ニューロン ニューロンへの総、X力 第5区 把4図 、402 八403 入力層 出n層 第6区 学習過程 躬7図 詔、請逼〕! ×1→−二−フル′ Xカデータ 出ηデ′−り N12り≠ 12ρ/ 多 /q 図 ′X/1Iol /+ρ2 シブフ゛ス系↓1合 ゝ161)/ イM4sメオ 芋 2ゲ 図
Claims (15)
- 1.次元の異なる各種の情報を統合処理するニューラル
ネットワークにおいて、確定的な入力データに対して後
の処理の混同を避けるため予めいくつかの特徴に分けて
別々のデータとして扱い、それぞれ特徴データに対応す
る学習機能付ニューラルネットワークでそれぞれの特徴
データを並列的に学習記憶する階層的特徴抽出器と、不
確定な入カデータに対して競合・協調型ニューラルネッ
トワークでニューラルネットワーク処理をした後、特徴
データの合成に必要な情報を決定する異種情報統合ロジ
ック生成装置と、前記競合・協調型ニューラルネットワ
ークで処理した不確定的な入カデータを用いて入力時に
分離した特徴データを合成し、最終的な出力データとす
る学習機能付異種情報合成装置とからなることを特徴と
するニューラルネットワークによる情報処理装置。 - 2.前記階層的特徴抽出器は、入カデータ数に対応した
1あるいは複数個のニューロンで構成されたネットワー
クの入力部からデータを入力し、ニューロンで処理でき
るように所定範囲の値になるように規格化し、必要に応
じて量子化し、時系列データ処理、プロセス制御など対
象に応じて、例えば平均的挙動に不可欠な大域的特徴、
微細な変動を表わす局所的特徴などの必要な異なる特徴
がネットワークの出力部に位置するニューロンから出力
されることを可能としたネットワーク構成からなること
を特徴とする請求項1項記載のニューラルネットワーク
による情報処理装置。 - 3.前記学習機能付ニューラルネットワークは、ニュー
ロン間は情報伝達効率を変更できるシナプスで結合され
、各ニューロンは重み付き総入力の値に応じてその出力
を決定するしきい値論理を実行し、それらが必要に応じ
た規模の数で結合した入力肩と出力層を含む2層あるい
は3層以上の多層型ニューラルネットワークで構成され
、階層的特徴抽出からの出力データを入力層および出力
層に与え、過去の事例から学習により学習機能付ニュー
ラルネットワークへの入力と出力との対応関係つまり写
像をシナプス結合の値を調整することでシナプス結合間
に分散的に記憶する部分からなることを特徴とする請求
項1記載のニューラルネットワークによる情報処理装置
。 - 4.前記異種情報統合ロジック生成装置は、統計的な手
段で、測定不可能な1あるいは複数の未知要因に対する
因果関係に基づき競合・協調型ニューラルネットワーク
の出力として、不確実であいまいなデータが最終的な情
報処理を与える影響をあらわす、階層的特徴抽出器で抽
出された特徴データの重み付けに関するルールを決定す
る部分からなることを特徴とする請求項1項記載のニュ
ーラルネットワークによる情報処理装置。 - 5.前記学習機能付異種情報合成装置は、請求項4記載
の異種情報統合ロジック生成装置からの出力データから
、たとえば階層的特徴抽出器で抽出されて特徴データの
重み付けに関するルールに含まれる1あるいは複数のパ
ラメータを過去の事例からニューラルネットワーク学習
し、決定する部分からなることを特徴とする請求項1記
載のニューラルネットワークによる情報処理装置。 - 6.前記階層的特徴抽出器は、データを異なる特徴に分
離する過程を、サイズの異なるフィルターによるか、ま
たは対応するシナプス結合を固定した2層あるいは2層
以上の多層型ニューラルネットワークにより実現するこ
とを特徴とする請求項2記載のニューラルネットワーク
による情報処理装置。 - 7.信号あるいは画像などのパターン識別、認識処理は
前記学習機能付ニューラルネットワークで処理可能であ
るが、時間的要素を含む時系列データの識別、認識ある
いは予測処理において、連続するデータの時間的相関関
係を学習することを目的に、学習機能付ニューラルネッ
トワークの入力部に時間的に連続する学習用の時系列デ
ータを与え、出力部に後の識別、認識あるいは予測過程
で必要な時間間隔の学習用の時系列データを与え、特に
出力部でのデータの時間的相関関係を学習を保証するこ
とを目的に出力部のデータを入力部に同時刻のデータに
フィードバックし、学習終了後の認識過程ではフィード
バックした入力部には常に0あるいは固定値を与えるこ
とを特徴とする請求項3項記載のニューラルネットワー
クによる情報処理装置。 - 8.出力部における学習機能付ニューラルネットワーク
の出力と予め希望する値として与えた教師データとの出
力誤差の最小化のための収束過程、つまり学習過程にお
いて、多層ネットワークの中間に位置する中間層のニュ
ーロン数を分類に必要な程度の数、あるいはその数をで
きる限り少なくする場合には、出力誤差の局所解である
ローカルミニマムを回避し、かつ収束過程で出力誤差が
増加する超過学習を避けるために、シナプス結合の変更
則において外部ノイズを付加することにより確率性を利
用することで所望の出力誤差の最小化を保証することを
特徴とする請求項3項記載のニューラルネットワーク。 - 9.請求項8項記載のシナプス結合則に付加する外部ノ
イズをシナプス結合数と学習回数の積に相当する数生成
することによる長時間の処理時間を回避することを目的
に、シナプス結合数に相当するノイズで作成した表と、
学習回数に相当するノイズで作成した表を用意し、学習
の各繰り返し過程においてシナプス結合に対応するノイ
ズとすることを特徴とする請求項8項記載の学習機能付
ニューラルネットワーク。 - 10.請求項9項記載のシナプス結合則に付加する外部
ノイズを利用して出力誤差の最小化を保証することを目
的に、外部ノイズに学習回数に依存して0まで低下する
変数との積を新めて外部ノイズとしてシナプス結合に付
加することを特徴とする請求項8項記載の学習機能付ニ
ューラルネットワーク。 - 11.同質、あるいは異質のデータ群を同期をとりなが
ら入力し、それらのデータ群およびそれらの関連を外部
あるいは内部情報に多対一に対応づけることを目的に、
多入力−出力のしきい値論理素子で構成されたラティス
状の神経回路網において、重ならないようにした回路網
の各入力位置からそれぞれのデータを入力し、それぞれ
定められた方向に伝播させ、出力位置において各データ
に対応した情報を出力し、各出力情報を外部あるいは内
部情報にマッチングするように、各素子間の結合を修正
することで神経回路網を変更することを特徴とする請求
項4項記載の学習機能付異種情報合成装置。 - 12.各入カデータを同期させて入力することにより、
各素子はいずれかの入カデータに対応したデータを処理
し、神経網全体としては常に全ての入カデータを並列的
に処理することを特徴とする請求項4項記載の学習機能
付異種情報合成装置。 - 13.各入カデータは、そのデータのみが処理されてい
くプロセスは多層状の神経回路網を入力層から出力層に
伝播してゆくプロセスと等価であり、素子間の結合を修
正することで入カデータに対応する出力データと外部あ
るいは内部で与えられた情報に一対一に写像できること
を特徴とする請求項4項記載学習機能付異種情報合成装
置。 - 14.出力データは各入カデータに対応した出力データ
群と、入カデータ間の関連データから構成することによ
り、各入カデータの認識と同時に入カデータ間の関連も
認識でき、たとえばノイズ等により入カデータが劣化し
認識できない場合でも、関連情報からその入カデータの
認識率を高められることを特徴とする請求項4項記載の
学習機能付異種情報合成装置。 - 15.各出力データおよびそれらの関連情報を横軸に、
それらのデータに対するそれぞれの認識率をたて軸にと
りグラフを作成すると、このグラフでデータ間の関連に
関するあいまいさを表現することが可能となり、あらか
じめ定めておいたあいまいさを表現する関数と比較する
ことにより機械的に、あるいはマンマシンインタフェー
スを通じて対話的にデータ間の関連を判断することを特
徴とする請求項4項記載の学習機能付異種情報合成装置
。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2107580A JP2810202B2 (ja) | 1990-04-25 | 1990-04-25 | ニューラルネットワークによる情報処理装置 |
| DE69130840T DE69130840T2 (de) | 1990-04-25 | 1991-04-22 | Neuronales Netzwerk zum Verarbeiten einer Vielzahl von Informationen und Lernverfahren |
| EP91106462A EP0454037B1 (en) | 1990-04-25 | 1991-04-22 | Neural network for processing a plurality of informations and learning method |
| US07/690,517 US5255347A (en) | 1990-04-25 | 1991-04-23 | Neural network with learning function |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2107580A JP2810202B2 (ja) | 1990-04-25 | 1990-04-25 | ニューラルネットワークによる情報処理装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH047660A true JPH047660A (ja) | 1992-01-13 |
| JP2810202B2 JP2810202B2 (ja) | 1998-10-15 |
Family
ID=14462773
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2107580A Expired - Fee Related JP2810202B2 (ja) | 1990-04-25 | 1990-04-25 | ニューラルネットワークによる情報処理装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5255347A (ja) |
| EP (1) | EP0454037B1 (ja) |
| JP (1) | JP2810202B2 (ja) |
| DE (1) | DE69130840T2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0692199A (ja) * | 1992-04-28 | 1994-04-05 | Takata Kk | 神経回路網による衝突状態予測システム |
| JP2004258748A (ja) * | 2003-02-24 | 2004-09-16 | Advanced Telecommunication Research Institute International | 近似関数を求める演算をコンピュータに実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読取り可能な記録媒体 |
| JP2021014010A (ja) * | 2017-06-27 | 2021-02-12 | 正好 石井 | マニピュレータ制御装置、及びマニピュレータ制御システム |
| JP2022507721A (ja) * | 2018-11-18 | 2022-01-18 | インナテラ・ナノシステムズ・ビー.ブイ. | スパイキングニューラルネットワーク |
Families Citing this family (68)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5588091A (en) * | 1989-05-17 | 1996-12-24 | Environmental Research Institute Of Michigan | Dynamically stable associative learning neural network system |
| US5424960A (en) * | 1991-09-24 | 1995-06-13 | Nf. T&M. Systems. Inc. | Apparatus for measuring torque, inertia moment, output and backlash using stepping motor |
| JP2722906B2 (ja) * | 1991-12-27 | 1998-03-09 | ダイキン工業株式会社 | 未知数量推定方法およびその装置 |
| JPH05210649A (ja) * | 1992-01-24 | 1993-08-20 | Mitsubishi Electric Corp | 神経回路網表現装置 |
| KR0131754B1 (en) * | 1992-03-19 | 1998-04-24 | Fujitsu Ltd | Neuro processing service system |
| US5627941A (en) * | 1992-08-28 | 1997-05-06 | Hitachi, Ltd. | Method of configuring a neural network and a diagnosis/control system using the neural network |
| US5598509A (en) * | 1992-08-28 | 1997-01-28 | Hitachi, Ltd. | Method of configuring a neural network and a diagnosis/recognition system using the same |
| JPH06131009A (ja) * | 1992-10-20 | 1994-05-13 | Fujitsu Ltd | フィードバック制御装置 |
| WO1994010635A2 (en) * | 1992-11-02 | 1994-05-11 | Boston University | Neural networks with subdivision |
| US5479573A (en) * | 1992-11-24 | 1995-12-26 | Pavilion Technologies, Inc. | Predictive network with learned preprocessing parameters |
| US6002839A (en) * | 1992-11-24 | 1999-12-14 | Pavilion Technologies | Predictive network with graphically determined preprocess transforms |
| US5420939A (en) * | 1992-12-31 | 1995-05-30 | Intel Corporation | Method and apparatus for a focal neuron system |
| EP0663644B1 (en) * | 1994-01-13 | 2002-09-18 | STMicroelectronics S.r.l. | Alphanumeric characters images recognizing system |
| US5376962A (en) * | 1993-03-31 | 1994-12-27 | Panasonic Technologies, Inc. | Neural network video image processor |
| US5376963A (en) * | 1993-03-31 | 1994-12-27 | Panasonic Technologies, Inc. | Neural network video image processor |
| EP0636991A3 (en) * | 1993-07-29 | 1997-01-08 | Matsushita Electric Industrial Co Ltd | Information processing apparatus for implementing a neural network. |
| JPH10505694A (ja) * | 1994-09-15 | 1998-06-02 | シーメンス アクチエンゲゼルシヤフト | ニューラルネットワークにおける入力量の準備処理方法および準備処理装置 |
| US5497430A (en) * | 1994-11-07 | 1996-03-05 | Physical Optics Corporation | Method and apparatus for image recognition using invariant feature signals |
| US5710723A (en) * | 1995-04-05 | 1998-01-20 | Dayton T. Brown | Method and apparatus for performing pre-emptive maintenance on operating equipment |
| US5751910A (en) * | 1995-05-22 | 1998-05-12 | Eastman Kodak Company | Neural network solder paste inspection system |
| US6144952A (en) * | 1995-09-20 | 2000-11-07 | Keeler; James D. | Predictive network with learned preprocessing parameters |
| US6314414B1 (en) | 1998-10-06 | 2001-11-06 | Pavilion Technologies, Inc. | Method for training and/or testing a neural network with missing and/or incomplete data |
| US6688888B1 (en) | 1996-03-19 | 2004-02-10 | Chi Fai Ho | Computer-aided learning system and method |
| US5940789A (en) * | 1996-05-17 | 1999-08-17 | Nikon Corporation | Stage control method and apparatus with varying stage controller parameter |
| US5944530A (en) * | 1996-08-13 | 1999-08-31 | Ho; Chi Fai | Learning method and system that consider a student's concentration level |
| US6804661B2 (en) | 1997-04-24 | 2004-10-12 | Bright Ideas, L.L.C. | Drug profiling apparatus and method |
| US6546378B1 (en) * | 1997-04-24 | 2003-04-08 | Bright Ideas, L.L.C. | Signal interpretation engine |
| USRE38432E1 (en) * | 1998-01-29 | 2004-02-24 | Ho Chi Fai | Computer-aided group-learning methods and systems |
| US7475048B2 (en) * | 1998-05-01 | 2009-01-06 | Health Discovery Corporation | Pre-processed feature ranking for a support vector machine |
| US7805388B2 (en) * | 1998-05-01 | 2010-09-28 | Health Discovery Corporation | Method for feature selection in a support vector machine using feature ranking |
| US9792659B2 (en) | 1999-04-13 | 2017-10-17 | Iplearn, Llc | Computer-aided methods and apparatus to access materials in a network environment |
| US6398556B1 (en) * | 1998-07-06 | 2002-06-04 | Chi Fai Ho | Inexpensive computer-aided learning methods and apparatus for learners |
| US7970718B2 (en) * | 2001-05-18 | 2011-06-28 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
| US6907403B1 (en) * | 2000-07-13 | 2005-06-14 | C4Cast.Com, Inc. | Identifying industry sectors using statistical clusterization |
| US20050124863A1 (en) * | 2001-06-28 | 2005-06-09 | Cook Daniel R. | Drug profiling apparatus and method |
| EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
| DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
| US20040042665A1 (en) * | 2002-08-30 | 2004-03-04 | Lockheed Martin Corporation | Method and computer program product for automatically establishing a classifiction system architecture |
| US6904367B2 (en) * | 2002-10-04 | 2005-06-07 | Daniel R. Cook | Petroleum exploration and prediction apparatus and method |
| US6952649B2 (en) * | 2002-10-04 | 2005-10-04 | Cook Daniel R | Petroleum exploration and prediction apparatus and method |
| GB0505800D0 (en) * | 2005-03-22 | 2005-04-27 | Univ Sheffield | Control of processes |
| US7877341B2 (en) * | 2007-08-22 | 2011-01-25 | Microsoft Corporation | Self-adaptive data pre-fetch by artificial neuron network |
| US9454958B2 (en) | 2013-03-07 | 2016-09-27 | Microsoft Technology Licensing, Llc | Exploiting heterogeneous data in deep neural network-based speech recognition systems |
| CN103246904B (zh) * | 2013-05-24 | 2016-04-06 | 北京大学 | 基于阻变忆阻器的时间关联学习神经元电路及其实现方法 |
| US10515301B2 (en) | 2015-04-17 | 2019-12-24 | Microsoft Technology Licensing, Llc | Small-footprint deep neural network |
| US10586151B1 (en) | 2015-07-31 | 2020-03-10 | Perceive Corporation | Mitigating overfitting in training machine trained networks |
| US20170186317A1 (en) | 2015-12-29 | 2017-06-29 | Tannery Creek Systems Inc. | System and Method for Determining Parking Infraction |
| US11475310B1 (en) * | 2016-11-29 | 2022-10-18 | Perceive Corporation | Training network to minimize worst-case error |
| US12001948B1 (en) | 2016-12-08 | 2024-06-04 | Perceive Corporation | Machine trained network using novel coding techniques |
| US11429861B1 (en) | 2017-05-01 | 2022-08-30 | Perceive Corporation | Device storing multiple sets of parameters for machine-trained network |
| US10592732B1 (en) | 2017-12-14 | 2020-03-17 | Perceive Corporation | Probabilistic loss function for training network with triplets |
| US10802489B1 (en) | 2017-12-29 | 2020-10-13 | Apex Artificial Intelligence Industries, Inc. | Apparatus and method for monitoring and controlling of a neural network using another neural network implemented on one or more solid-state chips |
| JP6849621B2 (ja) * | 2018-02-02 | 2021-03-24 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
| US11537870B1 (en) | 2018-02-07 | 2022-12-27 | Perceive Corporation | Training sparse networks with discrete weight values |
| US11995537B1 (en) | 2018-03-14 | 2024-05-28 | Perceive Corporation | Training network with batches of input instances |
| US12165066B1 (en) | 2018-03-14 | 2024-12-10 | Amazon Technologies, Inc. | Training network to maximize true positive rate at low false positive rate |
| US11586902B1 (en) | 2018-03-14 | 2023-02-21 | Perceive Corporation | Training network to minimize worst case surprise |
| US11461693B2 (en) | 2018-08-20 | 2022-10-04 | United Microelectronics Corp. | Training apparatus and training method for providing sample size expanding model |
| US12430533B2 (en) * | 2018-10-10 | 2025-09-30 | Maxwell, Inc. | Neural network processing apparatus, neural network processing method, and neural network processing program |
| JP7057761B2 (ja) * | 2019-02-06 | 2022-04-20 | 株式会社日立製作所 | 計算機システム及び情報の提示方法 |
| CN110782034A (zh) * | 2019-10-31 | 2020-02-11 | 北京小米智能科技有限公司 | 神经网络的训练方法、装置及存储介质 |
| US12081646B2 (en) | 2019-11-26 | 2024-09-03 | Apex Ai Industries, Llc | Adaptively controlling groups of automated machines |
| US10691133B1 (en) * | 2019-11-26 | 2020-06-23 | Apex Artificial Intelligence Industries, Inc. | Adaptive and interchangeable neural networks |
| US11366434B2 (en) | 2019-11-26 | 2022-06-21 | Apex Artificial Intelligence Industries, Inc. | Adaptive and interchangeable neural networks |
| US11367290B2 (en) | 2019-11-26 | 2022-06-21 | Apex Artificial Intelligence Industries, Inc. | Group of neural networks ensuring integrity |
| US10956807B1 (en) | 2019-11-26 | 2021-03-23 | Apex Artificial Intelligence Industries, Inc. | Adaptive and interchangeable neural networks utilizing predicting information |
| US11812589B2 (en) * | 2021-05-12 | 2023-11-07 | Nvidia Corporation | Intelligent refrigerant distribution unit for datacenter cooling systems |
| US12387092B1 (en) | 2022-07-11 | 2025-08-12 | Amazon Technologies, Inc. | Neural network loss function that incorporates incorrect category probabilities |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1987003411A1 (en) * | 1985-11-27 | 1987-06-04 | The Trustees Of Boston University | Pattern encoding system |
| US4818869A (en) | 1987-05-22 | 1989-04-04 | Finnigan Corporation | Method of isolating a single mass or narrow range of masses and/or enhancing the sensitivity of an ion trap mass spectrometer |
| US4876731A (en) * | 1988-02-19 | 1989-10-24 | Nynex Corporation | Neural network model in pattern recognition using probabilistic contextual information |
| US4941122A (en) * | 1989-01-12 | 1990-07-10 | Recognition Equipment Incorp. | Neural network image processing system |
-
1990
- 1990-04-25 JP JP2107580A patent/JP2810202B2/ja not_active Expired - Fee Related
-
1991
- 1991-04-22 EP EP91106462A patent/EP0454037B1/en not_active Expired - Lifetime
- 1991-04-22 DE DE69130840T patent/DE69130840T2/de not_active Expired - Fee Related
- 1991-04-23 US US07/690,517 patent/US5255347A/en not_active Expired - Fee Related
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0692199A (ja) * | 1992-04-28 | 1994-04-05 | Takata Kk | 神経回路網による衝突状態予測システム |
| JP2004258748A (ja) * | 2003-02-24 | 2004-09-16 | Advanced Telecommunication Research Institute International | 近似関数を求める演算をコンピュータに実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読取り可能な記録媒体 |
| JP2021014010A (ja) * | 2017-06-27 | 2021-02-12 | 正好 石井 | マニピュレータ制御装置、及びマニピュレータ制御システム |
| JP2022507721A (ja) * | 2018-11-18 | 2022-01-18 | インナテラ・ナノシステムズ・ビー.ブイ. | スパイキングニューラルネットワーク |
| JP2022509618A (ja) * | 2018-11-18 | 2022-01-21 | インナテラ・ナノシステムズ・ビー.ブイ. | レジリエントニューラルネットワーク |
| US12380320B2 (en) | 2018-11-18 | 2025-08-05 | Innatera Nanosystems B.V. | Resilient neural network |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0454037A3 (en) | 1994-06-08 |
| JP2810202B2 (ja) | 1998-10-15 |
| DE69130840D1 (de) | 1999-03-18 |
| DE69130840T2 (de) | 1999-09-16 |
| EP0454037A2 (en) | 1991-10-30 |
| US5255347A (en) | 1993-10-19 |
| EP0454037B1 (en) | 1999-02-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH047660A (ja) | ニューラルネットワークによる情報処理装置 | |
| Rajchakit et al. | Stability analysis of neural networks | |
| Melin et al. | Multi-objective optimization for modular granular neural networks applied to pattern recognition | |
| Werbos | Neural networks for control and system identification | |
| Andrychowicz et al. | Learning to learn by gradient descent by gradient descent | |
| Rumelhart et al. | Backpropagation: The basic theory | |
| Castillo et al. | Functional networks with applications: a neural-based paradigm | |
| Kim et al. | A hybrid approach based on neural networks and genetic algorithms for detecting temporal patterns in stock markets | |
| Coakley et al. | Artificial neural networks in accounting and finance: modeling issues | |
| Werbos | Neurocontrol and fuzzy logic: connections and designs | |
| Bell et al. | A non-linear information maximisation algorithm that performs blind separation | |
| Fogel | Evolutionary programming: An introduction and some current directions | |
| Chiu et al. | Identification of process disturbance using SPC/EPC and neural networks | |
| JP2025513087A (ja) | 不規則な信念を有する確率モデルを用いた自動変分推論 | |
| Nauck et al. | Choosing appropriate neuro-fuzzy models | |
| Werbos | Links between artificial neural networks (ANN) and statistical pattern recognition | |
| Larsen | Introduction to artificial neural networks | |
| De Veaux et al. | A brief introduction to neural networks | |
| Soto et al. | Ensembles of Type 2 Fuzzy Neural Models and Their Optimization with Bio-Inspired Algorithms for Time Series Prediction | |
| Monner et al. | Recurrent neural collective classification | |
| McDonald et al. | Modelling retinal ganglion cells using self-organising fuzzy neural networks | |
| Omlin et al. | Representation of fuzzy finite state automata in continuous recurrent, neural networks | |
| Bodyanskiy et al. | Hybrid system of computational intelligence based on bagging and group method of data handling | |
| Kabundi | Macroeconomic forecasting: a comparison between artificial neural networks and econometric models. | |
| Hamburg | The application of neural networks to production process control |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |