WO1998010352A1 - Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz - Google Patents

Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz Download PDF

Info

Publication number
WO1998010352A1
WO1998010352A1 PCT/DE1997/001497 DE9701497W WO9810352A1 WO 1998010352 A1 WO1998010352 A1 WO 1998010352A1 DE 9701497 W DE9701497 W DE 9701497W WO 9810352 A1 WO9810352 A1 WO 9810352A1
Authority
WO
WIPO (PCT)
Prior art keywords
training data
neural network
distribution
rfj
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/DE1997/001497
Other languages
English (en)
French (fr)
Inventor
Ralf Neuneier
Hans-Georg Zimmermann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Priority to JP10512095A priority Critical patent/JP2000517447A/ja
Priority to EP97935429A priority patent/EP0925541B1/de
Priority to DE59703304T priority patent/DE59703304D1/de
Priority to US09/254,298 priority patent/US6282529B1/en
Publication of WO1998010352A1 publication Critical patent/WO1998010352A1/de
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the training data is very noisy in many areas of application, for example when modeling financial data such as stock or currency rates.
  • the training data thus receive random disturbances that have nothing to do with the system dynamics that are actually to be modeled.
  • training data vectors are generated anew, which none at all Contain a statement about the system to be modeled.
  • the training data vectors also contain no information about the actual noise on which the system is based.
  • the amount of training data is increased, but this does not have to support the learning process, since a predetermined noise, which has nothing to do with the actual system dynamics, is used to train the neural network. This can still lead to overtraining.
  • the invention is therefore based on the problem of artificially forming new training data vectors for a neural network, but avoiding overtraining the neural network.
  • a residual error is determined after training the neural network with available training data vectors from a training data set.
  • An input-related backward error is determined from the residual error, for example using a gradient descent method.
  • the determination of the backward error corresponds to the usual procedure during the training of a neural network for the adaptation of the individual weights of the neural network. If the input-related backward error has been determined, a statistical distribution assigned to the respective input is generated taking into account the respective backward error, and the artificial training data vector is generated taking into account the respective statistical distribution at the inputs of the neural network.
  • the artificially generated training data vectors are dependent on the backward error that still exists after the training of the neural network and thus on depend on the performance of the neural network.
  • the training data vectors generated contain information about the system to be modeled. In this way, overtraining of the neural network by the additional training data vectors can be avoided.
  • the device according to claim 9 has a computing unit which is set up in such a way that the method steps described above are carried out.
  • Fig. 1 is a flow chart in which the individual process steps of the method are shown;
  • Fig. 2 is a sketch showing a computer arrangement with which the method can be carried out.
  • a residual error RE is determined by a computer R.
  • the residual error RE is, for example, in the case of m training data vectors TDV with the target values tj_ assigned to the training data vectors TDV, the training data vector TDVi being clearly identified in each case by an index i, the following
  • any other rule can of course be used to form the residual error RE after the training of the neural network NN.
  • a backward error RFj is determined (102).
  • the backward error RF can be determined, for example, using a gradient descent method based on the input signals of the neural networks NN.
  • Training data vector TDVi (x ⁇ , ..., Xj, ..., x n )
  • Noise term vector (e ⁇ _, ..., e--., ..., e n )
  • Input data vector z. (x ⁇ + e 1 ( .. -, Xj + e, ..., x n + e n )
  • N denotes a number of components of the training data vectors TDVi, the noise term vectors e and the input data vectors z.
  • the backward error RFj is determined individually for each input j of the neural network NN, an index j being used to uniquely identify a component of the input data vector z and an input of the neural network NN, respectively.
  • the backward error RF of the input data vector z thus results from the respective partial derivatives of the residual error RE according to the individual input signals ZJ.
  • the symbol t uniquely identifies a point in time at which the backward error RFj is determined.
  • a statistical distribution Sj is now formed in a third step (103) for each input j of the neural network NN.
  • Any statistical distribution for describing a random process can generally be used as the statistical distribution Sj.
  • the noise term ej t which is used to form at least one artificial training data vector KTDV, lies in the range of the interval:
  • the noise width s results. according to the following rule:
  • the at least one artificial training data vector KTDV is generated (104). This clearly means that the artificial training data vector KTDV is generated by the random process described in each case by the statistical distribution Sj.
  • the process can be clearly described as follows.
  • the input data represented by the originally available training data vectors TDVi, are noisy with a random process that is dependent on the respective gradient error function for each input after the input signals.
  • Noise on inputs with a large noise width s "stiffens" the neural network NN, thereby preventing overtraining, which leads to a better generalization ability of the neural network NN.
  • This method can be used particularly advantageously in application situations in which only a relatively small number of training data vectors TDVi are available for training the neural network NN.
  • the training data set TDM can be artificially extended to an expanded training data set KTDM without distorting the actual system dynamics, since the statistical properties of the training data set TDM are also contained in the artificial training data vectors KTDV.
  • a typical application situation of the method lies in the analysis of financial markets, for example of stock markets or also securities markets.
  • the following adaptation rule can be used for a Gaussian statistical distribution S j :

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

Nach erfolgtem Training eines neuronalen Netzes wird ein Restfehler ermittelt (101). Aus dem Restfehler wird ein Rückwärtsfehler ermittelt (102). Künstliche Trainingsdatenvektoren werden aus einem statistischen Zufallsprozeß generiert, dem eine statistische Verteilung zugrundeliegt, bei der der jeweilige Rückwärtsfehler für einen Eingang des neuronalen Netzes berücksichtigt wird (103, 104).

Description

Beschreibung
Verfahren und Vorrichtung zur rechnergestützten Generierung mindestens eines künstlichen Trainingsdatenvektors für ein neuronales Netz
1. Technischer Hintergrund
Neuronale Netze lernen mit Hilfe von Trainingsdaten. Die Trainingsdaten sind in vielen Anwendungsgebieten sehr verrauscht, beispielsweise bei der Modellierung von Finanzdaten wie Aktien- oder Währungskursen. Somit erhalten die Trainingsdaten zufällige Störungen, die nichts mit der eigentlich zu modellierenden Systemdynamik zu tun haben.
Durch die Approximationsfähigkeit der neuronalen Netze kann aber auch die transiente Struktur des zufälligen Rauschens gelernt werden. Dieses Phänomen wird als Übertrainieren des neuronalen Netzes bezeichnet . Durch ein übertrainiertes neuronales Netz wird in sehr verrauschten Systemen der Lernvorgang des neuronalen Netzes erheblich behindert, da die Verallgemeinerungsfähigkeit des neuronalen Netzes negativ beeinflußt wird.
Dieses Problem gewinnt in Anwendungsgebieten an Bedeutung, in denen nur eine geringe Anzahl von Trainingsdatenvektoren zur Adaption des neuronalen Netzes an die Anwendung, d.h. die zu modellierende, durch die Trainingsdatenvektoren repräsentierte Funktion, verfügbar ist.
Vor allen in diesen Anwendungsgebieten, aber auch allgemein in einem Trainingsverfahren eines neuronalen Netzes ist es vorteilhaft, zusätzliche Trainingsdatenvektoren künstlich zu generieren, um somit eine größere Trainingsdatenmenge zu erhalten.
2. Stand der Technik
Es ist bekannt, die Generierung der künstlichen Trainingsdatenvektoren durch Verrauschen der verfügbaren Trainingsdatenvektoren der Trainingsdatenmenge durchzuführen. Es ist in diesem Zusammenhang aus dem Dokument [1] bekannt, die Trainingsdatenmenge mit gaußförmigem Rauschen mit dem Mittelwert 0 und einer Varianz σ, die für alle Eingänge des neuronalen Netzes auf den gleichen Wert gesetzt wird, zu ermitteln.
Aus [4] ist es bekannt, Trainingsdaten durch Einführung zusätzlichen Rauschens zu generieren. Dabei ist es bekannt, die sogenannte Jackknife-Prozedur einzusetzen.
Dieses Verfahren weist jedoch einige Nachteile auf.
Dadurch, daß zur Generierung der zusätzlichen Trainingsdaten- vektoren als statistische Verteilung, die zur Generierung verwendet wird, ein gaußförmiges Rauschen mit einer Varianz verwendet wird, die für alle Eingänge des neuronalen Netzes auf den gleichen Wert gesetzt wird, werden Trainingsdatenvektoren neu generiert, die keinerlei Aussage über das zu model- lierende System enthalten. Die Trainingsdatenvektoren enthalten ferner keinerlei Information über das tatsächliche, dem System zugrundeliegende Rauschen. Somit wird zwar die Trainingsdatenmenge vergrößert, diese muß aber nicht den Lernvorgang unterstützen, da ein fest vorgegebenes Rauschen, das mit der eigentlichen Systemdynamik nichts zu tun hat, zum Trainieren des neuronalen Netzes verwendet wird. Damit kann es dann trotzdem zum Übertrainieren kommen.
Grundlagen über neuronale Netze sind beispielsweise aus dem Dokument [2] bekannt. Grundlagen über Verwendung der neuronalen Netze in der Ökonomie sind beispielsweise aus dem Dokument [3] bekannt.
3. Kurzbeschreibung der Erfindung
Somit liegt der Erfindung das Problem zugrunde, künstlich neue Trainingsdatenvektoren für ein neuronales Netz zu bilden, wobei jedoch ein Übertrainieren des neuronalen Netzes vermieden wird.
Das Problem wird durch das Verfahren gemäß Patentanspruch 1 sowie durch die Vorrichtung gemäß Patentanspruch 9 gelöst .
Bei dem Verfahren wird nach dem Training des neuronalen Net- zes mit verfügbaren Trainingsdatenvektoren einer Trainingsdatenmenge ein Restfehler ermittelt. Aus dem Restfehler wird beispielsweise unter Verwendung eines Gradientenabstiegs- Verfahren ein eingangsbezogener Rückwärtsfehler ermittelt. Die Ermittlung des Rückwärtsfehlers entspricht der üblichen Vorgehensweise während des Trainings eines neuronalen Netzes zur Adaption der einzelnen Gewichte des neuronalen Netzes. Ist der eingangsbezogene Rückwärtsfehler ermittelt worden, wird unter Berücksichtigung des jeweiligen Rückwärtsfehlers eine dem jeweiligen Eingang zugeordnete statistische Vertei- lung generiert, und der künstliche Trainingsdatenvektor wird unter Berücksichtigung der jeweiligen statistischen Verteilung an den Eingängen des neuronalen Netzes erzeugt.
Mit diesem Verfahren ist es möglich, zusätzliche Trainingsda- tenvektoren zu generieren, die eine Information über das neuronale Netz und die Struktur des neuronalen Netzes aktuell nach dem Training des neuronalen Netzes mit den verfügbaren Traindingsdatenvektoren enthalten .
Dies führt dazu, daß die künstlich erzeugten Trainingsdatenvektoren von dem Rückwärtsfehler, der nach dem Training des neuronalen Netzes noch existiert, abhängig sind und somit von der Perfor anz des neuronalen Netzes abhängen. Dies führt dazu, daß die erzeugten Trainingsdatenvektoren Information über das zu modellierende System enthalten. Auf diese Weise kann ein Übertrainieren des neuronalen Netzes durch die zusätzli- chen Trainingsdatenvektoren vermieden werden.
Die Vorrichtung gemäß Patentanspruch 9 weist eine Recheneinheit auf, die derart eingerichtet ist, daß die oben beschriebenen Verfahrensschritte durchgeführt werden.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Es ist vorteilhaft, bei einer Online-Approximation des neuro- nalen Netzes, die auch als Online-Training bezeichnet wird, auch die jeweilige statistische Verteilung dem veränderten Trainingsdatensatz anzupassen. Dadurch wird das zu modellierende System noch genauer durch das neuronale Netz modelliert .
4. Kurze Figurenbeschreibung
In den Figuren ist ein Ausführungsbeispiel der Erfindung dargestellt, welches im weiteren näher erläutert wird.
Es zeigen
Fig. 1 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte des Verfahrens dargestellt sind;
Fig. 2 eine Skizze, in der eine Rechneranordnung dargestellt ist, mit der das Verfahren durchgeführt werden kann .
5. Figurenbeschreibung In Fig. 1 sind die einzelnen Verfahrensschritte des Verfahrens dargestellt.
In einem ersten Schritt (101) wird nach abgeschlossenem Trai- ning des neuronalen Netzes NN mit einer beliebigen Anzahl von Trainingsdatenvektoren TDVi einer Trainingsdatenmenge TDM von einem Rechner R ein Restfehler RE ermittelt.
Der Restfehler RE wird beispielsweise bei m Trainingsdaten- vektoren TDV mit den Trainingsdatenvektoren TDV zugeordneten Sollwerten tj_, wobei mit einem Index i jeweils der Trainingsdatenvektor TDVi eindeutig gekennzeichnet wird, auf folgende
Weise ermittelt :
m RE = ∑(ti - yir (1) • i = l
Es kann jedoch selbstverständliche jede beliebige andere Vorschrift zur Bildung des Restfehlers RE nach dem Training des neuronalen Netzes NN verwendet werden.
Nach Ermittlung des Restfehlers wird ein Rückwärtsfehler RFj ermittelt (102) . Die Bestimmung des Rückwärtsfehlers RF kann beispielsweise unter Verwendung eines Gradientenabstiegs- Verfahrens nach den Eingangssignalen der neuronalen Netze NN erfolgen.
Im weiteren wird folgende Nomenklatur für den Trainingsdatenvektor TDVi, sowie die Eingangsdaten des neuronalen Netzes NN, die sich aus den Trainingsdatenvektoren TDVi und einem Rauschtermvektor e ergeben, verwendet:
Trainingsdatenvektor TDVi: x = (x^, ... , Xj , ... , xn)
Rauschtermvektor : e = (eτ_, ..., e--. , ..., en) Eingangsdatenvektor: z. = (xι+e1( .. - , Xj+e , ... , xn+en)
Mit n wird eine Anzahl von Komponenten der Trainingsdatenvektoren TDVi, der Rauschtermvektoren e bzw. der Eingangsdaten- vektoren z bezeichnet.
Der Rückwärtsfehler RFj wird für jeden Eingang j des neuronalen Netzes NN individuell ermittelt, wobei mit einem Index j jeweils eine Komponente des Eingangsdatenvektors z bzw. ein Eingang des neuronalen Netzes NN eindeutig bezeichnet wird, .
Dies erfolgt beispielsweise nach dem bekannten Gradientenab- stiegs-Verfahren zum Trainieren des neuronalen Netzes NN. Somit ergibt sich der Rückwärtsfehler RF des Eingangsdatenvek- tors z aus den jeweiligen partiellen Ableitungen des Restfehlers RE nach den einzelnen Eingangssignalen ZJ .
RFj = r (2) .
Mit dem Symbol t wird jeweils ein Zeitpunkt eindeutig gekennzeichnet, zu dem die Ermittlung des Rückwärtsfehlers RFj erfolgt.
Unter Berücksichtigung des Rückwärtsfehlers RFj wird nun in einem dritten Schritt (103) eine statistische Verteilung Sj für jeden Eingang j des neuronalen Netzes NN gebildet.
Als statistische Verteilung Sj kann allgemein jede beliebige statistische Verteilung zur Beschreibung eines Zufallsprozes- ses verwendet werden.
Im folgenden werden zur einfacheren Darstellung jedoch nur eine uniforme statistische Verteilung und eine gaußförmige statistische Verteilung Sj näher erläutert. Für die uniforme Verteilung ergibt sich eine uniforme Verteilungsbreite sr beispielsweise nach folgender Vorschrift:
Figure imgf000009_0001
Der Rauschterm ejt, der zur Bildung mindestens eines künstlichen Trainingsdatenvektors KTDV verwendet wird, liegt im Bereich des Intervalls:
Figure imgf000009_0002
Bei einer gaußförmigen Verteilung ergibt sich die Rauschbreite s. nach der folgenden Vorschrift:
Figure imgf000009_0003
Der Rauschterm ejfc ergibt sich für diesen Beispielsfall nach folgender Vorschrift:
Figure imgf000009_0004
Mit N 0, s. wird ein normal verteilter Zufallsprozeß mit
einem Mittelwert 0 und der Standardabweichung s_F bezeichnet .
Unter Verwendung der jeweiligen statistischen Verteilung S wird der mindestens eine künstliche Trainingsdatenvektor KTDV generiert (104) . Anschaulich bedeutet dies, daß der künstliche Trainingsdatenvektor KTDV durch den jeweils durch die statistische Verteilung Sj beschriebenen Zufallsprozeß generiert wird.
Durch diese Vorgehensweise haben die künstlichen Trainingsdatenvektoren KTDV statistisch die gleichen Eigenschaften wie die original verfügbaren Trainingsdatenvektoren TDVi .
Dies kann durch Verrauschen mit einem einheitlichen Rauschprozeß, wie dieser aus dem Dokument [1] bekannt ist, nicht erreicht werden.
Anschaulich läßt sich das Verfahren folgendermaßen beschreiben. Die Eingangsdaten, repräsentiert durch die original ver- fügbaren Trainingsdatenvektoren TDVi, werden mit einem Zufallsprozeß verrauscht, der für jeden Eingang abhängig ist von der jeweiligen Gradienten-Fehlerfunktion nach den Eingangssignalen .
Die jeweilige Rauschbreite s - kann anschaulich folgendermaßen interpretiert werden:
- Kleine Werte von s. werden durch Eingänge erzeugt, die eine gute .Abbildung auf die Trainingsdaten erzeugen.
- Kleine Werte der Rauschbreite s. können aber auch auf unwichtige, für das Training des neuronalen Netzes NN nicht relevante Eingänge hinweisen.
In beiden Fällen ist es im Sinne der Aufgabe, daß kein oder nur wenig Rauschen zu den ursprünglich vorhandenen Trainings- datenvektoren TDVi hinzugefügt wird.
- Große Werte der Rauschbreite s_r deuten darauf hin, daß der Eingang j erhebliche Bedeutung aufweist, aber das neuronale Netz NN bisher nicht in der Lage ist, eine adäquate Abbildung zu lernen.
- Rauschen auf Eingängen mit einer großen Rauschbreite s- "versteift" das neuronale Netz NN, wodurch ein Übertrainieren verhindert wird, was zu einer besseren Verallgemeinerungsfähigkeit des neuronalen Netzes NN führt.
Dieses Verfahren kann besonders vorteilhaft in Anwendungssi- tuationen verwendet werden, in denen nur eine relativ geringe Anzahl von Trainingsdatenvektoren TDVi zum Trainieren des neuronalen Netzes NN verfügbar ist.
Durch das Verfahren kann die Trainingsdatenmenge TDM künst- lieh erheblich erweitert werden zu einer erweiterten Trainingsdatenmenge KTDM, ohne die eigentliche Systemdynamik zu verfälschen, da die statistischen Eigenschaften der Trainingsdatenmenge TDM auch in den künstlichen Trainingsdatenvektoren KTDV enthalten sind.
Eine typische Anwendungssituation des Verfahrens liegt in der Analyse von Finanzmärkten, beispielsweise von Aktienmärkten oder auch Wertpapiermärkten.
Wird zum Trainieren des neuronalen Netzes NN ein sog. Online- Lernverfahren eingesetzt, bei dem während der Generalisie- rungsphase des neuronalen Netzes NN weitere Trainingsdatenvektoren TDV ermittelt werden, mit denen das neuronale Netz NN in der Generalisierungsphase weiter trainiert wird, so ist es in einer Weiterbildung des Verfahrens vorgesehen, abhängig von der Änderung der Trainingsdatenmenge TDM, die durch die Trainingsdatenvektoren TDVi gebildet wird, auch die statistischen Verteilungen Sj anzupassen. Dies kann beispielsweise für eine uniforme Verteilung nach folgender Vorschrift erfol- gen: .t + 1 dE"
= ( 1 - α ) s^ + α ( 7 ) dz!:
Für eine gaußförmige statistische Verteilung Sj kann beispielsweise folgende Adaptionsvorschrif eingesetzt werden:
Figure imgf000012_0001
Mit α wird ein Adaptionsfaktor bezeichnet
Es hat sich als vorteilhaft herausgestellt, als Wert für den Adaptionsfaktor α den Kehrwert der Anzahl der Trainingsdatenvektoren TDVi zu verwenden.
Im Rahmen dieses Dokumentes wurden folgende Veröffentlichungen zitiert:
[1] C. M. Bishop, Neural Networks for Pattern Reco- gnition, Clarendon Press, Oxford, U. K. , ISBN 0-19-853864-2, S. 346 - 349, 1994
[2] G. Deco und D: Obradovic, An Information-Theoretic
Approach to Neural Computing, Springer Verlag, New York, USA, ISBN 0-387-94666-7, S. 23 - 37, 1996
[3] H. Zimmermann und Rehkugler, Neuronale Netze in der Ökonomie, Kapitel 1, Neuronale Netze als Entscheidungskalkül, Vahlen Verlag, München, ISBN 3-8006-1871-0, S. 3 - 20, 1994
[4] L. Holmström und P. Koistinen, Using Additive Noise in Back-Propagation Training, IEEE Transactions on Neural Networks, Vol. 3, No. 1, S. 24 - 38, Januar 1992

Claims

Patentansprüche
1. Verfahren zur rechnergestützten Generierung mindestens eines künstlichen Trainingsdatenvektors für ein Neuronales Netz (NN) ,
- bei dem ein Restfehler (RE) nach einem Training des Neuronalen Netzes (NN) mit Trainingsdatenvektoren (TDVi) einer Trainingsdatenmenge (TDM) ermittelt wird (101) ,
- bei dem aus dem Restfehler (RE) für mindestens einen Ein- gang (j) des Neuronalen Netzes (NN) ein Rückwärtsfehler (RFj) ermittelt wird (102) ,
- bei dem jeweils eine dem Eingang (j) zugeordnete statistische Verteilung (Sj) generiert wird, die von der Größe des jeweiligen Rückwärtsfehlers (RFj) abhängig ist (103), - bei dem der künstliche Trainingsdatenvektor generiert wird unter jeweiliger Verwendung der einem Eingang (j) zugeordneten statistischen Verteilung (Sj) (104).
2. Verfahren nach Anspruch 1, bei dem der Rückwärtsfehler (RFj) mit einem Gradientenabstiegsverf hren ermittelt wird.
3. Verfahren nach Anspruch 2, bei dem das Gradientenabstiegsverfahren mit einem Backpropa- gation-Verfahren realisiert wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die statistische Verteilung (Sj) durch eine uniforme
Verteilung gebildet wird, wobei eine Verteilungsbreite der uniformen Verteilung von dem Rückwärtsfehler (RFj) abhängig ist .
5. Verfahren nach einem der Ansprüche 1 bis 3 , bei dem die statistische Verteilung (Sj) durch eine gaußför- mige Verteilung gebildet wird, wobei eine Verteilungsbreite der gaußförmigen Verteilung von dem Rückwärtsfehler (RFj) abhängig ist.
6. Verfahren nach Anspruch 4 oder 5, bei dem bei einer Online-Approximation des Neuronalen Netzes (NN) nach einer beliebigen .Anzahl neuer Trainingsdatenvekto- ren (TDVi) die statistische Verteilung (Sj) an einen neu ermittelten Rückwärtsfehler angepaßt wird.
7. Verfahren nach einem der Ansprüche 1 bis 6 eingesetzt zur Modellierung einer nichtlinearen Funktion, die mit einer ge- ringen Anzahl von Trainingsdatenvektoren beschrieben wird.
8. Verfahren nach einem der Ansprüche 1 bis 6 eingesetzt in der Analyse eines Finanzmarktes.
9. Vorrichtung zur rechnergestützten Generierung mindestens eines künstlichen Trainingsdatenvektors für ein Neuronales Netz (NN) , mit einer Recheneinheit, die derart eingerichtet ist, daß
- ein Restfehler (RE) nach einem Training des Neuronalen Net- zes (NN) mit Trainingsdatenvektoren (TDVi) einer Trainingsdatenmenge (TDM) ermittelt wird (101) ,
- aus dem Restfehler (RE) für mindestens einen Eingang (j) des Neuronalen Netzes (NN) ein Rückwärtsfehler (RFj) ermittelt wird (102) , - jeweils eine dem Eingang (j) zugeordnete statistische Verteilung (Sj) generiert wird, die von der Größe des jeweiligen
Rückwärtsfehlers (RFj) abhängig ist (103),
- der künstliche Trainingsdatenvektor generiert wird unter jeweiliger Verwendung der einem Eingang (j) zugeordneten sta- tistischen Verteilung (Sj) (104).
10. Vorrichtung nach Anspruch 9, bei der die Recheneinheit derart eingerichtet ist, daß der Rückwärtsfehler (RFj) mit einem Gradientenabstiegsverf hren ermittelt wird.
11. Vorrichtung nach Anspruch 9 oder 10, bei der die Recheneinheit derart eingerichtet ist, daß die statistische Verteilung (S ) durch eine uniforme Verteilung gebildet wird, wobei eine Verteilungsbreite der uniformen Verteilung von dem Rückwärtsfehler (RFj) abhängig ist.
12. Vorrichtung nach einem der Ansprüche 9 bis 11, bei der die Recheneinheit derart eingerichtet ist, daß die statistische Verteilung (Sj) durch eine gaußförmige Verteilung gebildet wird, wobei eine Verteilungsbreite der gaußför- migen Verteilung von dem Rückwärtsfehler (RFj) abhängig ist.
13. Vorrichtung nach Anspruch 11 oder 12, bei der die Recheneinheit derart eingerichtet ist, daß bei einer Online-Approximation des Neuronalen Netzes (NN) nach einer beliebigen Anzahl neuer Trainingsdatenvektoren (TDVi) die statistische Verteilung (Sj) an einen neu ermittelten Rückwärtsfehler angepaßt wird.
14. Vorrichtung nach einem der .Ansprüche 9 bis 13 eingesetzt zur Modellierung einer nichtlinearen Funktion, die mit einer geringen Anzahl von Trainingsdatenvektoren beschrieben wird.
15. Vorrichtung nach einem der Ansprüche 9 bis 13 eingesetzt in der Analyse eines Finanzmarktes .
PCT/DE1997/001497 1996-09-03 1997-07-15 Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz Ceased WO1998010352A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP10512095A JP2000517447A (ja) 1996-09-03 1997-07-15 ニューラルネットワーク用の少なくとも1つの人工的トレーニングデータベクトルをコンピュータ支援により生成するための方法及び装置
EP97935429A EP0925541B1 (de) 1996-09-03 1997-07-15 Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz
DE59703304T DE59703304D1 (de) 1996-09-03 1997-07-15 Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz
US09/254,298 US6282529B1 (en) 1996-09-03 1997-07-15 Method and apparatus for computer-supported generation of at least one artificial training data vector for a neural network

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19635758A DE19635758C1 (de) 1996-09-03 1996-09-03 Verfahren und Vorrichtung zur rechnergestützten Generierung mindestens eines künstlichen Trainingsdatenvektors für ein neuronales Netz
DE19635758.6 1996-09-03

Publications (1)

Publication Number Publication Date
WO1998010352A1 true WO1998010352A1 (de) 1998-03-12

Family

ID=7804522

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1997/001497 Ceased WO1998010352A1 (de) 1996-09-03 1997-07-15 Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz

Country Status (5)

Country Link
US (1) US6282529B1 (de)
EP (1) EP0925541B1 (de)
JP (1) JP2000517447A (de)
DE (2) DE19635758C1 (de)
WO (1) WO1998010352A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388812A1 (de) * 2002-07-04 2004-02-11 Ronald E. Dr. Kates Trainingsverfahren für lernfähiges System
WO2004090807A3 (de) * 2003-04-10 2005-12-22 Bayer Technology Services Gmbh Verfahren zum trainieren von neuronalen netzen

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004354251A (ja) * 2003-05-29 2004-12-16 Nidek Co Ltd 欠陥検査装置
JP4635220B2 (ja) * 2005-06-07 2011-02-23 学校法人慶應義塾 複数の化学物質の測定方法
JP5307996B2 (ja) * 2006-09-06 2013-10-02 株式会社Dnaチップ研究所 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
US20180089581A1 (en) * 2016-09-27 2018-03-29 Futurewei Technologies, Inc. Apparatus and method for dataset model fitting using a classifying engine
US10944440B2 (en) * 2018-04-11 2021-03-09 Booz Allen Hamilton Inc. System and method of processing a radio frequency signal with a neural network
DE102018222347A1 (de) * 2018-12-19 2020-06-25 Robert Bosch Gmbh Verfahren zum Trainieren eines neuronalen Netzes
WO2020237011A1 (en) * 2019-05-23 2020-11-26 Cognizant Technology Solutions U.S. Corporation Quantifying the predictive uncertainty of neural networks via residual estimation with i/o kernel
KR20210130048A (ko) 2020-04-21 2021-10-29 삼성에스디에스 주식회사 분석 모델 학습 방법 및 장치
US11715037B2 (en) * 2020-09-11 2023-08-01 International Business Machines Corporation Validation of AI models using holdout sets
DE102021202289A1 (de) 2021-03-09 2022-09-15 Robert Bosch Gesellschaft mit beschränkter Haftung Computerimplementiertes Verfahren und Vorrichtung zum Trainieren eines datenbasierten Zeitpunktbestimmungsmodells für die Bestimmung eines Öffnungs- oder Schließzeitpunkts eines Einspritzventils mithilfe maschineller Lernverfahren
DE102021202287B4 (de) 2021-03-09 2023-03-23 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Betreiben eines Kraftstoffeinspritzventils mithilfe maschineller Lernverfahren
US11822887B2 (en) * 2021-03-12 2023-11-21 Adobe, Inc. Robust name matching with regularized embeddings

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359699A (en) * 1991-12-02 1994-10-25 General Electric Company Method for using a feed forward neural network to perform classification with highly biased data
WO1995011486A1 (en) * 1993-10-18 1995-04-27 Miles, Inc. Method for unsupervised neural network classification with back propagation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19531967C2 (de) * 1995-08-30 1997-09-11 Siemens Ag Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359699A (en) * 1991-12-02 1994-10-25 General Electric Company Method for using a feed forward neural network to perform classification with highly biased data
WO1995011486A1 (en) * 1993-10-18 1995-04-27 Miles, Inc. Method for unsupervised neural network classification with back propagation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DATUM M S ET AL: "An artificial neural network for sound localization using binaural cues", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, JULY 1996, ACOUST. SOC. AMERICA THROUGH AIP, USA, vol. 100, no. 1, ISSN 0001-4966, pages 372 - 383, XP002048951 *
SLICHER A W R ET AL: "An innovative approach to training neural networks for strategic management of construction firms", DEVELOPMENTS IN NEURAL NETWORKS AND EVOLUTIONARY COMPUTING FOR CIVIL AND STRUCTURAL ENGINEERING, DEVELOPMENTS IN NEURAL NETWORKS AND EVOLUTIONARY COMPUTING FOR CIVIL AND STRUCTURAL ENGINEERING, CAMBRIDGE, UK, 28-30 AUG. 1995, ISBN 0-948749-36-9, 1995, EDINBURGH, UK, CIVIL-COMP PRESS, UK, pages 87 - 93, XP002048952 *
SUNGZOON CHO ET AL: "Evolution of neural network training set through addition of virtual samples", PROCEEDINGS OF 1996 IEEE INTERNATIONAL CONFERENCE ON EVOLUTIONARY COMPUTATION (ICEC'96) (CAT. NO.96TH8114), PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON EVOLUTIONARY COMPUTATION, NAGOYA, JAPAN, 20-22 MAY 1996, ISBN 0-7803-2902-3, 1996, NEW YORK, NY, USA, IEEE, USA, pages 685 - 688, XP002048950 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388812A1 (de) * 2002-07-04 2004-02-11 Ronald E. Dr. Kates Trainingsverfahren für lernfähiges System
WO2004006041A3 (en) * 2002-07-04 2004-10-14 Ronald E Kates Method for training a learning-capable system
US7801839B2 (en) 2002-07-04 2010-09-21 Kates Ronald E Method for training a learning-capable system
WO2004090807A3 (de) * 2003-04-10 2005-12-22 Bayer Technology Services Gmbh Verfahren zum trainieren von neuronalen netzen
US7406451B2 (en) 2003-04-10 2008-07-29 Bayer Technology Services Gmbh Method for training neural networks

Also Published As

Publication number Publication date
US6282529B1 (en) 2001-08-28
EP0925541B1 (de) 2001-04-04
EP0925541A1 (de) 1999-06-30
JP2000517447A (ja) 2000-12-26
DE19635758C1 (de) 1997-11-20
DE59703304D1 (de) 2001-05-10

Similar Documents

Publication Publication Date Title
EP2649567B1 (de) Verfahren zur rechnergestützten modellierung eines technischen systems
DE212020000731U1 (de) Kontrastives Vortraining für Sprachaufgaben
DE68929102T2 (de) Lernverarbeitungssystem
DE102007017259B4 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE69423228T2 (de) Unüberwachtes klassifizierungsverfahren mit neuronalem netzwerk mit back propagation
EP0925541B1 (de) Verfahren und vorrichtung zur rechnergestützten generierung mindestens eines künstlichen trainingsdatenvektors für ein neuronales netz
DE69719058T2 (de) Verbessertes neuronales netzwerk
DE102019116305A1 (de) Pipelining zur verbesserung der inferenzgenauigkeit neuronaler netze
DE69115488T2 (de) Neuronale prozessoren für realwerteingangbearbeitung
DE102008020379A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE69223447T2 (de) Lernverfahren für neuronales Netzwerk und Klassifizieranlage zum Anwenden dieses Verfahrens
DE4217832A1 (de) Mustererkennungs- und musterlerngeraet
EP0901658B1 (de) Verfahren zur optimierung eines fuzzy-regelsatzes durch einen rechner
DE69333247T2 (de) Trainingsverfahren und Gerät zur Erzeugung eines neues Neurons
DE19504664C2 (de) Chaotisches rekurrentes neuronales Netz und Lernverfahren dafür
DE102018212155A1 (de) Verfahren und eine Vorrichtung zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal
DE69809402T2 (de) Assoziativneuron in einem künstlichen neuralen netzwerk
DE4330847A1 (de) Vorrichtung und Verfahren zur Datenverarbeitung
WO1998034176A1 (de) Verfahren zur transformation einer zur nachbildung eines technischen prozesses dienenden fuzzy-logik in ein neuronales netz
WO1998007100A1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
EP0591259B1 (de) Verfahren zur verarbeitung von unsicherheiten von eingangsdaten in neuronalen netzwerken
EP1093639A2 (de) Neuronales netz und verfahren und anordnung zum trainieren eines neuronalen netzes
EP0548127A1 (de) Neuronales Netzwerk und Schaltungsanordnung zur Bool'schen Realisierung neuronaler Netze vom ADALINE-Typ.
DE19641286C1 (de) Lernverfahren für selbstorganisierende neuronale Netzwerke und Vorrichtung zur Durchführung des Verfahrens
DE69023034T2 (de) Datenverarbeitungssystem.

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1997935429

Country of ref document: EP

ENP Entry into the national phase

Ref country code: JP

Ref document number: 1998 512095

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 09254298

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1997935429

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1997935429

Country of ref document: EP