WO2013182176A1

WO2013182176A1 - Verfahren zum trainieren eines künstlichen neuronalen netzes und computerprogrammprodukte

Info

Publication number: WO2013182176A1
Application number: PCT/DE2013/000205
Authority: WO
Inventors: Gerhard DÖDING; László GERMÁN; Klaus Kemper
Original assignee: KISTERS AG
Current assignee: KISTERS AG
Priority date: 2012-06-06
Filing date: 2013-04-18
Publication date: 2013-12-12
Anticipated expiration: 2014-12-06
Also published as: DE102012011194A1

Description

Verfahren zum Trainieren eines künstlichen neuronalen Netzes und Computerpro- grammprodukte

[01] Die Erfindung betrifft ein Verfahren zum Trainieren eines künstlichen neuronalen Netzes und Computerprogrammprodukte. [02] Insbesondere betrifft das Verfahren das Trainieren eines künstlichen neuronalen Netzes, das mindestens eine verdeckte Schicht mit Zubringerneuronen und eine Ausgabeschicht mit Ausgabeneuronen aufweist.

[03] Künstliche neuronale Netze sind in der Lage, komplizierte nichtlineare Funktionen über einen Lernalgorithmus, der durch iterative oder rekursive Vorgehensweise aus vorhandenen Eingangs- und gewünschten Ausgangswerten alle Parameter der Funktion zu bestimmen versucht, zu erlernen.

[04] Die verwendeten Netze sind massiv parallele Strukturen zur Modellierung beliebiger funktionaler Zusammenhänge. Hierzu werden ihnen Trainingsdaten angeboten, die die zu modellierenden Zusammenhänge anhand von Beispielen repräsentieren. Wäh- rend des Trainings werden die inneren Parameter der neuronalen Netze, wie beispielsweise ihre synaptischen Gewichte, durch Trainingsprozesse so angepasst, dass der gewünschte Response auf die Eingangsdaten erzeugt wird. Dieses Training wird supervi- sed learning genannt.

[05] Bisherige Trainingsprozesse laufen so ab, dass in Epochen, das sind Zyklen, in denen dem Netz die Daten angeboten werden, der Response-Fehler am Ausgang des Netzes iterativ verringert wird.

BESTÄTIGUNGSKOPIE [06] Dazu werden die Fehler der Ausgabeneuronen rückwärts in das Netz propagiert (backpropagation). Mithilfe verschiedener Prozesse (Gradientenabstieg, heuristische Verfahren wie z.B. particle swarm optimization oder Evolutionsverfahren) werden dann die synaptischen Gewichte aller Neuronen des Netzes so verändert, dass das neuronale Netz die gewünschte Funktionalität beliebig genau approximiert.

[07] In künstlichen neuronalen Netzen bezeichnet die Topologie die Struktur des Netzes. Dabei können Neuronen in hintereinander liegenden Schichten angeordnet werden. Man spricht zum Beispiel bei einem Netz mit einer einzigen trainierbaren Neuronen- schicht von einem einschichtigen Netz. Die hinterste Schicht des Netzes, deren Neuro- nenausgaben meist als einzige außerhalb des Netzes sichtbar sind, wird Ausgabeschicht genannt. Davor liegende Schichten werden dementsprechend als verdeckte Schichten bezeichnet. Das erfindungsgemäße Verfahren ist für neuronale feed forward Netze beliebiger Topologie geeignet, die mindestens eine Schicht mit Zubringerneuronen und eine Ausgabeschicht mit Ausgabeneuronen aufweisen. [08] Die beschriebenen Lernverfahren dienen dazu, ein neuronales Netz dazu zu bringen, für bestimmte Eingangsmuster zugehörige Ausgabemuster zu erzeugen. Hierzu wird das Netz trainiert oder adaptiert. Das Trainieren von künstlichen neuronalen Netzen, das heißt das Schätzen der im Modell enthaltenen Parameter, führt in der Regel zu hochdimensionalen nichtlinearen Optimierungsproblemen. Die prinzipielle Schwierig- keit bei der Lösung dieser Probleme besteht in der Praxis häufig darin, dass man nicht sicher sein kann, ob man das globale Optimum gefunden hat oder nur ein lokales. Eine Annäherung an die globale Lösung benötigt in der Regel eine zeitaufwendige vielfache Wiederholung der Optimierung mit immer neuen Startwerten für die inneren Parameter und den vorgegebenen Eingangs- und Ausgangswerten. [09] Die bisherigen Trainingsverfahren sind sehr rechenintensiv und erfordern daher lange Rechenzeiten, die sehr stark mit der Anzahl verbundener Neuronen und Schichten ansteigen. Daher sind sehr komplexe neuronale Netze, die zur Approximation kompli- zierter funktionaler Zusammenhänge nötig sind, nur sehr langsam so zu trainieren, dass ein akzeptabler Restfehler erreicht wird.

[ 10] Außerdem leiden solchermaßen trainierte Netze an dem Risiko, suboptimal trainiert zu sein, da die angewandten Trainingsmethoden meistens nur lokale Informationen über die Fehlerpropagation ausnutzen und deshalb fast immer in lokalen Fehlerminima hängen bleiben.

[ 1 1] Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Trainieren eines künstlichen neuronalen Netzes derart weiterzuentwickeln, dass zu vorgegebenen Eingangswerten in möglichst kurzer Zeit Responsewerte mit minimaler Abweichung zu den gewünschten Ausgangswerten bereitgestellt werden.

[ 12] Diese Aufgabe wird mit einem gattungsgemäßen Verfahren gelöst, bei dem nur die Ausgabeneuronen adaptiert werden.

[ 13] Mit anderen Worten werden für eine zu trainierende Funktionalität und ein vorgegebenes Netz Eingangswerte und Ausgangswerte vorgegeben und nur die Ausgabeneuronen werden so adaptiert, dass der Ausgabefehler minimiert wird.

[14] Dabei können verschiedene zufällig generierte Zubringer-Teilnetze alternativ mit derselben Ausgabeschicht verbunden werden.

[ 15] Mit Ausnahme der Neuronen, die Ergebnisse repräsentieren (Ausgabeneuronen), erzeugen die vorgelagerten Neuronen (Zubringerneuronen) mehrstufig nichtlineare Verrechnungen der Eingangswerte und der Zwischenwerte anderer Neuronen.

[ 16] Aufgabe der Zubringerneuronen ist es, eine geeignete interne Repräsentation der zu lernenden Funktionalität in einem hochdimensionalen Raum zu erzeugen. Aufgabe der Ausgabeneuronen ist es, das Angebot der Zubringerneuronen zu untersuchen und die am besten geeignete Auswahl an nichtlinearen Verrechnungsergebnissen zu bestimmen. [ 17] Daher können diese beiden Neuronenklassen unterschiedlich adaptiert werden und es hat sich überraschenderweise herausgestellt, dass die Zeit, die für das Trainieren eines künstlichen neuronalen Netzes benötigt wird, deutlich verringert werden kann, wenn nur die Ausgabeneuronen adaptiert werden.

[ 18] Das Verfahren beruht auf einer Neuinterpretation der Wirkungsweise von feed forward Netzen und ihm liegen im Wesentlichen zwei Verfahrensschritte zugrunde: a) Erzeuge geeignete interne Repräsentationen der zu trainierenden Funktionalität. b) Wähle eine optimale Auswahl aus dem Angebot vorverrechneter Outputs der Zubringerneuronen .

[ 19] Die hier vorgestellte Erfindung beruht somit auf einem gänzlich anderen Paradigma zur Beschreibung der Funktion neuronaler feed forward Netze.

[20] Ein feed forward Netz wird als eine Hintereinanderschaltung zweier Teilnetze interpretiert.

[21 ] Der erste Teil enthält alle Neuronen außer den Ausgabeneuronen. Diese Neuronen sind mit zufälligen synaptischen Gewichten, zufälligen Transferfunktionen und zufälliger Netztopologie initialisiert und werden in keiner Phase der Adaption verändert. Daher erzeugen sie auch nur zufällige nichtlineare Verrechnungen der angebotenen Eingangsinformationen.

[22] Der zweite Teil enthält nur die Ausgabeneuronen. Diese sind gemäß der vorgegebenen Netztopologie mit dem ersten Teil des Netzes über synaptische Gewichte verbunden.

[23] Nur diese Gewichte werden erfindungsgemäß an die Aufgabenstellung ange- passt. [24] Dies geschieht vorzugsweise mit einer tichonov-regularisierten Regression zwischen den zufälligen Verrechnungen (das Zwischenergebnis-Angebot des ersten Teilnetzes) und der notwendigen Aktivierung der Ausgabeneuronen. Die synaptischen Gewichte der Ausgabeneuronen wählen daher erfindungsgemäß aus dem zufälligen Ange- bot des ersten Teilnetzes vorzugsweise in nur einem Rechenschritt, also nicht iterativ und nicht mit Methoden des Gradientenabstiegs, die optimalen synaptischen Gewichte der Ausgabeschicht aus.

[25] Bei genügend großer Anzahl der Neuronen in dem ersten Teilnetz ergeben sich immer ausreichend viele nichtlineare Verrechnungsergebnisse, so dass sich die nachfol- gende Ausgabeschicht sehr gut an die Aufgabe anpassen kann.

[26] Aus dem Zufall erwachsen also gleichsam die Vorverrechnungen zur Lösung des Approximationsproblems. Dies wird als zufallsinduzierte Emergenz bezeichnet.

[27] Die Erfindung bietet daher folgende Vorteile:

[28] Es ist nur ein Rechenschritt zur vollständigen Adaption des Netzes an die ge- stellte Aufgabe nötig.

[29] Daher ist die Adaption sehr schnell, da übliche Regressionsmethoden verwendet werden können (z.B. Cholesky-Faktorisierung, Singulärwertzerlegung, LU-Zerlegung etc.).

[30] Es ist kein Hängenbleiben in einem lokalen Optimum möglich, da kein Gradien- tenabstieg und keine Fehler-B ackpropagation durchgeführt werden.

[31 ] Wegen der starken Tichonov-Regularisierung ist ein Auswendiglernen (Übertrainieren) ausgeschlossen. [32] Die Benutzung sehr großer neuronaler Netze ist einfach möglich. Dies ist sogar vorteilhaft, da durch Vergrößerung des nichtlinearen Zufallsangebots die Chance einer verbesserten Approximationsgüte gesteigert wird.

[33] Theoretisch kann ein Netz durch folgende Methoden lernen: Entwicklung neuer Verbindungen, Löschen bestehender Verbindungen, Ändern der Gewichtung, Anpassen der Schwellenwerte der Neuronen, Hinzufügen oder Löschen von Neuronen. Außerdem verändert sich das Lernverhalten bei Veränderung der Aktivierungsfunktion der Neuronen oder der Lernrate des Netzes.

[34] Da ein künstliches neuronales Netz hauptsächlich durch Modifikation der Gewichte der Neuronen lernt, wird vorgeschlagen, dass zum Adaptieren der Ausgabeneuronen die synaptischen Gewichte der Ausgabeneuronen bestimmt werden. Eine üblicherweise durchgeführte Adaption der Zubringerneuronen, vorzugsweise durch Anpassung ihrer synaptischen Gewichte, ist erfindungsgemäß nicht notwendig.

[35] Dabei ist vorgesehen, dass die synaptischen Gewichte der Ausgabeneuronen auf der Basis der Werte derjenigen Zubringerneuronen, die direkt mit den Ausgabeneuronen verbunden sind, und der vorgegebenen Ausgangswerte bestimmt werden.

[36] Ein vorteilhaftes Verfahren sieht vor, dass die Ausgabeneuronen mit weniger als fünf Adaptionsschritten, vorzugsweise nur einem Schritt, adaptiert werden.

[37] Bei der Adaption bzw. dem Training ist es vorteilhaft, wenn vorgegebene Ausgangswerte mit den inversen Transferfunktionen zurückgerechnet werden.

[38] Weiterhin betrifft die Erfindung ein Verfahren zur Steuerung einer Anlage, bei dem das zukünftige Verhalten beobachtbarer Größen die Grundlage für die Steuerungsfunktion bildet und künstliches neuronales Netzwerk wie oben beschrieben trainiert wird. [39] Ein Compute rogrammprodukt mit Compute rogrammcodemitteln zur Durchführung des beschriebenen Verfahrens ermöglicht es, das Verfahren als Programm auf einem Computer auszuführen.

[40] Ein derartiges Computerprogrammprodukt kann auch auf einem computerlesba- ren Datenspeicher gespeichert sein.

[41 ] Ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens wird anhand der Figuren 1 und 2 näher beschrieben.

[42] Es zeigt:

Figur 1 ein stark abstrahiertes Schema eines künstlichen neuronalen Netzes mit mehreren Ebenen und feed forward Eigenschaft und

Figur 2 ein Schema eines künstlichen Neurons.

[43] Das in Figur 1 gezeigte künstliche neuronale Netz (1) besteht aus 5 Neuronen (2, 3, 4, 5 und 6), von denen die Neuronen (2, 3, 4) als verdeckte Schicht angeordnet sind und Zubringerneuronen darstellen, während die Neuronen (5, 6) als Ausgabeschicht Ausgabeneuronen darstellen. Die Eingangswerte (7, 8, 9) sind den Zubringerneuronen (2, 3, 4) zugeordnet und den Ausgabeneuronen (5, 6) sind Ausgangswerte ( 10, 1 1) zugeordnet. Die Differenz zwischen dem Response (12) des Ausgabeneurons (5) und dem Ausgangswert ( 10) wird ebenso wie die Differenz zwischen dem Response (13) des Ausgabeneurons (6) und dem Ausgangswert (1 1 ) als Ausgabefehler bezeichnet. [44] Das in Figur 2 gezeigte Schema eines künstlichen Neurons zeigt, wie Eingaben (14, 15, 16, 17) zu einem Response (18) führen. Dabei werden die Eingaben (xj, x₂, x_3, x_n) über Gewichtungen (19) bewertet und eine entsprechende Übertragungsfunktion (20) führt zu einer Aktivierung (21 ). Eine Aktivierungsfunktion (22) mit einem Schwellenwert (23) führt zu einem Ausgangswert und damit zu einem Response (18), [45] Da die Gewichtung (19) den stärksten Einfluss auf den Response (18) der Neuronen (2 bis 6) hat, wird im Folgenden der Trainingsprozess ausschließlich im Hinblick auf eine Adaption der Gewichte des Netzes (1 ) beschrieben.

[46] Im Ausführungsbeispiel werden in einem ersten Schritt des Trainingsprozesses alle Gewichte (19) des Netzes (1 ) mit Zufallswerten im Intervall [- 1 , 1 ] initialisiert. Danach wird für jeden Trainingsdatensatz der Response (12, 13, 24, 25, 26, 27, 28, 29) jedes Neurons (2 bis 6) berechnet.

[47] Die gewünschten vorgegebenen Ausgangswerte (10, 1 1) aller Ausgabeneuronen (5, 6) werden mit Hilfe der inversen Transferfunktion des jeweiligen Ausgabeneurons (5, 6) zurückgerechnet auf ihre dazu notwendigen Aktivierungen.

[48] Die synaptischen Gewichte aller Ausgabeneuronen werden durch einen ticho- nov-regularisierten Regressionsprozess zwischen invertierten vorgegebenen Ausgangswerten (10, 1 1) und denjenigen Vorverrechnungswerten der Zubringerneuronen (2, 3, 4) bestimmt, die direkt mit den Ausgabeneuronen (5, 6) verbunden sind. [49] Ist das gewünschte Approximationsziel erreicht, ist also der Ausgabefehler kleiner als eine gesetzte Obergrenze, endet das Verfahren hier.

[50] Ansonsten wiederholt man das Verfahren mit einer anderen zufälligen Initialisierung der Gewichte oder einer größeren Anzahl der Zubringerneuronen.

[51 ] Dies ermöglicht es beispielsweise, als Eingangswerte (7, 8, 9) historische Wet- terdaten wie Sonnenintensität, Windgeschwindigkeit und Niederschlagsmenge einzugeben, während als Ausgangswert der Stromverbrauch zu bestimmten Tageszeiten angesetzt wird. Durch ein entsprechendes Trainieren des Netzes (1) wird der Response ( 12, 13) so optimiert, dass der Ausgabefehler genügend klein wird. Danach kann das Netz für Prognosen verwendet werden, indem prognostizierte Wetterdaten eingegeben wer- den und mit dem künstlichen neuronalen Netz ( 1) zu erwartende Stromverbrauchswerte ermittelt werden.

[52] Dies ermöglicht es, auch eine Anlage mit den berechneten Werten zu steuern, um viele Eingangswerte besonders schnell zu verarbeiten und in Steuerfunktionen um- zusetzen.

[53] Während für derartige Berechnungen mit einem herkömmlichen Trainingspro- zess im praktischen Einsatz viele Stunden zum Trainieren des neuronalen Netzwerks notwendig waren, erlaubt das erfindungsgemäße Verfahren ein Trainieren innerhalb weniger Sekunden oder Minuten. [54] Das beschriebene Verfahren ermöglicht somit eine starke Reduktion der benötigten Zeit bei einem vorgegebenen künstlichen neuronalen Netz. Damit kann auch das Netz groß genug gewählt werden, um die gewünschte Qualität der Ergebnisse zu erreichen. Die kurze Trainingszeit eröffnet die Verwendung künstlicher neuronaler Netze in leistungsschwächeren Computern wie insbesondere auch Smartphones. [55] Smartphones können somit während ihrer Verwendung kontinuierlich trainiert werden, um nach einer Trainingsphase dem Nutzer von sich aus Informationen zur Verfügung zu stellen, die er regelmäßig abruft. Wenn der Nutzer beispielsweise täglich über eine Applikation sich spezielle Börsendaten anzeigen lässt, können diese Börsendaten dem Nutzer bei einer beliebigen Verwendung des Smartphones automatisch angezeigt werden, ohne dass der Nutzer zunächst die Applikation aktiviert und seine Daten abruft.

Claims

Verfahren zum Trainieren eines künstlichen neuronalen Netzes ( 1), das mindestens eine verdeckte Schicht mit Zubringerneuronen (2, 3, 4) und eine Ausgabeschicht mit Ausgabeneuronen (5, 6) aufweist, dadurch gekennzeichnet, dass nur die Ausgabeneuronen (5, 6) adaptiert werden.

Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass für eine zu trainierende Funktionalität und ein vorgegebenes Netz (1) Eingangs werte (7, 8, 9) und Ausgangs werte (10, 1 1) vorgegeben werden und nur die Ausgabeneuronen (5, 6) so adaptiert werden, dass der Ausgabefehler minimiert wird.

Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass verschiedene zufällig generierte Zubringer-Teilnetze alternativ mit derselben Ausgabeschicht verbunden werden.

Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zum Adaptieren der Ausgabeneuronen (5, 6) die synaptischen Gewichte der Ausgabeneuronen (5, 6) bestimmt werden.

Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die synaptischen Gewichte der Ausgabeneuronen (5, 6) auf der Basis der Werte derjenigen Zubringerneuronen (2, 3, 4), die direkt mit den Ausgabeneuronen (5, 6) verbunden sind, und der vorgegebenen Ausgangswerte ( 10, 1 1) bestimmt werden.

Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Ausgabeneuronen (5, 6) mit weniger als fünf Adaptionsschritten und vorzugsweise nur einem Schritt adaptiert werden.

7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass vorgegebene Ausgangswerte ( 10, 1 1) mit den inversen Transferfunktionen zurückgerechnet werden.

8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Ausgabeneuronen (5, 6) mit tichonov-regularisierter Regression adaptiert werden.

9. Verfahren zur Steuerung einer Anlage, bei dem das zukünftige Verhalten beobachtbarer Größen die Grundlage für die Steuerungsfunktion bildet und ein künstliches neuronales Netzwerk nach einem der vorhergehenden Ansprüche trainiert wird.

10. Computerprogrammprodukt mit Programmcodemitteln zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Computer ausgeführt wird.

1 1. Computerprogrammprodukt mit Programmcodemitteln nach Anspruch 10, die auf einem computerlesbaren Datenspeicher gespeichert sind.