Google Suche
Univ.-Prof. Dr.-Ing. Horst-Michael Groß
Fachgebietsleiter
E-Mail: fg-nikr@tu-ilmenau.de
Telefon: +49 3677 692858
Anschrift:
Technische Universität Ilmenau
Fakultät für Informatik und Automatisierung
Fachgebiet Neuroinformatik und Kognitive Robotik
Postfach 10 05 65
98684 Ilmenau
Besucheradresse:
Helmholtzplatz 5 (Zusebau)
Raum 3060
98693 Ilmenau
Die Delta- bzw. Widrow-Hoff-Regel ist ein Verfahren zur Gewichtsadaptation überwachter neuronaler Netze. Die Gewichtsänderung erfolgt proportional zur Differenz der aktuellen Ausgabe eines Neurons zu seiner erwünschten Ausgabe (Teacher). Dabei ist zu beachten, dass mit Hilfe der Delta-Regel nur Netzwerke gelernt werden können, die eine einzige Schicht trainierbarer Gewichte besitzen. Weiterhin wird die Berechnung der Ausgabe der Neuronen auf lineare Funktionen beschränkt. Eine Verallgemeinerung der Delta-Regel, die Backpropagation-Regel, ermöglicht jedoch auch das Training mehrschichtiger Netze sowie die Nutzung alternativer Ausgabefunktionen.
In diesem Praktikum wird ein sehr einfaches Netz verwendet, das nur aus einem einzigen formalen statischen Neuron besteht. Dieses wird in Anhängigkeit des aktuellen Inputs x und des Gewichtes w aktiviert. Da eine verallgemeinerte Form der Delta-Regel für das Training eingesetzt wird, sind verschiedene Ausgabefunktionen nutzbar. Die Ausgabe y des Neurons ergibt sich hierbei immer aus der Aktivierung z.
Das verwendete formale Neuron basiert prinzipiell auf biologischen Strukturen. Seine Bestandteile besitzen daher biologische Entsprechungen. Das Gewicht w entspricht hierbei der Übertragung des Inputs x über Synapsen und Dendriten zum Zellkörper (Soma). Auf der Membran des Zellsomas wird durch die Berechnung der Aktivierung z das aktuelle Membranpotenzial repräsentiert. Im Axonhügel erfolgt die "Berechnung" der Ausgabefunktion y. Das resultierende Potenzial wird (verlustfrei) über das Axon weiter geleitet.
Die Delta-Regel (unter Verwendung der Identität als Ausgabefunktion) stellt sich auf Grundlage dieses Beispiels folgendermaßen dar, wobei die Initialisierung des Gewichtes w mit einem zufälligen Wert erfolgt.
In jedem Lernschritt wird die Differenz der Ausgabe y und der erwarteten Ausgabe bzw. des Teachers t für den aktuellen Input x gebildet. Diese Differenz entspricht dem Fehler e für die Approximation des Teachers t. Das neue Gewicht wneu ergibt sich also aus dem alten Gewicht walt sowie dem mit der Lernrate η und dem Input x gewichteten Approximationsfehler e.
Das Training wird entsprechend dem folgenden Algorithmus durchgeführt.
REPEAT
1. Präsentation eines Inputs x
2. Berechnung der Aktivierung z und der Ausgabe y
3. Bestimmung des Fehlers e
4. Gewichtsadaptation
UNTIL Fehler < Schwelle
Der quadratische Fehler, ein häufig genutztes Fehlermaß, lässt sich auf Basis des Approximationsfehlers e folgendermaßen berechen:
E entspricht hierbei dem Gesamtfehler über alle Trainingsmuster (Pattern). Ep gibt hingegen den quadratischen Fehler für ein spezifisches Trainingsmuster p an.
Die Delta-Regel ist ein Gradientenabstiegsverfahren. Die Gewichtsänderungen werden dabei so berechnet, dass sich der quadratische Fehler Ep für das aktuelle Muster p bzw. den aktuellen Input x verringert. Dafür wird der Gradient, d.h. der Anstieg der Fehlerfunktion an der durch das Gewicht w definierten Stelle genutzt. Das Gewicht wird dann in Richtung des negativen Gradienten der Fehlerfunktion verändert, wobei die Lernrate η die Schrittweite angibt. Damit ergibt sich die verallgemeinerte Form der Delta-Regel.
Der Gradient der Fehlerfunktion kann mit Hilfe der Kettenregel in Abhängigkeit der verwendeten Ausgabe- und Aktivierungsfunktion bestimmt werden.
Das Ziel des Trainings ist das Erreichen eines Minimums in der Fehlerfunktion und damit eine möglichst genaue Approximation des Teachers.
Aufgrund der Generalisierungseigenschaft des Netzes wird nicht nur der Fehler für gelernte Muster durch den Gradientenabstieg verringert, sondern auch für ähnliche Inputdaten, die dem Netz nicht explizit präsentiert wurden.