Transferfunktionen

Das formale statische Neuron stellt eine Form der technischen Modellierung biologischer Neuronen dar und bildet die Grundlage einer Vielzahl künstlicher neuronaler Netze. Dabei wurde die komplexe biologische Struktur sehr stark vereinfacht. Da das formale statische Neuron prinzipiell auf biologischen Strukturen basiert, besitzen seine Bestandteile biologische Entsprechungen. Die Präsentation eines Inputs x entspricht hierbei der Informationsübertragung an den Synapsen. Der Gewichtsvektor w symbolisiert die Dendriten eines biologischen Neurons. Der Zellkörper (Soma) eines Neurons i wird durch die Aktivierungsfunktion z_i=f(x,w_i) repräsentiert und die Informationsverarbeitung im Axonhügel sowie die Übertragung entlang des Axons durch die Ausgabefunktion y_i=f(z_i). Die Ausgabe kann in Anlehnung an biologische Neuronen als mittlere Spikefrequenz interpretiert werden. Damit ist ein formales statisches Neuron wie folgt schematisch darstellbar.

Die Aktivierungsfunktion z_i=f(x,w_i) und die Ausgabefunktion y_i=f(z_i) werden hierbei als Transferfunktionen bezeichnet. Im Folgenden werden verschiedene Transferfunktionen im Detail vorgestellt.

1. Aktivierungsfunktionen

Die Aktivierungsfunktion z_i=f(x,w_i) verknüpft die Gewichte w_i eines Neurons i mit dem Input x und bestimmt daraus die Aktivierung bzw. den Zustand des Neurons. Die Aktivierungsfunktionen sind in zwei grundsätzliche Gruppen zu unterteilen: die Skalarprodukt-Aktivierung (siehe Abschnitt 1.1) und die Aktivierung auf Basis von Distanzmaßen (siehe Abschnitt 1.2). Die Funktionsweise von Aktivierungsfunktionen beider Gruppen unterschiedet sich hierbei grundlegend.

1.1 Skalarprodukt-Aktivierung ("dotproduct")

Die Skalarprodukt-Aktivierung eines Neurons entspricht der gewichteten Summe der Inputs.

Für die Interpretation der Skalarprodukt-Aktivierung ist zu berücksichtigen, dass eine Gleichung der Form

eine (Hyper-)Ebene durch den Koordinatenursprung definiert. D.h., die Aktivierung z_i=f(x,w_i) erhält den Wert Null, falls sich ein Input auf einer durch die Gewichte bestimmten Hyperebene befindet. Mit zunehmender Entfernung von der Ebene steigt bzw. sinkt die Aktivierung. Das Vorzeichen der Aktivierung gibt hierbei an, auf welcher Seite der Hyperebene sich der Input x befindet, wodurch der Inputraum in zwei Bereiche unterteilt werden kann.

Um die Nutzung von Hyperebenen in allgemeiner Lage zu ermöglichen, muss jedes Neuron i zusätzlich einen Schwellwert θ_i erhalten. Damit ergibt sich die folgende Beschreibung der Hyperebenen.

Unter Verwendung eines neuronalen Netzes mit zwei Schichten trainierbarer Gewichte, n Inputneuronen, einem Ausgabeneuron und einer Beschränkung der Inputs auf das Intervall [0, 1] kann man den Inputraumraum als n-dimensionalen Würfel darstellen. Dieser Raum wird dann durch (n-1)-dimensionale Hyperebenen separiert, die durch die Hiddenneuronen bestimmt werden. Das Ausgabeneuron definiert wiederum eine Hyperebene in dem durch die Hiddenneuronen gebildeten Raum, wodurch eine Verknüpfung verschiedener Teilbereiche des Inputraums ermöglicht wird.

Das folgende Bild zeigt die Hyperebenen bzw. Geraden im Inputraum eines entsprechenden Netzes, das die logische Verknüpfung AND beherrscht.

In Kombination mit der Skalarprodukt-Aktivierung sollten Ausgabefunktionen eingesetzt werden, die das Vorzeichen der Aktivierung berücksichtigen, da anderenfalls eine Unterscheidung der durch die Hyperebenen getrennten Unterräume nicht realisierbar ist.

1.2 Aktivierungsfunktionen auf Basis von Distanzmaßen

Aktivierungsfunktionen auf der Grundlage von Distanzmaßen stellen eine Alternative zur Skalarprodukt-Aktivierung dar. Die Gewichtsvektoren der Neuronen repräsentieren hierbei Datenpunkte im Inputraum. Die Aktivierung eines Neurons i erfolgt aufgrund der Distanz seines Gewichtsvektors w_i zum Input x.

Für die Ermittlung der Distanz ist der Einsatz verschiedener Maße möglich. Eine Auswahl dieser wird im Folgenden vorgestellt.

Euklidische Distanz ("euclidian distance")

Die Aktivierung der Neuronen erfolgt ausschließlich aufgrund der räumlichen Entfernung ihrer Gewichtsvektoren vom Input. Die Richtung des Differenzvektors x-w_i ist hierbei unbedeutend.

Mahalanobis-Distanz ("mahalanobis distance")

Die Mahalanobis Distanz ist eine statistisch korrigierte euklidische Distanz des Gewichtsvektors eines Neurons i zum Input x auf Basis eines Schätzmodells der von diesem Neuron repräsentierten Datenverteilung. Das Schätzmodell wird durch die Kovarianzmatrix C_i beschrieben.

Maximum-Aktivierung ("max distance")

Die Aktivierung der Neuronen erfolgt anhand des maximalen absoluten Betrages der Komponenten des Differenzvektors x-w_i.

Minimum-Aktivierung ("min distance")

Die Aktivierung der Neuronen entspricht dem minimalen absoluten Betrag der Komponenten des Differenzvektors x-w_i.

Manhattan-Distanz bzw. Betragssummennorm ("manhattan distance")

Die Manhattan-Distanz resultiert in einer Aktivierung der Neuronen anhand der Summe der absoluten Beträge der Komponenten des Differenzvektors x-w_i.

2. Ausgabefunktionen

Die Ausgabefunktion definiert die Ausgabe y_i eines Neurons i in Abhängigkeit seiner Aktivierung z_i(x,w_i). Im Allgemeinen werden hierfür monoton wachsende Funktionen eingesetzt. In Anlehnung an biologische Neuronen wird dadurch eine wachsende Spike-Bereitschaft (in Form einer höheren mittleren Spikefrequenz) bei steigender Aktivierung realisiert. Mit Hilfe eines oberen Grenzwertes für die Ausgabe eines Neuron können die Refraktärzeiten¹ eines biologischen Neurons simuliert werden. Im Folgenden wird eine Auswahl möglicher Ausgabefunktionen vorgestellt.

Identitätsfunktion ("linear")

Stufenfunktion ("step")

Fermifunktion ("sigmoidal")

Gaußfunktion ("gaussian")

¹ Refraktärzeit: absolute ~ : Zeit nach einem Aktionspotential, in der einem biologischen Neuron kein Auslösen eines weiteren Aktionspotentials möglich ist; relative ~ : Zeit nach einem Aktionspotential, in der einem biologischen Neuron nur das Auslösen eines Aktionspotentials geringerer Amplitude möglich ist

weiter zu Transferfunktion Bedienungsanleitung

weiter zur nächsten Aufgabe (Delta-Regel)

zurück zu den Aufgabenserien

Studienangebot

Uni erleben

Studienstart

Studierendenleben

Quicklinks

Studienangebot

Studienorganisation

Studieren ist mehr

Information und Beratung

Quicklinks

Berufseinstieg

Gründungsservice

Weiterbildung

Alumni

Quicklinks

Kontakt

1. Aktivierungsfunktionen

1.1 Skalarprodukt-Aktivierung ("dotproduct")

1.2 Aktivierungsfunktionen auf Basis von Distanzmaßen

2. Ausgabefunktionen