Das formale statische Neuron stellt eine Form der technischen Modellierung biologischer Neuronen dar und bildet die Grundlage einer Vielzahl künstlicher neuronaler Netze. Dabei wurde die komplexe biologische Struktur sehr stark vereinfacht. Da das formale statische Neuron prinzipiell auf biologischen Strukturen basiert, besitzen seine Bestandteile biologische Entsprechungen. Die Präsentation eines Inputs x entspricht hierbei der Informationsübertragung an den Synapsen. Der Gewichtsvektor w symbolisiert die Dendriten eines biologischen Neurons. Der Zellkörper (Soma) eines Neurons i wird durch die Aktivierungsfunktion zi=f(x,wi) repräsentiert und die Informationsverarbeitung im Axonhügel sowie die Übertragung entlang des Axons durch die Ausgabefunktion yi=f(zi). Die Ausgabe kann in Anlehnung an biologische Neuronen als mittlere Spikefrequenz interpretiert werden. Damit ist ein formales statisches Neuron wie folgt schematisch darstellbar.

Die Aktivierungsfunktion zi=f(x,wi) und die Ausgabefunktion yi=f(zi) werden hierbei als Transferfunktionen bezeichnet. Im Folgenden werden verschiedene Transferfunktionen im Detail vorgestellt.

1. Aktivierungsfunktionen

Die Aktivierungsfunktion zi=f(x,wi) verknüpft die Gewichte wi eines Neurons i mit dem Input x und bestimmt daraus die Aktivierung bzw. den Zustand des Neurons. Die Aktivierungsfunktionen sind in zwei grundsätzliche Gruppen zu unterteilen: die Skalarprodukt-Aktivierung (siehe Abschnitt 1.1) und die Aktivierung auf Basis von Distanzmaßen (siehe Abschnitt 1.2). Die Funktionsweise von Aktivierungsfunktionen beider Gruppen unterschiedet sich hierbei grundlegend.

1.1 Skalarprodukt-Aktivierung ("dotproduct")

Die Skalarprodukt-Aktivierung eines Neurons entspricht der gewichteten Summe der Inputs.

Für die Interpretation der Skalarprodukt-Aktivierung ist zu berücksichtigen, dass eine Gleichung der Form

eine (Hyper-)Ebene durch den Koordinatenursprung definiert. D.h., die Aktivierung zi=f(x,wi) erhält den Wert Null, falls sich ein Input auf einer durch die Gewichte bestimmten Hyperebene befindet. Mit zunehmender Entfernung von der Ebene steigt bzw. sinkt die Aktivierung. Das Vorzeichen der Aktivierung gibt hierbei an, auf welcher Seite der Hyperebene sich der Input x befindet, wodurch der Inputraum in zwei Bereiche unterteilt werden kann.

Um die Nutzung von Hyperebenen in allgemeiner Lage zu ermöglichen, muss jedes Neuron i zusätzlich einen Schwellwert θi erhalten. Damit ergibt sich die folgende Beschreibung der Hyperebenen.

Unter Verwendung eines neuronalen Netzes mit zwei Schichten trainierbarer Gewichte, n Inputneuronen, einem Ausgabeneuron und einer Beschränkung der Inputs auf das Intervall [0, 1] kann man den Inputraumraum als n-dimensionalen Würfel darstellen. Dieser Raum wird dann durch (n-1)-dimensionale Hyperebenen separiert, die durch die Hiddenneuronen bestimmt werden. Das Ausgabeneuron definiert wiederum eine Hyperebene in dem durch die Hiddenneuronen gebildeten Raum, wodurch eine Verknüpfung verschiedener Teilbereiche des Inputraums ermöglicht wird.

Das folgende Bild zeigt die Hyperebenen bzw. Geraden im Inputraum eines entsprechenden Netzes, das die logische Verknüpfung AND beherrscht.

In Kombination mit der Skalarprodukt-Aktivierung sollten Ausgabefunktionen eingesetzt werden, die das Vorzeichen der Aktivierung berücksichtigen, da anderenfalls eine Unterscheidung der durch die Hyperebenen getrennten Unterräume nicht realisierbar ist.

1.2 Aktivierungsfunktionen auf Basis von Distanzmaßen

Aktivierungsfunktionen auf der Grundlage von Distanzmaßen stellen eine Alternative zur Skalarprodukt-Aktivierung dar. Die Gewichtsvektoren der Neuronen repräsentieren hierbei Datenpunkte im Inputraum. Die Aktivierung eines Neurons i erfolgt aufgrund der Distanz seines Gewichtsvektors wi zum Input x.

Für die Ermittlung der Distanz ist der Einsatz verschiedener Maße möglich. Eine Auswahl dieser wird im Folgenden vorgestellt.

Euklidische Distanz ("euclidian distance")

Die Aktivierung der Neuronen erfolgt ausschließlich aufgrund der räumlichen Entfernung ihrer Gewichtsvektoren vom Input. Die Richtung des Differenzvektors x-wi ist hierbei unbedeutend.

     

Mahalanobis-Distanz ("mahalanobis distance")

Die Mahalanobis Distanz ist eine statistisch korrigierte euklidische Distanz des Gewichtsvektors eines Neurons i zum Input x auf Basis eines Schätzmodells der von diesem Neuron repräsentierten Datenverteilung. Das Schätzmodell wird durch die Kovarianzmatrix Ci beschrieben.

     

Maximum-Aktivierung ("max distance")

Die Aktivierung der Neuronen erfolgt anhand des maximalen absoluten Betrages der Komponenten des Differenzvektors x-wi.

 

Minimum-Aktivierung ("min distance")

Die Aktivierung der Neuronen entspricht dem minimalen absoluten Betrag der Komponenten des Differenzvektors x-wi.

 

Manhattan-Distanz bzw. Betragssummennorm ("manhattan distance")

Die Manhattan-Distanz resultiert in einer Aktivierung der Neuronen anhand der Summe der absoluten Beträge der Komponenten des Differenzvektors x-wi.

2. Ausgabefunktionen

Die Ausgabefunktion definiert die Ausgabe yi eines Neurons i in Abhängigkeit seiner Aktivierung zi(x,wi). Im Allgemeinen werden hierfür monoton wachsende Funktionen eingesetzt. In Anlehnung an biologische Neuronen wird dadurch eine wachsende Spike-Bereitschaft (in Form einer höheren mittleren Spikefrequenz) bei steigender Aktivierung realisiert. Mit Hilfe eines oberen Grenzwertes für die Ausgabe eines Neuron können die Refraktärzeiten1 eines biologischen Neurons simuliert werden. Im Folgenden wird eine Auswahl möglicher Ausgabefunktionen vorgestellt.

Identitätsfunktion ("linear")

Stufenfunktion ("step")

Fermifunktion ("sigmoidal")

Gaußfunktion ("gaussian")


1 Refraktärzeit: absolute ~ : Zeit nach einem Aktionspotential, in der einem biologischen Neuron kein Auslösen eines weiteren Aktionspotentials möglich ist; relative ~ : Zeit nach einem Aktionspotential, in der einem biologischen Neuron nur das Auslösen eines Aktionspotentials geringerer Amplitude möglich ist