Was sind lineare und nichtlineare Aktivierungsfunktionen in neuronalen Netzen (mit Beispielen)?

Question

Accepted Answer

Lineare bzw. nicht-lineare Aktivierungen sind Funktionen, die auf die Voraktivierung $z = w^\top x + b$ eines Neurons angewendet werden und den Ausgabewert $a = f(z)$ bestimmen.

## Lineare Aktivierungen
**Definition:** $f(z) = z$ (Identität) oder allgemeiner $f(z)=\alpha z + \beta$.  
**Eigenschaft:** Stapelt man nur lineare Aktivierungen, bleibt das gesamte Netz effektiv **eine lineare Abbildung** (keine echte „Tiefe“ in der Ausdrucksstärke).

**Beispiele:**
- **Identität:** $f(z)=z$ (typisch im Output bei Regression)
- **Skalierte Linearität:** $f(z)=\alpha z$

## Nicht-lineare Aktivierungen
**Definition:** $f$ ist nicht linear (z. B. gekrümmt oder stückweise definiert).  
**Eigenschaft:** Erst Nichtlinearität ermöglicht, dass tiefe Netze **komplexe, nichtlineare Zusammenhänge** modellieren.

**Beispiele (häufig):**
- **ReLU:** $f(z)=\max(0,z)$
- **Leaky ReLU:** $f(z)=\max(\alpha z, z)$ mit kleinem $\alpha>0$
- **Sigmoid:** $f(z)=\frac{1}{1+e^{-z}}$ (oft für binäre Wahrscheinlichkeiten im Output)
- **tanh:** $f(z)=\tanh(z)$
- **GELU:** $f(z)\approx z\cdot \Phi(z)$ (häufig in Transformern)
- **Softmax (vektoriell):** $f(z_i)=\frac{e^{z_i}}{\sum_j e^{z_j}}$ (typisch im Output für Mehrklassen-Klassifikation)

Kurz: **Linear** = keine zusätzliche Modellkomplexität durch Tiefe; **nicht-linear** = macht tiefe Netze erst wirklich leistungsfähig.

Was sind lineare und nichtlineare Aktivierungsfunktionen in neuronalen Netzen (mit Beispielen)?

Verwandte Fragen

Warum sollte man ein nicht aktiviertes Windows 11 nicht dauerhaft weiternutzen?