Was sind lineare und nichtlineare Aktivierungsfunktionen in neuronalen Netzen (mit Beispielen)?

Antwort vom

Lineare bzw. nicht-lineare Aktivierungen sind Funktionen, die auf die Voraktivierung \(z = w^\top x + b\) eines Neurons angewendet werden und den Ausgabewert \(a = f(z)\) bestimmen. ## Lineare Aktivierungen **Definition:** \(f(z) = z\) (Identität) oder allgemeiner \(f(z)=\alpha z + \beta\). **Eigenschaft:** Stapelt man nur lineare Aktivierungen, bleibt das gesamte Netz effektiv **eine lineare Abbildung** (keine echte „Tiefe“ in der Ausdrucksstärke). **Beispiele:** - **Identität:** \(f(z)=z\) (typisch im Output bei Regression) - **Skalierte Linearität:** \(f(z)=\alpha z\) ## Nicht-lineare Aktivierungen **Definition:** \(f\) ist nicht linear (z. B. gekrümmt oder stückweise definiert). **Eigenschaft:** Erst Nichtlinearität ermöglicht, dass tiefe Netze **komplexe, nichtlineare Zusammenhänge** modellieren. **Beispiele (häufig):** - **ReLU:** \(f(z)=\max(0,z)\) - **Leaky ReLU:** \(f(z)=\max(\alpha z, z)\) mit kleinem \(\alpha>0\) - **Sigmoid:** \(f(z)=\frac{1}{1+e^{-z}}\) (oft für binäre Wahrscheinlichkeiten im Output) - **tanh:** \(f(z)=\tanh(z)\) - **GELU:** \(f(z)\approx z\cdot \Phi(z)\) (häufig in Transformern) - **Softmax (vektoriell):** \(f(z_i)=\frac{e^{z_i}}{\sum_j e^{z_j}}\) (typisch im Output für Mehrklassen-Klassifikation) Kurz: **Linear** = keine zusätzliche Modellkomplexität durch Tiefe; **nicht-linear** = macht tiefe Netze erst wirklich leistungsfähig.

Verwandte Fragen

Warum sollte man ein nicht aktiviertes Windows 11 nicht dauerhaft weiternutzen?

Du kannst ein nicht aktiviertes Windows 11 oft weiter benutzen – es wird in der Regel nicht komplett „abgeschaltet“. Trotzdem gibt es gute Gründe, es nicht dauerhaft so zu lasse...