Können alle booleschen Funktionen von neuronalen Netzen (Deep Learning) gelernt werden, und was bedeutet XOR als Gegenbeispiel für ein Perzeptron?

Question

Accepted Answer

Ja – **alle booleschen Funktionen** $f:\{0,1\}^n \to \{0,1\}$ können von **neuronalen Netzen** gelernt bzw. dargestellt werden, sofern das Netz **mindestens eine versteckte Schicht** (oder allgemein: ausreichende Tiefe/Breite) und **nichtlineare Aktivierungen** besitzt.

**Warum das XOR-“Gegenbeispiel” kein Gegenbeispiel für Deep Learning ist**
- Ein **einzelnes Perzeptron** (ohne Hidden Layer) ist ein **linearer Klassifikator**. Es kann genau die booleschen Funktionen darstellen, die **linear separierbar** sind.
- **XOR ist nicht linear separierbar**, daher kann ein einzelnes Perzeptron XOR nicht lernen.
- Ein **mehrschichtiges Netz** (z. B. 2–2–1 mit nichtlinearer Aktivierung) kann XOR problemlos darstellen: Die Hidden-Neuronen erzeugen zwei lineare Trennungen, die Ausgabeschicht kombiniert sie nichtlinear.

**Allgemeine Aussage (Expressivität)**
- Für endliche Eingabemengen wie $\{0,1\}^n$ gilt: Mit genügend Hidden Units kann ein Feedforward-Netz **jede** Zuordnung von Eingaben zu Ausgaben exakt realisieren (im Extremfall “Lookup-Table”-artig). Damit sind auch alle $2^{2^n}$ booleschen Funktionen darstellbar.
- Praktisch heißt “lernen” zusätzlich: Ob es mit vertretbarem Daten- und Rechenaufwand gelingt, hängt von **Architektur, Optimierung, Regularisierung und Datenabdeckung** ab. Aber **prinzipiell** ist die Repräsentation möglich.

**Kurzfazit**
- **Perzeptron (1 Schicht):** nicht alle booleschen Funktionen; XOR ist das Standardbeispiel.
- **Mehrschichtiges Netz (Deep Learning):** kann XOR und grundsätzlich **jede** boolesche Funktion darstellen (bei ausreichender Kapazität).