Was ist ein Feature-Proxy in der KI? Beispiele?

Antwort vom

Ein **Feature-Proxy** (auch *Proxy-Feature* oder *Stellvertretermerkmal*) ist ein **Ersatzmerkmal**, das ein KI‑Modell nutzt, weil das eigentlich relevante Merkmal **nicht direkt messbar, nicht verfügbar oder nicht erlaubt** ist. Der Proxy ist dabei **korreliert** mit dem Zielmerkmal – und kann es dadurch teilweise „repräsentieren“. Das ist nützlich, aber riskant: Proxies können **Bias** verstärken oder zu **unerwünschter indirekter Nutzung** sensibler Eigenschaften führen. ## Typische Beispiele 1) **Postleitzahl/Adresse als Proxy für Einkommen oder Ethnie** - In Kredit- oder Versicherungsmodellen kann die PLZ stark mit durchschnittlichem Einkommen, Bildungsniveau oder auch ethnischer Zusammensetzung korrelieren. - Ergebnis: Das Modell „lernt“ indirekt soziale Gruppen zu unterscheiden, auch wenn „Ethnie“ nie als Feature enthalten war. 2) **Kaufhistorie als Proxy für Gesundheitszustand** - Bestimmte Käufe (z. B. Schwangerschaftstests, glutenfreie Produkte, Medikamente) können als Proxy für Schwangerschaft, Allergien oder Krankheiten dienen. - In Marketing/Scoring kann das zu sehr persönlichen Rückschlüssen führen. 3) **Browser-/Gerätetyp als Proxy für Zahlungsfähigkeit** - Teure Geräte oder bestimmte Betriebssysteme korrelieren teils mit Einkommen. - Ein Preismodell könnte dadurch indirekt „Willingness to pay“ schätzen und zu unfairer Preisdifferenzierung führen. 4) **Wortwahl/Schreibstil als Proxy für Alter, Bildung oder Herkunft** - In NLP‑Modellen können Slang, Grammatikmuster oder Dialekt Hinweise auf Demografie geben. - Das kann z. B. Bewerbungs- oder Moderationssysteme verzerren. 5) **Bildhintergrund als Proxy für Kontext (und manchmal für soziale Merkmale)** - In Bilderkennung kann „Schnee“ als Proxy für „Wolf“ gelernt werden (weil Wolfsfotos häufiger im Schnee sind als Hundefotos). - Das ist ein klassischer Fall von *spurious correlation*: Der Proxy funktioniert im Training, bricht aber in neuen Umgebungen. 6) **Kriminalitätsstatistiken/Polizeikontakte als Proxy für „Kriminalität“** - In Predictive-Policing sind „Arrest“- oder „Patrol“-Daten oft eher Proxy für Polizeipräsenz als für tatsächliche Delikte. - Das kann Rückkopplungsschleifen erzeugen (mehr Kontrollen → mehr registrierte Vorfälle → noch mehr Kontrollen). ## Kurz: Woran erkennt man Proxies Ein Feature ist oft ein Proxy, wenn es **leicht messbar** ist, aber **eigentlich etwas anderes** „mittransportiert“ (z. B. sozioökonomische oder sensible Informationen) oder wenn es **nur im Trainingskontext** gut funktioniert, weil es zufällig mit dem Label zusammenhängt.