Was ist die früheste Untersuchung zur Verstärkung von Vorurteilen durch Large Language Models?

Question

Accepted Answer

Eine der frühesten und einflussreichsten Untersuchungen zu Vorurteilen (Bias) in Large Language Models (LLMs) stammt aus dem Jahr 2016: Die Arbeit „Man is to Computer Programmer as Woman is to Homemaker Debiasing Word Embeddings“ von Tolga Bolukbasi et al. ([Link zur Publikation](https://arxiv.org/abs/1607.06520)). Diese Studie zeigte, dass bereits klassische Word Embeddings wie Word2Vec gesellschaftliche Vorurteile und Stereotype aus den Trainingsdaten übernehmen und verstärken können.

Für explizit große Sprachmodelle (LLMs) wie GPT wurde das Thema ab etwa 2019 intensiver untersucht. Eine der ersten Arbeiten, die sich mit der Verstärkung von Vorurteilen durch LLMs im Dialog mit Nutzenden beschäftigt, ist:

- **"Language Models are Few-Shot Learners" (Brown et al., 2020)** ([Link zur Publikation](https://arxiv.org/abs/2005.14165)): Hier wird erstmals systematisch untersucht, wie GPT-3 auf verschiedene Prompts reagiert und wie es dabei Vorurteile aus den Trainingsdaten reproduzieren kann.

- **"On the Dangers of Stochastic Parrots: Can Language Models Be Too Big" (Bender et al., 2021)** ([Link zur Publikation](https://dl.acm.org/doi/10.1145/3442188.3445922)): Diese Arbeit diskutiert die ethischen Risiken großer Sprachmodelle, darunter auch die Verstärkung von Vorurteilen durch Interaktion mit Nutzenden.

Die spezifische Frage, ob LLMs die Vorurteile eines Fragenden *verstärken* (also nicht nur reproduzieren, sondern im Dialog mit dem Nutzenden verstärken), wurde erstmals 2021 in der Arbeit

- **"TruthfulQA: Measuring How Models Mimic Human Falsehoods" (Lin et al., 2021)** ([Link zur Publikation](https://arxiv.org/abs/2109.07958))

systematisch untersucht. Hier wird gezeigt, dass LLMs dazu tendieren, die Annahmen und Vorurteile in den Fragen der Nutzenden zu übernehmen und zu verstärken, anstatt sie zu korrigieren.

**Zusammengefasst:**  
Die frühesten Untersuchungen zu Vorurteilen in Sprachmodellen stammen aus 2016 (Word Embeddings). Die explizite Untersuchung, ob LLMs die Vorurteile eines Fragenden verstärken, wurde ab 2020/2021 (u.a. TruthfulQA) wissenschaftlich behandelt.