KI-Sprachmodelle zeigen Vorurteile gegen Dialekte
Hamburg, Dezember 2025 - Die Studiengesellschaft für Künstliche Intelligenz e.V. hat auf eine Studie der Universitäten Mainz und Hamburg hingewiesen. Sie zeigt: Für die KI ist, wer Platt oder Bayrisch spricht, oft schlicht "ungebildet" oder "bäuerlich". Was das für die Fairness von Algorithmen bedeutet, und warum ChatGPT & Co. Vorurteile reproduzieren, die längst als überwunden galten, zeigen die Untersuchungsergebnisse.
Dialekte stiften regionale Identität, sorgen für kulturellen Zusammenhalt und gehören zum kulturellen Erbe bestimmter Regionen. So positiv bewerten Sprachwissenschaftler Mundart. "Jede Provinz liebt ihren Dialekt, denn er ist doch eigentlich das Element, in welchem die Seele ihren Atem schöpft", stellte bereits Johann Wolfgang von Goethe fest. Und wie "angesagt" Regionalität vielfach ist, macht allein schon das wachsende Angebot an TV-Filmen, insbesondere Krimis, mit regionalem Bezug deutlich.
KI übernimmt gesellschaftliche Stereotype
Doch Bayrisch, Kölsch, Plattdütsch, Hessisch, Sächsisch oder Schwäbisch, um nur einige der bekanntesten deutschen Idiome zu nennen, kommen nicht immer gleich gut an. Wer sich mundartlich ausdrückt, wird oft als provinziell, primitiv oder als "Landei" wahrgenommen und verunglimpft. Laut einer aktuellen Studie der Universitäten Mainz und Hamburg diskriminiert auch Künstliche Intelligenz (KI) dialektsprechende Menschen. KI-Sprachmodelle zeigten Vorurteile gegen regionale deutsche Sprachvarianten, berichtet die Johannes Gutenberg-Universität (JGU) in Mainz.
Große Sprachmodelle wie GPT-5 oder Llama bewerten demnach Sprecherinnen und Sprecher deutscher Dialekte systematisch schlechter, wie die Autorinnen und Autoren die Ergebnisse ihrer Studie zur Reaktion von Künstlicher Intelligenz auf Dialektäußerungen zusammenfassen. Gemeinsam mit Forscherinnen und Forschern der Universitäten Hamburg und Washington untersuchten Prof. Dr. Katharina von der Wense und Minh Duc Bui von der JGU, wie Künstliche Intelligenz (KI) auf Dialektäußerungen anspricht. Dabei stellten sie fest, dass sämtliche getesteten Modelle stereotype Denkmuster aus der Gesellschaft übernahmen.
"Moin", "Servus", "Guddn Dach", "Guude" oder "Tagchen" – wissenschaftlichen Erhebungen zufolge existieren allein in Deutschland mehr als 50 unterschiedliche Dialekte. Demnach sollen sich den einzelnen Bundesländern jeweils mehr als eine regionale Sprachvariante zuordnen lassen: Selbst im kleinen Saarland kenne man drei verschiedene Dialekte, heißt es. Und auch auf deutlich kleinerem Raum sind häufig von Stadt zu Stadt oder Dorf zu Dorf Sprachgewohnheiten bzw. –eigenarten anzutreffen, die sich mitunter deutlich voneinander unterscheiden.
Dialekte als Teil kultureller Identität
Das könnte man fast als rein deutsches Multikulti bezeichnen, kommentieren Interessierte. Tatsächlich verbinden sich mit sprachlichen Besonderheiten oft ebenfalls andere regionalen Eigenheiten, wie etwa Trachten oder Bräuche. Oft werden auch Sagen, Mythen, traditionelles Schrift- und Liedgut in landsmannschaftlicher Sprache überliefert. Dialekt habe viel mit regionaler Kultur zu tun, meinen denn auch Sprachforscher.
"Dialekte sind zentraler Teil kultureller Identität", pflichtet Minh Duc Bui, Promovend in der Arbeitsgruppe „Natural Language Processing“ (NLP) von Prof. Dr. Katharina von der Wense am Institut für Informatik der JGU, den Kollegen bei.
Studien-Design: Hochdeutsch vs. Mundart
Die menschlichen Bewertungen Dialekt sprechender Personen werden offenbar von KI übernommen, wie die JGU-Wissenschaftler herausfanden. "Unsere Analysen legen nahe, dass Sprachmodelle Dialekte mit negativen Eigenschaften verknüpfen – und damit problematische gesellschaftliche Vorurteile weitertragen", konstatieren Bui und von der Wense.
Ihr Forscherteam hatte auf Basis linguistischer Datenbanken mit orthografischen und phonetischen Varianten deutscher Regionalsprachen zunächst sieben Dialektvarianten ins Standarddeutsche übertragen. Mit diesem parallelen Datensatz konnten sie systematisch vergleichen, wie Sprachmodelle denselben Inhalt – einmal in Standarddeutsch geschrieben, einmal im Dialekt – bewerten.
Untersucht wurden demnach zehn große Sprachmodelle – von Open-Source-Modellen wie Gemma und Qwen bis zum kommerziellen System GPT-5. Diesen legten die Forscher schriftliche Texte in Standarddeutsch oder in einem von sieben Dialekten vor: in Plattdeutsch, Bairisch, Nordfriesisch, Saterfriesisch, Ripuarisch – einer Dialektgruppe, zu der das Kölsche gehört –, Alemannisch sowie in rheinfränkischen Dialekten, zu denen auch Pfälzisch und Hessisch zählen.
KI urteilt: Dialektsprecher sind "ungebildet"
Dabei sollten die Systeme zum einen den fiktiven Sprecherinnen und Sprechern bestimmte Eigenschaften zuordnen – wie etwa "gebildet" oder "ungebildet". Zum anderen sollten die Systeme zwischen den fiktiven Personen auswählen – wie etwa bei einer Job-Entscheidung.
Als Ergebnis zeigte sich dann, dass die Sprachmodelle in nahezu allen Tests die Dialektsprecherinnen und -sprecher mit Stereotypen belegten: So wurden Standarddeutsch-Sprechende häufiger als "gebildet", "strukturiert" oder "kultiviert" beschrieben, während sich die Dialektsprechende als "ländlich", "traditionell" oder "ungebildet" herabsetzen lassen mussten.
Und selbst das positive Attribut "freundlich", das die soziolinguistische Forschung eher Dialektsprechenden zuschreibt, ordneten die KI-Modelle mehrheitlich den Standarddeutsch-Sprechenden zu, wie die Autoren der Studie berichten. Negative Stereotype, die sich in der Gesellschaft hartnäckig halten, würden von den KI-Systemen reproduziert und verstärkt, zitierte die "Tagesschau" aus den Studienresultaten.
Ein weltweites Phänomen
"Unsere Ergebnisse zeigen, wie Sprachmodelle weltweit mit regionaler oder sozialer Sprachvielfalt umgehen", sagt JGU-Forscher Bui. Denn Vorurteile gegenüber regionalen oder nicht standardisierten Sprachvarianten gebe es auch für andere Sprachen, etwa für das afroamerikanische Englisch. Insofern stünden die deutschen Dialekte modellhaft für ein universelles Problem, resümieren die Verfasser der JGU-Studie.
Derzeit arbeiten die Mainzer Forschenden an einer neuen Studie zum Umgang großer Sprachmodelle mit Dialekten im Mainzer Raum.


