KI versteht Mainzer Dialekt nicht
en-GBde-DEes-ESfr-FR

KI versteht Mainzer Dialekt nicht


Neue Studie der Johannes Gutenberg-Universität Mainz zeigt, dass Sprachmodelle Wörter in lokalen Varianten missinterpretieren

Wie gut verstehen Sprachmodelle den Mainzer Dialekt? Dieser Frage ist ein von der Johannes Gutenberg-Universität Mainz (JGU) geleitetes Forschungsteam erstmals nachgegangen. Meenzerisch prägt die regionale Sprachkultur bis heute und ist durch die Büttenreden der Mainzer Fastnacht auch bundesweit bekannt. Die Studienergebnisse, veröffentlicht im Rahmen der Language Resources and Evaluation Conference in Palma de Mallorca (LREC 2026), zeigen: Aktuelle KI-Modelle haben große Schwierigkeiten, den Dialekt korrekt zu verstehen.

"Sprachvarianten wie Meenzerisch sind ein wichtiger Teil kultureller Identität, verschwinden aber gleichzeitig aus dem alltäglichen Gebrauch", erklärt Minh Duc Bui vom Institut für Informatik der JGU, der die Studie zusammen mit Prof. Dr. Katharina von der Wense leitete. "In der digitalen Sprachforschung werden regionale Dialekte bisher kaum berücksichtigt. Dabei könnten gerade sprachtechnologische Werkzeuge helfen, sie sichtbarer zu machen und langfristig zu bewahren."

Maschinenlesbares Meenzerisch

Das Team, dem auch ein Forscher der Philipps-Universität Marburg angehörte, erstellte zunächst einen neuen Datensatz zum Mainzer Dialekt. Grundlage war ein Wörterbuch aus dem Jahr 1966, das die Forschenden digitalisierten. Daraus entstand ein für Künstliche Intelligenz (KI) maschinenlesbares Lexikon mit 2.351 Dialektwörtern und ihren Definitionen im Standarddeutschen. "Bislang fehlte es für Meenzerisch an genau solchen Ressourcen", so Prof. Dr. Katharina von der Wense, Leiterin der Arbeitsgruppe Sprachverarbeitung an der JGU.

Auf Basis des digitalen Lexikons konnten die Forschenden daraufhin erstmals systematisch untersuchen, wie gut große Sprachmodelle mit dem Dialekt umgehen können. Getestet wurden mehrere Open-Source-Sprachmodelle unterschiedlicher Größe. Diese mussten zum einen die Bedeutung von Meenzerisch-Wörtern erklären und zum anderen aus standarddeutschen Definitionen die passenden Dialektwörter erzeugen

"Unsere Ergebnisse fallen deutlich aus", so Bui. "Die getesteten Modelle scheitern sowohl beim Verstehen als auch beim Produzieren des Dialekts." Beim Generieren von Wortdefinitionen erreichten sie im Durchschnitt eine Trefferquote von nur 4,24 Prozent. Auch die leistungsstärksten getesteten Modelle erzielten dabei nur sehr geringe Trefferquoten. Beim umgekehrten Test, also dem Erzeugen eines Dialektworts aus einer Definition, lag die Genauigkeit sogar nur bei 0,56 Prozent. Auch zusätzliche Hilfestellungen, etwa Beispiele im Prompt oder automatisch gewonnene Regeln, verbesserten die Ergebnisse kaum. Die Genauigkeit blieb in allen Fällen unter zehn Prozent.

Kleinere Sprachformen werden digital unsichtbar

"Die Resultate zeigen sehr klar, dass heutige Sprachmodelle Meenzerisch bislang kaum verstehen", sagt Ko-Autor Prof. Dr. Peter Herbert Kann von der Universität Marburg, der selbst den Mainzer Dialekt beherrscht. "Das ist aus technischer Sicht interessant, zeigt aber auch, wie schnell kleinere Sprachformen in digitalen Anwendungen unsichtbar werden können." Eine Ursache dafür könnte den Forschenden zufolge sein, dass Dialekte vor allem gesprochen werden und deshalb wenig Textdaten existieren.

"Langfristig brauchen wir Modelle, die nicht nur Standardsprachen, sondern auch regionale und kulturell bedeutsame Varietäten verarbeiten können", so Bui. Sprachtechnologien könnten demnach künftig helfen, Dialekte digital zu dokumentieren und zugänglich zu machen. Die von der Carl-Zeiss-Stiftung im Rahmen des interdisziplinären JGU-Forschungsprojekts "Trading off Non-Functional Properties of Machine Learning" (TOPML) geförderte aktuelle Studie sei dabei ein erster Schritt. "In Zukunft sind aber gezielte Datensätze und neue Trainingsansätze nötig, um sprachliche und kulturelle Vielfalt auch im digitalen Raum langfristig zu fördern."


Weiterführende Links:
Lesen Sie mehr:
M. D. Bui et al., Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect, Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026), Mai 2026,
DOI: 10.63317/4foh8f7kygj8
https://lrec.elra.info/lrec2026-main-258
Attached files
  • Das Wort "Rachebutzer" in der Fehlinterpretation eines großen Sprachmodells (oben) und in seiner Bedeutung im Mainzer Dialekt (unten). (Abb./©: Minh Duc Bui, erstellt mithilfe von Claude)
Regions: Europe, Germany, United Kingdom, North America, United States
Keywords: Applied science, Computing, Artificial Intelligence, Public Dialogue - applied science, Business, Universities & research

Disclaimer: AlphaGalileo is not responsible for the accuracy of content posted to AlphaGalileo by contributing institutions or for the use of any information through the AlphaGalileo system.

Testimonials

For well over a decade, in my capacity as a researcher, broadcaster, and producer, I have relied heavily on Alphagalileo.
All of my work trips have been planned around stories that I've found on this site.
The under embargo section allows us to plan ahead and the news releases enable us to find key experts.
Going through the tailored daily updates is the best way to start the day. It's such a critical service for me and many of my colleagues.
Koula Bouloukos, Senior manager, Editorial & Production Underknown
We have used AlphaGalileo since its foundation but frankly we need it more than ever now to ensure our research news is heard across Europe, Asia and North America. As one of the UK’s leading research universities we want to continue to work with other outstanding researchers in Europe. AlphaGalileo helps us to continue to bring our research story to them and the rest of the world.
Peter Dunn, Director of Press and Media Relations at the University of Warwick
AlphaGalileo has helped us more than double our reach at SciDev.Net. The service has enabled our journalists around the world to reach the mainstream media with articles about the impact of science on people in low- and middle-income countries, leading to big increases in the number of SciDev.Net articles that have been republished.
Ben Deighton, SciDevNet

We Work Closely With...


  • The Research Council of Norway
  • SciDevNet
  • Swiss National Science Foundation
  • iesResearch
Copyright 2026 by AlphaGalileo Terms Of Use Privacy Statement