25.06.2025

Glossarerstellung für KI und MT: Warum viel nicht immer viel hilft

Wer maschinelle Übersetzung (MT) oder KI-Systeme für die Übersetzung nutzt, kennt das Problem: Die KI übersetzt „Bolzen“ mal als „bolt“, mal als „stud“ – je nach Tagesform. Daraus folgt hoher Nachbearbeitungsbedarf, der die Kosteneinsparungen der KI schnell wieder einholt. Glossare haben sich als erprobtes Werkzeug erwiesen, um diese Fehler zu verringern. In unseren Projekten konnten Terminologiekorrekturen durch die Einbindung eines Glossars um mehr als die Hälfte gesenkt werden. Da liegt die Vermutung nahe: Je mehr Terminologie man vorgibt, desto größer der Nutzen. Das stimmt jedoch nicht. Ein überfülltes Glossar kann sogar zu mehr Fehlern führen. Die schiere Menge überfordert das System und am Ende dominieren dann einzelne Termini das gewünschte Endergebnis. Wie so oft gilt also auch für Glossare: Viel hilft nicht immer viel.

Warum Glossare unverzichtbar sind

Glossare sind ein echter Game Changer auf dem Weg zu mehr Qualität und weniger Nacharbeit. Unsere Auswertungen aus Post-Editing-Projekten zeigen: Zwischen 14 und 45 Prozent aller Korrekturen entfallen auf Terminologieänderungen. Sie stellen damit einen erheblichen Zeit- und Kostenfaktor dar.

Der große Vorteil von Glossaren: Sie bekommen Ihre gewünschte Terminologie auch in generische Systeme integriert – also in MT- und KI-Systeme, die vorher noch nie mit Ihren unternehmensspezifischen Daten gearbeitet haben. Glossare sind damit der perfekte Mittelweg zwischen aufwändigem KI-Training und zeitintensiver Nachbearbeitung.

Die breite Spanne von den oben erwähnten 14 bis 45 Prozent Terminologiekorrekturen erklärt sich durch verschiedene Faktoren:

  • Umfang der Terminologievorgaben: Je mehr spezifische Vorgaben existieren, desto höher der potenzielle Korrekturaufwand
  • Fachgebiet: In hochspezialisierten Bereichen setzen generische MT-Systeme die Fachterminologie oft unzureichend um
  • Sprachkombination: Für manche Sprachen existiert deutlich mehr Trainingsmaterial als für andere
  • MT-System: Tests zeigen immer wieder, dass verschiedene Systeme völlig unterschiedliche Ergebnisse für dieselben Fachtermini liefern
  • Standardisierungsgrad: Verwendet Ihr Unternehmen branchenübliche Terminologie oder eigene Begrifflichkeiten?

Der Einfluss von Glossarvorgaben: Ein zweischneidiges Schwert

Glossare sind jedoch kein Selbstläufer. Was Sie als Vorgabe hineingeben, hat einen enormen Einfluss auf das, was herauskommt. Das deutsche Wort „Symbol“ kann beispielsweise je nach Kontext als „symbol“ oder „icon“ übersetzt werden.

Glossar KI-Übersetzung; Beispiel

Maschinelle Vorübersetzung ohne Glossarvorgabe (Mitte) und mit der Vorgabe „Symbol = icon“ (rechts). Die Veränderungen des restlichen Satzes sind magentafarben hervorgehoben. (Quelle: oneword GmbH)

Neuronale MT-Systeme arbeiten auf Basis von Wortwahrscheinlichkeiten. Sie berechnen also für jedes Wort, mit welchen anderen Wörtern es in den gelernten Trainingsdaten vorkam. Jede Glossarvorgabe ändert diese Wahrscheinlichkeiten, wodurch sich nicht nur der Fachterminus selbst ändern kann, sondern der gesamte restliche Satz. Diese Veränderung kann positiv sein, wenn es dadurch zu einer größeren Genauigkeit oder einer besseren Kollokation kommt, oder negativ, wenn ein vorgegebener Terminus den restlichen Satz beispielsweise zu stark verallgemeinert.

Die richtige Ausstattung macht den Unterschied

Für die Glossarerstellung haben Sie grundsätzlich zwei technische Möglichkeiten: Sie können eine Datei vorbereiten und dem System mitgeben (meist .csv, .xlsx oder .tbx) oder das MT-System greift direkt auf Ihre Terminologiedatenbank zu. Letzteres erfolgt meist innerhalb von CAT-Tools.

Bei beiden Varianten ist die korrekte Zuordnung der Termini entscheidend. Die sinnvollste Herangehensweise ist eine sogenannte n:1-Zuordnung: Alle Benennungen in der Ausgangssprache (auch erlaubte und verbotene) werden einer bevorzugten Benennung in der Zielsprache zugeordnet. So wird sichergestellt, dass auch nicht-bevorzugte Benennungen im Ausgangstext erkannt und korrekt übersetzt werden.

Sprache ist allerdings nicht immer eindeutig. In Terminologiedatenbanken gibt es daher meist viele Fälle, in denen keine klare Zuordnung möglich ist oder in denen kontextabhängig mehr als eine Vorgabe für einen Terminus gemacht werden müsste. Mehrdeutigkeiten sind für die Glossarfunktionen der Systeme allerdings Stolperstellen, wobei die technische Umsetzung im Hintergrund stark variiert. Manche Systeme verwenden bei Mehrdeutigkeiten pauschal die erste Vorgabe, manche pauschal die letzte. Wieder andere gehen alphabetisch vor oder ignorieren mehrdeutige Vorgaben einfach komplett. Diese technischen Details haben Sie als Anwender:in meist nicht in der Hand, weshalb es umso wichtiger ist, Ihre Daten optimal aufzubereiten.

Typische Fehlerquellen vermeiden

Beim Aufbau von Glossaren lauern neben Mehrdeutigkeiten noch weitere Stolpersteine, die den Qualitätsschub zunichte machen können. Die folgenden Fehler sollten Sie daher unbedingt vermeiden:

  • Inhaltliche Fehler: Falsche Terminologievorgaben landen ebenso falsch in der maschinellen Übersetzung
  • Fehlende Differenzierung: Unterschiedliche Begriffe werden gleich übersetzt
  • Kontextfremde Vorgaben: GUI-Texte oder Fremdterminologie in der Datenbank
  • Groß-/Kleinschreibung: Spezielle Produktschreibweisen können Probleme verursachen
  • Komposita: Besondere Herausforderung, da MT-Systeme Bindestriche oft ignorieren

Praktische Lösungsansätze für bessere Glossare

Um das volle Potenzial von Glossaren zu nutzen, haben sich in der Praxis folgende Ansätze bewährt:

1. Dublettenkontrolle durchführen

Suchen Sie nach doppelten oder mehrfachen Termini sowohl in der Ausgangs- als auch in den Zielsprachen. Sie werden nicht nur zusammengehörige Einträge finden, sondern auch Termini, die ähnlich bzw. gleich geschrieben werden, aber andere Bedeutungen haben. Prüfen Sie dann: Gibt es eine Bedeutung, die im Großteil aller Fälle gemeint ist? Dann nehmen Sie diese ins Glossar auf. Bei gleichverteilten Bedeutungen ist es besser, beide auszuschließen.

2. Bestandsanalyse durchführen

Nicht alles in Ihrer Terminologiedatenbank kommt tatsächlich in Ihren Texten vor. Eine Bestandsanalyse Ihrer Terminologiedatenbank zeigt, welche Termini wie häufig verwendet werden. Diese Analyse hilft bei der Priorisierung, nicht nur für Glossare, sondern für die gesamte Terminologiearbeit. Kennzeichnen Sie aktive Einträge, um sie später gezielt filtern zu können.

3. Bereinigungspotenzial identifizieren

Für eindeutige Zuordnungen brauchen Sie klare Verwendungsinformationen. Eine skriptbasierte Analyse zeigt, wo diese fehlen oder uneindeutig sind (mehrere bevorzugte Benennungen pro Sprache). Nach der Bereinigung können Sie automatisiert Glossare ausleiten – idealerweise kombiniert mit dem reduzierten Bestand aus der Bestandsanalyse.

4. Bottom-up-Ansatz mit Feedbackschleife

Starten Sie mit einem Grundbestand und ergänzen Sie schrittweise. Nutzen Sie Feedback aus dem Post-Editing-Prozess: Welche Glossarvorgaben führen zu Fehlern? Welche Termini fehlen? Manchmal kann es sogar sinnvoll sein, allgemeinsprachliche Wörter aufzunehmen, wenn diese vom MT-System häufig falsch übersetzt werden. In der Terminologiedatenbank haben solche Einträge allerdings nichts zu suchen.

Fazit: Mehr Qualität durch weniger Quantität

Glossarvorgaben sind ein hervorragendes Werkzeug, um die Qualität von MT- und KI-generierten Übersetzungen zu verbessern. Mit einer Reduktion der Terminologiekorrekturen um 62 Prozent sprechen die Zahlen aus unserem MTPE-Alltag für sich. Der Einfluss dieser Vorgaben ist enorm – im Guten wie im Schlechten.

Ungeprüfte oder zu umfangreiche Terminologiedatenbanken führen schnell zu Fehlern und Mehraufwand. Eine sorgfältige Analyse, eine gezielte Auswahl relevanter Termini und die kontinuierliche Optimierung der Glossare sind der Schlüssel zu besseren Ergebnissen.

Sie möchten Ihre Glossare für MT und KI optimieren? Unsere Expert:innen bei oneword unterstützen Sie gerne bei der Analyse Ihrer Terminologiedatenbank und der Erstellung effektiver Glossare. Wir stehen Ihnen gerne für ein Beratungsgespräch zur Verfügung.

8 gute Gründe für oneword.

Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.

Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.

Angebot anfordern

    Ich bin damit einverstanden, dass mich die oneword GmbH kontaktiert und meine angegebenen Daten speichert.