Evaluierung maschineller Übersetzungssysteme

28.11.2022

Auf Knopfdruck, fertig, los! Die gängigen MT-Systeme im Check und Vergleich

Maschinelle Übersetzungssysteme (MT-Systeme) machen kontext- und systembedingt Fehler, die sich vermeiden lassen, wenn man die Ursachen und vor allem die richtigen Lösungen kennt. Unser MTPE-Team rund um unsere Fachleitung Jasmin Nesbigall hat dafür einige gängige MT-Systeme evaluiert.

Als Sprachdienstleister und Experte für MTPE-Prozesse weisen wir immer wieder darauf hin, dass maschinelle Übersetzung fehleranfällig ist. Von Auslassungen und Ergänzungen über fehlende oder fachfremde Terminologie bis zu schweren inhaltlichen Fehlern ist in den meisten MTPE-Projekten alles dabei. Interessant für unsere Kund:innen und uns ist daher ein Blick in die Details: Welche Fehler und wie viele davon macht ein MT-System bei einem bestimmten Text? Und würde ein anderes System genau die gleichen Fehler machen oder deutlich besser oder schlechter abschneiden?

Wir wollten es genauer wissen und haben sechs MT-Systeme gegeneinander antreten lassen. Die Ergebnisse sind teilweise überraschend und zeigen deutlich die Stellschrauben und Lösungsansätze, mit denen sich der Output maschineller Übersetzung optimieren lässt.

Die Basis: Fehlerkategorien und Fehlerarten

Bei der Evaluierung von Übersetzungen – auch von maschineller Übersetzung – muss vorab an vieles gedacht werden: Welche Fehler sind möglich und wie lassen sich diese kategorisieren. Wie kommt man von einem reinen Bauchgefühl zu einer messbaren Bewertung? Und welche Kennzahlen werden überhaupt benötigt, um ein aussagekräftiges Ergebnis zu erhalten?

Für unsere MT-Evaluierungen arbeiten wir aktuell mit sieben Fehlerkategorien, in die jeweils mehrere Fehlerarten fallen. In der Fehlerkategorie „Terminologie“ unterscheiden wir beispielsweise drei Fehlerarten: Missachtung von Vorgaben aus der Terminologiedatenbank, inkonsistente Verwendung von Termini oder Vorkommen sachgebietsfremder Termini im Text.

Die Kategorie Terminologie wird in den Feedbacks unserer Posteditor:innen nach MTPE-Projekten regelmäßig sehr schlecht bewertet, was beim Einsatz generischer Maschinen eigentlich auch nicht überrascht: Wie sollen allgemein trainierte MT-Systeme die genauen Terminologievorgaben eines Unternehmens kennen und umsetzen? Dass es für diese Fehlerquelle mittlerweile durch Glossarfunktionen einen Ansatz zur deutlichen Fehlerreduktion gibt, wurde auch in unserem Evaluierungsprojekt berücksichtigt. Zwei Systeme, die diese Funktionalität anbieten, konnten quasi gegen sich selbst antreten: einmal mit und einmal ohne Terminologie-Integration.

Das Setting: Ausgangstext und Terminologievorgaben

Doch der Reihe nach. Der erste Schritt zum Projektstart ist das Finden eines passenden Ausgangstextes, der Spezifika des Unternehmens enthält, dabei aber auch eine Balance zwischen Allgemeinsprache und Fachspezifik hält. Für unser Evaluierungsprojekt wurde aus zwei Textteilen zu einer Produktreihe eines unserer Kunden ein Text zusammengestellt, der einige Herausforderungen mit sich brachte: Neben langen und teilweise verschachtelten Sätzen enthielt der Text zahlreiche aufgesplittete Komposita (beispielsweise „Leistungsstecker und -verbinder“) und unternehmensspezifische Schreibweisen von Produkt- und Abteilungsnamen.

Auf Basis des Ausgangstexts wurde eine Terminologieliste mit 16 Äquivalenten für Deutsch und Englisch erstellt, die insgesamt 37 Mal im Text vorkamen. Also 37 Möglichkeiten für eine generische MT, die gewünschte Fachterminologie nativ korrekt umzusetzen oder eben zu missachten.

Evaluierungskennzahlen im Überblick

Und damit steigen wir ein in die vielen Kennzahlen, die das Projekt geliefert hat. Von den 37 Stellen, an denen Fachtermini gefordert waren, haben die Systeme zwischen 35 und 57 Prozent fehlerhaft umgesetzt, also bis zu 21 dieser Stellen. Nach der Integration der Terminologievorgaben in Form eines Glossars, was bei zwei Systemen möglich war, sank diese Fehlerquote auf bis zu 19 Prozent.

Das Projekt umfasste insgesamt knapp 570 Wörter, bei denen die Systeme zwischen 82 und 121 Fehler machten. Ein Drittel (33 %) bis knapp die Hälfte (46 %) dieser Fehler wurde als „schwer“ eingestuft, also mit deutlichen Auswirkungen auf das Textverständnis und die Brauchbarkeit. Allerdings wurde die Behebung der Fehler nur bei einem Viertel (25 %) bis einem Drittel (33 %) als „aufwändig“ kategorisiert. Also: Viele Fehler, jeder Dritte davon schwerwiegend, aber mehrheitlich wenig Aufwand bei der Fehlerbehebung. Die Erklärung dafür: Ein Terminologiefehler beispielsweise kann inhaltlich schwer wiegen, seine Korrektur aber nur einen geringen Aufwand erfordern – in diesem Fall etwa den Austausch durch den korrekten Terminus. Für die Bewertung des MT-Outputs und mit Blick auf den Aufwand, den dieser im Post-Editing verursacht, sind daher beide Kennzahlen entscheidend.

Bei der Anzahl der Segmente, die überhaupt posteditiert werden mussten, unterschieden sich die sechs Systeme überraschend wenig. Von insgesamt 38 Segmenten mussten zwischen 34 und 36 angepasst werden, also meist ca. 90 Prozent und damit insgesamt sehr viel. Die Anpassungen reichen dabei vom Hinzufügen eines Kommas bis zur Umstrukturierung oder sogar kompletten Neuübersetzung eines Segments. Interessant ist daher ein Blick auf die Edit Distance, also die Anzahl an zeichenbasierten Änderungen zwischen dem Originaltext und der posteditierten Version. Ein hinzugefügtes Komma liefert beispielsweise eine Edit Distance von 1, da nur ein Zeichen geändert wird. Je geringer die Edit Distance, desto weniger wurde also geändert bzw. desto unveränderter wurde die maschinelle Übersetzung übernommen.

Im Evaluierungsprojekt machen Segmente mit einer geringen Edit Distance von 1 bis 20 den Großteil (40-50 % in allen Systemen) aus. Lediglich bei einem System fielen in diese Edit-Distance-Stufe nur 30 Prozent der Segmente, sodass insgesamt eine höhere Änderungsrate auftrat. Alles in allem bedeuten die Werte aber, dass beim Posteditieren mehrheitlich nur geringe Änderungen an den Segmenten nötig waren, was die Gesamtänderungsquote von 90 Prozent dann wieder deutlich relativiert.

Interessant bei einer Evaluierung sind aber nicht nur die Anzahl von Fehlern und der Aufwand ihrer Korrektur, sondern vor allem ihre Art: Macht ein System vielleicht besonders viele Grammatikfehler, ein anderes lässt dafür aber ganze Satzteile aus? Versteht ein System den Sinn eines Satzes besser als ein anderes? Und gibt es besondere Schwachstellen, die sich erst im Vergleich mehrerer Systeme zeigen? Als deutliche „Sieger“ der Fehlerkategorien gingen sehr deutlich Stil und Genauigkeit mit jeweils ca. 40 Prozent Fehleranteil hervor. Und auch bei den Fehlerarten innerhalb dieser Kategorien gab es klare Spitzenreiter: 90 bis 97 Prozent der Stilfehler entfielen auf Styleguide-Fehler, 80 bis 97 Prozent der Genauigkeitsfehler entfielen auf Sinnfehler. Darüber hinaus gab es beispielsweise einige wenige Hinzufügungen der Systeme und einige Auslassungen von Wörtern oder Satzteilen.

Stellschraube Terminologie-Integration

Und die Terminologie? Die Fehlerquote für Terminologie lag je nach eingesetztem System bei 14 bis 18 Prozent. Diese Quote ließ sich bei den beiden Systemen, die eine Terminologie-Integration in Form eines Glossars ermöglichen, auf 8 bis 12 Prozent senken. Doch warum gibt es auch nach Glossarvorgaben überhaupt noch Terminologiefehler? Eine detaillierte Analyse zeigte drei klare Fehlerquellen:

1. Aufgesplittete Komposita werden nicht als solche erkannt und daher separat übersetzt. Der zweite Kompositumsteil wird damit meist nicht als zusammenhängend und ergo nicht als vorgegebener Terminus erkannt.
Beispiel: Bei „Leistungsverbinder und -stecker“ wurde „Leistungsstecker“ nicht erkannt und daher die Vorgabe aus dem Glossar nicht umgesetzt.

2. Widersprechen sich Termini innerhalb der Vorgaben oder soll ein Einzelterminus anders übersetzt werden als der gleiche Terminus als Bestandteil eines Kompositums, bereitet dies den Systemen Probleme. Teilweise wird nur eine der Vorgaben umgesetzt, teilweise werden alle betroffenen Termini komplett ignoriert.

3. Besondere Schreibweisen wie Kapitälchen, Großschreibung innerhalb eines Produktnamens oder Zeichensetzung innerhalb eines Terminus werden von den MT-Systemen komplett ignoriert. Diese Fehlerquelle ist gerade mit Blick auf gendergerechte Wortformen, die ja immer Zeichen innerhalb des Wortes enthalten, besonders interessant.

Damit zeigt sich: Die noch auftretenden Terminologiefehler sind systematisch und berechenbar und damit im besten Fall durch gezieltere Vorgaben auch vermeidbar.

Fazit: Sechs Systeme, viele (Fehler-)Möglichkeiten

Eine vergleichende Evaluierung ist immer spannend, wenn auch sehr aufwändig. Im direkten Vergleich der Systeme zeigen sich nicht nur individuelle Schwachstellen oder Stolperfallen, sondern auch Rankings, welches System für ein bestimmtes Sachgebiet und eine bestimmte Sprachkombination die Nase vorn hat. Als größte Fehlerquellen konnten wir die Sinngenauigkeit und die Umsetzung von umfangreichen Styleguide-Vorgaben ausmachen. Dies überrascht etwas, da nach den Bewertungen der Posteditor:innen eher die Einhaltung der Terminologie als große Fehlerquelle zu erwarten gewesen wäre. Hierfür bietet sich durch Terminologie-Integration in Form von Glossaren in immer mehr Systemen eine gute Möglichkeit, um unternehmensspezifische Vorgaben in den maschinellen Output zu übernehmen.

Entscheidender ist je nach Use Case aber immer noch das spezifische Training einer MT-Engine mit Unternehmensdaten, da sich das MT-Ergebnis auf diese Weise auch an Stilvorgaben und sprachliche Besonderheiten anpassen lässt. Ist ein Training nicht möglich oder gewünscht, lassen sich bestimmte Styleguide-Vorgaben auch durch Skripte oder automatisierte Prüfungen nach der maschinellen Vorübersetzung umsetzen. Hier muss genau geprüft werden, welche Vorgaben sich wie umsetzen lassen und wo schon vor dem Posteditieren Korrekturen möglich sind, um den tatsächlichen PE-Aufwand zu verringern. Auch die Erstellung eines PE-Styleguides, der bekannte Fehlerquellen benennt und Leitlinien vorgibt, wie mit diesen (systematisch) umzugehen ist, kann für die Optimierung des MTPE-Prozesses eine Rolle spielen.

Für weitere Infos zum Zusammenspiel von Terminologie und MT empfehlen wir unseren tekom Vortrag „Maschinelle Übersetzung und Terminologie – eine schwierige Beziehung oder die ganz große Liebe?“ auf dem oneword YouTube-Kanal.

Wenn Sie die Vorteile maschineller Übersetzung für Ihr Unternehmen nutzen möchten, stehen wir für Evaluierungsprojekte, das Austesten der geeignetsten MT-Engine oder für die Erstellung von Leitfäden ebenfalls gern zur Verfügung. Sprechen Sie uns an.

8 gute Gründe für oneword.

Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.

Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.

Angebot anfordern

    Ich bin damit einverstanden, dass mich die oneword GmbH kontaktiert und meine angegebenen Daten speichert.