15.08.2022

Update und Tuning der Engines: Was gibt es Neues in der maschinellen Übersetzung?

Im stetig bewegten Bereich der maschinellen Übersetzung (Machine Translation, MT) vergeht kaum ein Monat ohne Neuigkeiten: neue Anbieter, neue Funktionalitäten, neue Sprachen, neue Überlegungen, wie MT noch besser in den Übersetzungsalltag integriert werden kann. Da wir genau dies tun und die Technologie kontinuierlich in den unterschiedlichsten Anwendungen nutzen, sind wir nah an den Entwicklungen der Branche und haben uns einige Neuerungen etwas genauer angesehen.

Hier weiterlesen

Neue Sprachen

Nachdem DeepL – eine der in Deutschland aktuell meistbenutzten generischen Engines – letztes Jahr auf einen Streich 13 neue Sprachen veröffentlicht hatte, war es einige Zeit ruhig in puncto Updates geblieben. Mitte Mai kamen dann aber mit Türkisch und Indonesisch zwei Neuzugänge, die das Tool für weitere 300 Millionen Muttersprachler:innen weltweit interessant machen. Mitte September folgte Ukrainisch, eine der aktuell am meisten nachgefragten Sprachen für maschinelle Übersetzung. Unsere ersten Tests sind bereits abgeschlossen und die Ergebnisse sind, wie bisher von DeepL gewohnt, vielversprechend.

Deutlich weniger Muttersprachler als Türkisch und Indonesisch hat das Rätoromanische, die vierte Amtssprache der Schweiz. Dennoch hat Textshuttle aus Zürich diese Sprache in sein Portfolio aufgenommen und ist damit der erste Anbieter, der sie maschinell abbilden kann. Und gerade in der Schweiz mit ihrer Sprachenvielfalt hat maschinelle Übersetzung auch im Alltag einen festen Platz, um Dokumente schnell von einer in eine andere Sprache zu übertragen.
Dass es ohnehin nicht auf die Anzahl der Muttersprachler:innen ankommt, sondern im Gegenteil gerade auch die bisher deutlich unterrepräsentierten Sprachen in den MT-Bereich vordringen, zeigt auch Meta mit dem Projekt „No language left behind“, in dem ein Übersetzungsmodell 200 Sprachen in hoher Qualität abbilden soll, darunter beispielsweise 55 afrikanische Sprachen.

Neue Funktionalitäten

Während neue Sprachen natürlich immer neue Projekte erschließen, wird weiterhin auch an der Optimierung der Schnittstellen zwischen Übersetzungsumgebung, Translation-Memory-System (TMS) und MT-Engine geforscht. So ist es aktuell quasi Standard, 100-Prozent-Matches aus dem TMS zu übernehmen und ihnen damit Vorrang vor der MT zu geben. Der Hintergrund: Bereits vorhandene („erinnerte“) Übersetzungen wurden so in einer Humanübersetzung oder einem früheren Post-Editing freigegeben und bereits in Unternehmenstexten verwendet. Im besten Fall sind sie also der „Goldstandard“, der bei jeder neuen Übersetzung verwendet werden soll.

An den Fuzzy Matches, also Segmenten, die zwischen einem und 15 Prozent von einer vorhandenen Übersetzung abweichen, scheiden sich dagegen die Geister: Zwar sind oft nur geringe Anpassungen nötig, aber diese erfordern definitiv ein manuelles Eingreifen durch die Posteditor:innen. Während Humanübersetzer:innen jedes Segment mit dem TMS abgleichen und Fuzzy Matches übernehmen und anpassen, leisten Maschinen diesen Abgleich bisher nicht. Die Abweichungen können damit entweder in die Hand der Posteditor:innen gelegt und angepasst werden, oder sie werden von der Maschine komplett neu und damit wahrscheinlich ganz unterschiedlich zum eigentlich ähnlichen Vorgänger übersetzt.

An dieser Stelle greift der vielversprechende Ansatz des MT-Anbieters Systran, dessen Maschinen jedes Segment mit dem TMS abgleichen, alles Übereinstimmende übernehmen und lediglich den neuen Satzteil durch die MT übersetzen lassen. Laut Anbieter beeinflusst diese Funktionalität die Qualität und Genauigkeit des Outputs dabei in ähnlicher Weise, wie dies sonst nur durch eine zeit- und kostenintensive MT-Spezialisierung erreicht werden kann.

Neues aus der Terminologie

Doch nicht nur Fuzzy Matches bieten eine relevante Stellschraube zur MT-Optimierung, sondern vor allem auch Terminologievorgaben. Die Analysen unserer MTPE-Projekte und das Feedback unserer Posteditor:innen zeigen es immer wieder: Terminologie ist und bleibt die größte Fehlerquelle bzw. Quelle des höchsten Aufwands beim Posteditieren. Generische Maschinen können die Terminologievorgaben meist überhaupt nicht umsetzen, und selbst in spezialisierten Maschinen müssen die Vorgaben bereits im Training umfangreich enthalten sein, um eine Umsetzung durch die Maschine zu ermöglichen. Eine direkte Anbindung der Maschinen an Terminologiedatenbanken ist nach wie vor reines Wunschdenken.

Allerdings tut sich auch in diesem Bereich einiges, und mehrere Anbieter haben erste Glossarfunktionen ins Portfolio aufgenommen. DeepL unterstützt beispielsweise Glossare in mittlerweile sieben Sprachpaaren, auch wenn die Funktion weiterhin nicht in CAT-Tools integriert, sondern auf Windows- und Online-Anwendungen beschränkt ist.
Weiter ist hier Textshuttle, das Terminologieunterstützung auf Basis von tbx-Daten bietet, um diese in der Übersetzung im CAT-Tool zu berücksichtigen. In beiden Fällen handelt es sich allerdings um Forcierungen, also das Ersetzen der Termini durch die Vorgaben, ohne Berücksichtigung des Kontexts. Die Terminologiedaten müssen für eine sinnvolle Nutzung entsprechend aufbereitet und im besten Fall auch nur relevante Terminologie bereitgestellt werden. In diesem so wichtigen Feld für Optimierungen im Posteditieren ist also auch weiterhin noch Luft nach oben.

Posteditieren: Bald überflüssig oder gekommen, um zu bleiben?

Einen letzten und eigenen Blick richten wir auf das Posteditieren an sich. Denn auch wenn sich seit den Anfängen der MT, in denen Inkonsistenzen, grobe Grammatikfehler und eine unnatürliche Satzreihenfolge zu den typischen und damit sehr offensichtlichen Fehlern gehörten, viel getan hat, übersetzt auch heute noch keine MT einen Text völlig fehlerfrei. Die Fehler werden allerdings immer subtiler, kommen unter einem Deckmantel sprachlicher Eleganz daher und sind teilweise schwer zu erkennen. Denn was sich flüssig und schlüssig liest, enthält noch allzu oft terminologische und semantische Fehler, Auslassungen oder willkürliche Ergänzungen. Nach Ansicht vieler Expert:innen wird das Posteditieren daher auch auf lange Sicht ebenso nötig sein wie die optimale Unterstützung der Posteditor:innen in ihrem Arbeitsalltag.

Anders sehen Umfragen unter Konsument:innen aus, die zu 65 Prozent eine auch offensichtlich maschinelle Übersetzung – zum Beispiel mit sprachlichen Fehlern – Produkttexten vorziehen, die gar nicht in der jeweiligen Muttersprache vorhanden sind. 40 Prozent geben sogar an, nichts zu kaufen, das nur in Fremdsprachen beworben wird. MT-Anbieter sehen daher immer mehr Nachfrage nach rein maschineller Übersetzung und einem „No human in the loop“-Ansatz, der überall dort interessant ist, wo Geschwindigkeit, Kosten, direkte Verfügbarkeit und Volumen wichtiger sind als linguistische Qualität. Eine Überprüfung des Outputs erfolgt dann nur noch nachträglich und stichprobenartig (P3: post-publish post-editing) für stark sichtbaren Content wie Überschriften oder Landingpages. Statt des Posteditierens erfolgt dann eher eine Überprüfung des Sprachstils, der diskriminierungsfreien Sprache oder der Markenbotschaft – also ein klarer Fokus auf kulturellen vor sprachlichen Aspekten.

Unser Fazit: Es tut sich wie immer viel im MT-Bereich und es gibt auch weiterhin noch Raum für Optimierungen. Wir bleiben wie gewohnt am Puls der Zeit und unterstützen und beraten unsere Kund:innen gerne, wie die neuen Funktionalitäten optimal genutzt werden können.

Möchten Sie gern frühzeitig und regelmäßig Branchennews und interessante Informationen über aktuelle Themen und technische Neuerungen in den Bereichen Übersetzung, Terminologie und Lokalisierung erhalten? Dann registrieren Sie sich für den oneword Newsletter.

8 gute Gründe für oneword.

Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.

Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.

Gründe ansehen
Angebot anfordern

    Ich bin damit einverstanden, dass mich die oneword GmbH kontaktiert und meine angegebenen Daten speichert.