Laden...

Datenwachstum in Translation Memory und Terminologiedatenbank

Sprachdaten sammeln sich im Übersetzungsprozess schnell an: Mit jeder Übersetzung wächst das Translation Memory pro Sprachrichtung und je nach Prozess wächst parallel auch die Terminologiedatenbank. Die gesammelten Daten sollen Konsistenz zu bisherigen Übersetzungen sicherstellen, eine korrekte Verwendung der Fachsprache gewährleisten und Aufwände und Kosten sparen. Sprachdaten sind ohne Frage wertvoll und können auch für viele weitere Unternehmensprozesse – zum Beispiel im Wissensmanagement und im Customer Support – genutzt werden.

Umfangreiche Datenmengen laufen aber immer auch Gefahr, unübersichtlich und damit schlechter handhabbar zu werden. Mehrere TM-Treffer zu einem identischen Ausgangssegment führen zum Beispiel zu einem erhöhten Prüfaufwand bei der Übersetzung und zu einer höheren Berechnung des Segments, obwohl die Übersetzung eigentlich bereits vorhanden ist. Auch falsche Segmentierungen, ungeprüfte Importe von Altdaten und das Zusammenführen von verschiedenen Datenquellen können zu einem unkontrollierten Anwachsen der Datenbanken führen.

Wie Sie bereits mit Ihren Ausgangstexten zu saubereren Sprachdaten beitragen können, erfahren Sie in unserem Blogbeitrag zu übersetzungsgerechtem Schreiben.

Anwendungsbereiche für Sprachdaten

Die Nutzbarkeit von Sprachdaten beschränkt sich längst nicht mehr nur auf den Übersetzungsprozess. Auch im Wissensmanagement, der Technischen Redaktion und dem Einsatz von künstlicher Intelligenz (KI) kommt den Daten aus der Übersetzung ein hoher Stellenwert zu. Sie können beispielsweise zum Finetuning von Large Language Models (LLM) dienen, um einem allgemein vortrainierten Modell unternehmensspezifische Inhalte mitzugeben. Terminologiedaten wiederum sind sowohl bei der Erstellung des Ausgangstexts als auch bei der maschinellen Übersetzung wichtig, um die gewünschte Fachsprache in den Texten sicherzustellen.

Je breiter der Einsatz von Sprachdaten, desto wichtiger ist die sinnvolle Nutzbarkeit und saubere Bereitstellung. Dabei geht Qualität vor Quantität: Im Bereich der neuronalen maschinellen Übersetzung können irrelevante Trainingsdaten das Übersetzungsergebnis verschlechtern. Bei LLMs verursachen große Datenmengen außerdem Kosten und verwässern das Ergebnis durch Input, aus dem die Maschinen nichts oder nur Uneindeutiges lernen können. Datenbestände werden so zur Datenlast.

Jasmin Nesbigall
Jasmin

 

Fachleitung MTPE und Terminologiemanagement

j.nesbigall@oneword.de +49 (0)7031 714-9552

oneCleanup: Sprachdatenbereinigung leicht gemacht

Mit oneCleanup unterstützen wir Unternehmen bei der Kontrolle, Pflege und Bereinigung ihrer Sprachdaten. Dabei bündeln wir unser jahrzehntelanges Sprach- und Technologie-Knowhow zu einem smarten Rundum-Service. Ihre Daten werden direkt aus den Datenbanken oder über Austauschformate analysiert und können sowohl formal als auch sprachlich bereinigt werden. oneCleanup eignet sich für Bestände jeder Größe. Da jede Datenbank ihre Besonderheiten haben kann, lassen sich alle Prüfschritte auch individuell anpassen, um genau dort anzusetzen, wo es für Ihr Unternehmen am wichtigsten ist.

Legen Sie das Potenzial Ihrer Daten frei!

Daten sind das neue Gold, das es aber erst freizulegen gilt. Denn große Datenbestände werden schnell ineffizient und schlecht zu handhaben. Egal ob Sie jahrelang gewachsene TM-Daten bereinigen oder fehlende Terminologiedaten vervollständigen wollen. Dank Skripting und Automatisierung können wir mit oneCleanup auch große Datenmengen gezielt und schnell auswerten. Übersichtliche Analyseergebnisse geben einen Überblick des Bereinigungspotenzials und können bei Bedarf direkt weiterverarbeitet werden.

Ziel von oneCleanup ist es, einen reduzierten und sauberen Bestand an TM- und Terminologiedaten zu erhalten, der genau auf Ihr Einsatzszenario zugeschnitten ist. Schluss also mit übergroßen und unsauberen Datenbanken, die mehr Arbeit als Nutzen bringen!

oneCleanup bietet:

  • Analyse des Bereinigungspotenzials von Translation Memorys und Terminologiedatenbanken

  • schnelle Einschätzung des tatsächlichen Bereinigungsaufwands

  • formale und sprachliche Bereinigung möglich

  • individuelle Anpassung an Unternehmensvorgaben und -schwerpunkte

  • umfassende Beratung zu Zielen, Formaten und Zeitplänen

Die Bewertung der Analyseergebnisse erfolgt durch unser erfahrenes Team, um Bereinigungsmaßnahmen ab- und einzuleiten. Damit unterstreichen wir unseren hohen Qualitätsanspruch, da wirklich nur dort bereinigt wird, wo entsprechendes Potenzial besteht. Unsere detaillierten Analysen ermöglichen es außerdem, Bereinigungsschritte nach und nach umzusetzen, um die Daten jederzeit einsatzfähig zu halten.

Blog oneCleanup

Machine Translation und Post-Editing

Vom Auffangbecken zur Schatzkammer: Details und Hintergründe zu oneCleanup.

Case Study HOMMEL ETAMIC

Wie das Jenoptik-Unternehmen seine Terminologiedaten bereinigt und effektive Prozesse implementiert hat.

Blog Terminologie für MÜ

Wir zeigen, wann und wie sich Terminologie in MÜ integrieren lässt und was dabei zu beachten ist.

8 gute Gründe für oneword.

Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.

Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.

Angebot anfordern

    Ich bin damit einverstanden, dass mich die oneword GmbH kontaktiert und meine angegebenen Daten speichert.