10.07.2023

Term Mining: Auf der Suche nach Terminologie

Terminologieerstellung oder -extraktion wird auch als Term Mining bezeichnet. Eine passende Parallele, denn genau wie Gestein oder Mineralien sind auch die Termini eines Unternehmens bereits vorhanden, in der Regel aber tief in den Dokumenten verborgen, oftmals nicht in Reinform zu finden – und auf jeden Fall wertvoll für die Corporate Language. Es gilt also, den unternehmenseigenen Wortbestand freizulegen, abzuklopfen und ans Tageslicht zu befördern.

Hier weiterlesen

Aufbau vs. Suche

Wenn von Term Mining die Rede ist, können damit zwei Dinge gemeint sein: Erstens der grundlegende Aufbau eines Terminologiebestands in einer oder mehreren Sprachen. Hierbei wird auf vorhandene Texte zurückgegriffen, um die darin verwendete Terminologie separat zu erfassen und erstmals für das Unternehmen weiterzubearbeiten. Zweitens fällt unter Term Mining auch die kontinuierliche Suche nach neuen Termini und die Erweiterung des bisherigen Bestands.

Der Prozess kann dabei manuell durch das Heraussuchen und Zusammentragen von Terminologiekandidaten erfolgen oder automatisiert durch eine Extraktion aus Dokumenten oder Übersetzungsprojekten.
Grundsätzlich gibt es fünf Quellen, um an Terminologie zu gelangen:

Terminologie in Reinform, wie sie in Katalogen, Produktliste und Glossaren vorkommt. Hieraus können die Termini einfach entnommen und als Datenbestand aufbereitet werden.
Listen und vorhandene Bestände, die im Rahmen von Projekten oder Abteilungen bereits zusammengetragen wurden. Häufig kursieren in Unternehmen mehrere solcher Listen, von denen die Abteilungen untereinander eventuell gar nichts wissen.
Aktive Kommunikation innerhalb der Belegschaft. Hierbei handelt es sich oft um implizites Terminologiewissen, da jede:r im Unternehmen über Produkte und Leistungen (eventuell unterschiedlich) kommuniziert.
Aktive Texterstellung: Sowohl bei der ausgangssprachlichen Erstellung als auch bei Übersetzungen wird Terminologie recherchiert und verwendet. Diese separat nochmals zu erfassen, kann als manuelle Extraktion aus Texten bezeichnet werden.
Teilautomatisierte Extraktion aus vorhandenen Dokumenten und Datenbeständen. Hierbei wird ein Textkorpus auf die darin verwendeten Termini geprüft und diese in Listenform oder direkt in eine Datenbank extrahiert.

Manuell vs. automatisiert

Bei den beiden letztgenannten Formen der Extraktion lässt sich die Parallele zum Bergbau gut weiterführen: Ein Häufchen Erde per Hand und Sieb nach Gestein zu durchsuchen und dieses direkt unter die Lupe zu nehmen und zu bewerten, führt zu einem genauen und guten Ergebnis mit geringer Fehlerquote. Auch der Zeitaufwand ist überschaubar bzw. geringer, als hierfür extra mit Spezialwerkzeug oder Maschineneinsatz aufzuwarten. Mit steigender Erdmenge führt an der Verwendung weiterer Hilfsmittel – bis zum Einsatz schwerer Maschinen – jedoch kein Weg mehr vorbei.

Das Bild lässt sich auch auf Terminologiearbeit übertragen: Kleine Textmengen kann man gut manuell auf verwendete Fachtermini durchsuchen, diese extrahieren, bereinigen und direkt mit Zusatzinformationen wie einem passenden Kontextsatz anreichern. Bei großen Textkorpora ist diese manuelle Arbeit allerdings zu aufwändig und trotz terminologischer Genauigkeit auch fehleranfällig, da immer wieder abgeglichen werden müsste, ob ein Terminus bereits erfasst wurde.

Mit steigender Textmenge kommen beim Prozess des Term Minings daher auch Maschinen zum Einsatz, die schnell und umfassend alle eingegebenen Texte auf die darin verwendeten Termini analysieren und mögliche Terminologiekandidaten extrahieren. Je nach eingesetztem Tool sind weitere Informationen zur eingeschätzten Relevanz, zur Vorkommenshäufigkeit und auch die automatisierte Erfassung von Kontextsätzen möglich. Doch genau wie im Bergbau liefern die Maschinen keine sauberen Endergebnisse, sondern Rohdaten bzw. Vorstufen, die es anschließend zu bewerten und bereinigen gilt. Man spricht daher auch von einer teilautomatisierten Extraktion, in der das Ergebnis des automatisierten Schritts manuell nachbearbeitet wird.

Linguistisch vs. statistisch

Bei den „schweren Maschinen“ der softwaregestützten Terminologieextraktion wird zwischen linguistischen und statistischen Methoden unterschieden.

Linguistischen Systemen liegen Wortbildungsregeln und syntaktische Algorithmen einer bestimmten Sprache zugrunde. Sie sind damit immer sprachabhängig. Terminologiekandidaten können von den Systemen auf eine Grundform zurückgeführt (stemming) und die Wortart des Kandidaten erkannt werden (tagging). Das Ergebnis dieser Methode ist eine Liste sprachlich korrekter Wörter, die aber nicht zwingend alle terminologische Relevanz haben. Die Abhängigkeit von sprachspezifischen Regeln führt außerdem dazu, dass es nur für eine begrenzte Anzahl Sprachen linguistische Extraktionssysteme gibt bzw. dass die bekannten Anbieter nur eine Handvoll Sprachen als Ausgangssprache der Extraktion anbieten können.

Statistische Systeme funktionieren hingegen sprachunabhängig, da sie die Wortfrequenz ermitteln, also die Vorkommenshäufigkeit eines Wortes im Textkorpus. Die Sprache, für die dies passiert, spielt dabei keine Rolle, da es um einen reinen Zeichenkettenabgleich geht. In der Regel kann im Tool konfiguriert werden, ab welcher Vorkommenshäufigkeit ein Terminus extrahiert werden soll und aus wie vielen Wörtern er bestehen darf.

Die extrahierten Wörter werden jedoch nicht nach Wortarten klassifiziert. Zusammen mit dem rein statistischen Abgleich führt dies zu einem Extraktionsergebnis, das meist viele allgemeinsprachliche Benennungen und durchaus auch Plural- und Flexionsformen enthält. Abhilfe vor allgemeinsprachlichen Ergebnissen können Stoppwortlisten schaffen, die bestimmte Wörter (z. B. Artikel, Konjunktionen, gängige Verben) im Vorfeld von der Extraktion ausschließen. Das Ergebnis einer statistischen Extraktion muss aber immer sowohl sprachlich als auch terminologisch bereinigt werden.

Eine statistische Extraktion kann einsprachig aus einer Ausgangssprache oder zweisprachig aus bisherigen Übersetzungen erfolgen. Im zweiten Fall wird zu jedem Terminologiekandidaten noch die statistisch relevante Entsprechung in der Zielsprache extrahiert. Dieses Vorgehen liefert durch die fremdsprachlichen Äquivalente sogar das Potenzial, Synonyme in der Ausgangssprache zu erkennen. Wenn beispielsweise „tie“ im Englischen sowohl für „Krawatte“ als auch für „Schlips“ verwendet wird, kann darüber direkt ein deutsches Synonym gefunden werden.

Linguistische Systeme liefern in der Regel qualitativ hochwertigere Ergebnisse, sind aber auch aufwändiger und damit teurer. Außerdem berücksichtigen sie nicht die Häufigkeit der Wörter, die oft wertvolle Rückschlüsse auf die Relevanz von Fachbegriffen zulässt. Statistische Systeme wiederum können schnell eingesetzt werden und decken die Vorkommenshäufigkeit ab, erfordern aber aufgrund des reinen Zeichenkettenabgleichs auch immer sprachliche Nacharbeit. Eine Lösung, die beide Anforderungen erfüllt, ist die hybride Termextraktion als Kombination beider Methoden. Die Hybridsysteme kombinieren Linguistik mit Statistik, indem sie in einem einsprachigen Korpus analysieren, welche Wörter aufgrund ihrer Häufigkeit und ihrer sprachlichen Form geeignete Terminologiekandidaten sind. Sie eignen sich damit allerdings nur für die einsprachige Terminologieextraktion.

Terminologische Relevanz

Das Ergebnis der Hybridsysteme ist also im Idealfall statistisch relevant und sprachlich bereits sauber. Doch beides sagt noch nichts über die terminologische Relevanz aus. Denn Terminologie ist sehr subjektiv: Was für ein Unternehmen ein wichtiger Fachterminus ist, ist für ein anderes Unternehmen komplett irrelevant. Und nur weil ein Wort besonders fachlich klingt, muss es nicht Teil der Corporate Language sein. Ein Beispiel: „Federbalg“ ist für ein Unternehmen im Bereich Drucklufttechnik relevant, für ein Softwareunternehmen aber nicht. „Merge request“ ist wiederum ein Fachterminus aus dem IT-Bereich, den andere Unternehmen nicht in ihrem Terminologiebestand benötigen. Über die Relevanz einzelner Termkandidaten entscheiden also letztendlich die Projektverantwortlichen. Das bedeutet auch, dass immer manuelle Nacharbeit und eine menschliche Entscheidung benötigt werden, um die Ergebnisse einer Extraktion final zu evaluieren und zu validieren.

Zwar ist die Erstellung einer Liste relevanter Termini nur der Anfang von systematischer Terminologiearbeit, aber sie kann einen ersten Meilenstein darstellen, um vom reinen Rohergebnis schrittweise an die wertvollen Terminologiedaten eines Unternehmens zu gelangen.

Sie möchten Terminologie aus Ihrem Datenbestand extrahieren oder vorhandene Terminologie ergänzen und bereinigen lassen? Sprechen Sie uns gern an. terminologie@oneword.de.

Weiterführende Informationen:

Blog: Termextraktion und KI: (wie) geht das gut?

8 gute Gründe für oneword.

Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.

Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.

Gründe ansehen