Inhaltsverzeichnis

Mann nutzt Spracherkennung auf seinem Telefon.

KI-Übersetzungen: Kurze Geschichte, Entwicklungen & Trends

5 min.

In diesem Artikel geht es um die Entwicklung von KI-Übersetzungen, von frühen maschinellen Übersetzungssystemen bis hin zu fortschrittlicheren neuronalen maschinellen Übersetzungsmodellen. Erörtert werden auch die Vorteile, Grenzen, neuesten Entwicklungen und zukünftigen Trends in diesem Bereich, einschließlich der Notwendigkeit menschlicher Aufsicht, um Genauigkeit und kulturelle Sensibilität zu gewährleisten.

Die Kommunikation mit Personen, die fremde Sprachen sprechen, kann eine bereichernde Erfahrung sein. Es kann dazu beitragen, die eigene Sichtweise und das Verständnis in Bezug auf andere Kulturen zu erweitern. Allerdings kann es auch eine Herausforderung darstellen, wenn man die Fremdpsprache, die der Gesprächspartner spricht, nicht kennt und sich aus bestimmten Gründen keinen menschlichen Übersetzer leisten kann, der einem hilft. In solchen Fällen ist es nützlich, ein tragbares KI-Übersetzungsgerät bei sich zu haben, da es dabei hilft, Sprachbarrieren zu einem gewissen Grad zu beseitigen. Um aber ihr volles Potenzial zu erkennen, muss man ihr Konzept, die neuesten Entwicklungen und künftigen Trends verstehen.

 

Kurze Geschichte der KI-Übersetzungen

Die Geschichte der KI-Übersetzung lässt sich in mehreren Stadien nachzeichnen. Das Anfangskonzept der Maschinellen Übersetzung wurde durch den amerikanischen Wissenschaftler und Mathematiker Warren Weaver im Jahr 1949 vorgestellt. Weaver war der Überzeugung, dass es möglich sei, moderne Computer einzusetzen, um menschliche Sprachen zu übersetzen. Seitdem hat sich das maschinelle Übersetzen zu einer der schwierigsten Aufgaben im Zusammenhang mit natürlicher Sprachverarbeitung und künstlicher Intelligenz entwickelt, der sich Forscher verschiedener Generationen widmen. Was die Methodik betrifft, lassen sich die Ansätze des maschinellen Übersetzens in zwei Hauptkategorien einteilen, und zwar der in den regelorientierten und den datengestützten Ansatz.

Die regelorientierten Verfahren waren vor den 2000er-Jahren die bevorzugten. Hierbei helfen zweisprachige Sprachexperten dabei, Regeln für die Analyse der Ausgangssprache, die Umwandlung von der Ausgangs- in die Zielsprache sowie die Erzeugung der Zielsprache zu gestalten. Aufgrund der Subjektivität und der für die Schaffung des Systems erforderliche Arbeitsintensität war die regelbasierte Software schwer zu skalieren und recht fragil, wenn die Regeln nicht unbemerkte Phänomene innerhalb einer Sprache abdeckten. Datengestützte Verfahren hingegen zielen darauf ab, Computern unter Verwendung umfangreicher Datenbanken, die parallele Satzpaare (parallele Corpora) enthalten, welche von zweisprachigen Menschen oder studierten Linguisten übersetzt sind, das Übersetzen beizubringen. Dieser Ansatz der maschinellen Übersetzung hat seit Mitte der 1980er-Jahre drei Perioden durchlaufen. Während der ersten Periode wurde vorgeschlagen, dass diese Systeme Sätze über den Abruf ähnlicher Beispiele aus von Menschen übersetzten und vorbereiteten Satzpaaren übersetzen. Auf diese Periode folgte eine zweite Anfang der 1990er-Jahre, als die statistische maschinelle Übersetzung als Vorschlag und Idee konzipiert wurde. Gemäß dem Konzept dieser Software werden Übersetzungsregel automatisch durch das System mittels einer Kombination von parallelen Corpora- und probabilistischen Modellen erlernt, die Schätzungen darüber verwenden, welche Übersetzung die wahrscheinlichste ist. Dies ermöglichte Nutzern, Sätze bzw. Wörter mit verbesserter Qualität zu übersetzen.

Da es jedoch so komplex war, eine Vielzahl an manuell gestalteten Komponenten (Sprachmodell, Übersetzungsmodell, Neuordnungsmodell) zu integrieren, konnte sich diese Art der KI-Übersetzung nicht vollständig groß angelegte Corpora zunutze machen, was dazu führte, dass die Übersetzungsqualität recht unzufriedenstellend war. Bis zu dem Vorschlag, Tiefes Lernen in maschinelles Übersetzen zu integrieren, erfolgten zehn Jahre lang auf dem Gebiet der KI-Übersetzung keine weiteren Errungenschaften. Nach der Einführung dieser Mechanismen und Methoden hat sich die neuronale maschinelle Übersetzung mittels der Verwendung tiefer neuronaler Netzwerke ziemlich rapide entwickelt. Zum Beispiel zeigten im Jahr 2016 mehrere umfangreiche Experimente, die zu verschiedenen Sprachpaaren durchgeführt wurden, dass Kl-Übersetzungssysteme mit tiefen neuronalen Netzwerken einen bedeutenden Erfolg erzielen, insofern sie sich einer Übersetzungsqualität auf menschlichem Niveau näherten.

So wie sich die Wissenschaft der KI-Übersetzung weiterhin verändert und entwickelt hat, so haben sich auch die Geräte, die die Übersetzungssysteme beinhalten und speichern, weiterentwickelt. Zu Beginn waren die Maschinen mit maschineller Übersetzungssoftware relativ voluminös und schwer zu tragen. Mit den zunehmenden Fortschritten innerhalb dieses Zweigs der Künstlichen Intelligenz und Informatik nahmen auch die Verbesserungen von Geräten zu, die die Übersetzungssoftware speichern. Hierzu gehört das Aufkommen elektronischer Wörterbücher, die dem gleichen Zweck dienen wie ihre gedruckten Pendants, aber von Batterien Gebrauch machen und große, umfangreichere Datenbanken beinhalten, die statistische maschinelle Übersetzung einsetzen. Anfänglich konnten sich derartige Geräte, obgleich bisweilen ungenau, als recht hilfreich erweisen, wenn es darum ging, einen geschriebenen Text wie ein Verkehrsschild oder ein Gespräch mit einem Ausländer zu verstehen. Solche Geräte nutzen Modelle der Spracherkennung, Text-in-Sprache-Umwandlung sowie probabilistische Modelle.

Das Wirkungsprinzip solcher Geräte war im Grunde relativ einfach. Der Nutzer wählte eine Satzkategorie aus und gab dann per Stimme oder mittels Tastatur das Wort oder die Wortgruppe ein, die er übersetzt haben musste. Mittels probabilistischer bzw. statistischer Modelle erzeugte das System dann durch die Umwandlung der Ausganssprache in die Zielsprache eine Übersetzung und zeigte das Ergebnis auf dem Bildschirm an bzw. las es laut vor. Durch die Verwendung statistischer Modelle konnten diese elektronischen Wörterbücher jedoch manchmal unzufriedenstellende oder ungenaue Ergebnisse anzeigen. Darüber hinaus konnten die Modelle beschwerlich in Sachen Transport sein, da sie relativ schwer waren und leicht beschädigt werden konnten. Aufgrund dieser Faktoren und des rapiden Fortschritts in der Verbesserung der Qualität tiefer neuronaler Netzwerke wurden elektronische Wörterbücher irrelevant und nicht mehr zeitgemäß.

Während die ersten Prototypen relativ ungenaue Übersetzungen ausgaben und die Speichergeräte recht sperrig waren, sind die aktuellen Modelle ziemlich kompakt und hoch entwickelt. Zum Beispiel kann man sie mitnehmen, da sie als tragbares Tablet im handyähnlichen Taschenformat erhältlich sind. Dies ermöglicht beispielsweise, dass man den Übersetzer mit auf Reisen nehmen und in einer Handtasche bzw. eventuell auch in einer Hosentasche tragen kann.

 

Neuste Entwicklungen der KI-Übersetzung

Die Entwicklung und Verbesserung der KI-Übersetzungstechnologie insbesondere in Bezug auf die Ergebnisgenauigkeit halten weiter an. So wurden zahlreiche Experimente und Forschungsprojekte von Hochschulen und verschiedenen Unternehmen durchgeführt, um Mittel zu finden, den Präzisionsgrad der Software zu steigern. Dazu gehört etwa, dass solche Systeme imstande sind, in morphologisch reiche Sprachen zu übersetzen. Zuvor wurde dies vorbehandelt entweder durch Vorverarbeitung der Worte in Unterworteinheiten oder dadurch, dass die Übersetzung auf Zeichenebene erfolgte. Ersteres basierte auf Wortsegmentierungsalgorithmen, welche über die Anwendung von corpusbezogener Statistik ohne Rücksicht auf die Übersetzungsaufgabe optimiert waren. Im letzteren Fall hingegen lernt die Machine direkt von den Übersetzungsdaten, benötigt aber für seine Effektivität eine Tiefenarchitektur. Die zeitgenössischste und äußerst vielversprechende Verbesserung hinsichtlich dieses Aspekts besteht darin, die Wörter über Modellierung der Wortbildung übersetzen zu lassen. Zu diesem Zweck werden die Wörter durch ein hierarchisches, latentes, variables Modell eingegeben. Dieses Modell imitiert den morphologischen Flexionsprozess innerhalb der natürlichen Sprachen. In der Folge werden Wörter Zeichen für Zeichen durch die Zusammensetzung zweier latenter Repräsentationen erzeugt. Die eine Repräsentation ist die kontinuierliche, die darauf abzielt, die lexikalische Semantik sowie unterschiedliche annähernd diskrete Eigenschaften zu erlangen. Diese Eigenschaften verfolgen den Zweck, die morphosyntaktische Funktion zwischen zwei oder mehreren Oberflächenformen zu finden. Dadurch erreicht das Modell erhöhte Genauigkeit bei der Übersetzung eines Ausgangstextes in drei morphologisch reiche Sprachen und demonstriert ein verbessertes Verallgemeinerungsvermögen in Bezug auf Niedrig- bis Mittel-Ressourcensettings.

Neben dem vorgenannten Projekt der Erhöhung der Übersetzungsqualität des ausgegebenen Textes einschließlich der Berücksichtigung des Kontextes ist ein weiterer wichtiger Aspekt die Diversifikation von Daten. Hierbei handelt es sich um eine einfache Taktik zur Steigerung der Leistung maschineller Übersetzung durch Diversifizierung der Trainingsdaten. Zu diesem Zweck macht und nutzt das System Prognosen von mehreren Vorwärts- und Rückwärtsmodellen, die dann mit dem originalen Datensatz zusammengelegt werden, auf dessen Basis das endgültige neuronale maschinelle Übersetzungsmodell trainiert wird. Auf der Grundlage der Ergebnisse des Experiments lässt sich diese Methode auf sämtliche Modelle der maschinellen Übersetzung anwenden und bedarf zusätzlicher einzelsprachlicher Daten wie jener aus der Verwendung von Rückübersetzung oder der Verwendung zusätzlicher Berechnungen/Parameter wie Modell-Ensembles. Während der Durchführung der Forschung erreichte das Verfahren einen BLEU-Score von 30,7 und 43,7 bei der Ausführung der WMT’14 Englisch-Französisch und English-Deutsch. Ebenso zeigte es bei der Ausführung anderer Aufgaben (vier IWSLT-Aufgaben mit den gleichen Kombinationen wie bei den WMT’14 und den Niedrig-Ressourcen-Aufgaben: Englisch-Nepali und Englisch-Singhalesisch) eine substanzielle Verbesserung in der Qualität der Textergebnisse. Solche Ergebnisse zeigen, dass der Ansatz effizienter ist als jene der Wissensdestillation und des dualen Lernens.

Ein drittes interessantes Forschungsprojekt, das einen großen Beitrag zur Verbesserung neuronaler Übersetzungssysteme leisten kann, ist die Erforschung eines neuen Rahmens für unkontrollierte maschinelle Übersetzung unter Verwendung einer Referenzsprachbasis. In diesem Rahmen teilt die Referenzsprache das parallele Corpus nur mit der Ausgangssprache und zeigt auf diese Weise ein hinreichend deutliches Signal an, das wiederum beim Rekonstruktionstraining der maschinellen Übersetzungssoftware über einen Referenzvereinbarungsmechanismus behilflich ist. Die Ergebnisse der durchgeführten Experimente zeigen, dass die Methode die Qualität des ausgegebenen Textes, der durch das unbeaufsichtigte neuronale maschinelle Übersetzungssystem erzeugt wird, im Vergleich zu einer leistungsfähigen Basis mit nur einer Hilfssprache verbessert.

 

Zukunftstrends für KI-Übersetzungen

Die neuronale maschinelle Übersetzung ist eine relativ junge und sich schnell entwickelnde Wissenschaft sowie ein Aspekt der Künstlichen Intelligenz, Informatik und Sprachverarbeitung. Aufgrund der Geschwindigkeit ihrer Entwicklung und dem hohen Interesse seitens der Wissenschaft und Wirtschaft gibt es einige Zukunftstrends, die es sich in diesem Bereich zu beobachten, erkunden und erlernen lohnt.

 

Verbesserung der Effizienz des Systems

Hierzu gehört zum Beispiel die Untersuchung und Entdeckung neuer Möglichkeiten zur Verbesserung der Effizienz der neuronalen maschinellen Inferenz, um hohe Genauigkeit zu erreichen. Eine derartige Verbesserung kann dazu beitragen, die Verschlechterung der Leistung durch nicht-automatische aggressive neuronale maschinelle Übersetzungssysteme zu verhindern. Mögliche Bereiche, in denen weitere Verbesserung möglich ist, sind die Wortanordnung des Dekoder-Inputs und andere. In diesem Zusammenhang lohnt sich für viele Wissenschaftler die nähere Untersuchung des Potenzials des synchronen, bidirektionalen Dekodierens. Darüber hinaus haben einige Forscher-Teams damit begonnen, Dekodieralgorithmen zu entwickeln, die eine freie Ordnung des Informationsinputs verwenden; die Experimente zeigen vielversprechende Ergebnisse in Bezug auf das Studium der Natur der Erzeugung menschlicher Sprache.

 

Verbesserung des Niedrig-Ressourcen-Ergebnistexts bzw. der Sprachqualität

Ein weiterer Zukunftstrend, der voraussichtlich seine Entwicklung als Streitpunkt fortsetzen wird, ist die Niedrig-Ressourcen-Übersetzung. Einer der Gründe, weshalb dieses Thema gute Chancen hat, sich für viele Jahre in der Wissenschaft und Wirtschaft als interessanter Aspekt zu halten, ist, dass es vielen der natürlichen, menschlichen Sprachen an großen Mengen von annotierten zweisprachigen Daten mangelt. In diesem Kontext besteht ein großes Interesse daran, ein mehrsprachiges neuronales maschinelles Übersetzungsgerät zu entwickeln, wobei viele Fragen zu einer solchen Maschine offen und unerforscht bleiben. Dazu gehört etwa das Ungleichgewichtsproblem, das solche Systeme oft erzeugen. Ein weiteres Beispiel ist die Entwicklung eines guten, zusätzlichen Modells für neu eingehende Sprachen.

 

Vereinfachung der Entwicklung semi-kontrollierter maschineller Übersetzungssysteme

Semi-kontrollierte maschinelle Übersetzungssysteme sind ein häufig diskutiertes Thema, insofern sie zwar äußerst praktisch sind, wenn es um reale Anwendungen geht, jedoch ist die Entwiclung des Rückübersetzungsalgorithmus, der mitunter den Kern solcher Systeme ausmacht, tendenziell sehr zeitaufwendig. Wegen der Zeitmenge, die der Algorithmus in seiner gegenwärtigen Form benötigt, erforschen viele Teams zurzeit Alternativen bei der Enticklung eines Designs, das den Aufbau eines effizienten semi-kontrollierten neuronalen maschinellen Übersetzungsmodells ermöglicht, aber dabei leicht zu bedienen ist. Überdies hat die tiefe Integration der Vorbereitungsmethode in die neuronale maschinelle Übersetzung das Potenzial, sowohl die unkontrollierten als auch semi-kontrollierte Rahmenwerke zu verbessern.

 

Weitere Forschung zur Verwendung verschiedener Modalitäten

Innerhalb der multimodalen neuronalen maschinellen Übersetzung besteht das Problem, wie und wann man uneingeschränkten Gebrauch von verschiedenen Modalitäten macht. Zum Beispiel ist die Bild-Text-Übersetzung ausschließlich für Bildunterschriften anwendbar. Auch kann der End-to-End-Rahmen in vielen Situationen der Spracherkennung nicht mit dem kaskadierten Ansatz mithalten, insbesondere wenn die Trainingsdaten mehr als ein wenig begrenzt sind.

 

Beseitigung von Problemen simultaner Übersetzung

Wenn es um Simultanübersetzung geht, gibt es immer noch zahlreiche Schwierigkeiten, um die sich gekümmert werden muss, darunter die unerforschten Probleme der Wiederholung und des Korrigierens beim Sprechen sowie das Kombinieren von Übersetzung und Zusammenfassung, welches das Potenzial hat, Zuhörern beim Erlernen wesentlicher Details beim Sprechen eines Sprechers bei niedriger Latenzzeit zu helfen.

 

Das Integrieren von Hintergrundinformationen wie Geschichte & Umwelt

Ziemlich oft geht es bei maschineller Übersetzung nicht nur darum, Text/Sprechakte oder Bilder zu übersetzen. Sie hat zudem eine starke Beziehung zu Kultur, Geschichte und Umwelt – wichtige Informationen, für die ein neuartiges Modell der neuronalen maschinellen Übersetzung entwickelt werden muss, damit es in der Lage ist, Übersetzungen zu erzeugen, die mit dem Hintergrund übereinstimmen.

 

KI-Übersetzungen – Mittel zur Verbesserung der Kommunikation

Die Entwicklung von Geräten, die KI-Übersetzungen nutzen, begann im Jahr 1949, als der amerikanische Mathematiker Warren Weaver die Idee einbrachte, Maschinen zu nutzen, um die Sprachbarriere zu beseitigen, insofern sie darauf trainiert waren, von einer Sprache in die andere zu übersetzen. Dies hat im Laufe von drei separaten Perioden zur Entwicklung eines neuen Teilbereichs innerhalb der Künstlichen Intelligenz, Informatik und Sprachverarbeitung geführt, wobei die dritte Periode noch im Gange ist. Über die Zeit hinweg hat sich die Technologie zur Herstellung solcher Übersetzungsgeräte weiterentwickelt und den Grad der Feinheit und Genauigkeit der ausgegebenen Texte bzw. Sprache verbessert, was die Geräte zu einem geeigneten Mittel macht, um die Sprachbarriere in vielen Situationen wie während eines Geschäftsmeetings zu reduzieren. Zu den neuesten Entwicklungen gehören Projekte zur Entwicklung neuer Methoden wie Datendiversion, die weitere Verfeinerung des Leistungsniveaus bei der Übersetzung durch die Einbindung von Kontext sowie Experimente bei der Suche nach einem Mittel zur Verbesserung der Ergebnisse, wenn die Zielsprache morphologisch reich ist. Darüber hinaus gibt es zahlreiche Zukunftstrends, die in den Folgejahren voraussichtlich entwickelt bzw. erkundet werden. Beispiele solcher Trends sind die Verfeinerung der neuronalen maschinellen Übersetzungsinferenz, Domänenanpassung sowie die Integration von Vorwissen wie zweisprachiges Lexikon und/oder Geschichte.

16.11.2020

Entdecke weitere spannende Beiträge

Hochvalyrisch & Dothraki für Anfänger

7 inspirierende Neujahrsvorsätze für ein erfülltes Jahr

Die 10 schönsten Urlaubsorte Italiens

Telefonhörer und Brief.
Damit wir auf unserer Webseite verschiedene Funktionen anbieten, die Aktivitäten auf unserer Webseite besser auswerten und Ihnen immer passende Angebote präsentieren können, setzen wir Cookies ein. Entscheiden Sie in der Folge selbst, welche Cookies Sie zulassen möchten. Sobald Sie den jeweiligen Regler auf blau schieben und unten „Einstellungen speichern“ klicken, ist der dazugehörige Cookie aktiviert und Sie haben zugestimmt, dass dieser Cookie gesetzt werden darf. Sie können dies auf dieser Seite jederzeit wieder rückgängig machen.