Inhaltsverzeichnis

Vier Bücher, eine Feder und ein Blatt.

Manuskripte & Dokumente übersetzen mit KI – So geht’s

7 min.

Kann KI alte Manuskripte und Dokumente übersetzen? Erkunde mit uns die Herausforderungen beim Übersetzen und Verstehen alter Manuskripte und Dokumente mit Künstlicher Intelligenz. Anhand spannender Beispiele zeigen wir Dir die bahnbrechenden Möglichkeiten und die Grenzen.

Künstliche Intelligenz ist der Menschheit zweifellos dabei behilflich, in viele Bereiche vorzustoßen, in denen menschliche Mühen und das Treffen komplexer Entscheidungen auf der Grundlage von Daten einfach nicht ausreicht. Ein Beispiel hierfür ist die Rolle von KI bei der Übersetzung und beim Verständnis von historischen Dokumenten und handschriftlichen Manuskripten. In den letzten Jahren hat es zahlreiche Fälle gegeben, bei denen sich Forscher auf Tiefes Lernen verlassen haben, um alte Texte zu entschlüsseln, die für Experten jahrzehntelang ein Rätsel gewesen waren. Außerdem ist die fortschreitende Entwicklung derartiger Technologien aufgrund der dramatisch zunehmenden Genauigkeit von Deep-Learning-Tools im Begriff, einen Wendepunkt in der Paläographie zu erreichen.

 

Entdecke mit uns, wie KI Anwendung findet, um alte Manuskripte entschlüsseln und Dokumente übersetzen zu können. Darüber hinaus zeigen wir Dir wir einige aktuelle Beispiele der erfolgreichen Übersetzung antiker Artefakte mithilfe von Texterkennungstechnologien.

 

Das Mysterium alter Sprachen

Es gibt heute weltweit mehr als 7.000 Sprachen. Sprachen gehören zu den wichtigsten Aspekten in unserem Leben, wären wir doch ohne sie nicht in der Lage, unseren Gefühle, Wünschen und Fragen zu der Welt, die uns umgibt, Ausdruck zu verleihen. Gleichwohl haben viele Menschen keine Ahnung, woher ihre Muttersprache stammt. Gesprochen von vielen verschiedenen Gemeinschaften, sind die meisten dieser Sprachen Ableger lang vergessener althergebrachter Sprachen. So leiten sich die meisten romanischen Sprachen wie Französisch, Italienisch, Spanisch oder Rumänisch vom Lateinischen ab. Allerdings wissen die meisten Menschen heute nicht einmal, wie Lateinisch früher klang bzw. aussah. Andererseits werden alte Sprachen wegen ihres Mysteriums und ihres historischen Wertes für Andere immer faszinierend bleiben. Zahlreiche Wissenschaflter widmen ihr Leben dem Studium von Sprachen in der Hoffnung, die gut behüteten Geheimnisse hinter den merkwürdigen keilförmigen Symbolen und Glyphen zu lüften.

Heute finden wir die meisten alten Sprachen in alten Manuskripten, Dokumenten, Büchern oder als auf den Wänden alter Gebäude eingravierte Malereien vor. Bei diesen Arten historischer Schriften handelt es sich insbesondere um solche der klassischen Antike, die auf das 8. bis 6. Jahrhundert vor unserer Zeitrechnung datiert sind. Zu den nennenswertesten Vertretern dieser Ära zählen Sprachen wie Sanskrit, Tamilisch, Altgriechisch, Hebräisch, Arabisch und natürlich Lateinisch. Obgleich viele Linguisten behaupten, dass es kein objektives Kriterium gebe, um zu urteilen, welche dieser Sprachen irgendeine der anderen überlegen ist, kann man sagen, dass sie alle ein reiches Vokabular und eine komplexe Grammatik aufweisen. Zum Beispiel hatten die meisten von ihnen drei Geschlechter: Maskulinum, Femininum und Neutrum, während andere sechs Deklinationsfälle hatten. Diese Merkmale wurden von vielen Forschern im Laufe der Zeit untersucht, derart, dass die meisten der obengenannten Sprachen keine Herausforderung mehr für Epigraphen darstellen. Gleichwohl haben Archäologen über die Jahre hinweg zahlreiche Artefakte entdeckt, bei denen unterschiedliche Schreibsysteme Verwendung fanden, von denen einige bis heute unverschlüsselt sind. Leider wären selbst die fortgeschrittensten maschinellen Lernsysteme nicht imstande, bei der Dekodierung dieser Schriften behilflich zu sein, und zwar wegen des Mangels an bekannten Sprachabkömmlingen, unzureichenden Beispielen von entdeckten Texts oder the bloßen Art der auf den Objekten vorgefundenen Zeichen, da sie möglicherweise nicht mal Teil eines Schreibsystems sind. Vor diesem Hintergrund mögen sich einige fragen, ob Künstliche Intelligenz überhaupt einen Zweck hat, wenn es darum geht, Menschen dabei zu helfen, alte Manuskripte und historische Schriften zu verstehen bzw. alte Dokumente übersetzen zu können. .

Um diese Frage zu beantworten, werden wir uns im Einzelnen anschauen, wie genau maschinelles Lernen von Forschern genutzt wird, um unterschiedliche Bedeutungen festzustellen, die sich hinter den geschriebenen und auf Artifakten eingravierten Wörtern und Symbolen verbergen. Unten werden die aktuellsten Ansätze und Techniken zur Entschlüsselung alter Manuskripte mithilfe neuronaler Netzwerke besprochen.

 

Das Entschlüsseln alter Manuskripte mithilfe von KI

Viele Jahre lang haben Experten alte Sprachen untersucht mit der Absicht, wertvolle historische Dokumente zu entschlüsseln, deren Inhalt in irdendeiner Form zum Wissen der Gesellschaft beitragen würde. Zwar waren Forscher in der Tat erfolgreich darin, subtile Muster wie die der ägyptischen Hieroglyphen oder die Maya-Inskriptionen zu verstehen, doch es gibt immer noch zahlreiche verloren gegangene Sprachen, die Epigraphen Schwierigkeiten bereiten. Glücklicherweise haben heutige Historiker dank der Weiterentwicklung moderner Technologien ein weiteres mächtiges Instrument zu ihrer Verfügung, nämlich die Künstliche Intelligenz. Die Verwendung eines bestimmten Algorithmus bedeutet jedoch nicht unbedingt, dass man großartige Ergebnisse bei der Enträtselung der verborgenen Bedeutungen alter Symbole erzielt. Denn manche Sprachen wurden vollständig isoliert, weshalb keine früheren Daten für sie aufgezeichnet wurden. Auch wenn Technologien in der Tat einen Beitrag zur Arbeit von Historikern leisten können, so müssen Letztere daher manchmal auch Maschinen in deren Versuch unterstützen, ihnen mehr über eine bestimmte Sprache beizubringen.

Da maschinelles Lernen für alle Arten von Training zugänglich ist, ist es in der Lage zu lernen, alte Sprachen durch die Verwendung von Algorithmen zu dekodieren. Letztere werden in der Regel an riesigen Datenbeständen geschult, beispielsweise 1,5 Millionen Zeichen oder Bilder, die sie einscannen, um über Assoziationen zu lernen. Damit aber eine solche Technologie effizient sein kann, müssen ihre Sollwerte einer Sprache entsprechen, die bereits zuvor von Forschern entschlüsselt wurde. Hierfür haben Forscher zusätzliche Lernverfahren einbezogen, indem sie ihre Algorithmen darauf trainieren, eine Sprache zu verwenden, die einen gemeinsamen Ursprung hat wie diejenige, die in dem betreffenden zu übersetzenden historischen Dokument gebraucht wird. Auf diese Weise kann die KI Wörter in der bekannten Sprache finden, die sowohl hinsichtlich der verwendeten Zeichen als auch ihrer Bedeutung in einem weiteren Kontext Ähnlichkeiten mit Wörtern aus der entschlüsselten Sprache aufweist. Zudem haben sich andere Wissenschaftler auf maschinelle Lernsysteme gestüzt wie kapselartige Netze, die zur besseren Modellierung von hierarchischen Beziehungen verwendet werden, oder sogenannte Convolutional Neural Networks, die überwiegend zur Bilderkennung Verwendung finden. Obwohl diese und ähnliche Systeme bei der Textübersetzung nicht immer 100%ige Ergebnisse zeigen, so reduzieren sie doch deutlich stärker die Fehlerrate der Gesamtübersetzung als dies bei den fachmännischen manuellen Übersetzungen der Fall ist.

Die Verwendung von maschinellem Lernen zur Entschlüsselung von alten Artefakten ist wahrlich ein vielversprechener Schritt vorwärts, aber es gibt immer noch viele Grundvoraussetzungen wie enzyklopädisches Domänenwissen, parallele Daten oder die bloße Digitalisierung von alten Dokmenten zu erfüllen, bevor eine solche Technologie eigenständig funktionieren kann und automatisch alte Symbole und Buchstaben transkribiert. Auch wenn das Entschlüsseln aller möglichen Arten von verloren gegangenen Sprachen dem ein oder anderen unrealistisch erscheinen mag, ist es tatsächlich durchaus möglich, wenn sich die Technologie mit dem aktuellen schnellen Tempo weiterentwickelt. Um die gegenwärtigen Errungenschaften von Forschern besser zu demonstrieren, die Künstliche Intelligenz zur Entschlüsselung alter Manuskripte verwendet haben, werden wir unten mehrere Beispiele aus den vergangenen Jahren anführen.

 

Alte Dokumente übersetzen mit Künstlicher Intelligenz

Auch wenn es zahlreiche große antike Rätsel gibt, die wahrscheinlich noch für weitere Jahre ungelöst bleiben, versuchen immer mehr Forscher begeistert, dies mit ihren High-Tech-Tools und modernen Technologien zu ändern. Diese Vorgehensweise wurde bereits von vielen Wissenschaftlern umgesetzt und hat sogar großartige Ergebnisse erzielt, die mehr als je zuvor über die verschiedenen Aspekte der menschlichen Geschichte enthüllt haben. Nachstehend seien fünf interessante Entdeckungen aufgeführt, die mithilfe von KI-Technologien erreicht wurden.

 

  • Die Schriftstücke des persischen Achämenidenreichs

Im Jahr 1933 unternahmen Archäologen des Oriental Institute der University of Chicago eine Expedition zu der antiken Stadt Persepolis, dessen Ruinen sich im Iran befinden. Dort fanden sie in zwei kleinen Zimmern in der Festungsmauer der großen Steinterrasse eine große Anzahl von Lehmtafeln, die Keilschrift beinhalteten. Hierbei handelt es sich um die frühesten Schriftsysteme, die von den Sumerern in Mesopotamien verwendet wurden. Die Schriften auf den 2.087 Tafeln zeichneten auf, was Forscher als die “Schriftstücke” des persischen Archämenidenreichs bezeichnen, welche vor 25 Jahrhunderten entstanden. Viele Jahre lang haben Wissenschaftler beharrlich versucht, die alten Dokumente zu entschlüsseln, indem sie behutsam die keilförmigen Beschriftungen auf ihrer Oberfläche untersuchten und übersetzten. Doch dieser Prozess war sehr schwierig, zeitaufwendig und fehleranfällig, da er überwiegend von Hand erfolgte, ohne Verwendung moderner Technologien. Selbst noch in den 1990er-Jahren, als Wissenschaftler versuchten, Computer in den Entschlüsselungsprozess einzubinden, war ihr Erfolg aufgrund des dreidimensionalen Charakters des Dokuments und der Komplexität der Elamischen Sprache begrenzt. Neuerdings ist ein technologischer Durchbruch jedoch im Begriff, dieses Rätsel mittels maschinellem Lernen und Künstlicher Intelligenz zu lüften. Der Durchbruch ergab sich infolge der Zusammenarbeit zwischen Forschern vom Oriental Institute und der Fakultät für Informatik der University of Chicago, die an einem KI-Modell gearbeitet hatten, das in der Lage sein sollte, den restlichen Teil der nicht analysierten Tafeln in der Sammlung zu “lesen”. Das noch zu erstellende Modell wird mithilfe eines Trainingssatzes von mehr als 6.000 annotierten Bildern aus dem Persepolis Fortification Archive entwickelt. Mithilfe dieser Technologie wären Forscher schließlich imstande, ein Wörterbuch der Elamischen Sprache zu erstellen, jener Sprache, die auf den Lehrmtafeln gebraucht wird und sich auch bei der Entschlüsselung anderer alter Dokumente anwenden lässt.

 

  • Die 1700 Jahre alte En-Gedi-Schriftrolle

Leider sind nicht alle Artefakte, die von Archäologen gefunden werden, in einem guten Zustand. Infolge von Jahrhunderten der Naturgewalten wie Erdbeben, Überschwemmungen, Vulkanausbrüchen etc. haben viele alte Dokumente sich soweit verschlechtert, dass eine gelungene Untersuchung nicht mehr möglich ist. Dies ist auch der Fall bei der 1700 Jahre alten En-Gedi-Schriftrolle, die Forscher dank moderner Technologien und Künstlicher Intelligenz aufdecken konnten. Das Dokument ist eine der ältesten Ausschnitte des Alten Testaments, die jemals entdeckt wurden. Entdeckt im Jahr 1970 in Ein Gedi, Israel, wurde das Pergament auf das dritte oder vierte Jahrundert vor unserer Zeitrechnung datiert; es enthält einen Teil des Buches Levitikus, dem dritten Buch des Alten Testaments. Aufgrund seines fragilen Zustands, verursacht durch ein Feuer in einer jüdischen Synagoge, war es für Forscher unmöglich, die Schriftrolle zu untersuchen, da sie sich auflöste, sobald sie berührt wurde. Vor einigen Jahren jedoch wurde der Inhalt des feinen Artefakts schließlich dank eines Informatikerteams der University of Kentucky geknackt. Was sie zur Entschlüsselung des Textes nutzten, ohne die Schriftrolle physisch zu entrollen, war sie sogenannte Technologie des “virtuellen Aufwickelns”. Hierbei handelt es sich um eine nicht-invasive Methode, bei der eine Kombination von Scans und bildverarbeitenden Algorithmen zum Einsatz kommt, um zu visualisieren, was sich zwischen den Schichten der Schriftrolle befand. Sobald das Team eine Reihe von Bildern sammeln konnte, wurden sie in einen Algorithmus eingespeist, der in der Lage war, die Schriftrolle zu rekonstruieren, indem bestimmt wurde, wo die eine Schicht endete und die andere begann. Die digitale Wiederherstellung des Dokuments enthüllte des Weiteren, dass die En-Gedi-Schriftrolle in Hebräisch geschrieben war und 18 vollständige sowie 17 unvollständige Zeilen der ersten beiden Kapitel des Buches Levitikus beinhaltete.

 

  • In Codice Ratio

Viele haben sich schon immer gefragt, welche Schätze hinter den verschlossenen Türen des Vatikanischen Geheimarchivs liegen. 86 Regalkilometer mit 35000 Bänden von Katalogen, Staatspapieren, Korrespondenz und vielen anderen Büchern und Dokumenten sind genug, dass es jedem Forscher die Sprache verschlägt, sobald er oder sie das Archiv betritt. Obwohl der Papst die im Archiv gehaltenen Materialien besitzt, dürfen auch Forscher unter bestimmten Voraussetzungen das Archiv betreten. Sie dürfen lediglich drei Dokumente am Tag anfordern, statt frei die Inhalte im Archiv durchstöbern. Solche Einschränkungen können den Prozess des Entschlüsselns der massiven Sammlung von Dokumenten zu wissenschaftlichen Zwecken stark verlangsamen, weshalb ein Forscherteam aus den Archiven und der Roma Tre University ein Projekt entwickelten, das diese Schwierigkeit in Angriff nehmen und zur Lösung eines jahrhundertealten Problems beitragen konnte. In Codice Ratio, der Name des Projekts, konzentriert sich auf die Verwendung von KI zur automatischen Transkription von historischen menschlichen Handschriften. Das Ziel des Systems besteht darin, neue Methoden und Techniken zur Inhaltsanalyse und zur Wissensentdeckung aus jeder Art von historischen Dokumenten zu entwickeln. Zu diesem Zweck machte sich das Forschungsprojekt modernste Technologien wie dem Deep Convolutional Neuronal Network, statistischen Sprachmodellen sowie der feinkörnigen Segemtierung zunutze. Nachdem die Technologie getestet wurde, waren Forscher in der Lage, 65% der genauen Transkription der Wortbilder zu extrahieren. Obwohl dieser Prozentsatz noch lange nicht perfekt ist, sind die Forscher der Meinung, dass die Endergebnisse genau genug sind, um Paläographen ein Instrument zur Verfügung zu stellen, das deutlich die Zeit und Mühen reduziert, die sie benötigen, um historische Dokumente, insbesondere große Mengen davon, zu transkribieren.

 

  • Mittelalterliche Malereien auf den Wänden der Sophienkathedrale in Kiew

Die Sophienkathedrale ist eine der historisch bedeutendsten Plätze in Ukraines Hauptstadt Kiew. Mit ihren asymmetrischen grünen Kuppeln mit goldgedeckelten Turmspitzen, ist das Gotteshaus aus dem 11. Jahrhundert mit rund 300 mittelalterlichen Wandmalereien versehen, die in die Steinwände der Kathedrale eingeritzt sind. Jahrelang haben Experten je nach persönlicher Interpretation der Forscher diesen Malerien unterschiedliche Bedeutungen zugeschrieben, was wiederum viele Debatten darüber ausgelöst hat, welche von ihnen am genauesten die Bedeutungen der eingravierten Texte repräsentierten. Eines war sicher: Aus historischer Sicht waren die handschriftlichen Malereien und Bilder auf der Oberfläche der Kathedrale eine äußerst leistungsstarke Quelle historischer Informationen. Dies ist auch das Hauptmotiv hinter der Erstellung des maschinellen Lernmodells, das in der Lage war, die mittlelalterlichen Wandmalereien zu entschlüsseln. Das Modell wurde von Forschern der Staatlichen Technischen Universität der Ukraine und der School of Information Science and Technology der Huizhou University entwickelt, die Künstliche Intelligenz zur automatischen Erkennung der Buchstaben anwendete. Die Technologie, die verwendet wurde, heißt Capsule Deep Learning Neural Network. Sie nutzte einen Datensatz von mehr als 4000 Bildern von 34 Glyphen aus dem glagolitischem und kyrillischem Alphabet, welche für die Wandmalereien Verwendung gefunden hatten. Diese Technologie hat unter Beweis gestellt, Ergebnisse mit niedrigen Fehlerraten selbst bei komplexer handschriftlicher Wandmalerei zu liefern. Überdies ermöglicht dieser Ansatz Wissenschaftlern, Voraussagen mit deutlich besserer Genauigkeit zu treffen als die fürheren Technologien, die zur Entschlüsselung von Symbolen eingesetzt wurden. Die Endergebnisse legen nahe, dass die Wandmalerei die Gedanken der Einheimischen damals widerspiegelte. Zum Beispiel beschrieb ein Teil des Textes die Hoffnungen einer jungen Frau, einen männlichen Verehrer anzuziehen. Eine weitere Gravur, die auch als die einzigartigste der auf den Wänden der Sophienkathedrale übrig gebliebenen Gravuren gilt, ist eine Ankündigung des Todes von Jaroslaw dem Weisen, Bruder des Großfürsten Volodymyr. Letztere waren Kiews Großfürsten, die die Kathedrale erbauten.

 

Kann KI eigenständig verloren gegangene Sprachen entschlüsseln?

Künstliche Intelligenz kann Wissenschaftlern durchaus das Entschlüsseln alter Manuskripte und Dokumente, die in alten Sprachen verfasst sind, erleichtern. Wie die obigen Beispiele zeigen, wurden viele Fortschritte in der Paläographie dank der Einbindung moderner Technologie und insbesondere neuronaler Netzwerke gemacht, die genauere Bedeutungen der auf historischen Artefakten eingravierten Symbole entdecken können. Gleichwohl setzen diese modernen Methoden, wie erwähnt, voraus, dass Maschinen zunächst unterrichtet werden, bevor sie irgendeinen Text untersuchen können. Daher ist der traditionelle Weg des menschlichen Erforschens des Kontextes eines alten Dokuments auf der Basis ihrer Kenntnisse antiker Sprachen immer noch notwendig. Ungeachtet des umfangreichen Datensatzes von Millionen von Symbolen, Buchstaben oder Wörtern, die einem Algorithmus eingespeist werden können, kann eine verloren gegangene Sprache nicht durch maschinelles Lernen entschlüsselt werden, sofern nicht Forscher zuvor diesen Ressourcen Bedeutungen zugeschrieben haben.

16.11.2020

Entdecke weitere spannende Beiträge

Hochvalyrisch & Dothraki für Anfänger

7 inspirierende Neujahrsvorsätze für ein erfülltes Jahr

Die 10 schönsten Urlaubsorte Italiens

Telefonhörer und Brief.
Damit wir auf unserer Webseite verschiedene Funktionen anbieten, die Aktivitäten auf unserer Webseite besser auswerten und Ihnen immer passende Angebote präsentieren können, setzen wir Cookies ein. Entscheiden Sie in der Folge selbst, welche Cookies Sie zulassen möchten. Sobald Sie den jeweiligen Regler auf blau schieben und unten „Einstellungen speichern“ klicken, ist der dazugehörige Cookie aktiviert und Sie haben zugestimmt, dass dieser Cookie gesetzt werden darf. Sie können dies auf dieser Seite jederzeit wieder rückgängig machen.