Abstract (deu)
Die Wichtigkeit satz-alignierter bilingualer Korpora, auch paralle Korpora
genannt, als Trainingsdaten für maschinelle Übersetzungsysteme und für eine
Vielzahl anderer Sprachtechnologieanwendungen ist in den letzten Jahren im-
mer deutlicher geworden. Sogar noch mehr gefragt sind Korpora, die eine bes-
timmte Domäne abdecken und somit noch zielgerichteter für das Training
von Deep Learning, statistischen oder beispielbasierten Systemen sind. Das
Ziel dieser Doktorarbeit ist es, die Realisierbarkeit der automatisierten Erstel-
lung von parallelen Daten aus Wikipedia zu untersuchen. Insbesondere wer-
den Sprachpaare untersucht, die in Hinblick auf Oberflächenstruktur und
andere Aspekte sehr unterschiedlich sind. Genauer gesagt, wie kann domä-
nenspezifischer Text aus Wikipedia effizient gesammelt werden, wie können
diese Daten auf Satzebene aligniert werden und wie können diese Satzpaare
evaluiert werden, um die bestmöglichen Übersetzungskandidaten zu bekom-
men.
Die Forschungsfragen sind: Wie viel des Wikipedia-Inhaltes kann verwen-
det werden, um bilinguale Korpora für ein bestimmtes Sprachpaar zu bauen
und wie können diese Texte effizient aligniert werden; all das mit minimalem
menschlichem Input.
Für die Beantwortung dieser Frage wurden zwei Sprachen gewählt, die
repräsentativ für die Fragestellung sind, nämlich Englisch und Japanisch. Der
Ablauf, die Algorithmen, die Softwaremodule und das daraus resultierende
Korpus sind als Proof of Concept zu verstehen und können an andere Domä-
nen und Sprachpaare angepasst werden.
Diese Arbeit schlägt eine Methode für themenspezifisches Datensammeln
aus Wikipedia, eine Alignierungsmethode und eine Qualitätsmetrik vor. Die
Algorithmen der in dem Zusammenhang entstandenen Software sind sowohl
generisch beschrieben, wie auch in Python implementiert. Das Ergebnis einer
Iteration der Software, 66,000 Satzpaare, ist der erste experimentelle Daten-
satz. Dieser Datensatz wird von Experten evaluiert, um die Ergiebigkeit, Um-
setzbarkeit und Effizienz dieser Methode zu untersuchen.