You are here: University of Vienna PHAIDRA Detail o:1390868
Title (eng)
Neural machine translation - how machines learn to translate patent language
an overview, evaluation and tutorial
Parallel title (deu)
Neuronale maschinelle Übersetzung - wie Maschinen lernen Patentsprache zu übersetzen : ein Überblick, eine Evaluation und ein Leitfaden
Author
Christian Lang
Adviser
Werner Winiwarter
Assessor
Werner Winiwarter
Abstract (deu)
Diese Arbeit soll einen leicht verständlichen Überblick darüber geben, wie maschinelle Übersetzung (MT) und insbesondere die neuronale maschinelle Übersetzung (NMT) funktioniert. Am Beispiel der Patentübersetzung soll die Arbeit sowohl die Begriffe „KI“ als auch „Deep Learning“, die häufig mit NMT assoziiert werden, entmystifizieren und einen zugänglichen Leitfaden für ÜbersetzerInnen und ÜbersetzungswissenschaftlerInnen bereitstellen, mit dem sie ihre eigenen NMT-Modell erstellen können, diese verstehen und damit arbeiten können. Es wird eine theoretische Grundlage für MT bereitgestellt, auf Basis derer die Erstellung und Bewertung von fünf Transformer NMT-Modellen vorgestellt wird, um die Auswirkung der Datenauswahl vor dem Modelltraining zu bestimmen. Zu diesem Zweck wurden die fünf Modelle auf fünf verschiedene Patentdatensätze trainiert, die über die Internationale Patent Klassifizierung nach Domänen sortiert wurden: Ein gemischter Datensatz, ein Optikdatensatz, ein Datensatz, der alle Domänen außer Optik enthält, und zwei kleinere Versionen des gemischten und optikfreien Datensatzes. Es wurde festgestellt, dass die Leistung des Netzwerks je nachdem, wie viel und welche Daten für das Training verwendet wurden, erheblich schwankte. Während die gängige Auffassung, dass mehr Daten zu besseren Ergebnissen führen, bei der automatischen Auswertung zutrifft, wurde gezeigt, dass das domänenspezifische Training dazu beitragen kann, die Ergebnisse bei der menschlichen Auswertung zu verbessern, selbst wenn weniger Daten verwendet werden. Tatsächlich konnte eine große Diskrepanz zwischen der automatischen Bewertung (BLEU-Metrik) und der menschlichen Bewertung (erweiterte SAE J2450-Metrik) beobachtet werden, wobei das Modell mit der schlechtesten Leistung in der automatischen Metrik die besten Ergebnisse bei der menschlichen Bewertung erzielte. Die Analyse des NMT Outputs unter Bezugnahme auf den Quelltext hebt auch einige der Probleme hervor, mit denen sich Post-EditorInnen bei der Nachbearbeitung von NMT-generierten Texten auseinandersetzen werden müssen.
Abstract (eng)
This work strives to be an easy to understand overview of how the current state-of-the-art in machine translation (MT), neural machine translation (NMT), works. Using the example of patent translation, the thesis aims to both demystify the terms “AI” and “deep-learning”, that are often associated with NMT, and aims to provide an accessible guide for translators and Translation Studies scholars to work with, create and understand their own NMT models. A theoretical foundation to MT is provided on which the work presents the creation and evaluation of five Transformer NMT models to determine the impact of data selection before model training. For this purpose, the five models were trained on five different patent datasets sorted by domain using the International Patent Classification: A mixed dataset, an optics dataset, a dataset containing all domains but optics and two smaller versions of the mixed and optics-free dataset. It was found that the network’s performance varied noticeably depending on how much and which data was used for training. While the common conception that more data equals better results held true in the automatic evaluation, it was shown that the domain specific training can help with improving results in the human evaluation, even when using less data. In fact, a large discrepancy between the automatic evaluation (BLEU metric) and the human evaluation (extended SAE J2450 metric) could be observed, with the worst performing model in the automatic metric having the best results in the human evaluation. The analysis of the NMT output with reference to the source text also highlights several issues that post-editors would have to contend with when post-editing NMT generated texts.
Keywords (eng)
NMTneural machine translationMTmachine translationTQAtranslation quality assessmentpatent translationEnglishJapanesestatistical machine translationSMTrule-based machine translationRBMT
Keywords (deu)
NMÜneuronale maschinelle Übersetzungmaschinelle ÜbersetzungTQAtranslation quality assessmentPatentübersetzungEnglischJapanischstatistische maschinelle ÜbersetzungSMÜregelbasierte maschinelle ÜbersetzungRBMÜ
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1390868
rdau:P60550 (deu)
166 Seiten : Illustrationen, Diagramme
Number of pages
166
Members (1)
Title (eng)
Neural machine translation - how machines learn to translate patent language
an overview, evaluation and tutorial
Parallel title (deu)
Neuronale maschinelle Übersetzung - wie Maschinen lernen Patentsprache zu übersetzen : ein Überblick, eine Evaluation und ein Leitfaden
Author
Christian Lang
Abstract (deu)
Diese Arbeit soll einen leicht verständlichen Überblick darüber geben, wie maschinelle Übersetzung (MT) und insbesondere die neuronale maschinelle Übersetzung (NMT) funktioniert. Am Beispiel der Patentübersetzung soll die Arbeit sowohl die Begriffe „KI“ als auch „Deep Learning“, die häufig mit NMT assoziiert werden, entmystifizieren und einen zugänglichen Leitfaden für ÜbersetzerInnen und ÜbersetzungswissenschaftlerInnen bereitstellen, mit dem sie ihre eigenen NMT-Modell erstellen können, diese verstehen und damit arbeiten können. Es wird eine theoretische Grundlage für MT bereitgestellt, auf Basis derer die Erstellung und Bewertung von fünf Transformer NMT-Modellen vorgestellt wird, um die Auswirkung der Datenauswahl vor dem Modelltraining zu bestimmen. Zu diesem Zweck wurden die fünf Modelle auf fünf verschiedene Patentdatensätze trainiert, die über die Internationale Patent Klassifizierung nach Domänen sortiert wurden: Ein gemischter Datensatz, ein Optikdatensatz, ein Datensatz, der alle Domänen außer Optik enthält, und zwei kleinere Versionen des gemischten und optikfreien Datensatzes. Es wurde festgestellt, dass die Leistung des Netzwerks je nachdem, wie viel und welche Daten für das Training verwendet wurden, erheblich schwankte. Während die gängige Auffassung, dass mehr Daten zu besseren Ergebnissen führen, bei der automatischen Auswertung zutrifft, wurde gezeigt, dass das domänenspezifische Training dazu beitragen kann, die Ergebnisse bei der menschlichen Auswertung zu verbessern, selbst wenn weniger Daten verwendet werden. Tatsächlich konnte eine große Diskrepanz zwischen der automatischen Bewertung (BLEU-Metrik) und der menschlichen Bewertung (erweiterte SAE J2450-Metrik) beobachtet werden, wobei das Modell mit der schlechtesten Leistung in der automatischen Metrik die besten Ergebnisse bei der menschlichen Bewertung erzielte. Die Analyse des NMT Outputs unter Bezugnahme auf den Quelltext hebt auch einige der Probleme hervor, mit denen sich Post-EditorInnen bei der Nachbearbeitung von NMT-generierten Texten auseinandersetzen werden müssen.
Abstract (eng)
This work strives to be an easy to understand overview of how the current state-of-the-art in machine translation (MT), neural machine translation (NMT), works. Using the example of patent translation, the thesis aims to both demystify the terms “AI” and “deep-learning”, that are often associated with NMT, and aims to provide an accessible guide for translators and Translation Studies scholars to work with, create and understand their own NMT models. A theoretical foundation to MT is provided on which the work presents the creation and evaluation of five Transformer NMT models to determine the impact of data selection before model training. For this purpose, the five models were trained on five different patent datasets sorted by domain using the International Patent Classification: A mixed dataset, an optics dataset, a dataset containing all domains but optics and two smaller versions of the mixed and optics-free dataset. It was found that the network’s performance varied noticeably depending on how much and which data was used for training. While the common conception that more data equals better results held true in the automatic evaluation, it was shown that the domain specific training can help with improving results in the human evaluation, even when using less data. In fact, a large discrepancy between the automatic evaluation (BLEU metric) and the human evaluation (extended SAE J2450 metric) could be observed, with the worst performing model in the automatic metric having the best results in the human evaluation. The analysis of the NMT output with reference to the source text also highlights several issues that post-editors would have to contend with when post-editing NMT generated texts.
Keywords (eng)
NMTneural machine translationMTmachine translationTQAtranslation quality assessmentpatent translationEnglishJapanesestatistical machine translationSMTrule-based machine translationRBMT
Keywords (deu)
NMÜneuronale maschinelle Übersetzungmaschinelle ÜbersetzungTQAtranslation quality assessmentPatentübersetzungEnglischJapanischstatistische maschinelle ÜbersetzungSMÜregelbasierte maschinelle ÜbersetzungRBMÜ
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1390869
Number of pages
166