Title (eng)
Quality effects of domain adaptation of NMT models with translation memories in the occupational health and safety domain
Parallel title (deu)
Qualitative Auswirkungen der Domänenanpassung von NMÜ-Modellen mit Übersetzungsspeichern in der Arbeitsschutzdomäne
Author
Giacomo Munda
Advisor
Dagmar Gromann
Assessor
Dagmar Gromann
Abstract (deu)
Das Forschungsgebiet der maschinellen Übersetzung (MÜ) hat mit dem Aufkommen der neuronalen maschinellen Übersetzung (NMÜ) stark an Popularität gewonnen. Obwohl moderne Architekturen bereits ein erstaunliches Qualitätsniveau erreicht haben, versuchen Forscher weiterhin, einige allgemeine Probleme zu lösen, um bessere Leistungen zu erzielen. Zu den Problemen zählt die Inkompetenz von MÜ-Systemen, in einer bestimmten Domäne gute Leistungen zu erbringen. Ziel der vorliegenden Untersuchung ist es, die Auswirkungen der Domänenanpassung auf ein bestehendes NMÜ-System (ModernMT) im Sprachenpaar Italienisch-Südtiroler Deutsch zu testen. Südtiroler Deutsch ist an das italienische Rechtssystem gebunden. Im Laufe der Jahre hat sich eine spezifische rechtlich-administrative Terminologie entwickelt, die die Übersetzung dieser Sprachvarietät durch MÜ-Systeme besonders schwierig gestaltet. Die gewählte Domäne ist der Arbeitsschutz, ein Teilbereich des Rechts mit sehr besonderen terminologischen Merkmalen. Da der Arbeitsschutz in Südtirol ein zentrales Thema ist und jährlich zu diesem Thema Schulungen für Mitarbeiter verfasst und übersetzt werden, ist die vorliegende Masterarbeit ein wertvoller Versuch, den Übersetzungsprozess in dieser Domäne zu erleichtern und zu beschleunigen. Um ein vortrainiertes NMÜ-modell zu einer spezifischen Domäne zu adaptieren, wurden zwei parallele Korpora, bestehend aus etwa 25.000 Übersetzungseinheiten, vom Südtiroler Forschungszentrum Eurac Research zur Verfügung gestellt. Die Daten wurden bereinigt, gefiltert und in ModernMT eingefügt. Die Übersetzungsqualität von drei verschiedenen Testsätzen wurde automatisch bewertet und 79 domänenspezifische Übersetzungseinheiten wurden manuell analysiert, um die Genauigkeit und Fehler im Sprachfluss zu kommentieren. Die Ergebnisse zeigen eine überraschende Steigerung von 6,4 BLEU-Punkten und 3,5 METEOR-Punkten, sowie eine deutliche Verbesserung der terminologischen Genauigkeit. Das Vorhandensein zahlreicher terminologischer Fehler und Fehlübersetzungen zeigt jedoch, dass noch Verbesserungspotential besteht.
Abstract (eng)
The research field of Machine Translation (MT) has gained increased popularity with the advent of Neural Machine Translation (NMT). Even though modern architectures have reached unexpected quality levels, researchers are trying to solve some common issues to deliver better performances. One of these problems is the inability for MT systems to perform well in a specific domain. The objective of the present research is to test the effects of domain adaptation on an existing NMT system (ModernMT) in the language pair Italian-South Tyrolean German. South Tyrolean German is bound to the Italian legal system and during the years, a specific legal-administrative terminology has been developed, making this language variety particularly challenging to be translated by MT systems. The chosen domain is occupational health and safety, a subdomain of law with very peculiar terminology traits. Occupational health and safety is a central topic in South Tyrol and training courses for employees are written and translated on a yearly basis, making the present master’s thesis a valuable attempt to facilitate and accelerate the translation workflow. To fine-tune a pre-trained model, two parallel corpora consisting of roughly 25,000 translation units have been made available by South Tyrolean research center Eurac Research. The data have been cleaned, filtered and inserted into ModernMT. The translation quality of three different test sets has been assessed automatically and 79 domain-specific parallel segments have been manually analyzed to annotate accuracy and fluency errors. Results have shown a surprising increase of 6.4 BLEU points and 3.5 METEOR points, as well as a noticeable improvement of the terminological accuracy. However, the presence of multiple terminology errors and mistranslations is the proof that there is still room for improvement.
Keywords (deu)
MÜNMÜDomänenanpassungQualitätTerminologieArbeitsschutzSüdtirol
Keywords (eng)
MTNMTDomain AdaptationQualityTerminologyOccupational Health and SafetySouth Tyrol
Subject (deu)
Type (deu)
Persistent identifier
Extent (deu)
104 Seiten : Illustrationen
Number of pages
104
Study plan
Masterstudium Translation Italienisch Deutsch
[UA]
[070]
[348]
[331]
Association (deu)
Title (eng)
Quality effects of domain adaptation of NMT models with translation memories in the occupational health and safety domain
Parallel title (deu)
Qualitative Auswirkungen der Domänenanpassung von NMÜ-Modellen mit Übersetzungsspeichern in der Arbeitsschutzdomäne
Author
Giacomo Munda
Abstract (deu)
Das Forschungsgebiet der maschinellen Übersetzung (MÜ) hat mit dem Aufkommen der neuronalen maschinellen Übersetzung (NMÜ) stark an Popularität gewonnen. Obwohl moderne Architekturen bereits ein erstaunliches Qualitätsniveau erreicht haben, versuchen Forscher weiterhin, einige allgemeine Probleme zu lösen, um bessere Leistungen zu erzielen. Zu den Problemen zählt die Inkompetenz von MÜ-Systemen, in einer bestimmten Domäne gute Leistungen zu erbringen. Ziel der vorliegenden Untersuchung ist es, die Auswirkungen der Domänenanpassung auf ein bestehendes NMÜ-System (ModernMT) im Sprachenpaar Italienisch-Südtiroler Deutsch zu testen. Südtiroler Deutsch ist an das italienische Rechtssystem gebunden. Im Laufe der Jahre hat sich eine spezifische rechtlich-administrative Terminologie entwickelt, die die Übersetzung dieser Sprachvarietät durch MÜ-Systeme besonders schwierig gestaltet. Die gewählte Domäne ist der Arbeitsschutz, ein Teilbereich des Rechts mit sehr besonderen terminologischen Merkmalen. Da der Arbeitsschutz in Südtirol ein zentrales Thema ist und jährlich zu diesem Thema Schulungen für Mitarbeiter verfasst und übersetzt werden, ist die vorliegende Masterarbeit ein wertvoller Versuch, den Übersetzungsprozess in dieser Domäne zu erleichtern und zu beschleunigen. Um ein vortrainiertes NMÜ-modell zu einer spezifischen Domäne zu adaptieren, wurden zwei parallele Korpora, bestehend aus etwa 25.000 Übersetzungseinheiten, vom Südtiroler Forschungszentrum Eurac Research zur Verfügung gestellt. Die Daten wurden bereinigt, gefiltert und in ModernMT eingefügt. Die Übersetzungsqualität von drei verschiedenen Testsätzen wurde automatisch bewertet und 79 domänenspezifische Übersetzungseinheiten wurden manuell analysiert, um die Genauigkeit und Fehler im Sprachfluss zu kommentieren. Die Ergebnisse zeigen eine überraschende Steigerung von 6,4 BLEU-Punkten und 3,5 METEOR-Punkten, sowie eine deutliche Verbesserung der terminologischen Genauigkeit. Das Vorhandensein zahlreicher terminologischer Fehler und Fehlübersetzungen zeigt jedoch, dass noch Verbesserungspotential besteht.
Abstract (eng)
The research field of Machine Translation (MT) has gained increased popularity with the advent of Neural Machine Translation (NMT). Even though modern architectures have reached unexpected quality levels, researchers are trying to solve some common issues to deliver better performances. One of these problems is the inability for MT systems to perform well in a specific domain. The objective of the present research is to test the effects of domain adaptation on an existing NMT system (ModernMT) in the language pair Italian-South Tyrolean German. South Tyrolean German is bound to the Italian legal system and during the years, a specific legal-administrative terminology has been developed, making this language variety particularly challenging to be translated by MT systems. The chosen domain is occupational health and safety, a subdomain of law with very peculiar terminology traits. Occupational health and safety is a central topic in South Tyrol and training courses for employees are written and translated on a yearly basis, making the present master’s thesis a valuable attempt to facilitate and accelerate the translation workflow. To fine-tune a pre-trained model, two parallel corpora consisting of roughly 25,000 translation units have been made available by South Tyrolean research center Eurac Research. The data have been cleaned, filtered and inserted into ModernMT. The translation quality of three different test sets has been assessed automatically and 79 domain-specific parallel segments have been manually analyzed to annotate accuracy and fluency errors. Results have shown a surprising increase of 6.4 BLEU points and 3.5 METEOR points, as well as a noticeable improvement of the terminological accuracy. However, the presence of multiple terminology errors and mistranslations is the proof that there is still room for improvement.
Keywords (deu)
MÜNMÜDomänenanpassungQualitätTerminologieArbeitsschutzSüdtirol
Keywords (eng)
MTNMTDomain AdaptationQualityTerminologyOccupational Health and SafetySouth Tyrol
Subject (deu)
Type (deu)
Persistent identifier
Number of pages
104
Association (deu)
License
- Citable links
- Other links
- Managed by
- Details
- Usage statistics-
- Metadata
- Export formats
