Im Rahmen dieser Masterarbeit wurde die Anwendbarkeit des Terminologie-extraktionswerkzeuges ProTerm der Firma ProCom Strasser für die zweisprachige Terminologieextraktion untersucht. Der für die Terminologieextraktion notwendige Korpus wurde von der AVL LIST GmbH zur Verfügung gestellt. Dabei handelte es sich ausschließlich um Fachtexte der technischen Dokumentation. Die Aufgabenstellung bestand darin, englische und deutsche Termpaare und adäquate Datenelemente für die Datenkategorien (Definition, Explikation, Kollokation, Kontext) aus dem Dokumentationsmaterial zu extrahieren. Das Terminologieextraktionsverfahren kann als toolgestützt bezeichnet und dem hybriden Extraktionsverfahren zugeordnet werden. Es wurden das statistische und das manuelle Extraktionsverfahren kombiniert. Das Berücksichtigen von Stopp-Wort-Listen der Allgemeinsprache und von Stopp-Wort-Listen, die eigens für diese Arbeit erstellt und bearbeitet wurden, sowie das Koordinieren der individuell kombinierbaren statistischen Parameter trugen dazu bei, Termkandidaten rasch zu identifizieren. ProTerm bietet die Möglichkeit, eine breite Palette an Formaten und unterschiedlichen Zeichensätzen einzulesen, es kann einen großen Umfang an Dokumenten in kurzer Zeit einlesen und ermöglicht es dem Terminologen, während jeder Phase des Extraktionsprozesses in die Originaltextansicht zu wechseln. Jeder Termkandidat und jede Datenkategorie, die der TermBank hinzugefügt werden, werden automatisch mit der dazugehörigen Quelle extrahiert. Mithilfe der Trunkierungsfunktion kann einheitlich Terminologie extrahiert werden. Das Auffinden der zielsprachlichen Äquivalente obliegt allerdings der Kompetenz des Terminologen. Er ist nicht nur dafür verantwortlich, einen Termkandidaten mithilfe der Parametereinstellungen und der Verwaltung der Stopp-Wort-Listen zu identifizieren, sondern muss sein zielsprachliches Äquivalent in den Originaltexten ausfindig machen. Die Erkenntnisse dieser Masterarbeit sollen dazu dienen, die zweisprachige Terminologieextraktion mit ProTerm weiterzuentwickeln.
This Master‘s Thesis examines the terminology management tool ProTerm by Pro-Com Strasser for its applicability to bilingual terminology extraction. AVL List GmbH, “the world's largest privately owned and independent company for the development of powertrain systems with internal combustion engines as well as instrumentation and test systems.” (AVL-Company 2010) provided the corpus for the terminology extraction, consisting of technical documentations only. The main task was to extract bilingual term candidates and adequate data for data categories (definition, explication, collocation, and context). The terminology extraction technique applied was semi-automatic and can be assigned to the hybrid approach, combining manual and statistical terminology extraction techniques. Considering stop lists with general language and stop lists especially created for and adapted during this Thesis as well as the coordination of the statistical parameters ad libitum facilitated the term recognition within a short time. Moreover ProTerm succeeds in importing various formats (Microsoft Office files, .pdf, .txt, .html, and .xml) and character sets (ISO 8859-1 Western Europe and UTF-8) as well accessing the source text at any level. Every term candidate (and every data category) added to the TermBase is extracted automatically together with its source. Truncation allows keeping consistency of terminology. The terminologist has to identify term candidates and their corresponding equivalents in the target texts by combining parameter settings with the administration of stop lists. The results of this Master’s Thesis shall contribute to further develop bilingual terminology extraction with ProTerm.
Im Rahmen dieser Masterarbeit wurde die Anwendbarkeit des Terminologie-extraktionswerkzeuges ProTerm der Firma ProCom Strasser für die zweisprachige Terminologieextraktion untersucht. Der für die Terminologieextraktion notwendige Korpus wurde von der AVL LIST GmbH zur Verfügung gestellt. Dabei handelte es sich ausschließlich um Fachtexte der technischen Dokumentation. Die Aufgabenstellung bestand darin, englische und deutsche Termpaare und adäquate Datenelemente für die Datenkategorien (Definition, Explikation, Kollokation, Kontext) aus dem Dokumentationsmaterial zu extrahieren. Das Terminologieextraktionsverfahren kann als toolgestützt bezeichnet und dem hybriden Extraktionsverfahren zugeordnet werden. Es wurden das statistische und das manuelle Extraktionsverfahren kombiniert. Das Berücksichtigen von Stopp-Wort-Listen der Allgemeinsprache und von Stopp-Wort-Listen, die eigens für diese Arbeit erstellt und bearbeitet wurden, sowie das Koordinieren der individuell kombinierbaren statistischen Parameter trugen dazu bei, Termkandidaten rasch zu identifizieren. ProTerm bietet die Möglichkeit, eine breite Palette an Formaten und unterschiedlichen Zeichensätzen einzulesen, es kann einen großen Umfang an Dokumenten in kurzer Zeit einlesen und ermöglicht es dem Terminologen, während jeder Phase des Extraktionsprozesses in die Originaltextansicht zu wechseln. Jeder Termkandidat und jede Datenkategorie, die der TermBank hinzugefügt werden, werden automatisch mit der dazugehörigen Quelle extrahiert. Mithilfe der Trunkierungsfunktion kann einheitlich Terminologie extrahiert werden. Das Auffinden der zielsprachlichen Äquivalente obliegt allerdings der Kompetenz des Terminologen. Er ist nicht nur dafür verantwortlich, einen Termkandidaten mithilfe der Parametereinstellungen und der Verwaltung der Stopp-Wort-Listen zu identifizieren, sondern muss sein zielsprachliches Äquivalent in den Originaltexten ausfindig machen. Die Erkenntnisse dieser Masterarbeit sollen dazu dienen, die zweisprachige Terminologieextraktion mit ProTerm weiterzuentwickeln.
This Master‘s Thesis examines the terminology management tool ProTerm by Pro-Com Strasser for its applicability to bilingual terminology extraction. AVL List GmbH, “the world's largest privately owned and independent company for the development of powertrain systems with internal combustion engines as well as instrumentation and test systems.” (AVL-Company 2010) provided the corpus for the terminology extraction, consisting of technical documentations only. The main task was to extract bilingual term candidates and adequate data for data categories (definition, explication, collocation, and context). The terminology extraction technique applied was semi-automatic and can be assigned to the hybrid approach, combining manual and statistical terminology extraction techniques. Considering stop lists with general language and stop lists especially created for and adapted during this Thesis as well as the coordination of the statistical parameters ad libitum facilitated the term recognition within a short time. Moreover ProTerm succeeds in importing various formats (Microsoft Office files, .pdf, .txt, .html, and .xml) and character sets (ISO 8859-1 Western Europe and UTF-8) as well accessing the source text at any level. Every term candidate (and every data category) added to the TermBase is extracted automatically together with its source. Truncation allows keeping consistency of terminology. The terminologist has to identify term candidates and their corresponding equivalents in the target texts by combining parameter settings with the administration of stop lists. The results of this Master’s Thesis shall contribute to further develop bilingual terminology extraction with ProTerm.