You are here: University of Vienna PHAIDRA Detail o:1886938
Title (eng)
Predicting keywords in a corpus of field post letters
Parallel title (deu)
Vorhersagen von Schlagwörtern in einem Korpus von Feldpostbriefen
Author
Emilie Sitter
Adviser
Benjamin Roth
Assessor
Benjamin Roth
Abstract (deu)

Das Public-History-Projekt Alltag im Krieg veröffentlicht die Korrespondenz des Ehepaars Hilde und Roland Nordhoff, das zwischen 1938 und 1946 über 2.600 Briefe austauschte. Die erste Hälfte dieser Briefe wurde bereits im Rahmen des Projekts mit jeweils mehreren von insgesamt 81 thematischen Schlagwörtern annotiert. Ziel dieser Arbeit ist zuerst, auf Grundlage der bereits annotierten Briefe die zweite Hälfte der Korrespondenz automatisch zu verschlagworten. Dazu werden verschiedene Modelle zur Textklassifizierung trainiert und verglichen. Im zweiten Schritt untersucht die Arbeit die Anwendbarkeit der zugeordneten thematischen Schlagwörter für eine Distant-Reading-Methode. Im Mittelpunkt steht die Frage, wie gut Lesende den Inhalt der Briefe und ihren Kontext kennenlernen können, indem sie die Relevanz der einzelnen Schlagwörter in bestimmten Zeiträumen betrachten. Dafür werden Schlagwörter untersucht, die in bestimmten Perioden beispielsweise überdurchschnittlich häufig vertreten sind. Die Annahme ist, dass einige der von diesen Schlagwörtern erfassten Themen in diesen Zeiträumen in den Briefen vermehrt diskutiert wurden und auch über die persönliche Sphäre des Ehepaars hinaus politische und/oder soziale Relevanz hatten. Es wird zuerst ein explorativer Ansatz verfolgt, danach werden fünf Hypothesen über bestimmte thematische Schlagwörter und ihren erwarteten Verlauf untersucht. Die Untersuchung der Schlagwörter gibt einzelne Hinweise darauf, dass ihre Häufigkeiten in bestimmten Zeiträumen in Zusammenhang mit persönlichen, gesellschaftlichen und politischen Ereignissen stehen können. Leider sind jedoch weder die bereits existierenden Schlagwörter, die auch als Trainingsdaten für die Klassifizierung fungieren, mit Sicherheit korrekt, noch kann ein Modell mit dieser Daten-Ausgangslage die zweite Hälfte des Briefwechsels mit hoher Genauigkeit verschlagworten, was zu großen Unschärfen in den untersuchten Schlagwortfrequenzen führt.

Abstract (eng)

The Public History project Alltag im Krieg publishes the correspondence of the married couple Hilde and Roland Nordhoff, who exchanged more than 2,600 letters between 1938 and 1946. Within the project, the first half of all letters have already been annotated with several out of a total of 81 thematic keywords. The first goal of the master’s thesis is to automatically annotate the second half of the correspondence, based on the already annotated letters. Various text classification models are trained and compared. In the second step, the thesis investigates the applicability of the assigned thematic keywords for a Distant Reading method. Its assumption is that in periods in which keywords are, for instance, more prevalent than average, the corresponding topics were increasingly discussed in the letters and might have had political and/or social relevance beyond the spouses’ sphere. The objective is to assess how effectively readers can glean insights into the content and context of the letters based on the relevance of keywords during specific periods. After an exploratory approach, the thesis investigates five hypotheses concerning specific thematic keywords and their anticipated trends. Examining the individual keywords provides some indications that their frequencies are related to personal, social, and political events. Unfortunately, neither the pre-existing keywords are correct with certainty, nor can a model which was trained on these noisy keywords predict highly accurate labels for the second half of the correspondence. This leads to large uncertainties in the examined keyword frequencies.

Keywords (deu)
Digital HumanitiesTextklassifikationFeldpostKorpusZweiter Weltkrieg
Keywords (eng)
Digital HumanitiesText ClassificationField PostMilitary Postal ServiceCorpusSecond World War
Subject (deu)
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1886938
rdau:P60550 (deu)
ix, 143 Seiten : Illustrationen
Number of pages
156
Study plan
Masterstudium Digital Humanities
[UA]
[066]
[647]
Members (1)
Title (eng)
Predicting keywords in a corpus of field post letters
Parallel title (deu)
Vorhersagen von Schlagwörtern in einem Korpus von Feldpostbriefen
Author
Emilie Sitter
Abstract (deu)

Das Public-History-Projekt Alltag im Krieg veröffentlicht die Korrespondenz des Ehepaars Hilde und Roland Nordhoff, das zwischen 1938 und 1946 über 2.600 Briefe austauschte. Die erste Hälfte dieser Briefe wurde bereits im Rahmen des Projekts mit jeweils mehreren von insgesamt 81 thematischen Schlagwörtern annotiert. Ziel dieser Arbeit ist zuerst, auf Grundlage der bereits annotierten Briefe die zweite Hälfte der Korrespondenz automatisch zu verschlagworten. Dazu werden verschiedene Modelle zur Textklassifizierung trainiert und verglichen. Im zweiten Schritt untersucht die Arbeit die Anwendbarkeit der zugeordneten thematischen Schlagwörter für eine Distant-Reading-Methode. Im Mittelpunkt steht die Frage, wie gut Lesende den Inhalt der Briefe und ihren Kontext kennenlernen können, indem sie die Relevanz der einzelnen Schlagwörter in bestimmten Zeiträumen betrachten. Dafür werden Schlagwörter untersucht, die in bestimmten Perioden beispielsweise überdurchschnittlich häufig vertreten sind. Die Annahme ist, dass einige der von diesen Schlagwörtern erfassten Themen in diesen Zeiträumen in den Briefen vermehrt diskutiert wurden und auch über die persönliche Sphäre des Ehepaars hinaus politische und/oder soziale Relevanz hatten. Es wird zuerst ein explorativer Ansatz verfolgt, danach werden fünf Hypothesen über bestimmte thematische Schlagwörter und ihren erwarteten Verlauf untersucht. Die Untersuchung der Schlagwörter gibt einzelne Hinweise darauf, dass ihre Häufigkeiten in bestimmten Zeiträumen in Zusammenhang mit persönlichen, gesellschaftlichen und politischen Ereignissen stehen können. Leider sind jedoch weder die bereits existierenden Schlagwörter, die auch als Trainingsdaten für die Klassifizierung fungieren, mit Sicherheit korrekt, noch kann ein Modell mit dieser Daten-Ausgangslage die zweite Hälfte des Briefwechsels mit hoher Genauigkeit verschlagworten, was zu großen Unschärfen in den untersuchten Schlagwortfrequenzen führt.

Abstract (eng)

The Public History project Alltag im Krieg publishes the correspondence of the married couple Hilde and Roland Nordhoff, who exchanged more than 2,600 letters between 1938 and 1946. Within the project, the first half of all letters have already been annotated with several out of a total of 81 thematic keywords. The first goal of the master’s thesis is to automatically annotate the second half of the correspondence, based on the already annotated letters. Various text classification models are trained and compared. In the second step, the thesis investigates the applicability of the assigned thematic keywords for a Distant Reading method. Its assumption is that in periods in which keywords are, for instance, more prevalent than average, the corresponding topics were increasingly discussed in the letters and might have had political and/or social relevance beyond the spouses’ sphere. The objective is to assess how effectively readers can glean insights into the content and context of the letters based on the relevance of keywords during specific periods. After an exploratory approach, the thesis investigates five hypotheses concerning specific thematic keywords and their anticipated trends. Examining the individual keywords provides some indications that their frequencies are related to personal, social, and political events. Unfortunately, neither the pre-existing keywords are correct with certainty, nor can a model which was trained on these noisy keywords predict highly accurate labels for the second half of the correspondence. This leads to large uncertainties in the examined keyword frequencies.

Keywords (deu)
Digital HumanitiesTextklassifikationFeldpostKorpusZweiter Weltkrieg
Keywords (eng)
Digital HumanitiesText ClassificationField PostMilitary Postal ServiceCorpusSecond World War
Subject (deu)
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:2036128
Number of pages
156