Title (eng)
Interpretability of black-box-models in text mining
Parallel title (deu)
Interpretierbarkeit von Black-Box-Modellen im Text Mining
Author
Christoph Sattler
Advisor
Wilfried Grossmann
Assessor
Wilfried Grossmann
Abstract (deu)
Text Mining und das dazugehörige Subthema der Sentiment Analysis (Stimmungserkennung) sind zunehmend relevante Problemstellungen, die mittels Ideen und Methoden aus Statistik und Machine Learning behandelt werden können. Da die dafür verwendeten (statistischen) Prognosemodelle eine komplexe Struktur aufweisen können, wird in der Forschung zunehmende Aufmerksamkeit auf die Erklärbarkeit und Interpretierbarkeit ebenjener Modelle gelegt. Diese Magisterarbeit verbindet Theorie und Praxis aus beiden Themenbereichen. Der theoretische Hintergrund wird mittels eines Überblicks über Text Mining und Sentiment Analysis sowie einer Einführung in Konzepte und Methoden der Interpretierbarkeit von "Black-Box Modellen" zur Erstellung von globalen oder objektspezifischen Erklärungen dargelegt. Im praktischen Teil werden drei klassische Machine Learning - Modelle trainiert, um die Polarität von englischsprachigen Filmkommentaren zu erkennen und vorherzusagen. Sämtliche Modelle konnten über 80% der Bewertungen korrekt klassifizieren. Die eindeutigsten Fehlklassifizierungen jedes Modells werden anschließend mittels lokal interpretierbarer modell-agnostischer Erklärungen (LIME) analysiert. Mit dieser Magisterarbeit soll ein Überblick über die Verflechtungen von Text Mining - Problemstellungen mit dem Bereich von interpretierbaren Black-Box Modellen präsentiert werden.
Abstract (eng)
Text Mining and Sentiment Analysis in particular are increasingly relevant tasks that can be solved using ideas and methods from statistics and machine learning. As these predictive models can become quite complex and opaque, researchers have given increasing attention to explainability and interpretability of black-box models. This thesis combines theory and practice of both tasks. Theory is covered by an overview of text mining, particularly sentiment analysis, as well as by a motivation for discussing interpretability of black-box models and an introduction into various methods to provide either global or local explanations. As for the practical part, three classic machine learning models (Random Forest, XGBoost and Support Vector Machine with linear kernel) get trained to predict the binary sentiment of English-language movie reviews. Afterwards, each model's most noticeable false predictions are investigated further using locally interpretable model-agnostic explanations (LIME), generating explanations for each prediction. Thus, a compelling overview of the interconnectedness of text mining and interpretable black-box models is presented to the reader.
Keywords (deu)
Machine LearningTextanalyseInterpretierbarkeit
Keywords (eng)
Machine LearningText MiningInterpretability
Subject (deu)
Type (deu)
Extent (deu)
69 Seiten : Illustrationen
Number of pages
69
Study plan
Magisterstudium Statistik
[UA]
[066]
[951]
Members (1)
Title (eng)
Interpretability of black-box-models in text mining
Parallel title (deu)
Interpretierbarkeit von Black-Box-Modellen im Text Mining
Author
Christoph Sattler
Abstract (deu)
Text Mining und das dazugehörige Subthema der Sentiment Analysis (Stimmungserkennung) sind zunehmend relevante Problemstellungen, die mittels Ideen und Methoden aus Statistik und Machine Learning behandelt werden können. Da die dafür verwendeten (statistischen) Prognosemodelle eine komplexe Struktur aufweisen können, wird in der Forschung zunehmende Aufmerksamkeit auf die Erklärbarkeit und Interpretierbarkeit ebenjener Modelle gelegt. Diese Magisterarbeit verbindet Theorie und Praxis aus beiden Themenbereichen. Der theoretische Hintergrund wird mittels eines Überblicks über Text Mining und Sentiment Analysis sowie einer Einführung in Konzepte und Methoden der Interpretierbarkeit von "Black-Box Modellen" zur Erstellung von globalen oder objektspezifischen Erklärungen dargelegt. Im praktischen Teil werden drei klassische Machine Learning - Modelle trainiert, um die Polarität von englischsprachigen Filmkommentaren zu erkennen und vorherzusagen. Sämtliche Modelle konnten über 80% der Bewertungen korrekt klassifizieren. Die eindeutigsten Fehlklassifizierungen jedes Modells werden anschließend mittels lokal interpretierbarer modell-agnostischer Erklärungen (LIME) analysiert. Mit dieser Magisterarbeit soll ein Überblick über die Verflechtungen von Text Mining - Problemstellungen mit dem Bereich von interpretierbaren Black-Box Modellen präsentiert werden.
Abstract (eng)
Text Mining and Sentiment Analysis in particular are increasingly relevant tasks that can be solved using ideas and methods from statistics and machine learning. As these predictive models can become quite complex and opaque, researchers have given increasing attention to explainability and interpretability of black-box models. This thesis combines theory and practice of both tasks. Theory is covered by an overview of text mining, particularly sentiment analysis, as well as by a motivation for discussing interpretability of black-box models and an introduction into various methods to provide either global or local explanations. As for the practical part, three classic machine learning models (Random Forest, XGBoost and Support Vector Machine with linear kernel) get trained to predict the binary sentiment of English-language movie reviews. Afterwards, each model's most noticeable false predictions are investigated further using locally interpretable model-agnostic explanations (LIME), generating explanations for each prediction. Thus, a compelling overview of the interconnectedness of text mining and interpretable black-box models is presented to the reader.
Keywords (deu)
Machine LearningTextanalyseInterpretierbarkeit
Keywords (eng)
Machine LearningText MiningInterpretability
Subject (deu)
Type (deu)
Number of pages
69