You are here: University of Vienna PHAIDRA Detail o:2098483
Title (eng)
Hierachical lasso models
Author
Răzvan-Andrei Morariu
Advisor
Tatyana Krivobokova
Assessor
Tatyana Krivobokova
Abstract (deu)
In vielen Fachrichtungen werden Daten oft durch bestimmte Experimente gesammelt. Lasso-Modelle sind klassische Werkzeuge, die in den meisten experimentellen Wissenschaften verwendet werden, um Faktoren und Interaktionen zu identifizieren, die essentiell für die gesuchte Variable sind. Zum Beispiel kann eine chemische Reaktion unter verschiedenen Bedingungen durchgeführt werden, um Reaktionskomponenten zu identifizieren, die zum besten Ertrag führen. Diese Modelle sind in modernen Anwendungen viel komplexer geworden: (i) man interessiert sich oft für viel mehr als 2 Faktoren, (ii) es gibt normalerweise nur eine Beobachtung pro Kombination der Faktorstufen, (iii) die Antwortsvariable ist nicht unbedingt normal. Im Ergebnis sind keine der klassischen Resultate anwendbar. Diese These zielt darauf ab, die oben erwähnten Aspekte anzusprechen. In der Anwesenheit von vielen Faktoren und einzelnen Replikationen pro Faktorstufenkombination ist es vernünftig anzunehmen, dass die Mehrheit der Faktorstufenkombinationen nicht signifikant ist. Es ist verlockend, einen Lasso-Algorithmus direkt anzuwenden, um Schätzungen und Modellauswahl in einem Schritt durchzuführen. Jedoch ist der klassische Lasso-Algorithmus trotz der hierarchischen Struktur der Daten (es kann keinen Interaktionseffekt geben, wenn die Haupteffekte nicht signifikant sind) nicht anwendbar. Es wurden viele Lasso-Algorithmen für hierarchische Daten unter verschiedenen Annahmen entwickelt. Allerdings sind diese Algorithmen auf Zwei-Faktormodelle limitiert. Da mit der wachsenden Anzahl von Faktoren die Komplexität der Struktur exponentiell zunimmt, ist es eine hochgradig nicht-triviale Aufgabe, solche hierarchischen Lasso-Algorithmen auf multifaktorielle Modelle zu erweitern. Diese These versucht, einen hierarchischen Lasso-Algorithmus für drei Faktoren zu entwickeln, der für Antworten geeignet ist, die durch Verteilungen aus der Exponentialfamilie modelliert werden. Die Methode sollte auf die Daten zur Deoxyfluorierung angewendet werden, die eine nicht-normale Antwort aufweisen.
Abstract (eng)
In many disciplines the data are often collected in designed experiments. Lasso models are classical tools in most experimental sciences to identify factors and their interactions that are crucial for the variable of interest. For example, one might run a chemical reaction under various conditions in order to identify reaction components that result in the best yield. In modern applications these models have become much more complex: (i) one often is interested in many more than 2 factors, (ii) there is typically only one observation per each factor level combination, (iii) the response variable is not necessarily normal. As a result, none of the classical results are applicable. This thesis aims to address these issues. In presence of many factors and single replications per factor level combination, it is reasonable to assume that most of the factor level combinations are not significant. It is tempting to apply directly a Lasso algorithm to perform estimation and model selection in one step. However, due to the hierarchical structure of the data (there can be no interaction effect, if the main effects are not significant), the classical Lasso algorithm is not applicable. There were several Lasso algorithms developed for hierarchical data under various assumptions. However, these algorithms are limited to two-factor models. Since with the growing number of factors the complexity of the structure increases exponentially, it is a highly non-trivial task to extend such hierarchical Lasso algorithms to multifactorial models. This thesis attempts to develop a hierarchical Lasso algorithm for three factors that is suitable for responses modeled by distributions from the exponential family. The method should be applied to the data on Deoxyfluorination which has a non-normal response.
Keywords (deu)
StatistikDatenwissenschaftMaschinelles Lernen für die ChemieHierarchische spärliche Modelle
Keywords (eng)
StatisticsData ScienceMachine learning for chemistyHierarchical sparse models
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:2098483
rdau:P60550 (deu)
xi, 51 Seiten : Illustrationen
Number of pages
65
Study plan
Masterstudium Data Science
[UA]
[066]
[645]
Association (deu)
Members (1)
Title (eng)
Hierachical lasso models
Author
Răzvan-Andrei Morariu
Abstract (deu)
In vielen Fachrichtungen werden Daten oft durch bestimmte Experimente gesammelt. Lasso-Modelle sind klassische Werkzeuge, die in den meisten experimentellen Wissenschaften verwendet werden, um Faktoren und Interaktionen zu identifizieren, die essentiell für die gesuchte Variable sind. Zum Beispiel kann eine chemische Reaktion unter verschiedenen Bedingungen durchgeführt werden, um Reaktionskomponenten zu identifizieren, die zum besten Ertrag führen. Diese Modelle sind in modernen Anwendungen viel komplexer geworden: (i) man interessiert sich oft für viel mehr als 2 Faktoren, (ii) es gibt normalerweise nur eine Beobachtung pro Kombination der Faktorstufen, (iii) die Antwortsvariable ist nicht unbedingt normal. Im Ergebnis sind keine der klassischen Resultate anwendbar. Diese These zielt darauf ab, die oben erwähnten Aspekte anzusprechen. In der Anwesenheit von vielen Faktoren und einzelnen Replikationen pro Faktorstufenkombination ist es vernünftig anzunehmen, dass die Mehrheit der Faktorstufenkombinationen nicht signifikant ist. Es ist verlockend, einen Lasso-Algorithmus direkt anzuwenden, um Schätzungen und Modellauswahl in einem Schritt durchzuführen. Jedoch ist der klassische Lasso-Algorithmus trotz der hierarchischen Struktur der Daten (es kann keinen Interaktionseffekt geben, wenn die Haupteffekte nicht signifikant sind) nicht anwendbar. Es wurden viele Lasso-Algorithmen für hierarchische Daten unter verschiedenen Annahmen entwickelt. Allerdings sind diese Algorithmen auf Zwei-Faktormodelle limitiert. Da mit der wachsenden Anzahl von Faktoren die Komplexität der Struktur exponentiell zunimmt, ist es eine hochgradig nicht-triviale Aufgabe, solche hierarchischen Lasso-Algorithmen auf multifaktorielle Modelle zu erweitern. Diese These versucht, einen hierarchischen Lasso-Algorithmus für drei Faktoren zu entwickeln, der für Antworten geeignet ist, die durch Verteilungen aus der Exponentialfamilie modelliert werden. Die Methode sollte auf die Daten zur Deoxyfluorierung angewendet werden, die eine nicht-normale Antwort aufweisen.
Abstract (eng)
In many disciplines the data are often collected in designed experiments. Lasso models are classical tools in most experimental sciences to identify factors and their interactions that are crucial for the variable of interest. For example, one might run a chemical reaction under various conditions in order to identify reaction components that result in the best yield. In modern applications these models have become much more complex: (i) one often is interested in many more than 2 factors, (ii) there is typically only one observation per each factor level combination, (iii) the response variable is not necessarily normal. As a result, none of the classical results are applicable. This thesis aims to address these issues. In presence of many factors and single replications per factor level combination, it is reasonable to assume that most of the factor level combinations are not significant. It is tempting to apply directly a Lasso algorithm to perform estimation and model selection in one step. However, due to the hierarchical structure of the data (there can be no interaction effect, if the main effects are not significant), the classical Lasso algorithm is not applicable. There were several Lasso algorithms developed for hierarchical data under various assumptions. However, these algorithms are limited to two-factor models. Since with the growing number of factors the complexity of the structure increases exponentially, it is a highly non-trivial task to extend such hierarchical Lasso algorithms to multifactorial models. This thesis attempts to develop a hierarchical Lasso algorithm for three factors that is suitable for responses modeled by distributions from the exponential family. The method should be applied to the data on Deoxyfluorination which has a non-normal response.
Keywords (deu)
StatistikDatenwissenschaftMaschinelles Lernen für die ChemieHierarchische spärliche Modelle
Keywords (eng)
StatisticsData ScienceMachine learning for chemistyHierarchical sparse models
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:2098743
Number of pages
65
Association (deu)