Selbst heutzutage sind Single-Marker Tests nach wie vor die gängigste Analysestrate-
gie zur Auswertung Genomweiter Assoziationsstudien (GWAS). Elementare statistische
Argumente führen jedoch zu dem Urteil, dass diese Auswertestrategie hochgradig in-
effektiv ist um kausale Marker aufzuspüren. Dies gilt im Besonderen dann, wenn der
zugrundeliegende Phänotyp durch eine Vielzahl genetischer Marker bestimmt wird. Ein
Weg die Effektivität der Auswertung zu steigern ist, das zugrundeliegende Problem als
Modelselektion aufzufassen. Somit rückt also die Suche nach dem (im Sinne eines Kriteri-
ums) besten Regressionsmodell zur Erklärung des zugrundeliegenden Phänotyps in den
Fokus. Dabei werden die einzelnen Marker nicht mehr für sich getrennt, sondern gebün-
delt betrachtet, man spricht daher von einem Multi-Marker Ansatz. Zu diesem Zweck
stelle ich das Selektionskriterium mBIC2 vor. Bei diesem Kriterium handelt es sich um
eine theoretisch wohlfundierte Anpassung des Bayesian Information Critera (BIC) für
hochdimensionale statistische Daten mit herausragenden asymptotischen Eigenschaften.
Eine nicht zu übersehende Schwierigkeit bei der Modellselektion in hochdimensionalen
Daten ist die überwältigende Anzahl der möglichen Modelle. Deren Anzahl ist so groß,
dass die vollständige Enumeration selbst mit zeitgenössischen Rechnern nicht möglich
ist. Es bleibt daher keine andere Option als dieses Optimierungsproblem heuristisch zu
lösen. In der vorliegenden Arbeit stelle ich zwei Heuristiken vor die es erlauben mBIC2
basierte Modellselektion in GWAS durchzuführen. Bei der einen Suchstrategie handelt es
sich um eine bereits erprobte Variante eines Greedy-Algorithmus, die zweite beschreibt
eine grundlegend neuartige Variante eines Memetischen-Algorithmus.
Zur Evaluation der Performanz mBIC2 basierter Selektion – mit einem Fokus auf
den memetischen Algorithmus – führte ich eine Simulationsstudie und die Reanalyse
eine bereits veröffentlichten GWAS durch.
In beiden Fällen wurden die Ergebnisse
der Heuristiken untereinander und mit alternativen Auswertungsmethoden verglichen.
Die betrachteten Alternativen waren Bonferroni bzw. Benjamini-Hochberg adjustierte
Single-Marker Tests und eine Bayesianisches Variablen Selektionsmodell (implementiert
in PiMass).
Zusammengefasst zeigte sich eine deutliche Überlegenheit der mBIC2 basierten Selek-
tion. Unabhängig von der Optimierungsheuristik zeigten diese eine mit Abstand höhere
Power, eine niedrigere FDR sowie eine deutlich niedrigere Anzahl an falsch klassifizierten
Markern.
Even nowadays multiple comparison adjusted single marker tests are the most commonly
applied strategy to analyze genome wide association studies (GWAS). Elementary sta-
tistical considerations demonstrate that this strategy is highly suboptimal in terms of
power to detect causative regions on the genome. Especially if the phenotype of interest
is a complex trait. A potentially more powerful strategy is the application of model selec-
tion for multi marker regression models. I discuss a model selection criterion (mBIC2)
which is an adaption of the Bayesian Information Criterion (BIC) to high dimensional
statistics. This modification is based on sound statistical theory, and guarantees that
model selection based on mBIC2 is asymptotically a Bayes optimal classifier for a wide
range of relevant sparse asymptotic regimes. A prevailing difficulty for model selection
in the context of high dimensional datasets is the tremendous size of the potential model
universe. In fact this number is so big that enumeration is not a feasible option any-
more. In order to find the optimal model search heuristics must be applied. I present
two methods for mBIC2 based model selection which are currently implemented in the
MOSGWA software package. One is a version of a greedy algorithm called fast stepwise
selection and the other one is a novel memetic algorithm. Based on these search strate-
gies I compare the performance of mBIC2 based model selection with a Bayesian variable
selection model (implemented in PiMass) and typical single marker test strategies in a
simulation study and a reanalyzed real data example.
The findings of these experiments demonstrated an overall much better performance
of mBIC2 based model selection compared to PiMass and single marker tests. mBIC2
based selection succeeds in all relevant performance measures. It detects more causal
regions, has a tighter FDR control, a much lower average number of misclassified signals
and shows a very desirable selection pattern for all search strategies.
Selbst heutzutage sind Single-Marker Tests nach wie vor die gängigste Analysestrate-
gie zur Auswertung Genomweiter Assoziationsstudien (GWAS). Elementare statistische
Argumente führen jedoch zu dem Urteil, dass diese Auswertestrategie hochgradig in-
effektiv ist um kausale Marker aufzuspüren. Dies gilt im Besonderen dann, wenn der
zugrundeliegende Phänotyp durch eine Vielzahl genetischer Marker bestimmt wird. Ein
Weg die Effektivität der Auswertung zu steigern ist, das zugrundeliegende Problem als
Modelselektion aufzufassen. Somit rückt also die Suche nach dem (im Sinne eines Kriteri-
ums) besten Regressionsmodell zur Erklärung des zugrundeliegenden Phänotyps in den
Fokus. Dabei werden die einzelnen Marker nicht mehr für sich getrennt, sondern gebün-
delt betrachtet, man spricht daher von einem Multi-Marker Ansatz. Zu diesem Zweck
stelle ich das Selektionskriterium mBIC2 vor. Bei diesem Kriterium handelt es sich um
eine theoretisch wohlfundierte Anpassung des Bayesian Information Critera (BIC) für
hochdimensionale statistische Daten mit herausragenden asymptotischen Eigenschaften.
Eine nicht zu übersehende Schwierigkeit bei der Modellselektion in hochdimensionalen
Daten ist die überwältigende Anzahl der möglichen Modelle. Deren Anzahl ist so groß,
dass die vollständige Enumeration selbst mit zeitgenössischen Rechnern nicht möglich
ist. Es bleibt daher keine andere Option als dieses Optimierungsproblem heuristisch zu
lösen. In der vorliegenden Arbeit stelle ich zwei Heuristiken vor die es erlauben mBIC2
basierte Modellselektion in GWAS durchzuführen. Bei der einen Suchstrategie handelt es
sich um eine bereits erprobte Variante eines Greedy-Algorithmus, die zweite beschreibt
eine grundlegend neuartige Variante eines Memetischen-Algorithmus.
Zur Evaluation der Performanz mBIC2 basierter Selektion – mit einem Fokus auf
den memetischen Algorithmus – führte ich eine Simulationsstudie und die Reanalyse
eine bereits veröffentlichten GWAS durch.
In beiden Fällen wurden die Ergebnisse
der Heuristiken untereinander und mit alternativen Auswertungsmethoden verglichen.
Die betrachteten Alternativen waren Bonferroni bzw. Benjamini-Hochberg adjustierte
Single-Marker Tests und eine Bayesianisches Variablen Selektionsmodell (implementiert
in PiMass).
Zusammengefasst zeigte sich eine deutliche Überlegenheit der mBIC2 basierten Selek-
tion. Unabhängig von der Optimierungsheuristik zeigten diese eine mit Abstand höhere
Power, eine niedrigere FDR sowie eine deutlich niedrigere Anzahl an falsch klassifizierten
Markern.
Even nowadays multiple comparison adjusted single marker tests are the most commonly
applied strategy to analyze genome wide association studies (GWAS). Elementary sta-
tistical considerations demonstrate that this strategy is highly suboptimal in terms of
power to detect causative regions on the genome. Especially if the phenotype of interest
is a complex trait. A potentially more powerful strategy is the application of model selec-
tion for multi marker regression models. I discuss a model selection criterion (mBIC2)
which is an adaption of the Bayesian Information Criterion (BIC) to high dimensional
statistics. This modification is based on sound statistical theory, and guarantees that
model selection based on mBIC2 is asymptotically a Bayes optimal classifier for a wide
range of relevant sparse asymptotic regimes. A prevailing difficulty for model selection
in the context of high dimensional datasets is the tremendous size of the potential model
universe. In fact this number is so big that enumeration is not a feasible option any-
more. In order to find the optimal model search heuristics must be applied. I present
two methods for mBIC2 based model selection which are currently implemented in the
MOSGWA software package. One is a version of a greedy algorithm called fast stepwise
selection and the other one is a novel memetic algorithm. Based on these search strate-
gies I compare the performance of mBIC2 based model selection with a Bayesian variable
selection model (implemented in PiMass) and typical single marker test strategies in a
simulation study and a reanalyzed real data example.
The findings of these experiments demonstrated an overall much better performance
of mBIC2 based model selection compared to PiMass and single marker tests. mBIC2
based selection succeeds in all relevant performance measures. It detects more causal
regions, has a tighter FDR control, a much lower average number of misclassified signals
and shows a very desirable selection pattern for all search strategies.