A comparison of Bayesian model selection methods for the analysis of genome wide association studies

Michael Hagmann

doi:10.25365/thesis.44373

You are here: University of Vienna PHAIDRA Detail o:1330198

Title (eng)

A comparison of Bayesian model selection methods for the analysis of genome wide association studies

Parallel title (deu)

Ein Vergleich verschiedener bayesianischer Modellselektionsmethoden zur Auswertung genomweiter Assoziationsstudien

Author

Michael Hagmann

Advisor

Florian Frommlet

Assessor

Florian Frommlet

Abstract (deu)

Selbst heutzutage sind Single-Marker Tests nach wie vor die gängigste Analysestrate- gie zur Auswertung Genomweiter Assoziationsstudien (GWAS). Elementare statistische Argumente führen jedoch zu dem Urteil, dass diese Auswertestrategie hochgradig in- effektiv ist um kausale Marker aufzuspüren. Dies gilt im Besonderen dann, wenn der zugrundeliegende Phänotyp durch eine Vielzahl genetischer Marker bestimmt wird. Ein Weg die Effektivität der Auswertung zu steigern ist, das zugrundeliegende Problem als Modelselektion aufzufassen. Somit rückt also die Suche nach dem (im Sinne eines Kriteri- ums) besten Regressionsmodell zur Erklärung des zugrundeliegenden Phänotyps in den Fokus. Dabei werden die einzelnen Marker nicht mehr für sich getrennt, sondern gebün- delt betrachtet, man spricht daher von einem Multi-Marker Ansatz. Zu diesem Zweck stelle ich das Selektionskriterium mBIC2 vor. Bei diesem Kriterium handelt es sich um eine theoretisch wohlfundierte Anpassung des Bayesian Information Critera (BIC) für hochdimensionale statistische Daten mit herausragenden asymptotischen Eigenschaften. Eine nicht zu übersehende Schwierigkeit bei der Modellselektion in hochdimensionalen Daten ist die überwältigende Anzahl der möglichen Modelle. Deren Anzahl ist so groß, dass die vollständige Enumeration selbst mit zeitgenössischen Rechnern nicht möglich ist. Es bleibt daher keine andere Option als dieses Optimierungsproblem heuristisch zu lösen. In der vorliegenden Arbeit stelle ich zwei Heuristiken vor die es erlauben mBIC2 basierte Modellselektion in GWAS durchzuführen. Bei der einen Suchstrategie handelt es sich um eine bereits erprobte Variante eines Greedy-Algorithmus, die zweite beschreibt eine grundlegend neuartige Variante eines Memetischen-Algorithmus. Zur Evaluation der Performanz mBIC2 basierter Selektion – mit einem Fokus auf den memetischen Algorithmus – führte ich eine Simulationsstudie und die Reanalyse eine bereits veröffentlichten GWAS durch. In beiden Fällen wurden die Ergebnisse der Heuristiken untereinander und mit alternativen Auswertungsmethoden verglichen. Die betrachteten Alternativen waren Bonferroni bzw. Benjamini-Hochberg adjustierte Single-Marker Tests und eine Bayesianisches Variablen Selektionsmodell (implementiert in PiMass). Zusammengefasst zeigte sich eine deutliche Überlegenheit der mBIC2 basierten Selek- tion. Unabhängig von der Optimierungsheuristik zeigten diese eine mit Abstand höhere Power, eine niedrigere FDR sowie eine deutlich niedrigere Anzahl an falsch klassifizierten Markern.

Abstract (eng)

Even nowadays multiple comparison adjusted single marker tests are the most commonly applied strategy to analyze genome wide association studies (GWAS). Elementary sta- tistical considerations demonstrate that this strategy is highly suboptimal in terms of power to detect causative regions on the genome. Especially if the phenotype of interest is a complex trait. A potentially more powerful strategy is the application of model selec- tion for multi marker regression models. I discuss a model selection criterion (mBIC2) which is an adaption of the Bayesian Information Criterion (BIC) to high dimensional statistics. This modification is based on sound statistical theory, and guarantees that model selection based on mBIC2 is asymptotically a Bayes optimal classifier for a wide range of relevant sparse asymptotic regimes. A prevailing difficulty for model selection in the context of high dimensional datasets is the tremendous size of the potential model universe. In fact this number is so big that enumeration is not a feasible option any- more. In order to find the optimal model search heuristics must be applied. I present two methods for mBIC2 based model selection which are currently implemented in the MOSGWA software package. One is a version of a greedy algorithm called fast stepwise selection and the other one is a novel memetic algorithm. Based on these search strate- gies I compare the performance of mBIC2 based model selection with a Bayesian variable selection model (implemented in PiMass) and typical single marker test strategies in a simulation study and a reanalyzed real data example. The findings of these experiments demonstrated an overall much better performance of mBIC2 based model selection compared to PiMass and single marker tests. mBIC2 based selection succeeds in all relevant performance measures. It detects more causal regions, has a tighter FDR control, a much lower average number of misclassified signals and shows a very desirable selection pattern for all search strategies.

Keywords (eng)

genome wide association studiesGWASmodel selectionBayesian Statistics

Keywords (deu)

genomweite AssoziationsstudienGWASModellselektionBayesianische Statistik

Subject (deu)

Mathematische Statistik

Subject (deu)

Genetik

Type (deu)

Magisterarbeit

Persistent identifier

https://phaidra.univie.ac.at/o:1330198