Abstract (deu)
Diese Arbeit ist der Überlebensvorhersage aus Genexpressionsdaten gewidmet. Es werden unterschiedliche Ansätze zur Modellselektion, Tuningstrategien und der Einfluss einzelner Gene auf das Überleben untersucht. Des Weiteren wird die Vorhersagegüte von Überlebensmodellen für eine gemischte Patienten-Population geprüft, die teils anfällig für Rezidive ist und teils geheilt ist.
Diese Arbeit besteht aus zwei Teilen. Im ersten Teil werden die zehn bekanntesten Ansätze zur Modellierung hochdimensionaler Daten vorgestellt. Diese kann man in Parameter Shrinkage-, Best- Subset-, Ensemblemethoden und Ansätze basierend auf achsentransformierten Variablenräumen einteilen. Unterschiede und Gemeinsamkeiten zwischen den Modellansätzen werden unter verschiedenen Gesichtspunkten diskutiert wie beispielsweise der Frage, ob die erklärte Variable in die Modellselektion einbezogen wird, ob Wechselwirkungen zwischen den Variablen berücksichtigt werden und ob Einzel- oder aggregierte Gene selektiert werden. Die Stärken und Schwächen der verschiedenen Techniken werden beschrieben.
Die sekundäre Fragestellung dieser Arbeit betrifft die Tuningstrategie, die einen starken Einfluss auf die Vorhersagegüte eines Überlebensmodells aus Microarraydaten hat. Sie umfasst viele Einzelaspekte wie die Resampling-Technik und die Wahl des Tuning-Parameters und eines Maßes zur Bestimmung der vorhersageoptimierten Modellgröße (Tuningkriterium).
Diese Arbeit befasst sich mit der Anzahl der Validierungsstichproben und mit dem Tuningkriterium. Es wird die Vorhersagequalität der Überlebensmodelle, die mit 5-, 10- und 20-facher Kreuzvalidierung bestimmt werden, verglichen. Da 5- und 10-fache Kreuzvalidierung eine übliche Wahl für die Abstimmung von Modellen mit Microarraydaten ist und eine niedrigere Anzahl von Kreuzvalidierungs-Stichproben (beispielsweise eine Leaving-One-Out Kreuzvalidierung) zu einem höheren Stichprobenbias und zu einer niedrigeren Vorhersagequalität führt, untersucht diese Arbeit zusätzlich den Einfluss der 20-fachen Kreuzvalidierung auf die Güte der Lebensdauermodelle.
Das zweite Thema, das im Rahmen dieser Arbeit behandelt wird, ist der Einfluss des Tuningkriteriums auf die Präzision der Modelle. Es werden Überlebensmodelle verglichen, die durch das Cross-Validation Partial Log-Likelihood Kriterium und den integrierten Brier Score selektiert wurden. Die Vor- und Nachteile der Tuningkriterien, wie beispielsweise Anwendungsbereiche für die Maße, werden beschrieben und die Güte der Modelle wird untersucht.
Die experimentelle Fragestellung dieser Arbeit betrifft den Einfluss einzelner Gene auf das Überleben. Heuristische Algorithmen werden verwendet, um die Effekte der Gene auf die Lebensdauer zu bestimmen. In dieser Arbeit wird geprüft, ob einflussreiche Gene existieren bzw. welche Modellierungsansätze signifikante Gene entdecken können.
Modellierungstechniken, Tuningstrategien und die Untersuchung von Effekten einzelner Gene auf das Überleben werden auf eine homogene Population von nicht geheilten Patienten angewendet.
Der zweite Teil dieser Arbeit befasst sich mit dem Vergleich von Lebensdauermodellen, die auf einer gemischten Population von rückfälligen und geheilten Patienten entwickelt werden. Die Klasse der semiparametrischen Cure-Modelle, insbesondere die Cox und AFT Misch-Cure-Modelle, die aus einem Latenz- und Inzidenzteil bestehen, wird beschrieben.
Ein neuer Modellierungsansatz wird vorgestellt, der die zwei Modellteile der Cure-Modelle berücksichtigt, indem Gene mit einem Einfluss auf das Überleben und auf Heilung separat bestimmt werden und das Cure-Modell aus den Einzeleffekten entwickelt wird.
Die Vor- und Nachteile der Anwendung von Cure-Modellen auf Curedaten im Vergleich mit dem Standard Coxmodell werden in dieser Arbeit gezeigt. Die Vorhersagegüte der Cox und AFT Misch-Modelle und des Standard Coxmodells sowie der Einfluss von Genen auf Überleben und den Cure werden beschrieben.
Weitere Themen dieser Arbeit sind Survial-Vorhersage Prozeduren, die Modelltuning und Modellentwicklung beinhalten, Maße zur Vorhersagequalität der Überlebensmodelle und Prozesse, um Genexpressionsdaten aus Gewebeproben zu gewinnen.
Die Ziele dieser Arbeit werden in primären, sekundären und explorativen Hypothesen zusammengefasst. Die Forschungsfragen werden auf Basis von vier Tumordatensätzen und vier generierten Datensätzen geprüft, wobei die generierten Daten hochsignifikante Variablen enthalten. Zum Abschluss werden geeignete Modellierungsstrategien für hochdimensionale Lebensdauermodelle empfohlen und zukünftige Forschungsthemen vorgestellt.