Abstract (deu)
Das Schicksal einer Zelle wird von der Menge aller exprimierten Proteine bestimmt, die wiederum fuer den Phaenotyp der Zelle und fuer alle metabolischen Prozesse
verantwortlich ist. Da sich die Quantifizierung aller exprimierten Proteine als ausserordentlich schwierig erwiesen hat, wird stattdessen das Transkriptom, die Menge
aller exprimierten Gene, zur Untersuchung herangezogen.
RNA Sequenzierung (RNA-Seq) stellt die modernste Technologie fuer gross angelegte Untersuchungen von Genexpression dar.
Der Sequenzierer gibt kurze Sequenzstuecke aus, sogenannte 'reads', momentan circa 10^8 reads pro Sequenzierung.
Indem man das Gen, von dem der jeweilige read stammt, identifiziert und dann die Anzahl der reads pro Gen aufsummiert,
erhaelt man eine Approximation der zugrunde liegenden Genexpression.
Im Vergleich zu aelteren Technologien koennen nicht nur schon bekannte Gene abgefragt werden. Im Gegenteil, RNA-Seq benoetigt keinerlei Vorwissen
ueber die Struktur der jeweils vorliegenden Gene.
Weiters ist die realisierte Aufloesung von RNA-Seq bestmoeglich - am Basenpaar-Level.
Die Anfaenge der RNA-Seq Technologie liegen circa acht Jahre zurueck, seitdem haben sich sowohl die Protokolle im Nasslabor als
auch die Analysen kontinuierlich weiterentwickelt und verbessert.
Die Menge an Daten, die von RNA-Seq tagtaeglich produziert wird, ist ohne Praezedenzfall und sowohl von Vor- als auch von Nachteil.
Detaillierte Analysen werden oft durch die ueberwaeltigende Masse an Daten erschwert.
Tatsaechlich werden die Daten haeufig in statistischen Masszahlen zusammengefasst, um sie ueberhaupt handhaben zu koennen.
Waehrend die Standard-Analyse von RNA-Seq Daten schon sehr gut etabliert ist, bleibt eine tiefgehende Analyse eine Herausforderung,
da es noch an passenden Methoden fehlt.
Wir moechten dezidiert die Masse der Daten ausnutzen und betonen daher die Wichtigkeit, die von RNA-Seq gebotene wertvolle Aufloesung nicht
zu ignorieren. Diese Aufloesung spiegelt sich wieder in der sogenannten 'per-base coverage', der Anzahl der reads pro Basenpaar.
Waehrend eine gewoehnliche RNA-Seq Analyse auf der Anzahl der reads pro Gen aufbaut, betonen wir, wie wichtig es ist, die Information des 'Coverage Pattern'
nicht zu vernachlaessigen. Wir haben eine Methode entwickelt, mit der solche Coverage Pattern bewertet werden koennen und zwar anhand der Fraktalen Dimension.
Wir zeigen, dass es eine Verbindung zwischen dem Graphen des Coverage Pattern und seiner Vertrauenswuerdigkeit gibt.
Infolgedessen sind wir in der Lage, fragwuerdige Coverage Pattern und moegliche Gruende, die sowohl im Nasslabor also auch in der Analyse liegen koennen, zu identifizieren.
Weiters widmen wir uns der Frage der notwendigen als auch hinreichenden Sequenziertiefe, um alle exprimierten Gene zu detektieren.
Die meisten Genexpressions-Studien sind an der Quantifizierung der differenziellen Genexpression interessiert.
Im Vergleich dazu schlagen wir eine globale Sichtweise der Dinge vor.
Wir fassen die Daten als eine Stichprobe auf (Anzahl der reads pro Gen\Position) und charakterisieren den zugrunde liegenden Prozess mittels Formeln, die aus
der Populationsgenetik kommen. Dies ermoeglicht uns realistisch die Verteilung von reads innerhalb von und auch zwischen Genen zu modellieren.
Der Nutzen dieser Methode fuer Simulationszwecke ist sofort ersichtlich.
Darueber hinaus sind wir sogar in der Lage, Prognosen ueber die Anzahl der zu erwartenden, neu detektierten Gene zu machen, gegeben einer
bestimmten Menge an reads.
Treibt man diese Fragestellung zum Aeussersten, dann fuehrt das zur Erforschung der Grenzen des jeweils vorliegenden Transkriptoms.
Das Repertoire an exprimierten Genen ist sicherlich nicht statisch und haengt von den spezifischen biologischen Gegebenheiten wie zum Beispiel Organismus, Gewebe, Zelltyp und Entwicklungsstatus ab. Daher ist diese Fragestellung von besonderem Interesse.