You are here: University of Vienna PHAIDRA Detail o:1303032
Title (eng)
Exploring the transcriptome
innovative methods for analyzing RNA-Seq data
Parallel title (deu)
Die Erforschung des Transkriptoms ; neue Methoden zur Analyse von RNA-Seq Daten
Author
Stefanie Tauber
Adviser
Arndt von Haeseler
Assessor
Andreas Futschik
Assessor
Tim Beissbarth
Abstract (deu)
Das Schicksal einer Zelle wird von der Menge aller exprimierten Proteine bestimmt, die wiederum fuer den Phaenotyp der Zelle und fuer alle metabolischen Prozesse verantwortlich ist. Da sich die Quantifizierung aller exprimierten Proteine als ausserordentlich schwierig erwiesen hat, wird stattdessen das Transkriptom, die Menge aller exprimierten Gene, zur Untersuchung herangezogen. RNA Sequenzierung (RNA-Seq) stellt die modernste Technologie fuer gross angelegte Untersuchungen von Genexpression dar. Der Sequenzierer gibt kurze Sequenzstuecke aus, sogenannte 'reads', momentan circa 10^8 reads pro Sequenzierung. Indem man das Gen, von dem der jeweilige read stammt, identifiziert und dann die Anzahl der reads pro Gen aufsummiert, erhaelt man eine Approximation der zugrunde liegenden Genexpression. Im Vergleich zu aelteren Technologien koennen nicht nur schon bekannte Gene abgefragt werden. Im Gegenteil, RNA-Seq benoetigt keinerlei Vorwissen ueber die Struktur der jeweils vorliegenden Gene. Weiters ist die realisierte Aufloesung von RNA-Seq bestmoeglich - am Basenpaar-Level. Die Anfaenge der RNA-Seq Technologie liegen circa acht Jahre zurueck, seitdem haben sich sowohl die Protokolle im Nasslabor als auch die Analysen kontinuierlich weiterentwickelt und verbessert. Die Menge an Daten, die von RNA-Seq tagtaeglich produziert wird, ist ohne Praezedenzfall und sowohl von Vor- als auch von Nachteil. Detaillierte Analysen werden oft durch die ueberwaeltigende Masse an Daten erschwert. Tatsaechlich werden die Daten haeufig in statistischen Masszahlen zusammengefasst, um sie ueberhaupt handhaben zu koennen. Waehrend die Standard-Analyse von RNA-Seq Daten schon sehr gut etabliert ist, bleibt eine tiefgehende Analyse eine Herausforderung, da es noch an passenden Methoden fehlt. Wir moechten dezidiert die Masse der Daten ausnutzen und betonen daher die Wichtigkeit, die von RNA-Seq gebotene wertvolle Aufloesung nicht zu ignorieren. Diese Aufloesung spiegelt sich wieder in der sogenannten 'per-base coverage', der Anzahl der reads pro Basenpaar. Waehrend eine gewoehnliche RNA-Seq Analyse auf der Anzahl der reads pro Gen aufbaut, betonen wir, wie wichtig es ist, die Information des 'Coverage Pattern' nicht zu vernachlaessigen. Wir haben eine Methode entwickelt, mit der solche Coverage Pattern bewertet werden koennen und zwar anhand der Fraktalen Dimension. Wir zeigen, dass es eine Verbindung zwischen dem Graphen des Coverage Pattern und seiner Vertrauenswuerdigkeit gibt. Infolgedessen sind wir in der Lage, fragwuerdige Coverage Pattern und moegliche Gruende, die sowohl im Nasslabor also auch in der Analyse liegen koennen, zu identifizieren. Weiters widmen wir uns der Frage der notwendigen als auch hinreichenden Sequenziertiefe, um alle exprimierten Gene zu detektieren. Die meisten Genexpressions-Studien sind an der Quantifizierung der differenziellen Genexpression interessiert. Im Vergleich dazu schlagen wir eine globale Sichtweise der Dinge vor. Wir fassen die Daten als eine Stichprobe auf (Anzahl der reads pro Gen\Position) und charakterisieren den zugrunde liegenden Prozess mittels Formeln, die aus der Populationsgenetik kommen. Dies ermoeglicht uns realistisch die Verteilung von reads innerhalb von und auch zwischen Genen zu modellieren. Der Nutzen dieser Methode fuer Simulationszwecke ist sofort ersichtlich. Darueber hinaus sind wir sogar in der Lage, Prognosen ueber die Anzahl der zu erwartenden, neu detektierten Gene zu machen, gegeben einer bestimmten Menge an reads. Treibt man diese Fragestellung zum Aeussersten, dann fuehrt das zur Erforschung der Grenzen des jeweils vorliegenden Transkriptoms. Das Repertoire an exprimierten Genen ist sicherlich nicht statisch und haengt von den spezifischen biologischen Gegebenheiten wie zum Beispiel Organismus, Gewebe, Zelltyp und Entwicklungsstatus ab. Daher ist diese Fragestellung von besonderem Interesse.
Abstract (eng)
The fate of a cell is determined by the set of expressed proteins which governs its phenotype and all metabolic processes. Since quantification of the present protein spectrum turned out to be rather difficult, the transcriptome, the set of all expressed genes, is monitored instead. RNA Sequencing (RNA-Seq) constitutes the state-of-the-art technology for large- scale gene expression screens. The output from the sequencing machine are short sequence tags, so-called reads, currently in the order of 108. By identifying the gene from which each read originates and by counting the number of reads per gene, we obtain an estimate for the underlying gene abundance. In contrast to former technologies, interrogation of gene expression is not restricted to already known genes. Thus, an uninformed view on the present transcriptome is achieved. Moreover, the obtained resolution is at the finest possible level - at the base pair level. RNA-Seq arose at about eight years ago, since then the library preparation protocols in the wet-lab as well as the subsequent analysis workflows have been continuously improved. Yet, the unprecedented amount of data as produced by RNA-Seq is its boon and bane. In-depth analysis is often hindered by the overwhelming mass of data. In fact it frequently happens that the data is merely wrapped up into summary statistics to be able to handle it at all. Thus, while the standard workflow of RNA-Seq is already well established, a detailed analysis remains a challenging task as a consequence of a shortcoming of methods to do so. Here we deliberately enter the wealth of data and stress the point of not neglecting the valuable resolution of RNA-Seq which is reflected in the per-base coverage, the number of reads per position of a given gene. While typically all RNA-Seq analysis is centered on the read counts, we argue not be oblivious of the information contained in the coverage patterns. We contribute a method how to evaluate these patterns by consulting a classical measure, namely the Fractal Dimension. We link the roughness of a coverage graph to its reliability and are thus able to pinpoint suspicious coverage patterns and, as a consequence, unravel its causes being pitfalls while library preparation or analysis. Additionally, we address the question of the necessary as well as sufficient sequencing depth in order to detect all expressed genes. While the typical aim of the vast majority of global gene expression studies lies in the gene-wise inference of differential expression we propose a global perspective upon the sequencing data. We consider the data as a sampling process (number of reads per gene\position) which may be modeled by sampling formulas originating in the field of population genetics. These sampling formulas allow us to realistically capture the distribution of reads within and between genes which is of immediate benefit for simulation tools. Moreover, we are even in the position of making valid predictions about the expected number of newly detected genes given a certain amount of sequencing reads. Carrying this question to the extreme results in the exploration of the boundaries of the respective underlying transcriptome. Since the repertoire of expressed genes is far from being static and depends on the specific biological set-up such as organism, tissue, cell type and developmental state this question is of particular interest.
Keywords (eng)
RNA-Seq datamodeling the sampling processfractal dimensionpitman sampling formula
Keywords (deu)
RNA-Seq DatenModellierungfraktale DimensionPitman Sampling Formula
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1303032
rdau:P60550 (deu)
XVII, 94. S. : Ill., graph. Darst.
Number of pages
112
Members (1)
Title (eng)
Exploring the transcriptome
innovative methods for analyzing RNA-Seq data
Parallel title (deu)
Die Erforschung des Transkriptoms ; neue Methoden zur Analyse von RNA-Seq Daten
Author
Stefanie Tauber
Abstract (deu)
Das Schicksal einer Zelle wird von der Menge aller exprimierten Proteine bestimmt, die wiederum fuer den Phaenotyp der Zelle und fuer alle metabolischen Prozesse verantwortlich ist. Da sich die Quantifizierung aller exprimierten Proteine als ausserordentlich schwierig erwiesen hat, wird stattdessen das Transkriptom, die Menge aller exprimierten Gene, zur Untersuchung herangezogen. RNA Sequenzierung (RNA-Seq) stellt die modernste Technologie fuer gross angelegte Untersuchungen von Genexpression dar. Der Sequenzierer gibt kurze Sequenzstuecke aus, sogenannte 'reads', momentan circa 10^8 reads pro Sequenzierung. Indem man das Gen, von dem der jeweilige read stammt, identifiziert und dann die Anzahl der reads pro Gen aufsummiert, erhaelt man eine Approximation der zugrunde liegenden Genexpression. Im Vergleich zu aelteren Technologien koennen nicht nur schon bekannte Gene abgefragt werden. Im Gegenteil, RNA-Seq benoetigt keinerlei Vorwissen ueber die Struktur der jeweils vorliegenden Gene. Weiters ist die realisierte Aufloesung von RNA-Seq bestmoeglich - am Basenpaar-Level. Die Anfaenge der RNA-Seq Technologie liegen circa acht Jahre zurueck, seitdem haben sich sowohl die Protokolle im Nasslabor als auch die Analysen kontinuierlich weiterentwickelt und verbessert. Die Menge an Daten, die von RNA-Seq tagtaeglich produziert wird, ist ohne Praezedenzfall und sowohl von Vor- als auch von Nachteil. Detaillierte Analysen werden oft durch die ueberwaeltigende Masse an Daten erschwert. Tatsaechlich werden die Daten haeufig in statistischen Masszahlen zusammengefasst, um sie ueberhaupt handhaben zu koennen. Waehrend die Standard-Analyse von RNA-Seq Daten schon sehr gut etabliert ist, bleibt eine tiefgehende Analyse eine Herausforderung, da es noch an passenden Methoden fehlt. Wir moechten dezidiert die Masse der Daten ausnutzen und betonen daher die Wichtigkeit, die von RNA-Seq gebotene wertvolle Aufloesung nicht zu ignorieren. Diese Aufloesung spiegelt sich wieder in der sogenannten 'per-base coverage', der Anzahl der reads pro Basenpaar. Waehrend eine gewoehnliche RNA-Seq Analyse auf der Anzahl der reads pro Gen aufbaut, betonen wir, wie wichtig es ist, die Information des 'Coverage Pattern' nicht zu vernachlaessigen. Wir haben eine Methode entwickelt, mit der solche Coverage Pattern bewertet werden koennen und zwar anhand der Fraktalen Dimension. Wir zeigen, dass es eine Verbindung zwischen dem Graphen des Coverage Pattern und seiner Vertrauenswuerdigkeit gibt. Infolgedessen sind wir in der Lage, fragwuerdige Coverage Pattern und moegliche Gruende, die sowohl im Nasslabor also auch in der Analyse liegen koennen, zu identifizieren. Weiters widmen wir uns der Frage der notwendigen als auch hinreichenden Sequenziertiefe, um alle exprimierten Gene zu detektieren. Die meisten Genexpressions-Studien sind an der Quantifizierung der differenziellen Genexpression interessiert. Im Vergleich dazu schlagen wir eine globale Sichtweise der Dinge vor. Wir fassen die Daten als eine Stichprobe auf (Anzahl der reads pro Gen\Position) und charakterisieren den zugrunde liegenden Prozess mittels Formeln, die aus der Populationsgenetik kommen. Dies ermoeglicht uns realistisch die Verteilung von reads innerhalb von und auch zwischen Genen zu modellieren. Der Nutzen dieser Methode fuer Simulationszwecke ist sofort ersichtlich. Darueber hinaus sind wir sogar in der Lage, Prognosen ueber die Anzahl der zu erwartenden, neu detektierten Gene zu machen, gegeben einer bestimmten Menge an reads. Treibt man diese Fragestellung zum Aeussersten, dann fuehrt das zur Erforschung der Grenzen des jeweils vorliegenden Transkriptoms. Das Repertoire an exprimierten Genen ist sicherlich nicht statisch und haengt von den spezifischen biologischen Gegebenheiten wie zum Beispiel Organismus, Gewebe, Zelltyp und Entwicklungsstatus ab. Daher ist diese Fragestellung von besonderem Interesse.
Abstract (eng)
The fate of a cell is determined by the set of expressed proteins which governs its phenotype and all metabolic processes. Since quantification of the present protein spectrum turned out to be rather difficult, the transcriptome, the set of all expressed genes, is monitored instead. RNA Sequencing (RNA-Seq) constitutes the state-of-the-art technology for large- scale gene expression screens. The output from the sequencing machine are short sequence tags, so-called reads, currently in the order of 108. By identifying the gene from which each read originates and by counting the number of reads per gene, we obtain an estimate for the underlying gene abundance. In contrast to former technologies, interrogation of gene expression is not restricted to already known genes. Thus, an uninformed view on the present transcriptome is achieved. Moreover, the obtained resolution is at the finest possible level - at the base pair level. RNA-Seq arose at about eight years ago, since then the library preparation protocols in the wet-lab as well as the subsequent analysis workflows have been continuously improved. Yet, the unprecedented amount of data as produced by RNA-Seq is its boon and bane. In-depth analysis is often hindered by the overwhelming mass of data. In fact it frequently happens that the data is merely wrapped up into summary statistics to be able to handle it at all. Thus, while the standard workflow of RNA-Seq is already well established, a detailed analysis remains a challenging task as a consequence of a shortcoming of methods to do so. Here we deliberately enter the wealth of data and stress the point of not neglecting the valuable resolution of RNA-Seq which is reflected in the per-base coverage, the number of reads per position of a given gene. While typically all RNA-Seq analysis is centered on the read counts, we argue not be oblivious of the information contained in the coverage patterns. We contribute a method how to evaluate these patterns by consulting a classical measure, namely the Fractal Dimension. We link the roughness of a coverage graph to its reliability and are thus able to pinpoint suspicious coverage patterns and, as a consequence, unravel its causes being pitfalls while library preparation or analysis. Additionally, we address the question of the necessary as well as sufficient sequencing depth in order to detect all expressed genes. While the typical aim of the vast majority of global gene expression studies lies in the gene-wise inference of differential expression we propose a global perspective upon the sequencing data. We consider the data as a sampling process (number of reads per gene\position) which may be modeled by sampling formulas originating in the field of population genetics. These sampling formulas allow us to realistically capture the distribution of reads within and between genes which is of immediate benefit for simulation tools. Moreover, we are even in the position of making valid predictions about the expected number of newly detected genes given a certain amount of sequencing reads. Carrying this question to the extreme results in the exploration of the boundaries of the respective underlying transcriptome. Since the repertoire of expressed genes is far from being static and depends on the specific biological set-up such as organism, tissue, cell type and developmental state this question is of particular interest.
Keywords (eng)
RNA-Seq datamodeling the sampling processfractal dimensionpitman sampling formula
Keywords (deu)
RNA-Seq DatenModellierungfraktale DimensionPitman Sampling Formula
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1303033
Number of pages
112