Abstract (deu)
Die Funktion einer Zelle wird dadurch bestimmt, welche Gene zu einem bestimmten Zeitpunkt exprimiert werden, entweder als proteincodierende Gene oder als nicht-codierende RNAs. Die genaue Quantifizierung der Genexpression ist ein intensiv erforschtes Feld in der Molekularbiologie. Heutzutage, mit der weiten Verbreitung von Sequenzierungstechnologien der nchsten Generation, zu denen auch die RNA-Sequenzierung gehrt, ist die Erforschung der Genexpression in den medizinischen und biologischen Wissenschaften allgegenwrtig. Das experimentelle Verfahren zur RNA-Sequenzierung ist im Allgemeinen bekannt, wobei kommerzielle Kits und Automatisierungsoptionen zur Verfgung stehen. Die wahre Anzahl der in einer Zelle exprimierten Gene bleibt jedoch unbekannt. Basierend auf der Beobachtung, dass das experimentelle Laborverfahren der RNA-Sequenzierung aus einer Reihe von Probenereignissen besteht; von der Extraktion der RNA-Fraktion von Interesse (d.h. mRNA) bis hin zur Sequenzierung eines kleinen Aliquots der vorbereiteten Bibliothek, haben wir RNA-Sequenzierungsexperimente im Rahmen eines Probenproblems untersucht.
Zuerst stellen wir die Pitman Sampling Formula (PSF) vor, eine Sampling-Formel, die im Bereich der Populationsgenetik abgeleitet wurde und allgemein genug ist, um auf die Studie der RNA-Sequenzierung angewendet zu werden. Anschlieend haben wir die Anwendung von PSF und den daraus abgeleiteten Statistiken auf RNA-Sequenzierungsexperimente systematisch untersucht. Wir zeigten, dass das PSF einen genauen Rckschluss auf die Anzahl der unerkannten Gene eines RNASequenzierungsexperiments ermglicht. Im gleichen Umfang haben wir die Statistik des PSF verwendet, um die Anzahl der zustzlich detektierten Gene bei Erhhung der Sequenziertiefe zu schtzen, um den Kosten-Nutzen weiterer Sequenzierungsexperimente zu berechnen.
Zweitens haben wir den Stichprobenplan des PSF verwendet, um RNACountSim zu entwickeln, eine neue Methode zur Simulation von RNASequenzierungsexperimenten. Simulierte Daten sind heute der Schlssel fr die Entwicklung und Bewertung von Bioinformatikwerkzeugen. Fr die RNA-Sequenzierung werden Simulationswerkzeuge eingesetzt, um Zhldaten zu erzeugen, bei denen die Anzahl der Gene mit differentieller Expression bekannt ist. Viele der derzeit verfgbaren Methoden verwenden die gleiche Verteilung (z.B. negatives Binomial), um simulierte Daten zu erzeugen und dann auf differentielle Genexpression zu testen. Stattdessen haben wir die Hoppe Urne, ein Urnenmodell des PSF, verwendet, um Zhlmatrizen zu simulieren, bei denen die Anzahl der Gene, die eine unterschiedliche Expression zeigen, bekannt ist a priori. Wir verwendeten sowohl simulierte als auch experimentelle Replikate, um die Leistung von zwei weit verbreitetenWerkzeugen fr die differentielle Expression zu bewerten: edgeR und DESeq2. Wir haben hnliche Ergebnisse bei der Verwendung von simulierten und experimentellen Daten erzielt, was zeigt, dass RNACountSim simulierte Daten erzeugt, die an RNA-Sequenzierungsexperimente erinnern. Darber hinaus knnen wir mit RNACountSim RNA-Sequenzierungsexperimente simulieren, bei denen die Anzahl der differentiell exprimierten Gene bekannt ist, um aktuelle Werkzeuge zu bewerten, die auf differentielle Genexpression testen und bei der Entwicklung neuer Gene helfen.
Schlielich schlagen wir vor, die Verwendung des PSF zur Bewertung der Fertigstellung von Genom-Annotationsprojekten zu verwenden. Die Annotation eines Genoms ist eine titanische Aufgabe, die bei jedem Genomsequenzierungsprojekt anfllt. Da jedes Jahr mehr neue Genome sequenziert werden, ist die RNA-Sequenzierung heute eine der wichtigsten Methoden zur Verbesserung der Genomannotation. Hier haben wir mit dem PSF die Anzahl der Gene vorhergesagt, die noch zu kommentieren sind. Um diese Behauptung zu testen, haben wir die Annotation des menschlichen Genoms verwendet. Wir haben eine ltere Version der Annotation des menschlichen Genoms (Version 3b, vom 03.09.2009) ausgewhlt, um die Anzahl der noch zu annotierenden Gene vorherzusagen. Anschlieend verglichen wir unsere Vorhersagen mit einer aktuellen Version der Annotation (Version 25, vom 19.07.2016), die sieben Jahre kontinuierliche Verbesserung darstellt. Wir haben gezeigt, dass unsere Methode die Anzahl der in der neueren Version vorhandenen Gene genau vorhersagt und damit zeigt, dass das PSF gute zusammenfassende Statistiken liefert, um den Zustand der Annotation in aktuellen Genomprojekten zu bewerten.