Abstract (deu)
Präzise Messungen des Zustandes eines biologischen Systems bilden eine Grundlage der quantitativen Biologie - also jenes wissenschaftlichen Gebietes welches sich mit der Erstellung und Validierung quantitativer Modelle biologischer Systeme beschäftigt. Solche Techniken, beispielsweise zur Messung der Abundanz von Transkripten oder verschiedener mikrobieller Spezies, basieren oft auf Sequenzierungsmethoden hohen Durchsatzes (eng. next-generation sequencing; NGS).
Einer der hauptsächlichen die Genauigkeit limitierenden Faktoren in quantitativen NGS-Anwendungen sind Verzerrungen der gemessenen Abundanzen wegen der bevorzugten Amplifikation mancher Sequenzen durch die Polymerasekettenreaktion (eng. polymerase chain reaction; PCR). Um das zu vermeiden wird vor der Amplifikation jedes Molekül mit einem eindeutigen molekularen Identifikator (eng. unique molecular Identifier; UMI) versehen, und Abundanzen werden dann aus der Anzahl an verschiedenen UMIs geschätzt, nicht aus der Anzahl an sequenzierten Kopien. Aber auch die Anzahl an UMIs wird, wenngleich schwächer, trotzdem indirekt durch bevorzugte Amplifikation verzerrt; stärkere Amplifikation eines Moleküles reduziert das Risiko, dass keine seiner Kopien sequenziert und das Molekül damit nicht gezählt wird. Dieser indirekte Effekt kann nur durch Korrekturen in silico in Angriff genommen werden.
Dazu stellt diese Arbeit die Methode TRUmiCount vor, welche auf einem Modell der PCR als stochastischer Galton-Watson Verzweigungsprozess und von Sequenzierung als Poisson'scher Stichprobennahme basiert. Damit schätzt TRUmiCount die Anzahl an nicht beobachteten Molekülen aus jener der beobachteten, und verwendete eine statistische Rauschunterdrückungstechnik um diese Schätzung auf die Ebene einzelner Transkripte oder mikrobieller Spezies zu erweitern. Mit Hilfe von TRUmiCount können damit indirekte PCR-bedingte Verzerrungen korrigiert werden, und für UMI-basierte RNA-Sequenzierung wird gezeigt, dass TRUmiCount aus verzerrten Rohdaten unverzerrte Transkriptabundanzen ermitteln kann.
iPool-Seq (eng. insertion pool sequencing) ist eine experimentelle Methode zum Studium von Wirt-Pathogen-Systemen, z.B. Mais und Ustilago maydis (Verursacher des Maisbeulenbrandes), und profitiert ebenfalls von TRUmiCount. iPool-Seq vergleicht die Abundanz von Mutanten des Pathogens vor und nach der Infektion des Wirts, und identifiziert Mutanten mit veränderter Virulenz - ihrer Fähigkeit, sich auf dem Wirt zu vermehren. Es wird gezeigt, dass TRUmiCount die Genauigkeit dieser Messungen erhöht, und damit verhindert, dass PCR-bedingte Verzerrungen die gemessenen Virulenzen beeinflussen.
Die statistische Analyse von TRUmiCount-korrigierten NGS-Daten muss berücksichtigen, dass korrigierte Abundanzen nicht mehr ganzzahlig sind, und typischen Poisson'schen Annahmen über das Mittelwert-Varianz-Verhältnis nicht mehr entsprechen. Um zu zeigen wie diese Probleme umgangen werden können, leiten wir ein statistisches Modell für iPool-Seq her in welches Korrekturen für indirekte PCR-Verzerrungen einfließen, und zeigen, dass damit signifikante von insignifikanten Virulenzänderungen unterschieden werden können.
Abschließend wird ein benutzerfreundliches Programm zur Analyse von iPool-Seq-Daten präsentiert. Es inkludiert alle Schritte um aus rohen Sequenzdaten (korrigierte) Abundanzen zu ermitteln, und bestimmt für alle Mutanten Virulenz sowie die Signifikanz ihrer Abweichung vom Wildtyp. Eine schrittweise Beschreibung aller notwendigen Labor- und Datenauswertungsschritte, soll die Methode einem möglichst großen Kreis an Benutzern zugänglich machen.
Teile dieser Arbeit wurden in folgenden Artikeln publiziert:
Pflug F. G., & von Haeseler A. (2018). TRUmiCount: correctly counting absolute
numbers of molecules using unique molecular identifiers. Bioinformatics, 34(18),
3137–3144. DOI:10.1093/bioinformatics/bty283.
Uhse S., Pflug F. G., Stirnberg A., Ehrlinger K., von Haeseler A., & Djamei A.
(2018). In vivo insertion pool sequencing identifies virulence factors in a complex fungal-host interaction. PLoS Biology, 16(4), e2005129. DOI:10.1371/journal. pbio.2005129.
Uhse S., Pflug F. G., von Haeseler A., & Djamei A. (2019). Insertion pool sequencing for insertional mutant analysis in complex host-microbe interactions. Current Protocols in Plant Biology, 4, e20097. DOI:10.1002/cppb.20097.