You are here: University of Vienna PHAIDRA Detail o:1425534
Title (eng)
Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Parallel title (deu)
Schnelles, genaues und benutzerfreundliches Alignment von Hochdurchsatz-Sequenzierdaten mit einer hohen Anzahl an Sequenzunterschieden
Author
Philipp Rescheneder
Adviser
Arndt von Haeseler
Assessor
Thomas Rattei
Assessor
Jens Stoye
Abstract (deu)
Das Aufkommen der Hochdurchsatz-Sequenzierung hat es uns ermöglicht genomische Variationen in einem noch nie dagewesenen Ausmaß zu studieren. Diese Untersuchungen gewährten uns Einblicke in die Entwicklung von Genomen, die Beeinflussung von Phänotypen durch genetische Veränderungen und die Mechanismen hinter zahlreichen Krankheiten. In groß angelegten Projekten wie dem 1000-Genome-Projekt oder ähnlichen Projekten für andere Modellorganismen wurden tausende von Genomen sequenziert und die gefundenen genetischen Varianten katalogisiert. Die meisten dieser Projekte verwenden einen referenzgenombasierten Analyseansatz, bei dem kurze, qualitativ hochwertige Sequenzen ausgelesen (sequenziert) und mit einem hochwertigen Referenzgenom wie dem menschlichen Genom verglichen werden. Unterschiede zwischen dem sequenzierten Genom und dem Referenzgenom - meist einzelne Nukleotidveränderungen oder kleine Varianten - werden dann mit speziellen Analyseprogrammen detektiert. In den letzten Jahren wurden zahlreiche hoch optimierte Analysewerkzeuge entwickelt um die immensen Datenmengen, die bei diesen Projekten anfallen, effizient zu analysieren. Diese Werkzeuge sind jedoch oft nicht auf Versuchsanordnungen anwendbar, bei denen entweder kein hochwertiges Referenzgenom existiert, andere, weniger genaue Sequenzierungstechnologien verwendet werden oder komplexere genetische Variationen untersucht werden und daher eine höhere Anzahl an Unterschieden zwischen dem sequenzierten Genom und dem Referenzgenome zu erwarten sind. In dieser Arbeit befassen wir uns mit diesem Problem, indem wir Analysewerkzeuge für die effizienten Analyse von kurzen und langen DNA-Sequenzen vorstellen, welche eine höhere Toleranz für Sequenzierungsfehler und evolutionären Abstand haben und dabei die gleiche Benutzerfreundlichkeit und kurze Laufzeiten bieten wie sie sonst nur höher spezialisierte Werkzeuge liefern. Darüber hinaus zeigen wir, wie unsere Analysewerkzeuge es Forschern ermöglichen, ein breites Spektrum an genetischen Variationen in Modellorganismen sowie in Nicht-Modellorganismen zu untersuchen.
Abstract (eng)
The advent of high-throughput sequencing has enabled us to study genomic variation at an unprecedented scale, providing us with insight into how genomes evolve, how phenotypes are influenced by genetic changes, and the mechanisms behind countless diseases. Large-scale projects, like the 1000 genomes project, or similar projects for other model organisms sequenced thousands of genomes and cataloged the genetic variation they found. Most of these projects use a reference genome-based analysis approach where short high-quality sequencing reads are aligned to a high-quality reference genome like the human genome. Differences between the sequenced and the reference genome - mostly single nucleotide changes or small variants - are then detected using specialised tools. Many analysis tools have been developed and optimised to efficiently analyse the immense amounts of data produced by these projects. However, these tools are often not applicable to experimental setups where either no high-quality reference genome exists, other less accurate sequencing technologies are used, more complex genetic variations are studied, or other sources of noise cause higher mismatch rates between the reads and the reference. In this thesis we address this issue by introducing short and long read mapping tools that handle higher numbers of differences caused by sequencing error, evolutionary distance, or custom experimental designs, while offering the same ease of use and short runtimes as more specialised tools. Furthermore, we show how our analysis tools can enable researchers to study a wide range of genetic variations in model organisms as well as non-model organisms.
Keywords (deu)
Hochdurchsatz-SequenzierungMappingLong readsShort readsStrukturelle VariantenAlignmentBioinformatik
Keywords (eng)
Next-generation SequencingMappingLong readShort readsStructural VariationAlignmentBioinformatics
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1425534
rdau:P60550 (deu)
xxi, 160 Seiten : Illustrationen
Number of pages
181
Members (1)
Title (eng)
Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Parallel title (deu)
Schnelles, genaues und benutzerfreundliches Alignment von Hochdurchsatz-Sequenzierdaten mit einer hohen Anzahl an Sequenzunterschieden
Author
Philipp Rescheneder
Abstract (deu)
Das Aufkommen der Hochdurchsatz-Sequenzierung hat es uns ermöglicht genomische Variationen in einem noch nie dagewesenen Ausmaß zu studieren. Diese Untersuchungen gewährten uns Einblicke in die Entwicklung von Genomen, die Beeinflussung von Phänotypen durch genetische Veränderungen und die Mechanismen hinter zahlreichen Krankheiten. In groß angelegten Projekten wie dem 1000-Genome-Projekt oder ähnlichen Projekten für andere Modellorganismen wurden tausende von Genomen sequenziert und die gefundenen genetischen Varianten katalogisiert. Die meisten dieser Projekte verwenden einen referenzgenombasierten Analyseansatz, bei dem kurze, qualitativ hochwertige Sequenzen ausgelesen (sequenziert) und mit einem hochwertigen Referenzgenom wie dem menschlichen Genom verglichen werden. Unterschiede zwischen dem sequenzierten Genom und dem Referenzgenom - meist einzelne Nukleotidveränderungen oder kleine Varianten - werden dann mit speziellen Analyseprogrammen detektiert. In den letzten Jahren wurden zahlreiche hoch optimierte Analysewerkzeuge entwickelt um die immensen Datenmengen, die bei diesen Projekten anfallen, effizient zu analysieren. Diese Werkzeuge sind jedoch oft nicht auf Versuchsanordnungen anwendbar, bei denen entweder kein hochwertiges Referenzgenom existiert, andere, weniger genaue Sequenzierungstechnologien verwendet werden oder komplexere genetische Variationen untersucht werden und daher eine höhere Anzahl an Unterschieden zwischen dem sequenzierten Genom und dem Referenzgenome zu erwarten sind. In dieser Arbeit befassen wir uns mit diesem Problem, indem wir Analysewerkzeuge für die effizienten Analyse von kurzen und langen DNA-Sequenzen vorstellen, welche eine höhere Toleranz für Sequenzierungsfehler und evolutionären Abstand haben und dabei die gleiche Benutzerfreundlichkeit und kurze Laufzeiten bieten wie sie sonst nur höher spezialisierte Werkzeuge liefern. Darüber hinaus zeigen wir, wie unsere Analysewerkzeuge es Forschern ermöglichen, ein breites Spektrum an genetischen Variationen in Modellorganismen sowie in Nicht-Modellorganismen zu untersuchen.
Abstract (eng)
The advent of high-throughput sequencing has enabled us to study genomic variation at an unprecedented scale, providing us with insight into how genomes evolve, how phenotypes are influenced by genetic changes, and the mechanisms behind countless diseases. Large-scale projects, like the 1000 genomes project, or similar projects for other model organisms sequenced thousands of genomes and cataloged the genetic variation they found. Most of these projects use a reference genome-based analysis approach where short high-quality sequencing reads are aligned to a high-quality reference genome like the human genome. Differences between the sequenced and the reference genome - mostly single nucleotide changes or small variants - are then detected using specialised tools. Many analysis tools have been developed and optimised to efficiently analyse the immense amounts of data produced by these projects. However, these tools are often not applicable to experimental setups where either no high-quality reference genome exists, other less accurate sequencing technologies are used, more complex genetic variations are studied, or other sources of noise cause higher mismatch rates between the reads and the reference. In this thesis we address this issue by introducing short and long read mapping tools that handle higher numbers of differences caused by sequencing error, evolutionary distance, or custom experimental designs, while offering the same ease of use and short runtimes as more specialised tools. Furthermore, we show how our analysis tools can enable researchers to study a wide range of genetic variations in model organisms as well as non-model organisms.
Keywords (deu)
Hochdurchsatz-SequenzierungMappingLong readsShort readsStrukturelle VariantenAlignmentBioinformatik
Keywords (eng)
Next-generation SequencingMappingLong readShort readsStructural VariationAlignmentBioinformatics
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1536645
Number of pages
181