You are here: University of Vienna PHAIDRA Detail o:1612270
Title (eng)
Alternative evolutionary processes and measures of phylogenetic information
Parallel title (deu)
Alternative Evolutionsprozesse und Maße der phylogenetischen Information
Author
Cassius Manuel Perez de los Cobos Hermosa
Adviser
Arndt von Haeseler
Assessor
Jörg Menche
Assessor
Marta Casanellas
Abstract (deu)
Die phylogenetische Rekonstruktion erfordert Annahmen über den evolutionären Prozess, den die beobachteten Sequenzen durchlaufen haben. Da ein falsches Modell eine korrekte Rekonstruktion verhindern kann, sind die Auswahl eines realistischen Modells und die Prüfung seiner Eignung wichtige Schritte. Im ersten Teil dieser Arbeit analysieren wir die übliche Annahme, dass alle Sequenzen entlang der Evolution möglich sind. Diese Annahme kann durch Restriktionsenzyme verletzt werden, die die DNA an bestimmten Erkennungsstellen schneiden. Dies motiviert unsere Beschreibung der Menge von Zeichenketten mit Tabus, d.h. mit verbotenen Teilketten. Wir beschreiben den Hamming-Graphen, dessen Knoten tabufreie Zeichenketten sind und dessen Kanten jede zwei Zeichenketten verbinden, die sich an einer einzigen Stelle unterscheiden. Jede Irrfahrt auf diesem Graphen räpresentiert die Entwicklung einer tabufreien Sequenz. Wir charakterisieren, wann der tabufreie Hamming-Graph und seine Suffix-Teilgraphen zusammenhängend sind. Unser Schluss ist, dass die Existenz von unverbundenen Evolutionspfaden in der Natur möglich, wenn auch unwahrscheinlich ist. Im zweiten Teil dieser Arbeit werden neue Maße der phylogenetische Informationen vorgeschlagen, um die Zuverlässigkeit eines bestimmten Evolutionsprozesses zu bewerten. Diese Maße sind die Kohärenz eines Astes, die die Abhängigkeit zwischen zwei benachbarten Gruppen quantifiziert, und das Gedächtnis einer Gruppe, das die Identifizierung des Elternknotens einer Gruppe quantifiziert. Wir zeigen die Beziehung zwischen diesen Maßen und der latenten Baumstruktur der Phylogenie. Dann wenden wir diese Maße an, um zwei phylogenetische Probleme zu beschreiben. Erstens verwenden wir die Kohärenz, um einen trennschärfen Test auf Sättigung entlang eines Astes einer Phylogenie zu konstruieren. Zweitens wird das Gedächtnis verwendet, um den Informationsfluss von Kindernknoten zu Elternknoten in einem d-Weg Baum während der Rekonstruktion der Stammidentität zu begrenzen.
Abstract (eng)
Phylogenetic reconstruction requires making assumptions about the evolutionary process underwent by the observed sequences. Since model misspecification can impede a correct reconstruction, it is important to choose a realistic model and test its adequacy. In the first part of this thesis, we analyze the common assumption that all sequences are possible along evolution. This assumption may be violated due to restriction enzymes that cleave DNA at specific recognition sites, motivating our description of the set of strings over a finite alphabet with taboos, that is, with prohibited substrings. We consider the Hamming graph whose vertices are taboo-free strings, and whose edges connect any two strings differing at a single site. Any walk on this graph describes the evolution of a taboo-free sequence. We characterize when the taboo-free Hamming graph and its suffix subgraphs are connected, concluding that the existence of disconnected evolutionary paths in nature is possible, although unlikely. The second part of this thesis proposes new measures of phylogenetic information to assess the reliability of conclusions drawn from phylogenetic inference. These measures are the coherence of a branch, quantifying the dependence between two adjacent clades, and the memory of a clade, which quantifies the identification of the parent node of a clade. We explain the relationship of these measures with the underlying tree structure of the phylogeny, and then apply them to describe two problems of phylogenetics. First, we use the coherence to construct a powerful test for saturation along a branch of a phylogeny. Secondly, the memory is used to bound the information flow from children to parent node on a d-ary tree during the reconstruction of the root identity.
Keywords (deu)
Phylogenetische RekonstruktionMarkov-ProzessInformationstheorieSättigung
Keywords (eng)
Phylogenetic reconstructionMarkov processInformation theorySaturation
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1612270
rdau:P60550 (deu)
xii, 132 Seiten : Illustrationen
Number of pages
144
Members (1)
Title (eng)
Alternative evolutionary processes and measures of phylogenetic information
Parallel title (deu)
Alternative Evolutionsprozesse und Maße der phylogenetischen Information
Author
Cassius Manuel Perez de los Cobos Hermosa
Abstract (deu)
Die phylogenetische Rekonstruktion erfordert Annahmen über den evolutionären Prozess, den die beobachteten Sequenzen durchlaufen haben. Da ein falsches Modell eine korrekte Rekonstruktion verhindern kann, sind die Auswahl eines realistischen Modells und die Prüfung seiner Eignung wichtige Schritte. Im ersten Teil dieser Arbeit analysieren wir die übliche Annahme, dass alle Sequenzen entlang der Evolution möglich sind. Diese Annahme kann durch Restriktionsenzyme verletzt werden, die die DNA an bestimmten Erkennungsstellen schneiden. Dies motiviert unsere Beschreibung der Menge von Zeichenketten mit Tabus, d.h. mit verbotenen Teilketten. Wir beschreiben den Hamming-Graphen, dessen Knoten tabufreie Zeichenketten sind und dessen Kanten jede zwei Zeichenketten verbinden, die sich an einer einzigen Stelle unterscheiden. Jede Irrfahrt auf diesem Graphen räpresentiert die Entwicklung einer tabufreien Sequenz. Wir charakterisieren, wann der tabufreie Hamming-Graph und seine Suffix-Teilgraphen zusammenhängend sind. Unser Schluss ist, dass die Existenz von unverbundenen Evolutionspfaden in der Natur möglich, wenn auch unwahrscheinlich ist. Im zweiten Teil dieser Arbeit werden neue Maße der phylogenetische Informationen vorgeschlagen, um die Zuverlässigkeit eines bestimmten Evolutionsprozesses zu bewerten. Diese Maße sind die Kohärenz eines Astes, die die Abhängigkeit zwischen zwei benachbarten Gruppen quantifiziert, und das Gedächtnis einer Gruppe, das die Identifizierung des Elternknotens einer Gruppe quantifiziert. Wir zeigen die Beziehung zwischen diesen Maßen und der latenten Baumstruktur der Phylogenie. Dann wenden wir diese Maße an, um zwei phylogenetische Probleme zu beschreiben. Erstens verwenden wir die Kohärenz, um einen trennschärfen Test auf Sättigung entlang eines Astes einer Phylogenie zu konstruieren. Zweitens wird das Gedächtnis verwendet, um den Informationsfluss von Kindernknoten zu Elternknoten in einem d-Weg Baum während der Rekonstruktion der Stammidentität zu begrenzen.
Abstract (eng)
Phylogenetic reconstruction requires making assumptions about the evolutionary process underwent by the observed sequences. Since model misspecification can impede a correct reconstruction, it is important to choose a realistic model and test its adequacy. In the first part of this thesis, we analyze the common assumption that all sequences are possible along evolution. This assumption may be violated due to restriction enzymes that cleave DNA at specific recognition sites, motivating our description of the set of strings over a finite alphabet with taboos, that is, with prohibited substrings. We consider the Hamming graph whose vertices are taboo-free strings, and whose edges connect any two strings differing at a single site. Any walk on this graph describes the evolution of a taboo-free sequence. We characterize when the taboo-free Hamming graph and its suffix subgraphs are connected, concluding that the existence of disconnected evolutionary paths in nature is possible, although unlikely. The second part of this thesis proposes new measures of phylogenetic information to assess the reliability of conclusions drawn from phylogenetic inference. These measures are the coherence of a branch, quantifying the dependence between two adjacent clades, and the memory of a clade, which quantifies the identification of the parent node of a clade. We explain the relationship of these measures with the underlying tree structure of the phylogeny, and then apply them to describe two problems of phylogenetics. First, we use the coherence to construct a powerful test for saturation along a branch of a phylogeny. Secondly, the memory is used to bound the information flow from children to parent node on a d-ary tree during the reconstruction of the root identity.
Keywords (deu)
Phylogenetische RekonstruktionMarkov-ProzessInformationstheorieSättigung
Keywords (eng)
Phylogenetic reconstructionMarkov processInformation theorySaturation
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1622878
Number of pages
144