You are here: University of Vienna PHAIDRA Detail o:1330147
Title (eng)
Unsupervised construction, evaluation and visualisation of RNA family models
Author
Florian Eggenhofer
Advisor
Ivo Hofacker
Assessor
Thomas Rattei
Assessor
Jan Gorodkin
Abstract (deu)
RNA-Familien werden in den Computerwissenschaften durch RNA-Familien Modelle, auch bekannt als Covarianz-Modelle repräsentiert. Covarianz-Modelle bilden Struktur und Sequenz der Familie als statistisches Modell ab. Sie machen es möglich weitere, zuvor unbekannte, Vertreter der RNA Familie in genomischen Sequenzen zu identifizieren. Dieser Vorgang ermöglicht es bekanntes Wissen und experimentelle Ergebnisse von einem auf den anderen Organismus zu transferieren und vereinfacht das Design neuer Experimente. In der Vergangenheit wurden RNA-Familien Modelle durch manuelles Sammeln und Verfeinern, oder durch automatische Losungen für einige wenige spezielle RNA Familien konstruiert. Die Publikation ”RNAlien - Unsupervised RNA-family model construction” stellt eine neue Methode zum automatischen Konstruieren solcher Modelle, prinzipiell für jede RNA Sequenz, vor. RNAlien, ausgehend von einer einzelnen Eingabesequenz, sammelt potentielle Familien- mitglieder durch multiple Iteration von Homologiesuche. RNA-Familien Modelle werden automatisch für die gefundenen Sequenzen gebaut. Die Qualitat von RNA-Familien Modellen und ihre Leistungsfähigkeit in der Homologiesuche hängt von verschiedenen Faktoren ab. RNAlien wertet sowohl die Modelle, als auch die alignierten Sequenzen die zum Bau der Modelle verwendet wurden, aus um so viel Information wie möglich zur Verfügung zu stellen. Dies berücksichtigt allerdings nur das neukonstruierte Modell und setzt es nicht in Beziehung zu anderen Modellen. Die folgende Publikation, mit dem Titel ”CMCompare webserver: comparing RNA families via covariance models”, behandelt den Vergleich zwischen Modellen. Dies erlaubt die Identifizierung von Modellen mit schlecher Spezifität und die Untersuchung von Beziehungen zwischen Modellen. Visualisierung dieser Zusammenhänge hilft bei der Identifizierung von Kandidaten für Clans, Gruppen biologisch verknüpfter Familien. Darüberhinaus wird ein Programmpacket, mit dem Namen TaxonomyTools, vorgestellt, welches die Visualsierung und den Vergleich der Taxonomie von gefundenen RNA Familien Mitgliedern ermöglicht. Sequenzen von Familienmitglieder, die von RNAlien wahrend des Konstruktionsprozesses identifiziert wurden, sind ein Ausgangspunkt für die weitere Untersuchung der Familie. UCSC genome browser hubs visualisieren die gefundenen Familienmitglieder in ihrem genomischen Kontext, was Eigenschaften wie zum Beispiel Orthologie sichtbar macht. Methoden um solche Hubs zu bauen wurden als Beitrag mit der Publikation ”ViennaNGS: A toolbox for building efficient next-generation sequencing analysis pipelines” veröffentlicht und werden hier präsentiert.
Abstract (eng)
RNA performs important functions in all organisms, for example mediating gene expression. RNAs are often evolutionary conserved over large set of species, giving rise to families of homologous RNA genes. These RNA families exhibit not only sequence similarity, but are often characterized by strong conservation of the RNA structure. Computationally, RNA families are represented by RNA-family models, also known as covariance models. Covariance models capture structure and sequence of the family in a probabilistic model. They enable the prediction of additional, previously unknown, members of the RNA-family from genomic sequences. This allows a knowledge transfer between organisms and helps in designing experiments. Up to now RNA-family models were constructed by manual collection and curation, or automatic solutions for a few specific RNA families. The peer- reviewed publication for ”RNAlien - Unsupervised RNA-family model construction” introduces a novel method to automatically construct such models, in principle for any RNA sequence. RNAlien, starting from a single input se- quence collects potential family member sequences by multiple iterations of homology search. RNA-family models are fully automatically constructed for the found sequences. The quality of RNA-family models and their performance in homology search depends on several factors. RNAlien evaluates both the models as well as the aligned sequences used to build them, to provide as much information about the model as possible. However this takes only the novel model itself into consideration, but does not investigate it in context with other models. The following manuscript, with the title ”CMCompare webserver: comparing RNA families via covariance models”, addresses the comparison between models. This allows to identify models with poor specificity and to explore the relationship between models. Visualisation of family relationships helps in identifying candidates for clans, groups of biologically related families. Moreover the thesis presents a novel tool to visualise and compare the taxonomy of of found RNA-family members, called TaxonomyTools. Family member sequences found by RNAlien during the model construction process are also a useful starting point for investigating families. UCSC genome browser hubs visualise the found family members in their genetic context, showing traits like orthology. Methods to constructs such hubs were contributed to the publication ”ViennaNGS: A toolbox for building efficient next- generation sequencing analysis pipelines” and are also presented in the thesis.
Keywords (eng)
RNARNA familyTaxonomyHomology searchCovariance model
Keywords (deu)
RNARibonukleinsäureRNA FamilieTaxonomieHomologiesucheCovarianzmodel
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1330147
rdau:P60550 (deu)
XIII, 137 Seiten : Diagramme
Number of pages
151
Association (deu)
Members (1)
Title (eng)
Unsupervised construction, evaluation and visualisation of RNA family models
Author
Florian Eggenhofer
Abstract (deu)
RNA-Familien werden in den Computerwissenschaften durch RNA-Familien Modelle, auch bekannt als Covarianz-Modelle repräsentiert. Covarianz-Modelle bilden Struktur und Sequenz der Familie als statistisches Modell ab. Sie machen es möglich weitere, zuvor unbekannte, Vertreter der RNA Familie in genomischen Sequenzen zu identifizieren. Dieser Vorgang ermöglicht es bekanntes Wissen und experimentelle Ergebnisse von einem auf den anderen Organismus zu transferieren und vereinfacht das Design neuer Experimente. In der Vergangenheit wurden RNA-Familien Modelle durch manuelles Sammeln und Verfeinern, oder durch automatische Losungen für einige wenige spezielle RNA Familien konstruiert. Die Publikation ”RNAlien - Unsupervised RNA-family model construction” stellt eine neue Methode zum automatischen Konstruieren solcher Modelle, prinzipiell für jede RNA Sequenz, vor. RNAlien, ausgehend von einer einzelnen Eingabesequenz, sammelt potentielle Familien- mitglieder durch multiple Iteration von Homologiesuche. RNA-Familien Modelle werden automatisch für die gefundenen Sequenzen gebaut. Die Qualitat von RNA-Familien Modellen und ihre Leistungsfähigkeit in der Homologiesuche hängt von verschiedenen Faktoren ab. RNAlien wertet sowohl die Modelle, als auch die alignierten Sequenzen die zum Bau der Modelle verwendet wurden, aus um so viel Information wie möglich zur Verfügung zu stellen. Dies berücksichtigt allerdings nur das neukonstruierte Modell und setzt es nicht in Beziehung zu anderen Modellen. Die folgende Publikation, mit dem Titel ”CMCompare webserver: comparing RNA families via covariance models”, behandelt den Vergleich zwischen Modellen. Dies erlaubt die Identifizierung von Modellen mit schlecher Spezifität und die Untersuchung von Beziehungen zwischen Modellen. Visualisierung dieser Zusammenhänge hilft bei der Identifizierung von Kandidaten für Clans, Gruppen biologisch verknüpfter Familien. Darüberhinaus wird ein Programmpacket, mit dem Namen TaxonomyTools, vorgestellt, welches die Visualsierung und den Vergleich der Taxonomie von gefundenen RNA Familien Mitgliedern ermöglicht. Sequenzen von Familienmitglieder, die von RNAlien wahrend des Konstruktionsprozesses identifiziert wurden, sind ein Ausgangspunkt für die weitere Untersuchung der Familie. UCSC genome browser hubs visualisieren die gefundenen Familienmitglieder in ihrem genomischen Kontext, was Eigenschaften wie zum Beispiel Orthologie sichtbar macht. Methoden um solche Hubs zu bauen wurden als Beitrag mit der Publikation ”ViennaNGS: A toolbox for building efficient next-generation sequencing analysis pipelines” veröffentlicht und werden hier präsentiert.
Abstract (eng)
RNA performs important functions in all organisms, for example mediating gene expression. RNAs are often evolutionary conserved over large set of species, giving rise to families of homologous RNA genes. These RNA families exhibit not only sequence similarity, but are often characterized by strong conservation of the RNA structure. Computationally, RNA families are represented by RNA-family models, also known as covariance models. Covariance models capture structure and sequence of the family in a probabilistic model. They enable the prediction of additional, previously unknown, members of the RNA-family from genomic sequences. This allows a knowledge transfer between organisms and helps in designing experiments. Up to now RNA-family models were constructed by manual collection and curation, or automatic solutions for a few specific RNA families. The peer- reviewed publication for ”RNAlien - Unsupervised RNA-family model construction” introduces a novel method to automatically construct such models, in principle for any RNA sequence. RNAlien, starting from a single input se- quence collects potential family member sequences by multiple iterations of homology search. RNA-family models are fully automatically constructed for the found sequences. The quality of RNA-family models and their performance in homology search depends on several factors. RNAlien evaluates both the models as well as the aligned sequences used to build them, to provide as much information about the model as possible. However this takes only the novel model itself into consideration, but does not investigate it in context with other models. The following manuscript, with the title ”CMCompare webserver: comparing RNA families via covariance models”, addresses the comparison between models. This allows to identify models with poor specificity and to explore the relationship between models. Visualisation of family relationships helps in identifying candidates for clans, groups of biologically related families. Moreover the thesis presents a novel tool to visualise and compare the taxonomy of of found RNA-family members, called TaxonomyTools. Family member sequences found by RNAlien during the model construction process are also a useful starting point for investigating families. UCSC genome browser hubs visualise the found family members in their genetic context, showing traits like orthology. Methods to constructs such hubs were contributed to the publication ”ViennaNGS: A toolbox for building efficient next- generation sequencing analysis pipelines” and are also presented in the thesis.
Keywords (eng)
RNARNA familyTaxonomyHomology searchCovariance model
Keywords (deu)
RNARibonukleinsäureRNA FamilieTaxonomieHomologiesucheCovarianzmodel
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1330148
Number of pages
151
Association (deu)