Abstract (deu)
Die Erzeugung von biologischen Sequenzdaten wird zunehmend billiger und schneller. Die mehr als 63 Millionen öffentlich verfügbaren „expressed sequence tags“ (ESTs) und über 1000 vollständig sequenzierten Bakteriengenome belegen diese Entwicklung eindrucksvoll. Diese Datenmengen erlauben es nun, offen stehende Fragen bezüglich der Evolution von Arten und biologischen Systemen aufzugreifen. Das Forschungsgebiet der Tierphylogenie profitiert beispielsweise maßgeblich von der Erzeugung von ESTs in großer Stückzahl. Die Aufspaltungen innerhalb der Abstammungslinien, welche die Großgruppen der Tiere miteinander verbinden, liegen hunderte von Millionen von Jahren zurück. Ihr phylogenetisches Signal ist deswegen nur noch sehr schwach. Um eine robuste Auflösung dieser Aufspaltungen zu erlangen, muss es verstärkt werden. Dies kann nur durch die Einbindung großer Datenmengen geschehen. Darüber hinaus ermöglicht die Vielzahl von Taxa, für die heutzutage Sequenzdaten verfügbar sind, die Bestimmung der feinverästelten evolutionären Beziehungen innerhalb der großen Tiergruppen. In dieser Arbeit stellen wir die von uns implementierte Programmpipeline vor, mit der Millionen von unbearbeiteten ESTs aufbereitet werden können. Des Weiteren beschreiben wir eine Methode, um ESTs basierende Datensätze zu erzeugen, mit deren Hilfe Phylogenien rekonstruiert werden können. Wir demonstrieren die Anwendung dieser Methode anhand einer erfolgreichen Untersuchung der evolutionären Beziehungen von geflügelten Insekten.
Wir präsentieren unsere Entdeckung eines systematischen Fehlers, der durch die spezifische Auswahl von Genen bei EST basierten Phylogenierekonstruktionen entsteht. Im Anschluss diskutieren wir die Auswirkungen dieses systematischen Fehlers ausführlich.
Die Proteinfamilie der TonB-abhängigen Transporter (TonB dependend transporters (TBDTs)) bietet ideale Rahmenbedingungen, um die Evolution von biologischen Systemen zu erforschen. Diese Transporter, welche ausschließlich in grammnegativen Bakterien gefunden werden, ermöglichen ihren Trägern, Nährstoffe durch die Zellwand aufzunehmen. Wir durchsuchten die Genomsequenzen von rund 700 Arten nach Homologen zu bereits beschriebenen TBDTs. Dabei fanden wir ca. 4600 Kandidaten in ungefähr 350 verschiedenen Genomsequenzen. Eine anschließende Clusteranalyse enthüllte ein komplexes System von 195 Subklassen innerhalb dieser Proteinfamilie. Anhand der Einteilung in die Subklassen war es uns möglich, der Mehrheit der bis jetzt unbeschriebenen Kandidaten ein mögliches Substrat zuzuordnen. Dabei fanden wir heraus, dass die TBDTs entsprechend ihres Substrates gruppieren, und nicht nach der taxonomischen Einteilung der Arten in der sie gefunden wurden. Zuletzt präsentieren wir ein intuitives Webinterface, welches der Forschergemeinde Zugriff auf unsere Ergebnisse gewährt.
Beide präsentierten Studien zeigen, dass mit den geeigneten Methoden die heutzutage verfügbare Datenmenge genutzt werden kann, um Evolution auf verschiedenen Ebenen zu rekonstruieren.