Abstract (deu)
Das Simulieren von Sequenzen spielt eine entscheidende Rolle in der phylogenetischen Forschung, da es das Evaluieren von phylogenetischen Methoden oder Modellen ermöglicht. Außerdem kann die große Menge an Daten, die für das Trainieren von sogenannten „Machine-Learning-Algorithmen“, die auch in der Wissenschaft immer mehr an Bedeutung gewinnen, durch Sequenzsimulationen generiert werden. Um sicherzugehen, dass die simulierten Sequenzen so realistisch wie möglich sind, sollten die Simulationen auf empirischen Daten basieren. Aus diesem Grund wurde EvoNAPS, eine Datenbank für Parameter-Einstellungen von evolutionären Modellen und für phylogenetische Bäume, die auf empirischen Daten basierend, entworfen und implementiert. Insgesamt wurden über 29.000 biologische Alignments aus drei unterschiedlichen veröffentlichen Quellen gesammelt. Die Alignments wurden mithilfe des IQ-Tree2 Programms, einer Software für phylogenetische Inferenz, analysiert. Eine große Menge an Eckdaten und Merkmalen der analysierten Alignments sowie der abgeleiteten Bäume und dazugehörigen Modellparametern wurde gesammelt und in der EvoNAPS Datenbank gespeichert. EvoNAPS enthält über 64.000 phylogenetische Bäume und die dazugehörigen geschätzten Modellparameter. Die Datenbank bietet typischen Parameter-Einstellungen von 286 unterschiedlichen DNA und 364 unterschiedlichen Protein Modellen. Außerdem ist die Datenbank mit verschiedenen Filteroptionen ausgestattet, die es den Nutzenden erlauben, Alignments, Bäume und/oder Parameter-Einstellungen von evolutionären Modellen zu finden, die den zu simulierenden Daten möglichst ähneln. Die EvoNAPS Datenbank stellt eine nützliche Ressource für all jene dar, die an modellbasierter Phylogenie forschen, und wird eine große Hilfestellung und Erleichterung in zukünftigen phylogenetischen Studien sein.