You are here: University of Vienna PHAIDRA Detail o:1348851
Title (eng)
PICA-to-go - a fast microbial phenotype investigation pipeline
Parallel title (deu)
PICA-to-go : eine performante mikrobielle Phänotyp-Ermittlungs-Pipeline
Author
Florian Piewald
Advisor
Thomas Rattei
Assessor
Thomas Rattei
Abstract (deu)
Nachdem die Anzahl an komplett sequenzierten bakteriellen Spezies steigt, wird die Analyse der Phänotypen dieser Spezies zu einem Bottleneck innerhalb der Wissenschaft. In der Vergangenheit wurden Machine Learning-Tools verwendet, um diesem Problem Herr zu werden. Das PICA Framework, das mit Support Vector Maschinen arbeitet, ist ein Beispiel für solch ein Tool. Allerdings benötigt PICA Informationen bezüglich der ’cluster of orthologous groups’ (COGs) in jeder Spezies (auch Bin genannt), welche für das Training bzw. für die Vorhersage verwendet wird. In unserer Arbeitsgruppe wurde für diesen Zweck in vergangenen Projekten HMMER verwendet, um die eggNOG Datenbank zu durchsuchen. Diese Herangehensweise ist allerdings limitiert für Wissenschaftler, welche Zugriff zu einem Hochleistungs-Computer-Cluster haben und benötigt zudem einen beträchtlichen Zeitaufwand. Ich stelle eine neue Herangehensweise vor (PICA-to-go), welche das Clustering-Toolset von MMSeqs2 in Verbindung mit dem PICA Framework nutzt. Ein Modell für Ciprofloxacin-Resistenz in Acinetobacter baumannii kann so mit einer Genauigkeit von 0.93 in weniger als zehn Minuten auf einem gewöhnlichen PC trainiert werden.
Abstract (eng)
As the number of completely sequenced bacterial species grows, analyzing the phenotypes of these species becomes a bottleneck in science. Machine learning tools have been used in the past to cope with this problem. The PICA framework is an example of such a tool, using support vector machines. PICA, however, needs information about the clusters of orthologous groups (COGs) in each species (also known as bin) to be trained/predicted. In previous work of our group, HMMER searching in the eggNOG database, was used for this purpose. The usage of this approach is limited to researchers with access to a high performance computing cluster and takes a considerably amount of time. I present a new approach (PICA-to-go) using the clustering suite of MMSeqs2 together with the PICA framework. A model for ciprofloxacin resistance in Acinetobacter baumannii with a balanced accuracy of 0.93 can be trained in less than 10 minutes on an ordinary desktop machine.
Keywords (eng)
BioinformaticsMachine learningphenotype predictionPICASupport Vector MachinesMicrobiologycomputational systems biology
Keywords (deu)
BioinformatikMachine learningPhänotyp VorhersagePICASupport Vector MaschinenMikrobiologiecomputergestützte Systembiologie
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1348851
rdau:P60550 (deu)
71 Seiten : Diagramme
Number of pages
71
Members (1)
Title (eng)
PICA-to-go - a fast microbial phenotype investigation pipeline
Parallel title (deu)
PICA-to-go : eine performante mikrobielle Phänotyp-Ermittlungs-Pipeline
Author
Florian Piewald
Abstract (deu)
Nachdem die Anzahl an komplett sequenzierten bakteriellen Spezies steigt, wird die Analyse der Phänotypen dieser Spezies zu einem Bottleneck innerhalb der Wissenschaft. In der Vergangenheit wurden Machine Learning-Tools verwendet, um diesem Problem Herr zu werden. Das PICA Framework, das mit Support Vector Maschinen arbeitet, ist ein Beispiel für solch ein Tool. Allerdings benötigt PICA Informationen bezüglich der ’cluster of orthologous groups’ (COGs) in jeder Spezies (auch Bin genannt), welche für das Training bzw. für die Vorhersage verwendet wird. In unserer Arbeitsgruppe wurde für diesen Zweck in vergangenen Projekten HMMER verwendet, um die eggNOG Datenbank zu durchsuchen. Diese Herangehensweise ist allerdings limitiert für Wissenschaftler, welche Zugriff zu einem Hochleistungs-Computer-Cluster haben und benötigt zudem einen beträchtlichen Zeitaufwand. Ich stelle eine neue Herangehensweise vor (PICA-to-go), welche das Clustering-Toolset von MMSeqs2 in Verbindung mit dem PICA Framework nutzt. Ein Modell für Ciprofloxacin-Resistenz in Acinetobacter baumannii kann so mit einer Genauigkeit von 0.93 in weniger als zehn Minuten auf einem gewöhnlichen PC trainiert werden.
Abstract (eng)
As the number of completely sequenced bacterial species grows, analyzing the phenotypes of these species becomes a bottleneck in science. Machine learning tools have been used in the past to cope with this problem. The PICA framework is an example of such a tool, using support vector machines. PICA, however, needs information about the clusters of orthologous groups (COGs) in each species (also known as bin) to be trained/predicted. In previous work of our group, HMMER searching in the eggNOG database, was used for this purpose. The usage of this approach is limited to researchers with access to a high performance computing cluster and takes a considerably amount of time. I present a new approach (PICA-to-go) using the clustering suite of MMSeqs2 together with the PICA framework. A model for ciprofloxacin resistance in Acinetobacter baumannii with a balanced accuracy of 0.93 can be trained in less than 10 minutes on an ordinary desktop machine.
Keywords (eng)
BioinformaticsMachine learningphenotype predictionPICASupport Vector MachinesMicrobiologycomputational systems biology
Keywords (deu)
BioinformatikMachine learningPhänotyp VorhersagePICASupport Vector MaschinenMikrobiologiecomputergestützte Systembiologie
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1348852
Number of pages
71