You are here: University of Vienna PHAIDRA Detail o:1536186
Title (eng)
Exploratory data analysis with Google's tensor processing unit (TPU)
enhancing traditional data mining algorithms with the use of the TPU on the example of the k-means algorithm
Parallel title (deu)
Explorative Datenanalyse mit der Tensor Processing Unit (TPU) von Google
Verbesserung traditioneller Data-Mining-Algorithmen durch den Einsatz der TPU am Beispiel des k-Means-Algorithmus
Author
Anna Wolff
Adviser
Claudia Plant
Co-Advisor
Martin Perdacher
Assessor
Claudia Plant
Abstract (deu)
In den letzten Jahren ist Menge der weltweit gesammelten Daten immens gestiegen. Der Umgang mit dieser stetig wachsenden Menge an Daten erfordert zwei Strategien. Einerseits werden Methoden und Algorithmen benötigt, um aussagekräftige Informationen aus der Datenmenge zu extrahieren, und andererseits werden Rechenleistungen benötigt, um die Menge an Daten zu verarbeiten. Beide Herausforderungen werden adressiert. Das Forschungsgebiet Data Mining befasst sich mit der Identifizierung von Mustern in Daten, der Interpretation der identifizierten Muster und der Durchführung qualitativer oder quantitativer Vorhersagen oder Beschreibungen. Ein Schwerpunkt der Forschung im Data Mining ist die Skalierung von Algorithmen für große und sehr große Datensätze. Unternehmen wie Google entwickeln leistungsstarke Hardware, um den Rechenanforderungen moderner Technologien gerecht zu werden. Im Jahr 2016 kündigte Google die Tensor Processing Unit (TPU) an, die speziell für die Rechenanforderungen von tiefen neuronalen Netzwerken (Deep Neural Networks) in den Rechenzentren von Google konzipiert ist. Aber auch andere Data-Mining- und Machine-Learning-Techniken können von der Rechenleistung der TPU profitieren. Ziel dieser Masterarbeit ist es, den k-Means-Algorithmus durch den Einsatz der Google TPU in Bezug auf die Laufzeit zu verbessern und gleichzeitig die Qualität der Clustering-Ergebnisse zu erhalten. Im Rahmen der Masterthesis wurde ein k-Means-Algorithmus mit Matrix-Matrix-Multiplikation implementiert, der auf die Anforderungen der TPU zugeschnitten ist. Es wurden zwei Versionen entwickelt, die das Training auf der TPU auf zwei verschiedene Arten verteilen. Die Clustering-Ergebnisse der beiden Versionen haben Vorteile, die sich in Bezug auf Laufzeit und Genauigkeit ergänzen. Daher wird auch die Kombination beider Versionen untersucht. Die Berechnungszeit des k-Means-Algorithmus kann durch die Verwendung der TPU erheblich beschleunigt werden. Es sollte jedoch berücksichtigt werden, dass das Laden des Datensatzes auf die TPU zusätzliche Zeit in Anspruch nimmt und die Verwendung einer TPU im Vergleich zu einer CPU oder GPU teurer ist. Daher wird die Verwendung der TPU nur für große Datensätze empfohlen und/oder wenn der k-Means-Algorithmus mehrfach für denselben Datensatz wiederholt wird.
Abstract (eng)
In the past few years, there has been an immense increase in the volume of collected data worldwide. Dealing with the continuously growing amount of data requires two strategies. On the one hand, methods and algorithms are needed to extract meaningful information from the amount of data, and on the other hand, there is a need for the computational ability to handle the amount of data. Both challenges are tackled. The research field of data mining is concerned with identifying patterns in data, interpreting the identified patterns and performing qualitative or quantitative predictions or descriptions. One focus of the research in data mining is on scaling algorithms for large and very large data sets. Enterprises like Google are developing powerful hardware to meet the computing needs of modern technologies. In 2016, Google announced the Tensor Processing Unit (TPU), which is specifically designed to meet the computational demands of deep neural networks in Google's data centers. However, other data mining and machine learning techniques can also profit from the computational power of the TPU. This master thesis aims to enhance the k-Means algorithm with the use of the Google TPU in terms of runtime while preserving the quality of the clustering results. We implemented a k-Means algorithm with matrix-matrix multiplication that is tailored to the requirements of the TPU. We developed two versions that distribute training on the TPU in two different ways. The clustering results of the versions have advantages that complement each other in terms of runtime and accuracy. Therefore, combining both versions is also explored. The computation time of the k-Means algorithm can be greatly accelerated by using the TPU. However, it should be taken into consideration that loading the data set on the TPU takes additional time and using a TPU compared to a CPU or GPU is more expensive. Therefore, we recommend using the TPU only for large data sets and/or when the k-Means algorithm is repeated multiple times for the same data set.
Keywords (deu)
Tensor Processing UnitCPUGPUData MiningBig DataClusteringk-Means
Keywords (eng)
Tensor Processing UnitCPUGPUData MiningBig DataClusteringk-Means
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1536186
rdau:P60550 (deu)
xv, 104 Seiten : Illustrationen
Number of pages
122
Association (deu)
Members (1)
Title (eng)
Exploratory data analysis with Google's tensor processing unit (TPU)
enhancing traditional data mining algorithms with the use of the TPU on the example of the k-means algorithm
Parallel title (deu)
Explorative Datenanalyse mit der Tensor Processing Unit (TPU) von Google
Verbesserung traditioneller Data-Mining-Algorithmen durch den Einsatz der TPU am Beispiel des k-Means-Algorithmus
Author
Anna Wolff
Abstract (deu)
In den letzten Jahren ist Menge der weltweit gesammelten Daten immens gestiegen. Der Umgang mit dieser stetig wachsenden Menge an Daten erfordert zwei Strategien. Einerseits werden Methoden und Algorithmen benötigt, um aussagekräftige Informationen aus der Datenmenge zu extrahieren, und andererseits werden Rechenleistungen benötigt, um die Menge an Daten zu verarbeiten. Beide Herausforderungen werden adressiert. Das Forschungsgebiet Data Mining befasst sich mit der Identifizierung von Mustern in Daten, der Interpretation der identifizierten Muster und der Durchführung qualitativer oder quantitativer Vorhersagen oder Beschreibungen. Ein Schwerpunkt der Forschung im Data Mining ist die Skalierung von Algorithmen für große und sehr große Datensätze. Unternehmen wie Google entwickeln leistungsstarke Hardware, um den Rechenanforderungen moderner Technologien gerecht zu werden. Im Jahr 2016 kündigte Google die Tensor Processing Unit (TPU) an, die speziell für die Rechenanforderungen von tiefen neuronalen Netzwerken (Deep Neural Networks) in den Rechenzentren von Google konzipiert ist. Aber auch andere Data-Mining- und Machine-Learning-Techniken können von der Rechenleistung der TPU profitieren. Ziel dieser Masterarbeit ist es, den k-Means-Algorithmus durch den Einsatz der Google TPU in Bezug auf die Laufzeit zu verbessern und gleichzeitig die Qualität der Clustering-Ergebnisse zu erhalten. Im Rahmen der Masterthesis wurde ein k-Means-Algorithmus mit Matrix-Matrix-Multiplikation implementiert, der auf die Anforderungen der TPU zugeschnitten ist. Es wurden zwei Versionen entwickelt, die das Training auf der TPU auf zwei verschiedene Arten verteilen. Die Clustering-Ergebnisse der beiden Versionen haben Vorteile, die sich in Bezug auf Laufzeit und Genauigkeit ergänzen. Daher wird auch die Kombination beider Versionen untersucht. Die Berechnungszeit des k-Means-Algorithmus kann durch die Verwendung der TPU erheblich beschleunigt werden. Es sollte jedoch berücksichtigt werden, dass das Laden des Datensatzes auf die TPU zusätzliche Zeit in Anspruch nimmt und die Verwendung einer TPU im Vergleich zu einer CPU oder GPU teurer ist. Daher wird die Verwendung der TPU nur für große Datensätze empfohlen und/oder wenn der k-Means-Algorithmus mehrfach für denselben Datensatz wiederholt wird.
Abstract (eng)
In the past few years, there has been an immense increase in the volume of collected data worldwide. Dealing with the continuously growing amount of data requires two strategies. On the one hand, methods and algorithms are needed to extract meaningful information from the amount of data, and on the other hand, there is a need for the computational ability to handle the amount of data. Both challenges are tackled. The research field of data mining is concerned with identifying patterns in data, interpreting the identified patterns and performing qualitative or quantitative predictions or descriptions. One focus of the research in data mining is on scaling algorithms for large and very large data sets. Enterprises like Google are developing powerful hardware to meet the computing needs of modern technologies. In 2016, Google announced the Tensor Processing Unit (TPU), which is specifically designed to meet the computational demands of deep neural networks in Google's data centers. However, other data mining and machine learning techniques can also profit from the computational power of the TPU. This master thesis aims to enhance the k-Means algorithm with the use of the Google TPU in terms of runtime while preserving the quality of the clustering results. We implemented a k-Means algorithm with matrix-matrix multiplication that is tailored to the requirements of the TPU. We developed two versions that distribute training on the TPU in two different ways. The clustering results of the versions have advantages that complement each other in terms of runtime and accuracy. Therefore, combining both versions is also explored. The computation time of the k-Means algorithm can be greatly accelerated by using the TPU. However, it should be taken into consideration that loading the data set on the TPU takes additional time and using a TPU compared to a CPU or GPU is more expensive. Therefore, we recommend using the TPU only for large data sets and/or when the k-Means algorithm is repeated multiple times for the same data set.
Keywords (deu)
Tensor Processing UnitCPUGPUData MiningBig DataClusteringk-Means
Keywords (eng)
Tensor Processing UnitCPUGPUData MiningBig DataClusteringk-Means
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1540262
Number of pages
122
Association (deu)