In den letzten Jahrzehnten hat sich die Menschheit das Postulat von Galileo Galilei - "Alles messen, was messbar ist - und messbar machen, was noch nicht messbar ist" - zu Herzen genommen und riesige Datenmengen zu allen denkbaren Prozessen gesammelt. Diese Datenmengen haben ein solches Ausmaß erreicht, dass es nicht mehr möglich ist, sie manuell auszuwerten und deshalb Computer zur Auswertung herangezogen werden müssen. Der Einsatz von Algorithmen zur automatischen Datenanalyse hat daher immer mehr an Bedeutung gewonnen und Data Mining zu einem wichtigen Forschungsgebiet gemacht.
In dieser Arbeit liegt der Schwerpunkt auf Clustering: der Aufteilung des Datensatzes in Gruppen von Datenpunkten, so dass Datenpunkte in derselben Gruppe einander ähnlicher als zu Datenpunkten in anderen Gruppen sind. Da Clustering völlig "unsupervised" ist - d.h. keine Beteiligung eines menschlichen Benutzers erfordert - ist es ideal für eine völlig autonome Datenanalyse; allerdings macht dies auch die Wahl des verwendeten Algorithmus entscheidend für das Endergebnis. Wenn der Algorithmus ungeeignet ist, kann die Analyse des Algorithmus komplett nutzlos sein. Das Ziel meiner Doktorarbeit ist es, Methoden zu entwickeln, um Datensätze besser kompatibel zu einem der am häufigsten verwendeten Algorithmen – k-means – zu machen. Datensätze, die k-means bisher nicht oder nur unzureichend clustern konnte, werden so adaptiert, dass sie in die Anforderungen von k-means erfüllen, womit eine korrekte Analyse möglich wird. Zu diesem Zweck habe ich ein mathematisches Framework entwickelt, das die Grundlagen einer Theorie solcher "Datensatz-Transformationen" enthält. Methoden, die Datensätze von einer für k-means ungeeigneten Form in eine geeignete Form transformieren, ohne die grundlegenden Eigenschaften und Merkmale des Datensatzes zu verändern. In dieser Arbeit werden die Methoden vorgestellt, die als solche "Datensatz-Transformation" entwickelt wurden und analysiert, inwiefern sie in dieses Framework passen, das heißt die erforderlichen Eigenschaften erfüllen.
In recent decades, humanity has taken Galileo Galilei's quote - "Measure what is measurable, and make measurable what is not so" - to heart and gathered vast amounts of data on all conceivable processes. These amounts of data have reached such a scale that it is no longer possible to evaluate them manually and computer support has become necessary. Therefore, the use of algorithms for automatic data analysis has become more and more relevant and made Data Mining an important field of research.
In this thesis, the focus is on clustering: dividing the data set into groups of data points so that objects in the same group are more similar to each other than to those in other groups. Since clustering is completely "unsupervised" – i.e. does not require the participation of a human user - it is ideal for a fully autonomous data analysis, but the choice of the algorithm used is crucial for the final result. If the algorithm is unsuitable, the analysis of the algorithm may be useless. The goal during my PhD was to develop methods to extend the range of data sets suitable for one of the most commonly used algorithms - k-means. Data sets that k-means could previously not or only insufficiently cluster are adapted to fit into the assumptions of k-means, thus enabling a correct analysis. For this purpose, I developed a mathematical framework that contains the foundations of a theory for such "Dataset-Transformations". Methods that transform data sets from a form that is unsuitable for k-means into a suitable form without changing the basic properties and characteristics of the data set. We present the methods that were developed as such Dataset-Transformations, as well as other support methods for clustering, and analyze how they fit into this framework and meet the required properties.
In den letzten Jahrzehnten hat sich die Menschheit das Postulat von Galileo Galilei - "Alles messen, was messbar ist - und messbar machen, was noch nicht messbar ist" - zu Herzen genommen und riesige Datenmengen zu allen denkbaren Prozessen gesammelt. Diese Datenmengen haben ein solches Ausmaß erreicht, dass es nicht mehr möglich ist, sie manuell auszuwerten und deshalb Computer zur Auswertung herangezogen werden müssen. Der Einsatz von Algorithmen zur automatischen Datenanalyse hat daher immer mehr an Bedeutung gewonnen und Data Mining zu einem wichtigen Forschungsgebiet gemacht.
In dieser Arbeit liegt der Schwerpunkt auf Clustering: der Aufteilung des Datensatzes in Gruppen von Datenpunkten, so dass Datenpunkte in derselben Gruppe einander ähnlicher als zu Datenpunkten in anderen Gruppen sind. Da Clustering völlig "unsupervised" ist - d.h. keine Beteiligung eines menschlichen Benutzers erfordert - ist es ideal für eine völlig autonome Datenanalyse; allerdings macht dies auch die Wahl des verwendeten Algorithmus entscheidend für das Endergebnis. Wenn der Algorithmus ungeeignet ist, kann die Analyse des Algorithmus komplett nutzlos sein. Das Ziel meiner Doktorarbeit ist es, Methoden zu entwickeln, um Datensätze besser kompatibel zu einem der am häufigsten verwendeten Algorithmen – k-means – zu machen. Datensätze, die k-means bisher nicht oder nur unzureichend clustern konnte, werden so adaptiert, dass sie in die Anforderungen von k-means erfüllen, womit eine korrekte Analyse möglich wird. Zu diesem Zweck habe ich ein mathematisches Framework entwickelt, das die Grundlagen einer Theorie solcher "Datensatz-Transformationen" enthält. Methoden, die Datensätze von einer für k-means ungeeigneten Form in eine geeignete Form transformieren, ohne die grundlegenden Eigenschaften und Merkmale des Datensatzes zu verändern. In dieser Arbeit werden die Methoden vorgestellt, die als solche "Datensatz-Transformation" entwickelt wurden und analysiert, inwiefern sie in dieses Framework passen, das heißt die erforderlichen Eigenschaften erfüllen.
In recent decades, humanity has taken Galileo Galilei's quote - "Measure what is measurable, and make measurable what is not so" - to heart and gathered vast amounts of data on all conceivable processes. These amounts of data have reached such a scale that it is no longer possible to evaluate them manually and computer support has become necessary. Therefore, the use of algorithms for automatic data analysis has become more and more relevant and made Data Mining an important field of research.
In this thesis, the focus is on clustering: dividing the data set into groups of data points so that objects in the same group are more similar to each other than to those in other groups. Since clustering is completely "unsupervised" – i.e. does not require the participation of a human user - it is ideal for a fully autonomous data analysis, but the choice of the algorithm used is crucial for the final result. If the algorithm is unsuitable, the analysis of the algorithm may be useless. The goal during my PhD was to develop methods to extend the range of data sets suitable for one of the most commonly used algorithms - k-means. Data sets that k-means could previously not or only insufficiently cluster are adapted to fit into the assumptions of k-means, thus enabling a correct analysis. For this purpose, I developed a mathematical framework that contains the foundations of a theory for such "Dataset-Transformations". Methods that transform data sets from a form that is unsuitable for k-means into a suitable form without changing the basic properties and characteristics of the data set. We present the methods that were developed as such Dataset-Transformations, as well as other support methods for clustering, and analyze how they fit into this framework and meet the required properties.