Abstract (deu)
In den letzten Jahrzehnten hat sich die Menschheit das Postulat von Galileo Galilei - "Alles messen, was messbar ist - und messbar machen, was noch nicht messbar ist" - zu Herzen genommen und riesige Datenmengen zu allen denkbaren Prozessen gesammelt. Diese Datenmengen haben ein solches Ausmaß erreicht, dass es nicht mehr möglich ist, sie manuell auszuwerten und deshalb Computer zur Auswertung herangezogen werden müssen. Der Einsatz von Algorithmen zur automatischen Datenanalyse hat daher immer mehr an Bedeutung gewonnen und Data Mining zu einem wichtigen Forschungsgebiet gemacht.
In dieser Arbeit liegt der Schwerpunkt auf Clustering: der Aufteilung des Datensatzes in Gruppen von Datenpunkten, so dass Datenpunkte in derselben Gruppe einander ähnlicher als zu Datenpunkten in anderen Gruppen sind. Da Clustering völlig "unsupervised" ist - d.h. keine Beteiligung eines menschlichen Benutzers erfordert - ist es ideal für eine völlig autonome Datenanalyse; allerdings macht dies auch die Wahl des verwendeten Algorithmus entscheidend für das Endergebnis. Wenn der Algorithmus ungeeignet ist, kann die Analyse des Algorithmus komplett nutzlos sein. Das Ziel meiner Doktorarbeit ist es, Methoden zu entwickeln, um Datensätze besser kompatibel zu einem der am häufigsten verwendeten Algorithmen – k-means – zu machen. Datensätze, die k-means bisher nicht oder nur unzureichend clustern konnte, werden so adaptiert, dass sie in die Anforderungen von k-means erfüllen, womit eine korrekte Analyse möglich wird. Zu diesem Zweck habe ich ein mathematisches Framework entwickelt, das die Grundlagen einer Theorie solcher "Datensatz-Transformationen" enthält. Methoden, die Datensätze von einer für k-means ungeeigneten Form in eine geeignete Form transformieren, ohne die grundlegenden Eigenschaften und Merkmale des Datensatzes zu verändern. In dieser Arbeit werden die Methoden vorgestellt, die als solche "Datensatz-Transformation" entwickelt wurden und analysiert, inwiefern sie in dieses Framework passen, das heißt die erforderlichen Eigenschaften erfüllen.