Abstract (deu)
Clustering ist ein grundlegendes Gebiet der Datenwissenschaften. Beim Clustering handelt es sich um ein Verfahren das Gruppen von Objekten in Daten findet, die ähnliche Merkmale aufweisen, während unähnliche Objekte getrennt bleiben. In den letzten Jahren hat die zunehmende Größe, Dimensionalität und Heterogenität von Daten zu einer entsprechenden Zunahme von Clustering-Methoden geführt, um diesen neuen Herausforderungen zu begegnen. Beispielsweise funktioniert das Clustering hochdimensionaler Objekte wie Bilder im Pixelraum nicht zufriedenstellend. Dies hat zu einem wachsenden Interesse an der Kombination von Deep Learning mit Clustering, dem so genannten Deep Clustering, geführt. Algorithmen dieser Art kombinieren die nichtlineare Repräsentation eines selbstüberwachten oder unüberwachten Deep Learning Algorithmus, z. B. eines Autoencoders, mit einem Clustering-Ziel und optimieren beide gleichzeitig. In dieser Arbeit konzentrieren wir uns auf das Lernen von Repräsentationen (representation learning) für das Clustering und schlagen mehrere Methoden vor, die den Deep Clustering Algorithmen neue Möglichkeiten eröffnen. Wir stellen ENRC (Embedded Non-Redundant Clustering) vor, die erste Deep Clustering Methode, die mehrere, nicht redundante Clusterings unterschiedlicher Dimensionalität in hochdimensionalen Daten wie Bildern finden kann. Zum Beispiel kann das Bild eines roten Würfels einmal nach seiner Form und einmal nach seiner Farbe gruppiert werden. ENRC erreicht das, indem es lernt, die Darstellung in nützliche Merkmale für jedes Clustering aufzuteilen. In Zusammenarbeit mit Archäologen haben wir ENRC eingesetzt, um nicht redundante Clusterings von Bildern frühmittelalterlicher Glasperlen zu finden. Dies führte zur ersten Anwendung des nicht-redundanten Clusterings auf Bildern archäologischer Artefakte. Aufbauend auf der Idee, die gelernte Repräsentation in weitere Teile zu zerlegen, führen wir ACe/DeC (Autoencoder Centroid-based Deep Clustering) ein. ACe/DeC teilt die Autoencoder-Repräsentation in Merkmale, die für das Clustering relevant sind, und in Merkmale, die für die Autoencoder Rekonstruktion relevant sind. Die getrennte Repräsentation führt zu einem robusteren Clusteringresultat in Bezug auf die Wahl der Lernrate, beseitigt schwierig zu bestimmende Hyperparameter und macht das Clustering-Ergebnis einfacher zu interpretieren. ENRC, ACe/DeC und viele andere bestehende Deep Clustering Methoden gehen beim Lernen der Repräsentation von k-Means-artigen Clustern aus. Dies führt zu mehreren Einschränkungen, wie zum Beispiel die Beschränkung auf sphärische Cluster. Mit DECCS (Deep Embedded Clustering with Consensus representationS) stellen wir einen Deep Clustering Algorithmus vor, der mehrere bestehende Clustering-Methoden in einem Ensemble kombinieren kann, um eine einzige Konsensusrepräsentation zu erlernen, auf der alle Ensemblemitglieder ein Konsensusclustering erreichen. Dadurch findet DECCS auch nicht sphärische Cluster. Die vorgestellten Methoden basieren auf dem Konzept des prototypenbasierten Lernens von Repräsentationen für das Clustering, bei dem Prototypen zur Anleitung des Deep Clustering Prozesses verwendet werden. Darüber hinaus zeichnen sich die Methoden durch die Einbeziehung von Konzepten aus Unterraum-, nicht redundanten und Konsensus-Clustermethoden aus, was zu neuen Ansätzen in der Deep Clustering Forschung führt.