Title (eng)
Learning low dimensional representations for k-means with k-competitive autoencoders
Parallel title (deu)
Lernen von niedrigdimensionalen Projektionen für K-Means mit dem K-Competitive Autoencoder
Author
Lukas Johannes Miklautz
Advisor
Claudia Plant
Assessor
Claudia Plant
Abstract (deu)
Die Kombination von Deep Learning und Clustering, oft auch unter dem Namen Deep Clustering vereint, ist relativ neu, zeigt aber bereits vielversprechende Ergebnisse. Die meisten der aktuellen Deep Clustering Techniken teilen den gleichen Ansatz. Zuerst wird ein Autoencoder trainiert, um die Eingangsdaten auf eine niedrigere Dimension zu projizieren. Diese niedrigdimensionale Darstellung wird dann mit dem k-means Algorithmus geclustert, um erste Cluster-Labels zu erhalten. Aus diesem Clustering wird die erlernte Darstellung schrittweise verfeinert, indem die Punkte in einem Cluster näher an sein Zentrum gezogen werden. Dieser Ansatz hat einige Probleme, z.B. wenn der Autoencoder im ersten Schritt keine gute Darstellung lernt, sind alle nachfolgenden Schritte zum Scheitern verurteilt. Zusätzlich, beschäftigt sich der größte Teil der Deep Learning Forschung mit Bild-, Text- oder Sprachdaten, daher ist es nicht verwunderlich, dass es Schwächen bei anderen Datentypen gibt. In dieser Masterarbeit wird eine solche Schwachstelle für Querschnittsdatensätzen mit Ausreißern identifiziert. In dieser Situation lernt der Autoencoder keine sinnvolle Darstellung, wodurch das Clustering verzerrt wird. Eine mögliche Lösung dafür wurde durch die Verwendung einer angepassten Version des KATE Algorithmus (k-competitive autoencoder for text) gefunden. KATE kann eine sinnvolle niedrigdimensionale Darstellung von Querschnittsdaten mit Rauschen, Redundanz und Ausreißern lernen. Das wird durch eine empirische Untersuchung des in KATE verwendeten Wettbewerbsverfahren gezeigt. In dieser Studie wurde der k-competitive layer ausgewertet und für andere Datentypen angepasst. Der angepasste Algorithmus wurde dann mittels mehreren anspruchsvollen Datensätzen gegenüber anderen Autoencoder-Architekturen verglichen.
Abstract (eng)
Recent research that combines deep learning and clustering, often called deep clustering, shows promising results. Most of these techniques share the same approach. First, they train an autoencoder to project the input data to a lower dimension. The lower dimensional representation is then clustered by k-means to get initial cluster labels. From this, the learned representation is refined in a step wise fashion, by attracting the points in a cluster closer to its center. This approach has some issues, e.g. if the autoencoder does not learn a good representation, all subsequent steps are doomed to failure. Most of deep learning research is concerned with image, text or speech data, thus it is not surprising to see that there are weaknesses for other data types. In this master thesis one such weakness is identified for cross sectional data sets which include outliers. In this setting many autoencoders fail to learn a meaningful representation and therefor distort the initial clustering. One solution is to use an adapted version of the KATE (k-competitive autoencoder for text) architecture. It can learn a meaningful representation of cross sectional data in settings with noise, redundancy and outliers. This is shown in an empirical study of the competition scheme used in KATE. In this study the k-competitive layer is evaluated and adapted for other data types. The adapted algorithm was then benchmarked on multiple challenging real world data sets, against state of the art autoencoder architectures.
Keywords (eng)
Deep LearningNeural NetworksRepresentation LearningMachine LearningData MiningClusteringK-MeansK-competitiveCompetitionNoise DataOutlierAutoencoderDeep Clusteringhigh dimensional
Keywords (deu)
Neuronale NetzeNetzwerkData MiningClusterverfahrenK-MeansK-CompetitiveAutoencoderAusreißerRauschenTiefes LernenMaschinelles LernenhochdimensionalCluster
Type (deu)
Extent (deu)
ix, 57 Seiten : Diagramme
Number of pages
67
Study plan
Masterstudium Wirtschaftsinformatik
[UA]
[066]
[926]
Association (deu)
Members (1)
Title (eng)
Learning low dimensional representations for k-means with k-competitive autoencoders
Parallel title (deu)
Lernen von niedrigdimensionalen Projektionen für K-Means mit dem K-Competitive Autoencoder
Author
Lukas Johannes Miklautz
Abstract (deu)
Die Kombination von Deep Learning und Clustering, oft auch unter dem Namen Deep Clustering vereint, ist relativ neu, zeigt aber bereits vielversprechende Ergebnisse. Die meisten der aktuellen Deep Clustering Techniken teilen den gleichen Ansatz. Zuerst wird ein Autoencoder trainiert, um die Eingangsdaten auf eine niedrigere Dimension zu projizieren. Diese niedrigdimensionale Darstellung wird dann mit dem k-means Algorithmus geclustert, um erste Cluster-Labels zu erhalten. Aus diesem Clustering wird die erlernte Darstellung schrittweise verfeinert, indem die Punkte in einem Cluster näher an sein Zentrum gezogen werden. Dieser Ansatz hat einige Probleme, z.B. wenn der Autoencoder im ersten Schritt keine gute Darstellung lernt, sind alle nachfolgenden Schritte zum Scheitern verurteilt. Zusätzlich, beschäftigt sich der größte Teil der Deep Learning Forschung mit Bild-, Text- oder Sprachdaten, daher ist es nicht verwunderlich, dass es Schwächen bei anderen Datentypen gibt. In dieser Masterarbeit wird eine solche Schwachstelle für Querschnittsdatensätzen mit Ausreißern identifiziert. In dieser Situation lernt der Autoencoder keine sinnvolle Darstellung, wodurch das Clustering verzerrt wird. Eine mögliche Lösung dafür wurde durch die Verwendung einer angepassten Version des KATE Algorithmus (k-competitive autoencoder for text) gefunden. KATE kann eine sinnvolle niedrigdimensionale Darstellung von Querschnittsdaten mit Rauschen, Redundanz und Ausreißern lernen. Das wird durch eine empirische Untersuchung des in KATE verwendeten Wettbewerbsverfahren gezeigt. In dieser Studie wurde der k-competitive layer ausgewertet und für andere Datentypen angepasst. Der angepasste Algorithmus wurde dann mittels mehreren anspruchsvollen Datensätzen gegenüber anderen Autoencoder-Architekturen verglichen.
Abstract (eng)
Recent research that combines deep learning and clustering, often called deep clustering, shows promising results. Most of these techniques share the same approach. First, they train an autoencoder to project the input data to a lower dimension. The lower dimensional representation is then clustered by k-means to get initial cluster labels. From this, the learned representation is refined in a step wise fashion, by attracting the points in a cluster closer to its center. This approach has some issues, e.g. if the autoencoder does not learn a good representation, all subsequent steps are doomed to failure. Most of deep learning research is concerned with image, text or speech data, thus it is not surprising to see that there are weaknesses for other data types. In this master thesis one such weakness is identified for cross sectional data sets which include outliers. In this setting many autoencoders fail to learn a meaningful representation and therefor distort the initial clustering. One solution is to use an adapted version of the KATE (k-competitive autoencoder for text) architecture. It can learn a meaningful representation of cross sectional data in settings with noise, redundancy and outliers. This is shown in an empirical study of the competition scheme used in KATE. In this study the k-competitive layer is evaluated and adapted for other data types. The adapted algorithm was then benchmarked on multiple challenging real world data sets, against state of the art autoencoder architectures.
Keywords (eng)
Deep LearningNeural NetworksRepresentation LearningMachine LearningData MiningClusteringK-MeansK-competitiveCompetitionNoise DataOutlierAutoencoderDeep Clusteringhigh dimensional
Keywords (deu)
Neuronale NetzeNetzwerkData MiningClusterverfahrenK-MeansK-CompetitiveAutoencoderAusreißerRauschenTiefes LernenMaschinelles LernenhochdimensionalCluster
Type (deu)
Number of pages
67
Association (deu)