You are here: University of Vienna PHAIDRA Detail o:1343062
Title (eng)
Design and development of a BANG-file clustering system
Parallel title (deu)
Design und Entwicklung eines BANG-File Clustering Verfahrens
Author
Florian Fritz
Advisor
Erich Schikuta
Assessor
Erich Schikuta
Abstract (deu)
Die Clusteranalyse spielt eine zentrale Rolle in der explorativen Datenanalyse. Das Balanced And Nested Grid (BANG) File ist ein hierarchisches Clustering-Verfahren des Typs Grid-File. Um riesige Datenmengen effektiv zu clustern bildet das BANG File eine mehrdimensionale Raster-Struktur, welche Daten gruppiert. Der Datenraum wird dabei durch kontinuierliches zweiteilen, orthogonal zu einer der Dimensionen, in Regionen gegliedert. Diese Regionen werden in einem Verzeichnis indexiert, welches die Eigenschaften eines balancierten Baums bietet. Anders als bisherige Grid-File Designs wächst dieses Verzeichnis dadurch proportional zu den Daten, unabhängig von der Verteilung der Daten. Die hierarchische Partitionierungsstrategie spiegelt Cluster im Datenraum wider, wobei Regionen mit den höchsten Dichten an Daten als Zentrum eines Clusters identifiziert werden. Diese Arbeit demonstriert das BANG File Clustering-Verfahren innerhalb einer eigenständigen Java Anwendung und auch als ein WEKA Plugin.
Abstract (eng)
Cluster analysis is essential in the field known as explorative data analysis. The Balanced And Nested Grid (BANG) file is a hierarchical clustering system of the grid file type. To efficiently cluster massive data sets the BANG file uses a multidimensional grid structure to organize the value space surrounding pattern values. Its tree structured directory partitions the value space into regions with successive binary divisions on dimensions, which results in self-balancing features of a B-tree. Consequently, unlike previous grid file designs, the directory expands proportionally to the data regardless of the data distribution. The partitioning strategy accurately reflects the clustering of patterns in the value space, with densely populated regions identified as cluster centers, and adapts to changes in the distribution. This thesis concludes with a demonstration of the BANG file clustering system both as a standalone Java application as well as a WEKA package.
Keywords (eng)
Cluster AnalysisData AnalysisHierarchical ClusteringBalanced And Nested GridBANG-FileGrid-FileWeka PackageGRIDCLUS
Keywords (deu)
ClusteranalyseDatenanalyseHierarchische ClusteranalyseBalanced And Nested GridBANG-FileGrid-FileWeka PackageGRIDCLUS
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1343062
rdau:P60550 (deu)
82 Seiten : Illustrationen, Diagramme
Number of pages
82
Association (deu)
Members (1)
Title (eng)
Design and development of a BANG-file clustering system
Parallel title (deu)
Design und Entwicklung eines BANG-File Clustering Verfahrens
Author
Florian Fritz
Abstract (deu)
Die Clusteranalyse spielt eine zentrale Rolle in der explorativen Datenanalyse. Das Balanced And Nested Grid (BANG) File ist ein hierarchisches Clustering-Verfahren des Typs Grid-File. Um riesige Datenmengen effektiv zu clustern bildet das BANG File eine mehrdimensionale Raster-Struktur, welche Daten gruppiert. Der Datenraum wird dabei durch kontinuierliches zweiteilen, orthogonal zu einer der Dimensionen, in Regionen gegliedert. Diese Regionen werden in einem Verzeichnis indexiert, welches die Eigenschaften eines balancierten Baums bietet. Anders als bisherige Grid-File Designs wächst dieses Verzeichnis dadurch proportional zu den Daten, unabhängig von der Verteilung der Daten. Die hierarchische Partitionierungsstrategie spiegelt Cluster im Datenraum wider, wobei Regionen mit den höchsten Dichten an Daten als Zentrum eines Clusters identifiziert werden. Diese Arbeit demonstriert das BANG File Clustering-Verfahren innerhalb einer eigenständigen Java Anwendung und auch als ein WEKA Plugin.
Abstract (eng)
Cluster analysis is essential in the field known as explorative data analysis. The Balanced And Nested Grid (BANG) file is a hierarchical clustering system of the grid file type. To efficiently cluster massive data sets the BANG file uses a multidimensional grid structure to organize the value space surrounding pattern values. Its tree structured directory partitions the value space into regions with successive binary divisions on dimensions, which results in self-balancing features of a B-tree. Consequently, unlike previous grid file designs, the directory expands proportionally to the data regardless of the data distribution. The partitioning strategy accurately reflects the clustering of patterns in the value space, with densely populated regions identified as cluster centers, and adapts to changes in the distribution. This thesis concludes with a demonstration of the BANG file clustering system both as a standalone Java application as well as a WEKA package.
Keywords (eng)
Cluster AnalysisData AnalysisHierarchical ClusteringBalanced And Nested GridBANG-FileGrid-FileWeka PackageGRIDCLUS
Keywords (deu)
ClusteranalyseDatenanalyseHierarchische ClusteranalyseBalanced And Nested GridBANG-FileGrid-FileWeka PackageGRIDCLUS
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1343063
Number of pages
82
Association (deu)