You are here: University of Vienna PHAIDRA Detail o:1394400
Title (eng)
Clustering and anomaly detection from heterogeneous data
Parallel title (deu)
Clustering und Anomalieerkennung aus heterogenen Daten
Author
Sahar Behzadi Soheil
Adviser
Claudia Plant
Assessor
Allen Hanbury
Assessor
Andreas Züfle
Abstract (deu)
Die meisten Algorithmen aus dem Bereich des Data Mining (z. B. Clustering Algorithmen) sind für Datensätze mit ein und demselben Typ ausgelegt, das heißt die Attribute bestehen nur aus einem bestimmten Datentyp, z. B. aus rein numerischen oder rein kategorischen Attributen. Viele Anwendungen erzeugen jedoch eine Vielzahl verschiedener gemischter Datensätze, bei denen die Attribute unterschiedlicher Natur sein können. Es ist allgemein bekannt, dass eine einfache Transformation eines Datentyps in einen anderen nicht ausreicht, da in diesem Fall Beziehungen zwischen Werten (wie z.B. eine bestimmte Reihenfolge zwischen Variablen) künstlich eingeführt werden. Daher besteht eine mögliche Herausforderung in dieser Hinsicht darin, verschiedene Datentypen angemessen zu integrieren, so dass man Objekte effizient und ohne Genauigkeits- oder Informationsverlust analysieren kann. Das Ziel in dieser Arbeit ist es, effektive und effiziente Algorithmen für den Umgang mit heterogenen (gemischten) Datensätzen unter Berücksichtigung verschiedener Aufgaben des Data Mining einzuführen. In dieser Hinsicht nutzen wir interessante Eigenschaften jedes Datentyps, z.B. eine natürliche konzeptuelle Hierarchie zwischen kategorialen Informationen, um neuartige Algorithmen im Data Mining einzuführen. Dabei versuchen wir, Attribute verschiedener Datentypen zu integrieren und die ursprüngliche Form der Information zu erhalten, anstatt Datentypen zu konvertieren.
Abstract (eng)
Most data mining algorithms (e.g. clustering algorithms) are designed for single--type data sets when attributes consist of only a specific data type, e.g. pure numerical or pure categorical attributes. However, many applications generate a variety of different mixed--type data sets where attributes might be of different natures. It is already well--understood that a simple transformation of a data type into another one is not sufficient since, in this case, relationships between values (such as a certain order among variables) are artificially introduced. Thus, a possible challenge in this respect is to appropriately integrate various data types such that one could efficiently analyze objects without any accuracy or information loss. Therefore, in this thesis, we aim at introducing effective and efficient algorithms dealing with heterogeneous (mixed--type) data sets Considering various data mining tasks. In this regard, we utilize interesting characteristics of every data type, e.g. a natural conceptual hierarchy among categorical information, to introduce novel data mining algorithms. Thereby, we try to integrate attributes of different data types and preserve the original form of information instead of converting data types.
Keywords (eng)
Data mininganomaly detectionclusteringheterogeneous data
Keywords (deu)
Data mininganomaly detectionclusteringheterogeneous data
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1394400
rdau:P60550 (deu)
1 Band (verschiedene Seitenzählungen) : Illustrationen, Diagramme, Karten
Number of pages
145
Association (deu)
Members (1)
Title (eng)
Clustering and anomaly detection from heterogeneous data
Parallel title (deu)
Clustering und Anomalieerkennung aus heterogenen Daten
Author
Sahar Behzadi Soheil
Abstract (deu)
Die meisten Algorithmen aus dem Bereich des Data Mining (z. B. Clustering Algorithmen) sind für Datensätze mit ein und demselben Typ ausgelegt, das heißt die Attribute bestehen nur aus einem bestimmten Datentyp, z. B. aus rein numerischen oder rein kategorischen Attributen. Viele Anwendungen erzeugen jedoch eine Vielzahl verschiedener gemischter Datensätze, bei denen die Attribute unterschiedlicher Natur sein können. Es ist allgemein bekannt, dass eine einfache Transformation eines Datentyps in einen anderen nicht ausreicht, da in diesem Fall Beziehungen zwischen Werten (wie z.B. eine bestimmte Reihenfolge zwischen Variablen) künstlich eingeführt werden. Daher besteht eine mögliche Herausforderung in dieser Hinsicht darin, verschiedene Datentypen angemessen zu integrieren, so dass man Objekte effizient und ohne Genauigkeits- oder Informationsverlust analysieren kann. Das Ziel in dieser Arbeit ist es, effektive und effiziente Algorithmen für den Umgang mit heterogenen (gemischten) Datensätzen unter Berücksichtigung verschiedener Aufgaben des Data Mining einzuführen. In dieser Hinsicht nutzen wir interessante Eigenschaften jedes Datentyps, z.B. eine natürliche konzeptuelle Hierarchie zwischen kategorialen Informationen, um neuartige Algorithmen im Data Mining einzuführen. Dabei versuchen wir, Attribute verschiedener Datentypen zu integrieren und die ursprüngliche Form der Information zu erhalten, anstatt Datentypen zu konvertieren.
Abstract (eng)
Most data mining algorithms (e.g. clustering algorithms) are designed for single--type data sets when attributes consist of only a specific data type, e.g. pure numerical or pure categorical attributes. However, many applications generate a variety of different mixed--type data sets where attributes might be of different natures. It is already well--understood that a simple transformation of a data type into another one is not sufficient since, in this case, relationships between values (such as a certain order among variables) are artificially introduced. Thus, a possible challenge in this respect is to appropriately integrate various data types such that one could efficiently analyze objects without any accuracy or information loss. Therefore, in this thesis, we aim at introducing effective and efficient algorithms dealing with heterogeneous (mixed--type) data sets Considering various data mining tasks. In this regard, we utilize interesting characteristics of every data type, e.g. a natural conceptual hierarchy among categorical information, to introduce novel data mining algorithms. Thereby, we try to integrate attributes of different data types and preserve the original form of information instead of converting data types.
Keywords (eng)
Data mininganomaly detectionclusteringheterogeneous data
Keywords (deu)
Data mininganomaly detectionclusteringheterogeneous data
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1394401
Number of pages
145
Association (deu)