You are here: University of Vienna PHAIDRA Detail o:1344657
Title (eng)
Adaptive gesture recognition system, transforming dance performance into music
Author
Evaldas Jablonskis
Adviser
Hannes Kaufmann
Assessor
Hannes Kaufmann
Abstract (deu)
Das Ziel dieser Arbeit war, ein Gestenerkennungssystem zu entwickeln, welches Tanz zu Musik umwandelt und dabei einen maschinellen Lernalgorithmus nutzen konnte. Das Projekt dieser These war in sechs Phasen, den Verarbeitungsketten, gegliedert: Eingang, Merkmalsextraktion, Segmentierung, Klassifizierung, Nachbearbeitung und Ausgabe. Microsoft Kinect v2 Gerät wurde als Eingabemedien ausgewählt. Kinect SDK 2.0 wurde ausgewählt, um relevante Merkmale aus dem Tiefenbild zu extrahieren. Das Bar-Maß wurde als der geeignetste Ansatz zur Segmentierung des Datenstroms auf verschiedene Gesten gewählt. Dynamic Time Warping wurde als der am besten geeignete Algorithmus ausgewählt. Die Umgebung von EyesWeb wurde ausgewählt, um eine vorhergesagte Kategorie in einen Tonauslöser zu verwandeln und eine "Gesten Engine" zu erstellen. Ableton Live wurde ausgewählt, als "Musik Engine" zu fungieren. Das entworfene System hat virtuelle Instrumente mit Körperteilen gepaart: Das System musste Gesten jeder Gruppe von Körperteilen lernen und wissen, welche Geste welchen Clip in einer Musikkomposition spielt. Ein funktionierender Prototyp eines solchen Systems wurde implementiert und geprüft. Die Ergebnisse unterstützten die Hypothese von dieser Arbeit, dass ein maschineller Lernalgorithmus für die flexible Gestenerkennung verwendet werden kann. Die Leistung des Systems wurde unter verschiedenen Bedingungen bewertet, um eigene Stärken und Schwächen aufzudecken. Messungen basierend auf der Signaldetektionstheorie wurden sowohl in der Anpassungs- als auch in der Kreuzvalidierungsanalyse berechnet. Die Ergebnisse zeigten eine sehr hohe Vorhersagegenauigkeit des Systems: in den meisten Fällen waren es mehr als 90 %. Die Analyse zeigte, dass das System am besten funktioniert, wenn alle vorhergesagten Gesten in dem Trainingsdatenset aufgenommen wurden und wenn jede Geste mindestens 16 Trainingsproben hatte.
Abstract (eng)
The objective of this thesis was to develop a gesture recognition system that would transform dance to music using a machine learning algorithm. This thesis is divided into the six stages of the processing chain: Input, Feature Extraction, Segmentation, Classification, Post-processing, Output. Microsoft Kinect v2 device was chosen as input. Kinect SDK 2.0 was chosen to extract relevant features from the depth image. Music bar measure was chosen as the most suitable approach to segment the data stream to distinct gestures. For classification, Dynamic Time Warping was chosen as the most suitable algorithm. EyesWeb environment was chosen for post-processing and to build an overall “gesture engine”. Ableton Live was selected to function as the output. The designed system coupled virtual instruments with body parts: the system had to learn gestures of each group of body parts and know how gestures were paired with music clips in a composition. A working prototype of such a system was implemented and tested. Results supported the hypothesis of this thesis that a machine learning algorithm could be used for flexible gesture recognition. Performance of the system under various conditions was evaluated in order to reveal its strengths and weaknesses. Results disclosed a very high prediction accuracy of the system: in most of the cases it was over 90%. Analysis showed that the system performed best when all predicted gestures were included in the training dataset and when each gesture had at least 16 training samples.
Keywords (eng)
Gesture recognition systemmachine learning algorithmsKinectEyesWeb
Keywords (deu)
Gestenerkennungssystemmaschinelle LernalgorithmenKinectEyesWeb
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1344657
rdau:P60550 (deu)
108 Seiten : Illustrationen, Diagramme
Number of pages
108
Members (1)
Title (eng)
Adaptive gesture recognition system, transforming dance performance into music
Author
Evaldas Jablonskis
Abstract (deu)
Das Ziel dieser Arbeit war, ein Gestenerkennungssystem zu entwickeln, welches Tanz zu Musik umwandelt und dabei einen maschinellen Lernalgorithmus nutzen konnte. Das Projekt dieser These war in sechs Phasen, den Verarbeitungsketten, gegliedert: Eingang, Merkmalsextraktion, Segmentierung, Klassifizierung, Nachbearbeitung und Ausgabe. Microsoft Kinect v2 Gerät wurde als Eingabemedien ausgewählt. Kinect SDK 2.0 wurde ausgewählt, um relevante Merkmale aus dem Tiefenbild zu extrahieren. Das Bar-Maß wurde als der geeignetste Ansatz zur Segmentierung des Datenstroms auf verschiedene Gesten gewählt. Dynamic Time Warping wurde als der am besten geeignete Algorithmus ausgewählt. Die Umgebung von EyesWeb wurde ausgewählt, um eine vorhergesagte Kategorie in einen Tonauslöser zu verwandeln und eine "Gesten Engine" zu erstellen. Ableton Live wurde ausgewählt, als "Musik Engine" zu fungieren. Das entworfene System hat virtuelle Instrumente mit Körperteilen gepaart: Das System musste Gesten jeder Gruppe von Körperteilen lernen und wissen, welche Geste welchen Clip in einer Musikkomposition spielt. Ein funktionierender Prototyp eines solchen Systems wurde implementiert und geprüft. Die Ergebnisse unterstützten die Hypothese von dieser Arbeit, dass ein maschineller Lernalgorithmus für die flexible Gestenerkennung verwendet werden kann. Die Leistung des Systems wurde unter verschiedenen Bedingungen bewertet, um eigene Stärken und Schwächen aufzudecken. Messungen basierend auf der Signaldetektionstheorie wurden sowohl in der Anpassungs- als auch in der Kreuzvalidierungsanalyse berechnet. Die Ergebnisse zeigten eine sehr hohe Vorhersagegenauigkeit des Systems: in den meisten Fällen waren es mehr als 90 %. Die Analyse zeigte, dass das System am besten funktioniert, wenn alle vorhergesagten Gesten in dem Trainingsdatenset aufgenommen wurden und wenn jede Geste mindestens 16 Trainingsproben hatte.
Abstract (eng)
The objective of this thesis was to develop a gesture recognition system that would transform dance to music using a machine learning algorithm. This thesis is divided into the six stages of the processing chain: Input, Feature Extraction, Segmentation, Classification, Post-processing, Output. Microsoft Kinect v2 device was chosen as input. Kinect SDK 2.0 was chosen to extract relevant features from the depth image. Music bar measure was chosen as the most suitable approach to segment the data stream to distinct gestures. For classification, Dynamic Time Warping was chosen as the most suitable algorithm. EyesWeb environment was chosen for post-processing and to build an overall “gesture engine”. Ableton Live was selected to function as the output. The designed system coupled virtual instruments with body parts: the system had to learn gestures of each group of body parts and know how gestures were paired with music clips in a composition. A working prototype of such a system was implemented and tested. Results supported the hypothesis of this thesis that a machine learning algorithm could be used for flexible gesture recognition. Performance of the system under various conditions was evaluated in order to reveal its strengths and weaknesses. Results disclosed a very high prediction accuracy of the system: in most of the cases it was over 90%. Analysis showed that the system performed best when all predicted gestures were included in the training dataset and when each gesture had at least 16 training samples.
Keywords (eng)
Gesture recognition systemmachine learning algorithmsKinectEyesWeb
Keywords (deu)
Gestenerkennungssystemmaschinelle LernalgorithmenKinectEyesWeb
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1344658
Number of pages
108