Abstract (deu)
Das Ziel dieser Arbeit war, ein Gestenerkennungssystem zu entwickeln, welches Tanz zu Musik umwandelt und dabei einen maschinellen Lernalgorithmus nutzen konnte. Das Projekt dieser These war in sechs Phasen, den Verarbeitungsketten, gegliedert: Eingang, Merkmalsextraktion, Segmentierung, Klassifizierung, Nachbearbeitung und Ausgabe.
Microsoft Kinect v2 Gerät wurde als Eingabemedien ausgewählt. Kinect SDK 2.0 wurde ausgewählt, um relevante Merkmale aus dem Tiefenbild zu extrahieren. Das Bar-Maß wurde als der geeignetste Ansatz zur Segmentierung des Datenstroms auf verschiedene Gesten gewählt. Dynamic Time Warping wurde als der am besten geeignete Algorithmus ausgewählt. Die Umgebung von EyesWeb wurde ausgewählt, um eine vorhergesagte Kategorie in einen Tonauslöser zu verwandeln und eine "Gesten Engine" zu erstellen. Ableton Live wurde ausgewählt, als "Musik Engine" zu fungieren.
Das entworfene System hat virtuelle Instrumente mit Körperteilen gepaart: Das System musste Gesten jeder Gruppe von Körperteilen lernen und wissen, welche Geste welchen Clip in einer Musikkomposition spielt. Ein funktionierender Prototyp eines solchen Systems wurde implementiert und geprüft. Die Ergebnisse unterstützten die Hypothese von dieser Arbeit, dass ein maschineller Lernalgorithmus für die flexible Gestenerkennung verwendet werden kann.
Die Leistung des Systems wurde unter verschiedenen Bedingungen bewertet, um eigene Stärken und Schwächen aufzudecken. Messungen basierend auf der Signaldetektionstheorie wurden sowohl in der Anpassungs- als auch in der Kreuzvalidierungsanalyse berechnet. Die Ergebnisse zeigten eine sehr hohe Vorhersagegenauigkeit des Systems: in den meisten Fällen waren es mehr als 90 %. Die Analyse zeigte, dass das System am besten funktioniert, wenn alle vorhergesagten Gesten in dem Trainingsdatenset aufgenommen wurden und wenn jede Geste mindestens 16 Trainingsproben hatte.