Abstract (deu)
Aufmerksamkeit ist der Prozess, in dem sich unsere geistige Fähigkeiten auf Teile der verfügbaren Informationen konzentrieren. Dies liegt daran, dass Menschen nicht alle verfügbaren Informationen auf einmal verarbeiten können. In dieser Dissertation konzentrieren wir uns auf die visuelle Aufmerksamkeit und versuchen, mathematisch ihr Verhalten zu simulieren.
Die Verbreitung von Informationen durch Videos wird mehr und mehr in der heutigen Gesellschaft, durch TV-On-Demand, Webstreaming, E-Learning und Onlinespiele, um nur einige Beispiele zu nennen, präsent. Die vorliegende Arbeit konzentriert sich auf die folgenden Forschungsgebiete: die Bedeutung von Schnitt in Filmsequenzen für die visuelle Aufmerksamkeit, die Attraktivität einer Region in einem Video und das Verhalten der visuellen Aufmerksamkeit in Gegenwart von Verzerrungen, wie Jitter.
Im Folgenden werden wir uns auf das erste Forschungsgebiet, nämlich auf Schnitte, konzentrieren. Schnitte bezeichnen eine Bearbeitungstechnik, die zu einer starken Veränderung der Filmszene führt. Insbesondere werden Objektorte durch Schnitte unkorreliert. Wir analysieren zunächst das Verhalten der Zuschauer, während sie sich ein Video mit einem Schnitt anschauen, aus der Sicht der Kognitionswissenschaft. Wir schlagen eine zweistufige konzeptuelle Architektur vor und testen sie durch Eyetracking Experimente. Die Architektur wird durch die zeitliche Kohärenz der scheinbaren Bewegung angetrieben, die auch als optischer Fluss bekannt ist und sich auf zwei Fälle konzentriert: die Reaktion des Betrachters auf eine Sequenz ohne Schnitte und auf eine mit Schnitten.
Wir schlagen vor, dass die Aufmerksamkeit des Betrachters durch Neuheit in einer Einstellung, die keine Schnitte enthält, angezogen wird. In diesem Fall, während der globale Fluss kohärent ist, weist die lokale Inkohärenz auf die Neuheit hin. Das Verhalten der Zuschauer ändert sich, wenn man auf einen Schnitt trifft. In diesem Fall ist der globale Fluss inkohärent, was den Schnitt signalisiert. Die Aufmerksamkeit des Betrachters wird durch wiederholte Merkmale, wie wiederholte Bewegung, angezogen.
Mathematisch formulieren wir die zweistufige Architektur als Variationsansatz zur Berechnung des optischen Flusses. Wir gehen von der Horn-Schunck Funktional aus und modifizieren es bequem, um den räumlich-zeitlichen Ansatz von Weickert-Schnörr mit einzuschließen. Wir schlagen eine Aufteilung des Flusses in zwei optische Felder vor: eines, das einen zeitlich-kohärenten Fluss charakterisiert und ein anderes, das Bezug auf wiederholte Bewegung, die auch als Schwingungsmuster bekannt ist, nimmt. Um das Schwingungsmuster zu mo- dellieren, schlagen wir ein in Zeit nicht lokalen Regularisator, von Meyers Buch inspiriert, vor.
Wir beschreiben nun das zweite Forschungsgebiet, das sich auf die Attraktivität einer bestimmten Stelle in einem Video bezieht. Das Ziel eines Modells der visuellen Aufmerksamkeit ist, die Attraktivität einer Stelle für den Betrachter, numerisch in einer Wahrscheinlichkeit von Interesse übersetzt, zu schätzen. Eine Karte der Wahrscheinlichkeiten von Interesse für jeden Punkt eines stati- schen Bildes wird Salienzkarte genannt. Um im Standardansatz die Salienz von dynamischen Sequenzen zu berechnen, wird die Salienz jedes Kaders des Videos und die Salienz der Bewegungsmerkmale berechnet, um sie dann durch ein Gewichtungsschema zu kombinieren. Wir schlagen einen Algorithmus zur Berechnung der Salienz der Bewegungsmerkmale in einer dynamischen Sequenz, in einer so genannten dynamische Salienzkarte vor. Auch hier formulieren wir die Bewegungsmerkmale als Variationsansatz des optischen Flusses-Problems. Insbesondere berechnen wir den Fluss einer hoch-dimensionalen Sequenz, die durch Intensität- oder Farbkanäle, ergänzt durch die Salienzkarte jedes Kaders, zusammengesetzt ist. Dies ermöglicht uns, das Aperturproblem zu überwinden. Außerdem inkludieren wir eine modifizierte Version des räumlich-zeitlichen Ansatzes von Weickert-Schnörr in unserem Funktional. Dank der vorgeschlagenen Veränderung ist unser Modell besonders wirksam im Falle von Okklusion. In der Tat, in unserer dynamischen Salienzkarte, simulieren wir das menschliche Verhalten, die Bewegung eines Objektes kontinuierlich durch Okklusion zu verfolgen.
Wir sprechen das dritte und letzte Forschungsgebiet, genauer gesagt das Verhalten der visuellen Aufmerksamkeit in Gegenwart von Verzerrungen wie z. B. Jitter, an. Die Menschen sind in der Lage, Formen und Objekte bis hin zu einem gewissen Grad der Verzerrung zu erkennen. Das menschliche Hirn führt eine automatische Rekonstruktion des Originalbildes. Wir simulieren diesen Prozess der Rekonstruktion im Fall von statischen Bildern und konzentrieren uns auf eine bestimmte Art von Verzerrung, so genannt Jitter. Jitter entsteht, wenn das Zeitintervall zwischen den Abfragepunkten des Signals nicht korrekt ist. Wir schlagen Variationsansätze des Funktionals, um Bilder, die von Linien-, Linien-Pixel- und Pixeljitter verzehrt werden, zu rekonstruieren, vor.
Die vorgeschlagenen Algorithmen erlauben Kognitionswissenschaftler, Theorien zu testen und quantitative Bewertung durchzuführen. Eyetracking Experimente sollen durchgeführt werden, um die Antwort der menschlichen visuellen Aufmerksamkeit im Vergleich zum Ergebnis unserer Algorithmen zu untersu- chen. Ein weiterer Schritt von mathematischem Interesse könnte die Erweiterung unserer Modelle in Richtung eines allgemeinen Modells, das in der Lage ist, die visuelle Aufmerksamkeit in allen oben-genannten Forschungsgebieten gleichzeitig zu simulieren, darstellen. Wir behaupten, dass eine geeignete Formulierung des optischen Flusses, quantitative Methoden zur Abschätzung der visuellen Aufmerksamkeit liefern kann.