You are here: University of Vienna PHAIDRA Detail o:1330288
Title (eng)
Inter- and intra-speaker variation in multi-modal task descriptions and implications for human-robot interaction
Parallel title (deu)
Inter- und intra-Sprecher Variation in multi-modalen Aufgabenbeschreibungen und Implikationen für die Mensch-Roboter Interaktion
Author
Stephanie Gross
Adviser
Daniel Büring
Adviser
Matthias Scheutz
Assessor
Matthias Scheutz
Assessor
Robert Trappl
Abstract (deu)

Ein Roboter muss mit einer großen Variation verbaler und non-verbaler Information umgehen können, um in der Lage zu sein, in situierten Aufgabenbeschreibungen Referenzen auf Objekte, Personen oder Aktionen auflösen zu können. Um Roboter zu entwickeln, die in der Lange sind mit Menschen auf natürliche Art und Weise zu interagieren, muss noch eine Anzahl von Bereichen menschlicher Aufgabenbeschreibungen weiter untersucht werden.
Im Rahmen der Dissertation wurden Daten gesammelt, in denen eine Person jemandem vier kurze Aufgaben erklärt, um menschliche Interaktion in größerem Detailliertheitsgrad untersuchen zu können. Die Analyse dieser Daten ist eine wichtige Basis dafür, womit ein Roboter umgehen können muss, wenn er an Stelle der lernenden Person wäre.
Die qualitative Analyse der Daten hat gezeigt, dass multi-modale Kommunikation bei situierten Aufgabenbeschreibungen eine sehr wichtige Rolle spielt. Wenn nur der sprachliche Teil der Instruktionen interpretiert wird, geht wichtige Information verloren, die notwendig ist, um die Aufgabe erfolgreich durchführen zu können. Neben Augenbewegungen und Gesten ist z.B. auch wichtig, welche Objekte die instruierende Person in der Hand hält, die Argumentstruktur von Verben, oder ob sich die Hand der lehrenden Person gerade zu einem Objekt hinbewegt. Die Relevanz der jeweiligen non-verbalen Beobachtung hängt mit der geäußerten linguistischen Form zusammen. Bei geäußerten Nominalphrasen ist es wichtig, welches Objekt die instruierende Person gerade gegriffen hat, während es bei Pronomina relevanter ist, welches Objekt vor längerem gegriffen wurde, aber immer noch gehalten wird.
Basierend auf den Ergebnissen der Datenanalyse werden generelle Prinzipien formuliert, wie Referenzen in situierten multi-modalen Aufgabenbeschreibungen aufgelöst werden können. Ebenso werden Anforderungen diskutiert und daraus resultierende Design Ideen für Roboter- Architekturen im Bezug auf den Umgang mit (i) einer großen Variation an verbalen Äußerungen, wenn auf ein spezifisches Objekt verwiesen wird, (ii) unterspezifizierten sprachlichen Referenzen, und (iii) ihrer Multi-modalität.

Abstract (eng)

A robot has to deal with a broad variety of verbal and non-verbal information to be able to resolve references in a situated task description context. If robots are to interact with humans in the future, a number of issues in natural situated task descriptions need to be tackled.
In order to investigate human-human interaction in more detail, data were collected where an instructor explains and shows four different tasks to a learner. The results are an important basis for what a robot would have to deal with if it were in the learner's position.
The qualitative analysis of the data shows that multi-modal communication plays a crucial role in situated task descriptions. If only the verbal part of task descriptions is used for interpretation, important information for successfully conducting the task is missing. In addition to eye gaze and gesture of the instructor, additional cues are needed for multi-modal reference resolution. These include which object the instructor is holding or still holding, knowledge about the argument structure of verbs, or whether the hand is moving towards an object. The relevance of these cues depends on the uttered linguistic form. For example the object which the instructor grasps at a certain point in time is important when a noun phrase is uttered, while for pronouns the object which the instructor is still holding is more relevant.
Based on the results of the data analysis, general principles of human multimodal task descriptions are formulated on how references to objects can be resolved and the accordant challenges for robot architectures are discussed. These challenges include (i) a broad variation of verbal referring expressions when referring to one
specific object, (ii) verbally underspecified referring expressions and (iii) their multimodality.

Keywords (eng)
multi-modal communicationhuman-robot interaction
Keywords (deu)
multi-modale KommunikationMensch-Roboter Interaktion
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1330288
rdau:P60550 (deu)
xii, 174 Seiten : Illustrationen
Number of pages
186
Study plan
Dr.-Studium der Philosophie (Dissertationsgebiet: Sprachwissenschaft)
[UA]
[792]
[327]
Members (1)
Title (eng)
Inter- and intra-speaker variation in multi-modal task descriptions and implications for human-robot interaction
Parallel title (deu)
Inter- und intra-Sprecher Variation in multi-modalen Aufgabenbeschreibungen und Implikationen für die Mensch-Roboter Interaktion
Author
Stephanie Gross
Abstract (deu)

Ein Roboter muss mit einer großen Variation verbaler und non-verbaler Information umgehen können, um in der Lage zu sein, in situierten Aufgabenbeschreibungen Referenzen auf Objekte, Personen oder Aktionen auflösen zu können. Um Roboter zu entwickeln, die in der Lange sind mit Menschen auf natürliche Art und Weise zu interagieren, muss noch eine Anzahl von Bereichen menschlicher Aufgabenbeschreibungen weiter untersucht werden.
Im Rahmen der Dissertation wurden Daten gesammelt, in denen eine Person jemandem vier kurze Aufgaben erklärt, um menschliche Interaktion in größerem Detailliertheitsgrad untersuchen zu können. Die Analyse dieser Daten ist eine wichtige Basis dafür, womit ein Roboter umgehen können muss, wenn er an Stelle der lernenden Person wäre.
Die qualitative Analyse der Daten hat gezeigt, dass multi-modale Kommunikation bei situierten Aufgabenbeschreibungen eine sehr wichtige Rolle spielt. Wenn nur der sprachliche Teil der Instruktionen interpretiert wird, geht wichtige Information verloren, die notwendig ist, um die Aufgabe erfolgreich durchführen zu können. Neben Augenbewegungen und Gesten ist z.B. auch wichtig, welche Objekte die instruierende Person in der Hand hält, die Argumentstruktur von Verben, oder ob sich die Hand der lehrenden Person gerade zu einem Objekt hinbewegt. Die Relevanz der jeweiligen non-verbalen Beobachtung hängt mit der geäußerten linguistischen Form zusammen. Bei geäußerten Nominalphrasen ist es wichtig, welches Objekt die instruierende Person gerade gegriffen hat, während es bei Pronomina relevanter ist, welches Objekt vor längerem gegriffen wurde, aber immer noch gehalten wird.
Basierend auf den Ergebnissen der Datenanalyse werden generelle Prinzipien formuliert, wie Referenzen in situierten multi-modalen Aufgabenbeschreibungen aufgelöst werden können. Ebenso werden Anforderungen diskutiert und daraus resultierende Design Ideen für Roboter- Architekturen im Bezug auf den Umgang mit (i) einer großen Variation an verbalen Äußerungen, wenn auf ein spezifisches Objekt verwiesen wird, (ii) unterspezifizierten sprachlichen Referenzen, und (iii) ihrer Multi-modalität.

Abstract (eng)

A robot has to deal with a broad variety of verbal and non-verbal information to be able to resolve references in a situated task description context. If robots are to interact with humans in the future, a number of issues in natural situated task descriptions need to be tackled.
In order to investigate human-human interaction in more detail, data were collected where an instructor explains and shows four different tasks to a learner. The results are an important basis for what a robot would have to deal with if it were in the learner's position.
The qualitative analysis of the data shows that multi-modal communication plays a crucial role in situated task descriptions. If only the verbal part of task descriptions is used for interpretation, important information for successfully conducting the task is missing. In addition to eye gaze and gesture of the instructor, additional cues are needed for multi-modal reference resolution. These include which object the instructor is holding or still holding, knowledge about the argument structure of verbs, or whether the hand is moving towards an object. The relevance of these cues depends on the uttered linguistic form. For example the object which the instructor grasps at a certain point in time is important when a noun phrase is uttered, while for pronouns the object which the instructor is still holding is more relevant.
Based on the results of the data analysis, general principles of human multimodal task descriptions are formulated on how references to objects can be resolved and the accordant challenges for robot architectures are discussed. These challenges include (i) a broad variation of verbal referring expressions when referring to one
specific object, (ii) verbally underspecified referring expressions and (iii) their multimodality.

Keywords (eng)
multi-modal communicationhuman-robot interaction
Keywords (deu)
multi-modale KommunikationMensch-Roboter Interaktion
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1330289
Number of pages
186