Eine experimentelle Studie zur Itemschwierigkeit von Freiem Antwortformat sowie "1 aus 4"-, "1 aus 6"- und "x aus 5"-MC-Antwortformat

Katharina Vock

doi:10.25365/thesis.5045

You are here: University of Vienna PHAIDRA Detail o:1257459

Title (deu)

Eine experimentelle Studie zur Itemschwierigkeit von Freiem Antwortformat sowie "1 aus 4"-, "1 aus 6"- und "x aus 5"-MC-Antwortformat

Author

Katharina Vock

Advisor

Klaus Kubinger

Assessor

Klaus Kubinger

Abstract (deu)

Bei Leistungstests, die im Multiple-Choice-Antwortformat (kurz „MC-Format) konzipiert sind, besteht grundsätzlich die Möglichkeit, durch bloßes Raten zur Lösung der Aufgabe zu gelangen, ohne über die von Test zu messen beabsichtigte Fähigkeit (in ausreichendem Maß) zu verfügen. Da dies die psychometrische Qualität eines psychologisch-diagnostischen Verfahrens und auch die Fairness des Tests beeinträchtigt, gibt es einige Ansätze in der Psychologie, diesem Rateeffekt zu begegnen. In der vorliegenden Untersuchung wird der Rateeffekt bei verschiedenen Multiple-Choice-Formaten untersucht und zwei konkrete, formal- gestalterische Möglichkeiten zur Verringerung des Rateeffektes auf ihre Wirksamkeit überprüft: Die Erhöhung der Anzahl der Distraktoren und die Erhöhung der möglichen richtigen Antworten unter den Alternativen pro Item. Beide setzen bei der Verringerung der a-priori-Ratewahrscheinlichkeit an und versuchen, diese zu verringern. Dazu wurden zu bestehenden Aufgaben Entsprechungs-Items konstruiert, das heißt solche, die sich ausschließlich im Antwortformat, nicht aber im eigentlichen Aufgabeninhalt unterscheiden, und zwar in Bezug auf die folgenden vier Antwortformate: Freies Antwortformat, MC-Format „ 1 aus 6“ (eine richtige ist aus sechs Antwortmöglichkeiten zu wählen), MC-Format „1 aus 4“ ( eine richtige ist aus vier Alternativen zu wählen)und MCFormat „x aus 5“ Von fünf vorgegebenen Antwortmöglichkeiten können keine, eine, zwei, drei, vier, oder sogar alle Möglichkeiten richtig sein, und ein Item gilt nur dann als gelöst, wenn alle richtigen und keine der falschen Möglichkeiten ausgewählt wurde). Diese Items wurden zu fünf verschiedenen Testformen zusammengestellt, von denen jede schließlich je104 Entsprechungs-Items desselben Aufgabeninhalts enthielt, und einem Experiment 312 Studierenden der Fachrichtung Psychologie zur Bearbeitung vorgegeben. Nach erfolgter Datenerhebung wurden sämtliche Items auf ihre Rasch-Homogenität überprüft und gegebenenfalls ausgeschieden. Aus Daten der verbleibenden Rasch-Modell-konformen Items wurden Itemleichtigkeitsparameter geschätzt, um festzustellen, ob sich die verschiedenen Antwortformate in ihrer Schwierigkeit signifikant voneinander unterscheiden. Zur interferenzstatistischen Überprüfung des Unterschiedes wurde eine einfache Varianzanalyse 63 durchgeführt, in die das Antwortformat als unabhängige, die Itemleichtigkeitsparameter als abhängige Variable eingingen. Um festzustellen, welche Antwortformate konkret sich von welchen anderen signifikant unterscheiden, wurde post hoc eine Newman-Keuls-Prozedur eingesetzt. Es konnte dabei festgestellt werden, dass das freie Antwortformat und auch das MC-Format „x aus 5“ signifikant niedrigere Itemleichtigkeitsparameter bewirkten als die beiden MC-Formate „1 aus 6“ und „ 1 aus 4“, was – sofern die Itemkonstruktion gelungen ist - aufgrund des experimentellen Designs nur auf Rateeffekte zurückzuführen ist. Das Format „x aus 5“ stellte sich als nicht signifikant einfacher als das freie Antwortformat heraus, könnte also eine geeignete Alternative zu letzterem im Leistungstests sein. Zwischen den beiden MC-Formaten „1 aus 6“ und „1 aus 4“ bestehen ebenfalls Schwierigkeitsunterschiede in der erwarteten Richtung, sie fallen aber statistisch nicht signifikant aus. Bei einem Vergleich nur jener Items aber, die sowohl im MC-Format „1 aus 6“ als auch im Format „1 aus 4“ vorkommen mittels T-tests für abhängige Stichproben zeigt sich ein signifikanter Unterschied in den Itemleichtigekitsparametern der beiden Antwortformate; jene Items im Format „1 aus 4“ sind signifikant leichter als ihre Entsprechungs-Items im Format „1 aus 6“. Daraus lässt sich schließen, dass die Erhöhung der Distraktorenzahl pro Item zwar die Aufgabenschwierigkeit signifikant erhöht, der Rateeffekt damit aber nicht gänzlich ausgeschalten werden kann.

Abstract (eng)

When performance tests are designed in multiple choice response format there is always a chance to solve the items, even if the testee does not obtain the ability aimed to be tested, just by lucky guessing. This decreases both reliability and fairness of the test. Despite using psychometric models of the item response theory to take the guessing effect into account when scoring a test, there are variable possibilities concerning design of the multiple-choiceformatted items to deal with this problem. In this experimental study item difficulty of free response format and three different multiple choice formats are compared: “1 out of 6” (one correct answer and five distractors), “1 out of 4” (one correct answer and three distractors) and “x out of 5” (either none, one, two, three, four, or even all of the offered answers can be correct, and all of the correct and none of the wrong answers have to be selected to score the 64 item as mastered. So called parallel items (which differ in response format, but have exactly the same content) were created and assigned to five test forms containing 104 parallel items each. 312 students were randomly selected to work on a test form. Resulting data was analysed using the Rasch-model to establish a scale of the test. A number of items had to be excluded from the item pool. Item difficulty parameters were estimated and compared for each response format. An Anova with these item parameters as the dependent and response format as the independent variable as well as the post hoc Newman-Keuls procedure showed significant difference in item difficulty between free response format and the multiple-choice formats “1 out of 6” and “1 out of 4”. The multiple choice formatted items showed significantly lower item difficulty parameters, which can only be traced back to guessing effects. Items designed in “x out of 5” format did not differ significantly from free response format. Therefore, this format appeared an appropriate alternative to free response format in performance tests. Multiple choice response format “1 out of 4” shows even lower item parameters than the “1 out of 6”- one, as a t-test for paired samples shows.

Keywords (eng)

response formatmultiple-choiceguessing effectitem difficultyRasch-model

Keywords (deu)

AntwortformatMultiple-ChoiceRateeffektItemschwierigkeitItemparameterRasch-Modell

Subject (deu)

Psychologische Diagnostik

Type (deu)

Diplomarbeit

Persistent identifier

https://phaidra.univie.ac.at/o:1257459

DOI

10.25365/thesis.5045