Abstract (deu)
Nur wenn ein psychologisch-diagnostisches Verfahren Rasch-Modell-konform ist, ist die Anzahl gelöster Aufgaben ein suffizienter Schätzer für die Fähigkeit von Personen. Um die verschiedenen Annahmen des Rasch-Modells zu prüfen, stehen eine Reihe von Modelltests zur Verfügung. In der vorliegenden Arbeit wurden in einer Simulationsstudie vier dieser Modelltests, der Likelihood-Ratio-Test nach Andersen, der z-Test nach Fischer und Scheiblechner mit der Schätzfunktion nach Wald, der Martin-Löf-Test, sowie die 2009 von Kubinger, Rasch und Yanagida vorgeschlagene Möglichkeit, eine dreifache teilhierarchische Varianzanalyse zu verwenden, in Bezug auf ihren Fehler erster Art sowie ihre Teststärke miteinander verglichen.
Für 20 Items und zwischen 100 und 300 Personen wurde folgendes simuliert: Keine Modellverletzung, Modellverletzung mit einem DIF-Paar, wobei die Itemparameterdifferenz (Effektstärke) zwischen einer halben und zwei Standardabweichungen der Personenparameter variierte, und eine Modellverletzung unter Multidimensionalität mit einer latenten Korrelation von 0,5.
Es zeigte sich, dass der Likelihood-Ratio-Test nach Andersen, die dreifache Varianzanalyse nach Kubinger, Rasch und Yanagida sowie der z-Test nach Fischer und Scheiblechner das Risiko 1. Art von 5% größtenteils einhielten, während beim Martin-Löf-Test das Risiko erster Art bei 0% lag.
Die Teststärke der dreifachen Varianzanalyse und die des Likelihood-Ratio-Tests erwies sich als annähernd gleich groß, wobei die der dreifachen Varianzanalyse etwas größer war. Dahingegen lag die Teststärke des z-Tests nach Fischer und Scheiblechner deutlich darunter. Wie zu erwarten hing die Teststärke von der Personenanzahl und der Effektstärke ab. Ab einer Effektstärke von einer Standardabweichung lagen die Teststärke der dreifachen Varianzanalyse und die des Likelihood-Ratio-Tests nach Andersen für alle simulierten Personenzahlen über 0,8.
Bei der Modellverletzung durch Multidimensionalität war die Teststärke des Likelihood-Ratio-Tests auf dem nominellen Niveau des Risikos 1. Art, die des Martin-Löf-Tests lag bei 100 Personen bei 3% und erreichte bei 300 Personen 70% (α=0,05).
Die Arbeit zeigt, dass für die hier simulierten Bedingungen die dreifache Varianzanalyse etwas besser abschneidet, als der Likelihood-Ratio-Test nach Andersen und diese somit eine attraktive Alternative zu ihm darstellt.