Diese Arbeit setzte sich zum Ziel die Items der PISA Studie (Programme for International Student Assessment) bezüglich ihrer Rasch-Modell-Konformität zu überprüfen. Analysiert wurden 20 Linking Items der PISA Studie – also jene Items, die in jedem Jahr vorgegeben wurden – aus den Jahren 2000, 2003, 2006 und 2009 aus dem Kompetenzbereich Lesen von 34 Ländern, die zu allen Zeitpunkten an der Studie teilgenommen haben. Insgesamt wurde ein Datensatz von 34 Ländern, 20 Items und 315 072 SchülerInnen ausgewertet. Die Auswertung wurde mittels Andersen-Likelihood-Ratio-Test (LRT; Andersen, 1973) für jedes Jahr und für jedes Land mit dem Teilungskriterium Anzahl gelöster Aufgaben und Geschlecht durchgeführt. Da es wahrscheinlich war, bereits auf Grund der ungewöhnlich großen Stichprobe, signifikante Ergebnisse zu erhalten (z.B. Kubinger, 2005), wurden für diese Arbeit nicht signifikante, sondern praktisch relevante Abweichungen als Kriterium zur Überprüfung des Rasch-Modells herangezogen. Für alle signifikanten Ergebnisse des LRT wurden daher graphische Modellkontrollen durchgeführt (Fischer, 1974). Eine Abweichung von der 45°-Geraden in der graphischen Modellkontrolle wurde als praktisch relevant angesehen, wenn die Differenz der Itemparameterschätzungen aus zwei Teilstichproben mehr als ein Zehntel der Spannweite der Parameterschätzungen betrug (Goethals, 1994). Die Analysen ergaben, dass beinahe in jedem Land bzw. in jedem Jahr und in Bezug auf beide Teilungskriterien Items vorhanden sind, die in den Teilgruppen nicht dieselbe Schwierigkeit aufweisen. Somit kann nicht davon ausgegangen werden, dass die Items der PISA Studie im Kompetenzbereich Lesen Rasch-Modell konform sind.
The aim of this study was to check the Rasch model conformity used in the Programme for International Student Assessment (PISA). We analyzed a sample of linking items (recurring items in 2000, 2003, 2006 and 2009) of the PISA reading survey. The sample consisted of 34 countries, 20 items and 315 072 students. The Rasch model conformity was checked by testing the item parameters uniformity for students with low scores and with high scores and for males and females in every country and every year with Andersen’s (1973) conditional likelihood ratio test (CLR). To address the statistical phenomenon of significance without relevance due to big sample sizes, a graphical model check was applied (e.g. Kubinger, 2005). A deviation in the graphical model check was considered to be practically relevant when the difference of two item parameter estimations of a subsample exceed a tenth of the range of the parameters (Goethals, 1994). Results show a practical relevant difference in item difficulty in almost every subsample in every country and every year. These results do not support the conformity of the Rasch model in the PISA reading survey.
Diese Arbeit setzte sich zum Ziel die Items der PISA Studie (Programme for International Student Assessment) bezüglich ihrer Rasch-Modell-Konformität zu überprüfen. Analysiert wurden 20 Linking Items der PISA Studie – also jene Items, die in jedem Jahr vorgegeben wurden – aus den Jahren 2000, 2003, 2006 und 2009 aus dem Kompetenzbereich Lesen von 34 Ländern, die zu allen Zeitpunkten an der Studie teilgenommen haben. Insgesamt wurde ein Datensatz von 34 Ländern, 20 Items und 315 072 SchülerInnen ausgewertet. Die Auswertung wurde mittels Andersen-Likelihood-Ratio-Test (LRT; Andersen, 1973) für jedes Jahr und für jedes Land mit dem Teilungskriterium Anzahl gelöster Aufgaben und Geschlecht durchgeführt. Da es wahrscheinlich war, bereits auf Grund der ungewöhnlich großen Stichprobe, signifikante Ergebnisse zu erhalten (z.B. Kubinger, 2005), wurden für diese Arbeit nicht signifikante, sondern praktisch relevante Abweichungen als Kriterium zur Überprüfung des Rasch-Modells herangezogen. Für alle signifikanten Ergebnisse des LRT wurden daher graphische Modellkontrollen durchgeführt (Fischer, 1974). Eine Abweichung von der 45°-Geraden in der graphischen Modellkontrolle wurde als praktisch relevant angesehen, wenn die Differenz der Itemparameterschätzungen aus zwei Teilstichproben mehr als ein Zehntel der Spannweite der Parameterschätzungen betrug (Goethals, 1994). Die Analysen ergaben, dass beinahe in jedem Land bzw. in jedem Jahr und in Bezug auf beide Teilungskriterien Items vorhanden sind, die in den Teilgruppen nicht dieselbe Schwierigkeit aufweisen. Somit kann nicht davon ausgegangen werden, dass die Items der PISA Studie im Kompetenzbereich Lesen Rasch-Modell konform sind.
The aim of this study was to check the Rasch model conformity used in the Programme for International Student Assessment (PISA). We analyzed a sample of linking items (recurring items in 2000, 2003, 2006 and 2009) of the PISA reading survey. The sample consisted of 34 countries, 20 items and 315 072 students. The Rasch model conformity was checked by testing the item parameters uniformity for students with low scores and with high scores and for males and females in every country and every year with Andersen’s (1973) conditional likelihood ratio test (CLR). To address the statistical phenomenon of significance without relevance due to big sample sizes, a graphical model check was applied (e.g. Kubinger, 2005). A deviation in the graphical model check was considered to be practically relevant when the difference of two item parameter estimations of a subsample exceed a tenth of the range of the parameters (Goethals, 1994). Results show a practical relevant difference in item difficulty in almost every subsample in every country and every year. These results do not support the conformity of the Rasch model in the PISA reading survey.