Undersøgelse af De Nationale Tests måleegenskaber

Forfattere

Jeppe Bundsgaard
Svend Kreiner

Synopsis

Denne rapport indeholder en omhyggelig analyse af de måletekniske egenskaber af de nationale test i læsning i 8. klasse i 2017. Analyserne bygger på svarene på alle opgaver fra alle 48.481 elever i 8. klasse i 2017. Analysen er foretaget ved hjælp af den samme Rasch-model som blev anvendt i forbindelse med udviklingen og afprøvningen af de nationale test. Eventuelle forskelle på det som analysen af datamaterialet fra 2017 måtte afsløre, i forhold til det som de nationale test producerer, kan derfor ikke skyldes at denne analyse bruger andre metoder og stiller andre krav til test, end dem der blev brugt i forbindelse med udviklingen af de nationale test.

Resultaterne af analysen kan ganske kort opsummeres på følgende måde:

1)    Nationale test anvender opgavernes sværhedsgrader til at udvælge opgaver til elever og til at beregne mål for hvor dygtige eleverne er. Disse sværhedsgrader er forkerte, og der var i 2017 mange tilfælde af meget store forskelle på de sværhedsgrader som nationale test benytter, og de sande sværhedsgrader.
2)    Konsekvensen af at nationale tests sværhedsgrader er forkerte, er at beregningerne af dygtigheden er forkert og kan være direkte vildledende. Analyserne i kapitel 4 giver flere eksempler på at det rent faktisk er tilfældet, både når man ser på testresultater for enkelte elever, og når man ser på fordelingen af læsefærdigheden i 2017. Nationale tests resultater tegner med andre ord et forvrænget billede af situationen.
3)    Anvendelsen af forkerte sværhedsgrader betyder at den adaptive algoritme vælger opgaver på en uhensigtsmæssig måde som – selvom målingerne af dygtigheden ikke havde været systematisk forkerte, og selvom analyserne også viser at den adaptive algoritme fungerer som den skal – ville forringe sikkerheden på målingerne. Resultaterne i kapitel 4 og 5 giver flere eksempler på at dette ikke blot er noget der kan påvises at følge logisk af problemerne med sværhedsgraderne, men at det også kan ses i data fra 2017.
4)    Undersøgelsen i kapitel 4 af opgavernes tilpasning til eleverne viser at der i to af de tre områder som eleverne testes i (profilområder), kun er et meget begrænset udvalg af opgaver til dygtige og meget dygtige elever. Det kan betyde at disse elever vil opleve at få de samme opgaver i den obligatoriske test som de allerede har fået i den frivillige test, og det betyder at de skal besvare flere opgaver end nødvendigt for at opnå tilstrækkelig sikkerhed på resultatet.
5)    Med hensyn til usikkerheden viser analyserne også at ministeriets beslutning om at slække på kravene til målingernes sikkerhed fører til testresultater der er så usikre at de er uanvendelige på elevniveau. Dette problem ville også være der selvom der ikke var problemer med opgavernes sværhedsgrader, men fejlene i sværhedsgraderne forstærker problemet med usikkerheden.
6)    En undersøgelse af datas tilpasning til Rasch-modellen i kapitel 4 viser at der ikke er belæg i data for at sige at de tre profilområder i læsning måler én og samme færdighed, men analysen tyder på at det kan give mening at se afkodning og tekstforståelse som én dimension. En sådan sammenlægning af profilområder ville kunne forøge sikkerheden på elevernes resultater.
7)    Analyserne i kapitel 5 viser at der er situationer hvor elevens færdigheder i læsning ikke kommer til udtryk i dele af testforløbet, og at beregningerne derfor systematisk undervurderer hvor godt eleven læser. De nævnte situationer, hvor dele af testforløbet er mislykkedes, er hyppigst i starten af forløbet, men forekommer også undervejs. Denne analyse kan ikke sige noget konkret om hvor ofte der er problemer med dele af testforløbene, men vi kan konstatere at det var særdeles let at finde sådanne eksempler ved blot at kigge datamaterialet igennem. Af den årsag forventer vi at hyppigheden af delvist mislykkede testforløb hvor elevernes færdigheder undervurderes, er med til at tegne et mere pessimistisk billede af danske elevers læsefærdigheder, end der er belæg for.

Forfatterbiografier

Jeppe Bundsgaard

Jeppe Bundsgaard er professor MSO i fagdidaktik og it med særlig henblik på dansk ved Danmarks institut for Pædagogik og Uddannelse (DPU), Aarhus Universitet. Jeppe Bundsgaard har skrevet en række artikler om test og den pædagogiske brug af test fra et fagdidaktisk perspektiv. Han er dansk leder af den internationale IEA-undersøgelse International Computer and Information Literacy Study (ICILS 2013 og 2018), og han deltager som fagekspert nationalt og internationalt i PISA-undersøgelsen. Han har desuden deltaget i udviklingen af en række innovative computerbaserede test af elevers designkompetencer, samarbejdskompetencer mv.

Svend Kreiner

Svend Kreiner er professor emeritus ved Center for Biostatistik, Københavns Universitet. Svend Kreiner har forsket i test af elevers dygtighed siden slutningen af 60’erne. Han har publiceret en lang række forskningsartikler om test i internationalt anerkendte tidsskrifter og bøger. Han har gennem alle årene bidraget til udviklingen af tests inden for blandt andet matematik og læsning som bruges i skolen den dag i dag. I årene 2007-2010 bistod han Undervisningsministeriet ved udviklingen af nationale test, hvor han bl.a. udviklede nogle af de statistiske værktøjer som var nødvendige ved designet af en adaptiv test. Siden hen har han fungeret som sparringspartner for ministeriet ved spørgsmål om nationale test, og han har skrevet en række rapporter bl.a. om validering af testens resultater.

Downloads

PDF

Publiceret

4 april 2019

Detaljer om denne monografi

ISBN-13 (15)

978-87-7684-566-4