Står norske lesetester egentlig til stryk?

0

Flere kommentarer har kommet i etterkant av oppslaget i Morgenbladet  om at “Leseprøver står til stryk” hvor jeg blir intervjuet om den nye undersøkelsen jeg har sammen med Anne Arnesen, Johan Braeken og Terje Ogden. I et svar i Morgenbladet sier Høien-Tengesdal, en av utviklerne av Logos, at Logos er en av de testene som kommer best ut i analysen og derfor er urettferdig plassert sammen med andre mye svakere tester. Det er riktig som Høien-Tengesdal sier at Logos rapporterer analyser relativt grundige analyser av målefeil.  Det er heller etter mitt syn ingen tvil om at Logos er den grundigste og beste testen vi har for å få et innblikk i tekniske leseferdigheter og prosesser relatert til dette.

Grunnen til at Logos kommer ut med “bør forbedres”, er at det i manualen rapporteres i liten grad analyser av om testen faktisk måler det den har til hensikt å måle, altså validitet. Det samme gjelder ordkjedetesten av samme utgiver. For ordkjedetesten er imidlertid ikke dette er stort problem. Den måler en veldig spesifikk og endimensjonal ferdighet, nemlig teknisk ordavkoding.

For Logos er dette imidlertid et større problem siden den måler mange ulike ting, blant annet lytteforståelse, leseforståelse, fonemanalyse og fonologisk korttidsminne. I innlegget i Morgenbladet etterlyser Høien-Tengesdal informasjon om hva som mangler i validitetsanalysene.  Dette er litt teknisk, men for Logos burde det vært brukt konfirmerende faktoranalyser for å undersøke hvordan disse ulike tingene testen har til hensikt å måle står i forhold til hverandre, såkalt dimensjonalitet. Jeg er ikke enig med Bele som i sitt innlegg i Morgenbladet  hevder at dette er “små statistiske innvendinger”. En test bør kunne dokumentere at  oppgavene som brukes er gode operasjonaliseringer av det man ønsker å måle. I fremtidige oppdateringer av Logos er det viktig å undersøke dette (selv om den altså allerede er en grundig test).

For de nasjonale prøvene påpeker Lesesenteret i Stavanger i et innlegg på sin nettside at de “innfrir dei etterlyste krava til validitet og reliabilitet”, men at Utdanningsdirektoratet ikke har gjort denne informasjonen  tilgjengelig for alle. Lesesenteret er imidlertid klare på at Utdanningsdirektoratet for fremtiden bør publisere tekniske rapporter om kartleggingsprøvene slik at dette blir transparent og etterprøvbart. Dette støtter jeg fullt ut.

Det er også en annen fordel ved en slik offentliggjøring  som Lesesenteret ikke nevner, nemlig at dersom denne informasjonen blir tilgjengelig blir det enklere å bruke prøvene pålitelig i registerforskning. Dette kan gi viktig kunnskap om barn og unges læring. Publisering av måleegenskaper stiller imidlertid også krav til de forskerne som utvikler de nasjonale prøvene, det må lages tekniske rapporter i et format som egner seg for publisering og som gir grundig og oversiktlig informasjon om de psykometriske egenskapene. Kanskje kan man her skjele til andre land som ser ut til å ha et mer transparent system for nasjonale prøver, her er for eksempel rapportene for måleegenskapene til phonics screening i Storbritannia.

Lesesenteret påpeker også i sitt innlegg at for prøver som ikke er diagnostiske tester men blir brukt til andre formål (for eksempel underveisevaluering), er det ikke sikkert at man bør stille like strenge krav til psykometriske egenskaper. Formålet med underveisevaluering er blant annet å ta beslutninger om eleven har behov for fortsette med ekstra tiltak. Dermed kan det får kan få alvorlige konsekvenser for et barn dersom man trekker gale konklusjoner. Måleegenskaper er derfor like viktig for underveisevalueringer, screeningprøver eller andre typer kartlegginger som for diagnostiske tester.

Å utvikle prøver, enten man kaller det for screening, diagnostisk test, nasjonal prøve eller kartleggingsverktøy skiller seg i prinsippet ikke fra annen empirisk forskning. For at man skal kunne stole på prøven må resultatene fra undersøkelsene som sier at den har god kvalitet dokumenteres. Jeg kan for eksempel hevde at jeg har funnet en revolusjonerende måte å forbedre barns matteferdigheter, men hvis jeg ikke kan dokumentere resultatene hjelper det lite. Det samme gjelder for prøvene. Det finnes internasjonale standarder for validering som prøvene bør følge (se EFPA her og COSMIN her) og resultater fra valideringen bør være lett tilgjengelig og i en bearbeidet form i en testmanual, teknisk rapport og kanskje ideelt også i et fagfellevurdert tidsskrift.

Etter mitt syn er altså ikke overskriften i Morgenbladet om at prøvene står til stryk helt urimelig.  Mange av prøvene har store mangler enten ved analysene i seg selv eller ved at de ikke rapporterer analyser. Dette er spesielt alvorlig for de prøvene som måler mer sammensatte ferdigheter som for eksempel leseforståelse. I tillegg har også mange prøver mangler ved normeringsgrunnlaget.  Når det er sagt, jeg er enig med Bele at jeg kunne ha spart meg uttalelsen om at prøvene var utviklet av “velmenende pratikere”, særlig siden noen av dem er utviklet av høykompetente forskningsmiljøer.

Jeg håper imidlertid at vi om noen år har kommet lenger på dette området, spesielt siden feilvurderinger kan ha store konsekvenser for de barna som i utgangspunktet er sårbare og har behov for ekstra oppfølging. Alle som arbeider med å utvikle kartleggingsverktøy har som felles mål å identifisere barn som har behov for hjelp på en mest mulig pålitelig måte. Da gjelder det å ta i bruk nye og bedre statistiske metoder for å nå dette målet. Takk også til Morgenbladet og journalist Jon Kåre Time for å sette fokus på dette viktige temaet.

Du vil kanskje også like dette Mer fra samme forfatter

Leave A Reply

Your email address will not be published.