Bevegelsen for forskningsreform: Hva er det og hvorfor er det viktig?

0

 De siste årene har bevegelsen for forskningsreform, på engelsk “Science reform movement” eller “open science movement” fått stor oppmerksomhet. Hva innebærer dette? Hvordan har bevegelsen for forskningsreform utviklet seg?  Hvor står vi nå? Hvilke blogger bør du følge for å holde deg oppdatert om dette?

Mange forbinder bevegelsen for forskningsreform med åpen tilgang til forskningslitteratur (som jeg har blogget om her). Dette er imidlertid bare en av pilarene i Science reform movement. Den andre pilaren er, litt forenklet sagt, å arbeide for at det forskere publiserer er så riktig og fritt for skjevheter som mulig. Det er det dette denne bloggposten skal handle om. Dette er på mange måter viktigere enn å arbeide for enn åpen tilgang til forskningsresultater, for hva er vitsen  med  åpen tilgang dersom det som publiseres ikke er riktig?

Så, hva innebærer det å arbeide for at det forskere publiserer skal være så riktig og fritt for skjevheter som mulig? Det betyr et brudd med det som har vært praksis tidligere:

  1. at  bare positive eller signifikante resultater har kommet på trykk (såkalt publiseringsbias),
  2. Det har vært lite transparent hvilke data og metoder som har vært brukt for å komme frem til resultatene.

Det har vært skrevet mye om at å få til dette krever endringer på flere nivåer. For å oppsummere de viktigste momentene, det krever at tidsskrifter også publiserer nullresultater dersom undersøkelsene er store nok til å oppdage disse. Det krever også at tidsskriftene godtar publiseringer av rene replikasjonsstudier, altså studier som har til hensikt å bekrefte tidligere undersøkelser.

Sist men ikke minst: Det krever endringer fra forskerne. Forskere kan ikke lenger betrakte sine datasett som sin egen eiendom, men være villige til å dele datasettene med andre slik at andre kan etterprøve og reanalysere resultatene. Det krever også at forskere slutter med såkalt p-hacking, altså kreative metoder for å komme frem til et positivt signifikant resultat, mer om dette her.

picturesign

Dette er en fundamental endring av måten forskning har vært drevet på. Hvordan endte vi her? Denne utviklingen har gått svært raskt. Som  bloggeren Andrew Gelman påpeker i 2011, var dette bare noen mørke skyer i horisonten. Det gikk faktisk kort tid fra at få var bevisste på i hvilken grad resultatene fra en undersøkelse lot seg replikere til vi snakket om en replikasjonskrise. Tidslinjen for hva man oppfatter som vesentlig i denne utviklingen vil variere med øyet som ser.

Her er noen viktige milepeler (slik jeg som forsker har sett prosessen kombinert med informasjon fra denne bloggposten til statistikkprofessor  Andrew Gelman).

 1960: Jacob Cohen studerte statistisk styrke, altså i hvilken grad en undersøkelse er i stand til å oppdage en sammenheng eller effekt. Han rettet fokus på hvor mye statistisk styrke og spesielt størrelsen på utvalget i undersøkelsen betyr for resultatene og konklusjoner fra undersøkelser. Litt enkelt sagt, hvordan antall personer betyr mye for om undersøkelsen din kan oppdage sammenhenger av den størrelse som du forventer.

1962: Cohen publiserte artikkelen “statistical power of abnormal-social psychological Research“. Det var en gjennomgang av 78 artikler publisert på dette temaet, og den viste at de fleste av undersøkelsene hadde for liten statistisk styrke til å oppdage selv små sammenhenger.

1980-1990: Økende kritikk mot signifikanstesting og mer fokus på bruk av å si noe om størrelsen på effekter uavhengig av antall personer i en undersøkelse. Cohen publiserte i 1994 artikkel med den ironiske tittelen The Earth is round, p < 0.05

1990: Joseph Rossi publiserte artikkelen Statistical Power of Psychological Research: What Have We Gained in 20 Years? Han konkluderer med at situasjonen ikke har blitt mye bedre på de 20 årene som har gått siden Cohens oversikt fra 1961 (Rossi undersøkte artikler fra 1982, usikker på hvorfor ikke det ble publisert før i 1990).

Rossi konkluderer at den svake statistiske styrken “have serious implications not only for individual researchers conducting their own studies but for the entire discipline, especially with respect to the proliferation of Type I errors (altså at man sier det er en effekt eller sammenheng når det ikke er non, min merknad) in the published literature and the frequent failure of replication studies“.

2003-2004: Geoff Cummings og kolleger publiserte en serie artikler som fokuserte på at konfidensintervall og replikasjon i psykologisk forskning. Blant annet gjorde de en systematisk oversikt over 600 artikler, som viste at selv om stadig fler rapporterer konfidensintervall er fokuset i diskusjonene av resultatene fortsatt hvorvidt et resultat var signifikant eller ikke og konfidensintervall ble i liten grad trukket inn.

2005: John Ioannidis publiserte den nå klassiske artikkelen “Why most published Research findings are false”. Den fikk ikke så mye oppmerksomhet med en gang, men er nå sitert  over 4000 ganger. Artikkelen blir ofte regnet som den som først rettet fokus mot replikasjonskrisen.

2007: Det kommer flere og flere empiriske undersøkelser som viser at publiseringsskjevhet er et problem, og at effekter overestimeres. Cochrane publiserer en systematisk oversikt som viser at innlegg på konferanser har langt større sjanse for å bli publisert hvis de viser positive funn.

2008: Bloggen Neurosceptic som kommenterer svakheter og manglende replikasjoner i nevrovitensakp og psykologi starter

2009: Vul, Harris og Pashler viser store svakheter i nevrovitenskapelig forskning og fMRI studier.  Beregningene av sammenhenger har ledet til det de kalle “vodoo correlations”, oig blant annet har man ofte ikke kontrollert for at man tar mange signifikanstester på samme materialet- noe som øker sannsynligheten for å signifikante resultater (og type 1 feil) betraktelig. .

2010: BishopBlog startet. BishopBlog, den satte også fokus på replikasjon og insentivsystemer innen flere deler av psykologi, ikke bare nevrovitenskap, men også pedagogisk psykologi.

2011 Simmons og kolleger publiserte artikklen “False positive psychology…”. Den viser hvordan stor fleksibilitet og mange frihetsgrader for forskere, kombinert med liten transparens når det gjelder data og hvordan man har kommet frem til resultater, gjør at nærmes alt kan bli signifikant.

2011 Jeg publiserte sammen med Charles Hulme meta-analysen om arbeidsminnetrening. For min egen del gjorde dette arbeidet at jeg virkelig ble bevisst på problemene med replikasjon, og hvordan små studier ofte kunne være usanne og ikke replikerbare selv om de hadde svært store og signifikante effekter.

2012: John og kolleger viser at ulike metoder for p-hacking (altså metoder for å manipulere frem et signifikant resultat)  er mer vanlig blant forskere enn vi liker å tro. De er så vidt jeg vet de første som bruker begrepet QRP, Questionable Research Practice, eller betenkelig forskningspraksis.

 2012, Perspectives of Psychological Science nr 7: Flere er nå blitt oppmerksomme på replikasjonsproblemene og  Perspectives of Psychological Science publiserer et spesialnummer om temaet (se her for editorial til temanummeret). Mange nå klassiske artikler blir publisert her (se her for innholdsfortegnelse). Det blir rettet fokus om insentivsystemene i psykologi (og i forskning generelt), med et stort fokus på antall publiserte artikler, leder til publisering av gale funn.

2012: Ingre publiserer en artikkel som går ut mot misforståelsen  om at små undersøkelser gir bedre “bevis” for sanne effekter fordi at effektene i små undersøkelser må være større for å bli signifikante, og små undersøkelser har dermed mindre sannsynlighet for å rapportere små men trivielle effekter.

2012  Francis publiserer artikkelen “too good to be true” hvor han viser at artikler som er publisert i topptidsskrifter i Psykologi har såkalt “excess sucess”, altså at de har for mange signifikante resultater i forhold til det som kan forventes ut fra deres statistiske styrke.

2013 Button, Ionnaidis, Nosek og kolleger viser at studier med lav statistisk styrke ikke bare har liten sjanse for å oppdage en signifikant effekt, men også at det er liten sjanse at en effekt er sann dersom den oppdages.

2014: Psychological Science endrer redaktørpraksis, og vektlegger i større grad preregistering, åpen tilgang til datasett og replikasjon

2015-2016: Brian Nosek og kolleger organiserer et stort replikasjonsforsøk, Open Science collaboration. Mange studier med prominente og siterte funn lar seg ikke replikere. Dette får stor oppmerksomhet både i media og blant forskere.

Dette ble en ganske lang tidslinje, men her har jeg samlet de artiklene etc jeg synes er viktigst for utviklingen av bevegelsen for forskningsreform (andre vil kanskje vektlegge andre ting, men jeg tror mange vil være enige om hovedtrekkene).

Hvor står vi nå? og hvor går veien videre?

I følge bloggen til statistikkprofessor Andrew Gelman, har vi nå nadd stadiet hvor “keiseren er uten klær”. Ingen blir overrasket når det vi trodde var solide funn ikke lenger lar seg replikere, nærmest daglig blir det rapportert om dette i mediene.

For min egen del synes jeg det er underlig at fokuset på replikasjon synes å være avgrenset til psykologi og deler av medisin. Innenfor psykologi er det nå stor oppmerksomhet rettet mot dette. Tidsskriftet Psychological Science, som er flaggskipstidsskriftet til den amerikanse psykologforeningen har som vist ovenfor igangsatt tiltak for å fremme preregistrering og åpne data. I tillegg har de en egen statistisk rådgivergruppe (som jeg er så urolig heldig å være med i), som skal gjennomgå artiklene.

Som jeg har blogget om tidligere, er dette også åpenbart et problem i andre samfunnsfag, for eksempel utdanning. Det ser imidlertid ikke ut til at tidsskriftene her har tatt dette like alvorlig eller har rettet fokus mot det i samme grad. Jeg tror at tiden er overmoden for at bevisstheten om dette også når andre fag.

Spesielt i USA er det nå et sterkt fokus rettet mot behovet for forskningsreform. Det har tatt flere former, også utenfor de tradisjonelle vitenskapelige kanalene. Spesielt flere blogger, blant annet Dr r (av Ulrich Schimmack)  har vært aktiv blant annet med å reanalysere og kritisere resultater fra enkeltundersøkelser som er publisert i høykvalitetstidsskrifter, se etter “excess success” (altså for mange signifikante resultater sett i forhold til undersøkelsenes størrelse) i publiserte artikler av en forsker, forskergruppe eller institutt (blant annet psykologisk institutt på UiO).

Denne praksisen har fått en del til å reagere. Blant annet tidligere president i den amerikanske psykologforeningen APS, Susan Fiske, har kalt dette for metodisk terrorisme som ødelegger enkeltmenneskers liv, og at påstander om feil i artikler hører hjemme i tidsskrifter med fagfellevurdering, ikke som løse påstander på blogger etc.

Andre argumenterer med at det er viktig at bloggerne gjør folk oppmerksomme på feil i artikler, og siden disse feilene ofte enkelt kan oppdages dersom man er god i statistikk, uten at man engang trenger å gjøre en replikasjon. I tillegg er det heller ikke slik at publiseringsprosessen er ufeilbarlig selv om man har flere fagfeller, det er derfor ikke grunnlag for et skarpt skille mellom publisert og upublisert arbeid.

Uansett, diskusjonen om dette fortsetter, og det skjer nye ting kontinuerlig. Her er bloggene jeg elsker å lese for å holde meg oppdatert:

DataColada,  Statistikere Leif Nelson, Joe Simmons, and Uri Simonsohn

BishopBlog av Professor Dorothy Bishop

Statistical Modeling, Causal Inference, and Social Science   av statistikkprofessor Andrew Gelman

Du vil kanskje også like dette Mer fra samme forfatter

Leave A Reply

Your email address will not be published.