Sjekkliste for statistikkartikler

En lett redigert versjon av denne artikkelen er publisert i studenttidskriftet Argument.

Stadig flere* avisartikler tar utgangspunkt i at «forskning viser at …» eller «en undersøkelse utført av __ viser at …».

Og i disse nedgangs- og kuttider, er det på mange måter forståelig at det er fristende for journalister å produsere artikler der budskapet kommer ferdig pakket og formulert fra de som har gjennonført undersøkelsen, og kan presenteres med minimal egen bearbeidelse.

Men i altfor mange tilfeller fører dette til at man ukritisk gjentar konklusjonene uten å kontrollere om det faktisk er grunnlag for dem – eller, når man forsøker å formulere funnene med egne ord, at slurv og misforståelser fører til at man gir et helt fortegnet bilde.

Her er derfor en liten sjekkliste over hva man bør være på utkikk etter når man skal bedømme påliteligheten i det siste medieoppslaget om at «[veldig mange prosent] sier/mener/gjør [noe skummelt]».

Hvor mange ble spurt?

Standarden for partibarometre og lignende politiske undersøkelser er at man spør +/- 1.000 personer, noe som gir håndterbare feilmarginer på opptil et par-tre prosent.

Men rett som det er tar aviser utgangspunkt i vesentlig mindre utvalg, uten at dette påpekes (annet enn med bitteliten skrift nederst i en faktaboks). Når man f.eks. har spurt 65 – femogseksti – tilfeldige personer på gata i Oslo om deres kunnskap om antibiotika, blir usikkerheten og feilmarginene så store at resultatene neppe kan fortelle oss noenting om befolkningen som helhet.

Og selv om det nå etterhvert er blitt standard praksis å oppgi feilmarginene på partibarometre, så hindrer ikke det journalister i å fremheve at parti X «bykser frem» eller at parti Y «stuper på ny måling» – selv om endringene i realiteten ligger innenfor feilmarginen, og det dermed er fullt mulig at oppslutningen har stått bom stille.

Man bør også huske på at feilmarginen kun angir det intervallet hvor det er 95% sjanse for at man finner det faktiske resultatet: Det er altså 5% sjanse for at det korrekte resultatet ikke ligger innenfor feilmarginen. Det betyr igjen at hvis man undersøker 14 ulike resultater (f.eks to partibarometre med bare syv partier i hver), så er det sannsynlighetsovervekt for at minst ett av resultatene vil bomme med mer enn feilmarginen.

Og selv om man opererer med skaplige feilmarginer for undersøkelsen som helhet, vokser de seg fort uforsvarlig store når man begynner å bryte ned på underutvalg. En måling blant 1000 personer kan gi et presist bilde av hva befolkningen som helhet mener om søndagsåpne butikker – men tallene for Venstre-velgere i Oslo (kanskje representert ved bare 10 personer i utvalget) vil ha så store feilmarginer at de ikke kan brukes til noenting fornuftig.

Hvem ble spurt?

Og så må man huske på at de matematisk utregnede feilmarginene bare tar høyde for tilfeldige feilkilder, på samme måte som man ikke nødvendigvis får en perfekt 50/50 fordeling hvis man slår kron og mynt 100 ganger. Hvis det er skjevheter i selve utvalget som blir spurt, kan feilene bli langt større (og mer ubestemmelige).

Når nettaviser baker nettavstemninger inn i sine artikler, blir denne effekten dobbelt til stede – først blir utvalget skjevt ved at man bare fanger opp de som leser akkurat denne avisen (og akkurat denne artikkelen), dernest vil de som er sterkt engasjert i spørsmålet bli kraftig overrepresentert blant svarene, på bekostning av alle de som blar forbi avstemningen uten å gidde å stemme.

Andre ganger har undersøkelsen bevisst rettet seg mot én bestemt undergruppe – som kan være helt legitimt i utgangspunktet, men som skaper problemer når man hopper bukk over dette og snakker som om NAFs medlemmer er representative for hele befolkningen i spørsmålet om elbilsubsidier.

Hva var egentlig spørsmålet?

En av de mest grunnleggende måtene å kontrollsjekke denne typen avisartikler, er å sjekke nøyaktig hva folk egentlig ble bedt om å svare på. Gang på gang viser det seg at folk ble spurt om noe vesentlig annerledes enn hva som formidles i avisartikkelen – som når spørsmålet om du har vært «beruset med barn til stede«, blir til at folk har vært beruset foran sine egne barn.

Andre ganger er selve spørsmålet så ullent formulert at det er håpløst å vite hva man egentlig skal svare på. En gjenganger i ytringsfrihetsundersøkelser er å spørre om man bør «tolerere» eller «akseptere» en eller annen omstridt holdning eller aktivitet – uten noen presisering av hva man mener med å «tolerere». (Betyr det at det skal være helt moralsk greit å ha den meningen? At den har krav på å slippe til på kronikkplass på lik linje med andre synspunkter? At de som står for meningen skal likebehandles hvis de f.eks. vil avholde et offentlig møte, eller søker på en lærerstilling? Eller betyr det bare at det skal være lovlig å ytre meningen uten å straffeforfølges?)

Et beslektet problem er når man slår to vesensforskjellige ting sammen i ett enkelt spørsmål – som når man spurte om folks holdninger til Syria-farere, uten å presisere om man snakket om folk som kjemper for IS eller mot IS.

Slike mangelfulle og upresise spørsmålformuleringer gjør svarene tilnærmet ubrukelige, fordi vi ikke aner hvor mange som har svart ut fra den ene eller andre eller den tredje tolkningen. Og det blir i hvert fall fullstendig ugyldig når funnene presenteres og analyseres basert på kun én av tolkningene.

…og hva var de mulige svaralternativene?

Den samme meningsglidningen kan selvsagt også ramme svarene – som når det å ville stille høye kvalitetskrav for å kunne ta ut velferdsprofitt, blir til å ville «forby velferdsprofitt«.

Og selv når svarene er korrekt gjengitt, kan det være nødvendig å også se på de andre svaralternativene for å få et korrekt bilde av hva folk har ment. At 78% av syklister irriterer seg over bilister, blir ikke så dramatisk når den eneste andre muligheten på spørreskjemaet er å svare at du aldri irriterer deg over dem.

Andre ganger ligger alternativene så tett opptil hverandre at det kan være nesten hipp som happ hva man velger – som da Aftenposten mente at unge «tar lett på trygdesvindel», bare fordi en begrenset gruppe rubriserer det som ganske alvorlig og ikke meget alvorlig.

«Flest» betyr ikke «flertall»

En annen variant av dette er når alternativene er konstruert slik at noen grupper sprer seg utover på flere alternativer, mens andre grupper samler seg om ett enkelt svar. Som f.eks. den gang NRK måtte beklage egen dekning av en statsministermåling der man vektla at Stoltenberg ledet foran Erna Solberg – men ikke nevnte at Siv Jensen også var med i målingen, og at den samlede oppslutningen om de to borgerlige kandidatene var større enn Stoltenbergs.

Og selv når alternativene er «jevnt fordelt», kan det bli misvisende å ensidig peke ut det ene alternativet som «flest» valgte. Hvis folk gis 10-15 alternativer å velge mellom, kan man innta «førsteplassen» selv man ikke får mer enn drøye 10 prosent støtte – og ligge bare hårfint foran opptil flere konkurrenter.

Hva målte man egentlig?

Å kontrollere kilden til resultatet, blir adskillig mer komplisert når noen har satt seg fore å måle mer abstrakte størrelser som folks «interesse for politikk» eller «dybdekonsum av nyheter«.

For å måle disse tingene, ender man ofte opp med å utpeke en liten håndfull konkrete og kvantifiserbare størrelser, og så gjøre en mer eller mindre kvalifisert gjetning om at dette gir et godt bilde av den underliggende størrelsen som man egentlig er interessert i å måle.

Noen ganger kan dette være nogenlunde presist, men andre ganger kan det gi helt håpløse utslag, fordi vesentlige former for «politisk engasjement» overhodet ikke fanges opp av målemetoden. Da bør man i det minste koste på seg forbeholdet «Politisk engasjement, i den formen vi har målt det i vår studie …»

(Og i rettferdighetens navn: Det er ikke så rent sjelden at disse og andre forbehold faktisk står tydelig uttrykt i selve rapporten, men er blitt søkk borte i medias gjengivelse av samme rapport.)

*) Denne påstanden er selvsagt – i likhet med svært mange journalisters bruk av «stadig flere ___» som inngang på artikkelen sin – en udokumentert gjetning på rent anekdotisk grunnlag.

Advertisements

2 thoughts on “Sjekkliste for statistikkartikler

  1. Tilbaketråkk: NRK snubler i luftforurensnings-statistikk – nok en gang | Langust og korsnebb

Kommentér gjerne, selv om du ikke har noe spesielt dypsindig å komme med. E-post adresse er ikke påkrevet.

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s