Statistische fouten in psychologisch onderzoek

Als je heel kritisch kijkt, zitten er eigenlijk in elke publicatie over psychologisch onderzoek wel statistische fouten. Dat constateert de Groningse promovendus Rinke Hoekstra. Dat komt vooral door onwetendheid: de gemiddelde psycholoog heeft te weinig verstand van de manier waarop je statistische toetsen moet duiden en gebruiken. “De fouten zijn zo gewoon geworden, dat niemand ze meer ziet.”

Neem de populaire significantietoets: die kijkt of een verschil (bijvoorbeeld tussen mannen en vrouwen, of tussen groep A en groep B in een experiment) toeval is of niet. Maar vaak is het veel interessanter om te weten hoe groot het verschil is, weet Hoekstra. Toch kijken psychologen daar onvoldoende naar.

Generaliseren

statistiek1

Psychologen proberen menselijk gedrag en de onderliggende mentale processen te begrijpen. Om algemene uitspraken te doen over menselijk gedrag, wordt er uit praktische overwegingen meestal voor gekozen dit gedrag te bestuderen bij een beperkt aantal mensen (een steekproef), om deze steekproefgegevens vervolgens te generaliseren naar de populatie waarin de onderzoeker geïnteresseerd is. Bij dit generalisatieproces kunnen verschillende technieken gebruikt worden. De significantietoets is veruit de meest gebruikte.

Oud probleem

Al decennialang staat het gebruik van die significantietoets ter discussie. Hoekstra: “Stel je voor dat je onderzoek doet naar de lengte van mannen en vrouwen. Daarbij kun je je de vraag stellen of mannen langer zijn dan vrouwen. Na een steekproef waarbij je de lengte van tien mannen en tien vrouwen meet, zou je kunnen stellen dat mannen significant langer zijn dan vrouwen. Maar is dat interessant? En zegt je dat iets? Je kunt je beter de vraag stellen hoe groot het verschil in lengte is. Zo krijg je én inzicht in de vraag of mannen langer zijn dan vrouwen én inzicht in de omvang van het lengteverschil.” Niet alleen lijkt het zinvol de vraag te beantwoorden óf een effect bestaat (waarvoor de significantietoets vaak gebruikt wordt), maar ook hoe groot dat effect precies is, wat op steekproefniveau wordt uitgedrukt door de effectgrootte. Een betrouwbaarheidsinterval helpt om de effectgrootte van de steekproef te generaliseren naar de gehele populatie.

stat-cartoon

Onkunde, onwetendheid

Volgens internationale voorschriften is in psychologisch onderzoek een significantietoets niet voorgeschreven, maar is het gebruik van effectgrootte noodzakelijk en worden betrouwbaarheidsintervallen sterk aangeraden. Uit het onderzoek van Hoekstra blijkt dat deze nuanceringen van de significantietoets in psychologisch wetenschappelijk onderzoek veelal achterwege blijven, of dat ze pro forma worden uitgevoerd, maar bij het trekken van conclusies verwaarloosd worden. Hoekstra: “Als je heel kritisch kijkt, vind je in vrijwel elk gepubliceerd artikel iets wat niet klopt. Ook in gerenommeerde tijdschriften.” Uit interviews met en tests van dertig promovendi aan zeven Nederlandse universiteiten blijkt dat geen sprake is van onwil, maar vooral van onkunde en onwetendheid. Hoekstra: “De fouten zijn zo gewoon geworden, dat niemand ze meer ziet.”

“Het bekt lekkerder”

statistiek2

Hoewel het niet uit zijn onderzoek naar voren kwam, vermoedt Hoekstra dat het niet altijd alleen maar onwetendheid is. De statistische fouten komen de onderzoekers soms ook goed uit, denkt hij. “Wetenschappers streven de waarheid na. Maar in de praktijk zijn zij ook zeer gericht op het zo goed mogelijk presenteren van hun eigen onderzoek. Mijn onderzoeksresultaten suggereren dat onderzoekers geneigd zijn redelijk zwart-wit te denken en dingen stelliger te beweren dan ze feitelijk kunnen waarmaken. Als je zegt dat iets significant is, dan bekt dat lekker. En tijdschriftredacties zijn dan misschien ook sneller in je artikel geïnteresseerd: die willen het liefst aansprekende verhalen publiceren.”

Blind staren op significantie

Dat psychologen vaak meer oog hebben voor significantie dan voor effectgrootte, kan tot grote misverstanden leiden. Een voorbeeld. In 2005 hield de Amerikaanse psycholoog Janet Hyde maar liefst 124 man-vrouwverschillen onder de loep. Ze vroeg zich af hoe groot die kloof tussen de seksen nu echt was. Na wat rekenwerk bleek de kloof eerder een bescheiden kuiltje dan een ravijn: 78% van de sekseverschillen waren zeer klein (48%) of bijna nul (30%). De enige forse man-vrouwverschillen die bleven bestaan zaten hem in het gooien van een bal, fysieke agressie en hoe vaak men zei te masturberen.

Om dit soort fouten te voorkomen pleit Hoekstra voor beter statistiekonderwijs. “Studenten zijn slim genoeg om te begrijpen dat de waarheid niet zwart-wit is. Docenten moeten durven om hun studenten een genuanceerd verhaal te vertellen. Daar bewijzen ze de studenten én de toekomstige wetenschap een dienst mee.”

(Dit nieuwsbericht is een bewerkte versie van het persbericht van de Rijksuniversiteit Groningen)

Meer weten?

  • Te mooi om waar te zijn (Kennislinkartikel over hoe een redeneerfout in de toepassing statistiek zorgt voor opgeblazen resultaten in hersenonderzoek)
  • De echte vrouw bestaat niet (Kennislinkartikel over sekse en statistische dwaasheid)
  • De ontcijfering (Kennislinkartikel over de moeite die mensen hebben met cijfers en statistiek)

Auteurs

Alex van den Brandhof en Asha ten Broeke


Gepubliceerd door

Kennislink


Publicatiedatum

donderdag, 1 oktober 2009 13 oktober 2009


Kernwoorden


Deel deze publicatie

Meer Hersenen & Gedrag

Meer Wiskunde

Dit is een nieuwsbericht van Kennislink.


Creative Commons License© Kennislink, sommige rechten voorbehouden.

Volg ons op twitter Word onze fan op facebook