Over p-waardes in de statistiek bestaat een hoop verwarring. Ze worden vaak gebruikt om te toetsen of een vermoeden klopt. Worden muizen dikker van dit dieet? Genezen proefpersonen beter dankzij dit medicijn? Doet mijn nieuwe advertentie het slechter dan mijn andere advertenties? Maar de interpretatie is niet eenvoudig, en het gaat regelmatig fout.
Het marketingbedrijf De Vliegende Brigade vermeldt bijvoorbeeld: “Als in een bepaalde situatie bv. een p-waarde van 0,0244 wordt gevonden [is er] 97,56% kans dat deze advertentie onderpresteert” [geraadpleegd 2 januari 2025]. Dat is fout! Ik pik dit bedrijf er nu even uit, omdat ze het hoogst in Google staan (chapeau!), maar er zijn nog talloze bedrijven die duidelijk meer weten van search engine optimization dan van statistiek.
Wat klopt er niet?
Het grootste probleem denk ik is dat de definitie van de p-waarde nogal abstract is, en veel mensen snappen het daarom niet. Ze rekenen gewoon een p-waarde uit met kant-en-klare software, en kijken dan of deze onder de 0,05 zit. Zo ja, dan concludeert men dat er inderdaad een “significant” effect is: de muizen worden inderdaad dikker van dit dieet, de proefpersonen genezen inderdaad beter, of de nieuwe advertentie doet het inderdaad slechter. Dat zo’n redenatie behoorlijk fout kan gaan, snappen ze dan niet.
Laten we even een concreet voorbeeld nemen.
Jantje heeft thuis een meetapparaat dat hem vertelt of de zon ontploft is. Hij drukt op een knop, en dan verschijnt er op het schermpje of de zon ontploft is. ’s Morgens drukt hij op die knop, en inderdaad, het apparaatje meldt dat de zon niet ontploft is.
Maar nou heeft iemand met dit apparaat geknoeid. Als je op de knop drukt, gooit het apparaat met twee dobbelstenen. Zijn ze allebei zes, dan liegt het apparaat.
Elke dag drukt Jantje op de knop, en elke dag vertelt het apparaat dat de zon niet ontploft is. Tot op een dag, na een paar weken, het apparaat meldt dat de zon ontploft is. De wereld bestaat nog, en Jantje weet van het dobbelstenen-probleem, dus hij neemt aan dat het apparaat liegt.
Maar Jantje wil dit testen als een echte wetenschapper, en gaat dus een p-waarde uitrekenen. De kans dat je deze uitkomst (“de zon is ontploft!”) krijgt terwijl er niks aan de hand is, is 1 op 36: dat is namelijk de kans dat het apparaat twee zessen gooit. De p-waarde is dus 1/36, oftewel 0,028 of 2,8%.
Nou, denkt Jantje, dat is laag! Het is kleiner dan 0,05 (of 5%). We kunnen dus veilig stellen dat de zon ontploft is, de kans daarop is immers 97,2%.
(Ik heb dit voorbeeld gebaseerd op deze XKCD-strip.)
De aarde is er nog, dus de zon is duidelijk niet ontploft. Welke fout maakt Jantje hier?
De p-waarde die Jantje heeft uitgerekend klopt gewoon. De kans dat het apparaat meldt dat de zon ontploft is, terwijl dat in werkelijkheid niet zo is (in jargon: onder de nulhypothese), is inderdaad 0,028.
Maar dat wil nog niet zeggen dat de kans dat de zon is ontploft inderdaad 97,2% is. De zon gaat de komende miljarden jaren niet ontploffen, dus de kans dat de zon ontploft is, is nihil, wat het apparaat ook zegt.
Houd dit dus in gedachten bij p-waardes. Als je iets meet dat (heel) onwaarschijnlijk is, zoals een ontploffende zon, dan is er zelfs bij een lage p-waarde waarschijnlijk nog steeds niks aan de hand. Blijf dus opletten!
P.S. Er bestaan allerlei statistische methodes om hiervoor te corrigeren, met ook weer allerlei valkuilen. Als je echt denkt dat je iets onwaarschijnlijks ontdekt hebt, probeer het dan ook met andere meetmethodes aan te tonen. Als dan je keer op keer hetzelfde ziet, dan mag je steeds zekerder worden van je zaak.
Geef een reactie
Je moet ingelogd zijn op om een reactie te plaatsen.