Merkitsevyyden merkitys, tilastolliset rutiinit sekä metodologiset ja kognitiiviset harhat
Nyckelord:
p-arvo, luottamusväli, yhteensopivuus, harhatAbstract
Tilastollisten nollahypoteesien testaaminen, p-arvojen runsas raportointi, tulosten mekaaninen lajittelu tilastollisesti ”merkitseviin” ja ”ei-merkitseviin” sekä tähdittäminen kynnysarvojen (kuten 0,05) perusteella ovat suosittuja rutiineja terveystieteiden ja muidenkin alojen tutkimusraporteissa. Testaamiseen liittyy metodologisia taustaoletuksia, jotka vaikuttavat päätelmien pätevyyteen, mutta joita ei useinkaan oteta riittävästi huomioon aineistojen analyysissä ja tulosten tulkinnassa. Taustaoletukset koskevat analyysissä käytettyjä tilastollisia malleja ja havaintojenkeruun
asetelmaa. Niiden pitää olla riittävässä määrin täytetyt, jotta tilastollisten tunnuslukujen nimelliset ominaisuudet pätisivät. Oletusten realistisuus on monesti kyseenalaista, jolloin tuloksiin vaikuttavat erilaiset metodologiset harhat. Lisäksi analyysiä ja tulosten tulkintaa haittaavat p-arvoihin ja luottamusväleihin liittyvät väärinkäsitykset ja kognitiiviset harhat. Testaaminen on usein liiallista, tarpeetonta, jopa rituaalinomaista ja pahimmillaan tieteen edistymistä haittaavaa. Väärintulkinnat johtavat toisinaan vakaviinkin seurauksiin. Luottamusvälien lisääntynyt raportointi on vain osin parantanut tilannetta, koska niitäkin käytetään ja tulkitaan väärin. Ongelmien taustalla on oppihistoriallisia ja institutionaalisia syitä, vääriä kannustimia, puutteita tutkijoiden menetelmäkoulutuksessa ja erityisesti tilastomenetelmien ulkokohtainen soveltaminen suhteessa tutkimuskohteeseen ja kontekstiin. Tilastotieteen valtavirran edustajat ovat eri foorumeilla tuoneet esiin näitä ongelmia ja esittäneet suosituksiaan tilastollisen analyysin ja tulosten
asianmukaisen raportoinnin käytäntöihin. Artikkelissa luodataan kansainvälistä keskustelua aiheesta, tarjotaan tavanomaisia oppikirjaesityksiä täydentäviä näkökulmia p-arvojen ja luottamusvälien olemukseen, harkitumpaan käyttöön ja sävykkäämpiin tulkintatapoihin, esitellään julkaisusarjojen raportointisuosituksia, pohditaan menetelmäkoulutuksen uudistamistarpeita, ja tarkastellaan testauksen ja p-arvojen käyttöä tämän lehden viimeaikaisissa numeroissa.