Puuttuvan datan ongelma ja sen ratkaisukeinoja terveystutkimuksissa

Kirjoittajat

  • Ulla Sovio
  • Esa Läärä

Abstrakti

 

Puuttuva data on yleinen ongelma terveystutkimuksissa. Huolellisella suunnittelulla voidaan vähentää katoamista ja hallita sen mekanismeja ainakin jossain määrin. Tämä helpottaa soveltuvan menetelmän valintaa epätäydellisen aineiston käsittelyyn. Yksinkertaisin mutta usein huono ratkaisu on analysoida tavanomaisin menetelmin vain ne havaintoyksiköt, joilta kaikkien muuttujien arvot ovat tiedossa. Toinen vaihtoehto on käyttää tutkimusväestössä olevaa lisätietoa hyödyntäviä painotus- ja regressioestimointitekniikoita. Kolmas lähestymistapa on moni-imputointi, jossa puuttuvat arvot korvataan kaikkien muuttujien estimoidusta yhteisjakaumasta simuloiduilla ennusteilla ja analysoidaan näin paikattu aineisto tavanomaisin tilastollisin menetelmin, mutta satunnaisvirheen arviointiin sisällytetään myös korvikearvoihin sisältyvä epävarmuus. Neljäs mahdollisuus on analysoida puuttuvia havaintoja sisältävä aineisto mallipohjaisesti suurimman uskottavuuden menetelmällä EM-algoritmin avulla. Puuttuvan datan asianmukaisesti huomioon ottavat tilastolliset ohjelmistot ovat yleistymässä, mutta käytännön tutkimustyössä niiden käyttö on vielä nykyäänkin vähäistä.

Osasto
Artikkelit

Julkaistu

2002-12-01

Viittaaminen

Sovio, U., & Läärä, E. (2002). Puuttuvan datan ongelma ja sen ratkaisukeinoja terveystutkimuksissa. Sosiaalilääketieteellinen Aikakauslehti, 39(4), 312–325. https://doi.org/10.23990/sa.152383