Puuttuvan datan ongelma ja sen ratkaisukeinoja terveystutkimuksissa
Abstrakti
Puuttuva data on yleinen ongelma terveystutkimuksissa. Huolellisella suunnittelulla voidaan vähentää katoamista ja hallita sen mekanismeja ainakin jossain määrin. Tämä helpottaa soveltuvan menetelmän valintaa epätäydellisen aineiston käsittelyyn. Yksinkertaisin mutta usein huono ratkaisu on analysoida tavanomaisin menetelmin vain ne havaintoyksiköt, joilta kaikkien muuttujien arvot ovat tiedossa. Toinen vaihtoehto on käyttää tutkimusväestössä olevaa lisätietoa hyödyntäviä painotus- ja regressioestimointitekniikoita. Kolmas lähestymistapa on moni-imputointi, jossa puuttuvat arvot korvataan kaikkien muuttujien estimoidusta yhteisjakaumasta simuloiduilla ennusteilla ja analysoidaan näin paikattu aineisto tavanomaisin tilastollisin menetelmin, mutta satunnaisvirheen arviointiin sisällytetään myös korvikearvoihin sisältyvä epävarmuus. Neljäs mahdollisuus on analysoida puuttuvia havaintoja sisältävä aineisto mallipohjaisesti suurimman uskottavuuden menetelmällä EM-algoritmin avulla. Puuttuvan datan asianmukaisesti huomioon ottavat tilastolliset ohjelmistot ovat yleistymässä, mutta käytännön tutkimustyössä niiden käyttö on vielä nykyäänkin vähäistä.