Kombinera ämnesmodellering och klusteranalys för att studera förbehandlingsdata och modelleringsval

Författare

Nyckelord:

big data [http://www.yso.fi/onto/yso/p27202], tutkimusmenetelmät [http://www.yso.fi/onto/yso/p415], triangulaatio (tutkimusmenetelmät) [http://www.yso.fi/onto/yso/p23071], keskustelupalstat [http://www.yso.fi/onto/yso/p21840]

Abstract

Uusien tekstiaineistojen analyysimenetelmien käytön yhteiskuntatieteelliset käytännöt eivät ole vielä vakiintuneet. Yksi suosittu keskustelu- ja tekstiaineistojen mallinnustapa on aihemallinnus, jolla etsitään aineiston temaattista rakennetta sanojen yhteisesiintymisen avulla.
Aihemallinnuksen tulokset vaihtelevat aineiston esikäsittelyn ja mallinnuksen parametrien myötä, ja työkalusta riippuen myös satunnaisesti. Tämä on yleensä tulkittu ongelmaksi, josta päästään eroon huolellisesti validoimalla ja valitsemalla yksi ”paras malli”. Sosiaalitieteilijän näkökulmasta mallinnuksen vaihtelut voivat kuitenkin olla myös erilaisia näkökulmia aineistoon tai vivahde-eroja, joita tulkitsemalla voidaan löytää aineiston ydin.
Tässä artikkelissa käsitellään tutkimusprosessia, joka perustuu toistettuihin aihemallinnuksiin aineiston esivalmisteluja ja mallinnuksen parametreja vaihtelemalla. Kahden aiheen samankaltaisuus voidaan mitata ja lukuisista malleista tuotetut aiheet voidaan ryhmitellä klusterianalyysilla näiden samankaltaisuuksien avulla. Kun kaksi aihetta sijoittuu samaan ryhmään, voidaan niiden tulkita olennaisesti kuvaavan samaa aihetta, vaikka sanajakauma ei olekaan täysin sama. Nämä aiheiden ryhmät voidaan sitten nostaa analyysin keskiöön: jotkin aiheet löytyvät riippumatta alkuvalmisteluista, jotkin vain toisinaan ja jotkut aiheet löytyvät vain sattumalta ja jäävät yksin. Yhden mallin tulkinnan rinnalla ja sijasta voidaan tulkita näitä ryhmiä, ja samalla tehdä näkyväksi mallin reliabiliteettia ja tehtyjen valintojen vaikutusta tuloksiin.

Sektion
Rajapinnoilla specialnummer

Publicerad

2021-11-05

Referera så här

Toikka, A. (2021). Kombinera ämnesmodellering och klusteranalys för att studera förbehandlingsdata och modelleringsval. Informaatiotutkimus, 40(3), 142–162. https://doi.org/10.23978/inf.107879