Mitä tutkimme, kun käytämme Suomi24-korpusta?
Verkkokeskustelukorpus suomen edustajana
DOI:
https://doi.org/10.23982/vir.163133Avainsanat:
Suomi24-korpus, edustavuus, puhekieli, yleiskieliAbstrakti
Suomi24-foorumi on tunnettu suomalainen keskustelufoorumi, jolla käsitellään monenlaisia aiheita. Citizen Mindscapes -hankkeen vuonna 2015 julkaisemana korpusaineistona Suomi24 on ollut vilkkaassa käytössä niin yhteiskuntatieteissä kuin kielentutkimuksessa. Itse korpusta ja sen kielellisiä ominaispiirteitä ei kuitenkaan ole juuri tutkittu lingvistisestä näkökulmasta.
Tämä artikkeli käsittelee Suomi24-korpusta sen edustavuuden sekä sen edustaman kielimuodon näkökulmasta. Korpusten edustavuutta voi tarkastella kahdesta näkökulmasta. Edustavuus domeenin suhteen tarkoittaa, että korpus sisältää tasapainoisen otoksen siitä kielenkäytön lajista, jota sen avulla on tarkoitus tutkia. Edustavuus distribuution mukaan tarkoittaa, että tutkittavasta kielenilmiöstä saadaan korpuksen avulla todellisuutta vastaava kuva. Suomi24-korpus on tarkoitettu ensisijaisesti hyvin suureksi laadulliseksi aineistoksi, joka ei sellaisenaan edusta mitään itseään laajempaa kokonaisuutta kuten tietokonevälitteinen viestintä tai kirjoitettu suomen kieli.
Suomi24-korpuksen edustamaa kielimuotoa tarkastellaan empiirisesti kolmen tapaustutkimuksen avulla. Tapaustutkimuksissa sitä verrataan toisaalta puhuttua keskustelua edustavaan Arkisyn-korpukseen, toisaalta kirjoitettua yleiskieltä edustavaan Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaan. Tapaustutkimuksissa tarkasteltavat kielenpiirteet ovat a) monikon 1. persoonan muodot (esim. me teemme – me tehdään), b) perfektitempuksen partisiipin lukukongruenssi (esim. lapset ovat syöneet – lapset on/ovat syöny) ja c) yksikön 1. ja 2. persoonan nominatiivisubjektien ilmipano (esim. teet – sä teet). Suomi24 osoittautuu tarkasteltavien piirteiden osalta varsin yleiskieliseksi. Korpuksessa on kuitenkin sisäistä variaatiota: foorumin alkuvuosien kieli on muuta aineistoa puhekielisempää, ja eri alafoorumeiden kielet eroavat toisistaan muodollisuuden asteen suhteen. Subjektin ilmipano eroaa kahdesta muusta tutkitusta piirteestä alafoorumin mukaisen distribuutionsa osalta jonkin verran. Empiirisen analyysin tulokset perustelevat tekstilajivariaation nykyistä tarkempaa huomiointia suomen kielen rakenteen ja merkityksen tutkimuksessa.
What are we studying when we use the Suomi24 corpus? A corpus of online discussions as a representative of the Finnish language
Suomi24 (in Finnish ‘Finland24’) is a well-known Finnish online discussion forum with sub-forums for various subjects. The Citizen Mindscapes project released the content of the forum as a corpus in 2015, and since then, it has been a popular dataset in both the social sciences and linguistics. However, the corpus itself and its linguistic properties have not been studied in depth.
This article considers the Suomi24 corpus from the perspectives of representativeness and the language variety that it represents. In corpus linguistics, ensuring the representativeness of a corpus requires two kinds of considerations. Domain considerations have to do with the language variety that the corpus is supposed to represent: the corpus should be a balanced sample of the variety in question. Distribution considerations have to do with the linguistic phenomena that are studied using the corpus: the phenomenon should be distributed in the corpus in a way that resembles its distribution in the language variety as a whole. However, the Suomi24 corpus has primarily been designed as a very large qualitative dataset that is not meant to represent anything larger than itself, such as computer-mediated discourse or written Finnish.
In this article, the linguistic properties of the Suomi24 corpus are examined in three case studies. In these case studies, the corpus is compared to a corpus of casual conversation (ArkiSyn) and to a corpus of standard written language (the Finnish sub-corpus of the newspaper and periodical corpus of the National Library of Finland, version 2). The case studies target morphosyntactic phenomena that are widely known to distinguish the colloquial variety of Finnish from Standard Finnish: first-person plural inflection of the verb, number agreement in perfect tense, and overt vs. non-overt subjects in first- and second-person singular subjects. The empirical analyses show that Suomi24 largely follows the conventions of Standard Finnish. However, the corpus displays internal variability: the early years of the corpus are linguistically more colloquial than the rest of the material, and different sub-forums differ from one another in terms of formality. As to the linguistic features that were analysed, the overtness of the subject seems to tap into a slightly different aspect of colloquiality from that of other features. The results support placing greater emphasis on genre variation in the study of Finnish grammar and semantics.