Suomi24 alueellisen variaation aineistona
DOI:
https://doi.org/10.23982/vir.178714Avainsanat:
Suomi24, tietokonevälitteinen viestintä, variaatio, dialektologia, tilastolliset menetelmätAbstrakti
Tässä artikkelissa tarkastellaan Suomi24-verkkokeskusteluaineiston soveltuvuutta kirjoitetun puhekielen alueellisen variaation tutkimukseen. Lähtökohtana on havainto, että internetkeskustelut tarjoavat laajuudeltaan poikkeuksellisen aineistolähteen, mutta niiden käyttö murremaantieteellisessä tutkimuksessa on ongelmallista erityisesti puuttuvan paikkatiedon ja rekisterivariaation vuoksi. Tutkimuksessa selvitetään, kantaako Suomi24-aineisto aluepuhekielten tuottamaa alueellista signaalia, vaikka se ei edusta puhuttua kieltä eikä sisällä eksplisiittisiä paikkatunnisteita.
Aineistona käytetään Suomi24:n maakuntakohtaisia keskustelualueita, joita verrataan kahteen suomen murteiden alueellista vaihtelua kattavasti kuvaavaan aineistoon: Lauseopin arkiston murrekorpukseen ja Lauri Kettusen murrekartastoon. Alueellista variaatiota analysoidaan neljän kielenpiirteen avulla: inessiivin päätteiden, persoonapronominien, svaa-vokaalin sekä preesensin yksikön kolmannen persoonan pi-päätteen. Vertailu perustuu maakuntakohtaisiin suhteellisiin frekvensseihin ja niiden välisiin korrelaatioihin.
Tulokset osoittavat, että vaikka Suomi24-aineiston rekisterivariaation luonne vaikuttaa piirteiden suhteellisiin yleisyyksiin, aineistossa esiintyvät kielenpiirteet noudattavat pääosin aiemmassa murretutkimuksessa tunnistettuja alueellisia levikkejä. Artikkelin keskeinen tulos on, että Suomi24 kantaa tunnistettavaa aluepuhekielten signaalia ja on siten potentiaalisesti mielekäs aineisto murremaantieteelliseen tutkimukseen, kun rekisterivariaatio otetaan eksplisiittisesti huomioon.
The Suomi24 discussion forum as a corpus for regional variation in Finnish
This article examines the suitability of the Suomi24 online discussion corpus for the study of regional variation in Finnish. While internet discussion forums provide exceptionally large data sets, their use in dialectological research is complicated by a lack of explicit geographic metadata and by substantial register variation. The aim of this study is to assess whether Suomi24 data nevertheless carries a detectable signal of regional spoken varieties, despite representing written language.
The study focuses on discussions posted in regionally organised subforums of Suomi24 and compares their linguistic distributions with two established reference data sets of Finnish dialect variation: the Finnish Dialect Corpus of the Syntax Archive and the Finnish Dialect Atlas compiled by Lauri Kettunen. Regional variation is analysed using four linguistic features with well-documented dialectal distributions: inessive case endings, first- and second-person personal pronouns, the so-called schwa vowel, and the third-person singular present tense suffix -pi. The analysis is based on regionally aggregated relative frequencies and correlation measures between the data sets.
The results show that although register-related factors affect the relative frequencies of individual features in the Suomi24 corpus in different ways, their regional distributions largely align with patterns identified in traditional dialect research. The main contribution of the present article is to demonstrate that Suomi24 data carries a non-random and interpretable regional signal associated with spoken varieties. This suggests that, when register variation is explicitly addressed, Suomi24 constitutes a viable data source for large-scale dialectological and dialect-geographical research.