Kirjoitetun suomen kielen diskurssifunktiot
Korpusvetoinen näkökulma tekstilajien kielenpiirteiden variaatioon
DOI:
https://doi.org/10.23982/vir.142646Avainsanat:
kielen vaihtelu, variaatio, rekisteri, tekstilaji, moniulotteinen analyysiAbstrakti
Tutkimuksessa tarkastellaan huolitellun yleiskielen variaatiota suomen kielen neljässä tekstilajissa: tutkimusartikkeleissa, kaunokirjallisuudessa, puolueohjelmissa ja uutisissa. Kullekin tekstilajille tyypilliset kielenpiirteet tunnistetaan laskennallisten menetelmien avulla suhteessa muihin tekstilajeihin. Vastaavaa tutkimusta on runsaasti esimerkiksi englannista, mutta suomen yleiskielen tekstilajeista vertailevaa kvantitatiivista tutkimusta ei ole tehty.
Tutkimusaineisto on koostettu neljästä eri korpuksesta, ja se sisältää tutkimusartikkeleita, kaunokirjallisia tekstejä, poliittisia puheenvuoroja ja uutistekstejä. Tutkimuksessa käytettiin ensin avainrakenneanalyysia tunnistamaan aineistosta merkitykselliset eli aineistolle tyypilliset kielen piirteet. Piirteet ryhmiteltiin moniulotteisen analyysin avulla joukoiksi, joiden jäsenten esiintyminen tekstissä korreloi toistensa kanssa.
Tulokset osoittavat, että huolitellussa yleiskielessä on runsaasti vaihtelua ja että jokaisessa neljässä tekstilajissa käytetään erilaista kielen rekisteriä. Tutkimusartikkeleille tyypillistä on määritteiden kertyminen virkkeen alkuun ja loppuun. Kaunokirjallisuudelle on tyypillistä pronominien käyttö ja virkkeen tiiviys lauseen ydinjäsenten ympärillä. Puolueohjelmille on tyypillistä substantiivin määritteiden käyttö sekä rinnasteisten ja alisteisten lauseiden runsaus, ja uutisteksteille tyypillistä on runsas numeraalien määritteiden ja erisnimien käyttö. Kielen vaihtelun perusteella tunnistetaan erilaisia diskurssifunktioita, jotka tukevat tekstilajin kommunikatiivista tavoitetta.
Discourse functions in written Finnish: Corpus-based study in register variation
This study examines the variation of standard Finnish across four genres: research articles, fiction, political programs, and news items. The linguistic features typical of each genre are defined through computational methods in relation to other genres. Comparable research is abundant – for example, in English – but there is a lack of comparative quantitative research on the standard language genres in Finnish.
The research data stems from four different corpora, comprising research articles, fictional texts, political speeches, and news texts. Key structure analysis was employed to identify linguistically significant features within the material, features typical to these texts. These features were then grouped into sets according to their patterns of co-occurrence within the data, using multi-dimensional analysis.
The results indicate that there is considerable variation in standard Finnish, and each studied genre employs a different linguistic register. Research articles are characterised by the accumulation of modifiers at the beginning and end of sentences. Fiction is characterised by the use of pronouns and compact sentence structures with core members surrounding the sentence nucleus. Political programs are characterised by the use of noun modifiers and the abundance of both coordinating and subordinating clauses, while news texts are characterised by the extensive use of numerical modifiers and proper nouns. Based on linguistic variation, various discourse functions are identified, reflecting the communicative goals of each genre.
Lähdeviitteet
Biber, Douglas 1988: Variation across speech and writing. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9780511621024.
Biber, Douglas 1989: A typology of English texts. – Linguistics 27 (1) s. 3–44. https://doi.org/10.1515/ling.1989.27.1.3.
Biber, Douglas 1993: Using register-diversified corpora for general language studies. – Computational Linguistics 19 (2) s. 219–241.
Biber, Douglas 1995: Dimensions of register variation. A cross-linguistic comparison. New York: Cambridge University Press.
Biber, Douglas 2006: University language. A corpus-based study of spoken and written registers. Studies in Corpus Linguistics 23. Amsterdam: John Benjamins Publishing Company. https://doi.org/10.1075/scl.23.
Biber, Douglas 2012: Register as a predictor of linguistic variation. – Corpus Linguistics and Linguistic Theory 8 (1) s. 9–37. https://doi.org/10.1515/cllt-2012-0002.
Biber, Douglas 2014: Using multi-dimensional analysis to explore cross-linguistic universals of register variation. – Languages in Contrast 14 (1) s. 7–34. https://doi.org/doi:10.1075/lic.14.1.02bib.
Biber, Douglas – Conrad, Susan 2019: Register, genre, and style. 2. painos. Cambridge: Cambridge University Press. https://doi.org/10.1017/9781108686136.
Biber, Douglas – Egbert, Jesse – Keller, Daniel 2020: Reconceptualizing register in a continuous situational space. – Corpus Linguistics and Linguistic Theory 16 (3) s. 581–616. https://doi.org/10.1515/cllt-2018-0086.
Biber, Douglas – Gray, Bethany 2021: Nominalizing the verb phrase in academic science writing. – Douglas Biber, Bethany Gray, Shelley Staples & Jesse Egbert, The register-functional approach to grammatical complexity. Theoretical foundation, descriptive research findings, application s. 176–198. New York: Routledge.
Biber, Douglas – Gray, Bethany – Staples, Shelley – Egbert, Jesse 2021: The register-functional approach to grammatical complexity. Theoretical foundation, descriptive research findings, application. New York: Routledge. https://doi.org/10.4324/9781003087991.
Biber, Douglas – Larsson, Tove – Hancock, Gregory R. 2023: The linguistic organization of grammatical text complexity. Comparing the empirical adequacy of theory-based models. – Corpus Linguistics and Linguistic Theory 20 (2) s. 347–373. https://doi.org/10.1515/cllt-2023-0016.
Breiman, Leo 2001: Random forests. – Machine Learning 45 (1) s. 5–32. https://doi.org/10.1023/A:1010933404324.
Čermák, František – Rosen, Alexandr 2012: The case of InterCorp, a multilingual parallel corpus. – International Journal of Corpus Linguistics 17 (3) s. 411–427.
Conrad, Susan – Biber, Douglas (toim.) 2001: Variation in English. Multi-dimensional studies. Studies in Language and Linguistics. New York: Longman.
Egbert, Jesse – Biber, Douglas 2020: It’s just words, folks. It’s just words. – Ulrike Schneider & Matthias Eitelmann (toim.), Linguistic inquiries into Donald Trump’s language. From ‘fake news’ to ‘tremendous success.’ London: Bloomsbury Academic. https://doi.org/10.5040/9781350115545.
Egbert, Jesse – Biber, Douglas 2023: Key feature analysis. A simple, yet powerful method for comparing text varieties. – Corpora 18 (1) s. 121–133. https://doi.org/10.3366/cor.2023.0275.
Egbert, Jesse – Staples, Shelley 2019: Doing multi-dimensional analysis in SPSS, SAS, and R. – Tony Berber Sardinha & Marcia Veirano Pinto (toim.), Multi-dimensional analysis. Research methods and current issues s. 99–114. London: Bloomsbury Academic. https://doi.org/10.5040/9781350023857.
Fabrigar, Leandre R. 2012: Exploratory factor analysis. Understanding Statistics. Oxford: Oxford University Press.
Fowler, Alastair 1985: Kinds of literature. Oxford: Oxford University Press.
Gabrielatos, Costas 2018: Keyness analysis. Nature, metrics and techniques. – Charlotte Taylor & Anna Marchi (toim.), Corpus approaches to discourse. A critical review s. 225–258. Oxford: Routledge.
Halliday, M. A. K. 1973: Explorations in the functions of language. London: Edward Arnold Ltd.
Halliday, M. A. K. 1985: An introduction to functional grammar. London: Edward Arnold Ltd.
Halliday, M. A. K. 1988: On the language of physical science. – Mohsen Ghadessy (toim.), Registers of written English s. 162–178. London: Pinter.
Halliday, M.A.K. – Hasan, Ruqaiya 1989: Language, context, and text. Aspects of language in a social-semiotic perspective. 2 painos. Oxford: Oxford University Press.
Heikkinen, Vesa 2007: Tieteellinen artikkeli. – Kulttuurintutkimus 24 (4) s. 3–20.
Ivaska, Ilmari 2014: Edistyneen oppijansuomen avainrakenteita. Korpusnäkökulma kahden kielimuodon tyypillisiin rakenteellisiin eroihin. – Virittäjä 118 (2) s. 161–193.
Ivaska, Ilmari 2015a: Edistyneen oppijansuomen korpuspiirteitä korpusvetoisesti. Avainrakenneanalyysi. Turun yliopisto. http://urn.fi/URN:ISBN:978-951-29-6204-4.
Ivaska, Ilmari 2015b: Longitudinal changes in academic learner Finnish. A key structure analysis. – International Journal of Learner Corpus Research 1 (2) s. 210–241. https://doi.org/10.1075/ijlcr.1.2.02iva.
Ivaska, Ilmari – Bernardini, Silvia 2020: Constrained language use in Finnish. A corpus-driven approach. – Nordic Journal of Linguistics 43 (1) s. 33–57. https://doi.org/10.1017/S0332586520000013.
Ivaska, Ilmari – Bernardini, Silvia – Ferraresi, Adriano 2024: The complex case of constrained communication. A corpus-driven, multilingual and multi‑register search for the common ground between non‑native and translated language. – Bertus Van Rooy & Haidee Kotze (toim.), Contact language library 60 s. 191–222. Amsterdam: John Benjamins Publishing Company. https://doi.org/10.1075/coll.60.07iva.
Ivaska, Ilmari – Ferraresi, Adriano – Bernardini, Silvia 2022: Syntactic properties of constrained English. A corpus-driven approach. – Sylviane Granger & Marie-Aude Lefer (toim.), Extending the scope of corpus-based translation studies s. 133–157. London: Bloomsbury Academic. https://doi.org/10.5040/9781350143289.
Ivaska, Ilmari – Ivaska Laura 2022: Source language classification of indirect translations. – Hanna Pięta, Laura Ivaska & Yves Gambier (toim.), Target. Special issue. What can indirect translation research do for translation studies? 34 (3) s. 370–394. https://doi.org/10.1075/target.00006.iva.
Ivaska, Ilmari – Kajzer-Wietrzny, Marta – Ferraresi, Adriano 2022: Formality in mediated and non-mediated discourse: Bringing together human judgements and corpus-driven detection. – Marta Kajzer-Wietrzny, Adriano Ferraresi, Ilmari Ivaska & Silvia Bernardini (toim.), Mediated discourse at the European Parliament. Empirical investigations s. 29–61. Berlin: Language Science Press. https://doi.org/10.5281/zenodo.6977040.
Ivaska, Ilmari – Siitonen, Kirsti 2017: Learner language morphology as a window to crosslinguistic influences. A key structure analysis. – Nordic Journal of Linguistics 40 (2) s. 225–253. https://doi.org/10.1017/S0332586517000129.
Jantunen, Jarmo 2012: Akateemiset ja populaaritekstit korpusvertailussa. Sanalistat, avainsanat ja fraseologiset yksiköt. – Vesa Heikkinen, Eero Voutilainen, Petri Lauerma, Ulla Tiililä & Mikko Lounela (toim.), Genreanalyysi. Tekstilajitutkimuksen käytäntöä s. 186–213. Kotimaisten Kielten Keskuksen Verkkojulkaisuja 29. Helsinki: Kotimaisten kielten keskus.
Juntunen, Tuomas 2012: Kirjallisuudentutkimus. – Vesa Heikkinen, Eero Voutilainen, Petri Lauerma, Ulla Tiililä & Mikko Lounela (toim.), Genreanalyysi. Tekstilajitutkimuksen käsikirja s. 528–536. Kotimaisten Kielten Keskuksen Julkaisuja 169. Helsinki: Gaudeamus.
Karlsson, Fred – Wiberg, Matti 2010: Puolueohjelmien kieliopillinen kompleksisuus. – Sananjalka 52 (1) s. 89–103. https://doi.org/10.30673/sja.86698.
Kunelius, Risto 1996: The news, textually speaking. Writings on news journalism and journalism research. Acta Universitatis Tamperensis. Ser A, 520. Tampere: Tampereen yliopisto.
Kursa, Miron – Rudnicki, Witold 2010: Feature selection with the Boruta package. – Journal of Statistical Software 36 (11) s. 1–13. https://doi.org/10.18637/jss.v036.i11.
Kuutti, Heikki 2006: Uusi mediasanasto. Jyväskylä: Atena Kustannus oy.
Laippala, Veronika – Kanerva, Jenna – Ginter, Filip 2015: Syntactic ngrams as keystructures reflecting typical syntactic patterns of corpora in Finnish. – Procedia. Social and behavioral sciences 198 s. 233–241. Current work in corpus linguistics. Working with traditionally-conceived corpora and beyond. Selected Papers from the 7th International Conference on Corpus Linguistics (CILC2015). https://doi.org/10.1016/j.sbspro.2015.07.441.
Laippala, Veronika – Luotolahti, Juhani – Kyröläinen, Aki-Juhani – Salakoski, Tapio – Ginter, Filip 2017: Creating register sub-corpora for the Finnish Internet Parsebank. – Jörg Tidemann & Nina Tahmasebi (toim.), Proceedings of the 21st Nordic Conference on Computational Linguistics s. 152–161. Gothenburg: Association for Computational Linguistics. https://aclanthology.org/W17-0218 (14.11.2024).
Li, Haipeng – Dunn, Jonathan – Nini, Andrea 2023: Register variation remains stable across 60 languages. – Corpus Linguistics and Linguistic Theory 19 (3) s. 397–426. https://doi.org/10.1515/cllt-2021-0090.
Luodonpää-Manni, Milla 2016: ‘Théorie’, ‘hypothèse’, ‘modèle’ et ‘méthode’ dans le domaine de la linguistique. Perspectives sémasiologique et onomasiologique. Turun yliopisto. http://urn.fi/URN:ISBN:978-951-29-6490-1.
Luukka, Minna-Riitta 1992: Varmuuden kahdet kasvot tieteellisessä tekstissä. – Virittäjä 96 (4) s. 361–379.
Luukka, Minna-Riitta 1994: Minä, sinä, hän. Tieteellisten tekstien ihmissuhteet. – Virittäjä 98 (1) s. 25–43.
Marneffe, Marie-Catherine de – Manning, Christopher D. – Nivre, Joakim – Zeman, Daniel 2021: Universal Dependencies. – Computational Linguistics 47 (2) s. 255–308. https://doi.org/10.1162/coli_a_00402.
Mauranen, Anna 2000: Strange strings in translated language. A study on corpora. – Maeve Olohan (toim.), Intercultural faultlines. Research models in translation studies s. 119–141. Manchester: St Jerome Publishing.
Mauranen, Anna 2006: Genre, käännös ja korpus. Elämäntaito-oppaat tarkastelussa. – Anne Mäntynen, Susanna Shore & Anna Solin (toim.), Genre – tekstilaji s. 214–238. Tietolipas 213. Helsinki: Suomalaisen Kirjallisuuden Seura.
Mäntynen, Anne 2006: Näkökulmia tekstin ja tekstilajien rakenteeseen. – Anne Mäntynen, Susanna Shore & Anna Solin (toim.), Genre – tekstilaji s. 42–71. Helsinki: Suomalaisen Kirjallisuuden Seura.
Mäntynen, Anne – Shore, Susanna 2006: Johdanto. – Anne Mäntynen, Susanna Shore & Anna Solin (toim.), Genre – tekstilaji s. 9–41. Helsinki: Suomalaisen Kirjallisuuden Seura.
Nguyen, Minh Van – Lai, Viet Dac – Veyseh, Amir Pouran Ben – Nguyen, Thien Huu 2021: Trankit. A light-weight transformer-based toolkit for multilingual natural language processing. – Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations s. 80–90. Association for Computational Linguistics. https://doi.org/10.18653/v1/2021.eacl-demos.10.
Pettersson, Bo 2006: Kirjallisuuden lajien teoriasta ja käytännöstä. – Anne Mäntynen, Susanna Shore & Anna Solin (toim.), Genre – tekstilaji s. 151–164. Helsinki: Suomalaisen Kirjallisuuden Seura.
Pietilä, Veikko 1993: On tämä aika kamala – ja kiehtova – peli! – Virittäjä 97 (3) s. 345–366.
Ridell, Seija 1994: Kaikki tiet vievät genreen. Tutkimusretkiä tiedotusopin ja kirjallisuustieteen rajamaastossa. Sarja A 82. Tampere: Tampereen yliopisto. Tiedotusopin laitos.
Saukkonen, Pauli 1984: Mistä tyyli syntyy. Helsinki: WSOY.
Swales, John 1990: Genre analysis. English in Academic and research settings. Cambridge: Cambridge University Press.
Ventola, Eija 2006: Genre systeemis-funktionaalisessa kielitieteessä. Esimerkkinä asiointitilanteet. – Anne Mäntynen, Susanna Shore & Anna Solin (toim.), Genre – tekstilaji s. 96–121. Helsinki: Suomalaisen Kirjallisuuden Seura.
Virtanen, Mikko T. 2015: Akateeminen kirja-arvio moniäänisenä toimintana. Helsinki: Helsingin yliopisto.
Volansky, Vered – Ordan, Noam – Wintner, Shuly 2015: On the features of translationese. – Digital Scholarship in the Humanities 30 (1) s. 98–118. https://doi.org/10.1093/llc/fqt031.
Wiberg, Matti 2012: Politiikan tutkimus. – Vesa Heikkinen, Eero Voutilainen, Petri Lauerma, Ulla Tiililä & Mikko Lounela (toim.), Genreanalyysi. Tekstilajitutkimuksen käsikirja. Kotimaisten Kielten Keskuksen Julkaisuja 169. Helsinki: Gaudeamus.
Wright, Marvin N. – Ziegler, Andreas 2017: ranger: A fast implementation of random forests for high dimensional data in C++ and R. – Journal of Statistical Software 77 (1) s. 1–17. https://doi.org/10.18637/jss.v077.i01.
Tiedostolataukset
Julkaistu
Numero
Osasto
Lisenssi
Jokaisesta Virittäjässä julkaistavasta kirjoituksesta solmitaan lehden ja tekijän tai tekijöiden edustajan kanssa kustannussopimus. Virittäjän kustannussopimus pohjautuu väljästi Tiedekustantajien liiton sopimusmalliin. Kustannussopimus kattaa kirjoituksen julkaisun Virittäjän paperi- ja/tai verkkolehdessä. Lisäksi se ennakoi sähköisen julkaisun ja arkistoinnin mahdollisia tulevia tarpeita.
Tekijänoikeuksista saa lisätietoa Kopioston sivuilta. Virittäjä on tieteellinen aikakausjulkaisu, joka ei tavoittele kaupallista hyötyä vaan kustannussopimuksen tavoitteena on tunnustaa tekijän moraaliset oikeudet teokseen ja mahdollistaa Virittäjän tarjoama tieteellisen tiedon levittäminen niin painetussa muodossa kuin sähköisillä foorumeilla.