Parlamenttisampo: eduskunnan aineistojen linkitetyn avoimen datan palvelu ja sen käyttömahdollisuudet

Kirjoittajat

DOI:

https://doi.org/10.23978/inf.107899

Avainsanat:

eduskuntatutkimus, datapalvelut, semanttinen web [http://www.yso.fi/onto/yso/p21716], linkitetty data

Abstrakti

Semanttinen parlamentti -hankkeessa 2020–2022 luodaan eduskunnan tietokannoista ja niihin liittyvistä muista aineistoista uudenlainen linkitetyn avoimen datan (Linked Open Data, LOD) palvelu, tietoinfrastruktuuri ja semanttinen portaali Parlamenttisampo – eduskunta semant­tisessa webissä, joiden avulla tutkitaan poliittista kulttuuria ja kieltä. Dataa linkittämällä voi-daan rikastaa eduskuntadataa muilla tietolähteillä kuten biografisella tiedolla, terminologioilla ja lainsäädännön dokumenteilla. Parlamenttisampo on kieli- ja semanttisen webin teknologioihin perustuva palvelukokonaisuus tutkijoita, kansalaisia, mediaa ja valtionhallintoa varten. Artik­kelissa esitellään hankkeen visio, ensimmäisiä tuloksia ja niiden hyödyntämismahdollisuuksia: eduskunnan kaikkien täysistuntojen 1907–2021 yli 900 000 puheesta on valmistunut linkitetyn datan tietämysgraafi (knowledge graph); data on myös saatavilla XML-muodossa, jossa hyö­dynnetään uutta kansainvälistä Parla-CLARIN-formaattia. Ensimmäistä kertaa eduskunnan puheiden koko aikasarja on muunnettu dataksi ja datapalveluksi yhtenäisessä muodossa. Lisäksi puheet on yhdistetty eduskunnan kansanedustajien tietokannasta luotuun ja muista tietolähteistä rikastettuun toiseen tietämysgraafiin laajemmaksi ontologiaperustaiseksi datapalveluksi Fin- Parla. Datapalvelua voidaan käyttää eduskuntatutkimukseen parlamentaarisesta ja edustuksel-lisesta kulttuurista sekä poliittisen kielen käytöstä analysoimalla kansanedustajien täysistunnois­sa pitämiä puheita ja poliitikkojen verkostoja data-analyysin keinoin. Palvelun rajapinnan avulla voidaan myös kehittää eri käyttäjäryhmille sovelluksia, kuten hankkeessa valmistuva Parlament­tisampo-portaali.

Lähdeviitteet

Abercrombie, G., & Batista-Navarro, R. (2020). Sentiment and Position-Taking Analysis of Parliamentary Debates: a Systematic Literature Review. Journal of Computational Social Science, 3, 245–70. https://doi.org/10.1007/s42001-019-00060-w

Abu-Salih, B. (2021). Domain-specific Knowledge Graphs: A survey. Journal of Network and Computer Applications, 185(1), July 2021. https://doi.org/10.1016/j.jnca.2021.103076

Van Aggelen, A., Hollink, L., Kemman, M., Kleppe, M., & Beunders, H. (2017). The Debates of the European Parliament as Linked Open Data. Semantic Web, 8(2), 271–281.

Andrushchenko, M., Sandberg, K., Turunen, R., Marjanen, J., Hatavara, M., Kurunmäki, J., . . . Nummenmaa, J. (2021). Using parsed and annotated corpora to analyze parliamentarians’ talk in Finland. Journal of the Association for Information Science and Technology, 1–15. https://doi.org/10.1002/asi.24500

Baker, H., Brezina V., & McEnery T. (2017). Ireland in British parliamentary debates: plotting changes in discourse in a large volume of time-series corpus data. Teoksessa T. Säily, A. Nurmi, M. Palander-Collin & A. Auer (toim.), Exploring future paths for historical sociolinguistics (s. 83–107). John Benjamins.

Beelen, K., Thijm, T. A., Cochrane, C., Halvemaan, K., Hirst, G., Kimmins, M., . . . Whyte, T. (2017). Digitization of the Canadian Parliamentary Debates. Canadian Journal of Political Science, 50(3), 849–864. http://doi.org/10.1017/S0008423916001165

Benoît, C., & Rozenberg, O. (Ed.) (2020). Handbook of Parliamentary Studies: Interdisciplinary Approaches to Legislatures. Edward Elgar Publishing. https://doi.org/10.4337/9781789906516

Blaxill, L., & Beelen, K. (2016). A Feminized Language of Democracy? The Representation of Women at Westminster since 1945. Twentieth Century British History, 27(3), 412–449. https://doi.org/10.1093/tcbh/hww028

Bojārs, U., Darģis, R., Lavrinovičs, U., & Paikens, P. (2019). LinkedSaeima: A Linked Open Dataset of Latvia’s Parliamentary Debates. Teoksessa M. Acosta, P. Cudré-Mauroux, M. Maleshkova, T. Pellegrini, H. Sack, Y. Sure-Vetter (toim.), Semantic Systems. The Power of AI and Knowledge Graphs. SEMANTiCS 2019 (s. 50–56). Lecture Notes in Computer Science, vol 11702. Springer. https://doi.org/10.1007/978-3-030-33220-4_4

DiMaggio, P., Nag, M., & Blei, D. (2013). Exploiting Affinities between Topic Modeling and the Sociological Perspective on Culture: Application to Newspaper Coverage of U.S. Government Arts Funding. Poetics, 41(6), 570–606. https://doi.org/10.1016/j.poetic.2013.08.004

Eduskunta (2017). Eduskunnan täysistunnot, Kielipankin Korp-versio 1.5 [tekstikorpus]. Kielipankki. http://urn.fi/urn:nbn:fi:lb-2019101621

Elo, K. (2016). Digitaalisen historiantutkimuksen kenttää louhimassa. Teoksessa K. Elo (toim.), Digitaalinen humanismi ja historiatieteet (Historia Mirabilis 12) (s. 11–35). Turun historiallinen yhdistys.

Gardiner, E., & Musto, R. G. (2015). The Digital Humanities: A Primer for Students and Scholars. Cambridge University Press. https://doi.org/10.1017/CBO9781139003865

Guldi, J. (2019). Parliament's debates about infrastructure: An exercise in using dynamic topic models to synthesize historical change. Technology and Culture, 60(1), 1–33. http://dx.doi.org.ezproxy.its.uu.se/10.1353/tech.2019.0000

Heath, T., & Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space. Morgan & Claypool. https://doi.org/10.2200/S00334ED1V01Y201102WBE001

Hyvönen, E. (2018). Semanttinen web. Linkitetyn avoimen datan käsikirja. Gaudeamus.

Hyvönen, E. (2020). Using the Semantic Web in Digital Humanities: Shift from Data Publishing to Data-analysis and Serendipitous Knowledge Discovery. Semantic Web – Interoperability, Usability, Applicability, 11(1), 187–193. https://doi.org/10.3233/SW-190386

Hyvönen, E. (2021). Digital Humanities on the Semantic Web: Sampo Model and Portal Series. Vertaisarvioinnissa. https://seco.cs.aalto.fi/publications/2021/hyvonen-sampo-model-2021.pdf

Hyvönen, E., Tuominen, J., Alonen, M., & Mäkelä, E. (2014). Linked Data Finland: A 7-star Model and Platform for Publishing and Re-using Linked Datasets. Teoksessa V. Presutti, E. Blomqvist, R. Troncy, H. Sack, I. Papadakis, & A. Tordai (toim.), The Semantic Web: ESWC 2014 Satellite Events. ESWC 2014 (s. 226–230). Springer. https://doi.org/10.1007/978-3-319-11955-7_24

Hyvönen, E., Tamper, M., Ikkala, E., Koho, M., Leal, R., Kesäniemi, J., . . . Hietanen, A. (2021a). LawSampo Portal and Data Service for Publishing and Using Legislation and Case Law as Linked Open Data on the Semantic Web. April. https://seco.cs.aalto.fi/publications/2021/hyvonen-et-al-lawsampo-2021.pdf

Hyvönen, E., Leskinen, P:, Rantala, H., Ikkala, E., & Tuominen, J. (2021b). Akatemiasampo-portaali ja -datapalvelu henkilöiden ja henkilöryhmien historialliseen tutkimukseen. Informaatiotutkimus, 40(2), 28–56, https://doi.org/10.23978/inf.102656

Ihalainen, P., & Sahala, A. (2020). Evolving conceptualisations of internationalism in the UK Parliament: Collocation analyses from the league to Brexit. Teoksessa M. Fridlund, M. Oiva, & P. Paju (toim.), Digital histories: Emergent approaches within the new digital history (s. 199–219). Helsinki University Press. https://doi.org/10.33134/HUP-5-12

Ikkala, E., Hyvönen, E., Rantala, H., & Koho, M. (2021). Sampo-UI: A Full Stack JavaScript Framework for Developing Semantic Portal User Interfaces. Semantic Web – Interoperability, Usability, Applicability. Accepted. http://www.semantic-web-journal.net/content/sampo-ui-full-stack-javascript-framework-developing-semantic-portal-user-interfaces-0

Jacobi, C., van Atteveldt, W., & Welbers, K. (2016). Quantitative Analysis of Large Amounts of Journalistic Texts Using Topic Modelling. Digital Journalism, 4(1), 89–106. https://doi.org/10.1080/21670811.2015.1093271

Jelveh, Z., Kogut, B., & Naidu, S. (2014). Detecting Latent Ideology in Expert Text: Evidence from Academic Papers in Economics. Teoksessa Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) (s. 1804–1809). http://emnlp2014.org/papers/pdf/EMNLP2014191.pdf

Kettunen K., & La Mela M. (2021, tulossa) Semantic tagging and the Nordic tradition of Everyman’s rights. Digital Scholarship in the Humanities. Preprint-versio (huhtikuu 2021). https://seco.cs.aalto.fi/publications/2021/kettunen-lamela-dsh-2021.pdf

Koho, M., Gasbarra, L., Tuominen, J., Rantala, H., Jokipii, I., & Hyvönen, E. (2019). AMMO Ontology of Finnish Historical Occupations. Teoksessa Proceedings of the First International Workshop on Open Data and Ontologies for Cultural Heritage (ODOCH 19) (s. 91–96). CEUR Workshop Proceedings, vol. 2375. http://ceur-ws.org/Vol-2375/

Laaksonen, S.-M., & Nelimarkka, M. (2018). Omat ja muiden aiheet: Laskennallinen analyysi vaalijulkisuuden teemoista ja aiheomistajuudesta. Politiikka, 60(2), 132–147.

La Mela, M. (2020). Tracing the emergence of Nordic allemansrätten through digitised parliamentary sources. Teoksessa M. Fridlund, M. Oiva, & P. Paju (toim.), Digital histories: Emergent approaches within the new digital history (s. 181–197). Helsinki University Press. https://doi.org/10.33134/HUP-5-11

Lapponi, E., Søyland, M. G., Velldal, E., & Oepen, S. (2018). The Talk of Norway: a richly annotated corpus of the Norwegian parliament, 1998–2016. Lang Resources & Evaluation, 52, 873–893. https://doi.org/10.1007/s10579-018-9411-5

Lennes, M. (2019). FIN-CLARIN and Language Bank Parliamentary Data. Workshop “Digital Parliamentary Data and Research”, Aalto-yliopisto, 3.5.2019. https://www2.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.

Leskinen, P., Hyvönen, E., & Tuominen, J. (2021). Members of Parliament in Finland Knowledge Graph and its Linked Open Data Service. April. Proceedings of SEMANTiCS - In the Era of Knowledge Graphs, Amsterdam, Sept 6-9, 2021, accepted. https://seco.cs.aalto.fi/publications/2021/leskinen-et-al-mps-2021.pdf

Lillqvist, E., Kavonius, I. K., & Pantzar, M. (2020). “Velkakello tikittää”: Julkisyhteisöjen velka suomalaisessa mielikuvastossa ja tilastoissa 2000–2020. Kansantaloudellinen Aikakauskirja, 116(4), 581–607.

Magnusson, M., Öhrvall, R., Barrling, K., & Mimno, D. (2018, April 4). Voices from the far right: a text analysis of Swedish parliamentary debates. https://doi.org/10.31235/osf.io/jdsqc

Makkonen, K., & Loukasmäki, P. (2019). Eduskunnan täysistunnon puheenaiheet 1999–2014: Miten käsitellä LDA-aihemalleja?. Politiikka, 61(2), 127–159. https://journal.fi/politiikka/article/view/77163

Mansikkaniemi, A., Smit, P., & Kurimo, M. (2017). Automatic Construction of the Finnish Parliament Speech Corpus. Teoksessa Proc. Interspeech 2017 (s. 3762-3766). https://doi.org/10.21437/Interspeech.2017-1115

Martínez-Rodríguez, J.-L., Hogan, A., & López-Arévalo. I. (2020). Information extraction meets the Semantic Web: A survey. Semantic Web – Interoperability, Usability, Applicability, (11)2, 255–335, https://doi.org/10.3233/SW-180333

Mimno, D. (2012). Topic Regression. University of Massachusetts Amherst. https://scholarworks.umass.edu/open_access_dissertations/520

McCarty, W. (2005). Humanities Computing. Palgrave.

Mountford, J. B. (2018). Topic Modeling the Red Pill. Social Sciences, 7(3). https://doi.org/10.3390/socsci7030042

Noy, N., Gao, Y., Jain, A., Narayanan, A., Patterson, A., & Taylor, J. (2019). Industry-scale knowledge graphs: lessons and challenges. Communications of the ACM, July. https://doi.org/10.1145/3331166

Oksanen, A., Tuominen, J., Mäkelä, E., Tamper, M., Hietanen, A., & Hyvönen, E. (2019). Semantic Finlex: Transforming, Publishing, and Using Finnish Legislation and Case Law As Linked Open Data on the Web. Knowledge of the Law in the Big Data Age. Teoksessa G. Peruginelli & S. Faro (toim.), Frontiers in Artificial Intelligence and Applications, vol. 317 (s. 212–228). IOS Press.

Palonen, K. (2005). Eduskunnasta puhekunnaksi? Parlamentarismi retorisena politiikkana. Politiikka, 47(2), 142–148.

Pancur, A., & Erjavec, T. (2020). The siParl corpus of Slovene parliamentary proceedings. Teoksessa Proceedings of the Second ParlaCLARIN Workshop. Marseille, France, May 2020 (s. 28–34). European Language Resources Association. https://www.aclweb.org/anthology/2020.509parlaclarin-1.6

Purhonen, S. & Toikka, A. (2016). “Big Datan” haaste ja uudet laskennaliset tekstiaineistojen analyysimenetelmät: esimerkkitapauksena aihemallianalyysi tasavallan presidenttien uudenvuodenpuheista 1935-2015. Sosiologia, 53(1), 6–27.

Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010). How to Analyze Political Attention with Minimal Assumptions and Costs. American Journal of Political Science, 54, 209–228. https://doi.org/10.1111/j.1540-5907.2009.00427.x

Rauh, C., De Wilde, P., & Schwalbach, J. (2017). The ParlSpeech data set: Annotated full-text vectors of 3.9 million plenary speeches in the key legislative chambers of seven European states (V1). Harvard Dataverse. https://doi.org/10.7910/DVN/E4RSP9

Rietveld, L., & Hoekstra, R. (2017). The YASGUI family of SPARQL clients. Semantic Web – Interoperability, Usability, Applicability, 8(3), 373–383. https://doi.org/10.3233/SW-150197

Simola, S. (2020). A Century of Partisanship in Finnish Political Speech. Julkaisematon käsikirjoitus. Osa väitöskirjaa Essays in Labor and Political Economics, Aalto-yliopisto. https://sites.google.com/site/sallasimolaecon/home/research

Sinikallio, L., Drobac, S., Tamper, M., Leal, R., Koho, M., Tuominen, J., . . . Hyvönen, E. (2021). Plenary Debates of the Parliament of Finland as Linked Open Data and in Parla-CLARIN Markup. Proceedings, Language, Data and Knowledge (LDK 2021), Zaragoza, Spain, June, 2021, accepted. https://seco.cs.aalto.fi/publications/2021/sinikallio-et-al-speeches-2021.pdf

Staab, S. & Studer, R. (ed.) (2009). Handbook of Ontologies. Springer. https://doi.org/10.1007/978-3-540-92673-3

Tamper, S., Leskinen, P., Hyvönen, E., Valjus, R., & Keravuori, K. (2021). Analyzing Biography Collections Historiographically as Linked Data: Case National Biography of Finland. Semantic Web – Interoperability, Usability, Applicability, accepted. http://semantic-web-journal.org/content/analyzing-biography-collections-historiographically-linked-data-case-national-biography

Tangherlini, T. R., & Leonard, P. (2013). Trawling in the Sea of the Great Unread: Sub-Corpus Topic Modeling and Humanities Research. Poetics, 41(6), 725–749. https://doi.org/10.1016/j.poetic.2013.08.002

Tunkelang, D. (2009). Faceted Search. Synthesis Lectures on Information Concepts, Retrieval, and Services. Morgan-Claypool. https://doi.org/10.2200/S00190ED1V01Y200904ICR005

Tuominen, J., Hyvönen, E., & Leskinen, P. (2018). Bio CRM: A Data Model for Representing Biographical Data for Prosopographical Research. In Proceedings of the Second Conference on Biographical Data in a Digital World 2017 (BD2017) (s. 59–66). CEUR Workshop Proceedings, vol. 2119. http://ceur-ws.org/Vol-2119/paper10.pdf

Tzitzikas, Y., Manolis, N., & Papadakos, P. (2017). Faceted Exploration of RDF/S Datasets: a Survey. Journal of Intelligent Information Systems, 48(2), 329–364. https://doi.org/10.1007/s10844-016-0413-8

Törnberg, A., & Törnberg, P. (2016). Muslims in Social Media Discourse: Combining Topic Modeling and Critical Discourse Analysis. Discourse, Context and Media, 13, 132–142. https://doi.org/10.1016/j.dcm.2016.04.003

Verboven, K., Carlier, M., & Dumolyn, J. (2007). A Short Manual to the Art of Prosopography. Teoksessa Prosopography Approaches and Applications. A Handbook (s. 35–70). Unit for Prosopographical Research (Linacre College).

Ylä-Anttila, T., & Eranti, V. (2018). Aihemallinnuksesta kehysmallinnukseen. Politiikka, 60(2), 148–156.

Tiedostolataukset

Julkaistu

2021-11-05

Viittaaminen

Hyvönen, E., Sinikallio, L., Leskinen, P., Drobac, S., Tuominen, J., Elo, K., La Mela, M., Koho, M., Ikkala, E., Tamper, M., Leal, R., & Kesäniemi, J. (2021). Parlamenttisampo: eduskunnan aineistojen linkitetyn avoimen datan palvelu ja sen käyttömahdollisuudet. Informaatiotutkimus, 40(3), 216–244. https://doi.org/10.23978/inf.107899