Biografiasampo yhdistää ja rikastaa suomalaiset elämäkerrat linkitettynä datana semanttisessa webissä

Kirjoittajat

DOI:

https://doi.org/10.23978/inf.107948

Avainsanat:

elämäkerrat [http://www.yso.fi/onto/yso/p11597], semanttinen web [http://www.yso.fi/onto/yso/p21716], prosopografia [http://www.yso.fi/onto/yso/p25359], yhdistetty avoin tieto [http://www.yso.fi/onto/yso/p26001], portaalit (tietotekniikka) [http://www.yso.fi/onto/yso/p18279]

Abstrakti

Informaatiotutkimuksen tavoitteena on kehittää uusia tapoja tuottaa, organisoida ja käyttää tietoa sekä yksilöiden että organisaatioiden näkökulmasta. Tässä katsauksessa esitellään kulttuurihistoriallisen tiedon tuottajia ja käyttäjiä palvelevan ns. Sampo-mallin sovellus Biografiasampo kansalaisille, digitaalisten ihmistieteiden tutkijoille ja uusien sovellusten kehittäjille. Biografiasammon kunnianhimoisena tavoitteena on käynnistää uusi aikakausi elämäkertakokoelmien julkaisemisessa ja käyttämisessä verkossa semanttisen webin teknologioita ja linkitetyn avoimen datan julkaisuperiaatteita hyödyntäen. Innovaationa on luoda kieliteknologian, tekoälyn ja semanttisen webin teknologioiden avulla elämäkertojen teksteistä ja niihin eri lähteissä liittyvistä tietokannoista tietämysverkko (knowledge graph) osana kansallista tietoinfrastruktuuria. Sovelluksen ydinaineistona ovat Kansallisbiografia ja muut Suomalaisen Kirjallisuuden Seuran toimittamat ja julkaisemat pienoiselämäkerrat, yhteensä 13 100 elämäntarinaa, joita on kirjoittanut 980 suomalaista tutkijaa maamme suurimmaksi sanotussa historiantutkimuksen hankkeessa. Elämäkerroista louhittua dataa on rikastettu automaattisen loogisen päättelyn avulla ja linkittämällä sitä 16 muuhun tietolähteeseen. Tietämysverkko on julkaistu linkitetyn avoimen datan Linked Data Finland -palvelussa. Datapalvelun avulla on toteutettu seitsemästä sovellusnäkymästä koostuva älykäs, avoin ja maksuton verkkopalvelu biografiasampo.fi, jolla on ollut noin 50 000 käyttäjää. Sekä järjestelmän elämäkerrat että niistä louhittu data ovat avoimesti käytettävissä datapalveluna Linked Data Finland -alustalla.

Lähdeviitteet

Akatemiasampo (14.6.2021). Akatemiasampo-projekti: https://seco.cs.aalto.fi/projects/yo-matrikkelit/

ANB (14.6.2021). American National Biography. Verkkopalvelu osoitteessa: http://www.anb.org/

Biografiasampo (14.6.2021). Hankkeen kotisivu aineistoineen osoitteessa: http://seco.cs.aalto.fi/projects/biografiasampo

BiographyNet (14.6.2021). Palvelu osoitteessa: http://www.biographynet.nl/

Bhreathnach, Ú., Burke, C., Fhinn, J. M., Cleircín, G. Ó., & Raghallaigh, B. Ó. (2019). A Quantitative Analysis of Biographical Data from Ainm, the Irish-language Biographical Database. Teoksessa Proceedings of the Third Conference on Biographical Data in a Digital World (BD 2019). CEUR Workshop Proceedings.

BPN (14.6.2021). Biography Portal of the Netherlands. Palvelu osoitteessa: http://www.biografischportaal.nl/en

CRM (14.6.2021). CIDOC-CRM-standardin kotisivut: http://www.cidoc-crm.org/

DC (14.6.2021). Dublin Core Metadata Inititive -kotisivut: https://dublincore.org/

Doerr, M. (2003). The CIDOC CRM—an Ontological Approach to Semantic Interoperability of Metadata. AI Magazine, 24(3), 75–92.

Fennica (14.6.2021). Fennica Linked Data: https://www.kiwi.fi/display/Datacatalog/Fennica+Linked+Data

Gardiner, E., & Musto, R. G. (2015). The Digital Humanities: A Primer for Students and Scholars. Cambridge University Press. https://doi.org/10.1017/CBO9781139003865

Colab (14.6.2021). Google Colab -palvelu: https://colab.research.google.com/notebooks/intro.ipyn

Heath, T., & Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space. Synthesis Lectures on the Semantic Web: Theory and Technology, 1(1), 1-136. https://doi.org/10.2200/S00334ED1V01Y201102WBE001

HISTO (14.6.2021). Historiaontologia HISTO:n kotisivu: https://seco.cs.aalto.fi/ontologies/histo/

Hyvönen, E., Tuominen, J., Alonen, M., & Mäkelä, E. (2014). Linked Data Finland: A 7-star Model and Platform for Publishing and Re-using Linked Datasets. Teoksessa The Semantic Web: ESWC 2014 Satellite Events, Revised Selected Papers (pp. 226–230). Springer. https://doi.org/10.1007/978-3-319-11955-7_24

Hyvönen, E. (2018). Semanttinen web. Linkitetyn avoimen datan käsikirja. Gaudeamus.

Hyvönen, E. (2020a). Using the Semantic Web in Digital Humanities: Shift from Data Publishing to Data-analysis and Serendipitous Knowledge Discovery. Semantic Web, 11(1), 187–193. https://doi.org/10.3233/sw-190386

Hyvönen, E. (2020b). Linked Open Data Infrastructure for Digital Humanities in Finland. DHN 2020 Digital Humanities in the Nordic Countries. Teoksessa Proceedings of the Digital Humanities in the Nordic Countries 5th Conference (pp. 254–259). CEUR Workshop Proceedings, Vol. 2612. http://ceur-ws.org/Vol-2612/

Hyvönen, E. (2021). Digital Humanities on the Semantic Web: Sampo Model and Portal Series. Submitted for peer-review. Pre-print: https://seco.cs.aalto.fi/publications/2021/hyvonen-sampo-model-2021.pdf

Hyvönen, E. (2021). Sammon taontaa semanttisessa webissä. Tekniikan Waiheita, 39(2), 87–105.

https://doi.org/10.33355/tw.102864

Hyvönen, E., Ikkala, E. & Tuominen, J. (2016). Linked Data Brokering Service for Historical Places and Maps. Teoksessa Proceedings of the 1st Workshop on Humanities in the Semantic Web (WHiSe) (pp. 39–52). CEUR Workshop Proceedings, Vol 1608. http://ceur-ws.org/Vol-1608/

Hyvönen, E., Leskinen, P., Heino, E., Tuominen, J., & Sirola, L. (2017). Reassembling and Enriching the Life Stories in Printed Biographical Registers: Norssi High School Alumni on the Semantic Web. Teoksessa J. Gracia, F. Bond, J. McCrae, P. Buitelaar, C. Chiarcos, & S. Hellmann (eds.), Language, Data, and Knowledge (pp. 113–119). LDK 2017. Lecture Notes in Computer Science, vol 10318. Springer. https://link.springer.com/chapter/10.1007/978-3-319-59888-8_9

Hyvönen, E., Leskinen, P., Tamper, M., Rantala, H., Ikkala, E., Tuominen, J., & Keravuori, K. (2019). BiographySampo – Publishing and Enriching Biographies on the Semantic Web for Digital Humanities Research. Teoksessa P. Hitzler et al. (eds.), The Semantic Web (pp. 574-589). ESWC 2019. Lecture Notes in Computer Science, vol 11503. Springer. https://doi.org/10.1007/978-3-030-21348-0_37

Hyvönen, E., & Rantala, H. (2021). Knowledge-based Relation Discovery in Cultural Heritage Knowledge Graphs. Digital Scholarship in the Humanities (DSH). Accepted. Pre-print: https://seco.cs.aalto.fi/publications/2021/hyvonen-rantala-dsh-2021.pdf

Ikkala, E., Hyvönen, E., Rantala, H., & Koho, M. (2021). Sampo-UI: A Full Stack JavaScript Framework for Developing Semantic Portal User Interfaces. Semantic Web, Pre-press. https://doi.org/10.3233/SW-210428

InTaVia (13.9.2021). Projektin 2020–2022 kotisivut: https://seco.cs.aalto.fi/projects/intavia/

Jupyter (14.6.2021). Jupyter Notebooks: https://jupyter.org

Kansallisbiografia (14.6.2021). Käytettävissä vuodesta 1997 alkaen osoitteessa: https://kansallisbiografia.fi/

Kirjasampo (14.6.2021). Käytettävissä osoitteessa: https://www.kirjasampo.fi/

Kulttuurisampo (14.6.2021). Kulttuurisampo-projektin kotisivu: https://seco.cs.aalto.fi/applications/kulttuurisampo/

Klinge, M. (toim.) (2008). Suomen kansallisbiografia 1–10. Suomalaisen Kirjallisuuden Seura, 2003–2008.

Koltay, T. (2015). Data literacy for researchers and data librarians. Journal of Librarianship and Information Science, 49(1), 3–14. https://doi.org/10.1177/0961000615616450

Lakisampo (14.6.2021). Lakisampo-projektin kotisivu: https://seco.cs.aalto.fi/projects/lakisampo/

LDF (4.6.2021) Linked Data Finland -palvelualusta osoitteessa: https://ldf.fi. Biografiasammon datapalvelu, sen dokumentointi ja SPARQL-palvelupiste löytyvät sivulta: https://www.ldf.fi/dataset/nbf

Leskinen, P., & Hyvönen, E. (2019). Extracting Genealogical Networks of Linked Data from Biographical Texts. Teoksessa P. Hitzler (eds.), The Semantic Web: ESWC 2019 Satellite Events (pp. 121–125). Springer. https://doi.org/10.1007/978-3-030-32327-1_24

Leskinen, P., Hyvönen, E., & Jouni Tuominen, J. (2017). Analyzing and Visualizing Prosopographical Linked Data Based on Biographies. Teoksessa A. Fokkens et al. (eds.), Proceedings of the Second Conference on Biographical Data in a Digital World 2017 (BD2017) (pp. 39−44). CEUR Workshop Proceedings, Vol. 2119. http://ceur-ws.org/Vol-2119/

Leskinen, P., Miyakita, G., Koho, M., & Hyvönen, E. (2018). Combining Faceted Search with Data-analytic Visualizations on Top of a SPARQL Endpoint. Teoksessa V. Ivanova et al. (eds.), Proceedings of the Fourth International Workshop on Visualization and Interaction for Ontologies and Linked Data co-located with the 17th International Semantic Web Conference (ISWC 2018) (pp. 53-63). CEUR Workshop Proceedings, Vol. 2187. http://ceur-ws.org/Vol-2187/

LODI4DH (14.6.2021). Linked Open Data Infrastructure for Digital Humanities -hankkeen kotisivu: http://seco.cs.aalto.fi/projects/lodi4dh

Löytösampo (14.6.2021). Löytösampo-projektin kotisivu: https://seco.cs.aalto.fi/projects/sualt/

Marchionini, G. (2006). Exploratory Search: from Finding to Understanding. Communications of the ACM, 49(4), 41–46. https://doi.org/10.1145/1121949.1121979

MMM (14.6.2021) Mapping Manuscript Micrations -projektin kotisivu: https://seco.cs.aalto.fi/projects/mmm/

Moretti, F. (2013). Distant Reading. Verso Books.

Mäkelä, E., Lagus, K., Lahti, L., Säily, T., Tolonen, M., Hämäläinen, M, . . . Nevalainen, T. (2020). Wrangling with Non-standard Data. Teoksessa S. Reinsone et al. (eds.), Proceedings of the Digital Humanities in the Nordic Countries 5th Conference (pp. 81-96). CEUR Workshop Proceedings, Vol. 2612. http://ceur-ws.org/Vol-2612/

NDB (14.6.2021). Neu Deutsche Biografie. Palvelu osoitteessa: https://www.ndb.badw-muenchen.de/

Noy, N., Gao, Y., Jain, A., Narayanan, A., Patterson, A., & Taylor, J. (2019). Industry-scale knowledge graphs: lessons and challenges. Communications of the ACM, 62(8), 36–43. https://doi.org/10.1145/3331166

Nimisampo (14.6.2021). Nimisampo-projektin kotisivu: https://seco.cs.aalto.fi/projects/nimisampo/

ODNB (14.6.2021). Oxford Dictionary of National Biography -palvelu: http://global.oup.com/oxforddnb/info

Parlamenttisampo (14.6.2021). Parlamenttisampo-hankkeen kotisivu: https://seco.cs.aalto.fi/projects/semparl/

Pease, A., Colton, S., Ramezani, R., Charnley, J., & Reed, K. (2013). A discussion on serendipity on creative systems. Teoksessa Proceedings of the Fourth International Conference on Computational Creativity, ICCC 2013 (pp. 64–71). University of Sydney. http://www.computationalcreativity.net/iccc2013/download/iccc2013-pease-et-al.pdf

Rietveld, L., & Hoekstra, R. (2017). The YASGUI Family of SPARQL Clients. Semantic Web, 8(3), 373–383. https://doi.org/10.3233/SW-150197

RLL (14.6.2021). LetterSampo-projektin kotisivu: https://seco.cs.aalto.fi/projects/rrl/

Sampo-portaalit (14.6.2021). Lisätietoa Sampo-portaaleista ja videoita: https://seco.cs.aalto.fi/applications/sampo/

Semparl-projekti (14.9.2021). Lisätietoa Semanttinen parlamentti -projektista: https://seco.cs.aalto.fi/projects/semparl/

Severi-projekti (13.9.2021). Projektin 2016–2018 kotisivut: https://seco.cs.aalto.fi/projects/severi/

SKT (14.6.2021). J. V. Snellman kootut teokset -verkkopalvelu: http://snellman.kootutteokset.fi/

Sotasampo (14.6.2021). Sotasampo-projektin kotisivu: https://seco.cs.aalto.fi/projects/sotasampo/

Sotasurmat (14..6.2021). Sotasurmat 1914–1922 -projektin kotisivu: https://seco.cs.aalto.fi/projects/sotasurmat-1914-1922/

Staab, S., & Studer, R. (2010). Handbook on Ontologies (2nd edition). Springer.

SBL (14.6.2021). Svenskt Biografiskt Lexikon -palvelu osoitteessa: https://sok.riksarkivet.se/Sbl/Start.aspx?lang=en

Tamper, M., Leskinen, P., Apajalahti, K., & Hyvönen, E. (2018). Using Biographical Texts as Linked Data for Prosopographical Research and Applications. Teoksessa M. Ioannides et al. (eds.), Digital Heritage. Progress in Cultural Heritage: Documentation, Preservation, and Protection (pp. 125-137). EuroMed 2018. Lecture Notes in Computer Science, vol 11196. Springer. https://doi.org/10.1007/978-3-030-01762-0_110

Tamper, M., Leskinen, P:, Hyvönen, E., Valjus, R., & Keravuori, K. (2021). Analyzing Biography Collections Historiographically as Linked Data: Case National Biography of Finland. Semantic Web, forth-coming. Pre-print: https://seco.cs.aalto.fi/publications/2021/tamper-et-al-bs-2021.pdf

Tunkelang, D. (2009). Faceted Search. Synthesis Lectures on Information Concepts, Retrieval, and Services. Morgan-Claypool. https://doi.org/10.2200/S00190ED1V01Y200904ICR005

Tuominen, J., Hyvönen, E. & Leskinen, P. (2018). Bio CRM: A Data Model for Representing Biographical Data for Prosopographical Research. Teoksessa A. Fokkens et al. (eds.), Proceedings of the Second Conference on Biographical Data in a Digital World 2017 (BD2017) (pp. 59-66). CEUR Workshop Proceedings, Vol. 2119. http://ceur-ws.org/Vol-2119/

Tzitzikas, Y., Manolis, N. & Papadakos, P. (2017). Faceted exploration of RDF/S datasets: a survey. Journal of Intelligent Information Systems, 48(2), 329–364. https://doi.org/10.1007/s10844-016-0413-8

ULAN (14.6.2021). Union List of Artist Names Online: https://www.getty.edu/research/tools/vocabularies/ulan/

Université du Luxembourg (13.9.2021). Digital source criticism: https://ranke2.uni.lu/define-dsc/

Verboven, K., Carlier, M. & Dumolyn, J. (2007). A Short Manual to the Art of Prosopography. Teoksessa K. S. B. Keats-Rohan (ed.), Prosopography Approaches and Applications. A Handbook (pp. 35-70). Oxford, Unit for Prosopographical Research (Linacre College).

W3C (14.6.2021). Semanttisen webin standardit, W3C: https://www.w3.org/standards/semanticweb/

Warren, C. (2018). Historiography’s Two Voices: Data Infrastructure and History at Scale in the Oxford Dictionary of National Biography (ODNB). Journal of Cultural Analytics, 3(1). https://doi.org/10.22148/16.028

Warren, C., Shore, D., Otis, J., Wang, L, Finegold, M., & Shalizi, C. (2016). Six Degrees of Francis Bacon: A Statistical Method for Reconstructing Large Historical Social Networks. Digital Humanities Quarterly, 10(3). http://www.digitalhumanities.org/dhq/vol/10/3/000244/000244.html

Tiedostolataukset

Julkaistu

2021-11-05

Viittaaminen

Hyvönen, E., Leskinen, P., Tamper, M., Rantala, H., Ikkala, E., Tuominen, J., & Keravuori, K. (2021). Biografiasampo yhdistää ja rikastaa suomalaiset elämäkerrat linkitettynä datana semanttisessa webissä. Informaatiotutkimus, 40(3), 346–368. https://doi.org/10.23978/inf.107948