Dataviittaamisen tiekartta tutkijalle

Kirjoittajat

Avainsanat:

dataviittaaminen, data [http://www.yso.fi/onto/yso/p27250], datanhallinta, meritoituminen, bibliometriikka [http://www.yso.fi/onto/yso/p6597], tieteellinen julkaisutoiminta [http://www.yso.fi/onto/yso/p10480]

Abstrakti

Opetus- ja kulttuuriministeriön Avoin tiede ja tutkimus (ATT) -hanke tilasi keväällä 2017 Data-asiain kansalliskomitealta selvityksen tutkimusdataan viittaamisesta. Selvityksen tuloksena julkaistiin huhtikuussa 2018 dataviittaustiekartta suomalaiselle tiedeyhteisölle. Tiekartan tavoitteena on yhdenmukaistaa tutkimusdataan viittaamisen käytäntöjä, parantaa tutkimusdatan viittattavuutta sekä lisätä viittausmääriä.

Tampereen teknillisen yliopiston kirjasto, Data-asiain kansalliskomitea ja Suomen yliopistojen rehtorineuvosto UNIFI ry järjestivät 18.5. Tampereella seminaarin Tutkimusdataan viittaaminen: tiekartasta käytäntöön -keskustelutilaisuuden dataviittaustiekartan toimeenpanosta.

Tässä kirjoituksessa käymme läpi tutkimusdataan viittaamisen periaatteita ja käytäntöjä tiekartan ja keskustelutilaisuuden pohjalta. Tavoitteenamme on tehdä aihepiiriä tutuksi ja ymmärrettäväksi erityisesti tutkijoille.

Osasto
Katsaukset

Julkaistu

2018-07-05

Viittaaminen

Laine, H., & Nykyri, S. (2018). Dataviittaamisen tiekartta tutkijalle. Informaatiotutkimus, 37(2). https://doi.org/10.23978/inf.72999

Opetus- ja kulttuuriministeriön Avoin tiede ja tutkimus (ATT) -hanke tilasi keväällä 2017 Data-asiain kansalliskomitealta selvityksen tutkimusdataan viittaamisesta. Selvityksen tuloksena julkaistiin huhtikuussa 2018 dataviittaustiekartta suomalaiselle tiedeyhteisölle [1]. Tiekartan tavoitteena on yhdenmukaistaa tutkimusdataan viittaamisen käytäntöjä, parantaa tutkimusdatan viitattavuutta sekä lisätä viittausmääriä.

Tampereen teknillisen yliopiston kirjasto, Data-asiain kansalliskomitea ja Suomen yliopistojen rehtorineuvosto UNIFI ry järjestivät 18.5. Tampereella Tutkimusdataan viittaaminen: tiekartasta käytäntöön -seminaarin dataviittaustiekartan toimeenpanosta.1

Tässä kirjoituksessa käymme läpi tutkimusdataan viittaamisen periaatteita ja käytäntöjä tiekartan ja seminaarin pohjalta. Tavoitteenamme on tehdä aihepiiriä tutuksi ja ymmärrettäväksi erityisesti tutkijoille.

Dataan viittaaminen tukee avointa tiedettä

Dataan viittaamisen yhteys datan uudelleen käyttöön on tehnyt siitä lupaavan välineen tieteen avoimuuden edistämisessä. Avoin tiede on liike, joka edistää tutkimustuotteiden nykyistä laajempaa saatavuutta ja käytettävyyttä. Tutkimusdata on yhdessä tutkimusjulkaisujen kanssa merkittävin tutkimustuote.

Tutkimusdataan viittaamisen tapojen vakiintumisen ja yleistymisen uskotaan yleisesti lisäävän vastuullisen aineistonhallinnan houkuttelevuutta tutkijoille. Vastuulliseen hallintaan kuuluu datan kuvaileminen tavalla, joka tekee sen ymmärrettäväksi muillekin kuin sen tuottamiseen osallistuneille tutkijoille, sekä datan säilyvyyden turvaaminen luotettavilla tallennusratkaisuilla.

Kirjallisuusviittauksiin perustuvat bibliometriset indikaattorit ovat nostaneet vertaisarvioidut tutkimusjulkaisut tieteellisen meritoitumisen ensisijaiseksi välineeksi. Datasta huolehtimiseen ei tällä hetkellä ole vastaavia kannustimia. Lisääntyessään dataviittaukset mahdollistavat datametriikoiden kehittämisen, jotka puolestaan helpottavat tulevaisuudessa tutkimusdatatuotteiden huomioimista tutkijoiden ja tutkimuksen arvioinnissa.

Tutkijat avainasemassa

Dataviittaustierkartassa tunnistetaan dataviittauskäytäntöjen kannalta viisi tärkeää sidosryhmää: tutkijat (researchers), datan säilyttäjät (data repositories), tutkimusinstituutiot (research institutions), julkaisijat (publishers) sekä päättäjät (policy makers). Jokaisella sidosryhmällä on tärkeä roolinsa tutkimusdataan viittaamisen ekosysteemissä ja siksi tiekartan suositusten yhteydessä nimetään aina sidosryhmä, jonka vastuulla kyseisen suosituksen toteuttaminen on.

Tutkijoiden rooli ekosysteemissä on ratkaiseva. Ilman tutkijoita järjestelmä on moottori ilman polttoainetta. Tutkijoiden vastuu dataviittausekosysteemin toiminnassa voidaan jakaa kahteen pääluokkaan: oman datan viitattavuudesta huolehtimiseen sekä muiden dataan viittaamiseen vastuullisesti ja asianmukaisesti.

Datan säilyttäjät, tutkimusinstituutiot, päättäjät ja julkaisijat synnyttävät linjauksillaan ja palveluillaan dataviittausinfrastruktuurin. Infrastruktuuri rakentuu muun muassa päättäjien tarjoamasta rahoituksesta, tutkimusinstituutioiden ja julkaisijoiden datapolitiikoista, joissa määritetään datasta huolehtimisen tavat, sekä datan säilyttäjien tarjoamista pysyvistä tunnisteista ja datan kuvailusivuista (eräänlainen datakokonaisuuden profiilisivu).

Dataviitteen merkitys ja sisältö

Dataan viittaamiseen pätevät samat tutkimuseettiset periaatteet kuin kirjallisuuteen viittaamiseen.

Tunnustuksen antaminen toisten tekemälle tutkimustyölle on yksi tutkijan ammattietiikan tärkeimpiä periaatteita. Muiden työn hyödyntäminen ilman viittaamista on hyvän tieteellisen käytännön rikkomista, vakavimmillaan tutkimusvilppiä. Tutkimuseettisen neuvottelukunnan antamassa hyvää tieteellistä käytäntöä koskevassa ohjeistuksessa todetaan muiden työn tunnustamisesta seuraavasti:

Tutkijat ottavat muiden tutkijoiden työn ja saavutukset asianmukaisella tavalla huomioon niin, että he kunnioittavat muiden tutkijoiden tekemää työtä ja viittaavat heidän julkaisuihinsa asianmukaisella tavalla ja antavat heidän saavutuksilleen niille kuuluvan arvon ja merkityksen omassa tutkimuksessaan ja sen tuloksia julkaistessaan. [2]

Dataviittaustiekartta sisältää suosituksen siitä, mitä tietoja dataviitteeseen tulee sisällyttää. Tärkein tietoelementti on pysyvä tunniste, joko DOI- tai URN-muotoisena. Pysyvä tunniste johtaa oikean data-aineiston äärelle, vaikka sen tallennussijainti muuttuisi vuosien varrella. Pysyvä tunniste myös tekee viittauksesta koneluettavan eli tietokoneelle ymmärrettävän. Viittausten koneluettavuus on edellytys datametriikoiden vaatimalle automatisoidulle tiedonkeruulle.

Pysyvä tunniste voisi periaatteessa yksin riittää viittaukseksi, sillä se toimii linkkinä data-aineiston kuvailusivulle, johon on mahdollista sijoittaa lähes ääretön määrä metatietoja. Ei ole kuitenkaan kohtuullista edellyttää, että vaikkapa tutkimusartikkelin taustalla olevasta näytöstä kiinnostunut klikkaa jokaisen dataviitteen auki saadakseen edes pintapuolisen käsityksen viitatuista aineistoista. Jotta dataviittaus olisi myös ihmisluettava, tarvitaan pysyvän tunnisteen lisäksi muitakin tietoelementtejä: tekijätiedot, aineiston jakelijan, eli data-arkiston johon se on talletettu, aineiston tuottamisen ajankohdan sekä aineiston nimen. Näiden välttämättömien tietoelementtien lisäksi tiekartassa suositellaan mahdollisuuksien mukaan liittämään viittaukseen myös tekijän/tekijöiden ORCID-tunnukset, lisenssistatus, tieto mahdollisesta aineiston saatavuutta rajoittavasta embargo-ajasta, aineiston tiedostomuoto ja versionumero.

FAIR-tutkimusdata on helposti viitattavaa

Tutkimusdataa koskevat FAIR-periaatteet [3] ovat hyödyllinen käsitteellinen työkalu avaamaan tutkimusdataa koskevaa hyvää tieteellistä käytäntöä ja avoimen tieteen mukaista aineistonhallintaa. FAIR on lyhenne, joka tulee englanninkielen sanoista findable (löydettävä), accessible (saatavissa oleva), interoperable (yhteentoimiva) ja reusable (uudelleen käytettävä). Periaatteet on otettu osaksi hyvän tieteellisen käytännön määritelmää esimerkiksi eurooppalaisten akatemioiden organisaation ALLEAn ohjeistuksessa, jota sovelletaan kaikessa Horisontti 2020 -rahoitusta saaneessa tutkimuksessa [4].

FAIR-periaatteiden mukaan hallinnoituun tutkimusdataan viittaaminen on helppoa. Periaatteet toteutuvat, kun aineistonhallinnassa on huomioitu laadukkaan metadatan tuottaminen, eli datan kuvaileminen, sekä tallentaminen luotettavaan data-arkistoon, jossa data saa pysyvän tunnisteen ja kuvailusivun. Luotettavia ja FAIR-periaatteiden mukaisia palveluja tarjoavat Suomessa esimerkiksi Tietoarkisto ja Tieteen tietotekniikan keskuksen CSC:n Fairdata-palvelukokonaisuus.2

Viitattava data edellyttää datanhallintataitoja tutkimusprosessin alusta lähtien

Ennen kuin FAIR-periaatteet toteutuvat ja data on viitattavissa, on täytynyt tapahtua jo paljon. Kaikki perustuu sille, että tutkija on hallinnut dataansa asianmukaisella tavalla. Voidaankin todeta, että datanhallintataidot ovat nykyään oleellinen osa tutkijataitoja.

Helpoin tapa huolehtia oman tutkimusdatan viitattavuudesta on laatia huolellinen aineistonhallintasuunnitelma heti tutkimushankkeen alussa ja noudattaa sitä.

Datanhallinta käsittää koko tutkimusprosessin elinkaaren ja siinä otetaan huomioon myös datan mahdollinen uudelleen- ja jatkokäyttö. Datanhallintaa onkin suunniteltava jo samassa yhteydessä, kun laaditaan tutkimussuunnitelma, ja monilla tutkimusrahoittajilla datanhallintasuunnitelma on jo pakollinen osa tutkimusrahoitushakemusta.

Datanhallinnan suunnittelun apuvälineeksi on tarjolla työkalu, DMPTuuli, jonka kautta on pääsy niin rahoittajien, yliopistojen omiin, Tietoarkiston kuin kansallisiin ohjeisiin. Tärkeä hyödynnettävä resurssi ovat myös yliopistokirjastojen datanhallinnan asiantuntijat ja laatimansa datanhallintaoppaat.

Aineistonhallinta muodostuu viidestä pääteemasta (ks. tarkemmin SA ja DMPTuuli3):

  1. Aineiston yleiskuvaus ja laatu

  2. Aineiston hallintaan liittyvien eettisten periaatteiden ja lainsäädännön noudattaminen

  3. Aineiston dokumentointi ja meta- eli kuvailutiedot

  4. Tallentaminen ja varmuuskopiointi hankkeen aikana

  5. Aineiston avaaminen ja pitkäaikaissäilytys hankkeen päätyttyä

Näitä kaikkia osa-alueita tulee siis pohtia mahdollisimman varhaisessa vaiheessa tutkimusprosessia ja jo tehtyjä ratkaisuja pitäisi tarkastella ja tarpeen mukaan päivittää prosessin edetessä. Datan viitattavuus pohjautuu hyvään aineistonhallintatapaan.

Lisää tieteenalakohtaista keskustelua tarvitaan

Tutkimusdataan viittaaminen: tiekartasta käytäntöön -tapahtuma sisälsi pienryhmätyöskentelyä kolmen dataviittauksiin liittyvän teeman ympärillä, koskien datatekijyyden määrittelyä, yliopistoissa tuotettavien data-aineistojen metatietojen keruuta sekä viittauskäytäntöjen vaikutusta tutkimuspalveluihin.

Keskusteluissa todettiin, että dataan viittaamisen pullonkaulat ovat luonteeltaan toimintatapoihin liittyviä, eivät teknisiä. Esimerkiksi Tietoarkiston prosessit ovat jo nyt linjassa tiekartan suositusten kanssa4. Merkittävin pullonkaula on viitattavan datan vähäisyys, sillä suurin osa tutkimusdatasta on pirstaloitunut tutkijoiden ja tutkimusryhmien kovalevyille, muistitikuille ja jopa disketeille [5].

Tekijyys ja omistajuus ovat kaksi erillistä käsitettä, jotka sekoittuvat helposti tutkijoiden mielissä. Kumpaankin liittyy avoimia kysymyksiä, jotka edellyttäisivät sekä organisaatio- että tieteenalakohtaista keskustelua. Samoin granulariteettiin, eli siihen millä tarkkuustasolla dataviittaus tulisi kohdistaa aineistokokonaisuuteen, olisi etsittävä kysymyksiä tieteenalayhteisöjen piiristä. Tieteenalakohtaisen keskustelun haasteena on siiloutumisen välttäminen.

Tiekartta liittyy kansainväliseen keskusteluun

Data-asiain kansalliskomitea on kansainvälisen tiedeneuvoston ICSUn datakomitean CODATAn suomalainen jäsenkomitea. Sen kattojärjestönä toimii kotimaisten tiedeakatemioiden kansainvälisiä jäsenyyksiä hoitava yhteistyöelin Suomen Tiedeakatemiat.

CODATA asetti vuonna 2012 työryhmän pohtimaan tutkimusdataan viittaamista. Syntyi Out of Cite, Out of Mind -raportti [6]. Raportti toimi pohjana tiedepoliittisen FORCE11-yhteisön dataviittauksia koskevalle julkilausumalle [7]. Edistääkseen dataviittauskäytäntöjen soveltamista paikallisella tasolla CODATA käynnisti vuonna 2015 dataviittaustyöpajojen sarjan. Syksyllä 2016 Data-asiain kansalliskomitea järjesti sarjan pohjoismaisen dataviittaustyöpajan ATT-hankkeen järjestämän Nordic Open Science Forum -tapahtuman yhteydessä Helsingissä.5

Data-asiain kansalliskomitea asetti ATT-hankkeen tilaamaa dataviittauselvitystä ohjaamaan asiantuntijaryhmän, johon tuli edustajia tiedekirjastoista, yliopistoista sekä data-arkistoista.6 Näkemysten kirjon laajentamiseksi järjestettiin lisäksi avoin sidosryhmätyöpaja. Tiekartan ensimmäinen versio julkaistiin kaikkien vapaasti kommentoitavaksi syksyllä 2017 ja palautteen pohjalta muokattu lopullinen versio huhtikuussa 2018.

Kansainvälisen yhteentoimivuuden varmistamiseksi tiekartta toteutettiin englanninkielisenä. Siinä hyödynnetään laajasti FORCE11-dataviittausperiaatteita. Tiekarttaa voidaan pitää eräänlaisena FORCE11-periaatteiden kansallisen ja käytännön tason soveltamisohjeena.