Avoimen saatavuuden käsite liittyi pitkään lähinnä julkaisuihin. 1990-luvulla käynnistyneen Open access -liikkeen päämääränä oli, että kaikilla olisi vapaa pääsy tieteellisiin teksteihin
Avoimen tieteen osa-alueista tutkimusdatan avoimuus on noussut julkaisujen ohella vahvimmin esiin. Datan tallentaminen ja avaaminen mahdollistaa sen uudelleenkäytön esim. vertailevassa tutkimuksessa tai aikasarjojen tuottamisessa. Aineistojen avaaminen parantaa myös tutkimuksen laatua, sillä kukapa haluaisi avata toisille epämääräiseltä näyttävää dataa. Opetus- ja kulttuuriministeriön käynnistämässä Avoin tiede ja tutkimus -hankkeessa on ollut useita projekteja ja työryhmiä datapalvelujen ja dataan liittyvän tiedonhallinnan kehittämiseen. ATT-hankkeen tavoitteena on, että uusista data-aineistoista on lisensoitu 25% vuonna 2017, 30% vuonna 2018 ja 50% vuonna 2020, ja niiden metatiedot löytyvät kansallisista metatietokatalogeista
Myös elinkeinoelämä on kiinnostunut datasta, joskin tässä data on käsitettävä tutkimusdataa laajemmin, esim. kuluttajiin liittyvänä tietona. Google-haku jo tutuksi tulleesta Clive Humbyn lausahduksesta
Avoimen datan kaudella tieteellisiin lehtiin kohdistuu uusia odotuksia. Niiden pitäisi ottaa tutkimusdata huomioon sekä artikkelien valinnassa, refereeohjeissa ja viittausohjeissa. Maailmalla on syntynyt erityisiä datalehtiä
Tieteellisten seurain valtuuskunta, joka tarjoaa julkaisupalveluja jäsenseurojensa lehdille ja monografiasarjoille, sekä suomalaisia tiedekustantajia edustava Suomen tiedekustantajien liitto, päättivät syksyllä 2016 käynnistää keskustelun siitä, miten tieteellisten lehtien olisi hyvä muuttaa käytäntöjään jotta tutkimusdatan linkittäminen artikkeleihin vakiintuisi osaksi kotimaista tiedejulkaisemista. Tieteelliset lehdet ja tutkimusdata -seminaari järjestettiin 1.2.2017 ja sinne pyydettiin puheenvuorot Suomen Akatemialta tutkimusrahoittajan näkökulmasta, eri aloja edustavilta tutkijoilta ja lehdiltä sekä data-arkistoilta ja -palveluilta. Seminaariin osallistui 71 henkilöä, lehtien lisäksi myös kirjastojen henkilökuntaa.
Johanna Lilja totesi päivän avauspuheessa, että vaikka datan tallentaminen on tavoitteellistettu ja vaikka datanhallintaa sujuvoittamaan on kehitetty työkaluja, tieteenteon arki perustuu kuitenkin monilla aloilla edelleen perinteiseen yksittäisten tutkijoiden tai tutkimusryhmien puurtamiseen, jonka tuloksiin pääsee tutustumaan vain tieteellisen julkaisun kautta. Kysymyksiä ja epätietoisuutta on vielä paljon. Hän viittasi omaan tutkijankoulutukseensa Tampereen yliopiston informaatiotutkimuksen alalla vuosina 2006–2011. Vaikka Yhteiskuntatieteellisen tietoarkiston palveluita jatko-opiskelijoille jo tuolloin esiteltiinkin, ei tutkijankoulutukseen kuulunut datanhallinnan käytännön taitojen opetusta. Hän arveli, että muutkin tutkijat kokevat vielä olevansa datanhallinnassa epämukavuusalueellaan erityisesti humanistisissa tieteissä, joissa dataa ei tuoteta itse. Tällä hetkellä koulutettavat jatko-opiskelijat jo todennäköisesti kasvavat datan avaamisen kulttuuriin, mutta vanhemmille tutkijoille nämä kysymykset eivät ole itsestään selviä.
Päivän esitykset aloitti Suomen Akatemian tiedeasiantuntija Jyrki Hakapää. Suomen Akatemia on vuodesta 2014 alkaen kehottanut tutkijoita tallentamaan datansa oman tieteenalansa kannalta tärkeään kansalliseen tai kansainväliseen arkistoon tai tallennuspalveluun ja avaamaan sen, jos se vain on mahdollista. Viime syksyn haussa rahoituksen hakijoilta edellytettiin ensimmäistä kertaa aineistonhallintasuunnitelman liittämistä hakemukseen. Suunnitelmassa kerrotaan, millaista tutkimusaineistoa hankkeessa syntyy, mihin se tallennetaan ja voidaanko se avata. Tutkijan vastuulla on arvioida avoimuuteen liittyvät mahdolliset rajoitukset ja esittää suunnitelmassa perustelut, jos aineistoa ei voi avata.
Muissa aamupäivän esityksissä kuultiin eri tieteenalojen tutkijoiden näkemyksiä datan avaamisesta. Professori Timo Vesala käsitteli ilmakehään ja ekosysteemiin liittyvän datan keräämistä ja jakamista. Hänen kokemuksensa datan avaamisesta olivat pelkästään hyviä, sillä avaaminen oli useimmissa tapauksissa johtanut tiivistyvään kansainväliseen yhteistyöhön ja tarjonnut myös kirjoittajuuksia artikkeleissa, joissa omaa dataa oli hyödynnetty. Keskeinen huolenaihe tutkimusdatan tallentamisessa on kuitenkin metadatan tuottaminen, sillä sen laatu on vaihtelevaa ja joskus se unohtuu kokonaan. Tarvitaan selkeät, yleisiin metadatastandardeihin soveltuvat formaatit ja riittävää ohjeistusta tutkijoille metadatan tuottamisessa. Digitaaliset tunnisteet auttavat linkittämään datan sen tuottaneisiin tutkijoihin ja hälventävät siten tutkijoiden pelkoja tekijänoikeuden menettämisestä.
Kommenttipuheenvuorot Vesalan esitykseen saatiin mikrobiologian ja kuluttajatutkimuksen aloilta. Helsingin yliopiston Elintarvike- ja ympäristötieteiden laitoksen vastuullinen tutkija Sari Timonen kertoi, että geenitutkimuksessa julkaiseminen edellyttää sekvenssien tallentamista keskitettyihin tietokantoihin. Alalla on muutama suuri toimija, joiden tietojärjestelmät on sovitettu yhteen. Tietokantoihin on kehitetty niiden käyttöä helpottavia työkaluja. Timonen otti kantaa myös eettisiin kysymyksiin ja riskeihin, joita sekvenssidatan käyttöön liittyy. Dna paljastaa paljon esimerkiksi ihmisen terveystiedoista, joihin kohdistuva kiinnostus ei ole pelkästään tieteellistä. Sekvenssitietoa yhdistelemällä voidaan luoda myös tuhoisia asioita. Viime kädessä sekvenssitieto kuitenkin lisää ymmärrystämme luonnosta.
Ihmistieteitä edusti seminaarissa kuluttajatutkimus. Tällä alalla kerättävään dataan liittyy vahvasti henkilöiden tietosuoja, joka mm. määrittää, että tietoja saa käyttää vain siihen tarkoitukseen, joka kerättäessä ilmaistaan. Kuluttajatutkimuskeskuksen johtaja Päivi Timonen kertoi, että nämä rajoitukset kuitenkin poistuvat, jos data on anonymisoitu siinä määrin, ettei henkilöä voi tunnistaa. Tällöinkin on huolehdittava siitä, ettei tietoja yhdistelemällä saada selville tutkittavien henkilöllisyyttä.
Lehtien roolia avoimen datan edistämisessä tarkasteltiin niin ikään luonnontieteiden ja ihmistieteiden näkökulmasta. Suomen Metsätieteellisen Seuran toiminnanjohtaja ja Silva Fennica -lehden toimitussihteeri Pekka Nygren esitteli neljä tasoa, joilla lehdet voivat määritellä suhteensa dataan. Tasoluokituksen on laatinut Virginian yliopiston piirissä toimiva Center for Open Science. Nollatasolla lehti on datan avaamisen ja dataan viittaamisen suhteen passiivinen tai enintään rohkaisee kirjoittajiaan tähän. Korkeimmalla eli kolmostasolla lehti ei julkaise artikkeleita, jollei dataa ei ole tallennettu luotettavaan arkistoon ja analyysejä toistettu ennen julkaisemista. Kolmostasolla vaaditaan myös täydellistä läpinäkyvyyttä tutkimukselle tutkimussuunnitelman tallentamisesta alkaen. Nygren totesi, että kolmas taso on vielä aika kaukana tieteenteon arkipäivästä. Välitasojen ratkaisut olivat käytännöllisempiä. Ykköstasolla lehden kuuluu ohjeistaa dataan viittaamiseen ja vaatia kirjoittajaa ilmoittamaan, onko data käytettävissä. Kakkostasolla datan tallentaminen luotettavaan arkistoon ja avaaminen silloin, kun se on mahdollista, on julkaisemisen ehto. Nygren korosti, että lehtien tehtävä ei ole ylläpitää omia data-arkistoja. Center for Open Sciencen tasoluokituskin perustuu siihen, että lehdet käyttävät luotettavia data-arkistoja.
Historiallisen Aikakauskirjan päätoimittaja professori Anu Lahtinen toi kommenttipuheenvuorossaan esiin humanistisen tutkimusdatan erityispiirteitä. Historian alalla data on usein kvalitatiivista, monikielistä ja kansallisesti tai alueellisesti rajattua. Toisin kuin luonnontieteissä, joissa tutkija tuottaa datan itse, historioitsijan aineistot ovat jo kaikkien käytettävissä kirjastoissa ja arkistoissa. Tutkija voi siis tallentaa ainoastaan alkuperäisaineistosta jalostettua dataa, kuten tilastoja tai tietokantoja. Avoimia kysymyksiä vielä ovat, mikä taho vastaa tämän datan säilyttämisestä ja miten siihen viitataan.
Iltapäivän viimeisessä osuudessa esiteltiin erilaisia data-arkistoja ja -palveluita. Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi esitteli Tietoarkistoa, jonka palvelut ovat laajentuneet yhteiskuntatieteellisistä aineistoista kattamaan myös humanistien tutkimusaineistoja. Hän korosti, että monet keskeiset julkaisijat vaativat jo tutkimusdatan tallentamista johonkin tunnettuun data-arkistoon. Tietoarkisto ottaa vastaan monimuotoista aineistoa, tilastollisen datan lisäksi, myös mm. litterointeja, päiväkirjoja ja tutkijan digikuvaamia aineistoja. Tutkija saa arkistosta opastusta jo tutkimuksen alkuvaiheessa. Tietoarkiston palvelut ulottuvat anonymisoinnin tarkastukseen ja metadatan tuottamiseen suomeksi ja englanniksi. Palveluportaali Ailan kautta tutkijat pääsevät etsimään heitä kiinnostavaa dataa.
Jessica Parland-von Essen CSC:ltä esitteli Avoin tiede ja tutkimus -hankkeen puitteissa tuotettua tutkimusaineistojen säilytyspalvelua IDAa, johon Suomen korkeakoulujen ja Suomen Akatemian rahoittamat tutkijat voivat tallentaa dataansa tietyn kiintiön sallimissa rajoissa. IDA vastaa aineistojen pitkäaikaissäilytyksestä. Järjestelmä luo aineistolle pysyvän tunnisteen automaattisesti. CSC on tuottanut myös tutkimusaineistojen hakupalvelun Etsimen, joka mahdollistaa paitsi aineistojen etsimisen eri tietokannoista, kuten Tietoarkistosta ja Kielipankista, myös oman metadatan luomisen ja omien tunnisteiden liittämisen. AVAA- palvelu on julkaisualusta avoimille aineistoille. Parland-von Essen ehdotti, että myös tieteelliset lehdet neuvottelisivat mahdollisuudesta hankkia omaa säilytystilaa IDAsta. Metadatan tuottaminen Etsimen avulla on pääasiassa tutkijan tehtävä, mutta lehdet voisivat ohjeistaa tutkijat kuvailemaan ja tallentamaan aineistonsa.
Lopuksi kuultiin Ari Lukkarisen esitys EUDAT-palvelusta, joka mahdollistaa eri tieteenalojen tutkimusaineistojen varastoinnin, säilytyksen, julkaisemisen ja haun moninaisille toimijoille. EUDAT 2020 on 33 toimijan yhteinen palvelu. Suomesta sen kehittämiseen osallistuu CSC.
Tieteelliset lehdet ja tutkimusdata -teeman ympäriltä syntyi vilkasta keskustelua eri esitysten ja päivän päättäneen paneelin yhteydessä. Suomen tiedekustantajien liitolle esitettiin toivomus, että se ryhtyisi laatimaan kotimaisille lehdille ohjeita ja ideoita tutkimusaineistoihin liittyvistä menettelyistä Center for Open Sciencen tasoluokitusten pohjalta. Liiton sihteeri Raimo Parikka lupasi viedä tämän ehdotuksen liiton hallituksen käsittelyyn.
Keskusteltiin myös, olisiko järkevää toimia Jessica Parland-von Essenin ehdotuksen mukaisesti ja neuvotella opetus- ja kulttuuriministeriön kanssa mahdollisesta omasta tallennustilasta lehdille IDA-palvelussa, vai olisiko parempi, jos lehdet ohjaisivat kirjoittajiaan tallentamaan alakohtaisiin data-arkistoihin. Todettiin, että lehtien omat data-arkistot hajauttaisivat aineistot moniin pieniin erillisiin arkistoihin, jolloin datan löytäminen ja hyödyntäminen kärsii. Myös Suomen Akatemian datalinjaus näyttäisi edellyttävän kansallisten ja kansainvälisten data-arkistojen ja tallennuspalveluitten käyttöä. Kotimaisten lehtien taloudelliset resurssit ovat hyvin niukat ja ne toimivat nytkin pitkälti vapaaehtoistyön varassa. Oman data-arkiston ylläpito ja siihen mahdollisesti liittyvä vastuu metadatan laadusta ja aineiston löytyvyydestä vaatisi osaamista ja henkilöresursseja, joita lehdillä ei tällä hetkellä ole. Todennäköistä onkin, että ainakin humanistiset ja yhteiskuntatieteelliset lehdet tulevat mieluummin ohjaamaan kirjoittajiaan Tietoarkiston palveluihin.
Esitettiin myös ajatus, että kotimaiset tiedelehdet voisivat vaatia kirjoittajiaan tallentamaan aina tutkimusaineistonsa ja avaamaan sen, jos se vain on mahdollista. Nykytilanteessa, jossa datanhallinta ei kaikilla tutkimusaloilla ole vielä arkipäivää, vaatimus kasvattaisi huomattavasti riskiä kirjoittajakunnan menettämisestä. Todettiin, että on olennaista, että datanhallintaan liittyvät kysymykset tulevat ensin kiinteäksi osaksi yliopistotutkijoiden työtä ja osaamista. Lehtien yhteistyö edustamiensa tutkimusalojen opetushenkilökunnan kanssa on myös tärkeää. Datan avaamiseen voisi rohkaista tutkijoita esimerkiksi palkitsemalla ansiokkaimpia artikkeleja, joissa tutkimusaineistot on avattu. Lopuksi ehdotettiin, että edistyksellinen datapolitiikka voitaisiin ottaa myös yhdeksi tekijäksi JUFO-tasoa määriteltäessä. Koska JUFO:sta ei ollut osallistujia paikalla, keskustelu tästä kysymyksestä siirtyi seuraavaan tilaisuuteen.
Tieteellisten lehtien datapäivä tuotti ehkä enemmän kysymyksiä kuin vastauksia. Rohkaisevaa kuitenkin on, että edessä on useita polkuja, joita voi seurata ja ilmassa on paljon hyvää tahtoa datanhallinnan edistämiseksi.
Kiitän Pekka Nygreniä, joka suunnitteli ja järjesti kanssani Tieteelliset lehdet ja tutkimusdata -seminaarin sekä tarkasti ja kommentoi tätä seminaariraporttia ennen sen lähettämistä julkaistavaksi.
Päivän esitykset on linkitetty sivulle