2014/4
Linkit menneen ja tulevan välillä

PID-hankkeen lyhyt historia

Arkistolaitos säilyttää valtaosaa asiakirjallisesta kulttuuriperinnöstämme ja samalla kehittää tämän ainutlaatuisen aineiston käyttöä ja käytettävyyttä tutkimuksen lähdeaineistona. Sähköiseen tutkimusprosessiin kuuluu olennaisena osana myös sähköinen julkaiseminen, joten arkistolaitos on ryhtynyt selvittämään yhdessä tutkijayhteisön kanssa pysyvien tunnisteiden käyttöönottoa ja viittauskäytäntöjen yhtenäistämistä.

Arkistolaitos asetti 25.9.2012 työryhmän, jonka tehtävänä oli uudistaa erityisesti digitaalisessa muodossa olevien asiakirjojen viittauskäytäntö. Työryhmän tuli määrittää, mitä kontekstitietoja asiakirjoista ja niiden metatiedoista automaattiseen lähdeviitteeseen generoituu.

Työryhmän puheenjohtajana toimi tutkimusjohtaja Päivi Happonen Kansallisarkistosta. Työryhmän jäsenet olivat kehittämispäällikkö Outi Hupaniittu Kansallisarkistosta, FT Anu Lahtinen Turun yliopistosta, kehittämispäällikkö Markus Merenmies Kansallisarkistosta, FT Jessica Parland-von Essen Helsingin yliopistosta, FT Kari-Matti Piilahti Helsingin yliopistosta, professori Kimmo Rentola Turun ja professori Kirsi Vainio-Korhonen Turun yliopistosta. Työryhmän tuli saada työnsä päätökseen 31.5.2013 mennessä.

Varsinaisen työryhmän toiminnan rinnalla arkistolaitos pilotoi lähdeviitepalvelun konseptia keväällä ja kesällä 2013. Dosentti Anu Lahtinen kirjoitti tieteellisen artikkelin käyttämällä arkistolaitoksen digitoituja aineistoja, joille oli luotu pilottiympäristöön lähdeviitteet (sisältäen urn-tunnisteet). Artikkelin herättämää keskustelua PID-tunnisteista käytiin vilkkaasti Arkistolaitoksen järjestämässä ”Lisää tietoa verkossa!” -seminaarissa lokakuussa 2013.

Vuodenvaihteessa tutkijayhteisö kiinnostui PID -kokeilusta uudelleen ja ”Call for Papers” sai kahdeksan aktiivitutkijaa antamaan lupauksen artikkelista ”Ennen ja Nyt” -verkkolehden tähän nyt ilmestyneeseen Pysyvän sähköisen tunnisteen -teemanumeroon. Käytännössä tämä merkitsi vuoden 2014 kuluessa kokeilun laajenemista uudenlaisiin aineistoihin ja samalla huomio kiinnittyi ensimmäistä pilottia enemmän teknisiin toiminnallisuuksiin. Siirryttiin suljetusta testiympäristöstä haastavampaan kenttään eli lähemmäs tutkimuksen reaalimaailmaa, jossa tutkija itse päättää mitä aineistoja hän käyttää.

2012-2013 työryhmä linjasi, että lähdeviitteeseen kuuluva urn-tunniste (PID) kohdistuu tietosisältöön. Konseptissa arkistoaineiston metatiedoista generoituu lähdeviite seuraavalla tavalla:

Indeksoitu aineisto:

Indeksitieto, Signum, Arkistoyksikkö rajavuodet, Arkisto, Säilyttäjä(lyhenne).

Indeksoimaton aineisto:

Signum, Arkistoyksikkö rajavuodet, Arkisto, Säilyttäjä(lyhenne).

Lähdeviitetyöryhmä muotoili viitteen sellaiseksi, että se olisi mahdollisimman käytettävissä oleva. Kaikkien aineistojen lähdeviitteet muotoutuvat samalla periaatteella, joten kyse on kompromissista. Lähtökohtaisesti lähdeviite ei voi toimia yhtä hyvin kaikilla aineistoilla niiden vaihtelevan luonteen ja erilaisten viittaamistraditioiden takia.

Lähdeviitteen tietojen pohjana on arkistolaitoksen Vakka-tietokanta (vuodesta 2016 AHAA-palvelu), joten yksittäisen lähdeviitteen sisältö riippuu siitä, kuinka hyvin aineisto on luetteloitu Vakkaan. Valtaosa aineistosta on edelleen indeksoimatonta, joten suurin osa lähdeviitteistä rakentuu tiedoille, jotka ovat saatavilla vain arkistoyksikön tasolle. Näin ollen lähdeviitteeseen muotoutuvat metatiedot ovat eri tasolla kuin urn-tunniste, sillä urn kohdistuu aina yksittäiseen objektiin (tietosisältö, jonka ilmentymä-jpg:n yhteydessä urn ja lähdeviitteeksi muotoillut metatiedot esitetään).

Koska Vakka ei pysty tuottamaan yksittäisen asiakirjan tai tiedon tasolle ulottuvia metatietoja lähdeviitteeseen, on käyttäjän täydennettävä tietoja. Tämä ei kuitenkaan muuta toimintamallia: tälläkin hetkellä käyttäjä poimii arkistotietokannasta tai arkistoluetteloista tiedot arkistoyksikön tasolle ja tunnistaa itse alemman tason tiedot, jotka lisää lähdeviitteeseen. Digitaaliarkistossa on samasta digitoidusta kohteesta kaksi eri versiota (käyttö-jpg ja tallenne-tiff), joista yleisön käytössä on toinen ja varmuuskopiona toinen. Jos/kun tiedostoformaattien kehityksen takia tai muista syistä tuotetaan myöhemmin uusia käyttökopioita, tunniste säilyy.

PID:n muodostaminen on sekä tekninen että aineistohallinnallinen asia. Tähän asti on kartoitettu tutkimuksen ja tutkijoiden tarpeita, jotka ovat erittäin hyödyllisiä suunniteltaessa PID:n käyttöönottoa.  Kehitystyö siis jatkuu, mutta tässä yhteydessä haluamme lämpimästi kiittää tutkijoita, jotka suostuivat antamaan panoksensa testaajina.

Kehittämispäällikkö Anne Wilenius, Kansallisarkisto