Automaattinen asiasanoitus Radio- ja televisio-ohjelmatietokanta Ritvassa

  • Tommi Lehtonen Kansallinen audiovisuaalinen instituutti
  • Juha Piukkula Kansallinen audiovisuaalinen instituutti
Avainsanat: automaattinen sisällönkuvailu [http://www.yso.fi/onto/yso/p27440], asiasanoitus [http://www.yso.fi/onto/yso/p26984], sisällönkuvailu [http://www.yso.fi/onto/yso/p13380], koneoppiminen [http://www.yso.fi/onto/yso/p21846], ohjelmatekstitys [http://www.yso.fi/onto/yso/p25451], muistiorganisaatiot [http://www.yso.fi/onto/yso/p21159], audiovisuaalinen aineisto [http://www.yso.fi/onto/yso/p6545]

Abstrakti

National Audiovisual Institute’s (KAVI) radio and television archive started a joint project with the Finnish broadcasting company (Yle) and the National Library of Finland to develop automated indexing using program subtitles as a source. Project relies on Annif tool originally developed by Osma Suominen. Annif is built upon a combination of existing natural language processing and machine learning tools. It is designed to be multilingual and it can support any subject vocabulary.  Annif can use several different backends. During the spring and summer of 2019, 313 Yle programmes were jointly annotated by KAVI and Yle for Annif testing. Analysis was made using a cross-validation technique. It was noted that television programme may be produced so that the central theme is not mentioned at all.  When a brief programme description was included, the results improved. Results and quality were promising and the project will continue.

Lähdeviitteet

Asiasanastot ja ontologiat (2020). Kansalliskirjasto. Saatavilla: https://www.kiwi.fi/display/Asiasanastotjaontologiat/Yleistietoa+ontologioista [viitattu 11.2.2020]

Facebook Research (2019). fastText/docs/supervised-tutorial.md . Saatavilla: https://github.com/facebookresearch/fastText/blob/master/docs/supervised-tutorial.md [viitattu 22.10.2019]

Finto (2020a). Kansalliskirjasto. Saatavilla: https://finto.fi/yso/fi/ [viitattu 11.2.2020]

Finto (2020b). Kansalliskirjasto. Saatavilla: https://finto.fi/koko/fi/ [viitattu 11.2.2020]

Harju, E., Kataja, J. & Sainio, T. (2018). Kansallinen digitaalinen kirjasto; Loppuraportti hankekaudelta 2014–2017. Helsinki: Opetus- ja kulttuuriministeriö. Noudettu osoitteesta http://urn.fi/URN:ISBN:978-952-263-560-0

Häyrinen, A. (2019) Annif oikeissa töissä. Miten ANNIFia käytetään JYU:n Avoimen tiedon keskuksessa. (2019). Saatavilla: https://www.kiwi.fi/pages/viewpage.action?pageId=132677810&preview=/132677810/138936434/Hayrinen_annif_at_work%5B1%5D.pdf [viitattu 11.11.2019]

Ingwersen, P. & Järvelin, K. (2005). The turn: integration of information seeking and retrieval in context. Dordrecht, The Netherlands: Springer.

Joulin, A., Grave, E., Bojanowski, P. & Mikolov, T. (2017). Bag of tricks for efficient textclassification. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Noudettu osoitteesta http://aclweb.org/anthology/E17-2068

Järvelin, K. & Kekäläinen, J. (2000). Kuinka evaluoida tiedonhakumenetelmiä parhaiden dokumenttien löytämisen kannalta?. Informaatiotutkimus, 19(3), 63-73. Noudettu osoitteesta https://journal.fi/inf/article/view/1612

Kansallinen audiovisuaalinen instituutti (2019a). Saatavilla: http://www.kavi.fi [viitattu 28.10.2019]

Kansallinen audiovisuaalinen instituutti (2019b). RITVA : RTVA:n katselu- ja kuuntelupisteet.

Saatavilla: https://www.rtva.kavi.fi/cms/page/page/info_katselupisteet [viitattu 28.10.2019]

Koskimies, A. (Lokakuu 2017). Kielen tunnistus koneoppimismenetelmällä. Kandidaatintyö. Tampereen teknillinen yliopisto, signaalinkäsittelynlaitos. Noudettu osoitteesta http://URN.fi/URN:NBN:fi:tty-201712142345

Laki sähköisen viestinnän palveluista 7.11.2014/917. Finlex. Saatavilla: https://www.finlex.fi/fi/laki/ajantasa/2014/20140917 [viitattu 11.2.2020].

Leuhu, T. (2014). Sentiment analysis using machine learning. Diplomityö. Tampereen teknillinen yliopisto, Signaalinkäsittelyn ja tietoliikennetekniikan koulutusohjelma. Noudettu osoitteesta http://urn.fi/URN:NBN:fi:tty-201505201399

Medelyan, O. (2009). Human-competitive automatic topic indexing. University of Waikato. Noudettu osoitteesta https://hdl.handle.net/10289/3513

Pedregosa, F. (2013). Isotonic Regression. Saatavilla: http://fa.bianp.net/blog/2013/isotonic-regression/ [viitattu 20.10.2019]

Pouliquen, B., Steinberger, R. & Ignat, C. (2003). Automatic annotation of multilingual textcollections with a conceptual thesaurus. In Proceedings of the Workshop on Ontologies andInformation Extraction at the EUROLAN Conference, Cluj-Napoca, Romania, pp.19–28. Noudettu osoitteesta https://arxiv.org/abs/cs/0609059

Sanastokeskus ry. (2011). Saatavilla: http://www.tsk.fi/tsk/fi/node/267?page=get_id&id=ID40&vocabulary_code=TSKTT [viitattu 11.2.2020]

Sinkkilä, R., Suominen, O. & Hyvönen, E. (2011). Automatic Semantic Subject Indexing of Web Documents in Highly Inflected Languages. The Semantic Web: Research and Applications : 8th Extended Semantic Web Conference, ESWC 2011, Heraklion, Crete, Greece, May 29-June 2, 2011, Proceedings (s. 215-229). Noudettu osoitteesta https://doi.org/10.1007/978-3-642-21034-1_15

Soler Monreal, M.C. & Gil-Leiva, I. (2011). Evaluation of controlled vocabularies by inter-indexer consistency. Information Research, 16(4), paper 502. Saatavilla: http://InformationR.net/ir/16-4/paper502.html [viitattu 17.2.2020]

Suominen, O. (2019a). Annif: DIY automated subject indexing using multiple algorithms. Noudettu osoitteesta http://urn.fi/URN:NBN:fi-fe2019052316853

Suominen, O. (2019b). Backend: nn_ensemble. Saatavilla: https://github.com/NatLibFi/Annif/wiki/Backend%3A-nn_ensemble [viitattu 7. 11 2019]

Suominen, O. (2019c). Annif. Saatavilla: http://annif.org/ [viitattu 30. 10 2019]

Suominen, O. (2019d). Henkilökohtainen tiedonanto Kansalliskirjaston ylläpitämällä #tekoäly-yhteistyö Slack-kanavalla 8.8.2019.

Toepfer, M. & Seifert, C. (2018). Fusion architectures for automatic subject indexing underconcept drift. International Journal on Digital Libraries, 1-21. Saatavilla: https://research.utwente.nl/files/80439235/Toepfer2018_ijdl_subject_indexing_under_concept_drift_preprint.pdf [viitattu 30.10.2019]

Traficom. (1. 3 2019). Ääni- ja tekstitysvelvoite televisio-ohjelmissa. Saatavilla: https://www.traficom.fi/fi/viestinta/tv-ja-radio/aani-ja-tekstitysvelvoite-televisio-ohjelmissa [viitattu 21. 10 2019]

Wahlroos, M. (2013). Indeksointimetatiedon eristäminen ja arviointi. Pro gradu. Helsingin yliopisto, tietojenkäsittelytieteen laitos. Noudettu osoitteesta http://urn.fi/URN:NBN:fi-fe2017112251247

Julkaistu
2020-03-31
Viittaaminen
Lehtonen, T., & Piukkula, J. (2020). Automaattinen asiasanoitus Radio- ja televisio-ohjelmatietokanta Ritvassa. Informaatiotutkimus, 39(1). https://doi.org/10.23978/inf.88107
Osasto
Katsaukset