Kaivostoimintaa kirjastossa

Olen jo pitkään ihmetellyt, miksei yksikään kirjastojärjestelmä, jota olen asiakkaan ominaisuudessa käyttänyt, sisällä Amazon-kirjakaupasta tuttua suosittelijajärjestelmää. Kuinka mukavaa olisikaan, kun järjestelmä osaisi suosittaa tuntemattomaksi jääneitä teoksia ja kirjailijoita omien lainaustottumusten mukaan. Amazon-verkkokirjakaupassa suosittelijatoiminto toimii hyvin ja on ainakin allekirjoittaneen kohdalla poikinut monta kirjaheräteostosta.

Elokuun Library Journalin artikkeli Delving into Data palautti mieleen vanhat pohdintani ihanteellisesta näyttöluettelosta, jossa suosittelijajärjestelmä olisi yksi osa. Artikkelissa käsitellään tiedon louhintaa ja kirjastoja.

Tiedon louhinnan avulla voidaan esimerkiksi selvittää, mikä on esimerkiksi kaikkien kirjaston 23-vuotiaiden asiakkaiden suosikkikirja tai vaikkapa mitä kirjallisuutta lukevat Tampereen seudun 33800-postinumeroalueella asuvat asiakkaat. Tarkoituksena on siis yhdistää kaikki käytettävissä oleva data, kuten esimerkiksi teoskohtaiset lainaustiedot, kävijätilastot ja kirjaston asiakasrekisteri yhteen tietovarastoon, josta voidaan erilaisia tilastollisia menetelmiä käyttäen etsiä eri muuttujien välisiä yhtäläisyyksiä. Louhittua tietoa voitaisiin sitten käyttää kirjaston toiminnan kehittämisessä, vaikkapa juuri näyttöluettelon suosittelijatoiminnon pohjana.

Artikkeli herätti mielenkiinnon tutkia aihetta hieman tarkemmin. Scott Nicholson Syrakusan yliopistosta lienee kansainvälisen tiedeyhteisön parhaiten asiaan perehtynyt henkilö. Hänen ideoimansa on myös bibliomining-termi, jolla viitataan tiedon louhintaan kirjastokontekstissa. Uuden termin keksiminen oli tarpeen sillä hakulauseella "data mining" +libraries hakukoneet löytävät pääasiassa viitteitä tiedon louhinnassa käytettyjä ohjelmakirjastoja käsitteleviin sivuihin. Nicholson tekee tutkimustyötänsä tunnetuksi ylläpitämällään www.bibliomining.com-verkkosivustolla, joka on laajin verkosta löytämäni aihetta käsittelevä kokonaisuus.

Nicholson on artikkeleissaan pohtinut aihetta monelta suunnalta, eikä yksityisyyden suoja ole niistä vähäpätöisin. Suosittelijajärjestelmäideaani kypsytellessäni olen pohtinut samoja kysymyksiä, eikä käsittääkseni henkilötietolaki tai muukaan säädös estäisi suomalaisia kirjastoja soveltamasta tiedon louhintaa toiminnassaan. Tietovarantoa rakennettaessa on vain huolehdittava siihen syötettävän datan asianmukaisesta puhdistamisesta kaikesta tiedosta, jonka perusteella voidaan päästä yksittäisten asiakkaiden tasolle. Tiedon louhinnan tarkoituksena on tutkia asiakasryhmien- ei yksittäisten asiakkaiden - käyttäytymistä ja kerätä tietoa, joka voi auttaa asiakkaiden ymmärtämisessä. Käsittääkseni nykyisin kirjastot tuhoavat tietojärjestelmistään lainaustapahtumaan liittyvät tiedot lainatun aineiston tietoja lukuunottamatta kun aineisto palautetaan. Tällöin menetetään tietoa, joka voisi olla arvokasta esimerkiksi suunniteltaessa hankintoja ja kirjaston hallintoa.

Kuten kaikki tiedämme, varsinkin yleisten kirjastojen resurssit ovat niukat, joten olisi hyvin järkevää haalia kokoon kaikki mahdolliset keinot, joiden avulla rajallisten resurssien kohdentamista voitaisiin parantaa. Sekä yleisten että tieteellisten kirjastojen toiminnoista on kerätty tilastotietoa jo varsin pitkän aikaa - lähivuosien tilastot ovat saatavilla vapaasti verkosta (Tieteellisten kirjastojen tilastotietokanta sekä Yleisten kirjastojen tilastotietokanta). Tiedon louhinnalla on kuitenkin tilastotietoon nähden ratkaiseva etu puolellaan: esiin saatava tieto on reaaliaikaista ja mahdollistaa nopean reagoinnin kirjaston toimintaympäristössä tapahtuviin muutoksiin. Esiin voi nousta myös tietoa, jonka pohjalta kirjastot voisivat kehitää kokonaan uusia palveluita, joka puolestaan parantaisi kirjaston asemia tietoyhteiskunnan kansalaisten tiedonlähteenä.