Sanojen rihmat

Kirjastot — Avainsanat: , , , — Matti @ 23:46

Viikonlopun alla julkaistiin Gephi-visualisointityökalun uusi kokeiluversio, ja päätin ottaa asiakseni tutkailla ohjelmaa hieman. Gephi oli minulle nimeltä tuttu, mutten aiemmin ole viitsinyt asentaa sitä koneelleni kun olen arvellut Javalla toteutetun ohjelman olevan kovin resurssisyöppö. No, arveluni osui oikeaan, mutta sopivan pienellä aineistolla viiveet pysyivät siedettävinä.

Tällä kertaa päätin katsoa, millaisia verkostoja Helmet-dumpin tekstimuotoiselle aineistolle annetut asiasanat muodostavat. Kokonaisuudessaan tekstiaineistoa on dumpissa noin 50000 tietuetta. Pilkoin tästä satunnaisotannalla käsiteltäväksi muutamia erikokoisia datasettejä. Tällä kertaa en tarvinnut Python-skriptejä, vaan sain luotua tarvitsemani tiedostot yksinkertaisen XSLT-muunnostiedoston ja UNIX-komentorivityökalujen avulla. Ajoin aluksi koko dumpin tekstiaineiston asiasanat muotoon, jossa kunkin teoksen asiasanat on listattu yhdellä rivillä. Gephiin ladattavat tiedostot syntyivät tästä suuresta tiedostosta rl-työkalun avulla, joka poimii sille annetusta tiedostosta halutun kokoisen satunnaisotannan.

Ohessa kuva kuudensadan tietueen otannasta (korkearesoluutioinen kuva PDF-tiedostona). Kuvassa sinisellä sävyllä korostettu asiasanaryhmä liittyy suomenkieliseen kaunokirjallisuuteen ja keltainen ruotsinkieliseen kaunokirjallisuuteen. Oranssilla on merkitty ruotsinkieliseen tietokirjallisuuteen liittyvät asiasanat ja vihertävällä suomenkielisen tietokirjallisuuden asiasanat. Viivojen paksuus kuvaa sitä, kuinka usein jotkin asiasanat esiintyvät yhdessä. Tähän kuvaan en ole laittanut näkyville, mitkä sanat ovat kyseessä. Täytyy mietiskellä, minkälaiseen kuvaan sanat saisi otettua mukaan, ilman että kuva menee täysin tukkoon. Gephi on melkoisen monipuolinen ohjelma, joten eiköhän sieltä löydy ongelmaan ratkaisu.

Kuudensadan kirjan asiasanojen yhteydet

Runolliset tietueet

Kirjastot — Avainsanat: , , , , — Matti @ 21:06

Muokattu 4.4: Nyt julkaistuja teoksia kuvaavien ympyröiden koko määräytyy teosten lukumäärän logaritmina. Pakkautumisongelma tuntuu helpottavan ja yksityiskohdat säilyvät paremmin. Päivitin esikatselukuvan ja ladattavan PDF-tiedoston.

Jatkoin Helmet-datadumpin pyörittelyä. Istuskelin perjantai-iltapäivän työ/opiskelupaikkani järjestämässä verkostoanalyysi-metodipajassa, josta sain ajatuksen kokeilla SNA-menetelmiä Helmet-aineistoon.

Koska aineisto on melkoisen suuri — satojatuhansia tietueita — mopokonetta ja hermoja säästääkseni päätin ottaa aineistosta jonkin kiinnostavan osajoukon käsiteltäväkseni. Päädyin Suomessa suomeksi tai ruotsiksi julkaistuihin runoihin ja runojen kustantajiin: näin näppitultumalta runoja ei julkaista vuositasolla kovin hurjia määriä ja on mielenkiintoista tietää, mitkä tahot hoitavat tätä julkaisutoimintaa.

Aloitin tarvitsemani aineiston koostamisen ajamalla aiemmin MODS-muotoon saattamastani Helmet-datadumpista XSLT-muunnoksen CSV-taulukkomuotoon, johon tallensin kunkin runoteoksen tekijän, kustantajan ja julkaisuvuoden.
XSLT-muunnoksen synnyttämät taulukot eivät olleet suoralta käsin käyttövalmiita, vaan aineistoa joutui siivoilemaan jonkin verran käsin.

Tämän jälkeen järjestelin ja suodatin UNIX-komentorivityökalujen (sort ja unique) avulla tiedoston sellaiseen muotoon, jossa riveillä on kirjailijan nimi, kustantaja ja kyseisen kustantajan kautta julkaistujen teosten lukumäärä. Nyt data oli sellaisessa muodossa, että käytettävissäni oli kaikki ne tiedot, jotka oletin tarvitsevani mielessäni olevan grafiikan toteuttamiseksi koneen avulla.

Datasta syntyi kaavio Python-ohjelmointikielen NetworkX verkostoanalyysipaketin sekä Graphviz -visualisointityökalun suosiollisella avustuksella.

Python-skriptin nielemä tieto näytti tältä:

4 WSOY Töyrylä, Timo
19 WSOY Vaara, Elina
4 WSOY Vala, Katri
5 WSOY Venho, Johanna

…ja skriptin tuottama, DOT-muotoinen tieto kutakuinkin tältä:


"Vaara, Elina" [style=filled, fixedsize=true, height="0.25", width="0.25", shape=circle, role=author, fontsize=1, label="", color=lightgray];
WSOY [width="2.5", style=filled, fontsize=12, fixedsize=true, role=publisher, color=red, height="2.5"];
"Vaara, Elina" -> WSOY [color=gray37, penwidth=4];

Loppu olikin silkkaa automagiaa suurimmaksi osaksi. Latasin DOT-tiedoston Graphviz-ohjelmaan, joka pienen asetustensäätelyn jälkeen lykkäsi ulos haluamani grafiikan. Jahka saan opeteltua Graphviziä lisää, koitan josko saisin mankeloitua esityksen hieman havainnollisempaan muotoon.

Runokustantajat

Kuvassa punaiset ympyrät ovat kustantajia ja harmaat kirjailijoita. Ympyrän koko heijastelee julkaistujen teosten määriä.

Esikatselukuva sisältää vain pienen osan koko grafiikasta — ohessa kuva kokonaisuudessaan PDF-muodossa.

This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.
(c) 2012 Kaukomieli | powered by WordPress with Barecity