Tilaa Lehti!

Tekstianalyysityökalut auttavat löytämään tietomassasta uutisia

Osaamisen puute kuitenkin estää työkalujen käyttöä. Iltalehden tutkivan toimittajan Jarno Liskin mukaan uutinen syntyy, kun aineiston herättämään kysymykseen löytyy vastaus perinteisen journalismin keinoin.

Näkökulmat

Jyväskylän yliopiston tutkimusprojektissa selvitettiin hyödyllisimmät apuvälineet asiakirja-aineistojen uutiskäytössä. Tutkimus kartoitti ilmaisia ja nopeakäyttöisiä ohjelmistoja, joilla voi analysoida isoja tekstimassoja.

Viranomaiset tuottavat valtavan määrän asiakirjoja, raportteja ja selvityksiä, joihin hautautuu journalistisesti kiinnostavia aiheita. Viranomaisaineistojen lisäksi muusta avoimesti saatavasta datasta pystyisi vertailevilla analyyseilla tuottamaan uutisarvoista tietoa. Tällaista työtä ei kuitenkaan Suomessa vielä juurikaan tehdä, vaan analyysityökalujen mahdollisuuksia alihyödynnetään varsinkin pienissä toimituksissa.

Tutkimuksen vertailussa uutistyöhön soveltui ilmaisohjelmista parhaiten Voyant Tools, jonka käyttö ei vaadi erityisosaamista. Sen tekstianalyysityökaluista keskeisimpiä ovat sanapilvi, ilmenemiskäyrä ja konkordanssihaku.

Sanapilvi visualisoi sanojen yleisyyden ja niiden sijainnin aineistossa sekä sen, mitkä sanat esiintyvät yleensä toistensa läheisyydessä. Sanan ilmenemiskäyrä tekee sanojen esiintymisestä visuaalisia esityksiä. Jos aineistossa on paikannimiä, ilmenemiskäyrä näyttää niiden sijoittumisen kartalle yleisyyden perusteella.

”Datajournalismissa tehdään liian paljon sitä, että pullautetaan ohjelmistolla jokin tulos ja tarjoillaan se ulos journalistisena lopputuotteena.”

Konkordanssihaku näyttää yleisimpien sanojen oikealla ja vasemmalla puolella olevat sanat. Se auttaa löytämään asiakirjoista kohtia, joissa sanat esiintyvät etsityssä asiayhteydessä.

Yhteiskunnallisesti merkittäviä tietoja jää piiloon kahdesta syystä: joko aineistoa ei ole saatavilla tai sitä on liikaa. Useat viime aikojen isoista skuupeista ovat saaneet alkunsa asiakirjatiedoista, jotka olisivat olleet muidenkin medioiden saatavilla, jos ne olisi löydetty.

Tekstianalyysityökalut voi nähdä eräänlaisena datajournalismin ”kevytversiona”. Ne madaltavat laajojen aineistojen analyysin kynnystä niiden joukossa, joille excel-funktiot tai muut enemmän osaamista vaativat koneavusteiset analyysimuodot ovat vaikeita tai aikaa vieviä.

Analyysityökalujen käyttöönotossa kaivattaisiin rohkeutta kokeilla uusia työmenetelmiä oman mukavuusalueen ulkopuolelta. Media-alan tutkimussäätiön rahoittamassa jatkohankkeessa jalkautetaan tekstianalyysityökaluja alue- ja paikallislehtien arkeen.

Myös tekstianalyysiin perustuvassa asiakirjajournalismissa ratkaisevaa on kyky oivaltaa olennaiset kysymykset, kuten perinteisessäkin journalismissa.

Iltalehden tutkiva journalisti Jarno Liski, mitä hyötyä helppokäyttöisistä tekstianalyysityökaluista on journalistisessa työssä?

– Tutkivat journalistit törmäävät valtaviin aineistoihin, joiden läpikäyminen lukemalla on mahdotonta. Tällaisia gigatavujen settejä voivat olla esimerkiksi tietovuotoaineistot tai avoimista lähteistä kerätty data. Tekstianalyysityökaluilla voi saada apua sen rajaamiseen, mitä kannattaa lukea tarkemmin.

  • FAKTA
  • Tekijä: Jarno Liski
  • Kokemus: Työskennellyt Iltalehden tutkivana journalistina vuodesta 2020. Aiemmin hän työskenteli muun muassa freelance-toimittajana, Ylessä toimittajana ja uutispäällikkönä sekä Jyväskylän ylioppilaslehden päätoimittajana vuosina 2011–2013. Liski on palkittu Suomen Kuvalehden journalistipalkinnolla vuonna 2021 sekä useilla tutkivan journalismin palkinnoilla. Hän on koulutukseltaan humanististen tieteiden kandidaatti Jyväskylän yliopiston journalistiikasta.

Mitä tekstianalyysityökaluilla kannattaa etsiä? 

– Journalistinen kysymyksenasettelu on itsellänikin aluksi useammin väärä kuin oikea. On tyypillistä, että juttuidea syntyy datajournalismin keinoin ja varsinainen juttu perinteisin journalismin keinoin. Eli aineistosta nousee esiin kysymys, miksi tämä asia on tällä tavalla. 

– Näiden onnellisten sattumusten todennäköisyyttä voi kasvattaa analyysityökalujen avulla, kun laajoja aineistoja pystyy katsomaan useasta eri vinkkelistä. Datajournalismissa tehdään liian paljon sitä, että pullautetaan ohjelmistolla jokin tulos ja tarjoillaan se ulos journalistisena lopputuotteena. 

Kerro käytännön esimerkki? 

– Tutkiessani vaaliraha-aineistoa klikkailin sitä eri asentoihin, jolloin esiin pomppasi vuosia myöhässä jätettyjä ilmoituksia. Aloin ihmetellä mihin tämä liittyi. Kysymyksistä syntyi skuuppi siitä, miten Turun toriparkin taustalla olevat kiinteistösijoittajat ovat olleet kokoomuksen Varsinais-Suomen piirin merkittävin puolueen ulkopuolinen tukija. 

Miten analyysityökalun eri näkymiä voi hyödyntää?

– Sanapilvi antaa yleiskuvan siitä, millaisia asioita aineistossa painottuu. Korostuvien sanojen ympäristöjä voi katsoa sitten tarkemmin konkordanssihaulla. Sitä kautta voi löytyä aineiston suuaukko, josta pääsee sukeltamaan varsinaiseen kaninkoloon.

Riittävätkö valmiit ilmaistyökalut, vai pitääkö tutkivan journalistin osata koodata?

– Yleissoftillakin voi päästä kohtalaisen pitkälle. Jos puuhaa datajournalismin parissa, niin minun mielestäni pitäisi osata sen verran jotain ohjelmointikieltä, että osaa kommunikoida journalistisen selvitystarpeensa koodareiden kielellä. 

Kuinka pitkälle uskot analyysityökalujen kehittyvän?

– Uskon, että tekoälyn kehittymisen myötä työkalut oppivat löytämään uutisarvoisia asiayhteyksiä. Nythän tarvitaan vielä ihminen varmistamaan, että koneen löytämä yhteys on uutinen. Jos tekoäly lukee suomalaisten lehtien kaikki digitoidut numerot, niin eiköhän sille synny käsitys siitä, millaiset asiayhteydet missäkin kontekstissa ovat uutisia. 

– En väitä, että tietokoneilla voisi korvata tutkivat journalistit, mutta väitän, että koneet pystyvät tekemään tulevaisuudessa valtaosan siitä, mihin nyt käytämme työaikaamme.

Lisää aiheesta

Uusin lehti

Tilaa uutiskirje

Varmista, että pysyt kärryillä, ja tilaa Suomen Lehdistön uutiskirje. Viikoittaisessa kirjeessä kerromme media-alan uusista kokeiluista, hyvistä käytännöistä, ilmiöistä ja sen, missä nyt mennään.