Tilaa Uutiskirje!

Uutismedia yrittää estää aineistojensa luvatonta käyttöä, mutta vaikeaa se on – ”Ajankohtaiset sisällöt ovat erittäin arvokkaita”

"Emme pysty valvomaan, käytetäänkö aineistojamme esimerkiksi tekoälyn kouluttamiseen", sanoo Kirsi Hakaniemi. EU:n sääntelystä odotetaan tilanteeseen helpostusta.

Crawlerien eli tiedonkerääjäbottien käyntien estäminen medioiden sivuilla on teknisesti vaikeaa. Kuvan ryömijä ei liity asiaan. Kuva: 123rf
Ajankohtaiset

Suomen suurimmat uutismediat kieltävät tekoäly-yhtiöiden käyttämien crawlereiden eli tiedonkerääjäbottien vierailun sivuillaan, mutta kieltojen tehokkuutta on vaikea valvoa.

Sekä Sanoma, Alma Media, Keskisuomalainen että Yle ilmoittavat verkkosivujensa käyttöehdoissa, että niiden sisältöjen käyttö ilman lupaa on kiellettyä. Lisäksi mediat rajoittavat tiedonkerääjäbottien käyntejä listaamalla kielletyt botit verkkosivujensa Robot.txt-tiedostoissa. 

Robot.txt on yleisesti eri internet-sivustoilla käytössä oleva tiedosto, jolla pyritään estämään botteja käyttämästä sivustoa tai tiettyjä osia siitä. Sinne tehtävät kirjaukset ovat kuitenkin lähinnä suosituksia, joita on helppo kiertää.

– Emme pysty valvomaan tai tekemään pistokokeita siitä, käytetäänkö aineistojamme esimerkiksi tekoälyn kouluttamiseen, sanoo Mediakonserni Keskisuomalaisen digijohtaja Kirsi Hakaniemi

Kysymys mediasisältöjen tekijänoikeuksista on tekoälybuumin vuoksi polttava. Tarjotakseen asiakkailleen relevanttia sisältöä ja palveluita tekoäly-yhtiöiden on saatava mahdollisimman paljon tuoretta dataa käyttöönsä. Tällaista hyvälaatuista tekstidataa on nimenomaan uutismedioilla.

Jos tekoäly-yritykset onnistuvat kehittämään palveluita, jotka tuottavat käyttäjälle vaikkapa personoidun uutiskoosteen linkkaamatta alkuperäisiin lähteisiin, se voi olla suuri uhka uutismedian ansaintalogiikalle.

– Pidämme tätä merkittävänä tekijänoikeuskysymyksenä, Hakaniemi sanoo.

”Emme pysty valvomaan tai tekemään pistokokeita siitä, käytetäänkö aineistojamme esimerkiksi tekoälyn kouluttamiseen.”

Sanoma Media Finlandin digikehityksestä ja asiakaskokemuksesta vastaava johtaja Timo Rinne pitää tärkeänä keskustella ja löytää ratkaisuja asiaan nopeasti. Hänestä on olennaista, että kielimallit perustuvat laadukkaaseen ja totuuteen pyrkivään sisältöön. 

– Kauhukuva olisi, että generatiivinen tekoäly opettaa itseään itsensä luomilla sisällöillä ja fakta ja fiktio sekoittuvat, Rinne toteaa. 

Ylen vastuullisen tekoälyn päällikkö Minna Mustakallio sanoo, että mediayritykset voivat vastata tilanteeseen parhaiten kehittämällä myös omia digitaalisia palveluitaan henkilökohtaisemmiksi ja sitä kautta merkityksellisemmiksi käyttäjille.

Toisekseen Mustakallio ei ole täysin vakuuttunut, että linkkipohjainen internet olisi katoamassa ainakaan lähitulevaisuudessa ja ihmiset siirtyisivät käyttämään tekoälyagentteja. 

– Nyt ollaan vaiheessa, jossa kaikenlaista kokeillaan. Vaikka generatiivinen tekoäly luo meille uusia agentteja, niin jostainhan alkuperäisen tiedon pitää edelleen tulla, ja uskon että se tulee linkki-internetistä vielä hyvin pitkään. 

Mustakallio arvioi, että nykyisestä sopimuksettomasta tilasta mennään eteenpäin oikeusjuttujen ja käytännön kokemusten kautta, kun tietoa mediayhtiöiden sisältöjen lisensoinnista tekoäly-yritysten käyttöön alkaa olla saatavilla enemmän. 

Alma Median digijohtaja Tommi Raivisto puolestaan kuvaa tämänhetkistä kehitystä merkittäväksi toimialaa koskevaksi muutokseksi. 

– Ajankohtaiset ja laadukkaat uutismedian sisällöt ovat erittäin arvokkaita sekä kielimallien koulutuksen että tekoälypohjaisten hakukoneiden rakentamisen kannalta. Siksi tekijänoikeuksien suojaaminen ja huomioiminen on jatkossa koko mediateollisuudelle tärkeää, hän sanoo.

”Kauhukuva olisi, että generatiivinen tekoäly opettaa itseään itsensä luomillaan sisällöillä ja fakta ja fiktio sekoittuvat.”

Esimerkiksi The New York Times ja monet muut amerikkalaiset sanomalehdet ovat haastaneet OpenAI:n ja Microsoftin oikeuteen näiden väitetysti hyödynnettyä lehtien journalistisia sisältöjä tekoälyjensä kouluttamiseen ilman lupaa. 

Saksalaiskustantaja Axel Springer taas julkisti jo viime vuoden lopulla yhteistyösopimuksen, jonka mukaan ChatGPT:n käyttäjät voivat saada yhteenvetoja yhtiön lehtien jutuista, kunhan kustantaja saa niistä myös korvauksen. 

Suomalaisetkin mediayhtiöt olisivat luonnollisesti kiinnostuneita hyötymään rahallisesti sisältöjensä käytöstä, mutta maailman mittakaavassa pienen kielialueen mediayhtiöiden on vaikea päästä edes neuvottelupöytään. 

Alma Median Raiviston käsitys on, että ainakaan tekoäly-yhtiöt itse eivät tällä hetkellä lähesty aktiivisesti mediayhtiöitä sopimuksia tehdäkseen. Myöskään Ylen vastuullisen tekoälyn päälliköllä Minna Mustakalliolla ei ole tiedossa, että tekoäly-yhtiöt olisivat halunneet lisensoida Ylen sisältöjä omiin tarkoituksiinsa. 

Raivisto sanoo Alma Median seuraavan aktiivisesti tämän vuoden elokuussa voimaan tulleen EU:n tekoälyasetuksen läpinäkyvyysvelvoitteen etenemistä. EU-komission tekoälytoimiston tarkoituksena on ollut kehittää malli, jossa tekoäly-yhtiöt joutuvat yksityiskohtaisesti raportoimaan, mitä ja kenen tuottamaa dataa ne käyttävät liiketoiminnassaan. 

Tämä helpottaa mahdollisiin väärinkäytöksiin eli aineiston luvattomaan käyttöön puuttumista sekä saattaa vauhdittaa yhteistyöneuvotteluita tekoäly- ja mediayhtiöiden välillä. 

Uutismedian liiton lakiasiainjohtaja Ismo Huhtanen sanoo, että vielä tällä hetkellä mediayhtiöiden on vaikeaa todistaa aineistojensa väärinkäytöstä saati puuttua siihen. Siksi hänkin laskee paljon EU:n läpinäkyvyyssääntelyn varaan. Sen myötä pitäisi käydä ilmi, jos tekoäly-yritykset ovat hyödyntäneet mediasisältöjä nimenomaisista kielloista huolimatta. 

– Siten oikeudenhaltijat voivat päästä neuvotteluasemaan pelisäännöistä sisältöjensä käytössä, rahallinen korvaus mukaan lukien. Se on ihan asian ytimessä. 

Lisää aiheesta