Koulutusdatan läpinäkyvyys on kannatettava asia, mutta tekijänoikeuteen liittyviä kysymyksiä sillä ei voi ratkaista
Tekoälykehityksen kehitys muuttaa perusteellisesti tietojen käsittelyä ja samalla tietoyhteiskuntaa. Erilaiset tekoälysovellukset ovat tuoneet mukanaan paljon hyvää, mutta niiden harkitsemattomaan käyttöön liittyy myös tunnistettuja ongelmia. Tähän on havahtunut myös lainsäätäjä EU:ssa ja tekoälyasetusta (AI Act) onkin valmisteltu jo useamman vuoden ajan.
Sääntelyehdotus konkretisoitui ensimmäisen kerran 21.4.2021, kun komissio antoi alkuperäisen ehdotuksensa tekoälyn sääntelemisestä. Tämän jälkeen asetuksen valmistelu jatkui normaaliin tapaan, ja EU:n neuvosto vei vaihtuvien puheenjohtajamaiden johdolla valmistelua eteenpäin kompromissiehdotuksia laatien.
Maailma muuttui kuitenkin syksyllä 2022 – kun asetusta oli jo pitkään valmisteltu – merkittävästi. ChatGPT keräsi julkaisunsa jälkeen kuukaudessa 100 miljoonaa käyttäjää ja suuret kielimallit sekä generatiivinen tekoäly arkipäiväistyivät samalla hetkellä ennennäkemättömällä nopeudella (Tuomi 2023). Tekoälyasetuksessa ei alunperin pyritty sääntelemään erityisesti generatiivista tekoälyä.
Parlamentti hätiköi
Parlamentti hyväksyi oman neuvottelupositionsa asetusluonnokseen 14.6.2023. Parlamentti oli tässä vaiheessa ainoa lainsäädäntötyöhön osallistuva elin, joka ehti reagoida teknologian kehitykseen esittäen asetusluonnokseen muutoksia, joilla nimenomaisesti säänneltäisiin myös ns. perusmalleja, jotka ovat generatiivisen tekoälyn taustalla. Samalla tekijänoikeussääntely ui takavasemmalta tekoälyasetukseen.
Vaikka parlamentin pyrkimystä voi pitää ymmärrettävänä, on lopputulos hätiköity ja monella tapaa ongelmallinen. Parlamentin neuvottelupositio sisältää ilmeisesti ankaran oikeudenhaltijajärjestöjen vaikuttamistyön ja jonkinlaisen “tekoäly-paniikin” seurauksena tekijänoikeusdoktriinille vieraita ja tietoyhteikunnalle suorastaan haitallisia ehdoksia. Keskeinen ongelma liittyy muutosehdotuksen artiklaan 28b, jonka c-kohta velvoittaisi:
generatiivisen tekoälyn tarjoajia dokumentoimaan ja asettamaan julkisesti saataville riittävän yksityiskohtaisen yhteenvedon tekijänoikeuslainsäädännön nojalla suojatun koulutusdatan käytöstä.
Tekoälyasetus artikla 28b kohta c
EU:n parlamentin muutosehdotus edellyttäisi oppivien järjestelmien tarjoajaa listaamaan ne tekijänoikeuden suojaamat teokset, joita se on käyttänyt mallin opettamiseen. Ajatus on kaunis, mutta toteuttamiskelvoton.
Miksi ehdotus ei toimi – käytännön ongelmat
Ehdotus ei ensinnäkään huomioi sitä tiedon määrää, jota generatiivisen tekoälyn kouluttaminen vaatii. Suuret kielimallit on koulutettu valtavilla tietomalleilla. Tietomalleissa on miljardeja kuvia, tekstiä ja tiedostoja jotka pitävät sisällään satoja teoksia.
“GPT 3.5:n opetuksessa käytettiin n. 300 miljardia pääosin internetistä kerättyä sanaa, GPT-4:lle ehkä 1000 miljardia. CommonCrawl sisältää 240 miljardia sivua tekstiä ja kuukausittain niitä lisätään 3-5 miljardia. Suuret kielimallit perustuvat tähän inspiraatioon.”
Chief Scientist Ilkka Tuomi sivistysvaliokunnalle syyskuussa 2023
Nyt parlamentti on kynän vedolla ehdottamassa valtavien yksityisten tekijänoikeusrekisterien perustamista. Tähän asti tällaista vaatimusta ei ole Euroopassa tai muuallakaan maailmassa ole ollut.
“In reality, this requirement would be impossible to meet, as it would essentially amount to disclosing a summary of all the content available on the internet.”
Computer & communications industry association.
Herää kysymys; millainen ylipäätään olisi “riittävän yksityiskohtainen yhteenveto” niistä todennäköisesti miljardeista teoskynnyksen ylittävistä aineistoista, jotka ovat osa koulutusdataa.
Toiseksi verkosta löytyneet teokset ovat niitä koskevien teos- ja tekijänoikeustietojen osalta pitkälti puutteellisia. Sen ratkaiseminen, onko tietty koulutuksessa käytetty tieto tekijänoikeuslailla suojattua vai ei, edellyttää usein oikeudellisen päätelmän tekemistä puutteellisilla tiedoilla. Ottaen huomioon generatiivisen tekoälyn koulutuksessa käytettävät tietomassat päätelmä pitäisi pystyä tekemään koneellisesti. Tehtävä on yksittäistapauksessa tekijänoikeusjuristillekin vaikea. Asiantutijat ovat yksimielisiä, että olisi mahdotonta luoda sovellus, joka ratkaisisi asian puutteellisista tiedoista huolimatta ihmisen puolesta. Tekoäly ei voi toimia tekijänoikeustuomarina.
Muutosehdotus myös väärässä paikassa väärään aikaan
Oikeudellisessa mielessä muutosehdotus toisi käytännössä velvollisuuden ilmoittaa, mitä tekijänoikeuden suojaamia tietoja tekoäly on koulutuksensa aikana katsonut. Vaikka lähtökohtaisesti voisi ajatella, että kielto-oikeuksien käytön helpottaminen on viisasta, ei parlamentin ehdotus ole myöskään tästä näkökulmasta kannatettava.
Tällä hetkellä on oikeudellisesti täysin epäselvää, missä määrin tekijän kielto-oikeus ulottuu teoksen käyttöön koulutusdatana. Kun EU:ssa edellisen kerran sorvattiin tekijänoikeusdirektiiviä, ei ChatGPT:n kaltaiset generatiivista tekoälyä edustavat sovellukset olleet vielä yleisessä käytössä. Direktiivin johdosta kansallinen lainsäätäjä muutti tekijänoikeuslakia maaliskuussa 2023 sallien tiedonlouhinnan:
“Se, jolla on laillinen pääsy teokseen, saa valmistaa siitä kappaleita käytettäväksi tekstin- ja tiedonlouhintaa varten ja säilyttää kappaleita yksinomaan kyseistä tarkoitusta varten, jollei tekijä ole nimenomaisesti ja asianmukaisella tavalla pidättänyt tätä oikeutta.”
Tekijänoikeuslaki 13 b §
Vaikka oikeudenhaltijajärjestöt yhteen ääneen vakuuttavat, että kouluttamisessa tapahtuu (tekijänoikeudellisesti äärimmäisen relevantti) kappaleen valmistaminen, ei asiaa oikeasti ole linjattu suuntaan tai toiseen. Aiheesta on useita oikeudenkäyntejä vireillä eri EU-maissa, mutta unionin tuomioistuimeen asti riidat eivät vielä ole päässet ja sellaisen saaminen kestää.
Tekoälyasetuksella ei tule linjata tekijänoikeudellisia kysymyksiä
Satoja vuosia tekijänoikeus on kieltänyt kopioinnin ja levittämisen. Katsominen, oppiminen, vaikutusten imeminen sekä tyylien imitointi ovat sen sijaan tähän asti olleet sallittuja toimia. Kysymys siitä, mikä on katsomista ja mikä kopioimista, osuu aivan tekijänoikeuden yleisten oppien ytimeen. Tällaiset linjaukset on valmisteltava äärimmäisen huolellisesti ja harkiten.
Selvää on, että tekijänoikeussääntelystä täysin ulkopuolisella tekoälyasetuksella ei tule selventää tai sotkea tekijänoikeusdirektiivin tulkintaa. Oikeus tekijänoikeusdirektiiviä koskevien tulkintakannaottojen antamiseen on unionin tuomioistuimella. Vaihtoehtoisesti lainsäätäjä EU:ssa tulisi ryhtyä muutoksiin muokkaamalla tekijänoikeusdirektiiviä.
On myös huomattava, että tiedon kerääminen tekijänoikeuden alaisen materiaalin käytöstä on selvä ensiaskel lisenssimaksujen tai muun taloudellisen hyvityksen keräämiselle. Kysymys on siten myös taloudellisesti merkittävä ja voi vaikuttaa arvaamattomasti erilaisten tekoälysovellusten kehitykseen koko EU:n sisämarkkinoilla.
Innovaatioiden edistäminen ja tekijänoikeudet sovitettava huolella yhteen
Suomessa eduskunnan sivistysvaliokunta muodosti parlamentin ehdotusta tukevan kantansa kuultuaan lähinnä oikeudenhalijajärjestöjä. Suuri valiokunta kuuli laajempaa asiantuntija ryhmää ja ymmärsi kiinnittää huomioita siihen, onko Euroopan parlamentin ehdottama velvollisuus julkaista yleiskäyttöisten tekoälyjärjestelmien osalta yhteenveto kouluttamiseen käytetystä aineistosta käytännössä toteutettavissa. Niin ikään Suuren valiokunnan havainto siitä, että jatkovalmistelussa tulisi selventää ehdotuksen suhdetta olemassa olevaan tekijänoikeuslainsäädäntöön, on oikea. Ratkaisuja ei pidä rakentaa vain oikeudenhaltijajärjestöjen (sinänsä edustamiensa tahojen näkökulmasta ymmärrettävien) toiveiden varaan.
Koulutusdatan läpinäkyvyys on hyvä ja kannatettava asia. Sen toteuttamistavaksi ei sen sijaan tule valita mahdotonta mallia, jossa tekoälyn tarjoajan on kyettävä erottamaan tekijänoikeudella suojattu materiaali muusta materiaalista. Viime kädessä tällaiset velvoitteet sekä estävät asetuksen keskeisenä tavoitteena olevan innovaatioiden edistämisen että sotkevat tekijänoikeusdoktriinin.
Jälkimmäisen osalta tulee erityisesti varoa viime aikaista kehitystä, jossa kaupalliset intressit ovat kuorineet satojen vuosien aikana kehittynyttä tekijänoikeusjärjestelmää pala palalta. Lainsäätäjän arvaamattomat liikkeet eivät käännä teknistä kehitystä taaksepäin. Sen sijaan ne voivat hyvinkin konkreettisesti vaikuttaa siihen, miten eurooppalainen digitaalinen markkina kehittyy. Hyvänä esimerkkinä on tekijänoikeudellisesti kestämätön linkkiveroksikin kutsutun lehtijulkaisun kustantajan oikeus joka laajensi suojan koskemaan otsikkoja. Ei lienee sattumaan, että Twitterinä aikaisemmin tunnettu somepalvelu X poisti otsikot useilta uutissivustoilta 2023. Tästä pettyneitä olivat tavallisten käyttäjien lisäksi myös toimittajat.
Tekee muuten suuresta osasta postauksia aika kryptisiä ja kontekstoimattomia. Vaikeampi tietää, mitä ihmettä tässä kommentoidaan, kun näkee vaikka vain Purran kuvan – ei sitä HS:n jutun otsikkoa ja mihin tämä liittyy. Ja aika ongelmallista monin tavoin. https://t.co/Fxj95c94gk
— Elina Lappalainen (@ElinaLappalaine) October 5, 2023
Asetuksen lopullinen sisältö on vielä auki. Jäsenmaat, Suomi mukaan luettuna, voivat estää virheet, jotka pikavauhtia valmistellussa generatiivisen tekoälyn tarjoajien erityisvelvollisuuksia koskevassa artiklaluonnoksessa on parlamentissa tehty.
Keskeistä on ymmärtää, että hyväänkin tarkoitukseen pohjaavat säännöt ovat merkityksettömiä, jos niitä käytännössä on mahdoton noudattaa. Epäsymmetrisen informaation ongelmaa ei voi ratkaista velvoitteella, jonka noudattaminen on mahdotonta. Tällainen sääntely ei palvele ketään ja on sääntelyteoreettisesti tarkasteltuna huonolaatuista.
Ajatus vuosisatojen aikana kertyneestä tekijänoikeussäätelystä, sen pohjalla olevasta tekijöiden, yleisön ja yhteiskunnan vaihtokaupasta ja sitä tukevasta oikeuskäytännöstä on vaarassa joutua lobbaajien lyhytnäköisten muutamaa palvelua koskevan sääntelyn alle.