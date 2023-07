Dvoje autora tuže OpenAI, tvrdeći da je ChatGPT nezakonito ‘probavio‘ ili procesuirao njihove knjige kao dio svog treninga. Dvoje romanopisaca Paul Tremblay i Mona Awad, podnijeli su tužbu protiv OpenAI-ja na saveznom sudu u San Franciscu, tvrdeći da je njegov veliki jezični model ChatGPT obučen korištenjem podataka iz njihovih knjiga zaštićenih autorskim pravima bez njihova pristanka.

Dvojac u svojoj kolektivnoj tužbi tvrdi kako ChatGPT generira vrlo precizne sažetke njihovih knjiga, ako ga se to pita, te tvrde da je to moguće samo ako je ChatGPT obučen o sadržaju njihovih knjiga, tj. ako je treniran na knjigama. To, smatraju pisci, krši federalni zakon o autorskim pravima.

Andres Guadamuz, stručnjak za intelektualno vlasništvo na Sveučilištu u Susseu, rekao je za Guardian da je ovo prva pravna tužba protiv OpenAI-ja povezana s autorskim pravima ali da sigurno nije i posljednja.

Žalba autora citira dokument iz lipnja 2018. u kojem je OpenAI otkrio da je svoj GPT-1 model uvježbao na BookCorpusu, ‘zbirci od preko 7000 jedinstvenih neobjavljenih knjiga iz različitih žanrova, uključujući avanturu, fantastiku i romantiku‘. U svom dokumentu iz srpnja 2020. koji predstavlja GPT-3, OpenAI je otkrio da 15 posto njegovog skupa podataka za obuku dolazi iz ‘dva internetska korpusa knjiga‘ koje je OpenAI jednostavno nazvao ‘Knjige1‘ i ‘Knjige2‘. Ta dva skupa podataka navodno sadrže više od 350 tisuća knjiga.

Od pokretanja ChatGPT-a prošlog studenog, OpenAI nikada nije otkrio koje je točno podatke koristio za treniranje svog bota, niti je precizirao izvor svih tih podataka. U dokumentu iz 2020., OpenAI je samo rekao da je većina podataka o obuci općenito preuzeta s weba, uključujući arhivirane knjige i Wikipediju.

Više tužbi

Tužba koju su podnijeli Tremblay i Awad tek je početak istih i sličnih tužbi protiv AI tvrtki, jer niti jedna od njih za treniranje svojih jezičnih modela ne traži pristanak autora niti otkriva točne lokacije od kuda su podaci preuzeti. Međutim, vlasnicima autorskih prava bit će teško dokazati da su zaista pretrpjeli financijske gubitke zbog tih povreda. U siječnju je skupina vizualnih umjetnika tužila Stability AI, Midjourney i DeviantART, tvrdeći da su ti AI sustavi koristili umjetnička djela ljudskih umjetnika za proizvodnju AI slika, dok je Ashley Irwin, predsjednik Društva skladatelja i tekstopisaca u SAD-u rekao kako to nije dopustivo te da se prava kreatora moraju zaštititi od generativnih AI sustava.

Prošlog studenog računalni programeri podnijeli su kolektivnu tužbu vrijednu 9 milijardi dolara protiv Microsofta, stranice za dijeljenje kodova GitHub i OpenAI-ja. Tužba je tvrdila da Copilot, pomoćnik za kodiranje na GitHubu koji pokreće AI, koristi kod drugih ljudi na način koji predstavlja softversko piratstvo. Copilot je optužen za kršenje autorskih prava ‘korištenjem redaka koda koje su napisali ljudi bez odgovarajuće atribucije‘. S ovom posljednjom tužbom Tremblaya i Awada, regulatori i sudovi će imati zadatak razmotriti pravila o autorskim pravima u vezi s umjetnom inteligencijom, a mnogi se nadaju kako će tvrtke koje se bave generativnom umjetnom inteligencijom napokon otkriti kako i gdje nabavljaju podatke za obuku svojih ‘Ai botova‘.