Industria inteligenței artificiale, resimțind presiune în urma unui studiu recent

Un nou studiu academic aduce în discuție validitatea apărării legale a industriei AI în legătură cu drepturile de autor

Un recent studiu realizat de cercetători de la universitățile Stanford și Yale pune sub semnul întrebării una dintre cele mai puternice argumente ale industriei de inteligență artificială: faptul că modelele lingvistice de ultimă generație nu păstrează sau nu rețin în memorie conținut protejat prin drepturi de autor, ci doar învață tipare. Rezultatele studiului, care au fost deja comentate pe larg în mediul academic și juridic, indică faptul că unele modele pot reproduce cu o acuratețe impresionantă fragmente lungi din materiale păzite de copyright, precum cărți sau opere literare widely cunoscute.

Reproducerea textelor protejate – un riscuru real pentru industria AI

Pentru mult timp, companii precum OpenAI, Google, Meta sau Anthropic au susținut că modelele lor de inteligență artificială nu stochează conținuturile din datele de antrenament. În schimb, acestea afirmă că modelează tipare lingvistice în mod similar creierului uman, ceea ce le permite să genereze răspunsuri coerente fără a copia direct din sursele folosite pentru antrenament. Această apărări a fost adesea invocată în instanțe și limba de lemn a reprezentanților industriei, cu exemple diverse în cazul unor procese legate de încălcarea drepturilor de autor.

Cu toate acestea, studiul recent contestă această perspectivă, arătând că modelele sunt capabile de a reproduce fragmente lungi din surse protejate, cu o fidelitate de peste 95% în unele cazuri. Cercetătorii au testat patru modele majore — GPT-4.1, Gemini 2.5 Pro, Grok 3 și Claude 3.7 Sonnet — și au descoperit că acesta pot reproduce pasaje intacte din opere celebre precum “Harry Potter și Piatra Filozofală” sau “1984”, de George Orwell.

Claude, de exemplu, a redat conținut aproape identic din diverse opere literare, în timp ce Gemini a reprodus fragmente vaste din cărți celebre, în special din domeniul literaturii de ficțiune și clasicelor literare. Aceste rezultate ridică serios semne de întrebare asupra faptului dacă modelele nu cumva păstrează, în mod implicit, unele dintre textele din datele lor de antrenament, contrazicând afirmațiile industriei, care insistă că nu stochează astfel de conținuturi.

Impactul asupra legislației și a industriei de AI

Descoperirile studiului au potențialul de a muta fundația juridică pe care s-a construit apărarea industriei AI în fața acuzațiilor de încălcare a drepturilor de autor. În Statele Unite, unde legislația privind digitalizarea și folosirea materialelor protejate este în continuă evoluție, aceste rezultate pot slăbi argumente precum “fair use”, adică utilizarea echitabilă, folosit adesea pentru a justifica anumite forme de folosire a materialelor protejate.

Deja, în mediul juridic și în presă, există temeri că această descoperire ar putea duce la impunerea unor penalizări uriașe, în unele cazuri de miliarde de dolari, în cadrul unor procese intentate de deținătorii drepturilor de autor. Reprezentanții industriei de AI continuă să nege această posibilitate, susținând că modelele lor nu rețin în memorie și nu reproduc materialele protejate, ci doar învață și generează în timp real.

Un aspect încă neclar rămâne modul în care aceste reproducții apar: dacă modelele păstrează efectiv o copie a textului sau dacă operează dintr-un fel de “bază de date” internă, generând răspunsuri pe baza unor tipare învățate, așa cum susține industria. În timp ce dezbaterile continuă, este clar că aceste descoperiri vor influența discuții legale și strategii de reglementare, pe măsură ce tehnologia avansează și devine tot mai integrală în viața noastră de zi cu zi.

Perspectiva industriei AI este una de reevaluare a procedurilor și a responsabilităților în domeniul datelor, pe măsură ce noi studii relevă vulnerabilități majore în modul în care modelele lingvistice internalizează și redau informație. În acest context incert, momentul pentru clarificări legislative și etice pare tot mai aproape, în așteptarea unor decizii care să stabilească în mod clar limitele utilizării și stocării conținuturilor protejate.

Gabriel Popa

Autor

Lasa un comentariu