Il copyright al tempo dell’I.A.Le tre ragioni per cui le intelligenze artificiali generative sono esenti dal diritto d’autore

Strumenti come ChatGpt non creano copie letterali dei testi consultati, ma generano nuovi contenuti basandosi su relazioni semantiche e sintattiche apprese durante l'addestramento. Come un umano che studia da varie fonti senza copiarle direttamente

Unsplash

Nelle giornate fra Natale e capodanno, OpenAI ha conquistato, ancora una volta, le prime pagine di tutto il mondo grazie a una questione legale di enorme importanza: il New York Times ha presentato una causa contro OpenAI e Microsoft, accusandoli di violazione del diritto d’autore. Secondo l’accusa OpenAI e Microsoft avrebbero utilizzato milioni di articoli del NYT per addestrare i loro modelli di intelligenza artificiale e cioè ChatGPT e Windows Copilot. Gli avvocati del NYT sostengono che ChatGPT genera testi che imitano lo stile e il contenuto dei loro articoli. Per difendersi, OpenAI ha messo in campo una serie di tattiche: da un lato ha rilasciato dichiarazioni generiche sui diritti dei creativi umani; dall’altro, ha cercato accordi diretti con il NYT per evitare il ricorso ad azioni legali (accordi peraltro già stipulati con altre case editrici quali Springer e Associated Press).

Tutte queste mosse, però, sono poco più di una schermaglia legale. Il vero interesse della vicenda sta nell’impatto che questa causa avrà nello stabilire i diritti tra IA generative ed esseri umani. Diciamo subito che ci sono validi motivi per pensare che, in questo caso, il NYT e gli autori si trovino dalla parte sbagliata della storia, anche se magari sono dalla parte giusta da un punto di vista umano ed etico. Cerco di spiegare perché sulla base di tre piani: legale, tecnologico, psicologico.

Partiamo dal primo. Sul piano legale, la legislazione americana ammette il cosiddetto fair use, ovvero l’utilizzo di materiale coperto da copyright nella misura in cui sia ragionevolmente modificato e trasformato. Per esempio, io posso fare un video su Youtube nel quale mostro spezzoni dell’ultimo film di Godzilla perché il prodotto finale trasforma le sequenze del film in qualcosa di nuovo e di diverso; per esempio, una recensione o una discussione filosofica sul significato simbolico del simpatico lucertolone. Il fair use è un concetto abbastanza ampio e, da alcuni anni, è utilizzato per consentire a Google di presentare intere pagine di libri nel suo sito books.google.com. Nel caso di ChatGPT è evidente come sia facile mostrare che non produca mai copie letterali dei testi usati per il suo addestramento, ma ogni volta qualcosa di nuovo. D’altronde, la ‘G’ contenuta nell’acronimo GPT significa che appartiene alla categoria degli algoritmi generativi.

Ma la vera chiave di volta, che sarà dirimente e probabilmente bloccherà il tentativo del NYT di ottenere soddisfazione legale e risarcimenti miliardari, è la struttura dell’algoritmo dietro ChatGPT (e tutte gli altri modelli di linguaggio di grandi dimensioni o LLM). Senza addentrarci in dettagli tecnici, basta ricordare che ChatGPT non memorizza i testi su cui si addestra, ma li trasforma in una nuvola di probabilità condizionali che codificano la probabilità di ogni parola relativamente a tutte le altre parole o frasi contenute in un testo. Infatti, la ‘T’ dell’acronimo significa ‘transformer’. Durante l’addestramento, GPT non memorizza le informazioni in ingresso, ma le utilizza per estrarre una rete di relazioni semantiche e sintattiche che tengono insieme quel testo (i famosi parametri). Da questo punto di vista ChatGPT è più simile a uno studente che legga per ore e ore autori famosi e impari da essi come scrivere o esporre un’idea, che non a un copista che trattenga copie di testi famosi.

Sul piano tecnologico, dentro GPT (o qualsiasi altro LLM) non si trova alcuna copia dei testi di partenza (come invece accadrebbe dentro un database tradizionale come Google Books). Dentro GPT si trovano soltanto i famosi parametri che, usando una espressione tecnicamente non esatta ma concettualmente corretta, corrispondono alle probabilità che legano insieme parole e frasi, ovvero ricette per produrre e generare nuovi contenuti, ma non – e questo è il punto chiave – i contenuti di partenza.

La combinazione fatale che mette in difficoltà l’attuale legislazione è proprio questa unione di trasformazione dell’informazione in parametri e di generazione di nuovi contenuti. A meno che i giudici del caso 23-11195, New York Times versus Microsoft et al del Distretto Sud di New York, decidano di dare una sentenza politica non basata su considerazioni fattuali, la strada per il NYT appare in salita e soprattutto in direzione contraria alla storia.

Certo, la corte distrettuale dove si giudicherà il caso è sovrana e potrebbe decidere che mentre un lettore umano può accedere a fonti coperte da copyright e imparare a produrre contenuti, un’intelligenza artificiale non lo possa fare. Ma questo rappresenta una difesa d’ufficio dell’umano che difficilmente potrebbe reggere sul piano pratico e strategico. Sarà sempre più difficile se non impossibile determinare quanto, di un certo contenuto, sia il frutto di letture precedenti. Faccio un esempio. Supponiamo che una IA sia addestrata usando i testi scritti da me sul mio calcolatore. Io ho diritto di usare i miei testi e nessuno potrebbe contestarmi. Tuttavia, io ho prodotto questi lavori perché mi sono formato su autori precedenti (Martin, Tolkien, Parks, e leggo molti articoli del NYT). Sicuramente si potranno trovare tracce di questi autori nei miei articoli e, transitivamente, nei contenuti generati da questa IA. E quindi? Non potrei addestrare un LLM usando i miei testi?

Il punto è che il copyright non è fatto, non è stato pensato e non può funzionare, in un mondo dove l’informazione non è più una sequenza statica di simboli, o addirittura un oggetto, ma viene trasformata in insiemi di probabilità e relazioni per generare nuovi contenuti.

Si giunge così all’ultimo piano che ha un carattere psicologico ovvero se le IA generative sono effettivamente dotate di creatività. E questo è il punto chiave perché tutta l’impalcatura legale del copyright è appoggiata su questo snodo delicatissimo e cruciale, la creatività appunto, per il sistema economico ma anche per la nostra dignità di esseri umani. Il copyright è fondato sulla presunzione che l’essere umano, a un certo punto e a un certo momento, aggiunga qualcosa di nuovo grazie a un atto creativo che non è riducibile esclusivamente a quanto esisteva prima. È questa presunzione metafisica di originalità che giustifica il riconoscimento economico all’autore. Altrimenti potremmo dire che non è l’autore di un testo a dover essere ripagato, ma i suoi insegnanti o le opere su cui si è formato. Supponiamo che io sia un lettore assiduo del premio Nobel Jorge Luis Borges e che il mio stile lo ricordi molto. Potreste accusarmi di plagio? Non credo. Al massimo di scarsa originalità. Ma è chiaro che il confine è labile.

Fino a ieri questo il modello psicologico-metafisico del copyright non era problematico perché esistevano solo gli esseri umani e quindi, con buona pace di tutti, si poteva mettere da parte il rapporto tra creatività, persona, libertà. Oggi però l’intelligenza artificiale ci propone sistemi (come gli LLM) che sono in grado di generare contenuti in modo simile a quanto facciamo noi. Il caso del New York Times ci tocca nel profondo: è giusto condannare una intelligenza artificiale per produrre contenuti che, se fossero prodotti da un essere umano, supererebbero qualsiasi criterio legale e non sarebbero considerati copie? Siamo così fragili da dover chiedere alla legge di stabilire delle quote per gli esseri umani?

Per non parlare del fatto che adottare una legislazione difensiva – per ridurre l’uso e quindi lo sviluppo di una tecnologia strategica come l’intelligenza artificiale – potrebbe determinare un ritardo tecnologico nelle nazioni dove queste regole venissero applicate seriamente (l’Europa sembra particolarmente propensa a voler restare indietro) e causare una debolezza che, allo stato attuale della competizione tra il vecchio Ovest e il grande Sud, finirebbe con l’essere insostenibile.

In sintesi, la causa del New York Times contro OpenAI e Microsoft solleva questioni fondamentali riguardo al diritto d’autore nell’era delle intelligenze artificiali generative, ma la battaglia legale rischia di essere un anacronismo. Mentre si cerca rifugio in principi legali tradizionali per tutelare il proprio lavoro, nella realtà l’informazione e la creazione di contenuti non sono più una esclusiva degli esseri umani. Il nocciolo della questione ruota intorno alla nozione stessa di creatività e alla sua interpretazione legale e getta le basi per un dibattito più ampio sul ruolo e i diritti delle intelligenze artificiali nella società.

Come nel pensiero di Walter Benjamin, la base tecnologica cambia più rapidamente della sovrastruttura legale e concettuale. Le aziende come OpenAI stanno sfidando i nostri concetti tradizionali di proprietà intellettuale, mettendo in discussione l’adeguatezza delle leggi attuali di fronte alla velocità dell’innovazione tecnologica. In questo contesto, il vero compito per il giornalismo e per altre industrie creative non è tanto quello di combattere l’intelligenza artificiale, ma piuttosto quello di evolvere, trovando nuove modalità per generare valore in un mondo in cui le creazione di contenuti è in continua evoluzione.

In fondo si è alzata l’asticella. Fino a ieri, un autore poteva accontentarsi di imitare lo stile di qualche precedente illustre, cooptare qualche citazione o sfruttare qualche metafora brillante. Oggi, se non vogliamo essere raggiunti e superati dall’intelligenza artificiale, dobbiamo dare prova di vera creatività, aggiungere sempre qualcosa che non sia riducibile al passato. Potrebbe essere un bene: per troppi anni, complici proprio cellulari e internet, ci eravamo illusi di poter contrabbandare competenza con originalità; riciclo con creatività. Oggi l’intelligenza artificiale smaschera il nostro bluff.