La sovrabbondanza di dati sintetici sul web e il rischio di collasso delle IA generative

Qual è il punto debole delle intelligenze artificiali generative? Le intelligenze artificiali generative, probabilmente. Un recente studio realizzato da Amazon Web Services ha stimato che il cinquantasette per cento dei contenuti presenti oggi su Internet è generato o tradotto da un algoritmo di IA. L’indagine ha dimostrato che la traduzione automatica a basso costo, in grado di prelevare un contenuto e rigurgitarlo in più lingue, sarebbe il principale responsabile di questa situazione.

I ricercatori hanno riscontrato una evidente «distorsione da selezione» (selection bias) nei contenuti tradotti automaticamente in più lingue rispetto a quelli pubblicati in una lingua sola. Si tratta di «contenuti più brevi, più prevedibili e che hanno una diversa distribuzione degli argomenti» rispetto al normale. In parole povere: sono peggiori.

Ma peggiori per cosa? Per l’addestramento delle intelligenze artificiali stesse. Ormai lo abbiamo imparato: per il loro sviluppo, le reti neurali artificiali hanno bisogno di quantità mastodontiche di dati, fondamentali per l’addestramento supervisionato che ha dato vita a miracoli informatici come Chat GPT o Claude.

I large language model più all’avanguardia, d’altronde, sono stati realizzati attraverso lo scraping del web, ovvero l’estrazione dei dati utili a questo allenamento da siti internet. Ed è qui che sta l’intoppo: vien da sé che, se la qualità dei dati presenti in rete peggiora, anche le prestazioni dei modelli addestrati su questi ultimi andranno di pari passo.

Il punto è che l’enorme popolarità delle piattaforme generative sta saturando la rete di “dati sintetici”, ovvero di contenuti prodotti tramite IA, con il rischio di provocare un effetto a catena che potrebbe ripercuotersi sui modelli generativi stessi.

Su Linkiesta scrivevamo dei dati sintetici – delle loro enormi potenzialità e dei loro limiti – ben prima dell’exploit delle IA generative grazie al lancio di Chat GPT. Questa tipologia di dato differisce da quella tradizionale in quanto è generata artificialmente e non viene raccolta in maniera “classica”.

Viene piuttosto creata dal software “imitando” il mondo reale e producendo materiale inedito a partire da una base di informazioni raccolte manualmente. In questo modo, il prodotto che ne deriva risulta esente da qualsiasi tipo di relazione diretta con l’input originale.

In un settore sempre più affamato di big data per l’apprendimento automatico, i dati sintetici sono manna dal cielo. Con il proliferare di realtà legate allo sviluppo di IA, lo sfruttamento di questi mélange di dati è cresciuto esponenzialmente, fino a diventare una pratica diffusa ed enormemente redditizia.

Nel 2021 la società di consulenza Gartner aveva predetto che il sessanta per cento dei dati utilizzati per lo sviluppo di progetti di intelligenza artificiale sarebbe diventato sintetico entro il 2024 (all’epoca rappresentavano solo l’un per cento). A occhio e croce, ci hanno preso.

Il dato evidenziato dai ricercatori di Amazon solleva grosse preoccupazioni riguardo all’addestramento di modelli multilingue su dati prelevati dal web. I software di “produzione” dei synthetic data, naturalmente, operano in modi molto diversi tra loro. Eppure, il concetto alla base è simile: applicare la “filosofia sintetica” per il training delle IA, alla lunga, può rivelarsi logorante.

Il tema è più che mai attuale (e dibattuto). In uno studio pubblicato l’anno scorso, alcuni studiosi della Rice e della Stanford University hanno coniato il termine “Mad”, acronimo di Model autophagy disorder (disordine autofagico del modello) per indicare una sorta di “autoallergia” delle intelligenze artificiali addestrate su dataset sintetici.

Nel corso delle loro sperimentazioni, ai ricercatori sono bastati cinque cicli (“epoche”) di training per far sì che i risultati del modello in esame «esplodessero». Se allenata ripetutamente con questo tipo di dati, infatti, la macchina inizia ad attingere da contenuti sempre più convergenti e meno variegati.

Nel documento si fa riferimento a un fenomeno molto simile a un altro problema classico del machine learning: l’overfitting, ovvero l’eccessivo adattamento del modello ai dati forniti. In questo caso si verifica una situazione che potremmo definire di “consanguineità” dei dati, tale da generare nell’algoritmo risultati sempre più insoddisfacenti.

Richard G. Baraniuk, tra gli autori dello studio, ha paragonato l’effetto Mad con il morbo della mucca pazza: «Nutrire mucche con altre giovani, in un ciclo che si ripete e che porta ad agenti patogeni che distruggono il cervello». Altri, commentando la ricerca, hanno utilizzato il termine «IA asburgica», in relazione all’antica famiglia austriaca avvezza al matrimonio tra parenti stretti.

In un recente articolo pubblicato su Nature, un team di ricercatori britannici e canadesi si è spinto oltre, mettendo a punto un modello linguistico preaddestrato basato su un set di dati di articoli di Wikipedia.

L’esperimento consisteva nel simulare l’addestramento di modelli di IA usando dati sintetici creati da modelli precedenti. Il risultato? La qualità dei dati è deteriorata progressivamente quando l’IA è stata addestrata su articoli generati in maniera automatica, portando a un «collasso» del modello in seguito a ripetuti cicli di addestramento.

Uno degli autori ha spiegato che questo «model collapse» si applica a qualsiasi tipo di IA generativa addestrata su dati sintetici, non solo ai Large Language Model. Vista la velocità con cui Internet si sta riempiendo di questa spazzatura, c’è poco da stare tranquilli.

Politica

Italia

Esteri

Cultura

Economia

(Too) big dataLa sovrabbondanza di dati sintetici sul web e il rischio di collasso delle IA generative

Oltre la metà dei contenuti su internet è frutto di un algoritmo di intelligenza artificiale. Ciò potrebbe avere conseguenze nefaste per un sistema che, alimentandosi di elementi prodotti in maniera automatica, finirebbe per peggiorare le proprie prestazioni

Tags:

Linkiesta Store

Più Letti

Correlati

Notizie dal Network

(Too) big dataLa sovrabbondanza di dati sintetici sul web e il rischio di collasso delle IA generative

Oltre la metà dei contenuti su internet è frutto di un algoritmo di intelligenza artificiale. Ciò potrebbe avere conseguenze nefaste per un sistema che, alimentandosi di elementi prodotti in maniera automatica, finirebbe per peggiorare le proprie prestazioni

Condividi:

Tags: