Le intelligenze artificiali generative possono essere imprevedibili, lo abbiamo imparato negli ultimi mesi. Quelle basate su modelli linguistici ampi, i cosiddetti large language model (Llm), probabilmente, più di quanto ci aspettassimo. Il funzionamento alla base di questi oracoli dei tempi moderni rappresenta una matassa inestricabile. Tuttavia, l’interazione costante con milioni di utenti e la loro capacità di assorbire, masticare e assimilare informazioni non si traduce sempre e per forza in un miglioramento continuo e uniforme.
O almeno, è quanto emerso da uno studio pubblicato da tre scienziati informatici dell’Università di Stanford e dell’Università della California. La ricerca ha evidenziato un cambiamento «drastico» delle prestazioni di Gpt-4, l’ultimo modello di intelligenza artificiale di OpenAI, gli sviluppatori di ChatGpt.
Lo scorso marzo i ricercatori avevano eseguito alcuni test sia su Gpt-4 che sul suo predecessore, Gpt-3.5 (la versione alla base di ChatGpt). Ripetendo i test a giugno, a distanza di poco più di tre mesi, hanno riscontrato molte differenze, con cambiamenti evidenti nella logica generativa.
Fin dal suo rilascio, Gpt-4 aveva dimostrato una spiccata capacità di individuare i numeri primi all’interno di una serie di cifre. In uno dei primi test, all’intelligenza artificiale era stata fornita una sequenza di cinquecento numeri: il software era stato in grado di indicarli correttamente nell’84 per cento dei casi. Alcune settimane dopo, a giugno, il risultato dello stesso test è cambiato in maniera clamorosa: Gpt-4 è stato in grado di etichettare senza errori solo il 51,1 per cento dei numeri primi forniti. La capacità di elaborazione del modello era cambiata. Invece di migliorare, come ci si aspetterebbe da questo genere di strumenti basati su apprendimento automatico, era peggiorata in termini di accuratezza. E parecchio.
In altri test, il modello di giugno ha manifestato minore propensione alle spiegazioni rispetto a quello di marzo. Al tempo stesso, ha sviluppato nuove stranezze. Per esempio, ha iniziato a fornire frammenti di codice informatico (laddove richiesti dall’utente) aggiungendo descrizioni tanto accurate quanto potenzialmente dannose. A voler vedere il bicchiere mezzo pieno, però, il modello è diventato inequivocabilmente più sicuro: ora è in grado di filtrare un maggior numero di input testuali – domande – e di fornire meno risposte in grado di offendere la sensibilità di qualcuno. Attualmente, ci sono meno probabilità che una persona comune sia in grado di ottenere da Gpt-4 un elenco di idee su come fabbricare un esplosivo, falsificare dei documenti o offendere una minoranza etnica.
In effetti, proprio sotto quest’ultimo aspetto potrebbe annidarsi la spiegazione dell’ipotetico “deperimento cerebrale” di Gpt-4. Un’ipotesi che, come prevedibile, ha sollevato un acceso dibattito nel settore. Diverse testate tecnologiche hanno titolato “ChatGpt sta diventando più stupido?”, o qualcosa di simile. Negli articoli non viene mai data una risposta netta. È facile capire il perché: si tratta di una domanda complessa, sia il quesito sia la presunta risposta sono una semplificazione eccessiva di ciò che accade all’interno di queste scatole magiche.
I fattori principali che determinano le capacità e il comportamento di un’intelligenza artificiale sono due: i numerosi parametri che la definiscono e i dati di addestramento che la perfezionano. Spesso gli sviluppatori introducono nuove informazioni, come il feedback degli utenti, per affinare le prestazioni del sistema, creando una sorta di “cortocircuito”. Nel caso di Gpt-4, è possibile che l’obiettivo fosse quello di rendere lo strumento meno incline a fornire risposte considerate, per l’appunto, offensive o pericolose.
Ma è una spiegazione approssimativa. La nota riservatezza di OpenAI e la riluttanza a parlare dello sviluppo e dell’addestramento dei suoi algoritmi rende complicato anche solo formulare ipotesi. «È molto difficile dire, in generale, se Gpt-4 o Gpt-3.5 migliorino o peggiorino nel tempo», ha spiegato a Scientific American James Zou, coautore dello studio. In fondo, il termine «migliore» è sempre piuttosto soggettivo. Il modello linguistico di un chatbot come Gpt-4 contiene centinaia di miliardi di parametri che concorrono a definirlo. Diversamente da quanto succede in un software tradizionale, in cui ogni riga di codice ha uno scopo ben preciso, gli sviluppatori di modelli generativi spesso non possono stabilire una relazione esatta uno-a-uno tra un singolo parametro e l’azione corrispondente. Ciò significa che la modifica di un solo parametro può avere conseguenze enormi sul comportamento complessivo della macchina.
Per questo, pur sembrando totalmente illogico, la volontà di OpenAI di rendere Gpt-4 più sicuro – e quindi meno loquace – potrebbe aver reso il software meno abile a individuare i numeri primi. Chissà per quale stramba connessione. Oppure, più semplicemente, l’introduzione di nuovi dati di addestramento di bassa qualità ha ridotto la sua arguzia.
Assimilare dati “sbagliati” e ragionare di conseguenza in maniera “sbagliata”: suona come un’analogia del comportamento degli esseri umani. Non è così. Secondo Sayash Kapoor, informatico dell’Università di Princeton, «mentre i pensieri di una persona possono cadere in difetto logico a causa del modo in cui comprendiamo e contestualizziamo il mondo, un’intelligenza artificiale non ha un contesto né una comprensione indipendente. Tutto ciò che questi modelli hanno sono tonnellate di dati, destinati a definire le relazioni tra le diverse parole». L’algoritmo «imita il ragionamento, anziché eseguirlo davvero», spiega Kapoor. Imitare un pensiero o pensare «davvero». In fondo, tutta la differenza del mondo sta in quell’unica parola, «davvero».