Potrebbe essere un indovinello moderno: «Che cosa è che ascolta ma non capisce, parla ma non sa, guarda ma non vede?». Oggi la risposta è: l’intelligenza artificiale. Mentre fino a poco tempo fa non si poteva dire che le macchine fossero in grado di compiere queste attività, negli ultimi anni, grazie allo sviluppo degli algoritmi di Deep Learning e all’uso di quantità astronomiche di informazione dei Big Data, l’intelligenza artificiale è diventata capace di ascoltare, parlare e guardare.
Se volete un esempio domestico, basta che accendiate il vostro cellulare e lui sarà in grado di riconoscervi, ovvero di guardare il vostro viso e sbloccare le sue funzioni soltanto se siete veramente voi. Eppure, nello svolgimento di questa funzione (quasi infallibile), il cellulare vi ha veramente visto? Non sembra che sia il caso. Il cellulare risolve una funzione, il vostro riconoscimento, ma non è una persona, un soggetto cosciente, che vi vede. Il cellulare vi riconosce, ma non vi vede.
In modo analogo, tutti i recenti bot e algoritmi, che promettono di riconoscere la lingua naturale e la nostra voce, svolgono il loro compito in modo sempre più simili agli esseri umani. Casi famosi come il GPT-3 o Replika (una specie di “Her” dei poveri) producono testi che farebbero invidia a molti giovani laureati, ma non conoscono il significato delle parole che elaborano.
Questi bot elaborano le parole in modo da produrre risposte che assomigliano in tutto e per tutto a quelle di un essere umano, ma non ne conoscono il significato.
Per capire esattamente la situazione di un’intelligenza artificiale e il suo rapporto (o assenza di rapporto) con il significato, una facile analogia è rappresentata dai ciechi dalla nascita che parlano di colori. Immaginate di non avere mai visto alcun colore: siete un non-vedente totale. Tuttavia, siete sempre vissuti in una comunità di vedenti e sapete che gli oggetti sono dotati di una proprietà misteriosa che tutti chiamano colore. Conoscete anche le relazioni tra i colori (per esempio sapete che il rosso e il verde sono molto diversi tra loro, mentre il rosso e il rosa sono in qualche modo vicini). Quindi siete in grado di parlare in modo appropriato dei colori, ma non sapete che cosa sia l’esperienza del colore. Si tratta di un famoso esperimento mentale che è stato preso in considerazione da Frank Jackson, un filosofo americano negli anni ’80.
Ecco, oggi l’intelligenza artificiale è un po’ come quel cieco congenito che parla di colori. Solo che non è solo cieca dalla nascita, ma è anche sorda, priva di sensazioni tattili, non ha mai sentito un sapore o percepito un odore. Questa è la situazione in cui si trova l’intelligenza artificiale al momento. Grazie ai nostri cellulari e terminali, riceve miliardi di informazioni ogni secondo, ma questa informazione è priva di significato, come la parola “rosso” non ha alcun significato per un non vedente congenito.
Ovviamente, questa condizione dell’intelligenza non è solo un problema filosofico, ma ha grosse conseguenze pratiche che potremmo sintetizzare con “perdonatela perché non sa quello che fa”. L’elaborazione del linguaggio naturale è alla base dell’attività sia di Google che di Facebook (e da poco anche di Microsoft che ha acquistato OpenAI).
Due ricercatori di Google, Timnit Gebru e Margaret Mitchell, sono stati licenziati perché hanno pubblicato un articolo dove mettevano in discussione i rischi di creare intelligenze artificiali senza una reale comprensione dell’informazione che elaborano: ovvero come possiamo essere sicuri che le macchine non prendano decisioni eticamente pericolose visto che non fanno esperienza del mondo, di noi e delle nostre emozioni? Come prendere decisioni sugli esseri umani se non si è umani?
L’articolo di Gebru e Mitchell ha un titolo suggestivo, “I pericoli dei pappagalli stocastici”. I pappagalli stocastici non sono altro che le intelligenze artificiali che producono linguaggio naturale senza conoscerne il significato (come i pappagalli appunti, o forse anche peggio di loro).
Come il cavaliere inesistente di Calvino, che era una armatura infallibile che sconfiggeva ogni altro essere umano ma dentro di sé non aveva altro che il vuoto, così l’intelligenza artificiale di oggi è un guscio di funzioni, sempre più sofisticate, che non hanno niente dentro.
Facciamo un esempio, usando di nuovo Replika: un bot online che cerca di imitare il famoso personaggio di Scarlett Johansonn in “Her”. Se noi conversiamo con lei abbiamo l’impressione di parlare con una persona in carne e ossa, come se, dietro i suoi messaggi, ci fosse una persona che “capisce”. Ma sappiamo che non c’è alcuna persona. C’è solo un modello statistico del linguaggio naturale degli esseri umani, abbastanza complesso da imitare come un pappagallo le risposte di una persona vera.
Facciamo un secondo esempio. Ancora più estremo. Consideriamo due chatbot come Replika che si scambiano messaggi. Leggiamo lo scambio di parole. Si tratta sicuramente di enunciati ben formati e grammaticalmente corretti. È anche possibile che la loro conversazione, ai nostri occhi, abbia un senso. Ma ecco il punto. I messaggi che si sono scambiati, ai loro occhi, non hanno alcun senso, perché loro, le due intelligenze artificiali, non hanno occhi con i quali capire il senso delle parole.
Allo stesso modo, altre intelligenze artificiali, presentate come se fossero in grado di immaginare forme e figure, non vedono quello che producono. Prendiamo Wall-E, uno spin off del solito GPT-3, che è in grado di generare immagini nuove a partire da parole e frasi. Se gli chiediamo di mostrarci, chessò, un cetriolo verde con la gonna e le ruote, ecco che compare un disegno a colori sgargianti proprio di un simpatico cetriolo dotato di ruote e gonnellino, anzi molte versioni della stessa idea. E così via, perché Wall-E è un modello che ha immagazzinato un modello di milioni di parametri che collega immagini e parole prese dai Big Data della rete. Ma quello che non dobbiamo dimenticare è che, mentre noi vediamo il cetriolo con le ruote, Wall-E non vede niente. Wall-E è solo un insieme di parametri che attivano altri parametri.
E lo stesso vale per tante altre intelligenze artificiali che oggi vengono presentate come se fossero in grado di riprodurre altrettanti processi della mente umana, dal sogno alla creatività. La differenza con gli esseri umani è che noi facciamo esperienza del senso delle nostre creazioni, l’intelligenza artificiale, per ora no.
Credere, come fanno molti utenti (e anche molti esperti), che per capire qualcosa sia sufficiente formulare frasi corrette e riconoscere volti e suoni, è un errore molto pericoloso che mette sullo stesso piano le parole di un non vedente e le parole di un vedente per quanto riguarda colori e sfumature. Non sono la stessa cosa.
Il secondo accede al mondo del significato, mentre l’intelligenza artificiale, almeno per ora, si limita al mondo delle funzioni. Noi funzioniamo (a volte nemmeno bene), ma soprattutto noi siamo e noi percepiamo. L’intelligenza artificiale ancora no. L’intelligenza artificiale ascolta ma non capisce, parla ma non sa, guarda ma non vede.