I maghi degli scacchi non prevedono le mosse future: guardano la scacchiera. Questo è uno dei più grandi insegnamenti di Douglas Hofstadter nelle sue riflessioni sul rapporto tra intelligenza biologica e intelligenza artificiale. La loro lettura della configurazione dei pezzi non scatena una sequenza di calcoli sul modo in cui la partita potrebbe precipitare in seguito a ciascuna delle scelte possibili; lo schieramento dei pezzi disegna una struttura formale che indica quali passaggi tattici occorrono per ottenere una distribuzione più favorevole. La percezione dei campioni mostra a chi ne è dotato una Gestalt della scacchiera e degli eventi che l’hanno attraversata e che sono necessari per trasformarla in un quadro vincente.
Per questa ragione Google ha appena offerto un prezzo superiore a 400 milioni di dollari (secondo la ricostruzione di The Guardian si tratterebbe di 400 milioni di sterline, quindi di 650 milioni di dollari) per rilevare la startup di Demis Hassabis, Master di scacchi dall’età di dodici anni, per cinque volte vincitore delle Olimpiadi degli Sport della Mente tra il 1998 e il 2003. Per non fallire l’appuntamento con la coerenza, la società si chiama DeepMind e si occupa di intelligenza artificiale applicata (anche) alla percezione visiva. Un colpo d’occhio come quello del fondatore è una garanzia di riuscita nell’impresa.
Per essere più precisi il segmento di ricerca che occupa i dipendenti di DeepMind è la branca dell’intelligenza artificiale etichettata deep learning, che trova applicazioni nell’automazione del riconoscimento linguistico, dei suoni, e naturalmente delle immagini. L’insieme di interessi che affascinano il Director of Engineering di Google, Ray Kurzweil, nel suo ormai quarantennale impegno nei meandri della ricostruzione meccanica della sensibilità e del pensiero. La sua competenza gli permette di riconoscere il valore ovunque lo si possa trovare, e questa è la prima giustificazione del prezzo sborsato da Mountain View per l’acquisto di quella che in fondo è ancora una startup. Molto promettente, in ogni caso, visto l’interesse (e il capitale) investito da società come Horizon Ventures e Founders Fund, e dal coinvolgimento diretto di uno dei padri del deep learning come Jaan Tallin.
DeepMind appare come un tassello del progetto che Kurzweil sta coordinando nella costruzione di ciò che con linguaggio fiabesco definisce l’«amico cibernetico». Ciascuno di noi ne dovrebbe avere uno in casa al termine del processo che condurrà il mercato della ricerca «fuori dall’età della pietra». Quando si entra più nel dettaglio della sua descrizione, questo burattino simpatico comincia ad assumere alcuni tratti più inquietanti. L’ispiratore dell’operazione sembra essere il co-fondatore di Google in persona, Sergey Brin, che descrive la sua visione con una metafora carica di suggestioni: l’obiettivo è quello di costruire una macchina senziente paragonabile alle capacità di Hal 9000 in 2001: Odissea nello spazio, con la sola caratteristica divergente di non avere una propensione per l’omicidio delle persone.
Kurzweil si spinge a tentare una descrizione più dettagliata: l’amico cibernetico è un robot che deve ascoltare le nostre conversazioni al telefono, che deve leggere le nostre mail, che deve tracciare ogni nostro movimento, per poter rispondere alle nostre domande prima ancora che ci sia stato necessario formularle. Controllo totale.
Una macchina che sappia vedere, e che capisca quello che i suoi occhi inquadrano, che sappia sentire e comprendere quello che viene detto, la musica che viene ascoltata, è uno strumento indispensabile per le mire di Kurzweil. Ma l’applicazione di questa forma di automazione non si limita all’ambiente domestico. Al contrario, la sua ambizione è di svolgere un ruolo chiave nella gestione delle attività business. Derrick Harris ha descritto il ruolo che il riconoscimento ottico tridimensionale può svolgere in un punto vendita fisico. L’opportunità di seguire i percorsi dei clienti all’interno del negozio, di scrutare il loro i luoghi in cui si fissa il loro sguardo, di registrare le mosse che precedono la scelta di acquisto, rappresenta una trasposizione nell’ambiente offline delle analisi che i rivenditori compiono già sui clienti che frequentano gli e-commerce. Ma con un livello di morbosità che online non ci si immagina nemmeno.
Il progresso della ricerca oltre l’età della pietra esige risposte personalizzate e in anticipo rispetto all’insorgenza spontanea della curiosità biologica. L’amico cibernetico deve diffondere in salotto la musica del disco che preferiremmo ascoltare prima ancora di dirglielo, ma deve soprattutto essere capace di suggerire ai manager il modo in cui dovrebbero leggere i dati raccolti sull’interazione del pubblico con i loro prodotti e con i loro servizi. Ci culla e rende più intelligente il nostro lavoro; in cambio vede e ascolta tutto, ed è pervasivo come lo sguardo di Hal 9000 sulla Discovery One.
Una macchina che conosce i nostri desideri e mostra maggiore perspicacia di quella che illumina il nostro cervello biologico, non può aspettare che le vengano forniti gli schemi di ricognizione delle immagini attraverso le procedure rigide del software tradizionale. Occorre la flessibilità di una mente che impara dall’esperienza e che corregge gli errori, distinguendo sempre meglio le porzioni di immagini in primo piano dallo sfondo, e riconducendo le figure alle varie dimensioni concettuali che sono utili nei diversi contesti di applicazione: il maglione allineato negli scaffali del negozio di abbigliamento ha un significato diverso da quello che si è perso nella camera dello studente di liceo in piena rivoluzione ormonale.
I sistemi di deep learning intervengono a gestire questa fase dei processi cognitivi. Gli automi imparano a distinguere le immagini dal rumore di fondo dei colori e delle macchie che possono essere trascurate; il loro apprendimento associa questa selezione di tratti rilevanti al riconoscimento concettuale degli oggetti che appaiono nelle immagini. Una prova empirica dello sforzo di calcolo richiesto per eseguire questo compito è stata offerta da Google con l’esperimento di identificazione delle immagini dei gatti attraverso dieci milioni di fotogrammi presi da YouTube. La rete neurale è stata ottenuta collegando 16 mila processori, e ha mostrato l’accuratezza di cui è capace riconoscendo ventimila gatti, con un livello di correttezza doppio a quello registrato in qualunque test precedente.
Le difficoltà che si incontrano in una prova di questo genere sono di due tipi: individuare l’immagine di un gatto e capire che l’oggetto isolato è un gatto. Le istruzioni che compongono il pattern iconografico dei gatti devono permettere di riconoscere i pixel corretti e staccarli da tutti gli altri nel flusso ottico in ingresso dalla telecamera: un’impresa paragonabile a quella di collegare i puntini giusti all’interno dell’«effetto neve» sul televisore, quando non ci sono canali sintonizzati.
Per isolare la figura di un gatto nei milioni di pixel colorati che sfrecciano per il canale ottico occorre una strategia organica di analisi sui dettagli e di sintesi complessiva, paragonabile al colpo d’occhio del maestro di scacchi. Vincere nel gioco «trova il gattino» dentro i video di YouTube è come ottenere uno scacco matto, ingegnerizzando il procedimento di integrazione del particolare nello scenario complessivo della scacchiera – quello che il campione esegue per istinto dopo anni di allenamento, e centinaia o migliaia di ore dietro le torri e gli alfieri.
Chi, come me, falliva nella ricerca delle sette differenze sulla Settimana Enigmistica è tagliato fuori dai lauti compensi di Google. Non è un mondo per astigmatici.