Google trabocca dalla cornice del monitor. Gli occhiali e le macchine che si guidano da sole sono il fenomeno più appariscente di questa escursione nel mondo reale. Ma da tempo la curiosità del motore di ricerca si è spinta al di fuori dei confini dei documenti digitali che da quindici anni archivia nei suoi datacenter. Dal 26 settembre il movimento che ha condotto Google a occuparsi degli oggetti e delle persone che affollano l’universo offline si è ufficializzato con l’aggiornamento Hummingbird. Sebbene a Mountain View ritocchino con frequenza quotidiana tutti gli algoritmi da cui sono gestiti i servizi delle varie piattaforme collegate al motore, le evoluzioni più significative vengono presentate al pubblico con un nome che renda riconoscibile la rilevanza della loro implementazione per i comportamenti del dispositivo di ricerca. Gli ultimi aggiornamenti di grandi dimensioni che si sono succeduti dal 2010 sono stati battezzati Caffeine, Panda e Penguin. Hummingbird popola lo zoo di Google con un nuovo animale, il colibrì, ma a detta di Amit Singhal (responsabile del team degli algoritmi di ranking) rappresenta l’evoluzione più radicale compiuta dal software del motore dal tempo della sua fondazione.Google smette di aggirarsi tra i testi elettronici come un topo da biblioteca informatico per passare alla schedatura di due dimensioni nuove: la credibilità dei contenuti e l’affidabilità degli autori. Il suo dominio non è più soltanto quello della citazione reciproca con i link tra le pagine digitali, per includere quello della domanda sistematica sulla verità delle rappresentazioni e sull’autenticità degli individui che le divulgano. Quello che è andato perduto nella professionalità delle testate giornalistiche con le dismissioni degli uffici di fatc checking vuole essere recuperato dal lato del calcolo tramite l’interrogazione dei big data.
Da quando il suo sistema di raccolta e di analisi dei dati si è preparato ad invadere la dimensione offline, Google – come la natura di Eraclito – ha cominciato a nascondersi. Per diversi giorni è circolata la notizia che Mountain View stesse costruendo una chiatta gigantesca di fronte alla baia di San Francisco, senza che nessuno conoscesse la destinazione cui sarebbe stata adibita. Solo pochi giorni fa Google ha preso ufficialmente posizione sul tema, svelando che si tratta di un edificio destinato alla sperimentazione di nuove tecnologie.
Ma la comunicazione relativa all’aggiornamento Hummingbird appare ancora più inconsueta rispetto alla tradizione: l’annuncio è stato pronunciato da Amit Singhal all’evento per il 15° anniversario della nascita di Google, senza essere preceduto da nessun comunicato stampa e da nessuna forma di presentazione sui blog ufficiali. Per di più, il responsabile del team di sviluppo per l’algoritmo del ranking, ha sottolineato che l’evoluzione impressa al software del motore è la più intensa che si sia mai registrata nel corso della storia di Google. Questa miscela di valutazioni dirompenti e di reticenza esplicativa ha fatto sospettare ad alcuni critici che Hummingbird rasenti il mito, e che in fondo non sia nulla di più che un’etichetta per indicare la collezione delle trasformazioni già messe in atto da Mountain View nell’ultimo anno e mezzo di attività.
La storia che Singhal ha raccontato durante l’evento del 26 settembre riguarda l’intelligenza del motore nella fase di ascolto e di comprensione delle domande degli utenti. In particolare, Google sarebbe preoccupato di interpretare l’esigenza informativa che l’utente rappresenta attraverso le cosiddette «stringhe di interrogazione lunghe», quelle che esprimono una domanda non per rintracciare una collezione di documenti più o meno pertinenti, ma per ottenere una risposta definitoria o esplicativa. Da questa esigenza il team di sviluppo ha mosso verso una riformulazione generale del modo di intercettare il senso delle questioni poste dai ricercatori, dietro qualunque espressione linguistica ambigua. Se Paolo imputa il termine «polo» nel box di interrogazione sta seguendo un’indagine che riguarda una localizzazione geografica? O un famoso navigatore veneziano? O un’automobile? O un capo di abbigliamento? O una caramella? L’interpretazione dell’esigenza informativa non può emergere solo dalla lettura lessicale della domanda, ma esige che il software intuisca gli interessi di Paolo setacciando la storia delle query inserite in precedenza, con l’assunzione che il futuro somigli al passato; deve conoscere l’orientamento dell’attenzione degli amici di Paolo, per inferire dalle necessità della sua vita sociale quali saranno le nozioni di cui ha bisogno; deve derivare dalle indicazioni degli opinion leader i trend di conversazione che allo stato dell’arte occupano il focus del dibattito.
La ricostruzione della cronologia personale delle ricerche è un percorso avviato da Google già dal 2005; l’inclusione dello strato sociale invece è un contributo più recente, che proviene dall’evidenza del successo planetario di Facebook e che ha preso forma nell’universo di Mountain View con il rilascio della piattaforma di G+ e con la revisione della policy sulla privacy del 1° novembre 2011. L’apparizione dei soggetti, con la loro esperienza personale e con la loro vita di comunità, ha introdotto nel mondo ordinato della configurazione originaria del motore di ricerca, un’intera nuova dimensione della realtà. La versione di Google implementata nel 1998 con l’algoritmo PageRank era l’incarnazione digitale di un topo da biblioteca. Il motore – anzi, la sua componente esplorativa della Rete, il bot – censiva pagina per pagina tutti i documenti elettronici rintracciati su Internet: leggeva i loro contenuti alla ricerca delle citazioni reciproche, i link, e li metteva in una scatola dedicata a contarli e a pesarli. Non tutti i link sono uguali, perché il foglio in cui si trovano può essere più o meno autorevole. Nel mondo offline, se Paolo scrive un saggio potrà contare su fama e onori del tutto diversi, secondo che il suo lavoro venga citato dal suo compagno di banco, o dal suo professore, o dal Corriere della Sera, o dall’Enciclopedia Britannica. Ciascuna di queste fonti lascia una traccia contrassegnata dal sigillo del suo prestigio. I link del mondo online si comportano con uno schema analogo, e possono essere pesati dall’algoritmo del motore di ricerca secondo una procedura ricorsiva. Wikipedia, per esempio, vanta moltissimi link in entrata e molti meno in uscita: questa struttura formale permette di comprendere quale sia il suo ruolo nella morfologia generale della Rete.
Questo universo di oggetti era fatto solo di parole e di pagine; le persone erano assenze metafisiche e inutilmente confuse. Non importa chi fosse l’autore di una pagina e quali attributi di credibilità gli venissero riconosciuti nel mondo on- e offline. Il merito si calcolava solo sulla base del grafo dei link, fatto di espressioni lessicali e di citazioni. L’ingresso della storia personale e dei legami sociali ha sovvertito l’organizzazione imperturbabile degli scaffali di documenti digitali, esigendo un salto dalle parole alle cose, dai nomi agli individui. Google ha dovuto cominciare a preoccuparsi non solo di cosa gli scrittori online ritengono rilevante, ma anche di controllare quali siano gli oggetti di cui parlano nel mondo reale, e quale sia l’affidabilità della persona fisica che parla e che lascia tracce documentali.
Knowledge Graph è l’archivio e il sistema nervoso di correlazioni tra gli oggetti; G+, AuthorRank e TrustRank sono l’anagrafe delle persone e la rappresentazione del loro grafo sociale.
Per un certo verso la fondazione di Knowledge Graph ha coinciso con un salto cognitivo paragonabile a quello che viene eseguito da un turista che abbia finora esplorato la città solo in metrò, mappandola sulla base dei nomi delle fermate – e che d’improvviso decida di risalire in superficie per dare un’occhiata a quali entità corrispondano le etichette delle stazioni. Dalla figura lineare del tracciato ferroviario si trova catapultato nel tessuto urbano reale, con l’intrico delle vie e delle piazze, con il vissuto concreto degli abitanti e del loro uso effettivo, indisciplinato, creativo, della città. Lo schema di lettura deve crescere di complessità in modo vertiginoso. Molti oggetti del centro abitato sono contrassegnati dal nome della stessa fermata, come la «polo» della domanda di Paolo può corrispondere a differenti esigenze informative. Nel dicembre 2012 Knowledge Graph censiva 570 milioni di entità, 18 miliardi di fatti e relazioni, organizzate in triple di soggetti, di predicati e di oggetti. L’ossessione per le keyword perseguita per anni dal motore di ricerca e dagli esperti di ottimizzazione per i motori di ricerca, sembra avviata verso la convalescenza e la guarigione – rappresentata dalla nuova fase della ricerca «semantica».
I soggetti che parlano delle entità circolanti nella città in superficie sono a loro volta individui fisici. Paolo entra in scena nell’esperienza del motore di ricerca con un grado di realtà paragonabile a quella dei documenti che ha scritto e degli oggetti di cui parla. La sua personalità in Rete si esprime attraverso la qualità dei suoi contenuti (l’originalità, la struttura sintattica, il lessico, la profondità delle argomentazioni, ecc.). Il problema è sapere dietro quanti profili differenti, attivi su varie piattaforme di social network, siti, blog, si esprima lo stesso Paolo. G+ oggi conta mezzo miliardo di utenti iscritti e deve rispondere a questo interrogativo, funzionando come un meccanismo di validazione universale delle identità reali.
Ma il riconoscimento dei soggetti autorali è solo il primo passaggio verso la stima della loro competenza e della loro influenza sui pari che popolano la loro rete sociale. Il TrustRank è l’insieme di calcoli che permettono di valutare la fiducia riposta in Paolo dai suoi amici, dai suoi conoscenti, e dalle cerchie sempre più lontane di contatti – fino agli sconosciuti che possono essere coinvolti solo dalla rilevanza effettiva dei contributi pubblicati. Lo schema di interpretazione della reputazione dei soggetti si mostra come un’estensione del principio di simmetria che vige in eBay tra chi acquista e chi vende un bene. Entrambi sono invitati ad esprimere un giudizio sul partner della transazione, sulla sua onestà, sulla sua efficienza e sulla sua affidabilità nell’esecuzione delle procedure di interazione. Per raggiungere questo grado di bilanciamento Google deve rintracciare, in via di principio in tutti i luoghi disponibili in Rete, le testimonianze che gli utenti rilasciano spontaneamente gli uni sugli altri. L’influenza di Paolo può essere esaminata sia sommando la quantità di altri utenti che parlano di lui, sia misurando la profondità del loro coinvolgimento con l’intensità e la frequenza delle loro conversazioni sui temi da lui proposti.
La Rete è piena di spazzatura e l’intenzione di Google è sempre stata quella di individuare risposte rilevanti per le interrogazioni degli utenti. A partire dall’aggiornamento Florida, fino ai recenti Panda e Penguin, si è scatenata una rincorsa agli armamenti tra il motore e gli esperti di ottimizzazione, da un lato per dare la caccia alle tecniche di infiltrazione dei pubblicitari nel segmento più nobile dei risultati – la mitica prima pagina di Google – e dall’altro lato per trovare espedienti tecnici capaci di aggirare i controlli del software e imporre pagine promozionali nel listato dei documenti più pertinenti. Il passaggio di Hummingbird rappresenta un cambio radicale di paradigma da parte di Google, che abbandona la vocazione del topo di biblioteca, abbandona gli archivi solenni e silenziosi dei documenti – per gettarsi nel tumulto degli oggetti, delle persone, dei fatti reali. Al rigore del bibliografo si sostituisce da un lato la disciplina dell’enciclopedista e dall’altro la curiosità dello storico, del giornalista, del sociologo.
Google non crede più nell’analogia tra la Rete e il mondo compassato degli accademici, dei bibliofili, dei ricercatori scientifici: la fatica di Tantalo nella guerra contro lo spam, e il successo planetario dei social media, hanno imposto un ripensamento radicale del modello dell’information retrieval. Google non è più il burocrate dei testi, delle citazioni, dei link, dei dizionari, dei lessici controllati, delle parole-chiave. Nella nuova età del motore, nella sua fase di maturità, a Mountain View si stanno chiedendo in che modo si possa modellizzare il mondo reale, rappresentandolo con i dispositivi delle mappe, delle celle per smartphone, degli occhiali, delle automobili che si guidano da sole. Google indossa i panni del giornalista e passa dalla parte di chi interroga, tempestando tutti di domande su quali siano i fatti, su come stiano le cose, su chi sia ciascuno e chi sia amico di chi, investigando, dubitando, sospettando, congetturando: è lui oggi il più grande fact checker del pianeta. Il motore non vuole più un’Internet dei documenti, ma una rete concettuale vasta come il mondo, un universo trasparente al linguaggio, una realtà trasformata in corpo glorioso, innervata di significati, illuminata di interpretazioni plurali, trasfigurata in puro senso, senza più ombre.
Ma quando si passa dal dominio dell’archivistica a quello della verità si getta la maschera e si dichiara la natura autentica del progetto. Se questo è il piano della discussione, si ammette che non ci si muove nell’ambito degli strumenti ma si lavora in quello dei fini, dei progetti politici e antropologici. Come insegnano gli Illuministi (e tutti i loro successori, da Marx a Weber, a Freud, allo strutturalismo e al post-strutturalismo contemporanei) la verità è una questione di descrizione almeno quanto di prescrizione. La proposta di una traduzione del mondo reale in termini di informazione non è una finzione metodologica e non è un dispositivo innocente di interazione con l’esperienza. È una forma di pensiero, di pianificazione delle decisioni, di lettura dei fatti: è un dispositivo politico.
Per chi avesse qualche dubbio, varrebbe la pena di fare un ripasso del datagate e delle sue conseguenze, che stanno venendo alla luce in questi mesi. Buona lettura.