Un link ci seppellirà, tanto sa dove abitiamo

Un link ci seppellirà, tanto sa dove abitiamo

Economia dell’attenzione è una formula di conio abbastanza recente: ricorre nel titolo di un libro degli economisti Davenport e Beck del 2001. Il tema però era già dibattuto in America da decenni, in relazione con i problemi del sovraccarico di informazioni e con i costi sociali dello spam. La questione può essere posta in termini semplici: quanto maggiore è il numero di notizie cui ciascuno può accedere, tanto minore è l’attenzione che a ognuna di loro può essere concessa.

Dal punto di vista del destinatario la questione che si pone è: «come posso raggiungere i dati che sono rilevanti per me distinguendoli in questo gigantesco rumore informativo?»; dal punto di vista del produttore dei contenuti invece l’ansia diventa: «come posso comunicare con la nicchia che è interessata alle mie notizie, e conoscere nel dettaglio le sue curiosità e le sue attese, individuandola nella vastità anonima del pubblico dei mass media?». E’ trascorso più di un secolo da quando Wanamaker dichiarava «So benissimo che la metà dei soldi che spendo in pubblicità è sprecata; purtroppo però non so quale metà»; ora il successo planetario di Internet ha trasformato i termini della questione, dal momento che per la prima volta nella storia dei media sono divenute possibili due istanze: la personalizzazione dell’informazione e la comunicazione molti-a-molti.
La prima strategia è volta a consegnare a ogni classe di utenti – spingendosi al limite del singolo individuo – i contenuti, i servizi o i prodotti che lo attraggono. Un messaggio televisivo o radiofonico (ma vale anche per la carta stampata nelle edicole e nelle librerie) deve rivolgersi a tutti nella speranza di rintracciare tra la folla il gruppo di persone che nutrono interesse per il tema; il web invece può selezionare notizie e interlocutori, stabilendo la correlazione curiosità/dati grazie alle risposte dei motori di ricerca o tramite i meccanismi di profilazione dei contenuti sul sito.

La comunicazione molti-a-molti rappresenta la vera innovazione della Rete: ogni individuo può essere allo stesso tempo broadcaster e far parte del pubblico broadcast cui si è rivolto. E’ questa la situazione che si verifica nei social network: ogni individuo parla a tutti i membri della comunità alla quale appartiene, ed è a sua volta destinatario delle informazioni che vengono divulgate dagli altri. I grafi sociali sono i dispositivi matematici che permettono di elaborare una conoscenza sul tipo di oggetti che transitano in queste comunità, sull’interesse che avvolge ciascuno di loro e sull’intensità delle relazioni che stringono gli attori della tribù. Sia i meccanismi di personalizzazione, sia le analisi sui grafi sociali, intervengono nelle strategie di economia dell’attenzione intraprese dai protagonisti della Silicon Valley.

Le stime di Google indicano il numero complessivo delle pagine disponibili in Rete intorno ai 40 miliardi; le e-mail scambiate nel solo 2010 sarebbero state 107 trilioni, con una media di 294 miliardi di messaggi ogni giorno, il 25% dei quali dovrebbe essere riferita ad operazioni commerciali. Si aggiungano i 152 milioni di blog, i 25 miliardi di tweet spediti nel 2010, i 35 miliardi di contenuti scambiati su Facebook, i 2 miliardi di video guardati su YouTube ogni giorno e i 5 miliardi di foto ospitate da Flickr: le dimensioni del sovraccarico di informazioni sono degne dell’Apocalisse.

Il destino dell’attenzione è ancora più critico, se si considera che la sua intensità deve essere calcolata come inversamente proporzionale alla quantità di nozioni cui è esposta. Tra il 2005 e il 2008 è sorta persino una fondazione no-profit, l’Attention Trust che si proponeva di presidiare i due ambiti del problema: quello della tecnologia necessaria a sottoporre ad ogni utente web la porzione rilevante di informazione per i suoi interessi, e quello legale di tutela della privacy. L’obiettivo era quello di assicurare la felicità dell’utente e un accesso equo per le aziende ai silos di informazioni sugli utenti. Ci si può naturalmente chiedere quale potesse essere lo statuto di una felicità definita dalla possibilità per ciascuno di consumare di più e più in fretta; ma il naufragio dell’operazione è il sintomo che le difficoltà sorgevano già nel tentativo di tracciare il perimetro di problemi anche più elementari. In ogni caso imprese come Google, Facebook, Yahoo!, Amazon, hanno deciso di procedere ciascuna per proprio conto, regolandosi nei confronti dei dati personali degli utenti secondo codici approntati di volta in volta sulle proprie esigenze di business e sulla reazione scatenata nell’opinione pubblica.

La guerra dichiarata di recente alle content farm da parte di Google ha mostrato la vulnerabilità delle imprese che non dispongono in proprio dei silos con i dati sul comportamento degli utenti. Demand Media, Mahalo, Associated Content, Ezinearticles, sono società accomunate da un modello di business che individua gli argomenti più richiesti dal pubblico sui motori di ricerca, commissiona la produzione di pezzi preformattati su questi temi ad una falange di redattori freelance, poi pubblica il materiale su diversi portali, proprietari o vincolati da legami di partnership. Fino al gennaio 2011 quasi la metà dei contenuti veniva proposta nel listato delle prime dieci risposte da Google, assicurando un congruo numero di pagine viste e introiti pubblicitari conseguenti. Le content farm quindi contano sulla forza sociale che si esprime nei grandi numeri delle richieste collettive sul motore di ricerca, e sulla forza di individuazione dei risultati rilevanti da parte di Google.

L’ingegnosità del modello non ha garantito particolari risultati dal punto di vista del fatturato, ma ha permesso a Demand Media di riscuotere un successo travolgente al momento del collocamento in borsa il 25 gennaio scorso: la strategia è parassitaria rispetto alle risorse di Google, ma la promessa di intercettare l’interesse spontaneo del pubblico ha calamitato i favori degli investitori finanziari. D’altra parte l’operazione ha risvegliato la reazione di Google, che ha inaugurato una campagna di interventi (denominata “Panda”) sull’algoritmo di risposta, con l’obiettivo dichiarato di eliminare dal listato dei primi risultati i link ai contenuti delle content farm. Gli effetti degli scossoni assestati dal gigante di Mountain View agli elenchi di risultati si sono già manifestati nella tenuta economica delle società imputate: Mahalo ha ridotto del 10% il personale, mentre il titolo di Demand Media ha oscillato al ribasso di circa il 15%.

Gli obiettivi di Panda hanno richiesto un impegno da parte di Google in un dominio che non figura tra quelli frequentati tradizionalmente dal motore; per certi versi si potrebbe descrivere l’operazione come un’invasione di campo nei confronti del feudo di Facebook. L’intenzione infatti è quella di stigmatizzare i contenuti di scarsa qualità dal punto di vista dei lettori – sebbene dal punto di vista formale, del traffico veicolato e della convergenza dei link essi possano apparire ineccepibili. Per raggiungere un grado adeguato di certezza in questa valutazione il modo migliore è registrare nei grafi sociali il giudizio che viene attribuito ai contenuti: occorre eseguire una “analisi della reputazione” dei siti e dei singoli contenuti sospetti.

La strategia di Google fin dalle origini è sempre stata quella di attenersi ai dati di fatto della configurazione dei link e dei clic rilasciati dagli utenti. Il motore analizza tramite un software chiamato bot tutte le pagine digitali che vengono archiviate nei suoi database e che sono poi proposte nei listati di risposta. La quantità di link che puntano al file esaminato e la tipologia di siti da cui essi provengono permettono di definire il valore del contenuto in corso di indicizzazione. L’autorevolezza o l’esperienza dei siti da cui giungono i link vengono misurate con un’applicazione ricorsiva dello stesso metodo: il calcolo della quantità e la classificazione dei link che toccano le loro pagine.

Il sito Repubblica.it, per esempio, conta circa 220 mila link in ingresso validi per il calcolo, provenienti da più di 15 mila domini differenti; il portale italiano di Wikipedia vanta 137 mila link, da quasi 5 mila domini diversi. Il sito dell’Università Bocconi “vale” poco più di 25 mila link da 450 domini diversi, tra cui spiccano quelli di altre università, di istituzioni e di giornali economici. Basta questa ricognizione superficiale per farsi un’idea del modo in cui il motore di ricerca stima il grado di autorevolezza (generica) o di esperienza (tematica) di un sito e delle sue pagine. I link rappresentano un atto di fiducia di chi li inserisce nei confronti del destinatario: l’utente potrebbe uscire dal sito seguendo l’ancora e non tornare più indietro.

Ma il privilegio accordato alle referenze tra pagine digitali non è sufficiente ad assicurare un’analisi equilibrata della rilevanza dei contenuti proposti nel listato delle risposte rispetto alle query degli utenti. Per questo Google ha cominciato a tenere traccia di tutti i comportamenti del pubblico, al fine di raccogliere dati sperimentali sulle scelte compiute dagli utenti durante l’interazione con il motore. Mountain View è reticente intorno ai propri dati; tuttavia durante un’intervista concessa a Wired, Matt Cutts ha accennato al fatto che Google risponderebbe a più di 1 miliardo di interrogazioni ogni giorno: un repertorio formidabile di dati per registrare le reazioni del pubblico. Con numeri simili si potrebbe sospettare che siamo stati privati anche dell’originalità delle nostre domande: si può immaginare di chiedere qualcosa che non sia già venuto in mente ad altri? Per lo più in effetti il motore ci propone un set di risultati che non sono stati estratti dal database delle pagine indicizzate, bensì sono stati ripescati da richieste identiche già imputate da altri utenti. Tuttavia Google non si accontenta, e la formula magica “felicità dell’utente” torna a ripresentarsi: Dan Russell, uno dei manager del Gruppo, la usa come etichetta di alcune conferenze in cui illustra come vengono analizzati i dati dei visitatori del motore per migliorare le prestazioni dell’algoritmo di risposta.

La felicità dell’utente sboccia nel momento in cui la macchina è in grado di suggerire i link alle pagine che risolvono la sua esigenza informativa; l’apogeo della beatitudine si dovrebbe conquistare nel momento in cui la classifica delle prime risposte non è standard, né si limita a replicare i risultati già formulati per query precedenti, ma si disegna sul profilo degli interessi specifici dell’individuo. Ufficialmente la storia dei dispositivi di ricerca personalizzata comincia nel giugno del 2005 come un esperimento dei Google Labs. All’inizio del 2007 la funzione viene rilasciata a chiunque abbia effettuato l’accesso ai servizi che richiedono la registrazione; l’intervento si fonda sulla search history dell’utente, sui risultati che attirano di più i suoi clic e sui contenuti selezionati per la home page di iGoogle. Dall’aprile del 2007 però l’estensione dei dati che vengono raccolti trabocca oltre le query e i clic sul listato di risposte, e finisce per includere qualunque azione compiuta dall’utente sul web.

Il dispositivo naturalmente permette al titolare dell’account di interrompere la rilevazione da parte di Google; ma solo due anni più tardi questa ovvietà si dimostra soltanto apparente, perché dalla fine del 2009 la situazione si ribalta e la personalizzazione della ricerca viene estesa a tutti, registrati o meno, con conseguente prelievo di informazioni a carico di ciascuno. Potrebbe sembrare una situazione comica – ma ora l’unico modo per interrompere la riscossione di dati da parte di Google consiste nell’aprire un account sui servizi del Gruppo e nell’imporre una pausa alle funzioni di web history.

La web history archivia tutte le azioni compiute sulla Rete dall’utente, come appare in questo link. E’ la narrazione di tutte le curiosità, gli interessi, le esigenze informative di tipo professionale, sentimentale, casuale, che attraversano le giornate di un individuo. Il Sistema la trascrive in ordine cronologico, la analizza per tipologie di contenuti (come si evince dai filtri collocati nella spalla sinistra), e costruisce anche il diagramma degli interessi frequenti, della loro distribuzione nel corso del tempo (anno, settimana, giorno), esaminando anche cali e incrementi di attenzione (nella sezione Trends, non raffigurata nell’immagine). I dati che sono visualizzati nello screenshot registrano le azioni di un avatar – ovvero di un account cui non corrisponde nessuna persona fisica nel mondo reale. Pur considerando che non è così facile ingannare il sistema informativo di Google, fino a qualche tempo fa non sarebbe apparso così interessante per il motore approfondire la consistenza reale dell’autore delle navigazioni, delle ricerche e dei clic. Nell’ultimo anno però l’attenzione per i grafi sociali ha incentivato la curiosità del motore di ricerca per i domini di conoscenze tipici di Facebook e del suo modello di business. Se infatti Google dispone dei silos con le relazioni testuali tra i contenuti e i comportamenti degli utenti, il più grande social network del mondo conosce i rapporti personali tra gli individui, la loro intensità, il tipo di oggetti su cui si fonda la loro vitalità – e da poco meno di un anno ha cominciato a colonizzare il web.

Con l’algoritmo edge rank Facebook conosce la capacità degli individui di influenzare le nicchie di amici che si raccolgono a interagire su determinati argomenti; con il protocollo open graph può censire gli individui interessati alle pagine web, deducendo dalla loro autorevolezza e dal loro seguito la forza di propagazione che ottengono i contenuti. Il silos dei dati di cui dispone il social network può avviare il calcolo della reputazione di contenuti e di siti, misurando la loro capacità di richiamo dell’attenzione sulla base dell’attrazione esercitata dagli utenti che hanno cliccato sul “like”.

Google sottopone agli utenti i contenuti che corrispondono al massimo grado ai loro interessi dichiarati tramite la modalità passiva del comportamento: ricerche, clic, navigazione. Facebook invece individua gli interessi attraverso le dichiarazioni esplicite dei soggetti, registrate nei contenuti che scambiano con gli amici del grafo sociale, e con le “asserzioni” eseguite con il clic sui “like”. Il social network agisce su rapporti umani, non su contenuti; di conseguenza non si limita a censire gli interessi che gli utenti coltivano per proprio conto e di cui lasciano traccia con le loro azioni – ma può innescare attività di promozione e di divulgazione che intervengono su comunità la cui attenzione ha già mostrato inclinazioni positive. E’ quello che accade con la nuova piattaforma pubblicitaria il cui primo rilascio risale al 25 gennaio 2011: gli “opinion leader” delle varie nicchie possono inglobare i brand commerciali nei loro post, ed esercitare la loro influenza sugli amici in una situazione ibrida tra l’autorevolezza spontanea e la testimonianza prezzolata.

I dispositivi promozionali di Facebook mostrano un grado di efficacia più dirompente rispetto alle inserzioni tematiche di Google. AdWords espone gli annunci a pagamento agli utenti solo quando il loro contenuto è pertinente rispetto alla domanda che è stata sottoposta al motore; la comunicazione pubblicitaria è vissuta dal lettore come se fosse un’informazione aggiuntiva rispetto a quelle che si srotolano nell’elenco di risposte organiche, e con una natura commerciale del tutto dichiarata. L’atteggiamento di Google appare quindi più “passivo”, in attesa dell’iniziativa del visitatore che formula il suo interesse informativo. Ma la reazione che è stata approntata nei confronti delle content farm si iscrive in una ristrutturazione dell’assetto strategico del motore di ricerca. I “like” di Facebook che si propagano nel grafo sociale permettono di attingere ad una affermazione esplicita del pubblico intorno all’utilità dei contenuti: si tratta di un dato del massimo valore nell’indagine sulla rilevanza sperimentata dagli utenti nei confronti dei contenuti.

Google sta introducendo una serie di strumenti che insistono sulle valutazioni sociali: per esempio l’importanza assegnata ai contenuti che provengono dalla propria cerchia di relazioni con il filtro “social”, l’inserimento di una funzione che permette agli utenti di eliminare alcuni risultati dal listato segnalandoli al Sistema come spam. Ma l’acquisto della società fflick – specializzata nella “sentiment analysis” dei contenuti – il lancio il 21 marzo del servizio Hotpot, che diffonde agli amici di un utente le sue indicazioni su luoghi e servizi interessanti nel mondo reale, nonché l’intera strategia di “contextual discovery”, sembrano i sintomi almeno di un’estensione dei metodi di calcolo di Google. Ma al contempo, rivelano investimenti nell’espansione ulteriore dei silos di dati disponibili sugli utenti, e nelle tecniche di efficacia per la proposta di contenuti alla loro attenzione.

In generale Google e Facebook sembrano convergere verso una strategia comune, pur conservando ciascuno la propria identità originaria: Facebook mostra le potenzialità per allestire un motore di ricerca fondato su assiomi per il calcolo della rilevanza davvero alternativi a quelli di Google; Google, per converso, si sta preparando a costruire un sistema di rilevazione e di stoccaggio dei dati connessi alle dichiarazioni esplicite degli utenti e ai loro grafi sociali. In entrambi i casi si tratta di un’evoluzione diretta a catturare ritratti sempre più realistici degli interessi di ciascun individuo – e a costruire dispositivi volti a fermare l’attenzione su contenuti che gli utenti vorrebbero o dovranno conoscere (e possedere) per conservare il loro ruolo sociale nella comunità cui appartengono – nel grafo sociale in cui sono iscritti. Per questa ragione Google ha fatturato quasi 30 miliardi di dollari nel 2010 e ha raggiunto un valore di mercato di 149 miliardi di dollari, mentre quello di Facebook è stimato intorno ai 50 miliardi.

Sia Facebook sia Google hanno scelto un meccanismo di garanzia della privacy in cui sono gli individui a doversi fare carico della responsabilità di interdire o meno ai software il prelievo e l’archiviazione dei loro dati. Sia i metodi di monitoraggio dei comportamenti, sia quelli di incentivazione all’interazione sociale e alla condivisione di materiale, conducono ad una situazione in cui gli utenti sono forzati a trascrivere nei database degli erogatori dei servizi il ritratto consapevole e inconsapevole delle proprie abitudini e dei propri interessi.
I sistemi legislativi di tutto il mondo reagiscono da anni con isteria repressiva nei confronti di quelli che ritengono pericolosi attacchi al copyright, come il famoso video in cui Stephanie Lenz ritrae il figlio di 1 anno che balla nel girello al ritmo di una impercepibile Let’s Go Crazy di Prince nel sottofondo, e lo posta su YouTube per mostrarlo ai nonni; in Italia il mondo politico si agita da anni sulla minaccia delle intercettazioni telefoniche ordinate dalle procure. Eppure la trascrizione sistematica della nostra vita quotidiana nei server di Google e di Facebook passa inosservata senza che nessuno proponga nemmeno un dibattito informativo sull’argomento. In prima battuta si potrebbe pensare alla necessità di avvertire l’intera generazione dei teenager intorno alle conseguenze dell’indifferenza con cui consegnano una porzione vastissima della loro vita ai sistemi elettronici che li immergono nelle chat e nei giochi.

Ma basta riflettere un istante per scoprire che questa ingenuità non è riservata alle fasce più giovani, bensì investe tutti a qualunque fascia di età. In Italia Google stima che i visitatori di Facebook nel febbraio 2011 siano stati 25 milioni, il 48% dei quali ha più di 35 anni, il 16% più di 44. E’ facile immaginare che questo segmento del pubblico subisca le difficoltà di interazione con il Sistema molto più del 14% che ha meno di 24 anni. Ma la riflessione deve partire dal fatto che lo scambio proposto da Google e da Facebook non sembra al momento facilmente aggirabile. Le pagine web sono davvero decine di miliardi, le mail migliaia di miliardi, i post, i tweet, gli Sms ancora di più. Come si presume di potersi orientare in un caos informativo del genere senza la mediazione di questi servizi? Oppure si pensa di poter ripristinare un sistema economico in cui una ricerca legale invece di durare qualche ora con i dispositivi elettronici di consultazione delle sentenze e del corpo legale (solo la Cassazione Civile deposita in Italia ogni anno più di 30 mila sentenze, mentre la selva legale è composta da un numero di norme che non è nemmeno calcolato con precisione, tanto da aggirarsi tra le 50 e le 300 mila unità) richiede due o tre settimane in analisi di indici e fogli mobili? Quali clienti sarebbero pronti a pagare per questa dilatazione di tempi? Quale economia nazionale potrebbe sostenerne le conseguenze? Non sono i dettagli tecnici a dover essere ripensati, ma la concezione stessa della privacy. Tutti sono pronti a scambiare (parte dei) propri dati con gli strumenti di orientamento dell’attenzione di Google o di Facebook o dei loro emuli. Ma questi non sono più strumenti, bensì forme di pensiero e configurazioni economiche. L’indagine sulla privacy e sull’economia dell’attenzione sembra dissodare problemi di portata molto più ampia.

*Epistemologo e fondatore di Pquod

X