Quante bugie nelle ricerche sull’informazione online

Quante bugie nelle ricerche sull’informazione online

L’insuccesso del collocamento azionario di Facebook ha promosso due processi di riflessione critica sulla figura di Zuckerberg e sul modello di business che ha sviluppato sulla sua piattaforma, destinati a restaurare i diritti del buon senso nel mercato dei social media. I bilanci presentati da Menlo Park sul secondo quarto del 2012  «non hanno convinto Wall Street» sulla solidità del modello di sviluppo fondato sull’advertising. Nonostante l’atteggiamento trionfalistico con cui Zuckerberg ha cercato di lanciare la notizia che lo schema pubblicitario delle sponsored stories garantisce a Facebook un fatturato di «un milione di dollari al giorno» , è risultato chiaro che il social network riesce ad incassare solo «una media di 1,32 dollari per utente», contro gli oltre 9 dollari di Google, l’1,84 di LinkedIn e l’1,74 di Yahoo!. Il primo bilancio pubblico di Facebook ha messo in luce che gli utenti non si trasformano automaticamente in ricavi economici: volumi anche incredibili di utenti registrati, come i 950 milioni d iscritti ai servizi di Facebook, e il traffico di interazioni che essi possono generare, non sono indici convertibili in valore finanziario. E fin qui riconosciamo al buon senso quello che gli spetta.

Le azioni di Facebook «hanno perso oltre il 40% del loro valore» dal momento del collocamento alla fine di maggio, e il tracollo secondo alcuni imporrebbe a Zuckerberg di valutare una svolta radicale nel modello di business, se non addirittura una riflessione sull’opportunità di «rinunciare all’incarico di Ceo». Quello che appare chiaro è che l’implementazione del modello pubblicitario fondato sugli influenzatori non vanta la stessa efficacia dell’advertising correlato alle query degli utenti, su cui gravita il dispositivo AdWords di Google. La domanda che occorre porsi è se il modello sia poco efficace in generale, o se sia l’implementazione specifica di Facebook a non essere riuscita a coglierne le potenzialità.

EdgeRank è l’algoritmo incaricato di individuare il tipo di relazioni che intercorrono tra gli utenti del Sistema, verificando quanto siano intense e in che modo siano direzionate. Il suo compito è quello di analizzare il grafo sociale, clusterizzare le comunità locali, e qui trasformare gli individui più influenti in advisor inconsapevoli delle pagine brand con cui hanno interagito. Nel corso del mese di giugno Facebook ha «patteggiato un risarcimento di dieci milioni di dollari» con il tribunale della California per poter continuare a utilizzare i profili degli utenti come promotori involontari dei prodotti e dei marchi che investono sponsored stories.

L’annuncio promozionale che viene elaborato dal software presenta la forma di un post in cui viene notificato all’utente che un amico della sua cerchia sociale ha premiato con un like la pagina del brand propagandato. Una prima criticità può essere imputata al meccanismo: solo raramente l’algoritmo riesce davvero a identificare i soggetti in grado di influenzare gli amici sul tema della proposta commerciale dell’inserzionista. La seconda difficoltà è che se anche il meccanismo di calcolo fosse in grado di raggiungere una maggiore correttezza previsionale, comunque non potrebbe iniettare un’efficacia causale nel messaggio sulla bacheca dell’utente – qualora lo scopo dell’investitore non fosse semplicemente accumulare un maggior numero di fan sulla propria pagina Facebook, ma incrementare il numero dei clienti che acquistano.

La prima criticità può essere una conseguenza della povertà di parametri che vengono esaminati dal software. EdgeRank considera soprattutto tre fattori: la quantità di interazioni tra gli utenti, la qualità delle interazioni (like, commenti, clic, ecc., dispongono ciascuno di un “peso” differente), la distanza cronometrica delle interazioni. Se la quantità e la raffinatezza dei parametri aumentasse, le predizioni del software potrebbero migliorare. Naturalmente se si condividono le preoccupazioni epistemologiche di Weber, di Ginzburg o di Jay Gould, si arriverà alla conclusione che nessuna procedura di calcolo disporrà mai delle credenziali necessarie per predire eventi come quelli coinvolti dalle relazioni personali. Il decorso storico non risponde a leggi di tipo fisico, che permettono di comprimere la sequenza dei fatti in schemi di cui si può conoscere la ripetibilità senza la ricostruzione empirica dell’accaduto.

Il secondo nodo critico insiste sull’oggetto stesso di ciò che può essere analizzato dal software. Anche ipotizzando la possibilità di costruire un algoritmo così sofisticato da generare divinazioni corrette, il contenuto delle sue previsioni non potrebbe essere l’individuazione di rapporti di influenza effettiva, ma ciò che i sociologi chiamano il capitale sociale di ognuno di noi. Nel corso del mese di marzo «Altimeter» ha pubblicato un paper con un esame comparativo di diversi procedimenti per calcolare il valore di influenza degli individui in Rete, come Klout, PeerIndex o Radian6. L’assunto è che l’influenza si configuri come un nesso causale tra l’espressione del parere da parte di un soggetto, e la modificazione del comportamento di coloro che sono stati raggiunti dal messaggio, portandoli a cambiare la loro opinione o a comprare un prodotto.

Secondo la definizione – ormai classica – di Bourdieu, il capitale sociale è l’insieme delle risorse che sono legate al possesso di una rete duratura di relazioni più o meno istituzionalizzate di connessione e di riconoscimento reciproco. Secondo Coleman il capitale sociale si esplicita nella struttura di attese e obbligazioni reciproche, nel sistema di canali di informazione, nelle norme e nelle sanzioni effettive che compaiono nel gruppo. In altre parole, ciò che può essere misurato è l’insieme delle condizioni che permettono l’esercizio dell’influenza tra gli individui, la possibilità che l’ascendente si metta in funzione e provochi effetti causali – ma non se e quando questa virtualità si convertirà in un’azione effettiva. La detenzione di un capitale sociale non include il fatto che venga davvero investito o che si materializzino le circostanze necessarie al suo investimento – proprio come accade per il capitale finanziario o quello umano. L’oggetto della misurazione dell’influenza quindi è sia sfuggente rispetto all’insieme dei parametri che vengono impiegati per delinearlo, sia del tutto virtuale rispetto alla capacità, alla volontà e alle condizioni di contesto che ne agevolano la realizzazione.

Per esaminare un esempio è possibile studiare l’«indagine condotta da Image Building Digital» tra il primo marzo e il 15 giugno sugli influenzatori del panorama finanziario/bancario italiano, presentata a State of the Net il 21 giugno scorso. La ricerca condivide la definizione degli influenzatori come i soggetti «in grado di modificare le decisioni e le percezioni degli utenti»; il metodo per individuarli adotta un procedimento di calcolo quantitativo e una valutazione qualitativa. Il vaglio qualitativo viene eseguito a mano da una redazione, che si incarica di selezionare tra tutti i contenuti on-line solo quelli pertinenti al tema finanziario; al contempo, giudica anche il tono emotivo dei commenti che sono veicolati dalle cascate informative.

Il calcolo quantitativo è l’elemento più delicato dell’analisi. Per l’individuazione degli influenzatori tra le testate web vengono assunti come dati: il valore di PageRank, il numero di utenti unici giornalieri, la quantità di rilanci sui social media della notizia (like, condivisioni e commenti), il numero di link nei forum. Per l’individuazione degli influenzatori su Twitter invece sono stati calcolati il numero dei tweet e dei follower di un profilo, nonché la quantità dei retweet che ha saputo conquistarsi: questi ultimi vengono pesati attraverso un’operazione ricorsiva che stima il valore dei profili che hanno concesso il loro retweet.
Al fine di stabilire una classifica unitaria, è stato sviluppato un algoritmo che miscela fonti web e fonti Twitter, di cui naturalmente non viene svelata la formula.

La sintesi dell’esposizione metodologica non permette di comprendere fino in fondo i criteri adottati per l’analisi: non è chiaro se siano state esaminate tutte le notizie pubblicate dalle testate nel periodo considerato, se e quali siano stati i procedimenti di normalizzazione per paragonare i volumi molto differenti di produzione tra testate come Sole24Ore, Corriere e Webank, se e come sia stata discussa la distribuzione dei retweet tra i post dei profili esaminati – perché è intuitivo che corre una differenza rilevante tra l’autore di un solo post che suscita migliaia di retweet e quello che ne ottiene diverse centinaia ad ogni pubblicazione, anche se il loro numero complessivo può essere sostanzialmente lo stesso. 

La ricerca mescola due criteri convergenti, ma differenti:
-l’assunzione che il futuro sarà uguale al passato, e che quindi chi ha ottenuto molte citazioni o commenti in precedenza sarà sempre in grado di ottenerli di nuovo nella stessa misura;
– il postulato che le caratteristiche infrastrutturali di visibilità – come il PageRank – si convertano di per sé in condizioni operative di influenza effettiva.

I criteri sono abbastanza ragionevoli, ma incorrono nei due punti critici indicati sopra: la storia non è prevedibile e le condizioni di contesto sono il capitale sociale, non la struttura causale dell’azione di influenza. Sotto questo punto di vista l’indagine di Image Building Digital è un buon esempio delle ricerche che vengono condotte in Italia (e non solo) sugli influenzatori. Purtroppo non sembra esistere nel contesto del monitoraggio di Twitter una ricostruzione della morfologia delle reti e delle cerchie sociali, con una significativa riduzione della capacità di interpretare la stabilità e le potenzialità del capitale sociale stesso. L’assenza di questo passaggio differenzia poco lo studio di Image Building Digital dal monitoraggio dei dati grezzi sulle quantità massive di follower, tweet e retweet; deve invece essere ascritto a merito di questa esplorazione la consapevolezza dell’importanza del ruolo degli influenzatori e il riconoscimento che le reti sociali non sono un blob di masse omogenee di individui.

Un’indagine si definisce scientifica se chiunque prenda gli stessi dati e segua lo stesso metodo, potrà raggiungere gli stessi risultati. Una anomalia della ricerca di IBD appare proprio qui. Naturalmente sono stato afferrato dalla curiosità e ho voluto controllare come fosse posizionata Linkiesta e le firme del giornale nella classifica. Ebbene tmcrew.org, che vanta PageRank = 5, un traffico di utenti troppo basso per essere registrato dal servizio AdPlanner di Google e una quantità di post sui forum indicizzati da Google pari a 5 (tra il primo marzo e il 15 maggio), conquista una posizione più importante rispetto a Linkiesta, che ha PageRank = 5, un traffico dichiarato su AdPlanner di 650 mila visite al mese in Italia, e 468 post indicizzati nel periodo.

Ugualmente, il profilo di Fabrizio Goria su Twitter, FGoria, conta più 54 mila tweets postati e oltre 22 mila followers. Tra questi Greg Nazvanov è seguito da 640 mila follower, Foreign Policy da 219 mila, Fantasy Day Trader da 205 mila, Servizio Pubblico da 95 mila – per fare solo alcuni nomi. Eppure Goria non appare nemmeno nella lista di Image Building Digital, che laurea Bimbo Alieno campione della rete Twitter in Italia. Eppure il profilo di Bimbo Alieno conta su poco più di 5.600 follower, e su poco meno di 18 mila tweet pubblicati. L’algoritmo di calcolo naturalmente non viene esplicitato da IBD, ma non può che sorgere qualche perplessità sui risultati pubblicati.

Per tutti si propone il compito di individuare algoritmi sempre più efficaci nella rielaborazione matematica dei concetti sociologici della social network analysis, che in America è una disciplina capace di coinvolgere nella stessa misura professori universitari e grandi società private come Facebook, Twitter e Yahoo!. Siamo in attesa di una nuova fase culturale anche per l’Italia, in cui università e impresa privata riescono a individuare obiettivi e criteri di ricerca condivisi, in vista della crescita di tutti.

PRECISAZIONE DELLA IMAGE BUILDING DIGITAL:
Gentile Sig. Bottazzini,
desidero precisare, in quanto responsabile della società IB Digital e dello studio da Lei preso in esame, quanto segue.
Dietro allo studio esiste un algoritmo chiaro e riproducibile, basato su vari anni di esperienza e di affinamento sul campo e su un certosino lavoro di catalogazione “umana” dei post e delle fonti. Il contesto, la conferenza di Trieste, al quale mi è stato chiesto di intervenire ed esporre il nostro lavoro, non era consono a disquisizioni statistiche/algoritmiche. Ho parlato per breve tempo attenendomi scrupolosamente alla scaletta segnalatami. Avrei risposto con molta solerzia addentrandomi in particolari più tecnici, qualora l’interesse del pubblico presente l’avesse richiesto.
Noi abbiamo tutta la documentazione sulla metodologia e sugli algoritmi utilizzati, ed è a disposizione di chiunque voglia, insieme a noi, approfondire il tema.
Sono molto stupito del fatto che Lei possa quindi muovere critiche alla “scientificità” dell’approccio senza avere avuto modo di conoscerlo e di riprodurne i risultati (sono sempre molto disponibile e rispondo rapidamente). Sarebbe stato opportuno sentire gli autori dello studio per conoscerne i dettagli prima di muovere critiche: le avremmo accettate e vagliate insieme con interesse.
Proprio per rigore scientifico, poiché usi alle pubblicazioni su riviste specialistiche internazionali, in questo caso specifico ho sempre premesso il “secondo me” per i dati rilevati: non volevamo e non vogliamo costrire una “classifica” universale! L’algoritmo è declinato già oggi in differenti modi a seconda del settore, delle necessità e dei nostri clienti.
Noi non vogliamo inoltre “predire il futuro”, ma solo permettere agli operatori di un settore di avere un fotografia del recentissimo passato sul web e sui social, per aiutarli al meglio ad interpretare il mondo nel quale si muovono.
I nostri dati si evolvono quotidianamente e per i nostri clienti la mappatura ha un aggiornamento anche settimanale, proprio per il carattere di “fotografia” temporale e non predittiva. I cambiamenti dei valori in campo sono spesso repentini e le “graduatorie” si ribaltano con rapidità, proprio per il carattere mutevole del web e del sentiment degli utenti social.
Sarebbe buona prassi, e dimostrazione di serietà, prima di pubblicare interventi di questo tipo (che vorrebbero essere “scientifici”) documentarsi sulla storia professionale delle persone coinvolte (per quanto riguarda il sottoscritto, solo pochi esempi della vasta produzione scientifica:

http://academic.research.microsoft.com/Detail?entitytype=2&searchtype=2&id=1496867&orderBy=1http://inspirehep.net/search?p=author%3A%22P.Marenzoni.1%22)

Mi aspetto quindi di essere contattato quanto prima: qualora abbiate la volontà di pubblicare un articolo più fondato e suffragato da dati metodologicamente corretti.
Per concludere, e in base a quanto precisato, vorrei sapere: ma “le bugie” a cosa si riferiscono?
Porgo cordiali saluti
Paolo Marenzoni.
Image Building Digital

X