Una delle immagini preferite dai giornalisti per illustrare gli articoli in cui si parla di Twitter è una balena che viene sostenuta sopra l’acqua da uno stormo di uccellini.
È un’illustrazione che il social network aveva escogitato nei primi mesi del successo di massa per giustificare la frequenza dei disservizi nell’accesso alla piattaforma: le prestazioni del Sistema sotto stress non sono mai state il suo punto di forza.
Anche se Twitter dopo sei anni di vita è diventato un colosso del mercato dei social media, le difficoltà non si sono ancora risolte. Twitter conta su 140 milioni di utenti attivi al mese, un miliardo di tweet postati ogni tre giorni, e un fatturato accumulato nel 2011 di 139,5 milioni di dollari; eppure i server sono ancora affetti dall’abitudine di crollare interrompendo il servizio di accesso e di dialogo tra gli utenti. Il 21 giugno si è verificata uno di queste crisi, che ha lasciato “al buio” milioni di utenti, soprattutto in America, e che ha innescato di nuovo il dibattito sul rapporto tra il social network e la circolazione delle informazioni su internet, non solo per i giornalisti professionisti.
Il termine firehose, «tubo antincendio» denota per Twitter il flusso dei 400 milioni di post che ogni giorno vengono pubblicati sulla sua piattaforma, e due società hanno stretto un accordo commerciale per potervi accedere. Datasift ospita lo storico della banca dati dal 2010, filtra le tipologie di contenuti che si presentano nei tweet, e li espone tramite API agli sviluppatori che ne fanno richiesta; Salesforce mostra i contenuti dei messaggi pubblici in tempo reale agli utenti del dispositivo di analisi Radian6. In concomitanza con la definizione di questi accordi, Twitter ha provveduto a restringere la libertà di accesso degli altri sviluppatori alle API della piattaforma, che in passato invece è sempre stata la più aperta alla costruzione di un ecosistema di applicazioni terze. In altre parole, Twitter permette di compiere analisi sui contenuti pubblicati ma non ne autorizza più la ri-pubblicazione.
L’interruzione del rapporto di syndacation con LinkedIn (la pubblicazione automatica dei tweet sulla bacheca del social network partner) è un esempio di questa strategia, che potrebbe essere diretta a massimizzare gli utili provenienti dalla pubblicità.
L’accordo con le due società esterne offre un asilo sicuro ai contenuti dei messaggi; ma la stessa sorte non è toccata alla gestione dei collegamenti tra gli utenti.
Secondo quanto è possibile dedurre da una dichiarazione del Centro Assistenza, l’attivazione di un software di rimozione dello spam sta producendo effetti non previsti su tutte le liste, con la scomparsa di follower in numero anche superiore a 10 per volta, o l’impossibilità di seguire qualcuno di cui si sono sottoscritti i feed. L’obiettivo di un dispositivo di riconoscimento dello spam è quello di eliminare (o almeno disincentivare) la costruzione di robot che popolino la piattaforma con scopi commerciali fraudolenti. Il rilascio di un meccanismo di advertising più efficiente presuppone un’analisi della rete sociale e delle sue relazioni purificata dai profili finti e dall’inquinamento del flusso di messaggi promozionali.
Il bot, o robot, è un dispositivo automatico che viene associato ad un profilo Twitter e che simula il comportamento di un utente umano, con lo scopo di eseguire scraping dei contenuti (il prelievo e la copiatura dei dati degli altri utenti) e l’invio massivo di comunicazioni pubblicitarie.
Il 29 marzo scorso Incapsula ha diffuso uno studio in cui mostra che il 51% del traffico web non è generato dalla navigazione di esseri umani, ma dall’attività di bot che eseguono i compiti più vari, dall’obiettivo onesto di indicizzare le pagine (nel 20% dei casi), all’esecuzione di hacking, di scraping, di spamming nei commenti, e di spionaggio (nel restante 31%). I risultati dell’indagine sono ottenuti tramite una metodologia di rilevamento a campione: sono stati esaminati i dati di accesso di mille siti clienti della società, che vantano una media tra 50 e 100mila visitatori unici al mese. Naturalmente è possibile discutere se questo panel abbia le carte in regola per essere una rappresentazione statisticamente rilevante di tutto quello che succede su una Rete che include oltre 640 milioni di siti.
L’8 giugno scorso ha riscosso una certa risonanza mediatica la ricerca di Camisani Calzolari sui finti follower dei brand che hanno aperto un profilo su Twitter: Corriere e Repubblica hanno dato evidenza ai risultati della sua indagine. Secondo il professore dello IULM esistono marchi – italiani e internazionali – che hanno composto la loro corte di follower con iniezioni di bot fino al 45% del totale.
Il fatto che esistano falsi profili di follower, e che siano pure tanti, è un fatto ben noto a tutti coloro che lavorano nel meraviglioso mondo del digitale: basta cercare su Google «acquistare follower» per farsene un’idea. La questione che suscita perplessità nell’operazione di Camisani Calzolari è la pretesa di etichettarla come ricerca scientifica. Nella descrizione della metodologia di indagine (che si può leggere al quinto e al sesto foglio di questo paper) il professore spiega che per dare la caccia ai bot è stato usato un bot, al quale sono state consegnate delle istruzioni per distinguere tra i suoi pari e gli utenti umani.
Tra le caratteristiche del comportamento umano appaiono l’inserimento di un’immagine nel profilo, di un indirizzo fisico, di una biografia, l’aver scritto più di 50 post, avere almeno 30 follower, usare la punteggiatura e gli hashtag. Quando non si presentano caratteristiche come queste, il bot sospetta di essere in presenza di un collega. Va da sé che il problema risiede proprio nella formulazione dei parametri, visto che Camisani Calzolari non indica nessun dato, né prelevato dagli Analytics di Twitter né fornito da una ricognizione fondata su interviste, per motivare la scelta. Twitter vanta oltre 500 milioni di utenti registrati, ma meno di 200 milioni sono «utenti attivi» – cioè corrispondono al tipo di parametri indicati nella ricerca.
Se selezionassimo tutti gli abitanti di Milano che hanno un nome ebraico, decidessimo che chi li porta deve appartenere alla stirpe ebraica, e poi eseguissimo il censimento eponimo all’anagrafe, avremmo condotto uno studio che vanta lo stesso genere di scientificità dell’indagine di Camisani Calzolari (oltre ad aver manifestato dubbie preoccupazioni etnografiche).
La rilevanza dei meccanismi anti-spam e del calcolo delle relazioni effettive tra gli utenti appare decisivo sia per il meccanismo di advertising profilato all’interno della piattaforma Twitter, sia per compiere un passo avanti nella definizione delle strategie di marketing e di valutazione degli obiettivi raggiunti da parte dei brand. Il numero di follower è un parametro troppo ambiguo per offrire qualche tipo di garanzia sul successo della comunicazione on-line.
L’indagine sulla morfologia del network dei follower, l’identificazione dei nodi che tendono a rilanciare le informazioni con maggiore successo, raggiungendo un insieme più vasto e più pertinente di utenti interessati, garantiscono un approccio più razionale ed efficiente all’investimento sui social media.
Il problema non è sapere in quanti siamo alla festa, né quello di dare la caccia ai replicanti che cercano di imbucarsi; la questione è capire a chi comunicare le informazioni che si intendono divulgare, e soprattutto da chi ascoltare proposte e feedback, perché il party sia davvero divertente.
In America il dibattito tra Gladwell e Watts su questo tema si prolunga da quasi dieci anni – mentre da noi la SNA e la scienza delle reti stanno solo muovendo i primi passi. Ogni contributo accademico in questa direzione, per sensibilizzare l’opinione pubblica e per elaborare algoritmi efficaci, sarebbe ben accetto. Sarebbe tempo invece di relegare la caccia alle streghe-bot con i metodi dell’Inquisizione agli archivi del medioevo digitale.