Aggregando i dati si può predire il futuro della gente

Privacy impossibile? Come stupirsi poi davanti al datagate di Obama

Nel 1995 l’Unione Europea introdusse una legislazione sulla privacy che definì “dato personale” qualsiasi tipo d’informazione che fosse in grado di identificare una persona, direttamente o indirettamente. I legislatori, a quanto sembra, pensavano a documenti con un numero d’identificazione, e decisero di proteggerli come se contenessero il nostro nome.

Oggi, la stessa definizione copre più tipologie d’informazione di quanto i legislatori europei avrebbero mai potuto immaginare – probabilmente molti di più di tutti i bit e byte presenti nel mondoall’epoca in cui estesero la legge.

Ecco cosa è successo. Primo, la quantità di dati creati ogni anno è cresciuta esponenzialmente: ha raggiunto i 2.8 zetabyte nel 2012, un numero che è enorme e che sarà raddoppiato ancora nel 2015, secondo le analisi dell’Idc. Di tutti questi dati, circa tre quarti sono generati da singoli individui che creano e spostano file digitali. Un tipico dipendente d’ufficio americano produce 1.8 milioni di megabyte di dati ogni anno. Ciò significa più o meno 5.000 megabyte al giorno, inclusi i film scaricati, i file Word, le email e i bit generati dai computer, dal momento che l’informazione viaggia attraverso reti mobili o attraverso la rete.

Gran parte di questi dati sono invisibili e sembrerebbero impersonali. Ma non è così. Ciò che la scienza moderna dei dati sta scoprendo è che, praticamente, ogni genere di dati può essere utilizzato, quasi come un’impronta, per identificare la persona che li ha creati: la vostra scelta di film su Netflix, la posizione emessa da segnali del telefono cellulare, persino il percorso delle vostre camminate registrate dalle telecamere di sorveglianza. Di conseguenza, più dati sono in circolazione, meno si può dire che siano privati, dal momento che la ricchezza di quei dati rende l’identificazione della persone “algoritmicamente possibile”, come dice Arvind Narayanan, scienziato informatico della Princeton University.

Siamo già su questa china. Le informazioni che, in passato, abbiamo considerato personali, come il nostro nome, l’indirizzo, o i registri delle carte di credito, sono già state vendute da broker di dati come la Acxiom, una società che possiede circa 1.500 dati singoli su un totale di circa 500 milioni di consumatori in tutto il mondo. Erano dati resi di dominio pubblico attraverso un sondaggio o al momento dell’abbonamento a un servizio come Sky.

Acxiom utilizza tutte le informazioni possibili: il modello della vostra auto, l’anno di immatricolazione, il reddito e gli investimenti compiuti, l’età, gli studi e il codice postale. Sono tutti criteri che permettono di inserire ognuno di voi in uno dei 70 gruppi, “PersonicX”, che rappresentano indicatori sommari di stili di vita, interessi e attività. «Avete appena finalizzato un divorzio o avete perso la casa? Questi eventi, che spostano persone da una classe di consumatori all’altra, sono d’interesse chiave per la Acxiom e i suoi clienti pubblicitari». La società afferma di essere in grado di analizzare dati e prevedere 3.000 differenti “propensioni”, come ad esempio la reazione di una persona a una marca piuttosto che un’altra.

Eppure, proprio questi broker di dati sono oggi considerati “datati”, in confronto a società specializzate sulla rete, come Facebook, che hanno reso automatica la raccolta d’informazioni personali e in tempo reale. Secondo le pubblicazioni finanziarie, al momento della sua prima quotazione in borsa Facebook archiviava circa 111 megabyte di foto e video per ognuno dei suoi utenti, che ora hanno superato il miliardo. Solo questo è un totale di 100 petabyte di informazioni personali. Del resto, in alcuni casi giudiziari sorti in Europa, gli utenti che hanno sporto querela contro Facebook hanno scoperto che gli archivi di Facebook sulle loro interazioni con il sito – inclusi messaggi di testo, cose cui hanno messo “like”, e indirizzi di computer che hanno utilizzato – raggiungono anche le 800 pagine stampate, aggiungendo così un altro paio di megabyte per utente.

Con un ritmo che preoccupa i promotori della privacy digitale, set di dati online e offline vengono ora collegati tra loro: lo scopo è aiutare i venditori a individuare adeguatamente i tipi di pubblicità in modo più preciso. A febbraio, Facebook ha annunciato un accordo con la Acxiom e altri broker per integrare i propri dati, collegando così le attività del mondo reale con quelle sulla rete. A una riunione per gli investitori a marzo, il direttore scientifico della Acxiom ha affermato che i dati in loro possesso sono ora in grado di essere correlati con il 90% dei profili sociali americani.

I set sono definiti “anonimizzati”, ma all’aumentare del numero dei dati considerati il concetto è sempre meno vero. Le società di telefonia cellulare, per esempio,agiscono così: registrano le posizioni degli utenti, poi eliminano il numero del cellulare e vendono set di dati aggregati a rivenditori o altri che siano interessanti negli spostamenti della gente. I ricercatori del MIT Yves-Alexandre de Montjoye e Cesar A. Hidalgo hanno mostrato come, anche quando i dati sulla posizione di un cellulare siano anonimi, bastino in realtà quattro differenti dati legati a una posizione per collegare il telefono a un singolo individuo.

Insomma, maggiore è il numero di dati personali resi disponibili, e più informativi diventano. Avendone a disposizione un numero adeguato, è persino possibile scoprire il futuro di una persona. L’anno scorso Adam Sadilek, un ricercatore della Rochester University, e John Krumm, un ingegnere del laboratorio di ricerca della Microsoft, hanno dimostrato di essere in grado di predire la posizione di una persona fino a 80 settimane in anticipo, con un’accuratezza dell’80%. Per raggiungere questo obiettivo, i due scienziati hanno analizzato «un set di dati immenso», raccogliendo 32.000 giorni di registrazioni Gps prese da 307 persone e 396 veicoli. Hanno poi immaginato le possibili applicazioni commerciali, come ad esempio annunci pubblicitari che dicano «avete bisogno di un taglio di capelli? In quattro giorni sarete nelle vicinanze di un salone che, in quel momento, avrà un’offerta speciale di $5».

Sadilek e Krumm hanno chiamato il loro sistema “Far Out” (lontano). E questa è un’ottima descrizione di dove i dati personali ci stanno portando.
 

*tratto da Mit Technology Review, pubblicato il 29 maggio 2013
 

Le newsletter de Linkiesta

X

Un altro formidabile modo di approfondire l’attualità politica, economica, culturale italiana e internazionale.

Iscriviti alle newsletter