La terrificante sequenza dell’attentato alla redazione del settimanale satirico francese Charlie Hebdo, seguito da quello al supermercato kosher a Porte de Vincennes spinge con forza cittadini, mezzi di comunicazione e politici a occuparsi del terrorismo e del modo migliore per prevenire altri eventi simili.
Non possiamo stupirci del fatto che nell’immediato le reazioni politiche e civili siano un misto di razionalità ed emotività, sperabilmente con una proporzione crescente per la prima. Alcuni politici e commentatori hanno immediatamente proposto una restrizione del trattato di Schengen sulla libera circolazione delle persone all’interno dei paesi europei aderenti, con il fine di identificare i movimenti di potenziali attentatori all’interno delle masse smisurate di cittadini che si spostano ogni anno da un paese all’altro.
Più che il tema in sé della libera circolazione delle persone, mi sembra che la questione principale stia nell’utilizzo efficiente dei dati per ricavare informazione utile, volta a identificare nella maniera più precisa possibile le potenziali minacce di stampo terroristico. Sotto questo profilo, più che limitare l’applicazione degli accordi di Schengen, è necessario mettere in comune i dati tra gli organismi preposti alla sicurezza nei diversi paesi europei. Il primo esempio è quello dei dati sui passeggeri nei trasporti aerei, che possono essere combinati con altri database al fine di identificare meglio le potenziali minacce.
Anche nell’ambito dei cosiddetti “big data”, che secondo qualche resoconto giornalistico affrettato sono in grado di offrire risposte immediate e precise a ogni possibile domanda, vale il principio statistico “da praticoni” conosciuto con la sigla Gigo (Garbage in Garbage out: spazzatura dentro, spazzatura fuori): dati scadenti non possono che portare ad analisi altrettanto scadenti. Ciò vale anche per le analisi finalizzate all’identificazione di eventi “rari” come le minacce terroristiche. Solo con dati sufficientemente esaurienti è possibile minimizzare i due tipi di errori possibili: prendere misure eccessive per una minaccia inesistente, e (soprattutto) sottovalutare una minaccia concreta.
Per questo ordine di ragioni, sia il ministro degli Interni francese Cazeneuve che il presidente del Consiglio europeo Tusk hanno rivolto un appello al Parlamento europeo perché abbandoni i tentativi di bloccare una direttiva che porti allo scambio automatico dei dati sul trasporto di passeggeri tra paesi UE (Pnr, Passenger Name Record). Nel passato il Parlamento UE si è opposto alla proposta di direttiva in quanto intravedeva un’infrazione della privacy dei cittadini in mancanza di vantaggi concreti dal punto di vista della prevenzione di atti terroristici.
L’INFORMAZIONE (UTILE) CHE NON TI ASPETTI
La tentazione di simpatizzare per la difesa della privacy – prescindendo per quanto possibile dalla densità emotiva di questi giorni – si scontra però con il ragionamento relativo alla necessità di massimizzare ex ante la possibilità di incrociare dati appartenenti a domini diversi, in modo tale da ricavare vera informazione utile. Non possiamo certamente nasconderci il rischio di essere sommersi dai dati, ma il principio Gigo dovrebbe illuminarci a proposito del rischio di avere molti dati che restano poco utili se non vengono incrociati con altri, con il fine di identificare pattern sospetti da indagare ulteriormente. Detto in altri termini, esistono spesso sinergie tra dati di provenienza diversa, che devono essere combinati per produrre informazioni utilizzabili: il vantaggio informativo connesso al database X è sistematicamente più alto se può essere incrociato con il database Y.
A questo proposito l’analisi dei dati ha sempre un aspetto di serendipity che non deve essere trascurato. Con serendipity intendo la possibilità di scoprire qualcosa che è diverso da ciò che ex ante ci si attendeva di trovare, ma che comunque è importante rispetto al problema di partenza che ci ha indotti “a cercare”. Riguardo al caso in questione, tipicamente non sono noti a priori il modo e la direzione in cui nuovi dati connessi ai precedenti influiscano sulla risposta finale, ad esempio sull’identificazione di potenziali aderenti a gruppi terroristici.