Chimica digitaleL’importanza crescente dei dati informatici sintetici

Sempre più software producono informazioni inedite imitando il mondo reale. Questi synthetic data saranno sempre più decisivi per sviluppare progetti di intelligenza artificiale. Tradotto: migliorerà la capacità di evitare incidenti per le vetture a guida autonoma e la difesa contro attacchi hacker per i sistemi di protezione online delle banche

Unsplash

Lo scorso 28 aprile, Synthesis AI – startup che si occupa dello sviluppo di una piattaforma che genera dati sintetici per addestrare sistemi di intelligenza artificiale – ha annunciato di aver raccolto 17 milioni di dollari in finanziamenti per il suo progetto.

I dati sintetici sono dati informatici che differiscono da quelli tradizionali perché vengono generati artificialmente e non sono raccolti in maniera “classica”. In pratica, vengono creati dal software “imitando” il mondo reale e producendo materiale inedito a partire da una base di informazioni raccolte manualmente (per esempio, semplici ricerche quantitative sul numero di incidenti in un certo tratto stradale). In questo modo, il prodotto che ne deriva risulta esente da qualsiasi tipo di relazione diretta con l’input originale.

In un mondo che richiede sempre più dati digitali per lo sviluppo tramite apprendimento automatico (machine learning) delle intelligenze artificiali, i vantaggi di questa tecnologia sono evidenti. Laddove i cosiddetti dati “reali” soffrono di diversi limiti legati al disordine e alle alterazioni dei campioni d’analisi presi come riferimento, i dati sintetici risultano incontaminati e rappresentano un espediente ottimale per la costruzione di dataset anche molto ampi. Inoltre, le nuove regolamentazioni in materia di protezione dei dati (come il Gdpr – General Data Protection Regulation – europeo) hanno reso sempre più complesse le modalità di raccolta e di trattamento in diversi paesi, ma i dati sintetici sono completamente esenti dalle normative sulla privacy e permettono di evitare problemi di natura legale.

I dati raccolti nel mondo reale si basano su scenari che sono già accaduti e comprendono le cosiddette Pii, personal identifiable information, le “informazioni di identificazione personale” relative allo status o all’operato di un determinato individuo. In ottica di raccolta dati per l’apprendimento automatico di una macchina, è abbastanza facile rimuovere le Pii dai dati che andranno a comporre il campione. Tuttavia, non è altrettanto semplice simulare, nel mondo reale, scenari specifici utili al proprio database: in caso si presentino tali scenari – detti edge cases, “casi limite” – la produzione autonoma di dati sintetici può fare la differenza.

Sebbene il concetto di synthetic data possa sembrare nuovo, in realtà esiste da quasi trent’anni. Il termine è stato coniato da Donald Rubin in un articolo pubblicato sul Journal of Official Statistics nel 1993, intitolato “Discussion: Statistical Disclosure Limitation”. Il focus della pubblicazione era la privatizzazione dei dati e riportava: «la proposta qui offerta è di non rilasciare microdati effettivi ma solo microdati sintetici, costruiti utilizzando imputazioni multiple in modo che possano essere validamente analizzati utilizzando un software statistico standard».

Ma perché tutta questa attenzione? Con il proliferare di realtà legate allo sviluppo di IA sta crescendo anche la domanda di dati sintetici. In particolare, l’industria dei veicoli a guida autonoma; più di qualunque altro, questo settore ha dimostrato i vantaggi dello sfruttamento di questa tipologia di dato e ha fatto da apripista per altre realtà, come quelle legate alle tecnologie di visione artificiale (come gli sviluppatori di droni o di telecamere di sicurezza).

I dati sintetici presentano però diversi limiti. Nei dataset prodotti “sinteticamente”, per garantire che il modello funzioni correttamente, questo genere di dati viene combinato con quello tradizionale. Gli esseri umani, insomma, ricoprono ancora un ruolo fondamentale: la mole di informazioni proveniente dal mondo reale contiene anche valori anomali di cui la controparte sintetica non può tenere conto. I dati raccolti dall’uomo rimangono il punto di partenza per il software utilizzato successivamente per creare matrici di dati sintetici e proprio per questo è importante assicurarsi che siano di qualità, in modo che anche quelli generati siano dello stesso calibro.

Allo stesso tempo, un modello di produzione di dataset così ben bilanciato non si traduce sempre e per forza in un’intelligenza artificiale totalmente equa. Come spiegato da agendadigitale.eu, se per esempio un’azienda di carte di credito stesse cercando di sviluppare un algoritmo IA per valutare i potenziali mutuatari, non eliminerebbe tutte le possibili combinazioni discriminatorie relative alle persone di etnia caucasica o a quelle di etnia afroamericana (prodotte da un campione che, per sua natura, sarà sempre “imperfetto”). Insomma, il rischio di discriminazione è sempre dietro l’angolo.

Questo mélange di dati assicura una crescita delle dimensioni del campione attraverso una produzione “sintetica” del computer veloce e a basso costo. Un altro aspetto da non sottovalutare è quello della sicurezza: oltre a giocare a vantaggio della privacy delle identità umane (come detto prima), il campione sintetico prodotto per l’apprendimento automatico di una determinata IA resta tendenzialmente migliore. Questo si traduce in una migliore capacità di evitare incidenti per le vetture a guida autonoma o in una maggiore difesa contro attacchi hacker per i sistemi di protezione online delle banche.

Non sorprende la previsione di Gartner (società di ricerca e consulenza tecnologica con sede nel Connecticut), secondo cui il 60% dei dati utilizzati per lo sviluppo di progetti di intelligenza artificiale e di analisi diventerà sintetico entro il 2024. Un altro sondaggio condotto dallo Steklov Institute of Mathematics di San Pietroburgo nel 2019 ha definito questa tecnologia come «una delle tecniche più promettenti in materia di intelligenza artificiale».