Azienda smartIl data scientist non è più l’unica figura professionale dell’AI

A rendere complesso il mondo dell’intelligenza artificiale contribuisce anche la difficoltà a definirne le varie mansioni, spesso caratterizzate da un divario tra aspettative e realtà lavorative. In questo estratto de “AI Management. Strategie e approcci in azienda” (Egea) Lorenzo Diaferia, Leonardo Maria De Rossi e Gianluca Salviotti offrono una riflessione sull’evoluzione della professione

unsplash

Viene da chiederselo. Nel 2023, il data scientist è ancora il lavoro più sexy del ventunesimo secolo? Pur alla luce di tutti i problemi legati all’operare in ambienti non più vergini, che hanno forse fatto perdere parte del fascino iniziale, la figura del data scientist continua ad attrarre grande attenzione ed interesse. A far riflettere su quanto sia però difficile definire con esattezza il perimetro e le mansioni di un data scientist in un moderno contesto strutturato, ci pensano però alcuni dati relativi al comportamento professionale e ai livelli di soddisfazione per la professione riscontrati negli anni.

Un rapido sguardo ad alcuni numeri rivela due fenomeni strettamente correlati. Il primo è che tra le promesse iniziali, che promuovevano il data scientist come un professionista focalizzato largamente sulla costruzione e modellizzazione di fenomeni complessi attraverso i dati, e i reali contenuti delle mansioni lavorative passa una grande differenza. Dati raccolti attraverso la celebre piattaforma Kaggle tra il 2019 e il 2020 tentano di tracciare un paragone tra aspettative lavorative e reali mansioni svolte dai data scientist.

Nell’insieme delle attività tracciate, emerge chiaramente uno scostamento tra aspettative e realtà su diversi parametri chiave. Tra questi, tre sono interessanti per le nostre considerazioni. I primi due sono legati alle fasi iniziali del tipico processo di un’iniziativa AI, già affrontato nei capitoli precedenti: la raccolta e la preparazione dei dati. Emerge infatti chiaramente che a fronte dell’aspettativa di dedicare circa il dieci per cento del tempo a queste attività, il data scientist si trova mediamente ad affrontare queste tematiche per una percentuale del proprio tempo lavorativo che va dal sedici per cento, nel primo caso, al venticinque per cento, nel secondo.

Dall’altra parte, un altro scostamento evidente emerge tra aspettative nella fase di costruzione e selezione dei modelli (circa trenta per cento del tempo lavorativo) e realtà (circa venti per cento). Questi scostamenti, legati alla natura più articolata della disciplina della data science rispetto alla visione iniziale in parte idealizzata che abbiamo visto in apertura, trova poi corrispondenza in un altro dato. In un’indagine del famoso sito Stack Overflow condotta nel 2020, il data scientist emergeva in cima alla lista, preceduto solamente dai ricercatori accademici, tra le professioni più attivamente alla ricerca di nuove opportunità professionali, confermando il ben noto problema di retention tipico di molte realtà in quest’ambito.

Quali sono le ragioni di questo fenomeno? Una delle considerazioni importanti, che abbiamo già accennato, è che per presidiare il vasto insieme di punti di attenzione, contenuti tecnici, tematiche organizzative e di contesto, sarebbe virtualmente necessario essere in grado di svolgere una gamma molto ampia di attività, che spesso non corrispondono con i reali interessi e le reali competenze di un data scientist. A ciò si aggiunge il fatto che quelle statistiche che evidenziano differenze tra aspettative e realtà non si rivelerebbero probabilmente uguali in ogni contesto lavorativo.

Nel loro recente libro “La cultura del dato” Stefano Gatti e Alberto Danese tracciano delle interessanti considerazioni riguardo alle cinque macroaree di competenze potenzialmente necessarie per operare come data scientist in un contesto moderno e strutturato, evidenziando come queste competenze cambino a seconda degli ambiti di lavoro. Idealmente, la prima area di competenza dovrebbe permettere al data scientist di poter scrivere un codice che consenta di effettuare le operazioni necessarie per la preparazione dei dati da utilizzare e per la successiva costruzione del modello più adatto alla risoluzione di un determinato problema. Queste attività avvengono tipicamente attraverso l’utilizzo di linguaggi di programmazione (comunemente Python), in combinazione con diverse tipologie di strumenti che supportano l’attività (come librerie open-source).

All’interno di questa macrocompetenza apparentemente omogenea possono però convivere attività di natura molto diversa. Da un lato, un data scientist può avere necessità di utilizzare, integrare e orchestrare framework, librerie e strumentazioni già disponibili sul mercato. Dall’altro, al data scientist può essere richiesto, in determinati contesti e per determinate tipologie di problemi, di scrivere veri e propri algoritmi, partendo da metodologie note ed estendendone utilizzi e caratteristiche con un approccio più orientato alla ricerca. Malgrado queste due attività possano essere fatte rientrare sotto lo stesso cappello, la grande differenza che corre tra esse fa subito intravedere quanto sia difficile tracciare un profilo unitario e schematico di ciò che un data scientist deve essere in grado di fare in diversi contesti. A ciò si aggiunge una seconda area di competenze, la capacità di gestire elementi di ingegneria del software, cioè essere in grado di passare da una soluzione che funziona in un ambiente di sviluppo (per semplificare, sul computer del singolo dato scientist) ad un modello che sia scalabile, adeguatamente documentato, e che possa essere facilmente integrato all’interno di prodotti software più ampi.

Oltre a ciò, un ulteriore elemento deriva dalla necessità di presidiare alcune tematiche di natura più generale a livello IT, che vanno dalla gestione dei dati, alle metodologie per la loro visualizzazione, fino alla sicurezza. Naturalmente, un data scientist si trova spesso, anche se non necessariamente, a operare in un contesto aziendale, in cui due ulteriori classi di competenze si rivelano preziose. La prima è la capacità di comprendere le dinamiche del business in cui si lavora, il che dovrebbe idealmente permettere di assumere anche un atteggiamento proattivo nella ricerca di opportunità e nella risoluzione di problematiche. A ciò si uniscono competenze di comunicazione, richieste sia in fase di recepimento delle necessità di utenti non tecnici, sia per il reperimento e la comprensione delle fonti dati più adeguate a un’iniziativa, sia per rendere comunicabili e fruibili i risultati di analisi o nuovi eventuali strumenti sviluppati, il tutto in accordo con requisiti e policy aziendali.

Il problema che si pone, naturalmente, è che il massimo livello di competenza sotto tutti questi parametri rappresenterebbe un connubio difficilmente raggiungibile e, tra l’altro, nemmeno davvero necessario in tutti i contesti. Nel tempo, due sono state le soluzioni complementari che si sono via via strutturate per ovviare alla chiara impossibilità di ottenere il massimo livello di questa grande varietà di competenze all’interno della stessa figura professionale. La prima ha lavorato a livello di singolo professionista, per meglio definirne tratti e caratteristiche, mentre la seconda ha allargato la prospettiva delle competenze da una logica di singola figura professionale ad una più ampia visione di team, facendoci passare dalla logica del data scientist «artigiano» e «solista» a quella del data scientist «industriale» e «corale».

La prima considerazione parte dal fatto che il concetto di data scientist rappresenta oggi più un ampio macro-termine sotto al quale si celano ruoli, responsabilità e competenze diverse a seconda dei contesti di attività, piuttosto che non una vera figura professionale univoca e chiaramente definita. Un data scientist, infatti, potrebbe operare tanto in un contesto di ricerca universitaria o privata, quanto all’interno di un grande gruppo finanziario o industriale. Sempre un data scientist potrebbe lavorare in una piccola startup nata da poco, oppure in una scaleup ormai consolidata e in crescita, con un forte contenuto tecnologico. Operare in ciascuna di queste realtà richiederà probabilmente almeno un livello di base in ciascuna delle aree di competenza che abbiamo nominato. Tuttavia, è utile tenere a mente che l’intensità di utilizzo, e dunque la necessità, di tali competenze varia tra questi contesti.

Prendiamo ad esempio una piccola startup. In questo caso, è molto probabile che un data scientist si trovi immerso in un ambiente poco strutturato, in cui dovrà giocare il ruolo del tuttofare, mischiando sapientemente molte delle mansioni di cui abbiamo parlato, dovendo anche presidiare trasversalmente la costruzione delle precondizioni tecniche e IT necessarie per i progetti. Dall’altra parte, se, come nella maggior parte dei casi, la startup in questione utilizza soluzioni AI ma non sta sviluppando un vero e proprio prodotto AI innovativo da offrire al mercato, la capacità di lavorare sullo sviluppo di nuovi algoritmi da zero non sarà fondamentale e non farà parte delle tipiche mansioni richieste a questa figura.

Prendiamo invece un ambiente orientato alla ricerca accademica o un laboratorio privato. Qui, la capacità di sviluppare algoritmi che vadano oltre agli approcci standard disponibili sul mercato all’interno di strumenti già codificati risulta fondamentale, richiedendo un alto livello di formazione tecnica, spesso associato a dottorati di ricerca in materie affini. Meno rilevanti si riveleranno probabilmente forti competenze di business, o la frequente necessità di comunicare con stakeholder di business per spiegare i contenuti di analisi o supportare l’integrazione nei processi di soluzioni sviluppate. Proprio queste ultime caratteristiche diventano invece un elemento irrinunciabile qualora il data scientist si trovi ad operare in una grande e consolidata azienda, dove all’innovatività delle soluzioni tecniche si predilige la capacità di produrre strumenti e analisi che sappiano integrarsi in un contesto aziendale già strutturato e funzionante.

Tutte queste considerazioni lasciano ben intendere come parlare di (o cercare di assumere) un «data scientist» sia più facile a dirsi che a farsi. A seconda del contesto, questo termine può racchiudere competenze e caratteristiche anche molto diverse. Un buon punto da tenere a mente quando si leggono le due parole magiche su un curriculum o un profilo LinkedIn. La prima soluzione che si è andata strutturando nel mercato è dunque il delinearsi di sottocategorie di questa figura professionale, più abituate e formate per gestire richieste e peculiarità tipiche di diversi contesti. Pensando ad un’azienda non nativa digitale quindi, un data scientist si allontanerà molto dallo stereotipo iniziale di questa figura, isolata in un laboratorio di ricerca separato dalla realtà operativa e impegnata tutto il giorno nella scrittura di nuovi e sofisticati algoritmi da zero. Al contrario, il data scientist si troverà a dover conoscere bene dati e relativi processi, saper inquadrare il proprio contributo all’interno di iniziative più ampie che dovranno essere integrate e utilizzate da una realtà complessa, e saper ponderare adeguatamente vantaggi e svantaggi di diverse opzioni implementative, più o meno personalizzate a seconda dei casi.

La seconda linea di evoluzione delle competenze necessarie per presidiare iniziative di analisi dati è andata nella direzione di meglio definire non tanto la singola figura del data scientist, quanto la struttura di un più ampio gruppo di lavoro, necessario per assolvere nel migliore dei modi a tutte le necessità di un’iniziativa, evitando di incorrere in inconvenienti simili a quelli che abbiamo accennato nel paragrafo precedente e, al contempo, presidiando al meglio tutte le classi di competenze che abbiamo descritto. Pur sapendo che creare una schematizzazione delle figure professionali che si sono costruite intorno alla data science è compito difficile, sia per una questione di nomenclatura sia per una questione di rapida evoluzione dei contesti organizzativi e dell’emergere di necessità sempre nuove, proviamo ad accennare alcuni ruoli che sono emersi o si sono consolidati in quest’ambito.

I Data Architect, i Data Engineer e i Machine Learning Engineer sono figure chiave, di stampo più ingegneristico appunto, per una data science che vada oltre alla sperimentazione in un ambiente di sviluppo e che produca strumenti effettivamente utilizzabili e integrati nel contesto dell’azienda. I loro compiti fondamentali sono la creazione delle precondizioni per poter operare sui dati, la ricerca di efficienza e utilizzabilità delle soluzioni sviluppate dai data scientist e il supporto alle attività per rendere operative e mantenere nel corso del tempo tali soluzioni.

Pensando alle attività in una logica di processo, il Data Engineer presidia le attività che garantiscono dati aggiornati, di qualità, e gestiti in maniera sicura, facendo in modo che non si presentino colli di bottiglia nelle pipeline dati. Il suo compito è insomma la progettazione e creazione delle condizioni e delle infrastrutture necessarie perché i dati possano essere utilizzati dove, quando, e come necessario sia in fase di sperimentazione sia di integrazione con i sistemi aziendali. Il Data Engineer può essere affiancato, specialmente in organizzazioni caratterizzate da maggiore complessità, dal Data Architect, che focalizza il proprio contributo soprattutto sulla fase di progettazione delle architetture dati aziendali. Nelle fasi a valle del processo, invece, i Machine Learning Engineer supportano la traduzione del codice sviluppato dai data scientist in codice efficiente e utilizzabile, curando le fasi di implementazione delle soluzioni in produzione e di mantenimento. Ciò può includere la riscrittura del codice (ad esempio, sviluppato in Python) in linguaggi di programmazione che permettono di ottenere tempistiche computazionali migliori (ad esempio, «C») e, più in generale, tutti i passaggi necessari per tradurre il modello sviluppato da un team di data scientist in un sistema funzionante, fruibile e mantenibile. Malgrado nel corso del tempo si stia consolidando un mercato di prodotti e strumenti a supporto di queste attività, queste figure ingegneristiche sono fondamentali. Ciò anche a fronte di percorsi di formazione meno definiti rispetto a quelli tipici dei data scientists. A riprova di ciò, alcune rilevazioni empiriche mostrano come la domanda per Data Engineer stia crescendo a tassi anche superiori rispetto a quella per i data scientist.

Ricordate la storia che abbiamo citato in apertura riguardo all’utilizzo improprio di dati relativi alla sottoscrizione di prestiti bancari? Ciò che risultava ovvio a esperti di dominio con conoscenza dei processi e della natura dei dati, non necessariamente lo era per il data scientist coinvolto. La centralità della comprensione del significato, delle modalità di generazione, della natura e dei contenuti dei dati è così rilevante da diventare il tratto distintivo di un’altra figura spesso presente in azienda e che rappresenta un importante abilitatore di progetti di data science ed AI. Questa figura prende diversi nomi a seconda del contesto (per esempio, Data Expert, Data Owner, Data Analyst) e spesso rappresenta un ruolo cruciale per avere una comprensione completa della semantica del dato, della sua modalità di generazione e di come analizzarlo nella maniera più appropriata. Questi profili professionali hanno un buon livello di esperienza e comprensione del contesto aziendale in cui operano e sono il riferimento per capire come un determinato database viene alimentato per comprenderne caratteristiche, qualità, e possibili ambiti e modalità di utilizzo. Spesso i data expert/analyst non possiedono una conoscenza avanzata delle tecniche di modellizzazione e analisi dati ma sono in grado di utilizzare linguaggi di interrogazione dei database (come Sql). Nelle prime fasi di un’iniziativa, possono affiancare dunque i team di data scientist per supportare nella comprensione della semantica dei dati, della loro struttura e validare le estrazioni che vengono effettuate.

A queste figure, relativamente ben codificate, anche se con nomenclature talvolta differenti a seconda dei contesti, si aggiungono altri ruoli che, laddove presenti, contribuiscono a presidiare ulteriori aspetti e che possono rappresentare figure professionali a sé stanti oppure, più tipicamente, confluire come singole responsabilità all’interno di altri ruoli.

Una di queste classi di attività fa riferimento allo scouting di basi dati per migliorare la qualità di analisi e previsioni relative al fenomeno oggetto del caso d’uso. Talvolta, realizzare questo obiettivo può richiedere di ricorrere a fonti dati esterne al perimetro aziendale, attraverso l’uso, per esempio, di open data reperibili gratuitamente o di dati prodotti, curati e venduti da fornitori specializzati. Queste ulteriori basi dati, pur utili in alcuni casi, devono essere trovate, valutate e comprese, eventualmente acquistate, e integrate in azienda.

Tali compiti, a seconda della necessità, possono essere presidiati e rientrare nelle mansioni di esperti di dominio o dei team di data scientist e, solamente in presenza di esigenze particolari, un’azienda valuterà l’inserimento di questa figura come ruolo professionale distinto. Discorso simile vale per le tematiche legali. Le riflessioni su temi legali, sempre più rilevanti, includono, per esempio, il presidio di temi quali la comprensione delle eventuali implicazioni dell’utilizzo di specifiche tipologie di dati, le limitazioni e i requisiti da rispettare, le eventuali conseguenze dell’integrazione e utilizzo di fonti dati esterne. Ciò vale sia a livello di regolamentazioni generali di mercato (Gdpr) sia per norme specifiche applicabili al contesto di settore. Questi punti devono tipicamente trovare posto, con intensità e importanza diversa, dall’inizio delle iniziative per evitare conseguenze durante o dopo le fasi di sviluppo.

Nella grande maggioranza dei casi, queste competenze risultano decentralizzate e riconducibili alle funzioni legale, sicurezza e compliance in azienda. Una terza necessità che spesso emerge ma che non necessariamente trova formalizzazione in una classe professionale specifica è quella della cosiddetta «analytics translation». Il ruolo è stato reso celebre da un articolo pubblicato su Harvard Business Review nel 2018, che introduceva il ruolo dell’analytics translator. Questa figura dovrebbe mitigare alcuni problemi che emergono dalla difficoltà di creare allineamento sull’utilizzo di tecnologie AI e di analisi dati tra il business e i team di data scientist. Capire come e dove integrare l’AI e l’utilizzo dei dati, supportare i profili più tecnici nel comprendere e dialogare con gli utenti business e creare un ponte tra competenze tecniche e competenze operative sono gli elementi centrali di non è sempre stato accolto con favore, specialmente per due rischi. Il primo è quello di inserire uno strato di complessità ulteriore in progetti già articolati. Il secondo è quello di ricadere in una figura professionale con competenze necessarie così trasversali da essere difficile da reperire e collocare adeguatamente. Per questo, alcuni hanno iniziato a sottolineare quanto questo ruolo possa (o debba) ricadere tra le responsabilità di figure senior che gestiscono, ad esempio, le strutture organizzative che si occupano di dati e/o data science.

A queste competenze e ruoli, si affiancano poi una serie, talvolta fin troppo confusa, di ulteriori figure professionali emergenti. Tra queste, vale la pena dedicare un po’ di spazio alla figura dell’AI Product Manager, o Data Product Manager, a seconda dei casi. La peculiarità di questo ruolo, che rende interessante citarlo, sta nella necessità da cui emerge. Fino ad ora abbiamo infatti motivato la nascita di diverse figure professionali con l’esigenza di presidiare alcune caratteristiche progettuali specifiche con figure specialistiche dedicate. Quella dell’AI o Data Product Manager emerge invece come una figura di sintesi, caratterizzata da un ruolo più generalista e di orchestrazione. Il Data Product Manager, infatti, un po’ come un product manager in altri contesti software più tradizionali, non dovrà tipicamente avere le competenze per condurre direttamente le fasi più tecniche del processo di sviluppo (costruzione del modello, preparazione dei dati, gestione della componente ingegneristica).

A rappresentare il centro della professione, invece, è il coordinamento di un processo di sviluppo e implementazione trasversale a diverse funzioni per la creazione e il mantenimento di un prodotto ad alto contenuto di dati. Ciò richiederà naturalmente la capacità di coordinare un lifecycle di sviluppo ampio e caratterizzato da competenze differenziate, mantenendo tra l’altro stretto contatto con il business impattato dalle nuove soluzioni. Naturalmente, una buona parte di queste caratteristiche è comune al product management di prodotti ad alto contenuto software in generale, dal momento che, tra l’altro, gli stessi prodotti AI includono chiaramente una componente software rilevante. Rispetto ad un Software Product Manager più tradizionale, un AI/Data Product Manager dovrà possedere una comprensione delle tematiche chiave che ruotano intorno ai dati con cui si troverà a operare (estrazione dei dati, caratteristiche, qualità, opportunità di integrazione con altre basi dati), orientarsi tra le varie tipologie e opzioni di modellizzazione utilizzate dai data scientist (come le principali tecniche di machine learning) per comprendere punti di attenzione e requisiti, e conoscere il mercato di riferimento del panorama AI.

Nelle organizzazioni che stanno implementando questi ruoli, queste figure più generaliste tendono a non provenire da ruoli tecnici strettamente legati alla data science, quanto piuttosto da percorsi di product management in altri ambiti (software product management).

Malgrado sia molto complesso ridurre le competenze necessarie per iniziative diverse in contesti differenti a una singola lista, e nonostante l’abbondante quantità di ruoli e titoli professionali sempre nuovi che sono emersi e continuano a nascere, nel citare le figure più comunemente presenti, abbiamo cercato di sottolineare soprattutto la variegata gamma di competenze e necessità che contraddistinguono questo tipo di iniziative.

Tratto da “AI Management. Strategie e approcci in azienda” (Egea) di Lorenzo Diaferia, Leonardo Maria De Rossi e Gianluca Salviotti, 22,80€, pp.176

X