La rivista scientifica Surgery ha pubblicato recentemente due paper basati sullo stesso set di dati, arrivando a conclusioni diverse, anzi opposte. Sono due articoli sull’uso di uno strumento specifico per interventi chirurgici di rimozione dell’appendice: uno sostiene che aumenta le possibilità di infezione, l’altro che le diminuisce.
Questo breve aneddoto evidenzia un dato di fatto piuttosto evidente nel mondo scientifico: raccogliere e interpretare i dati di un esperimento non è sempre un processo lineare o semplice.
Intanto perché può esserci un pregiudizio che influenza – più o meno inconsciamente – la lettura dei dati da parte di uno scienziato. I ricercatori mettono in campo ogni espediente per cercare di eliminare elementi di pregiudizio, ad esempio con la procedura del “doppio cieco” (double-blind control procedure): in questo caso sia i soggetti esaminati sia gli sperimentatori ignorano alcune informazioni fondamentali dell’esperimento per evitare di influenzarne i risultati. Ma non sempre è possibile applicare queste procedure.
Soprattutto, non sempre c’è un’unica via e un unico metodo per leggere i dati e per interpretare la realtà che questi raccontano. Negli ultimi mesi abbiamo imparato ad ascoltare decine di scienziati – virologi, soprattutto – che descrivevano il quadro sanitario mondiale, europeo, italiano, o qualsiasi altra scala territoriale.
È capitato che due medici avessero opinioni contrastanti, se non diametralmente opposte: è assolutamente comprensibile. Ne aveva parlato il fisico e scrittore Paolo Giordano durante il primo appuntamento di Extra Viva Festival a Locorotondo: «Quest’anno abbiamo avuto davanti agli occhi diversi studi e modelli di previsione, ma abbiamo avuto molti problemi a definire cos’è un modello scientifico: è uno scenario, una possibilità che le vadano in un modo o in un altro. Parliamo di cose associate alla probabilità e a un certo margine di errore, e ce ne dimentichiamo spesso. Più volte gli scenari sono stati sconfessati, in meglio o in peggio, ma questo non significa che i modelli siano da buttare via. È così che funzionano».
In un articolo pubblicato qualche giorno fa l’Economist scrive che «ricercatori diversi vedranno la realtà in maniera diversa, peseranno le informazioni a disposizione in maniera diversa, e alla fine potranno pubblicare argomentazioni opposte sullo stesso tema».
Martin Schweinsberg, psicologo e docente alla European School of Management and Technology di Berlino, ha riunito un team di 49 ricercatori diversi pubblicizzando il suo progetto sui social media. A ciascuno è stata consegnata una copia di un set di dati composto da 3,9 milioni di parole di testo provenienti da quasi 8mila commenti fatti su Edge.org, un forum online per discutere di materie scientifiche.
Il dottor Schweinsberg ha chiesto a tutti i ricercatori coinvolti di esplorare due ipotesi apparentemente semplici. La prima: analizzare la tendenza di una donna a partecipare a una conversazione e valutare se il suo coinvolgimento aumenta con l’aumentare del numero di altre donne presenti in quella stessa conversazione. La seconda: capire se i partecipanti di alto livello, quindi con un titolo di lavoro più prestigioso di altri, intervengono più spesso dei loro omologhi di livello più basso.
Ai ricercatori è stato chiesto di descrivere in dettaglio la loro analisi pubblicando i loro metodi e flussi di lavoro su un sito Web chiamato DataExplained. Ciò ha permesso al dottor Schweinsberg di vedere esattamente cosa stavano facendo.
«Alla fine – scrive l’Economist – 37 analisi sono state ritenute sufficientemente dettagliate da essere incluse nel resoconto conclusivo. Si è scoperto che nessun analista ha impiegato esattamente gli stessi metodi e nessuno ha ottenuto gli stessi risultati di un altro».
Infatti, circa il 64% degli studi ha riferito che le donne partecipano effettivamente di più se sono presenti molte altre donne. Ma il 21% ha concluso che è vero il contrario. E ancor più sbilanciato è il computo dell’altro filone d’analisi: il 29% degli analisti ha riferito che i partecipanti di alto livello hanno maggiori probabilità di contribuire, ma il 21% ha detto esattamente il contrario (Il resto non ha riscontrato differenze significative).
A questo punto è importante distinguere che non si tratta di analisi corrette o sbagliate, esatte o inesatte. Queste differenze sono emerse perché i ricercatori hanno scelto definizioni diverse di ciò che stavano studiando e hanno applicato metodi differenti di analisi.
Quando si è trattato di definire quanto le donne parlassero, ad esempio, alcuni analisti hanno considerato il numero di parole in ogni commento di ciascuna donna; altri hanno scelto il numero di caratteri; altri ancora hanno calcolato il numero di conversazioni a cui una donna ha partecipato, indipendentemente da quanto ha effettivamente scritto.
Allo stesso modo, lo status accademico è stato definito dal titolo di lavoro, dal numero di citazioni che un ricercatore aveva accumulato o dall’indice H, o “h-index” – un criterio per quantificare la prolificità e l’impatto scientifico di un autore, basandosi sia sul numero delle pubblicazioni, sia sul numero di citazioni ricevute.
E poi hanno avuto un peso anche le tecniche statistiche scelte. «La verità, in altre parole – conclude l’Economist – può essere un cliente sfuggente, anche per domande che sembrano semplici. Una prima conclusione che possiamo trarre è che il percorso seguito è di fondamentale importanza. Il dott. Schweinsberg spera che piattaforme come DataExplained possano aiutare a risolvere il problema delle difformità dei risultati, oltre che a rivelarlo, consentendo agli scienziati di specificare esattamente come hanno scelto di eseguire la propria analisi e permettendo ad altri di rivedere tali decisioni. Probabilmente non è pratico controllare e ricontrollare ogni risultato. Ma se approcci analitici diversi arrivano alla stessa conclusione, allora gli scienziati sapranno di essere sulla strada giusta».