Due anni fa Facebook ha inserito nella sua applicazione la funzione “Why am I seeing this post?” per permettere ai suoi utenti di capire di più sul funzionamento dell’algoritmo che regola il news feed, il flusso di post di amici, amici degli amici, pagine e gruppi che ci viene mostrato quando accediamo. È uno dei tentativi per rendere più trasparente e comprensibile il complicato algoritmo, o più correttamente l’insieme di complicati algoritmi, che animano la più grande piattaforma digitale di interazioni sociali del mondo, non solo per gli utenti ma prima di tutto per gli stessi programmatori che l’hanno costruita.
Ora immaginiamo che l’algoritmo in questione invece di decidere quali post visualizzare e in che ordine, analizzi l’immagine di una radiografia del torace e suggerisca ai medici che ci hanno in cura la diagnosi di polmonite. Come viene utilizzata questa informazione? E come viene comunicato ai pazienti l’esito dell’algoritmo e il ruolo che questo ha avuto nel suo piano terapeutico? Una delle strategie proposte per rendere più affidabili, accettabili e utilizzati gli algoritmi di machine learning in ambito medico è quella di corredarli con sistemi di <i>explanation</i>, spiegazione, nello stile del “Why am I seeing this post?”. Nel caso dell’immagine radiografica del torace, un esempio di spiegazione potrebbe essere una mappa di rilevanza, che mostra cioè su quali aree dell’immagine l’algoritmo si è “concentrato” di più per arrivare alla classificazione di “polmonite”.
Tuttavia, diversi ricercatori hanno criticato questo approccio. Il loro timore è, da una parte che la spiegabilità diventi un bollino che una volta acquisito sollevi gli sviluppatori e gli utenti dal compito di vigilare con costanza sull’affidabilità, l’accuratezza e la sicurezza di questi algoritmi e dall’altra che le spiegazioni lascino un gap interpretativo verso gli utilizzatori effettivi dei sistemi (i medici) o i soggetti delle decisioni (i pazienti) creando un falso senso di fiducia.
Queste preoccupazioni sono state espresse in un editoriale pubblicato la scorsa settimana dalla rivista The Lancet Digital Health. Secondo Marzyeh Ghassemi, informatica della University of Toronto esperta di sistemi di IA in medicina, Luke Oakden-Rayner, radiologo e ricercatore all’Australian Institute for Machine Learning, e Andrew Beam, epidemiologo e biostatistico di Harvard, i metodi di spiegazione sviluppati finora sono poco robusti soprattutto quando vengono utilizzati per capire il funzionamento dell’algoritmo su un singolo caso. «La falsa speranza», scrivono i tre ricercatori, «è che gli utenti o coloro che sono soggetti alle decisioni informate dai sistemi di machine learning saranno in grado di giudicare la qualità di una previsione esaminando una spiegazione locale», cioè una spiegazione valida solo per quella specifica previsione, e aggiungono che tuttavia «le spiegazioni possono essere estremamente utili quando applicate a processi globali di machine learning, come lo sviluppo di modelli, l’estrazione della conoscenza e la revisione.»
Prima di descrivere gli argomenti usati dai tre ricercatori, vale la pena fare una precisazione linguistica. Per machine learning qui intendiamo tutti gli algoritmi che apprendono dai dati, siano essi “semplici” modelli di regressione lineare o alberi decisionali, oppure reti neurali profonde con architetture complicate e tecniche di allenamento sofisticate. Solitamente ci si riferisce alla prima categoria, quella dei modelli semplici, con l’espressione white-box model e alla seconda come black-box model, anche se le definizioni sono ancora molto fluide. I modelli white-box sono intrinsecamente spiegabili o interpretabili, mentre i modelli black-box non sono interpretabili.
I tre ricercatori sostengono che l’utilizzo di un sistema di spiegazione locale possa essere rischioso anche per i modelli interpretabili. Se consideriamo, per esempio, un modello di regressione lineare, l’impatto di ciascuna variabile di input sul risultato finale è riassunto dai coefficienti di regressione del modello. Tuttavia, questi coefficienti possono essere poco comprensibili per utenti o pazienti che tendenzialmente colmeranno il gap interpretativo cercando conferma della loro convinzione di partenza (confirmation bias) e comunque trovando confortante l’esistenza stessa di una spiegazione e percependo così l’algoritmo come più affidabile.
Per gli algoritmi di tipo black-box, si costruiscono invece le cosiddete spiegazioni post-hoc. Esistono diversi approcci alle spiegazioni post-hoc. Uno dei più diffusi consiste nel costruire un modello interpretabile (o white-box) che riproduca al meglio le previsioni dell’algoritmo black-box su un certo insieme di input e poi usare quel modello per capire quali sono le variabili più importanti per le previsioni della black-box. Un esempio può essere un modello di regressione lineare che mima gli output di una support vector machine (un algoritmo di classificazione non lineare) e permette di stabilire la rilevanza delle diverse variabili semplicemente guardando ai coefficienti di regressione. Un altro approccio è quello delle saliency map, usato in particolare con le reti neurali che processano immagini o testo, e che consiste nell’evidenziare graficamente le aree dell’immagine o le parole nel testo che sono più rilevanti per l’output dell’algoritmo, come nell’esempio della radiografia del torace. Tuttavia, diverse esperienze con questi strumenti hanno rivelato che sono anch’essi difficili da interpretare e a volte poco affidabili. Nel 2018, un gruppo di ricercatori di Google Brain ha mostrato che anche una rete neurale non allenata può dare luogo a saliency map che sembrano rassicuranti per gli utenti.
Un’altra strategia di spiegazione locale è quella agnostica, cioè non progettata su uno specifico algoritmo ma che può essere applicata a qualsiasi sistema di machine learning. L’idea è quella di perturbare le caratteristiche del caso in esame e costruire un campione di casi molto simili su cui applicare l’algoritmo black-box e studiarne gli output. L’obiettivo è capire quale tipo perturbazione fa “cambiare idea” all’algoritmo e da questo provare a dedurre il suo modo di ragionare. Anche in questo caso, secondo i tre ricercatori, il problema è quello dell’interpretazione dei risultati, in modo analogo a quello che avviene con le saliency map.
Un rischio ancora peggiore, tuttavia, è che questi sistemi di spiegazione vengano utilizzati come strumenti per scoprire l’esistenza di bias negli algoritmi di machine learning che si concretizzano in un trattamento sistematicamente svantaggioso per alcuni gruppi sociali o etnici.
Il punto è che questi sistemi descrivono il funzionamento degli algoritmi ma non possono valutare l’equità dei loro suggerimenti. Un esempio è il caso dell’algoritmo Impact Pro, sviluppato dalla società privata Optum e ampiamente diffuso nel sistema sanitario statunitense. L’obiettivo dell’algoritmo è individuare le persone che beneficerebbero maggiormente dall’accesso a cure mediche aggiuntive, valutando il rischio individuale di sviluppare in futuro patologie gravi che richiederebbero interventi più complessi e quindi più costosi. Per farlo utilizza la storia clinica dei pazienti e le corrispondenti spese mediche e prevede le spese mediche future, con l’ipotesi che queste rappresentino una buona approssimazione delle cure necessarie. Ai pazienti per cui sono previsti elevati livelli di spese mediche future, vengono offerte cure speciali, per esempio la partecipazione a programmi di screening. A ottobre del 2019 un gruppo di ricercatori, coordinato da Sendhil Mullainathan della Booth School of Business di Chicago, ha avuto accesso completo all’algoritmo, ai dati di allenamento, alle previsioni e agli esiti di salute reali e ha scoperto che a parità di condizioni di salute (misurate attraverso il numero di patologie croniche) l’algoritmo assegnava ai pazienti neri un punteggio di rischio sistematicamente più basso rispetto ai bianchi. Il motivo è che l’algoritmo usa le spese mediche come approssimazione del bisogno di cure, dimenticando il fatto che le peggiori condizioni socioeconomiche della comunità afroamericana e la sfiducia verso il sistema sanitario hanno storicamente limitato l’accesso alle cure mediche e di conseguenza i livelli di spesa. Questa analisi è stata possibile solo studiando i dati di input, output, gli esiti reali dei pazienti e l’algoritmo stesso. Un sistema di spiegazione non sarebbe stato in grado di farlo.
I metodi di spiegazione, insomma, devono far parte di un ecosistema di strumenti di validazione e vigilanza degli algoritmi di machine learning e dei dati utilizzati per allenarli. Se applicati a livello globale, cioè su interi dataset e non su singoli casi, possono servire anche a estrarre nuova conoscenza scientifica dai dati, come è accaduto nel caso della retinopatia diabetica o dell’artrosi del ginocchio.
«Sono d’accordo con il punto di vista espresso nell’editoriale nella misura in cui si tiene conto che la spiegazione è una tecnologia in continua e rapida evoluzione», commenta Fosca Giannotti coordinatrice del progetto XAI finanziato con un ERC Advanced Grant e direttrice del Knowledge Discovery and Data Minig Laboratory promosso dall’Istituto di Scienza e Tecnologie dell’Informazione del CNR e dal Dipartimento di Informatica dell’Università di Pisa. «È chiaro che questa tecnologia non è ancora matura per essere trasferita sul campo, soprattutto non ne esiste una sufficientemente generalista. Ma piuttosto io la vedrei come una sfida a migliorare questi metodi» e aggiunge «è fondamentale non confondere il processo di bias discovery con il problema della spiegazione. Il bias discovery è fondamentale e va fatto a monte nella progettazione. Non dobbiamo confondere il cattivo progetto di un sistema e le strategie per migliorarlo con la sfida di trasformare le spiegazioni in concetti di più alto livello che siano comprensibili per i diversi tipi di utente.»
Secondo Giannotti è importante tenere a mente che non stiamo progettando sistemi automatici isolati ma sistemi “persona-macchina”. «Nel nostro laboratorio e in particolare nell’ambito del progetto XAI questo è uno dei temi centrali. Stiamo lavorando per capire qual è il modo più opportuno per testare l’efficacia dei sistemi di machine learning explainable, coinvolgendo anche uno psicologo che formuli nel modo migliore le domande da porre agli utenti coinvolti negli studi clinici». L’idea è infatti di trattare gli algoritmi come I farmaci e valutarne efficacia e sicurezza confrontando i risultati ottenuti da un gruppo di medici che li hanno usati come assistenza alla decisione con quelli ottenuti da un secondo gruppo che invece ha lavorato senza algoritmi. «Oltre a produrre la spiegazioni dobbiamo riuscire a comunicarla in modo efficace a chi li utiizza, considerando del ruolo che hanno nella filiera decisionale all’interno degli ospedali, per esempio. Come faccio a misurare l’efficacia di un metodo di comunicazione rispetto a un altro oppure rispetto alle decisioni prese senza il supporto di algoritmi? Questa è una delle domande a cui vogliamo dare risposta.»
Sottoporre gli algoritmi a studi clinici è un suggerimento che ritorna spesso nella letteratura sul machine learning in ambito medico, per esempio in questo editoriale pubblicato a luglio su Science, in cui gli autori hanno scritto «il fattore umano gioca un ruolo importante nell’uso sicuro della tecnologia e i regolatori, così come gli sviluppatori e i ricercatori, devono considerarlo attentamente quando progettano sistemi di machine learning che possano essere affidabili».
Anche Ghassemi e collaboratori sono dello stesso avviso e paragonano gli algoritmi black-box al paracetamolo: «il sistema medico ha già esperienza nel valutare e convalidare vari tipi di sistemi di tipo black-box, visto che molti farmaci e dispositivi funzionano, in effetti, come scatole nere. Un esempio citato spesso è il paracetamolo che, nonostante sia usato da più di un secolo, ha un meccanismo d’azione che è solo parzialmente compreso. Nonostante le spiegazioni contrastanti su come funzioni il paracetamolo, sappiamo che è un farmaco antidolorifico sicuro ed efficace perché è stato ampiamente convalidato in numerosi studi randomizzati controllati.»