Se l’intelligenza artificiale può diagnosticare i pazienti, a cosa servono i medici?

Lavoratrici e Lavoratori Aci Informatica - Tuesday, October 7, 2025

(Fonte) Dhruv Khullar – 22 settembre 2025

I grandi modelli linguistici stanno trasformando la medicina, ma questa tecnologia ha i suoi effetti collaterali.

I sondaggi hanno suggerito che molte persone hanno più fiducia nelle diagnosi fornite dall’intelligenza artificiale che in quelle fornite dai professionisti. Nel frattempo, solo negli Stati Uniti, le diagnosi errate rendono invalide centinaia di migliaia di persone ogni anno; studi autoptici suggeriscono che contribuiscano a circa un decesso su dieci.

All’inizio del Novecento, Richard Cabot, medico del Massachusetts General Hospital, iniziò a tenere seminari per dimostrare il ragionamento clinico ai tirocinanti. Un medico esperto riceveva la cartella clinica di un ex paziente e si informava per ottenere maggiori dettagli sul caso. Se le informazioni fossero state disponibili durante il ricovero ospedaliero del paziente, sarebbero state rivelate. Gradualmente, il medico si avvicinava a una diagnosi che poteva essere confrontata con le conclusioni finali dei patologi, spesso durante un’autopsia. Le conferenze clinico-patologiche, o CPC, come vennero chiamate, divennero così popolari che il New England Journal of Medicine ne pubblica le trascrizioni da oltre un secolo. Rappresentano un gold standard del ragionamento diagnostico: se si riesce a risolvere una CPC, si può risolvere quasi ogni caso.

I CPC hanno anche ispirato molti sforzi per insegnare la medicina alle macchine. Alla fine degli anni Cinquanta, un informatico e un radiologo raggrupparono i casi in base a sintomi e patologie. Proposero che un programma informatico potesse analizzarli utilizzando strumenti matematici come la logica e la teoria dei giochi. “I computer sono particolarmente adatti ad aiutare il medico a raccogliere ed elaborare informazioni cliniche e a ricordargli diagnosi che potrebbero aver trascurato”, scrissero in un articolo fondamentale su Science . Negli anni Settanta, un informatico dell’Università di Pittsburgh sviluppò un programma chiamato INTERNIST-1 , basato su una serie di conversazioni con un brillante e intimidatorio medico di nome Jack Myers. (Myers era noto come Black Jack, perché aveva bocciato molti nuovi medici durante gli esami di abilitazione.) Myers “scelse un buon numero” di CPC per dimostrare il suo ragionamento; INTERNIST-1 alla fine si dimostrò efficace quanto alcuni medici su una varietà di casi. Ma i dettagli di un caso dovevano essere inseriti meticolosamente nel computer, quindi ogni analisi poteva richiedere più di un’ora. I ricercatori hanno concluso che “la forma attuale del programma non è sufficientemente affidabile per le applicazioni cliniche”.

Poi sono arrivati ​​i grandi modelli linguistici. L’anno scorso, Arjun Manrai, informatico di Harvard, e Thomas Buckley, dottorando nel nuovo programma di intelligenza artificiale in medicina dell’università, hanno iniziato a lavorare su uno strumento didattico e di ricerca che avrebbe dovuto essere in grado di risolvere praticamente qualsiasi CPC. Doveva essere in grado di citare la letteratura, spiegarne la logica e aiutare i medici a riflettere su un caso difficile. Manrai e Buckley hanno sviluppato una versione personalizzata di o3, un “modello di ragionamento” avanzato di OpenAI, che si prende il tempo di scomporre i problemi complessi in fasi intermedie prima di rispondere. Un processo noto come generazione aumentata dal recupero, o RAG , estrae i dati da fonti esterne prima che l’intelligenza artificiale elabori la sua risposta. Il loro modello è un po’ come uno studente che consulta un libro di testo per scrivere un articolo invece di scrivere a memoria. Hanno chiamato l’intelligenza artificiale CaBot, in onore dell’inventore dei CPC.

A luglio, mi sono recato alla Countway Library of Medicine di Harvard per assistere a uno scontro tra CaBot e un esperto diagnostico. L’evento mi ha ricordato la partita a scacchi del 1997 tra il grande maestro Garry Kasparov e Deep Blue, il supercomputer IBM che alla fine lo sconfisse.  Daniel Restrepo, un internista del Massachusetts General Hospital che era stato uno dei miei compagni di corso durante la specializzazione, avrebbe gareggiato contro CaBot.

Manrai ha presentato il caso del giorno: un uomo di quarantun anni che era arrivato in ospedale dopo circa dieci giorni di febbre, dolori muscolari e caviglie gonfie. L’uomo aveva una dolorosa eruzione cutanea sugli stinchi ed era svenuto due volte. Qualche mese prima, i medici gli avevano inserito uno stent nel cuore. Una TAC ha mostrato noduli polmonari e linfonodi ingrossati nel torace dell’uomo.

Restrepo (dopo vari arguti ragionamenti) ha sentenziato “Sindrome di Löfgren”. La Löfgren è una rara manifestazione della sarcoidosi, una condizione infiammatoria. Abbiamo appreso che l’uomo aveva assunto steroidi, che sopprimono l’infiammazione, durante il ricovero in ospedale. Era migliorato, il che suggerisce che la diagnosi fosse corretta. Il pubblico applaudì.

Manrai tornò sul podio. Restrepo aveva avuto sei settimane per preparare la sua presentazione, spiegò con un sorriso. “Il Dott. CaBot ha avuto sei minuti”, disse. Una diapositiva, generata dall’intelligenza artificiale, apparve sullo schermo. Era intitolata “Quando caviglie, nodi e sincope si scontrano”. Manrai premette Play e si sedette. Una voce femminile, il cui stile e cadenza erano indistinguibili da quelli dei medici umani, iniziò a esaminare i farmaci e la storia clinica del paziente. “Riassumendo”, ha detto CaBot (dopo vari arguti ragionamenti), “la diagnosi più adatta è la sarcoidosi acuta, che si manifesta come sindrome di Löfgren”.

l successo di CaBot è in contrasto con ciò che alcuni pazienti sperimentano quando consultano i chatbot. Uno studio recente ha rilevato che GPT-4 di OpenAI ha risposto in modo errato a domande mediche aperte in circa due terzi dei casi. In un altro, GPT-3.5 ha diagnosticato erroneamente oltre l’ottanta per cento dei casi pediatrici complessi. Nel frattempo, i principali modelli linguistici di grandi dimensioni sono diventati molto meno propensi a includere clausole di esclusione di responsabilità nelle loro risposte. Un’analisi ha rilevato che, nel 2022, più di un quarto delle risposte a domande relative alla salute includeva qualcosa come “Non sono qualificato per fornire consigli medici”. Quest’anno, solo l’1% lo ha fatto. In un nuovo sondaggio, circa un quinto degli americani ha affermato di aver ricevuto consigli medici dall’IA che in seguito si sono rivelati errati. All’inizio di quest’anno, un centro antiveleni in Arizona ha segnalato un calo del volume totale delle chiamate, ma un aumento dei pazienti gravemente intossicati.

Quando Manrai e i suoi colleghi hanno testato l’IA su diverse centinaia di CPC recenti, ne ha risolti correttamente circa il 60%, una percentuale significativamente superiore a quella risolta dai medici in uno studio precedente. Imparare a utilizzare l’intelligenza artificiale in campo medico richiederà una scienza a sé stante. L’anno scorso, è stato coautore di uno studio in cui alcuni medici hanno risolto casi con l’aiuto di ChatGPT. Non hanno ottenuto risultati migliori rispetto ai medici che non hanno utilizzato il chatbot. Il chatbot da solo, tuttavia, ha risolto i casi con maggiore accuratezza rispetto agli esseri umani.

I sistemi che combinano strategicamente capacità umane e di intelligenza artificiale sono stati descritti come centauri; la ricerca di Rodman suggerisce che siano promettenti in medicina. Ma se gli strumenti di intelligenza artificiale rimangono imperfetti e gli esseri umani perdono la capacità di funzionare senza di essi – un rischio noto come “dequalificazione cognitiva” – allora, per usare le parole di Rodman, “siamo nei guai”. In uno studio recente, i gastroenterologi che hanno utilizzato l’intelligenza artificiale per rilevare i polipi durante le colonscopie hanno mostrato risultati significativamente peggiori nell’individuazione dei polipi stessi. “Se sei una persona che scommette, dovresti formare medici che sappiano usare l’intelligenza artificiale ma che sappiano anche pensare”, ha affermato Rodman.

The post Se l’intelligenza artificiale può diagnosticare i pazienti, a cosa servono i medici? first appeared on Lavoratrici e Lavoratori Aci Informatica.