mercoledì, Agosto 20, 2025
GPT-5 e ragionamento medico multimodale

GPT-5 e ragionamento medico multimodale

Il ragionamento clinico raramente si fonda su un’unica fonte di informazione. Referti anamnestici, dati di laboratorio, imaging e osservazione diretta si intrecciano in un processo di sintesi complesso. Negli ultimi anni i modelli di linguaggio di grandi dimensioni (LLM) hanno mostrato progressi notevoli nella gestione di domande mediche a scelta multipla, ma la loro capacità di integrare dati eterogenei era finora limitata.

Uno studio dell’Emory University (Capabilities of GPT-5 on Multimodal Medical Reasoning, agosto 2025) propone GPT-5 come “generalist multimodal reasoner”, valutandone le prestazioni in contesti testuali e visivi con un protocollo rigoroso.

Metodi

Gli autori hanno adottato un design standardizzato, basato su zero-shot chain-of-thought (CoT): il modello riceveva il quesito con la richiesta esplicita di “ragionare passo per passo” prima di fornire la risposta.

Sono stati utilizzati i seguenti dataset:

  • MedQA: domande di licenza medica statunitense;
  • MMLU-Medical: sottosezioni mediche del benchmark multitasking;
  • USMLE Self-Assessment: quesiti ufficiali di Step 1, Step 2 CK e Step 3;
  • MedXpertQA: 4.460 domande su 17 specialità, in versione testuale e multimodale (con immagini e dati clinici);
  • VQA-RAD: domande su 314 immagini radiologiche.

Risultati

I punteggi ottenuti da GPT-5 superano in modo consistente quelli di GPT-4o e delle versioni ridotte GPT-5-mini/nano.

  • MedQA (USA, 4 opzioni): 95,8% di accuratezza (+4,8% vs GPT-4o).
  • MedXpertQA testuale: miglioramento del +26,3% nel ragionamento e +25,3% nella comprensione.
  • USMLE: media del 95,2%, con Step 2 (decisione clinica) al 97,5% (+4,1% vs GPT-4o).
  • MedXpertQA multimodale: +29,3% nel ragionamento e +26,2% nella comprensione, superando gli esperti pre-licenziati (+24% e +29% rispettivamente).
  • VQA-RAD: risultato più contenuto (70,9%), leggermente inferiore a GPT-5-mini.

Caso clinico esemplare

Un paziente con vomito ripetuto, dolore epigastrico, segni di enfisema sottocutaneo e TAC addominale: GPT-5 ha formulato la diagnosi di perforazione esofagea (sindrome di Boerhaave), proponendo come esame successivo un Gastrografin swallow. Ha inoltre argomentato l’esclusione delle opzioni alternative (antiemetici, terapia di supporto, epinefrina, supplementazione vitaminica).

Discussione

GPT-5 dimostra un netto progresso nella capacità di ragionamento clinico multimodale: non solo richiama nozioni, ma integra dati complessi in una catena logica coerente. Il confronto con medici pre-licenziati indica un superamento su test standardizzati, in particolare quando è richiesta la combinazione di testi e immagini.

Tuttavia, è essenziale distinguere tra benchmark e pratica clinica reale. Le valutazioni dello studio si svolgono in contesti controllati, con quesiti ben definiti e dati completi. Nella realtà quotidiana il clinico affronta:

  • informazioni incomplete o contraddittorie,
  • variabilità inter-individuale,
  • implicazioni etiche e comunicative,
  • responsabilità dirette in caso di errore.

Implicazioni pratiche

Le potenziali applicazioni cliniche sono ampie:

  • supporto alla diagnosi differenziale,
  • aiuto nella refertazione e nel drafting di lettere di dimissione,
  • analisi di immagini in trial clinici,
  • estrazione rapida di informazioni da cartelle elettroniche.

Ma ogni impiego dovrebbe passare per validazione prospettica, regolamentazione dedicata e supervisione medica costante. GPT-5 può fungere da “assistente”, non da sostituto.

Conclusioni

Lo studio dell’Emory University segna un passaggio rilevante: per la prima volta, un LLM mostra prestazioni superiori a quelle di esperti umani in test multimodali standardizzati.
Per i clinici, questo significa disporre – in prospettiva – di strumenti in grado di rafforzare il processo decisionale. Ma il dato va interpretato con prudenza: prima che modelli come GPT-5 possano entrare nelle corsie, serviranno validazioni rigorose, chiarimenti normativi e un confronto etico sulla responsabilità.

In altre parole: GPT-5 apre prospettive interessanti, ma resta un ausilio in fase sperimentale, non un sostituto della competenza e del giudizio medico.

Fonte: Wang S, Hu M, Li Q, Safari M, Yang X. Capabilities of GPT-5 on multimodal medical reasoning. arXiv [Preprint]. 2025 [cited 2025 Aug 16]; Available from: https://arxiv.org/abs/2508.08224

CONTINUA A INFORMARTI

Contenuti limitati

Il dott. Gregorio Guabello, specialista in endocrinologia presso l'ambulatorio di Endocrinologia, IRCCS Ospedale Galeazzi-Sant’Ambrogio di Milano e direttore scientifico di BoneHealth, commenta le linee guida sulla Vitamina D dell'Endocrine Society

Algodistrofia, terapie attuali e future

Intervista al dott. Massimo Varenna, Responsabile U.O. Centro Diagnosi e Terapie Patologiche Osteometaboliche dell'Istituto Ortopedico Pini di Milano

Contenuti limitati

Nel nuovo numero di BoneHealth: focus su algodistrofia e neridronato, terapie con cellule staminali, protesi in osso fragile, ipoparatiroidismo e palopegteriparatide, microbiota e osteoporosi. Con gli highlights del Congresso “The Bone Identity” e contributi scientifici d’eccellenza.