IA Modelli di intelligenza artificiale LLM

Confronto tra 9 modelli linguistici di grandi dimensioni nel settore sanitario

aggiornato il Mag 21, 2026

Abbiamo confrontato 9 modelli di apprendimento basati su test (LLM) utilizzando il dataset MedQA, un benchmark per esami clinici di livello universitario derivato da domande USMLE. Ciascun modello ha risposto agli stessi scenari clinici a risposta multipla utilizzando un prompt standardizzato, consentendo un confronto diretto dell'accuratezza.

Abbiamo inoltre registrato la latenza per ciascuna domanda dividendo il tempo di esecuzione totale per il numero di elementi MedQA completati.

Risultati di riferimento dei master in ambito sanitario

Loading Chart

Metodologia di benchmark : questo benchmark valuta le prestazioni di fine-tuning supervisionato dei modelli lineari lineari (LLM) per il settore sanitario rispetto a modelli generali di grandi dimensioni (GPT-4) su attività di risposta a domande mediche. Vedi le fonti dei dati di benchmark .

MedQA : Domande a risposta multipla sull'esame di abilitazione alla professione medica negli Stati Uniti (United States Medical Licensing Examination).

Figura 1: Esempio di domanda clinica a risposta multipla in stile USMLE.

MedMCQA : Dataset di grandi dimensioni per domande a risposta multipla (MCQA), progettato per rispondere a quesiti reali degli esami di ammissione alle facoltà di medicina.

Figura 2: Un ampio quesito a risposta multipla di un esame di ammissione alla facoltà di medicina, che richiede al modello di selezionare la risposta corretta e interpretare le relative spiegazioni sui risultati clinici.

PubMedQA : Benchmark per la risposta a domande in ambito biomedico tramite risposte sì/no/forse.

Figura 3: Una domanda biomedica sì/no/forse, in cui il modello deve valutare la correttezza di un'affermazione clinica utilizzando il contesto dello studio fornito.

Esempi di LLM in ambito sanitario

Simile a BERT (solo codificatore)

Ottimizzati per la codifica e la rappresentazione di testi biomedici, questi modelli eccellono nell'estrazione di caratteristiche per attività come la classificazione.

ChatGPT / LLaMA-like (Decodificatore, istruzioni/chat sintonizzate)

Basato su architetture in stile LLaMA e ottimizzato per attività interattive e dialoghi clinici.

GPT / Simile a PaLM (solo decodificatore, generativo)

Simili a GPT-3 o PaLM, questi modelli sono ottimizzati per la generazione e la sintesi di testi di uso generale.

Master in Diritto (LLM) a carattere generale nel settore sanitario

*Llama 3.1 Instruct Turbo con parametri 405B. Vedere la metodologia di benchmark.

Punti chiave:

o1 : Modello con le migliori prestazioni
03 mini : la migliore opzione economica
GPT 4.1 : Massima velocità e tempo di risposta

Oltre all'accuratezza e al costo di input, i modelli differiscono anche nell'approccio sottostante alla risposta alle domande mediche. Ad esempio, o3 utilizza un approccio più graduale e analitico, mentre GPT-5 risponde in modo empatico, organizza e spiega le informazioni in modo chiaro per i non esperti:

Figura 4: Figura che mostra le differenze tra le risposte GPT-5 e o3.

Messa a punto dei modelli di apprendimento per la medicina

Le prestazioni del ChatGPT predefinito (modello 4o) vengono confrontate con quelle dell'assistente esistente "Manuale di Medicina Clinica". Ad entrambi i modelli viene fornito lo stesso prompt e le loro risposte vengono analizzate:

GPT 4o

Figura 5: La figura mostra che la risposta del modello predefinito GPT 4o è accurata ma anche altamente riassuntiva. ¹

LLM medico perfezionato

Figura 6: La figura mostra che la risposta dell'agente specializzato è spiegata e dettagliata in modo più efficace. ²

Per approfondire l'argomento, consultate le sezioni "Aggiornamento del programma LLM" e "Formazione LLM" .

Applicazioni dei LLM di uso generale

Questi modelli sono modelli generali ottimizzati che richiedono un adattamento al dominio per eseguire compiti clinici in modo accurato. È possibile utilizzare questi modelli in ambito sanitario sfruttando:

Pre-addestramento continuo su dati medici per aiutare il modello a identificare meglio il linguaggio medico, esponendolo a note cliniche e letteratura biomedica (come PubMed).
RAG per estrarre dati da documenti clinici verificati al fine di produrre risposte accurate in fase di esecuzione.
Affinamento delle istruzioni per consentire al modello di apprendere come rispondere a domande cliniche o estrarre sintomi da un testo .

Figura 7: Flusso di lavoro generale per la messa a punto di LLM per casi d'uso specifici. ⁹

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Casi d'uso dei LLM in ambito clinico

1. Trascrizione medica

I LLM possono contribuire alla creazione di trascrizioni mediche attraverso:

Ascoltare il dialogo spontaneo tra paziente e medico.
Estrazione di informazioni mediche critiche.
Riassumere i dati medici in cartelle cliniche conformi che si allineino con le sezioni pertinenti di una cartella clinica elettronica.

Esempio concreto: MedLM di Google è in grado di acquisire e trasformare la conversazione tra paziente e medico in una trascrizione medica. ¹⁰

2. Miglioramento delle cartelle cliniche elettroniche (EHR)

La diffusione delle cartelle cliniche elettroniche (EHR) ha generato enormi quantità di dati sui pazienti che, se utilizzati in modo efficace, possono migliorare significativamente l'assistenza sanitaria.

Ad esempio, l'analisi dei dati delle cartelle cliniche elettroniche può aiutare i medici a prendere decisioni migliori, rivelando schemi ricorrenti in diagnosi, trattamenti ed esiti. Può inoltre favorire una diagnosi precoce e un'assistenza più personalizzata, identificando i fattori di rischio e adattando i trattamenti alle esigenze dei singoli pazienti.

A livello di sistema, i dati delle cartelle cliniche elettroniche possono migliorare l'efficienza riducendo gli esami ridondanti, evidenziando le lacune nell'assistenza e fornendo informazioni utili per definire politiche che migliorino la qualità e riducano i costi.

Esempio concreto: MedLMis di Google viene utilizzato da BenchSci, Accenture e Deloitte per migliorare le cartelle cliniche elettroniche (EHR).

BenchSci ha integrato MedLM nella sua piattaforma ASCEND per migliorare la qualità della ricerca preclinica.
Accenture utilizza MedLM per organizzare dati non strutturati provenienti da diverse fonti, automatizzando operazioni manuali che in precedenza richiedevano molto tempo ed erano soggette a errori.
Deloitte collabora con MedLM per ridurre al minimo gli ostacoli nella ricerca di cure. Utilizzano un chatbot interattivo che aiuta gli iscritti ai piani sanitari a comprendere meglio le alternative offerte dai diversi fornitori di servizi. ¹¹

3. Supporto alle decisioni cliniche

I modelli di apprendimento basati su dati (LLM) aiutano i medici a interpretare le informazioni specifiche del paziente incluse nelle attuali evidenze mediche, facendo emergere considerazioni rilevanti durante la diagnosi o la pianificazione del trattamento, senza tuttavia sostituire il giudizio clinico.

Esempio concreto: MedGemma (DeepMind) è una raccolta di modelli medici open-weight basati sull'architettura Gemma 3 di DeepMind. Anziché fungere da strumento diagnostico diretto al consumatore, MedGemma rappresenta una base per gli sviluppatori che desiderano creare applicazioni mediche destinate ai medici.

Progettato per l'analisi di testi e immagini mediche, MedGemma è in grado di interpretare immagini mediche complesse, tra cui radiografie del torace, risonanze magnetiche e TAC. Supporta inoltre attività di ragionamento clinico, come la sintesi delle cartelle cliniche dei pazienti o la risposta a domande in stile esame medico.

Secondo una revisione effettuata da un radiologo cardiotoracico statunitense certificato, l'81% dei referti radiografici toracici di MedGemma porterebbe a decisioni sulla gestione del paziente simili a quelle basate sui referti radiologici originali (vedi il grafico sottostante).

Figura 8: Il grafico mostra con quale frequenza i referti radiografici del torace generati dall'IA e i referti originali dei radiologi portano a risultati clinici simili o diversi nei casi normali, anormali e in tutti i casi. ¹²

Esempio concreto: il Memorial Sloan Kettering Cancer Center utilizza Watson Oncology per assistere gli oncologi analizzando i dati dei pazienti e la letteratura medica al fine di raccomandare opzioni di trattamento basate su evidenze scientifiche. ¹³

4. Assistenza alla ricerca medica

Nella ricerca medica, il valore principale dei modelli di apprendimento-lavoro (LLM) risiede nella loro capacità di accelerare la revisione e la sintesi della letteratura scientifica.

Anziché limitarsi a riassumere gli articoli, i LLM aiutano i ricercatori a tenersi al passo con la letteratura biomedica in rapida espansione, individuando gli studi pertinenti, estraendo i risultati chiave e sintetizzando le informazioni provenienti da diverse fonti.

Esempio concreto: il chatbot di John Snow per il settore sanitario aiuta i ricercatori a trovare articoli scientifici pertinenti, estrarre informazioni chiave e identificare le tendenze della ricerca. È particolarmente utile per orientarsi nella vasta mole di letteratura biomedica. ¹⁴

5. Comunicazione automatizzata con i pazienti

I modelli linguistici avanzati in ambito sanitario possono elaborare risposte informative ed empatiche alle domande dei pazienti. Alcuni esempi includono:

Gestione e promemoria dei farmaci: un chatbot fornisce ai pazienti promemoria regolari per l'assunzione dei farmaci per il diabete e richiede conferma.
Monitoraggio della salute e assistenza post-operatoria: un paziente nel periodo post-operatorio invia a un chatbot le informazioni relative al dolore e allo stato della ferita, il quale determina se il processo di guarigione sta procedendo.
Comunicazione informativa ed educativa: un paziente chiede a un chatbot come gestire la pressione alta e il chatbot risponde con consigli su alimentazione e stile di vita.

Esempio pratico: ChatGPT Health consente agli utenti di collegare in modo sicuro le proprie cartelle cliniche e i dati relativi al benessere (ad esempio, Apple Health o MyFitnessPal). Gli utenti possono quindi porre a ChatGPT domande sui propri dati, come "Qual è l'andamento del mio colesterolo?" o "Riepiloga i miei ultimi risultati di laboratorio". ¹⁵

Esempio concreto: il Boston Children's Hospital utilizza Buoy Health, un chatbot online basato sull'intelligenza artificiale per la verifica dei sintomi, che fornisce ai pazienti risposte immediate a domande relative alla salute e consulenze iniziali.

Il chatbot è in grado di effettuare un triage dei pazienti analizzando i loro sintomi e consigliando se è necessario consultare un medico. ¹⁶

6. Risultati sanitari predittivi

I modelli lineari latenti (LLM) possono essere utilizzati per consentire la stratificazione e la previsione del rischio in ambito sanitario. Supportando l'analisi di dati clinici strutturati e non strutturati, gli LLM possono contribuire a identificare i pazienti ad alto rischio (come il rischio di riammissione ospedaliera) e a supportare una pianificazione proattiva delle cure, spesso in combinazione con i modelli predittivi tradizionali.

Esempio pratico: i farmacisti della WVU utilizzano un algoritmo predittivo per determinare il rischio di riammissione in ospedale. Questo approccio esamina i dati provenienti dalle cartelle cliniche elettroniche (EHR), che includono dati demografici del paziente, anamnesi clinica e determinanti socioeconomici della salute.

Sulla base di questa ricerca, i farmacisti della WVU identificano i pazienti ad alto rischio di riammissione e assegnano dei coordinatori dell'assistenza per seguirli dopo la dimissione. Questo può contribuire a ridurre i tassi di riammissione. ¹⁷

7. Piani di trattamento personalizzati

Integrando anamnesi, sintomi e dati sanitari longitudinali, i modelli lineari di apprendimento (LLM) possono contribuire a tradurre informazioni complesse sui pazienti in considerazioni di cura individualizzate, favorendo discussioni terapeutiche più personalizzate e contestualizzate tra medici e pazienti.

Esempio concreto: il chatbot basato sull'intelligenza artificiale di Babylon Health fornisce raccomandazioni sanitarie personalizzate in base ai sintomi e alla storia clinica dell'utente. Coinvolge gli utenti in una conversazione ponendo domande pertinenti per analizzare al meglio i loro problemi e offrendo consigli su misura. ¹⁸

8. Codifica e fatturazione medica

I modelli linguistici di grandi dimensioni possono automatizzare i processi di audit analizzando le cartelle cliniche dei pazienti e le cartelle cliniche elettroniche.

Esempio concreto: Epic Systems, fornitore di cartelle cliniche elettroniche (EHR), integra i sistemi di monitoraggio del traffico (LLM) nel proprio software per agevolare la codifica e la fatturazione. Gli LLM possono monitorare anomalie nei modelli di accesso a informazioni sensibili dei pazienti o incongruenze nelle pratiche di codifica e fatturazione. ¹⁹

Esempio concreto: Claude for Healthcare (Anthropic) è una piattaforma aziendale progettata per organizzazioni sanitarie, fornitori di servizi sanitari e compagnie assicurative. Collega modelli linguistici di grandi dimensioni a database medici professionali come ICD-10 e il database di copertura CMS, consentendo agli ospedali di automatizzare i flussi di lavoro amministrativi. Questi flussi di lavoro includono le autorizzazioni preventive assicurative, la sintesi delle cartelle cliniche dei pazienti e la gestione dei messaggi provenienti dal portale pazienti. ²⁰

Tuttavia, i LLM non sono ancora completamente pronti per la codifica medica, ma i loro contributi sono promettenti: i ricercatori hanno esaminato la frequenza con cui quattro LLM (GPT-3.5, GPT-4, Gemini Pro e Llama2-70b Chat) hanno emesso i codici CPT, ICD-9-CM e ICD-10-CM corretti.

I loro risultati mostrano una significativa opportunità di miglioramento. I ricercatori hanno scoperto che i LLM spesso generano codice che trasmette informazioni imprecise, con un'accuratezza massima del 50%. ²¹

9. Formazione e istruzione

I modelli linguistici su larga scala e l'intelligenza artificiale generativa possono essere utilizzati come strumenti educativi interattivi, aiutando medici e pazienti a comprendere meglio concetti medici complessi e a chiarire informazioni ambigue.

Caso d'uso reale: simulazione medica di Oxford Utilizza modelli di vita reale (LLM) integrati con la tecnologia VR per creare simulazioni immersive di pazienti virtuali.

Queste simulazioni permettono agli studenti di sperimentare scenari ad alta pressione, come la gestione di un paziente in arresto cardiaco, senza conseguenze reali.

I modelli LLM alimentano le risposte dei pazienti virtuali, rendendole più realistiche e imprevedibili e preparando gli studenti alla variabilità dei veri ambienti clinici. ²²

Sfide dei LLM nel settore sanitario

Preoccupazioni relative alla privacy

L'utilizzo di applicazioni sanitarie basate su LLM che non siano state adeguatamente sviluppate, testate o approvate per uso medico può comportare rischi significativi per gli utenti, in particolare per quanto riguarda la privacy dei dati.

Questi strumenti spesso elaborano informazioni sanitarie sensibili fornite dagli utenti, tuttavia non è sempre chiaro come questi dati vengano archiviati, condivisi o se le applicazioni siano pienamente conformi alle leggi e ai regolamenti vigenti in materia di protezione dei dati. ²³

Accuratezza e affidabilità

I soggetti con LLM sono anche inclini alle allucinazioni , ovvero informazioni che sembrano plausibili ma sono errate o fuorvianti.

Ad esempio, in risposta a una domanda di carattere medico, l'operatore GPT-3.5 ha erroneamente raccomandato la tetraciclina a una paziente incinta, pur spiegandone correttamente i potenziali danni al feto. ²⁴

Figura 8: Un esempio tratto da GPT-3.5 che mostra la raccomandazione errata di un farmaco.

Generalizzazione vs. specializzazione

Un LLM con una formazione in dati medici generali potrebbe non possedere le competenze specifiche necessarie per determinate specialità mediche.

Pregiudizi e considerazioni etiche

Oltre all'accuratezza, sussistono preoccupazioni etiche, come la possibilità che i modelli lineari basati sull'apprendimento (LLM) perpetuino pregiudizi nei dati di addestramento. Ciò potrebbe comportare raccomandazioni di cura ineguali per diversi gruppi demografici.

Per maggiori dettagli sulle sfide poste dai modelli linguistici di grandi dimensioni, si vedano i rischi dell'IA generativa e l'etica dell'IA generativa .

Il futuro dei master in giurisprudenza (LLM) nel settore sanitario.

L'analisi di Stanford indica che esiste un notevole potenziale inespresso per i programmi LLM nel settore sanitario. ²⁵

Sebbene molti LLM siano stati utilizzati per compiti come il miglioramento della diagnostica o della comunicazione con i pazienti, meno si sono concentrati su compiti amministrativi che contribuiscono al burnout dei medici.

In futuro, i modelli di apprendimento basati sulla realtà virtuale (LLM) potrebbero evolversi per interagire con il comportamento , un contesto più ampio e le emozioni , consentendo loro di fornire un supporto più personalizzato ed empatico.

Metodologia di benchmarking

Metodologia di benchmarking : questo benchmark valuta 9 popolari LLM generali su domande mediche di livello universitario utilizzando il dataset MedQA , il cui contenuto deriva dall'United States Medical Licensing Examination (USMLE) . Ogni domanda include uno scenario clinico e opzioni di risposta a scelta multipla.

Risultati del modello LLM : a ciascun modello è stato richiesto di fornire una risposta strutturata (ad esempio, "Risposta: C"). ²⁶

Latenza : il tempo medio impiegato da un modello per generare una risposta a una singola domanda di MedQA. Ad esempio, se per completare 100 domande sono necessari complessivamente 1.115 secondi, la latenza media è di 11,15 secondi per domanda.

Fonti di dati di riferimento

Risultati dello studio Me-LLaMA 70B ²⁷
Risultati del Meditron 70B ²⁸
Risultati di Med-PaLM 2 ²⁹
ChatGPT & GPT-4 ³⁰

Collegamenti di riferimento

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

https://www.mcpdigitalhealth.org/action/showPdf?pii=S2949-7612%2824%2900114-7

Google Launches A Healthcare-Focused LLM

Forbes

How doctors are using Google's new AI models for health care

CNBC

MedGemma: Our most capable open models for health AI development

ResearchGate - Temporarily Unavailable

Medical ChatBot | Healthcare ChatBot | Medical GPT

Introducing ChatGPT Health | OpenAI

10.

Buoy Health - IDHA

Boston Children's Hospital

11.

WVU pharmacists using AI to help lower patient readmission rates | WVU Today | West Virginia University

12.

Babylon's AI-enabled symptom checker added to recently acquired Higi's app | MobiHealthNews

MobiHealthNews

13.

Artificial Intelligence | Epic

14.

Healthcare | Claude by Anthropic

15.

Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying | NEJM AI

16.

Oxford Medical Simulation - Virtual Reality Healthcare Training

Oxford Medical Simulation

17.

Large Language Models in Healthcare and Medical Applications: A Review - PMC

18.

The Challenges for Regulating Medical Use of ChatGPT and Other Large Language Models - PubMed

19.

https://arxiv.org/pdf/2307.15343

20.

Large Language Models in Healthcare: Are We There Yet? | Stanford HAI

21.

https://www.vals.ai/benchmarks/medqa-04-15-2025

22.

Medical foundation large language models for comprehensive text analysis and beyond | npj Digital Medicine

Nature Publishing Group UK

23.

[2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

24.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

25.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo