Comparaison de 9 grands modèles de langage dans le domaine de la santé

mis à jour le Mai 21, 2026

Nous avons évalué neuf modèles de maîtrise en droit (LLM) à l'aide de l'ensemble de données MedQA, un référentiel d'examens cliniques de niveau supérieur dérivé des questions de l'USMLE. Chaque modèle a répondu aux mêmes scénarios cliniques à choix multiples à l'aide d'une consigne standardisée, permettant une comparaison directe de leur précision.

Nous avons également enregistré la latence par question en divisant le temps d'exécution total par le nombre d'éléments MedQA complétés.

résultats de référence des LLM en soins de santé

Loading Chart

Méthodologie d'évaluation comparative : Cette évaluation comparative porte sur les performances de l'ajustement supervisé des modèles linéaires en ligne (LLM) pour le secteur de la santé par rapport à celles de grands modèles à usage général (GPT-4) sur des tâches de réponse à des questions médicales . Voir les sources des données de référence .

MedQA : Questions d'examen médical à choix multiples basées sur l'examen d'agrément médical des États-Unis.

Figure 1 : Exemple de question clinique à choix multiples de type USMLE.

MedMCQA : Ensemble de données à grande échelle de questions à choix multiples (QCM) conçu pour répondre aux questions réelles des examens d'entrée en médecine.

Figure 2 : Une question à choix multiple à grande échelle d'un examen d'entrée en médecine exigeant du modèle qu'il sélectionne la bonne réponse et interprète les explications associées sur les résultats cliniques.

PubMedQA : Analyse comparative des questions biomédicales utilisant les réponses oui/non/peut-être.

Figure 3 : Une question biomédicale de type oui/non/peut-être, où le modèle doit juger de la justesse d'une affirmation clinique en utilisant le contexte d'étude fourni.

Exemples de LLM en soins de santé

De type BERT (encodeur uniquement)

Optimisés pour l'encodage et la représentation de textes biomédicaux, ces modèles excellent dans l'extraction de caractéristiques pour des tâches telles que la classification.

ChatGPT / LLaMA-like (Décodeur, instructions/conversation optimisées)

Basé sur des architectures de type LLaMA et optimisé pour les tâches interactives et les dialogues cliniques.

GPT / PaLM-like (Décodeur uniquement, génératif)

Conçus de manière similaire à GPT-3 ou PaLM, ces modèles sont finement optimisés pour la génération et la synthèse de textes à usage général.

Masters en droit généralistes dans le domaine de la santé

*Llama 3.1 Instruct Turbo avec les paramètres 405B. Voir la méthodologie d'évaluation comparative.

Points clés à retenir :

o1 : Modèle le plus performant
03 mini : Meilleure option économique
GPT 4.1 : Vitesse et temps de réponse optimaux

Au-delà de la précision et du coût des données, les modèles diffèrent également par leur approche sous-jacente de la réponse aux questions médicales. Par exemple, o3 utilise une approche analytique plus progressive, tandis que GPT-5 répond avec empathie, organise et explique clairement l'information aux non-spécialistes.

Figure 4 : Figure montrant les différences entre les réponses GPT-5 et o3.

Optimisation des LLM en médecine

Les performances du modèle ChatGPT par défaut (4o) sont comparées à celles de l'assistant existant du « Manuel de médecine clinique ». Les deux modèles reçoivent la même requête et leurs réponses sont analysées.

GPT 4o

Figure 5 : La figure montre que la réponse du modèle par défaut GPT 4o est précise mais aussi très résumée. ¹

Master en droit médical spécialisé

Figure 6 : La figure montre que la réponse de l'agent spécialisé est mieux expliquée et détaillée. ²

Pour en savoir plus, consultez les sections sur le perfectionnement du LLM et la formation LLM .

Applications des LLM à vocation générale

Ces modèles sont des modèles généraux affinés qui nécessitent une adaptation au domaine pour réaliser des tâches cliniques avec précision. Vous pouvez utiliser ces modèles dans le domaine de la santé en tirant parti de :

Un pré-entraînement continu sur des données médicales permet au modèle de mieux identifier le langage médical en l'exposant à des notes cliniques et à la littérature biomédicale (comme PubMed).
RAG permet d'extraire des données de documents cliniques vérifiés afin de produire des réponses précises en temps réel.
Mise au point des instructions pour permettre au modèle d'apprendre à répondre aux questions cliniques ou à extraire les symptômes d'un texte .

Figure 7 : Un flux de travail général de réglage fin LLM pour des cas d'utilisation spécialisés. ⁹

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Cas d'utilisation des LLM en milieu clinique

1. Transcription médicale

Les titulaires d'un LLM peuvent contribuer à la création de transcriptions médicales en :

Écouter le dialogue naturel entre un patient et un clinicien.
Extraction des informations médicales critiques.
Condenser les données médicales en dossiers médicaux conformes aux sections pertinentes d'un dossier médical électronique.

Exemple concret : MedLM de Google peut capturer et transformer la conversation patient-clinicien en transcription médicale. ¹⁰

2. Amélioration des dossiers médicaux électroniques (DME)

La généralisation des dossiers médicaux électroniques (DME) a généré d'énormes quantités de données sur les patients qui, lorsqu'elles sont utilisées efficacement, peuvent améliorer considérablement les soins de santé.

Par exemple, l'analyse des données des dossiers médicaux électroniques peut aider les cliniciens à prendre de meilleures décisions en révélant des tendances dans les diagnostics, les traitements et les résultats. Elle peut également favoriser un dépistage plus précoce des maladies et des soins plus personnalisés en identifiant les facteurs de risque et en adaptant les traitements à chaque patient.

Au niveau du système, les données des dossiers médicaux électroniques peuvent améliorer l'efficacité en réduisant les examens redondants, en mettant en évidence les lacunes en matière de soins et en éclairant les politiques qui améliorent la qualité et réduisent les coûts.

Exemple concret : MedLMis de Google est utilisé par BenchSci, Accenture et Deloitte pour améliorer les dossiers médicaux électroniques (DME).

BenchSci a intégré MedLM à sa plateforme ASCEND afin d'améliorer la qualité de la recherche préclinique.
Accenture utilise MedLM pour organiser les données non structurées provenant de sources multiples, automatisant ainsi des opérations manuelles auparavant fastidieuses et sujettes aux erreurs.
Deloitte collabore avec MedLM pour faciliter l'accès aux soins. Ils utilisent un chatbot interactif qui aide les participants aux régimes d'assurance maladie à mieux comprendre les différentes options de prestataires. ¹¹

3. Aide à la décision clinique

Les LLM aident les cliniciens à interpréter les informations spécifiques au patient incluses dans les données médicales actuelles, en faisant émerger des considérations pertinentes lors du diagnostic ou de la planification du traitement sans remplacer le jugement clinique.

Exemple concret : MedGemma (DeepMind) est une collection de modèles médicaux open-weight construits sur l’architecture Gemma 3 de DeepMind. Plutôt que de fonctionner comme un outil de diagnostic destiné directement au grand public, MedGemma sert de base aux développeurs pour créer des applications médicales destinées aux cliniciens.

Conçu pour l'analyse de textes et d'images médicales, MedGemma peut interpréter des images médicales complexes, notamment les radiographies pulmonaires, les IRM et les scanners. Il prend également en charge les tâches de raisonnement clinique, comme la synthèse des dossiers patients ou la réponse aux questions d'examen médical.

Selon une étude réalisée par un radiologue cardiothoracique américain certifié, 81 % des rapports de radiographie thoracique de MedGemma conduiraient à des décisions de prise en charge des patients similaires à celles basées sur les rapports originaux du radiologue (voir le graphique ci-dessous).

Figure 8 : Le graphique montre à quelle fréquence les rapports de radiographie thoracique générés par l'IA et les rapports originaux des radiologues aboutissent à des résultats cliniques similaires ou différents dans les cas normaux, anormaux et tous les cas. ¹²

Exemple concret : le Memorial Sloan Kettering Cancer Center utilise IBM Watson Oncology pour aider les oncologues en analysant les données des patients et la littérature médicale afin de recommander des options de traitement fondées sur des preuves. ¹³

4. Aide à la recherche médicale

En recherche médicale, la principale valeur des LLM réside dans leur capacité à accélérer l'analyse et la synthèse de la littérature.

Plutôt que de simplement résumer des articles, les LLM aident les chercheurs à suivre le rythme de l'expansion rapide de la littérature biomédicale en identifiant les études pertinentes, en extrayant les principaux résultats et en synthétisant les connaissances issues de sources multiples.

Exemple concret : le chatbot de John Snow dédié à la santé aide les chercheurs à trouver des articles scientifiques pertinents, à en extraire les informations clés et à identifier les tendances de la recherche. Il est particulièrement utile pour s’orienter dans l’immense quantité de littérature biomédicale. ¹⁴

5. Communication automatisée avec les patients

Les grands modèles de langage utilisés dans le domaine de la santé peuvent rédiger des réponses informatives et empathiques aux questions des patients. En voici quelques exemples :

Gestion des médicaments et rappels : Un chatbot envoie régulièrement aux patients des rappels pour prendre leurs médicaments contre le diabète et demande une confirmation.
Suivi médical et soins de suivi : Un patient en post-opératoire envoie des informations sur sa douleur et l'état de sa plaie à un chatbot, qui détermine si le processus de guérison progresse.
Communication informative et éducative : Un patient demande à un chatbot comment gérer son hypertension artérielle, et le chatbot lui répond par des conseils en matière de nutrition et de mode de vie.

Exemple concret : ChatGPT Health permet aux utilisateurs de connecter en toute sécurité leurs dossiers médicaux et leurs données de bien-être (par exemple, Apple Health ou MyFitnessPal). Ils peuvent ensuite poser des questions à ChatGPT sur leurs propres données, telles que « Quelle est l’évolution de mon taux de cholestérol ? » ou « Pouvez-vous me donner un résumé de mes derniers résultats d’analyses ? » ¹⁵

Exemple concret : l’hôpital pour enfants de Boston utilise Buoy Health, un chatbot de vérification des symptômes en ligne basé sur l’IA, qui fournit aux patients des réponses instantanées à leurs questions de santé et des consultations initiales.

Le chatbot peut trier les patients en analysant leurs symptômes et en indiquant s'ils doivent consulter un médecin. ¹⁶

6. Résultats prédictifs en matière de santé

Les modèles linéaires d'apprentissage (LLM) peuvent être utilisés pour la stratification et la prévision des risques dans le domaine de la santé. En facilitant l'analyse des données cliniques structurées et non structurées, les LLM peuvent contribuer à identifier les patients à risque élevé (comme la réadmission à l'hôpital) et à soutenir une planification proactive des soins, souvent en complément des modèles prédictifs traditionnels.

Exemple concret : les pharmaciens de l’université de Virginie-Occidentale utilisent un algorithme prédictif pour déterminer le risque de réadmission. Cette approche analyse les données des dossiers médicaux électroniques (DME), qui comprennent les caractéristiques démographiques des patients, leurs antécédents médicaux et les déterminants socio-économiques de leur santé.

S’appuyant sur ces recherches, les pharmaciens de l’Université de Virginie-Occidentale (WVU) identifient les patients présentant un risque élevé de réadmission et désignent des coordinateurs de soins pour assurer un suivi après leur sortie. Cela peut contribuer à réduire les taux de réadmission. ¹⁷

7. Plans de traitement personnalisés

En intégrant les antécédents médicaux, les symptômes et les données de santé longitudinales, les LLM peuvent aider à traduire des informations complexes sur les patients en considérations de soins individualisées, favorisant ainsi des discussions de traitement plus personnalisées et adaptées au contexte entre les cliniciens et les patients.

Exemple concret : le chatbot IA de Babylon Health fournit des recommandations de santé personnalisées en fonction des symptômes et des antécédents médicaux de l’utilisateur. Il engage la conversation en posant des questions pertinentes afin de mieux analyser ses problèmes et en lui prodiguant des recommandations sur mesure. ¹⁸

8. Codage et facturation médicale

Les grands modèles de langage peuvent automatiser les processus d'audit en analysant les dossiers des patients et les dossiers médicaux électroniques.

Exemple concret : Epic Systems, fournisseur de dossiers médicaux électroniques, intègre des modules d’analyse de la facturation (LLM) à son logiciel pour faciliter le codage et la facturation. Ces modules permettent de détecter les anomalies dans les accès aux données sensibles des patients ainsi que les incohérences dans les pratiques de codage et de facturation. ¹⁹

Exemple concret : Claude for Healthcare (Anthropic) est une plateforme d’entreprise conçue pour les organismes, les professionnels de santé et les assureurs du secteur de la santé. Elle connecte des modèles de langage complexes à des bases de données médicales professionnelles telles que la CIM-10 et la base de données de couverture CMS, permettant ainsi aux hôpitaux d’automatiser leurs processus administratifs. Ces processus incluent les autorisations préalables d’assurance, la synthèse des dossiers patients et le tri des messages du portail patient. ²⁰

Cependant, les LLM ne sont pas entièrement prêts pour le codage médical, mais leurs contributions sont prometteuses : les chercheurs ont examiné la fréquence à laquelle quatre LLM (GPT-3.5, GPT-4, Gemini Pro et Llama2-70b Chat) ont émis les codes CPT, ICD-9-CM et ICD-10-CM corrects.

Leurs conclusions révèlent une marge d'amélioration importante. Les chercheurs ont constaté que les LLM génèrent souvent un code qui transmet des informations inexactes, avec une précision maximale de 50 %. ²¹

9. Formation et éducation

Les grands modèles de langage et l'IA générative peuvent être utilisés comme outils pédagogiques interactifs, aidant les cliniciens et les patients à mieux comprendre les concepts médicaux complexes et à clarifier les informations confuses.

Cas d'utilisation réel : Oxford Medical Simulation utilise des LLM intégrés à la technologie VR pour créer des simulations virtuelles immersives de patients.

Ces simulations permettent aux étudiants de vivre des scénarios à haute pression, comme la prise en charge d'un patient en arrêt cardiaque, sans aucune conséquence réelle.

Les LLM permettent de simuler les réponses des patients virtuels, les rendant plus réalistes et imprévisibles, et préparant ainsi les étudiants à la variabilité des environnements cliniques réels. ²²

Les défis des LLM dans le domaine de la santé

préoccupations relatives à la confidentialité

L’utilisation d’applications de santé basées sur la technologie LLM qui n’ont pas été correctement développées, testées ou approuvées pour un usage médical peut présenter des risques importants pour les utilisateurs, notamment en matière de confidentialité des données.

Ces outils traitent souvent des informations de santé sensibles fournies par l'utilisateur, mais il n'est pas toujours clair comment ces données sont stockées, partagées, ni si les applications sont pleinement conformes aux lois et réglementations existantes en matière de protection des données. ²³

Précision et fiabilité

Les personnes atteintes de LLM sont également sujettes aux hallucinations , c'est-à-dire à des informations qui semblent plausibles mais qui sont incorrectes ou trompeuses.

Par exemple, lorsqu'une question médicale lui a été posée, GPT-3.5 a recommandé à tort la tétracycline à une patiente enceinte, malgré l'explication correcte de ses risques potentiels pour le fœtus. ²⁴

Figure 8 : Un exemple tiré de GPT-3.5 montrant la recommandation incorrecte d'un médicament.

Généralisation vs. spécialisation

Un titulaire de LLM formé aux données médicales générales peut ne pas posséder l'expertise détaillée requise pour des spécialités médicales spécifiques.

Biais et considérations éthiques

Au-delà de la question de l'exactitude, des préoccupations éthiques se posent, notamment le risque que les LLM perpétuent les biais dans leurs données de formation. Cela pourrait entraîner des recommandations de soins inégales pour différents groupes démographiques.

Pour plus de détails sur les défis posés par les grands modèles de langage, consultez les articles sur les risques de l'IA générative et l'éthique de l'IA générative .

L'avenir des LLM dans le domaine de la santé

L'analyse de Stanford indique qu'il existe un potentiel important encore inexploité pour les LLM dans le domaine de la santé. ²⁵

Alors que de nombreux LLM ont été utilisés pour des tâches telles que l'amélioration des diagnostics ou la communication avec les patients, peu se sont concentrés sur les tâches administratives qui contribuent à l'épuisement professionnel des cliniciens.

À l'avenir, les LLM pourraient évoluer pour interagir avec les comportements , davantage de contexte et les émotions , ce qui leur permettrait de fournir un soutien plus personnalisé et empathique.

Méthodologie de référence

Méthodologie d'évaluation comparative : Cette évaluation comparative porte sur neuf modules de maîtrise en droit général populaires, portant sur des questions médicales de niveau supérieur et utilisant l' ensemble de données MedQA , dont le contenu est tiré de l' examen d'aptitude médicale des États-Unis (USMLE) . Chaque question comprend un scénario clinique et des options de réponse à choix multiples.

Résultats LLM : Chaque modèle a été invité à renvoyer une réponse structurée (par exemple, « Réponse : C »). ²⁶

Latence : Temps moyen nécessaire à un modèle pour générer une réponse à une question MedQA. Par exemple, si 100 questions nécessitent 1 115 secondes au total, la latence moyenne est de 11,15 secondes par question.

Sources de données de référence

Résultats Me-LLaMA 70B ²⁷
Résultats du Meditron 70B ²⁸
Résultats de Med-PaLM 2 ²⁹
ChatGPT & GPT-4 ³⁰

Liens de référence

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

https://www.mcpdigitalhealth.org/action/showPdf?pii=S2949-7612%2824%2900114-7

Google Launches A Healthcare-Focused LLM

Forbes

How doctors are using Google's new AI models for health care

CNBC

MedGemma: Our most capable open models for health AI development

ResearchGate - Temporarily Unavailable

Medical ChatBot | Healthcare ChatBot | Medical GPT

Introducing ChatGPT Health | OpenAI

10.

Buoy Health - IDHA

Boston Children's Hospital

11.

WVU pharmacists using AI to help lower patient readmission rates | WVU Today | West Virginia University

12.

Babylon's AI-enabled symptom checker added to recently acquired Higi's app | MobiHealthNews

MobiHealthNews

13.

Artificial Intelligence | Epic

14.

Healthcare | Claude by Anthropic

15.

Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying | NEJM AI

16.

Oxford Medical Simulation - Virtual Reality Healthcare Training

Oxford Medical Simulation

17.

Large Language Models in Healthcare and Medical Applications: A Review - PMC

18.

The Challenges for Regulating Medical Use of ChatGPT and Other Large Language Models - PubMed

19.

https://arxiv.org/pdf/2307.15343

20.

Large Language Models in Healthcare: Are We There Yet? | Stanford HAI

21.

https://www.vals.ai/benchmarks/medqa-04-15-2025

22.

Medical foundation large language models for comprehensive text analysis and beyond | npj Digital Medicine

Nature Publishing Group UK

23.

[2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

24.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

25.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Comparaison de 9 grands modèles de langage dans le domaine de la santé

résultats de référence des LLM en soins de santé

Exemples de LLM en soins de santé

De type BERT (encodeur uniquement)

ChatGPT / LLaMA-like (Décodeur, instructions/conversation optimisées)

GPT / PaLM-like (Décodeur uniquement, génératif)

Masters en droit généralistes dans le domaine de la santé

Optimisation des LLM en médecine

GPT 4o

Master en droit médical spécialisé

Applications des LLM à vocation générale

Cas d'utilisation des LLM en milieu clinique

1. Transcription médicale

2. Amélioration des dossiers médicaux électroniques (DME)

3. Aide à la décision clinique

4. Aide à la recherche médicale

5. Communication automatisée avec les patients

6. Résultats prédictifs en matière de santé

7. Plans de traitement personnalisés

8. Codage et facturation médicale

9. Formation et éducation

Les défis des LLM dans le domaine de la santé

préoccupations relatives à la confidentialité

Précision et fiabilité

Généralisation vs. spécialisation

Biais et considérations éthiques

L'avenir des LLM dans le domaine de la santé

Méthodologie de référence

Sources de données de référence

Liens de référence

Soyez le premier à commenter

À lire ensuite

Comparaison des modèles de langage visuel avec la reconnaissance d'images

Modèles quantitatifs de grande taille : applications et défis

Modèles de monde à grande échelle : cas d'utilisation et exemples

Modèles de langage à grande échelle en cybersécurité ['26]

Maquettes articulées grand format : effet de mode ou réalité ?

Modèles multimodaux de grande taille (LMM) vs LLM