Realizamos benchmarks de 9 LLMs usando o conjunto de dados MedQA, um benchmark de exame clínico de nível de pós-graduação derivado de questões do USMLE. Cada modelo respondeu aos mesmos cenários clínicos de múltipla escolha usando um prompt padronizado, permitindo uma comparação direta de precisão.
Também registramos a latência por questão dividindo o tempo total de execução pelo número de itens do MedQA concluídos.
Resultados do benchmark de LLMs na saúde
Metodologia do benchmark: Este benchmark avalia o desempenho de ajuste fino supervisionado de LLMs na saúde vs. grandes modelos de propósito geral (GPT-4) em tarefas de resposta a perguntas médicas. Veja fontes de dados do benchmark.
MedQA: Questões de exames médicos de múltipla escolha baseadas no United States Medical Licensing Examination.
Figura 1: Exemplo de questão clínica de múltipla escolha no estilo USMLE.
MedMCQA: Conjunto de dados de Resposta a Questões de Múltipla Escolha (MCQA) em grande escala, projetado para abordar questões de exames de ingresso médico do mundo real.
Figura 2: Uma questão de múltipla escolha de exame de ingresso médico em grande escala que exige que o modelo selecione a resposta correta e interprete explicações associadas sobre achados clínicos.
PubMedQA: Benchmark de resposta a perguntas biomédicas usando respostas sim/não/talvez.
Figura 3: Uma pergunta biomédica de sim/não/talvez, onde o modelo deve julgar a correção de uma afirmação clínica usando o contexto do estudo fornecido.
Exemplos de LLM na saúde
Estilo BERT (Apenas Codificador)
Otimizados para codificar e representar texto biomédico, esses modelos se destacam na extração de recursos para tarefas como classificação.
Estilo ChatGPT / LLaMA (Decodificador, ajustado para instrução/chat)
Baseados em arquiteturas no estilo LLaMA e otimizados para tarefas interativas e diálogos clínicos.
Estilo GPT / PaLM (Apenas Decodificador, generativo)
Construídos de forma semelhante ao GPT-3 ou PaLM, esses modelos são ajustados para geração de texto de propósito geral e sumarização.
LLMs de propósito geral na saúde
*Llama 3.1 Instruct Turbo com 405B de parâmetros. Veja metodologia do benchmark.
Principais conclusões:
- o1: Modelo de melhor desempenho
- 03 mini: Melhor opção de orçamento
- GPT 4.1: Melhor velocidade e tempo de resposta
Além da precisão e do custo de entrada, os modelos também diferem em suas abordagens subjacentes para resposta a perguntas médicas. Por exemplo, o3 usa uma abordagem mais passo a passo e analítica, enquanto GPT-5 responde com empatia, organiza e explica informações claramente para não especialistas:
Figura 4: Figura mostrando as diferenças entre as respostas do GPT-5 e do o3.
Ajuste fino de LLMs médicos
O desempenho do ChatGPT padrão (modelo 4o) é comparado com o assistente existente 'Manual de Medicina Clínica'. Ambos os modelos recebem o mesmo prompt, e suas respostas são analisadas:
GPT 4o
Figura 5: A figura mostra que a resposta do modelo padrão GPT 4o é precisa, mas também altamente resumida.1
LLM médico ajustado finamente
Figura 6: A figura mostra que a resposta do agente especializado é melhor explicada e detalhada.2
Leia LLM ajuste fino e LLM treinamento para mais.
Aplicações de LLMs de propósito geral
Estes modelos são modelos ajustados finamente de propósito geral que requerem adaptação de domínio para realizar tarefas clínicas com precisão. Você pode usar esses modelos na saúde aproveitando:
- Pré-treinamento contínuo em dados médicos para ajudar o modelo a identificar melhor a linguagem médica, expondo-o a notas clínicas e literatura biomédica (como PubMed).
- RAG para extrair dados de documentos clínicos verificados para produzir respostas precisas em tempo de execução.
- Ajuste fino de instrução para permitir que o modelo aprenda como responder a perguntas clínicas ou extrair sintomas do texto.
Figura 7: Um fluxo de trabalho geral de ajuste fino de LLM para casos de uso especializados.9
Casos de uso de LLMs em ambientes clínicos
1. Transcrição médica
LLMs podem ajudar a criar transcrições médicas por:
- Ouvindo o diálogo orgânico entre um paciente e um clínico.
- Extraindo detalhes médicos críticos.
- Condensando dados médicos em registros médicos conformes que se alinham com as seções relevantes de um EHR.
Exemplo da vida real: O MedLM do Google pode capturar e transformar a conversa paciente-clínico em transcrição médica.10
2. Melhoria de registros eletrônicos de saúde (EHR)
O uso generalizado de registros eletrônicos de saúde (EHRs) gerou vastas quantidades de dados de pacientes que, quando usados efetivamente, podem melhorar significativamente a saúde.
Por exemplo, analisar dados de EHR pode ajudar os clínicos a tomar melhores decisões, revelando padrões em diagnósticos, tratamentos e resultados. Também pode apoiar a detecção precoce de doenças e cuidados mais personalizados, identificando fatores de risco e adaptando tratamentos para pacientes individuais.
No nível do sistema, os dados de EHR podem melhorar a eficiência, reduzindo testes redundantes, destacando lacunas de cuidado e informando políticas que melhoram a qualidade e reduzem custos.
Exemplo da vida real: O MedLM do Google é usado pela BenchSci, Accenture e Deloitte para melhorar registros eletrônicos de saúde (EHRs).
- BenchSci integrou o MedLM em sua plataforma ASCEND para melhorar a qualidade da pesquisa pré-clínica.
- Accenture usa o MedLM para organizar dados não estruturados de várias fontes, automatizando operações manuais anteriormente demoradas e propensas a erros.
- Deloitte trabalha com o MedLM para minimizar atritos na busca por tratamento. Eles usam um chatbot interativo que ajuda os participantes do plano de saúde a entender melhor as alternativas de provedores.11
3. Suporte à decisão clínica
LLMs ajudam os clínicos a interpretar informações específicas do paciente incluídas na evidência médica atual, destacando considerações relevantes durante o diagnóstico ou planejamento de tratamento sem substituir o julgamento clínico.
Exemplo da vida real: MedGemma (Google DeepMind) é uma coleção de modelos médicos de peso aberto construídos na arquitetura Gemma 3 do Google. Em vez de funcionar como uma ferramenta de diagnóstico direta ao consumidor, o MedGemma serve como uma base para desenvolvedores construírem aplicações médicas voltadas para clínicos.
Projetado para análise de texto e imagem médica, o MedGemma pode interpretar imagens médicas complexas, incluindo raios-X de tórax, ressonâncias magnéticas e tomografias computadorizadas. Também suporta tarefas de raciocínio clínico, como resumir notas de pacientes ou responder a perguntas no estilo de conselhos médicos.
De acordo com uma revisão por um radiologista torácico certificado nos EUA, 81% dos relatórios de raios-X de tórax do MedGemma levariam a decisões de gerenciamento de pacientes semelhantes às baseadas nos relatórios originais do radiologista (veja o gráfico abaixo).
Figura 8: O gráfico mostra com que frequência relatórios de raios-X de tórax gerados por IA e relatórios originais de radiologistas levam a resultados clínicos semelhantes ou diferentes em casos normais, anormais e todos os casos.12
Exemplo da vida real: O Memorial Sloan Kettering Cancer Center usa o IBM Watson Oncology para auxiliar oncologistas analisando dados de pacientes e literatura médica para recomendar opções de tratamento baseadas em evidências.13
4. Assistência em pesquisa médica
Na pesquisa médica, o valor central dos LLMs reside em sua capacidade de acelerar a revisão e síntese de literatura.
Em vez de simplesmente resumir artigos, LLMs ajudam os pesquisadores a acompanhar a literatura biomédica em rápida expansão, identificando estudos relevantes, extraindo descobertas-chave e sintetizando insights de várias fontes.
Exemplo da vida real: O chatbot de saúde da John Snow ajuda os pesquisadores a encontrar artigos científicos relevantes, extrair insights-chave e identificar tendências de pesquisa. É particularmente valioso para navegar na vasta quantidade de literatura biomédica.14
5. Comunicação automatizada com pacientes
Grandes modelos de linguagem na saúde podem redigir respostas informativas e compassivas às perguntas dos pacientes. Alguns exemplos incluem:
- Gestão de medicação e lembretes: Um chatbot fornece aos pacientes lembretes regulares para tomar sua medicação para diabetes e solicita confirmação.
- Monitoramento de saúde e cuidados de acompanhamento: Um paciente pós-operatório envia sua dor e status da ferida para um chatbot, que determina se o processo de cura está progredindo.
- Comunicação informativa e educacional: Um paciente pergunta a um chatbot como gerenciar a pressão alta, e o chatbot responde com dicas de nutrição e estilo de vida.
Exemplo da vida real: ChatGPT Health permite que os usuários conectem com segurança seus registros médicos e dados de bem-estar (por exemplo, Apple Health ou MyFitnessPal). Os usuários podem então fazer perguntas ao ChatGPT sobre seus próprios dados, como "Como está meu colesterol?" ou "Resuma meus últimos resultados de laboratório."15
Exemplo da vida real: O Boston Children's Hospital usa o Buoy Health, um chatbot verificador de sintomas online impulsionado por IA, que fornece aos pacientes respostas instantâneas para perguntas relacionadas à saúde e consultas iniciais.
O chatbot pode triar pacientes analisando seus sintomas e aconselhando se eles precisam ver um médico.16
6. Resultados de saúde preditivos
LLMs podem ser posicionados para permitir estratificação de risco e previsão na saúde. Ao apoiar a análise de dados clínicos estruturados e não estruturados, LLMs podem ajudar a identificar pacientes com risco elevado (como readmissão hospitalar) e apoiar o planejamento de cuidados proativos, muitas vezes em combinação com modelos preditivos tradicionais.
Exemplo da vida real: Farmacêuticos da WVU usam um algoritmo preditivo para determinar o risco de readmissão. Esta abordagem examinará dados de registros eletrônicos de saúde (EHRs), que incluem demografia do paciente, história clínica e determinantes socioeconômicos da saúde.
Com base nesta pesquisa, os farmacêuticos da WVU identificam pacientes com alto risco de readmissão e atribuem coordenadores de cuidados para fazer acompanhamento com eles após a alta. Isso pode ajudar a reduzir as taxas de readmissão.17
7. Planos de tratamento personalizados
Ao integrar histórico médico, sintomas e dados de saúde longitudinais, LLMs podem ajudar a traduzir informações complexas do paciente em considerações de cuidado individualizadas, apoiando discussões de tratamento mais personalizadas e conscientes do contexto entre clínicos e pacientes.
Exemplo da vida real: O chatbot de IA da Babylon Health fornece recomendações de saúde individualizadas com base nos sintomas e histórico médico do usuário. Ele envolve os usuários em uma conversa fazendo perguntas relevantes para analisar melhor seus problemas e dando recomendações personalizadas.18
8. Codificação e faturamento médicos
Grandes modelos de linguagem podem automatizar processos de auditoria analisando registros de pacientes e EHRs.
Exemplo da vida real: A Epic Systems, um provedor de EHR, integra LLMs em seu software para auxiliar na codificação e faturamento. Os LLMs podem monitorar anomalias nos padrões de acesso a informações sensíveis de pacientes ou inconsistências nas práticas de codificação e faturamento.19
Exemplo da vida real: Claude para Saúde (Anthropic) é uma plataforma focada em empresas projetada para organizações de saúde, provedores e seguradoras. Conecta grandes modelos de linguagem a bancos de dados médicos profissionais, como ICD-10 e o Banco de Dados de Cobertura do CMS, permitindo que hospitais automatizem fluxos de trabalho administrativos. Esses fluxos de trabalho incluem autorizações prévias de seguro, sumarização de prontuários de pacientes e triagem de mensagens do portal do paciente.20
No entanto, LLMs não estão totalmente prontos para codificação médica, mas suas contribuições são promissoras: Pesquisadores examinaram com que frequência quatro LLMs (GPT-3.5, GPT-4, Gemini Pro e Llama2-70b Chat) emitiram os códigos CPT, ICD-9-CM e ICD-10-CM corretos.
Seus resultados mostram uma oportunidade significativa de melhoria. Os pesquisadores descobriram que LLMs frequentemente geram códigos que transmitem informações imprecisas, com uma precisão máxima de 50%.21
9. Treinamento e educação
Grandes modelos de linguagem e IA generativa podem ser usados como ferramentas educacionais interativas, ajudando clínicos e pacientes a entender melhor conceitos médicos complexos e esclarecer informações confusas.
Caso de uso da vida real: Oxford Medical Simulation usa LLMs integrados com tecnologia de VR para criar simulações de pacientes virtuais imersivas.
Essas simulações permitem que os estudantes vivenciem cenários de alta pressão, como lidar com um paciente em parada cardíaca sem quaisquer consequências do mundo real.
Os LLMs alimentam as respostas dos pacientes virtuais, tornando-os mais realistas e imprevisíveis, preparando os estudantes para a variabilidade de ambientes clínicos reais.22
10. Descoberta e desenvolvimento de medicamentos
LLMs estão acelerando a pesquisa farmacêutica encurtando ciclos de desenvolvimento e reduzindo o custo de trazer novos compostos para o mercado. Esses modelos podem:
- Analisar estruturas moleculares complexas e sinalizar compostos com potencial terapêutico.
- Predizer a eficácia e o perfil de segurança de medicamentos candidatos antes dos testes de laboratório.
- Sugerir novas configurações moleculares voltadas para alvos terapêuticos específicos.
- Otimizar compostos líderes para melhorar a farmacocinética e reduzir efeitos colaterais.
Modelos de linguagem química, um subconjunto de LLMs construídos especificamente para aplicações farmacêuticas, produziram resultados mensuráveis em design de medicamentos de novo. A pesquisa indica que modelos com warm-start (aqueles inicializados a partir de modelos de linguagem bioquímica pré-treinados) geram compostos de maior qualidade do que abordagens de base.23
11. Radiologia e imagem médica
LLMs Multimodais que processam texto e imagens podem revisar imagens médicas junto com dados clínicos para apoiar a detecção de anormalidades e contribuir para interpretações diagnósticas mais precisas.
- Interpretação de imagem: Modelos como Med-Flamingo e LLaVA-Med analisam imagens médicas em um contexto clínico, apoiando radiologistas na detecção precoce de condições visíveis em raios-X de tórax, ressonâncias magnéticas e tomografias computadorizadas.
- Geração automatizada de relatórios: Sistemas como ChatCAD geram relatórios de radiologia diretamente a partir de dados de imagem, abordando uma das tarefas mais demoradas em departamentos de imagem de alto volume.
12. Alfabetização em saúde e acessibilidade linguística
Uma lacuna prática no cuidado do paciente é a distância entre a linguagem clínica e a linguagem que os pacientes usam para descrever sua própria saúde. LLMs podem ajudar a fechar essa lacuna por:
- Traduzir terminologia médica e jargão para linguagem simples no nível de leitura do paciente.
- Pontes de diferenças linguísticas entre pacientes e provedores em ambientes de cuidado multilíngue.
- Explicar opções de tratamento, resultados de testes e planos de cuidado em formatos que os pacientes possam agir.
A melhoria na compreensão do paciente está associada a melhor adesão ao tratamento e resultados, o que torna isso uma aplicação de qualidade de cuidado tanto quanto de comunicação.
Desafios de LLMs na saúde
Preocupações com privacidade
Usar aplicações de saúde baseadas em LLM que não foram devidamente desenvolvidas, testadas ou aprovadas para uso médico pode representar riscos significativos para os usuários, particularmente em torno da privacidade de dados.
Essas ferramentas frequentemente processam informações de saúde sensíveis fornecidas pelo usuário, mas nem sempre está claro como esses dados são armazenados, compartilhados ou se as aplicações cumprem totalmente as leis e regulamentos existentes de proteção de dados.24
Precisão e confiabilidade
LLMs também são propensos a alucinações, informações que parecem plausíveis, mas incorretas ou enganosas.
Por exemplo, ao receber uma consulta médica, GPT-3.5 recomendou incorretamente tetraciclina para uma paciente grávida, apesar de explicar corretamente seu potencial dano ao feto.25
Figura 8: Um exemplo do GPT-3.5 mostrando a recomendação incorreta de um medicamento.
Generalização vs. especialização
Um LLM treinado em dados médicos gerais pode não ter a expertise detalhada necessária para especialidades médicas específicas.
Vieses e considerações éticas
Além da precisão, existem preocupações éticas, como o potencial de LLMs perpetuarem vieses em seus dados de treinamento. Isso poderia resultar em recomendações de cuidado desiguais para diferentes grupos demográficos.
Para mais detalhes sobre os desafios de grandes modelos de linguagem, leia os riscos da IA generativa e ética da IA generativa.
O futuro de LLMs na saúde
A análise de Stanford indica que há potencial subutilizado significativo para LLMs na saúde.26
Enquanto muitos LLMs têm sido usados para tarefas como aumentar diagnósticos ou comunicação com pacientes, poucos se concentraram em tarefas administrativas que contribuem para o burnout de clínicos.
No futuro, LLMs podem evoluir para interagir com comportamento, mais contexto e emoções, permitindo que forneçam suporte mais personalizado e empático.
Metodologia de grandes modelos de linguagem na saúde
Metodologia do benchmark: Este benchmark avalia 9 LLMs gerais populares em questões médicas de nível de pós-graduação usando o conjunto de dados MedQA, que extrai seu conteúdo do United States Medical Licensing Examination (USMLE). Cada questão inclui um cenário clínico e opções de resposta de múltipla escolha.
Saídas de LLM: Cada modelo foi solicitado a retornar uma resposta estruturada (por exemplo, "Resposta: C").27
Latência: O tempo médio que um modelo leva para gerar uma resposta a um único prompt MedQA. Por exemplo, se 100 questões levam 1.115 segundos no total para serem concluídas, a latência média é de 11,15 segundos por questão.
Fontes de dados do benchmark de LLMs na saúde
- Resultados do Me-LLaMA 70B28
- Resultados do Meditron 70B29
- Resultados do Med-PaLM 230
- ChatGPT & GPT-431
Cite esta pesquisa
Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.
@misc{dilmegani2026,
author = {Dilmegani, Cem},
title = {{Compare 9 Grandes Modelos de Linguagem na Saúde}},
year = {2026},
month = may,
howpublished = {\url{https://aimultiple.com/large-language-models-in-healthcare}},
note = {AIMultiple. Retrieved Maio 21, 2026}
}








Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios. Os comentários são deixados em seu idioma original.