Serviços
Contate-nos
Nenhum resultado encontrado.

Comparação de 9 Grandes Modelos de Linguagem na Área da Saúde

Cem Dilmegani
Cem Dilmegani
atualizado em Jan 23, 2026
Veja o nosso normas éticas

Avaliamos 9 modelos de lógica de aprendizagem (LLMs) usando o conjunto de dados MedQA, um modelo de referência para exames clínicos de nível de pós-graduação derivado de questões do USMLE. Cada modelo respondeu aos mesmos cenários clínicos de múltipla escolha usando um enunciado padronizado, permitindo a comparação direta da precisão.

Também registramos a latência por questão, dividindo o tempo total de execução pelo número de itens do MedQA concluídos.

Resultados de referência para mestrados em Direito na área da saúde

Loading Chart

Metodologia de benchmark : Este benchmark avalia o desempenho do ajuste fino supervisionado de LLMs de saúde em comparação com grandes modelos de propósito geral (GPT-4) em tarefas de resposta a perguntas médicas. Consulte as fontes de dados do benchmark .

MedQA : Questões de múltipla escolha para exame médico baseadas no Exame de Licenciamento Médico dos Estados Unidos.

Figura 1: Exemplo de questão clínica de múltipla escolha no estilo USMLE.

MedMCQA : Conjunto de dados de perguntas de múltipla escolha em larga escala, projetado para abordar questões reais de exames de admissão em medicina.

Figura 2: Uma questão de múltipla escolha em larga escala para um exame de admissão em medicina, exigindo que o modelo selecione a resposta correta e interprete as explicações associadas sobre os achados clínicos.

PubMedQA : Plataforma de comparação para perguntas e respostas biomédicas usando respostas do tipo sim/não/talvez.

Figura 3: Uma questão biomédica de sim/não/talvez, onde o modelo deve avaliar a correção de uma afirmação clínica usando o contexto do estudo fornecido.

Exemplos de LLM em Saúde

Semelhante ao BERT (somente codificador)

Otimizados para codificar e representar texto biomédico, esses modelos se destacam na extração de características para tarefas como classificação.

ChatGPT / semelhante ao LLaMA (Decodificador, otimizado para instruções/bate-papo)

Baseado em arquiteturas do tipo LLaMA e otimizado para tarefas interativas e diálogos clínicos.

Semelhante a GPT/PaLM (somente decodificador, generativo)

Construídos de forma semelhante ao GPT-3 ou ao PaLM, esses modelos são ajustados para geração e sumarização de texto de propósito geral.

Mestrados em Direito (LLM) de propósito geral na área da saúde

*Llama 3.1 Instrua o Turbo com parâmetros 405B. Consulte a metodologia de benchmark.

Principais conclusões:

  • o1 : Modelo com melhor desempenho
  • 03 mini : Melhor opção econômica
  • GPT 4.1 : Melhor velocidade e tempo de resposta

Além da precisão e do custo de entrada, os modelos também diferem em suas abordagens subjacentes para responder a perguntas médicas. Por exemplo, o modelo o3 utiliza uma abordagem mais analítica e passo a passo, enquanto o modelo GPT-5 responde com empatia, organiza e explica as informações de forma clara para não especialistas.

Figura 4: Figura mostrando as diferenças entre as respostas GPT-5 e o3.

Aperfeiçoando os mestrados em direito médico

O desempenho do ChatGPT padrão (modelo 4o) é comparado com o do assistente existente 'Clinical Medicine Handbook'. Ambos os modelos recebem o mesmo estímulo e suas respostas são analisadas:

GPT 4o

Figura 5: A figura mostra que a resposta do modelo padrão do GPT 4o é precisa, mas também altamente resumida. 1

Mestrado em Direito Médico (LLM) refinado

Figura 6: A figura mostra que a resposta do agente especializado é mais bem explicada e detalhada. 2

Leia sobre o aprimoramento do LLM e o treinamento do LLM para obter mais informações.

Aplicações de mestrados em direito de uso geral

Esses modelos são modelos gerais ajustados que requerem adaptação ao domínio para executar tarefas clínicas com precisão. Você pode usar esses modelos na área da saúde aproveitando:

  • Pré-treinamento contínuo com dados médicos para ajudar o modelo a identificar melhor a linguagem médica, expondo-o a notas clínicas e literatura biomédica (como o PubMed).
  • RAG para extrair dados de documentos clínicos verificados a fim de produzir respostas precisas em tempo de execução.
  • Ajuste fino das instruções para permitir que o modelo aprenda a responder perguntas clínicas ou a extrair sintomas de textos .

Figura 7: Um fluxo de trabalho geral de ajuste fino do LLM para casos de uso especializados. 9

Casos de uso de LLMs em ambientes clínicos

1. Transcrição médica

Os mestres em direito (LLMs) podem ajudar a criar transcrições médicas por meio de:

  • Ouvir o diálogo orgânico entre um paciente e um profissional de saúde.
  • Extração de informações médicas essenciais.
  • Condensar dados médicos em registros médicos compatíveis e alinhados com as seções relevantes de um Prontuário Eletrônico do Paciente (PEP).

Exemplo da vida real: o MedLM de Google pode capturar e transformar a conversa entre paciente e médico em transcrição médica. 10

2. Aprimoramento dos registros eletrônicos de saúde (EHR)

O uso generalizado de registros eletrônicos de saúde (EHRs, na sigla em inglês) gerou vastas quantidades de dados de pacientes que, quando usados de forma eficaz, podem melhorar significativamente a assistência à saúde.

Por exemplo, a análise de dados de registros eletrônicos de saúde (EHR) pode ajudar os médicos a tomar decisões mais acertadas, revelando padrões em diagnósticos, tratamentos e resultados. Também pode contribuir para a detecção precoce de doenças e para um atendimento mais personalizado, identificando fatores de risco e adaptando os tratamentos a cada paciente.

Em nível sistêmico, os dados dos EHRs (Registros Eletrônicos de Saúde) podem melhorar a eficiência, reduzindo exames redundantes, evidenciando lacunas no atendimento e subsidiando políticas que aprimorem a qualidade e reduzam os custos.

Exemplo da vida real: o MedLMis da Google é usado pela BenchSci, Accenture e Deloitte para aprimorar os registros eletrônicos de saúde (EHRs).

  • A BenchSci integrou o MedLM à sua plataforma ASCEND para melhorar a qualidade da pesquisa pré-clínica.
  • A Accenture utiliza o MedLM para organizar dados não estruturados de múltiplas fontes, automatizando operações manuais que antes eram demoradas e propensas a erros.
  • A Deloitte trabalha com a MedLM para minimizar as dificuldades na busca por tratamento. Eles utilizam um chatbot interativo que ajuda os participantes do plano de saúde a entender melhor as alternativas de provedores. 11

3. Apoio à decisão clínica

As LLMs ajudam os médicos a interpretar informações específicas do paciente incluídas nas evidências médicas atuais, revelando considerações relevantes durante o diagnóstico ou planejamento do tratamento, sem substituir o julgamento clínico.

Exemplo da vida real: MedGemma (Google DeepMind) é uma coleção de modelos médicos de peso aberto construída sobre a arquitetura Gemma 3 da Google. Em vez de funcionar como uma ferramenta de diagnóstico direta ao consumidor, o MedGemma serve como base para que desenvolvedores criem aplicativos médicos voltados para clínicos.

Projetado para análise de texto e imagem médica, o MedGemma consegue interpretar imagens médicas complexas, incluindo radiografias de tórax, ressonâncias magnéticas e tomografias computadorizadas. Ele também auxilia em tarefas de raciocínio clínico, como resumir anotações de pacientes ou responder a perguntas no estilo de provas de residência médica.

De acordo com uma análise feita por um radiologista cardiotorácico certificado nos EUA, 81% dos laudos de radiografias de tórax da MedGemma levariam a decisões de tratamento do paciente semelhantes às baseadas nos laudos radiológicos originais (veja o gráfico abaixo).

Figura 8: O gráfico mostra com que frequência os laudos de radiografias de tórax gerados por IA e os laudos originais dos radiologistas levam a resultados clínicos semelhantes ou diferentes em casos normais, anormais e em todos os casos. 12

Exemplo da vida real: O Memorial Sloan Kettering Cancer Center usa o Watson Oncology (código IBM) para auxiliar oncologistas na análise de dados de pacientes e literatura médica, a fim de recomendar opções de tratamento baseadas em evidências. 13

4. Auxílio em pesquisa médica

Na pesquisa médica, o principal valor dos LLMs reside na sua capacidade de acelerar a revisão e a síntese da literatura.

Em vez de simplesmente resumir artigos, os LLMs ajudam os pesquisadores a acompanhar a literatura biomédica em rápida expansão, identificando estudos relevantes, extraindo as principais conclusões e sintetizando informações de diversas fontes.

Exemplo prático: o chatbot de saúde de John Snow ajuda pesquisadores a encontrar artigos científicos relevantes, extrair informações importantes e identificar tendências de pesquisa. Ele é particularmente valioso para navegar pela vasta quantidade de literatura biomédica. 14

5. Comunicação automatizada com o paciente

Grandes modelos de linguagem na área da saúde podem elaborar respostas informativas e empáticas às perguntas dos pacientes. Alguns exemplos incluem:

  • Gestão e lembretes de medicação: Um chatbot envia lembretes regulares aos pacientes para tomarem seus medicamentos para diabetes e solicita confirmação.
  • Monitoramento da saúde e acompanhamento pós-operatório: Um paciente no pós-operatório envia informações sobre sua dor e o estado da ferida para um chatbot, que determina se o processo de cicatrização está progredindo.
  • Comunicação informativa e educativa: Um paciente pergunta a um chatbot como controlar a pressão alta, e o chatbot responde com dicas de nutrição e estilo de vida.

Exemplo prático: o ChatGPT Health permite que os usuários conectem com segurança seus registros médicos e dados de bem-estar (por exemplo, Apple Health ou MyFitnessPal). Os usuários podem então fazer perguntas ao ChatGPT sobre seus próprios dados, como "Como está a evolução do meu colesterol?" ou "Resuma meus últimos resultados de exames". 15

Exemplo da vida real: o Boston Children's Hospital utiliza o Buoy Health, um chatbot online com inteligência artificial para verificação de sintomas, que fornece aos pacientes respostas instantâneas a perguntas relacionadas à saúde e consultas iniciais.

O chatbot consegue triar pacientes analisando seus sintomas e aconselhando se eles precisam consultar um médico. 16

6. Resultados preditivos de saúde

Os modelos de aprendizado de máquina (LLMs) podem ser utilizados para permitir a estratificação e a previsão de riscos na área da saúde. Ao apoiar a análise de dados clínicos estruturados e não estruturados, os LLMs podem ajudar a identificar pacientes com risco elevado (como reinternação hospitalar) e apoiar o planejamento proativo do cuidado, frequentemente em combinação com modelos preditivos tradicionais.

Exemplo prático: os farmacêuticos da WVU utilizam um algoritmo preditivo para determinar o risco de readmissão. Essa abordagem examina dados de registros eletrônicos de saúde (EHRs), que incluem dados demográficos do paciente, histórico clínico e determinantes socioeconômicos da saúde.

Com base nessa pesquisa, os farmacêuticos da WVU identificam pacientes com alto risco de reinternação e designam coordenadores de cuidados para acompanhá-los após a alta. Isso pode ajudar a reduzir as taxas de reinternação. 17

7. Planos de tratamento personalizados

Ao integrar o histórico médico, os sintomas e os dados longitudinais de saúde, os LLMs podem ajudar a traduzir informações complexas do paciente em considerações de cuidados individualizadas, apoiando discussões de tratamento mais personalizadas e contextualizadas entre médicos e pacientes.

Exemplo prático: o chatbot de IA da Babylon Health fornece recomendações de saúde individualizadas com base nos sintomas e histórico médico do usuário. Ele interage com os usuários fazendo perguntas relevantes para analisar melhor seus problemas e oferecendo recomendações personalizadas. 18

8. Codificação e faturamento médico

Grandes modelos de linguagem podem automatizar processos de auditoria através da análise de registros de pacientes e EHRs (Registros Eletrônicos de Saúde).

Exemplo prático: A Epic Systems, fornecedora de EHR (Registros Eletrônicos de Saúde), integra LLMs (Módulos de Aprendizagem Baseados em Aprendizagem) em seu software para auxiliar na codificação e faturamento. Os LLMs podem monitorar anomalias nos padrões de acesso a informações sensíveis do paciente ou inconsistências nas práticas de codificação e faturamento. 19

Exemplo prático: Claude for Healthcare (Anthropic) é uma plataforma voltada para empresas, projetada para organizações de saúde, profissionais da área e seguradoras. Ela conecta grandes modelos de linguagem a bancos de dados médicos profissionais, como o CID-10 e o Banco de Dados de Cobertura do CMS, permitindo que hospitais automatizem fluxos de trabalho administrativos. Esses fluxos de trabalho incluem autorizações prévias de seguro, resumo de prontuários de pacientes e triagem de mensagens do portal do paciente. 20

No entanto, os LLMs ainda não estão totalmente prontos para a codificação médica, mas suas contribuições são promissoras: pesquisadores examinaram a frequência com que quatro LLMs (GPT-3.5, GPT-4, Gemini Pro e Llama2-70b Chat) emitiram os códigos CPT, ICD-9-CM e ICD-10-CM corretos.

Os resultados mostram uma oportunidade significativa de melhoria. Os pesquisadores descobriram que os LLMs frequentemente geram código que transmite informações imprecisas, com uma precisão máxima de 50%. 21

9. Formação e educação

Grandes modelos de linguagem e IA generativa podem ser usados como ferramentas educacionais interativas, ajudando médicos e pacientes a compreender melhor conceitos médicos complexos e a esclarecer informações confusas.

Caso de uso na vida real: Simulação Médica de Oxford Utiliza LLMs integrados com tecnologia de realidade virtual para criar simulações imersivas de pacientes virtuais.

Essas simulações permitem que os alunos vivenciem cenários de alta pressão, como lidar com um paciente em parada cardíaca, sem quaisquer consequências no mundo real.

Os LLMs (módulos de aprendizagem de linguagem) potencializam as respostas dos pacientes virtuais, tornando-as mais realistas e imprevisíveis, preparando os alunos para a variabilidade dos ambientes clínicos reais. 22

Desafios dos mestrados em direito na área da saúde

preocupações com a privacidade

A utilização de aplicações de saúde baseadas em LLM que não foram devidamente desenvolvidas, testadas ou aprovadas para uso médico pode representar riscos significativos para os usuários, particularmente em relação à privacidade dos dados.

Essas ferramentas geralmente processam informações de saúde sensíveis fornecidas pelo usuário, mas nem sempre fica claro como esses dados são armazenados, compartilhados ou se os aplicativos estão em total conformidade com as leis e regulamentações de proteção de dados vigentes. 23

Precisão e confiabilidade

Os profissionais de saúde mental também são propensos a alucinações , ou seja, informações que parecem plausíveis, mas são incorretas ou enganosas.

Por exemplo, ao receber uma consulta médica, GPT-3.5 recomendou incorretamente tetraciclina para uma paciente grávida, apesar de ter explicado corretamente o potencial dano ao feto. 24

Figura 8: Um exemplo de GPT-3.5 mostrando a recomendação incorreta de um medicamento.

Generalização versus especialização

Um profissional com mestrado em Direito (LLM) e formação em dados médicos gerais pode não ter o conhecimento detalhado necessário para especialidades médicas específicas.

Preconceitos e considerações éticas

Além da precisão, existem preocupações éticas, como o potencial dos modelos de aprendizagem baseada em lei (LLMs) perpetuarem vieses em seus dados de treinamento. Isso poderia resultar em recomendações de tratamento desiguais para diferentes grupos demográficos.

Para obter mais detalhes sobre os desafios dos grandes modelos de linguagem, leia os riscos da IA generativa e a ética da IA generativa .

O futuro dos mestrados em direito na área da saúde.

A análise de Stanford indica que existe um potencial significativo ainda inexplorado para os mestrados em direito (LLMs) na área da saúde. 25

Embora muitos modelos de aprendizagem de línguas (LLMs) tenham sido usados para tarefas como aprimorar diagnósticos ou a comunicação com o paciente, poucos se concentraram em tarefas administrativas que contribuem para o esgotamento profissional dos médicos.

No futuro, os LLMs poderão evoluir para interagir com o comportamento , mais contexto e emoções , permitindo-lhes fornecer um apoio mais personalizado e empático.

Metodologia de referência

Metodologia de avaliação comparativa : Esta avaliação comparativa analisa 9 livros didáticos populares de nível geral sobre questões médicas de nível de pós-graduação, utilizando o conjunto de dados MedQA , cujo conteúdo é proveniente do Exame de Licenciamento Médico dos Estados Unidos (USMLE) . Cada questão inclui um cenário clínico e opções de resposta de múltipla escolha.

Resultados do LLM : Cada modelo foi solicitado a retornar uma resposta estruturada (por exemplo, "Resposta: C"). 26

Latência : O tempo médio que um modelo leva para gerar uma resposta a uma única pergunta do MedQA. Por exemplo, se 100 perguntas levarem 1.115 segundos no total para serem respondidas, a latência média será de 11,15 segundos por pergunta.

Fontes de dados de referência

  • Resultados do Me-LLaMA 70B 27
  • Resultados do Meditron 70B 28
  • Resultados do Med-PaLM 2 29
  • ChatGPT e GPT-4 30

Links de referência

1.
Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium
Medium
2.
Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium
Medium
3.
https://arxiv.org/abs/2509.21450
4.
https://medium.com/llmed-ai/summarizing-patient-histories-with-gpt-4-9df42ba6453c
5.
https://arxiv.org/abs/2403.12140
6.
https://www.datacamp.com/tutorial/fine-tuning-qwen3
7.
https://cohere.com/blog/command-r-plus
8.
https://arxiv.org/abs/2404.04110
9.
https://www.mcpdigitalhealth.org/action/showPdf?pii=S2949-7612%2824%2900114-7
10.
Google Launches A Healthcare-Focused LLM
Forbes
11.
How doctors are using Google's new AI models for health care
CNBC
12.
MedGemma: Our most capable open models for health AI development
13.
ResearchGate - Temporarily Unavailable
14.
Medical ChatBot | Healthcare ChatBot | Medical GPT
15.
Introducing ChatGPT Health | OpenAI
16.
Buoy Health - IDHA
Boston Children's Hospital
17.
WVU pharmacists using AI to help lower patient readmission rates | WVU Today | West Virginia University
18.
Babylon's AI-enabled symptom checker added to recently acquired Higi's app | MobiHealthNews
19.
Artificial Intelligence | Epic
20.
Healthcare | Claude by Anthropic
21.
Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying | NEJM AI
22.
Oxford Medical Simulation - Virtual Reality Healthcare Training
Oxford Medical Simulation
23.
The Challenges for Regulating Medical Use of ChatGPT and Other Large Language Models - PubMed
24.
https://arxiv.org/pdf/2307.15343
25.
Large Language Models in Healthcare: Are We There Yet? | Stanford HAI
26.
https://www.vals.ai/benchmarks/medqa-04-15-2025
27.
Medical foundation large language models for comprehensive text analysis and beyond | npj Digital Medicine
Nature Publishing Group UK
28.
[2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models
29.
[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models
30.
[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models
Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450