Avaliamos 9 modelos de lógica de aprendizagem (LLMs) usando o conjunto de dados MedQA, um modelo de referência para exames clínicos de nível de pós-graduação derivado de questões do USMLE. Cada modelo respondeu aos mesmos cenários clínicos de múltipla escolha usando um enunciado padronizado, permitindo a comparação direta da precisão.
Também registramos a latência por questão, dividindo o tempo total de execução pelo número de itens do MedQA concluídos.
Resultados de referência para mestrados em Direito na área da saúde
Metodologia de benchmark : Este benchmark avalia o desempenho do ajuste fino supervisionado de LLMs de saúde em comparação com grandes modelos de propósito geral (GPT-4) em tarefas de resposta a perguntas médicas. Consulte as fontes de dados do benchmark .
MedQA : Questões de múltipla escolha para exame médico baseadas no Exame de Licenciamento Médico dos Estados Unidos.
Figura 1: Exemplo de questão clínica de múltipla escolha no estilo USMLE.
MedMCQA : Conjunto de dados de perguntas de múltipla escolha em larga escala, projetado para abordar questões reais de exames de admissão em medicina.
Figura 2: Uma questão de múltipla escolha em larga escala para um exame de admissão em medicina, exigindo que o modelo selecione a resposta correta e interprete as explicações associadas sobre os achados clínicos.
PubMedQA : Plataforma de comparação para perguntas e respostas biomédicas usando respostas do tipo sim/não/talvez.
Figura 3: Uma questão biomédica de sim/não/talvez, onde o modelo deve avaliar a correção de uma afirmação clínica usando o contexto do estudo fornecido.
Exemplos de LLM em Saúde
Semelhante ao BERT (somente codificador)
Otimizados para codificar e representar texto biomédico, esses modelos se destacam na extração de características para tarefas como classificação.
ChatGPT / semelhante ao LLaMA (Decodificador, otimizado para instruções/bate-papo)
Baseado em arquiteturas do tipo LLaMA e otimizado para tarefas interativas e diálogos clínicos.
Semelhante a GPT/PaLM (somente decodificador, generativo)
Construídos de forma semelhante ao GPT-3 ou ao PaLM, esses modelos são ajustados para geração e sumarização de texto de propósito geral.
Mestrados em Direito (LLM) de propósito geral na área da saúde
*Llama 3.1 Instrua o Turbo com parâmetros 405B. Consulte a metodologia de benchmark.
Principais conclusões:
- o1 : Modelo com melhor desempenho
- 03 mini : Melhor opção econômica
- GPT 4.1 : Melhor velocidade e tempo de resposta
Além da precisão e do custo de entrada, os modelos também diferem em suas abordagens subjacentes para responder a perguntas médicas. Por exemplo, o modelo o3 utiliza uma abordagem mais analítica e passo a passo, enquanto o modelo GPT-5 responde com empatia, organiza e explica as informações de forma clara para não especialistas.
Figura 4: Figura mostrando as diferenças entre as respostas GPT-5 e o3.
Aperfeiçoando os mestrados em direito médico
O desempenho do ChatGPT padrão (modelo 4o) é comparado com o do assistente existente 'Clinical Medicine Handbook'. Ambos os modelos recebem o mesmo estímulo e suas respostas são analisadas:
GPT 4o
Figura 5: A figura mostra que a resposta do modelo padrão do GPT 4o é precisa, mas também altamente resumida. 1
Mestrado em Direito Médico (LLM) refinado
Figura 6: A figura mostra que a resposta do agente especializado é mais bem explicada e detalhada. 2
Leia sobre o aprimoramento do LLM e o treinamento do LLM para obter mais informações.
Aplicações de mestrados em direito de uso geral
Esses modelos são modelos gerais ajustados que requerem adaptação ao domínio para executar tarefas clínicas com precisão. Você pode usar esses modelos na área da saúde aproveitando:
- Pré-treinamento contínuo com dados médicos para ajudar o modelo a identificar melhor a linguagem médica, expondo-o a notas clínicas e literatura biomédica (como o PubMed).
- RAG para extrair dados de documentos clínicos verificados a fim de produzir respostas precisas em tempo de execução.
- Ajuste fino das instruções para permitir que o modelo aprenda a responder perguntas clínicas ou a extrair sintomas de textos .
Figura 7: Um fluxo de trabalho geral de ajuste fino do LLM para casos de uso especializados. 9
Casos de uso de LLMs em ambientes clínicos
1. Transcrição médica
Os mestres em direito (LLMs) podem ajudar a criar transcrições médicas por meio de:
- Ouvir o diálogo orgânico entre um paciente e um profissional de saúde.
- Extração de informações médicas essenciais.
- Condensar dados médicos em registros médicos compatíveis e alinhados com as seções relevantes de um Prontuário Eletrônico do Paciente (PEP).
Exemplo da vida real: o MedLM de Google pode capturar e transformar a conversa entre paciente e médico em transcrição médica. 10
2. Aprimoramento dos registros eletrônicos de saúde (EHR)
O uso generalizado de registros eletrônicos de saúde (EHRs, na sigla em inglês) gerou vastas quantidades de dados de pacientes que, quando usados de forma eficaz, podem melhorar significativamente a assistência à saúde.
Por exemplo, a análise de dados de registros eletrônicos de saúde (EHR) pode ajudar os médicos a tomar decisões mais acertadas, revelando padrões em diagnósticos, tratamentos e resultados. Também pode contribuir para a detecção precoce de doenças e para um atendimento mais personalizado, identificando fatores de risco e adaptando os tratamentos a cada paciente.
Em nível sistêmico, os dados dos EHRs (Registros Eletrônicos de Saúde) podem melhorar a eficiência, reduzindo exames redundantes, evidenciando lacunas no atendimento e subsidiando políticas que aprimorem a qualidade e reduzam os custos.
Exemplo da vida real: o MedLMis da Google é usado pela BenchSci, Accenture e Deloitte para aprimorar os registros eletrônicos de saúde (EHRs).
- A BenchSci integrou o MedLM à sua plataforma ASCEND para melhorar a qualidade da pesquisa pré-clínica.
- A Accenture utiliza o MedLM para organizar dados não estruturados de múltiplas fontes, automatizando operações manuais que antes eram demoradas e propensas a erros.
- A Deloitte trabalha com a MedLM para minimizar as dificuldades na busca por tratamento. Eles utilizam um chatbot interativo que ajuda os participantes do plano de saúde a entender melhor as alternativas de provedores. 11
3. Apoio à decisão clínica
As LLMs ajudam os médicos a interpretar informações específicas do paciente incluídas nas evidências médicas atuais, revelando considerações relevantes durante o diagnóstico ou planejamento do tratamento, sem substituir o julgamento clínico.
Exemplo da vida real: MedGemma (Google DeepMind) é uma coleção de modelos médicos de peso aberto construída sobre a arquitetura Gemma 3 da Google. Em vez de funcionar como uma ferramenta de diagnóstico direta ao consumidor, o MedGemma serve como base para que desenvolvedores criem aplicativos médicos voltados para clínicos.
Projetado para análise de texto e imagem médica, o MedGemma consegue interpretar imagens médicas complexas, incluindo radiografias de tórax, ressonâncias magnéticas e tomografias computadorizadas. Ele também auxilia em tarefas de raciocínio clínico, como resumir anotações de pacientes ou responder a perguntas no estilo de provas de residência médica.
De acordo com uma análise feita por um radiologista cardiotorácico certificado nos EUA, 81% dos laudos de radiografias de tórax da MedGemma levariam a decisões de tratamento do paciente semelhantes às baseadas nos laudos radiológicos originais (veja o gráfico abaixo).
Figura 8: O gráfico mostra com que frequência os laudos de radiografias de tórax gerados por IA e os laudos originais dos radiologistas levam a resultados clínicos semelhantes ou diferentes em casos normais, anormais e em todos os casos. 12
Exemplo da vida real: O Memorial Sloan Kettering Cancer Center usa o Watson Oncology (código IBM) para auxiliar oncologistas na análise de dados de pacientes e literatura médica, a fim de recomendar opções de tratamento baseadas em evidências. 13
4. Auxílio em pesquisa médica
Na pesquisa médica, o principal valor dos LLMs reside na sua capacidade de acelerar a revisão e a síntese da literatura.
Em vez de simplesmente resumir artigos, os LLMs ajudam os pesquisadores a acompanhar a literatura biomédica em rápida expansão, identificando estudos relevantes, extraindo as principais conclusões e sintetizando informações de diversas fontes.
Exemplo prático: o chatbot de saúde de John Snow ajuda pesquisadores a encontrar artigos científicos relevantes, extrair informações importantes e identificar tendências de pesquisa. Ele é particularmente valioso para navegar pela vasta quantidade de literatura biomédica. 14
5. Comunicação automatizada com o paciente
Grandes modelos de linguagem na área da saúde podem elaborar respostas informativas e empáticas às perguntas dos pacientes. Alguns exemplos incluem:
- Gestão e lembretes de medicação: Um chatbot envia lembretes regulares aos pacientes para tomarem seus medicamentos para diabetes e solicita confirmação.
- Monitoramento da saúde e acompanhamento pós-operatório: Um paciente no pós-operatório envia informações sobre sua dor e o estado da ferida para um chatbot, que determina se o processo de cicatrização está progredindo.
- Comunicação informativa e educativa: Um paciente pergunta a um chatbot como controlar a pressão alta, e o chatbot responde com dicas de nutrição e estilo de vida.
Exemplo prático: o ChatGPT Health permite que os usuários conectem com segurança seus registros médicos e dados de bem-estar (por exemplo, Apple Health ou MyFitnessPal). Os usuários podem então fazer perguntas ao ChatGPT sobre seus próprios dados, como "Como está a evolução do meu colesterol?" ou "Resuma meus últimos resultados de exames". 15
Exemplo da vida real: o Boston Children's Hospital utiliza o Buoy Health, um chatbot online com inteligência artificial para verificação de sintomas, que fornece aos pacientes respostas instantâneas a perguntas relacionadas à saúde e consultas iniciais.
O chatbot consegue triar pacientes analisando seus sintomas e aconselhando se eles precisam consultar um médico. 16
6. Resultados preditivos de saúde
Os modelos de aprendizado de máquina (LLMs) podem ser utilizados para permitir a estratificação e a previsão de riscos na área da saúde. Ao apoiar a análise de dados clínicos estruturados e não estruturados, os LLMs podem ajudar a identificar pacientes com risco elevado (como reinternação hospitalar) e apoiar o planejamento proativo do cuidado, frequentemente em combinação com modelos preditivos tradicionais.
Exemplo prático: os farmacêuticos da WVU utilizam um algoritmo preditivo para determinar o risco de readmissão. Essa abordagem examina dados de registros eletrônicos de saúde (EHRs), que incluem dados demográficos do paciente, histórico clínico e determinantes socioeconômicos da saúde.
Com base nessa pesquisa, os farmacêuticos da WVU identificam pacientes com alto risco de reinternação e designam coordenadores de cuidados para acompanhá-los após a alta. Isso pode ajudar a reduzir as taxas de reinternação. 17
7. Planos de tratamento personalizados
Ao integrar o histórico médico, os sintomas e os dados longitudinais de saúde, os LLMs podem ajudar a traduzir informações complexas do paciente em considerações de cuidados individualizadas, apoiando discussões de tratamento mais personalizadas e contextualizadas entre médicos e pacientes.
Exemplo prático: o chatbot de IA da Babylon Health fornece recomendações de saúde individualizadas com base nos sintomas e histórico médico do usuário. Ele interage com os usuários fazendo perguntas relevantes para analisar melhor seus problemas e oferecendo recomendações personalizadas. 18
8. Codificação e faturamento médico
Grandes modelos de linguagem podem automatizar processos de auditoria através da análise de registros de pacientes e EHRs (Registros Eletrônicos de Saúde).
Exemplo prático: A Epic Systems, fornecedora de EHR (Registros Eletrônicos de Saúde), integra LLMs (Módulos de Aprendizagem Baseados em Aprendizagem) em seu software para auxiliar na codificação e faturamento. Os LLMs podem monitorar anomalias nos padrões de acesso a informações sensíveis do paciente ou inconsistências nas práticas de codificação e faturamento. 19
Exemplo prático: Claude for Healthcare (Anthropic) é uma plataforma voltada para empresas, projetada para organizações de saúde, profissionais da área e seguradoras. Ela conecta grandes modelos de linguagem a bancos de dados médicos profissionais, como o CID-10 e o Banco de Dados de Cobertura do CMS, permitindo que hospitais automatizem fluxos de trabalho administrativos. Esses fluxos de trabalho incluem autorizações prévias de seguro, resumo de prontuários de pacientes e triagem de mensagens do portal do paciente. 20
No entanto, os LLMs ainda não estão totalmente prontos para a codificação médica, mas suas contribuições são promissoras: pesquisadores examinaram a frequência com que quatro LLMs (GPT-3.5, GPT-4, Gemini Pro e Llama2-70b Chat) emitiram os códigos CPT, ICD-9-CM e ICD-10-CM corretos.
Os resultados mostram uma oportunidade significativa de melhoria. Os pesquisadores descobriram que os LLMs frequentemente geram código que transmite informações imprecisas, com uma precisão máxima de 50%. 21
9. Formação e educação
Grandes modelos de linguagem e IA generativa podem ser usados como ferramentas educacionais interativas, ajudando médicos e pacientes a compreender melhor conceitos médicos complexos e a esclarecer informações confusas.
Caso de uso na vida real: Simulação Médica de Oxford Utiliza LLMs integrados com tecnologia de realidade virtual para criar simulações imersivas de pacientes virtuais.
Essas simulações permitem que os alunos vivenciem cenários de alta pressão, como lidar com um paciente em parada cardíaca, sem quaisquer consequências no mundo real.
Os LLMs (módulos de aprendizagem de linguagem) potencializam as respostas dos pacientes virtuais, tornando-as mais realistas e imprevisíveis, preparando os alunos para a variabilidade dos ambientes clínicos reais. 22
Desafios dos mestrados em direito na área da saúde
preocupações com a privacidade
A utilização de aplicações de saúde baseadas em LLM que não foram devidamente desenvolvidas, testadas ou aprovadas para uso médico pode representar riscos significativos para os usuários, particularmente em relação à privacidade dos dados.
Essas ferramentas geralmente processam informações de saúde sensíveis fornecidas pelo usuário, mas nem sempre fica claro como esses dados são armazenados, compartilhados ou se os aplicativos estão em total conformidade com as leis e regulamentações de proteção de dados vigentes. 23
Precisão e confiabilidade
Os profissionais de saúde mental também são propensos a alucinações , ou seja, informações que parecem plausíveis, mas são incorretas ou enganosas.
Por exemplo, ao receber uma consulta médica, GPT-3.5 recomendou incorretamente tetraciclina para uma paciente grávida, apesar de ter explicado corretamente o potencial dano ao feto. 24
Figura 8: Um exemplo de GPT-3.5 mostrando a recomendação incorreta de um medicamento.
Generalização versus especialização
Um profissional com mestrado em Direito (LLM) e formação em dados médicos gerais pode não ter o conhecimento detalhado necessário para especialidades médicas específicas.
Preconceitos e considerações éticas
Além da precisão, existem preocupações éticas, como o potencial dos modelos de aprendizagem baseada em lei (LLMs) perpetuarem vieses em seus dados de treinamento. Isso poderia resultar em recomendações de tratamento desiguais para diferentes grupos demográficos.
Para obter mais detalhes sobre os desafios dos grandes modelos de linguagem, leia os riscos da IA generativa e a ética da IA generativa .
O futuro dos mestrados em direito na área da saúde.
A análise de Stanford indica que existe um potencial significativo ainda inexplorado para os mestrados em direito (LLMs) na área da saúde. 25
Embora muitos modelos de aprendizagem de línguas (LLMs) tenham sido usados para tarefas como aprimorar diagnósticos ou a comunicação com o paciente, poucos se concentraram em tarefas administrativas que contribuem para o esgotamento profissional dos médicos.
No futuro, os LLMs poderão evoluir para interagir com o comportamento , mais contexto e emoções , permitindo-lhes fornecer um apoio mais personalizado e empático.
Metodologia de referência
Metodologia de avaliação comparativa : Esta avaliação comparativa analisa 9 livros didáticos populares de nível geral sobre questões médicas de nível de pós-graduação, utilizando o conjunto de dados MedQA , cujo conteúdo é proveniente do Exame de Licenciamento Médico dos Estados Unidos (USMLE) . Cada questão inclui um cenário clínico e opções de resposta de múltipla escolha.
Resultados do LLM : Cada modelo foi solicitado a retornar uma resposta estruturada (por exemplo, "Resposta: C"). 26
Latência : O tempo médio que um modelo leva para gerar uma resposta a uma única pergunta do MedQA. Por exemplo, se 100 perguntas levarem 1.115 segundos no total para serem respondidas, a latência média será de 11,15 segundos por pergunta.
Fontes de dados de referência
- Resultados do Me-LLaMA 70B 27
- Resultados do Meditron 70B 28
- Resultados do Med-PaLM 2 29
- ChatGPT e GPT-4 30
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.