Evaluamos nueve modelos LLM utilizando el conjunto de datos MedQA, un referente para exámenes clínicos de posgrado derivado de preguntas del USMLE. Cada modelo respondió los mismos escenarios clínicos de opción múltiple con una consigna estandarizada, lo que permitió una comparación directa de la precisión.
También registramos la latencia por pregunta dividiendo el tiempo total de ejecución por el número de ítems de MedQA completados.
Resultados de referencia de los másteres en Derecho sanitario
Metodología de referencia : Esta evaluación comparativa analiza el rendimiento del ajuste fino supervisado de los modelos LLM de atención médica frente a los grandes modelos de propósito general (GPT-4) en tareas de respuesta a preguntas médicas. Consulte las fuentes de datos de referencia .
MedQA : Preguntas de opción múltiple para exámenes médicos basadas en el Examen de Licencia Médica de los Estados Unidos.
Figura 1: Ejemplo de pregunta clínica de opción múltiple al estilo del USMLE.
MedMCQA : Conjunto de datos a gran escala de preguntas de opción múltiple (MCQA) diseñado para abordar preguntas reales de exámenes de ingreso a la facultad de medicina.
Figura 2: Una pregunta de opción múltiple de un examen de ingreso a la facultad de medicina a gran escala que requiere que el modelo seleccione la respuesta correcta e interprete las explicaciones asociadas sobre los hallazgos clínicos.
PubMedQA : Sistema de evaluación comparativa de preguntas y respuestas biomédicas mediante respuestas de sí/no/quizás.
Figura 3: Una pregunta biomédica de sí/no/quizás, donde el modelo debe juzgar la veracidad de una afirmación clínica utilizando el contexto del estudio proporcionado.
Ejemplos de másteres en derecho sanitario
Similar a BERT (solo codificador)
Optimizados para la codificación y representación de texto biomédico, estos modelos destacan por su capacidad para extraer características para tareas como la clasificación.
ChatGPT / LLaMA-like (Decodificador, optimizado para instrucciones/chat)
Basado en arquitecturas de estilo LLaMA y optimizado para tareas interactivas y diálogos clínicos.
GPT / PaLM-like (solo decodificador, generativo)
Estos modelos, construidos de forma similar a GPT-3 o PaLM, están optimizados para la generación y el resumen de texto de propósito general.
Másteres en Derecho (LLM) de carácter general en el ámbito sanitario
*Llama 3.1 Instruye Turbo con parámetros 405B. Consulta la metodología de evaluación comparativa.
Conclusiones clave:
- o1 : Modelo con mejor rendimiento
- 03 mini : La mejor opción económica
- GPT 4.1 : Mejor velocidad y tiempo de respuesta
Más allá de la precisión y el costo de entrada, los modelos también difieren en sus enfoques subyacentes para responder preguntas médicas. Por ejemplo, o3 utiliza un enfoque analítico más paso a paso, mientras que GPT-5 responde con empatía, organiza y explica la información claramente para personas no expertas:
Figura 4: Figura que muestra las diferencias entre las respuestas GPT-5 y o3.
Perfeccionando los másteres en derecho médico
Se compara el rendimiento del ChatGPT predeterminado (modelo 4o) con el del asistente existente "Manual de Medicina Clínica". A ambos modelos se les proporciona la misma instrucción y se analizan sus respuestas:
GPT 4o
Figura 5: La figura muestra que la respuesta del modelo predeterminado GPT 4o es precisa pero también altamente resumida. 1
Máster en Derecho Médico (LLM) perfeccionado.
Figura 6: La figura muestra que la respuesta del agente especializado está mejor explicada y es más detallada. 2
Para obtener más información, consulte la sección sobre optimización y formación en el programa LLM .
Aplicaciones de los másteres jurídicos de propósito general
Estos modelos son modelos generales ajustados que requieren adaptación al dominio para realizar tareas clínicas con precisión. Puede utilizar estos modelos en el sector sanitario aprovechando:
- Preentrenamiento continuo con datos médicos para ayudar al modelo a identificar mejor el lenguaje médico, exponiéndolo a notas clínicas y literatura biomédica (como PubMed).
- RAG extrae datos de documentos clínicos verificados para producir respuestas precisas en tiempo de ejecución.
- Ajuste fino de las instrucciones para que el modelo aprenda a responder preguntas clínicas o a extraer síntomas de un texto .
Figura 7: Flujo de trabajo general para el ajuste fino de LLM en casos de uso especializados. 9
Casos de uso de LLM en entornos clínicos
1. Transcripción médica
Los másteres en Derecho (LLM) pueden ayudar a crear transcripciones médicas mediante:
- Escuchar el diálogo espontáneo entre un paciente y un médico.
- Extracción de detalles médicos críticos.
- Condensar los datos médicos en registros médicos que cumplan con la normativa y se ajusten a las secciones pertinentes de un sistema de historia clínica electrónica (EHR).
Ejemplo de la vida real: MedLM de Google puede capturar y transformar la conversación entre el paciente y el médico en una transcripción médica. 10
2. Mejora de los registros electrónicos de salud (EHR, por sus siglas en inglés).
El uso generalizado de los registros electrónicos de salud (EHR, por sus siglas en inglés) ha generado enormes cantidades de datos de pacientes que, cuando se utilizan de forma eficaz, pueden mejorar significativamente la atención médica.
Por ejemplo, el análisis de los datos de las historias clínicas electrónicas puede ayudar a los médicos a tomar mejores decisiones al revelar patrones en los diagnósticos, los tratamientos y los resultados. También puede contribuir a la detección temprana de enfermedades y a una atención más personalizada mediante la identificación de factores de riesgo y la adaptación de los tratamientos a cada paciente.
A nivel del sistema, los datos de la historia clínica electrónica pueden mejorar la eficiencia al reducir las pruebas redundantes, poner de manifiesto las deficiencias en la atención y fundamentar políticas que mejoren la calidad y reduzcan los costes.
Ejemplo de la vida real: MedLMis de Google es utilizado por BenchSci, Accenture y Deloitte para mejorar los registros electrónicos de salud (EHR).
- BenchSci ha integrado MedLM en su plataforma ASCEND para mejorar la calidad de la investigación preclínica.
- Accenture utiliza MedLM para organizar datos no estructurados procedentes de múltiples fuentes, automatizando operaciones manuales que antes consumían mucho tiempo y eran propensas a errores.
- Deloitte colabora con MedLM para minimizar las dificultades a la hora de encontrar tratamiento. Utilizan un chatbot interactivo que ayuda a los participantes del plan de salud a comprender mejor las alternativas de proveedores. 11
3. Apoyo a la toma de decisiones clínicas
Los modelos de lenguaje natural ayudan a los médicos a interpretar la información específica del paciente incluida en la evidencia médica actual, lo que permite identificar consideraciones relevantes durante el diagnóstico o la planificación del tratamiento sin reemplazar el juicio clínico.
Ejemplo práctico: MedGemma (Google DeepMind) es una colección de modelos médicos de código abierto basados en la arquitectura Gemma 3 de Google. En lugar de funcionar como una herramienta de diagnóstico directa al consumidor, MedGemma sirve como base para que los desarrolladores creen aplicaciones médicas para profesionales clínicos.
Diseñado para el análisis de texto e imágenes médicas, MedGemma puede interpretar imágenes médicas complejas, como radiografías de tórax, resonancias magnéticas y tomografías computarizadas. También facilita tareas de razonamiento clínico, como resumir notas de pacientes o responder preguntas tipo examen médico.
Según una revisión realizada por un radiólogo cardiotorácico certificado por la junta estadounidense, el 81 % de los informes de radiografías de tórax de MedGemma darían lugar a decisiones sobre el tratamiento del paciente similares a las basadas en los informes originales del radiólogo (véase el gráfico a continuación).
Figura 8: El gráfico muestra con qué frecuencia los informes de radiografías de tórax generados por IA y los informes originales de los radiólogos dan lugar a resultados clínicos similares o diferentes en casos normales, anormales y en todos los casos. 12
Ejemplo de la vida real: El Memorial Sloan Kettering Cancer Center utiliza Watson Oncology (IBM) para ayudar a los oncólogos analizando datos de pacientes y literatura médica para recomendar opciones de tratamiento basadas en la evidencia. 13
4. Asistencia en investigación médica
En la investigación médica, el valor fundamental de los másteres jurídicos reside en su capacidad para acelerar la revisión y síntesis de la literatura científica.
En lugar de limitarse a resumir artículos, los LLM ayudan a los investigadores a mantenerse al día con la literatura biomédica en rápida expansión, identificando estudios relevantes, extrayendo hallazgos clave y sintetizando ideas de múltiples fuentes.
Ejemplo real: El chatbot de John Snow para el sector sanitario ayuda a los investigadores a encontrar artículos científicos relevantes, extraer información clave e identificar tendencias de investigación. Resulta especialmente valioso para navegar por la vasta cantidad de literatura biomédica. 14
5. Comunicación automatizada con el paciente
Los modelos de lenguaje a gran escala en el ámbito sanitario pueden elaborar respuestas informativas y empáticas a las consultas de los pacientes. Algunos ejemplos son:
- Gestión de la medicación y recordatorios: Un chatbot proporciona a los pacientes recordatorios periódicos para que tomen su medicación para la diabetes y solicita confirmación.
- Monitorización de la salud y seguimiento postoperatorio: Un paciente en el postoperatorio envía información sobre su dolor y el estado de su herida a un chatbot, que determina si el proceso de curación está progresando.
- Comunicación informativa y educativa: Un paciente pregunta a un chatbot cómo controlar la presión arterial alta, y el chatbot responde con consejos sobre nutrición y estilo de vida.
Ejemplo práctico: ChatGPT Health permite a los usuarios conectar de forma segura sus historiales médicos y datos de bienestar (por ejemplo, Apple Health o MyFitnessPal). A continuación, pueden consultar a ChatGPT sobre sus propios datos, por ejemplo: "¿Cómo evoluciona mi colesterol?" o "Resume los resultados de mis últimos análisis". 15
Ejemplo real: el Hospital Infantil de Boston utiliza Buoy Health, un chatbot en línea con inteligencia artificial para la comprobación de síntomas, que proporciona a los pacientes respuestas instantáneas a preguntas relacionadas con la salud y consultas iniciales.
El chatbot puede clasificar a los pacientes analizando sus síntomas y aconsejando si necesitan consultar a un médico. 16
6. Resultados predictivos de salud
Los modelos lineales predictivos (MLP) pueden utilizarse para facilitar la estratificación y la predicción de riesgos en el sector sanitario. Al respaldar el análisis de datos clínicos estructurados y no estructurados, los MLP pueden ayudar a identificar a los pacientes con mayor riesgo (como reingresos hospitalarios) y facilitar la planificación proactiva de la atención, a menudo en combinación con modelos predictivos tradicionales.
Ejemplo práctico: Los farmacéuticos de la WVU utilizan un algoritmo predictivo para determinar el riesgo de reingreso hospitalario. Este método analiza datos de historias clínicas electrónicas (HCE), que incluyen información demográfica del paciente, historial clínico y determinantes socioeconómicos de la salud.
Basándose en esta investigación, los farmacéuticos de la WVU identifican a los pacientes con alto riesgo de reingreso y les asignan coordinadores de atención para que les den seguimiento tras el alta. Esto puede contribuir a reducir las tasas de reingreso. 17
7. Planes de tratamiento personalizados
Al integrar el historial médico, los síntomas y los datos de salud longitudinales, los modelos de aprendizaje longitudinal (LLM) pueden ayudar a traducir la información compleja del paciente en consideraciones de atención individualizadas, lo que facilita conversaciones sobre el tratamiento más personalizadas y contextualizadas entre los médicos y los pacientes.
Ejemplo real: El chatbot de IA de Babylon Health ofrece recomendaciones de salud personalizadas basadas en los síntomas y el historial médico del usuario. Entabla una conversación con los usuarios formulando preguntas relevantes para analizar mejor sus problemas y ofreciendo recomendaciones a medida. 18
8. Codificación y facturación médica
Los modelos de lenguaje de gran tamaño pueden automatizar los procesos de auditoría mediante el análisis de los historiales clínicos y los registros electrónicos de salud de los pacientes.
Ejemplo práctico: Epic Systems, proveedor de sistemas de historia clínica electrónica (EHR), integra herramientas de gestión de la vida (LLM) en su software para facilitar la codificación y la facturación. Estas herramientas pueden detectar anomalías en los patrones de acceso a información confidencial del paciente o inconsistencias en las prácticas de codificación y facturación. 19
Ejemplo práctico: Claude for Healthcare (Anthropic) es una plataforma empresarial diseñada para organizaciones, proveedores y aseguradoras del sector sanitario. Conecta modelos de lenguaje complejos con bases de datos médicas profesionales como ICD-10 y la base de datos de cobertura de CMS, lo que permite a los hospitales automatizar los flujos de trabajo administrativos. Estos flujos de trabajo incluyen autorizaciones previas de seguros, resumen de historiales clínicos y clasificación de mensajes del portal del paciente. 20
Sin embargo, los sistemas LLM no están completamente preparados para la codificación médica, pero sus contribuciones son prometedoras: los investigadores examinaron con qué frecuencia cuatro sistemas LLM (GPT-3.5, GPT-4, Gemini Pro y Llama2-70b Chat) emitieron los códigos CPT, ICD-9-CM e ICD-10-CM correctos.
Sus hallazgos revelan una importante oportunidad de mejora. Los investigadores descubrieron que los sistemas de gestión de aprendizaje automático suelen generar código que transmite información inexacta, con una precisión máxima del 50 %. 21
9. Formación y educación
Los modelos lingüísticos a gran escala y la IA generativa pueden utilizarse como herramientas educativas interactivas, ayudando a médicos y pacientes a comprender mejor conceptos médicos complejos y a aclarar información confusa.
Caso de uso real: Simulación médica de Oxford Utiliza modelos LLM integrados con tecnología de realidad virtual para crear simulaciones inmersivas de pacientes virtuales.
Estas simulaciones permiten a los estudiantes experimentar situaciones de alta presión, como atender a un paciente con paro cardíaco, sin ninguna consecuencia en el mundo real.
Los modelos de aprendizaje automático (LLM) potencian las respuestas de los pacientes virtuales, haciéndolas más realistas e impredecibles y preparando a los estudiantes para la variabilidad de los entornos clínicos reales. 22
Retos de los másteres en Derecho en el sector sanitario
preocupaciones sobre la privacidad
El uso de aplicaciones sanitarias basadas en LLM que no hayan sido desarrolladas, probadas o aprobadas adecuadamente para uso médico puede suponer riesgos importantes para los usuarios, en particular en lo que respecta a la privacidad de los datos.
Estas herramientas suelen procesar información sanitaria sensible proporcionada por el usuario, pero no siempre está claro cómo se almacenan y comparten estos datos, ni si las aplicaciones cumplen plenamente con las leyes y normativas de protección de datos vigentes. 23
Precisión y fiabilidad
Las personas con problemas de aprendizaje de la lengua también son propensas a las alucinaciones , es decir, a recibir información que suena plausible pero que es incorrecta o engañosa.
Por ejemplo, al recibir una consulta médica, el sistema GPT-3.5 recomendó incorrectamente la tetraciclina para una paciente embarazada, a pesar de haber explicado correctamente su daño potencial para el feto. 24
Figura 8: Un ejemplo de GPT-3.5 que muestra la recomendación incorrecta de un medicamento.
Generalización frente a especialización
Un máster en Derecho (LLM) especializado en datos médicos generales podría no tener la experiencia detallada necesaria para especialidades médicas específicas.
Sesgos y consideraciones éticas
Más allá de la precisión, existen preocupaciones éticas, como la posibilidad de que los modelos de aprendizaje automático perpetúen sesgos en sus datos de entrenamiento. Esto podría resultar en recomendaciones de atención desiguales para diferentes grupos demográficos.
Para obtener más detalles sobre los desafíos de los modelos de lenguaje a gran escala, lea los artículos sobre los riesgos de la IA generativa y la ética de la IA generativa .
El futuro de los másteres en Derecho (LLM) en el sector sanitario
El análisis de Stanford indica que existe un importante potencial sin explotar para los másteres en derecho (LLM) en el sector sanitario. 25
Si bien muchos sistemas de gestión del lenguaje se han utilizado para tareas como mejorar los diagnósticos o la comunicación con los pacientes, pocos se han centrado en las tareas administrativas que contribuyen al agotamiento profesional de los médicos.
En el futuro, los modelos de aprendizaje de lenguaje (LLM, por sus siglas en inglés) podrían evolucionar para interactuar con el comportamiento , un mayor contexto y las emociones , lo que les permitiría brindar un apoyo más personalizado y empático.
Metodología de evaluación comparativa
Metodología de evaluación comparativa : Esta evaluación comparativa analiza 9 programas de maestría en derecho (LLM) populares en preguntas médicas de nivel de posgrado, utilizando el conjunto de datos MedQA , que se basa en el Examen de Licencia Médica de los Estados Unidos (USMLE) . Cada pregunta incluye un caso clínico y opciones de respuesta de opción múltiple.
Resultados del modelo LLM : Se solicitó a cada modelo que devolviera una respuesta estructurada (por ejemplo, "Respuesta: C"). 26
Latencia : Tiempo promedio que tarda un modelo en generar una respuesta a una sola pregunta de MedQA. Por ejemplo, si 100 preguntas tardan 1115 segundos en completarse, la latencia promedio es de 11,15 segundos por pregunta.
Fuentes de datos de referencia
- Resultados de Me-LLaMA 70B 27
- Resultados de Meditron 70B 28
- Resultados de Med-PaLM 2 29
- ChatGPT y GPT-4 30
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.