Compara 9 Modelos de Lenguaje Grandes en Salud

actualizado el 21 de may. de 2026

Hemos evaluado 9 LLMs utilizando el conjunto de datos MedQA, un examen de referencia de nivel de posgrado en clínica derivado de preguntas del USMLE. Cada modelo respondió los mismos escenarios clínicos de opción múltiple utilizando un prompt estandarizado, lo que permitió una comparación directa de la precisión.

También registramos la latencia por pregunta dividiendo el tiempo total de ejecución por el número de elementos de MedQA completados.

Resultados del benchmark de LLMs en salud

Loading Chart

Metodología del benchmark: Este benchmark evalúa el rendimiento de ajuste fino supervisado de LLMs vs. modelos generales de gran tamaño (GPT-4) en tareas de respuesta a preguntas médicas. Consulta fuentes de datos del benchmark.

MedQA: Preguntas de examen médico de opción múltiple basadas en el Examen de Licencia Médica de los Estados Unidos.

Figura 1: Ejemplo de pregunta clínica de opción múltiple estilo USMLE.

MedMCQA: Conjunto de datos de respuesta a preguntas de opción múltiple (MCQA) a gran escala diseñado para abordar preguntas de exámenes de ingreso médico del mundo real.

Una pregunta de opción múltiple de examen de ingreso médico a gran escala que requiere que el modelo seleccione la respuesta correcta e interprete las explicaciones asociadas sobre los hallazgos clínicos.

Figura 2: Una pregunta de opción múltiple de examen de ingreso médico a gran escala que requiere que el modelo seleccione la respuesta correcta e interprete las explicaciones asociadas sobre los hallazgos clínicos.

PubMedQA: Benchmark de respuesta a preguntas biomédicas utilizando respuestas de sí/no/tal vez.

Una pregunta biomédica de sí/no/tal vez, donde el modelo debe juzgar la corrección de una afirmación clínica utilizando el contexto del estudio proporcionado.

Figura 3: Una pregunta biomédica de sí/no/tal vez, donde el modelo debe juzgar la corrección de una afirmación clínica utilizando el contexto del estudio proporcionado.

Ejemplos de LLM en salud

Tipo BERT (Solo codificador)

Optimizados para codificar y representar texto biomédico, estos modelos sobresalen en la extracción de características para tareas como la clasificación.

Modelo	Desarrollador	Año	Parámetros (B)	Código abierto
BioLinkBERT	—	2022	0.34	✅
MedBERT	Universidad de Stanford	2021	0.017	✅
Representaciones Acústicas de Salud (HeAR)	Google	2024	0.31	❌

Tipo ChatGPT / LLaMA (Decodificador, ajustado para instrucciones/chat)

Basados en arquitecturas estilo LLaMA y optimizados para tareas interactivas y diálogos clínicos.

Modelo	Desarrollador	Año	Parámetros (B)	Código abierto
Polaris 3.0	Hippocratic AI	2025	4200	❌
MEDITRON-70B	EPFL (Laboratorio de IA Suizo)	2023	70	✅
Me-LLaMA	PhysioNet (multiinstitucional)	2024	70	✅
OpenBioLLM	–	2024	70	✅
Radiology-Llama2	Meta	2023	70	✅
PMC-LLaMA	Laboratorio de IA de Shanghái & SJTU	2024	13	✅
ChatDoctor	UT Southwestern & colaboradores	2023	13	✅
Asclepius	KAIST & Univ. Yonsei	2023	13	✅
MedAlpaca	Universidad Técnica de Múnich	2023	13	✅
Clinical Camel	Universidad de Toronto (Instituto Vector)	2023	13	✅

Tipo GPT / PaLM (Solo decodificador, generativo)

Construidos de manera similar a GPT-3 o PaLM, estos modelos están ajustados fino para la generación y el resumen de texto de propósito general.

Modelo	Desarrollador	Año	Parámetros (B)	Código abierto
Med-PaLM 2	Google	2023	340	❌
BioMedLM	Stanford CRFM (MosaicML)	2022	2.7	✅
PubMedGPT	Stanford CRFM	2023	2.7	✅
BioGPT	Microsoft Research	2022	0.35	✅

LLMs de propósito general en salud

*Llama 3.1 Instruct Turbo con 405B de parámetros. Consulta metodología del benchmark.

Puntos clave:

o1: Modelo con mejor rendimiento
03 mini: Mejor opción de presupuesto
GPT 4.1: Mejor velocidad y tiempo de respuesta

Más allá de la precisión y el costo de entrada, los modelos también difieren en sus enfoques subyacentes para la respuesta a preguntas médicas. Por ejemplo, o3 utiliza un enfoque más analítico y paso a paso, mientras que GPT-5 responde con empatía, organiza y explica la información claramente para no expertos:

Figura 4: Figura que muestra las diferencias entre las respuestas de GPT-5 y o3.

Ajuste fino de LLMs médicos

El rendimiento del ChatGPT predeterminado (modelo 4o) se compara con el asistente existente 'Manual de Medicina Clínica'. Ambos modelos reciben el mismo prompt y sus respuestas se analizan:

GPT 4o

Figura 5: La figura muestra que la respuesta del modelo predeterminado de GPT 4o es precisa pero también muy resumida.¹

LLM médico ajustado fino

Figura 6: La figura muestra que la respuesta del agente especializado está mejor explicada y detallada.²

Lee LLM ajuste fino y LLM entrenamiento para más información.

Aplicaciones de LLMs de propósito general

Modelo	Ejemplo de caso de uso en salud	Método utilizado
GPT-5	Apoyo al diagnóstico de diabetes utilizando casos de pacientes³	RAG (Generación Aumentada por Recuperación)
GPT‑4	Resumen de historiales de pacientes a partir de notas de salud para apoyo a la decisión clínica⁴	RAG (Generación Aumentada por Recuperación)
Claude 3	Diagnóstico y planificación de tratamiento de cáncer de cabeza y cuello en simulaciones de tableros de oncología⁵	RAG + Ingeniería de Prompts
Qwen 3	Tareas de razonamiento de tareas médicas ⁶	Preentrenamiento continuo + Ajuste fino
Command R+	Pipelines aumentados por recuperación para Q&A clínica y revisión de literatura⁷	RAG (Generación Aumentada por Recuperación)
LLaMA 3	Generación de resúmenes de alta hospitalaria y datos de respuesta a preguntas⁸	Preentrenamiento continuo + Ajuste fino

Estos modelos son modelos ajustados fino de propósito general que requieren adaptación de dominio para realizar tareas clínicas con precisión. Puedes usar estos modelos en salud aprovechando:

Preentrenamiento continuo en datos médicos para ayudar al modelo a identificar mejor el lenguaje médico exponiéndolo a notas clínicas y literatura biomédica (como PubMed).
RAG para extraer datos de documentos clínicos verificados y producir respuestas precisas en tiempo de ejecución.
Ajuste fino de instrucciones para permitir que el modelo aprenda a responder preguntas clínicas o extraer síntomas del texto.

Figura 7: Un flujo de trabajo general de ajuste fino de LLM para casos de uso especializados.⁹

Casos de uso de LLMs en entornos clínicos

1. Transcripción médica

Los LLMs pueden ayudar a crear transcripciones médicas mediante:

Escuchando el diálogo orgánico entre un paciente y un clínico.
Extrayendo detalles médicos críticos.
Condensando datos médicos en registros médicos compatibles que se alineen con las secciones relevantes de una EHR.

Ejemplo de la vida real: El MedLM de Google puede capturar y transformar la conversación paciente-clínico en transcripción médica.¹⁰

2. Mejora de registros electrónicos de salud (EHR)

El uso generalizado de registros electrónicos de salud (EHR) ha generado grandes cantidades de datos de pacientes que, cuando se utilizan de manera efectiva, pueden mejorar significativamente la atención médica.

Por ejemplo, analizar datos de EHR puede ayudar a los clínicos a tomar mejores decisiones al revelar patrones en diagnósticos, tratamientos y resultados. También puede apoyar la detección temprana de enfermedades y una atención más personalizada al identificar factores de riesgo y adaptar los tratamientos a pacientes individuales.

A nivel de sistema, los datos de EHR pueden mejorar la eficiencia al reducir pruebas redundantes, destacar brechas de atención e informar políticas que mejoren la calidad y reduzcan costos.

Ejemplo de la vida real: El MedLM de Google es utilizado por BenchSci, Accenture y Deloitte para mejorar los registros electrónicos de salud (EHR).

BenchSci ha integrado MedLM en su plataforma ASCEND para mejorar la calidad de la investigación preclínica.
Accenture utiliza MedLM para organizar datos no estructurados de múltiples fuentes, automatizando operaciones manuales que antes consumían mucho tiempo y eran propensas a errores.
Deloitte trabaja con MedLM para minimizar la fricción en la búsqueda de tratamiento. Utilizan un chatbot interactivo que ayuda a los participantes del plan de salud a comprender mejor las alternativas de proveedores.¹¹

3. Apoyo a la decisión clínica

Los LLMs ayudan a los clínicos a interpretar la información específica del paciente incluida en la evidencia médica actual, destacando consideraciones relevantes durante el diagnóstico o la planificación del tratamiento sin reemplazar el juicio clínico.

Ejemplo de la vida real: MedGemma (Google DeepMind) es una colección de modelos médicos de peso abierto construidos sobre la arquitectura Gemma 3 de Google. En lugar de funcionar como una herramienta de diagnóstico directa al consumidor, MedGemma sirve como base para que los desarrolladores construyan aplicaciones médicas dirigidas a clínicos.

Diseñado tanto para análisis de texto médico como de imágenes, MedGemma puede interpretar imágenes médicas complejas, incluidas radiografías de tórax, resonancias magnéticas y tomografías computarizadas. También admite tareas de razonamiento clínico, como resumir notas de pacientes o responder preguntas estilo tablero médico.

Según una revisión de un radiólogo torácico certificado por la junta de EE. UU., el 81% de los informes de radiografías de tórax de MedGemma llevaría a decisiones de manejo del paciente similares a las basadas en los informes originales del radiólogo (vea el gráfico a continuación).

El gráfico muestra con qué frecuencia los informes de radiografías de tórax generados por IA y los informes originales de radiólogos conducen a resultados clínicos similares o diferentes en casos normales, anormales y todos los casos.

Figura 8: El gráfico muestra con qué frecuencia los informes de radiografías de tórax generados por IA y los informes originales de radiólogos conducen a resultados clínicos similares o diferentes en casos normales, anormales y todos los casos.¹²

Ejemplo de la vida real: El Memorial Sloan Kettering Cancer Center utiliza IBM Watson Oncology para asistir a oncólogos analizando datos de pacientes y literatura médica para recomendar opciones de tratamiento basadas en evidencia.¹³

4. Asistencia en investigación médica

En la investigación médica, el valor central de los LLMs radica en su capacidad para acelerar la revisión y síntesis de literatura.

En lugar de simplemente resumir artículos, los LLMs ayudan a los investigadores a mantenerse al día con la literatura biomédica en rápida expansión al identificar estudios relevantes, extraer hallazgos clave y sintetizar ideas de múltiples fuentes.

Ejemplo de la vida real: El chatbot de salud de John Snow ayuda a los investigadores a encontrar artículos científicos relevantes, extraer ideas clave e identificar tendencias de investigación. Es particularmente valioso para navegar la gran cantidad de literatura biomédica.¹⁴

5. Comunicación automatizada con pacientes

Los modelos de lenguaje grandes en salud pueden redactar respuestas informativas y compasivas a las consultas de los pacientes. Algunos ejemplos incluyen:

Gestión y recordatorios de medicación: Un chatbot proporciona a los pacientes recordatorios regulares para tomar su medicación para la diabetes y solicita confirmación.
Monitoreo de salud y atención de seguimiento: Un paciente postoperatorio envía su estado de dolor y herida a un chatbot, que determina si el proceso de curación está progresando.
Comunicación informativa y educativa: Un paciente le pregunta a un chatbot cómo manejar la presión arterial alta, y el chatbot responde con consejos de nutrición y estilo de vida.

Ejemplo de la vida real: ChatGPT Health permite a los usuarios conectar de forma segura sus registros médicos y datos de bienestar (por ejemplo, Apple Health o MyFitnessPal). Los usuarios pueden luego hacer preguntas a ChatGPT sobre sus propios datos, como "¿Cómo está evolucionando mi colesterol?" o "Resume mis últimos resultados de laboratorio".¹⁵

Ejemplo de la vida real: El Hospital Infantil de Boston utiliza Buoy Health, un chatbot verificador de síntomas en línea impulsado por IA, que proporciona a los pacientes respuestas instantáneas a preguntas relacionadas con la salud y consultas iniciales.

El chatbot puede triar pacientes analizando sus síntomas y aconsejando si necesitan ver a un médico.¹⁶

6. Resultados de salud predictivos

Los LLMs pueden posicionarse para permitir la estratificación de riesgos y el pronóstico en salud. Al apoyar el análisis de datos clínicos estructurados y no estructurados, los LLMs pueden ayudar a identificar pacientes con riesgo elevado (como reingreso hospitalario) y apoyar la planificación proactiva de la atención, a menudo en combinación con modelos predictivos tradicionales.

Ejemplo de la vida real: Los farmacéuticos de WVU utilizan un algoritmo predictivo para determinar el riesgo de reingreso. Este enfoque examinará datos de registros electrónicos de salud (EHR), que incluyen datos demográficos de pacientes, historial clínico y determinantes socioeconómicos de la salud.

Basado en esta investigación, los farmacéuticos de WVU identifican a pacientes con alto riesgo de reingreso y asignan coordinadores de atención para hacerles seguimiento después del alta. Esto puede ayudar a reducir las tasas de reingreso.¹⁷

7. Planes de tratamiento personalizados

Al integrar historial médico, síntomas y datos de salud longitudinales, los LLMs pueden ayudar a traducir información compleja del paciente en consideraciones de atención individualizadas, apoyando discusiones de tratamiento más personalizadas y conscientes del contexto entre clínicos y pacientes.

Ejemplo de la vida real: El chatbot de IA de Babylon Health proporciona recomendaciones de salud individualizadas basadas en los síntomas e historial médico del usuario. Involucra a los usuarios en una conversación haciendo preguntas relevantes para analizar mejor sus problemas y dando recomendaciones personalizadas.¹⁸

8. Codificación y facturación médica

Los modelos de lenguaje grandes pueden automatizar procesos de auditoría analizando registros de pacientes y EHR.

Ejemplo de la vida real: Epic Systems, un proveedor de EHR, integra LLMs en su software para ayudar con la codificación y facturación. Los LLMs pueden monitorear anomalías en los patrones de acceso a información sensible de pacientes o inconsistencias en las prácticas de codificación y facturación.¹⁹

Ejemplo de la vida real: Claude para Salud (Anthropic) es una plataforma enfocada en empresas diseñada para organizaciones de salud, proveedores y aseguradoras. Conecta modelos de lenguaje grandes a bases de datos médicas profesionales como ICD-10 y la Base de Datos de Cobertura de CMS, permitiendo a los hospitales automatizar flujos de trabajo administrativos. Estos flujos de trabajo incluyen autorizaciones previas de seguros, resumen de historiales de pacientes y triaje de mensajes del portal de pacientes.²⁰

Sin embargo, los LLMs no están completamente listos para la codificación médica, pero sus contribuciones son prometedoras: Los investigadores examinaron con qué frecuencia cuatro LLMs (GPT-3.5, GPT-4, Gemini Pro y Llama2-70b Chat) emitieron los códigos CPT, ICD-9-CM e ICD-10-CM correctos.

Sus hallazgos muestran una oportunidad significativa de mejora. Los investigadores descubrieron que los LLMs a menudo generan códigos que transmiten información inexacta, con una precisión máxima del 50%.²¹

9. Capacitación y educación

Los modelos de lenguaje grandes y IA generativa pueden utilizarse como herramientas educativas interactivas, ayudando a clínicos y pacientes a comprender mejor conceptos médicos complejos y aclarar información confusa.

Caso de uso de la vida real: Oxford Medical Simulation utiliza LLMs integrados con tecnología VR para crear simulaciones de pacientes virtuales inmersivas.

Estas simulaciones permiten a los estudiantes experimentar escenarios de alta presión, como manejar a un paciente con paro cardíaco sin ninguna consecuencia en el mundo real.

Los LLMs impulsan las respuestas de los pacientes virtuales, haciéndolas más realistas e impredecibles, preparando a los estudiantes para la variabilidad de los entornos clínicos reales.²²

10. Descubrimiento y desarrollo de fármacos

Los LLMs están acelerando la investigación farmacéutica acortando los ciclos de desarrollo y reduciendo el costo de llevar nuevos compuestos al mercado. Estos modelos pueden:

Analizar estructuras moleculares complejas y señalar compuestos con potencial terapéutico.
Predir la eficacia y el perfil de seguridad de los fármacos candidatos antes de las pruebas de laboratorio.
Sugerir nuevas configuraciones moleculares dirigidas a objetivos terapéuticos específicos.
Optimizar compuestos líderes para mejorar la farmacocinética y reducir los efectos secundarios.

Los modelos de lenguaje químicos, un subconjunto de LLMs construidos específicamente para aplicaciones farmacéuticas, han producido resultados medibles en diseño de fármacos de novo. La investigación indica que los modelos de inicio cálido (aquellos inicializados a partir de modelos de lenguaje bioquímicos preentrenados) generan compuestos de mayor calidad que los enfoques de referencia.²³

11. Radiología e imágenes médicas

Los LLMs multimodales que procesan texto e imágenes pueden revisar imágenes médicas junto con datos clínicos para apoyar la detección de anomalías y contribuir a interpretaciones diagnósticas más precisas.

Interpretación de imágenes: Modelos como Med-Flamingo y LLaVA-Med analizan imágenes médicas en un contexto clínico, apoyando a los radiólogos en la detección temprana de condiciones visibles en radiografías de tórax, resonancias magnéticas y tomografías computarizadas.
Generación automatizada de informes: Sistemas como ChatCAD generan informes de radiología directamente a partir de datos de imágenes, abordando una de las tareas más consumidoras de tiempo en departamentos de imágenes de alto volumen.

12. Alfabetización en salud y accesibilidad del lenguaje

Una brecha práctica en la atención del paciente es la distancia entre el lenguaje clínico y el lenguaje que los pacientes usan para describir su propia salud. Los LLMs pueden ayudar a cerrar esta brecha mediante:

Traducir terminología médica y jerga a lenguaje sencillo al nivel de lectura del paciente.
Superar las diferencias de lenguaje entre pacientes y proveedores en entornos de atención multilingües.
Explicar opciones de tratamiento, resultados de pruebas y planes de atención en formatos en los que los pacientes puedan actuar.

Una mejor comprensión del paciente se asocia con una mejor adherencia al tratamiento y resultados, lo que convierte esto en una aplicación de calidad de atención tanto como de comunicación.

No te pierdas nuestros análisis comparativos e insights basados en datos. El botón abre Google; seleccionar AIMultiple confirma que deseas ver AIMultiple con más frecuencia en los resultados de búsqueda de Google.

Añadir como fuente preferida

Desafíos de los LLMs en salud

Preocupaciones de privacidad

El uso de aplicaciones de salud basadas en LLM que no han sido desarrolladas, probadas o aprobadas adecuadamente para uso médico puede representar riesgos significativos para los usuarios, particularmente en torno a la privacidad de los datos.

Estas herramientas a menudo procesan información de salud sensible proporcionada por el usuario, pero no siempre está claro cómo se almacena, comparte o si las aplicaciones cumplen plenamente con las leyes y regulaciones existentes de protección de datos.²⁴

Precisión y fiabilidad

Los LLMs también son propensos a alucinaciones, información que suena plausible pero es incorrecta o engañosa.

Por ejemplo, cuando se le da una consulta médica, GPT-3.5 recomendó incorrectamente tetraciclina para un paciente embarazada, a pesar de explicar correctamente su posible daño al feto.²⁵

Figura 8: Un ejemplo de GPT-3.5 que muestra la recomendación incorrecta de un medicamento.

Generalización vs. especialización

Un LLM entrenado en datos médicos generales podría no tener la experiencia detallada necesaria para especialidades médicas específicas.

Sesgos y consideraciones éticas

Más allá de la precisión, existen preocupaciones éticas, como la posibilidad de que los LLMs perpetúen sesgos en sus datos de entrenamiento. Esto podría resultar en recomendaciones de atención desiguales para diferentes grupos demográficos.

Para más detalles sobre los desafíos de los modelos de lenguaje grandes, lee los riesgos de la IA generativa y ética de la IA generativa.

El futuro de los LLMs en salud

El análisis de Stanford indica que hay un potencial desaprovechado significativo para los LLMs en salud.²⁶

Si bien muchos LLMs se han utilizado para tareas como aumentar el diagnóstico o la comunicación con pacientes, menos se han centrado en tareas administrativas que contribuyen al agotamiento de los clínicos.

En el futuro, los LLMs pueden evolucionar para interactuar con comportamiento, más contexto y emociones, permitiéndoles proporcionar un apoyo más personalizado y empático.

Metodología de modelos de lenguaje grandes en salud

Metodología del benchmark: Este benchmark evalúa 9 LLMs generales populares en preguntas médicas de nivel de posgrado utilizando el conjunto de datos MedQA, que extrae su contenido del Examen de Licencia Médica de los Estados Unidos (USMLE). Cada pregunta incluye un escenario clínico y opciones de respuesta de opción múltiple.

Salidas de LLM: Se solicitó a cada modelo que devolviera una respuesta estructurada (por ejemplo, "Respuesta: C").²⁷

Latencia: El tiempo promedio que tarda un modelo en generar una respuesta a un solo prompt de MedQA. Por ejemplo, si 100 preguntas tardan 1.115 segundos en total en completarse, la latencia promedio es de 11,15 segundos por pregunta.

Fuentes de datos del benchmark de LLMs en salud

Resultados de Me-LLaMA 70B²⁸
Resultados de Meditron 70B²⁹
Resultados de Med-PaLM 2³⁰
ChatGPT & GPT-4³¹

Cita esta investigación

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Cem Dilmegani (2026) - "Compara 9 Modelos de Lenguaje Grandes en Salud". Publicado en línea en AIMultiple.com. Recuperado el 21 de Mayo de 2026, de: https://aimultiple.com/large-language-models-in-healthcare [Recurso en línea]

Dilmegani, C. (2026, 21 de Mayo). Compara 9 Modelos de Lenguaje Grandes en Salud. AIMultiple. https://aimultiple.com/large-language-models-in-healthcare

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Compara 9 Modelos de Lenguaje Grandes en Salud}},
  year   = {2026},
  month  = may,
  howpublished    = {\url{https://aimultiple.com/large-language-models-in-healthcare}},
  note   = {AIMultiple. Recuperado el 21 de Mayo de 2026}
}

Enlaces de referencia

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

Google Launches A Healthcare-Focused LLM

Forbes

How doctors are using Google's new AI models for health care

CNBC

MedGemma: Our most capable open models for health AI development

Medical ChatBot | Healthcare ChatBot | Medical GPT

Introducing ChatGPT Health | OpenAI

Buoy Health - IDHA

Boston Children's Hospital

WVU pharmacists using AI to help lower patient readmission rates | WVU Today | West Virginia University

10.

Babylon's AI-enabled symptom checker added to recently acquired Higi's app | MobiHealthNews

MobiHealthNews

11.

Artificial Intelligence | Epic

12.

Healthcare | Claude by Anthropic

13.

Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying | NEJM AI

14.

Oxford Medical Simulation - Virtual Reality Healthcare Training

Oxford Medical Simulation

15.

Large Language Models in Healthcare and Medical Applications: A Review - PMC

16.

The Challenges for Regulating Medical Use of ChatGPT and Other Large Language Models - PubMed

17.

https://arxiv.org/pdf/2307.15343

18.

Large Language Models in Healthcare: Are We There Yet? | Stanford HAI

19.

https://www.vals.ai/benchmarks/medqa

20.

Medical foundation large language models for comprehensive text analysis and beyond | npj Digital Medicine

Nature Publishing Group UK

21.

[2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

22.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

23.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

24.

The Challenges for Regulating Medical Use of ChatGPT and Other Large Language Models - PubMed

25.

https://arxiv.org/pdf/2307.15343

26.

Large Language Models in Healthcare: Are We There Yet? | Stanford HAI

27.

https://www.vals.ai/benchmarks/medqa-04-15-2025

28.

Medical foundation large language models for comprehensive text analysis and beyond | npj Digital Medicine

Nature Publishing Group UK

29.

[2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

30.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

31.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo