Comparativa de los programas LLM con enfoque en agentes: Los 13 mejores programas LLM son comparados

con

actualizado el May 22, 2026

Realizamos pruebas comparativas de 13 modelos LLM en 10 tareas de desarrollo de software utilizando una herramienta CLI basada en agentes . Ejecutamos aproximadamente 300 pasos de validación automatizados por modelo para medir el rendimiento tanto en la capa de API como en la capa de interfaz de usuario.

Resultados de referencia de LLM con agentes

Comparación de tasas de éxito

Loading Chart

Claude 4.5 Sonnet y GPT-5.2 obtuvieron las puntuaciones generales más altas con los resultados más consistentes tanto en la lógica de la API como en la integración de la interfaz de usuario. Les siguieron Gemini 3.1 Pro Preview y GPT-5.2 Codex, con una lógica de backend funcional pero una salida de frontend más débil.

Metodología de evaluación comparativa .

Claude Sonnet 4.5

Con la tasa de interfaz de usuario más alta entre todos los modelos probados, Claude Sonnet 4.5 generó consistentemente interfaces funcionales con lógica de backend operativa. Implementó con éxito operaciones CRUD, validación de entrada, recopilación de recursos, flujos de trabajo de varios pasos y ciclos de vida de estado de varias etapas. Sin embargo, algunas tareas tenían la autenticación configurada correctamente, pero carecían de creación de recursos, aplicación de restricciones o control de acceso basado en roles en los puntos finales específicos del dominio.

Gemini 3.1 Vista previa Pro

Código backend técnicamente preciso, pero configuración de infraestructura frágil. Superó los pasos básicos de autenticación y listado en algunas tareas, pero en general falló en:

Inicialización del frontend
Validación estricta del esquema
Restricciones de validación basadas en el tiempo
Transiciones de estado complejas
Creación de recursos en cascada

GPT-5.2

La mayoría de las tareas gestionadas por GPT-5.2 se caracterizaron por backends funcionales y frontends operativos, con un rendimiento sólido en operaciones CRUD, validación de entrada, control de acceso basado en roles y flujos de trabajo de varios pasos. Sus deficiencias radicaban en:

Lógica de la máquina de estados: se construyó la autenticación y la lista de recursos, pero se omitieron las transiciones de estado del administrador y la aplicación irreversible del estado.
Imposición de roles o creación restringida de recursos en algunas tareas

GPT-5.2 Códice

El Codex GPT-5.2 manejaba bien los flujos básicos como el registro, la lista de recursos y la gestión de colecciones. Sus principales debilidades:

Puntos finales de recuperación de detalles faltantes
No hay transiciones de estado administrativo
La mitad de sus interfaces de usuario fallaron con errores de ejecución (5 de cada 10).

En comparación con GPT-5.2, Codex generó backends más fiables pero frontends significativamente menos estables.

Ejemplo de registro:

Gemini 3 Pro

En tareas más sencillas de un solo rol, Gemini 3 Pro implementó correctamente CRUD, búsqueda, acceso basado en roles y recuperación de datos. Las aplicaciones de múltiples roles fueron su punto débil:

Superó la comprobación de estado y la autenticación, pero falló en la creación de recursos, la gestión de asociaciones, la aplicación de roles y los flujos de trabajo de administración.
Falló 13 de 16 pasos en dos tareas con múltiples roles.
Los frontends no se renderizaron en 4 tareas.

Claude Sonnet 4.6

Con dos fallos totales en el backend y puntuaciones bajas de API en la mayoría de las tareas, Claude Sonnet 4.6 mostró un rendimiento inconsistente. Una excepción: obtuvo una puntuación de 0,92 en la API en una sola tarea con CRUD, autenticación, aplicación de roles y gestión de recursos casi completas (fallando solo en la eliminación). En otras tareas, generó la estructura del proyecto y capas de autenticación funcionales, pero dejó la lógica de negocio específica del dominio sin terminar. Implementaciones faltantes:

Creación, listado y recuperación de detalles de recursos.
Transiciones de estado, aplicación de roles, validación de entrada
Flujos de trabajo del dominio: carrito/pago, gestión de entradas, citas, encuestas, confirmación de asistencia a eventos, seguimiento de transacciones

Claude Opus 4.6

De Claude Opus 4.6 surgieron interfaces de usuario casi completas, pero con una lógica de backend mínima. Superó las comprobaciones de estado, el registro y el inicio de sesión, pero generalmente falló en:

Creación de recursos
transiciones de estado
Acceso basado en roles
Validación de entrada
Flujos de trabajo de administración

Ejemplo de registro:

Kimi K2.5

Las implementaciones completas para algunos tipos de tareas contrastaban con los fallos en los sistemas backend para otros, lo que sugiere que Kimi K2.5 maneja tareas CRUD más sencillas, pero tiene dificultades con aplicaciones complejas de múltiples roles o pasos.

GLM 4.7

El rendimiento general de GLM 4.7 se caracterizó por resultados limitados. Las tareas con mayor puntuación tenían interfaces de usuario parcialmente cargadas, pero los puntos finales de autenticación devolvían códigos de estado incorrectos. La mayoría de las tareas presentaban fallos en el código de backend o frontend.

Comprender 4

Grok 4 generó un código de backend mínimo, que generalmente solo implementaba puntos finales de verificación de estado y autenticación. Completó una tarea por completo, pero falló en las demás:

Listados de servicios
Creación de recursos
Operaciones administrativas
transiciones de estado

Devstral 2 2512

Devstral generó parte de la lógica del backend, pero no apareció código válido del frontend en ninguna tarea debido a la falta de archivos o a referencias de módulos rotas.

Qwen3 Coder Siguiente

La mayoría de las tareas intentadas por Qwen3 Coder Next se caracterizaron por el código de backend que no se podía ejecutar. Donde los backends se iniciaban, los frontends fallaban debido a puntos de entrada faltantes o componentes dañados.

Vista previa de Trinity Large

Trinity Large Preview obtuvo las puntuaciones más bajas en general, generando estructuras de proyecto con errores que impedían la ejecución de las aplicaciones. La mayoría de los backends carecían de implementaciones de rutas funcionales y los frontends presentaban componentes faltantes o defectuosos.

Comparación de costos y éxito

Claude Opus 4.6 fue el modelo más caro por ejecución, pero se ubicó en la mitad de la clasificación, mientras que Devstral tuvo un costo similar a Claude 4.5 Sonnet, pero obtuvo una puntuación significativamente menor. GPT-5.2 y GPT-5.2 Codex lograron puntuaciones altas a un costo relativamente bajo.

Fichas de finalización y tiempo de finalización de la tarea

Devstral consumió una gran cantidad de tokens en todos los modelos, pero no produjo una interfaz de usuario funcional, lo que significa que una gran parte de su resultado fue código no funcional o redundante.

Kimi K2.5 y GLM 4.7 tuvieron las latencias más altas, dedicando significativamente más tiempo por tarea sin una mejora correspondiente en los resultados.

Grok-4 también fue lento a pesar de generar relativamente pocos tokens, lo que indica pausas prolongadas entre generaciones en lugar de grandes resultados. Por otro lado, Gemini 3 Pro Preview y GPT-5.2 Codex completaron las tareas rápidamente con un uso moderado de tokens, y ambos se ubicaron en la mitad superior de las puntuaciones generales.

Rendimiento del LLM en una única tarea exitosa

Tras realizar nuestra prueba comparativa con 10 tareas, descubrimos que ninguna tarea fue completada correctamente por todos los LLM, y que hubo muchos pasos en los que fallaron. Por lo tanto, quisimos comprobar el rendimiento de los tokens y la latencia en una tarea que todos pudieran completar con éxito.

Para ello, diseñamos una tarea de referencia mínima: una API de Notes sencilla en memoria con cuatro puntos finales CRUD, validación básica y sin autenticación ni base de datos. Todos los modelos LLM completaron esta tarea con una tasa de éxito del 100 %, lo que confirma que todos los modelos pueden generar API sencillas cuando se elimina la complejidad.

Esto nos permitió comparar el uso de tokens, el coste y la latencia en una única tarea exitosa.

Comparación de costes y líneas de código

En la prueba comparativa completa, Claude 4.5 Sonnet fue el modelo con la puntuación más alta, con un coste medio de 0,29 dólares por tarea; aquí completó la prueba de referencia por tan solo 0,012 dólares, igualando a los modelos más baratos.

Qwen3 Coder ($0.012) y Trinity (gratuito), que ocupó el último y penúltimo lugar en la prueba comparativa completa, ofrecieron precios competitivos en comparación con los modelos Sonnet de mayor puntuación. Esto significa que, en una tarea que todos pueden completar, la diferencia de precio entre los mejores y los peores prácticamente desaparece, excepto en el caso de Opus, que sigue siendo caro independientemente de la dificultad de la tarea.

Gemini 3.1 Pro Preview a $0.016 demostró una fijación de precios eficiente en esta tarea básica, aunque su costo fue ligeramente superior al de los modelos más económicos. Esto lo posicionó de manera competitiva entre los modelos de gama media, mostrando una eficiencia de costos razonable cuando se reduce la complejidad de la tarea.

Devstral 2 2512 mostró la reducción de costos más drástica, pasando de $0.31 por tarea a $0.021. Dado que obtuvo solo 0.07 en la prueba comparativa completa, esto revela un aspecto importante de la fijación de precios de LLM : los costos altos no siempre reflejan tarifas por token costosas, sino que pueden ser el resultado de repetidos intentos fallidos en lugar de la estructura de precios base del modelo.

Claude Opus 4.6 siguió siendo la opción más cara, con un precio de 0,086 dólares, en consonancia con su promedio de 1,17 dólares en la evaluación comparativa completa, lo que confirma que su precio por token la hace costosa independientemente de la dificultad de la tarea.

Grok-4 generó la menor cantidad de líneas de código, lo cual concuerda con su bajo uso de tokens en la prueba de rendimiento completa. Codex y Codex tuvieron costos similares, pero Codex fue más rápido y eficiente. Esto refleja la prueba de rendimiento completa, donde Codex obtuvo una puntuación más alta con el mismo costo, lo que demuestra que llega a las soluciones de forma más directa.

Comparación de tokens de finalización y finalización de tareas

Kimi K2.5 tardó 135 segundos en una tarea que la mayoría de los modelos completaron en menos de 30 segundos, lo que confirma que la alta latencia observada en la prueba de rendimiento completa es una limitación a nivel de modelo, y no está impulsada por la complejidad de la tarea.

El modelo GLM 4.7, el más lento de la prueba de rendimiento completa, completó esta tarea en 24 segundos, una reducción de 25 veces, lo que sugiere que su latencia aumenta con la dificultad.

Qwen3 Coder fue el más rápido con 10 segundos a pesar de ocupar el último lugar en la prueba de rendimiento completa. GPT-5.2 utilizó menos tokens que GPT-5.2 Codex y finalizó más rápido, lo que concuerda con la prueba de rendimiento completa donde GPT-5.2 obtuvo una puntuación más alta y fue más conciso.

¿Qué son los sistemas LLM con agentes?

El desarrollo de software es un proceso iterativo: escribir código, ejecutarlo, leer errores, corregirlos y repetir. Los sistemas de IA agentes permiten que los modelos de aprendizaje automático sigan este mismo ciclo. El modelo opera dentro de un entorno de desarrollo donde puede escribir archivos, ejecutar comandos, leer resultados y realizar cambios en función de lo que observa, continuando hasta completar la tarea.

Esto es importante porque las aplicaciones reales no son archivos aislados. Tienen backends con rutas y modelos de base de datos, frontends con componentes y llamadas a la API, archivos de configuración, dependencias y pruebas. Lograr que todo funcione en conjunto requiere pruebas y refinamiento iterativos, que es precisamente lo que permite la arquitectura de agentes.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Cómo funciona

El modelo se encuentra dentro de un entorno controlado con acceso a la consola, el sistema de archivos y la salida de ejecución. Cuando se le solicita que compile una aplicación, escribe archivos de forma incremental. Tras cada paso, el entorno controlado le muestra al modelo lo sucedido: si el servidor se inició, si las pruebas se superaron, si el analizador de código detectó errores. Con base en esta información, el modelo decide qué escribir o corregir a continuación.

Esto difiere fundamentalmente de la generación de una sola vez. En las configuraciones de una sola vez, el modelo genera todo el código a ciegas, sin forma de verificar si funciona. En los sistemas LLM con agentes, el modelo percibe las consecuencias de cada acción y realiza ajustes. Sin embargo, esta capacidad por sí sola no es suficiente. El modelo aún necesita un razonamiento sólido para implementar correctamente la lógica de negocio, y es ahí donde surgen las diferencias de rendimiento.

Metodología de referencia de LLM de agencia

Utilizamos Aider para todos los agentes y nos conectamos a los modelos mediante OpenRouter. Evaluamos su capacidad para trabajar de forma autónoma en 10 tareas de desarrollo de software (T-1 a T-10), desde sistemas de reservas sencillos hasta paneles interactivos complejos. Estas tareas requieren que los agentes gestionen proyectos con múltiples archivos y entreguen productos funcionales.

Ejecución y orquestación

Cada agente y tarea se inicia en un entorno limpio. Las instrucciones se proporcionan en un archivo TASK.md, y utilizamos un sistema de monitorización de latidos cada 20 minutos para los scripts de inicio. Durante esta fase, registramos los códigos de salida, el tiempo de ejecución y si se crearon los archivos de backend y frontend. También monitorizamos el uso de tokens en tiempo real en las categorías de entrada, salida y caché.

Validación del backend : Implementamos los proyectos generados en entornos aislados para probarlos con un contrato YAML canónico. La validación abarca escenarios de funcionamiento correcto, manejo de errores (400/403/409) y consistencia de datos.

Probamos los resultados en dos modos:

El modo Adaptive valida la funcionalidad incluso con nombres de ruta diferentes, mientras que el modo Strict requiere una adhesión exacta al contrato.

La puntuación general del backend se calcula como: backend_overall = (ready_tasks / total_tasks) × Average(Adaptive + Strict success rates)

Pruebas de interfaz de usuario y escenarios de usuario

Utilizamos la automatización del navegador para simular flujos de usuario reales, incluyendo la verificación previa, la renderización y la autenticación. Verificamos pasos funcionales como el envío de credenciales de inicio de sesión y el comportamiento posterior al inicio de sesión para garantizar que la aplicación funcione sin fallos.

El rendimiento de la interfaz de usuario se mide mediante la tasa de éxito de los pasos: tasa_de_éxito_de_pasos = aprobados / (aprobados + fallidos + bloqueados)

Cálculo de tokens

El recuento de tokens se extrae de la respuesta de la API de LLM. Restamos los tokens de entrada almacenados en caché del total de tokens de entrada para obtener la entrada efectiva, que refleja únicamente los tokens procesados recientemente. Los tokens de salida nunca se almacenan en caché, por lo que permanecen sin cambios.

Agregación final

La puntuación final de referencia se calcula combinando los resultados de las fases anteriores: Puntuación final = (0,7 × backend_general) + (0,3 × ui_general) Asignamos un peso mayor al backend porque los fallos lógicos a nivel de API a menudo invalidan cualquier éxito en el frontend.

Ejemplo de tarea

Tarea 6: Sistema de gestión de incidencias del servicio de asistencia técnica

La tarea 6 se centra en el desarrollo de un ecosistema complejo de atención al cliente. El objetivo principal es crear una plataforma que facilite la comunicación entre clientes y agentes de soporte, aplicando rigurosamente las reglas de negocio y los límites de seguridad. Esta tarea evalúa la capacidad de un agente para gestionar máquinas de estados multiusuario, aislamiento de datos y comunicación multihilo en un entorno full-stack.

La tarea requería la creación de un sistema de mesa de ayuda con las siguientes características:

Permisos diferenciados para Clientes (emisión/respuesta) y Agentes (gestión/resolución).
Un flujo de trabajo de estado rígido que impide las transiciones ilegales y aplica acciones específicas para cada rol.
Aislamiento avanzado de datos donde las solicitudes de recursos no autorizadas devuelven un error 404 en lugar de un error 403 para proteger la integridad del sistema.
Un sistema de respuesta cronológica para una interacción fluida entre agente y cliente.
Un backend FastAPI combinado con un frontend responsivo basado en Vite (React/Vue/Svelte).
Configuración reproducible mediante comandos de shell específicos para la activación inmediata del sistema.

Puedes consultar la documentación de la Tarea 6 en GitHub .

Berk Kalelioğlu

Investigador de IA

Síguenos Ver perfil completo

Revisado técnicamente por

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo