Contáctanos
No se encontraron resultados.

Comparativa de plataformas de agentes de IA: Agentes gestionados por Claude frente a Vertex Agent Engine (Google)

Şevval Alper
Şevval Alper
actualizado el May 5, 2026
Vea nuestra normas éticas

Evaluamos cuatro plataformas de agentes de IA en tres dimensiones: finalización de tareas (10 tareas de codificación × 3 ejecuciones), capacidades específicas del arnés (dirección, reconexión, recuperación de conversaciones largas, manejo de archivos grandes) y costo.

Resultados de la evaluación comparativa de plataformas de agentes de IA

Plataforma
Modelo
Tasa de aprobación
Tiempo en la pared
Costo
Simbólico
Agentes gestionados por Claude
Claude Sonnet 4.6
30/30 (100%)
1.172 s
$2.50
93k
Motor de agentes de IA de Vertex
Gemini 2.5 Pro
30/30 (100%)
1.447 segundos
$1.45
159k
OpenAI Respuestas + CI
GPT-5.4
27/30 (90%)
522
$1.54
113k
Control (autoalojado)
Claude Sonnet 4.6
30/30 (100%)
794s
$1.96
464k

Tanto Claude Managed Agents como Vertex AI Agent Engine obtienen una tasa de éxito del 100 % en el conjunto de tareas, con Vertex como ganador en cuanto a coste (1,45 $ frente a 2,50 $). Para las funciones específicas de la plataforma, disponibles únicamente en plataformas gestionadas, como la gestión de tráfico en tiempo real, la desconexión/reconexión y la compactación de conversaciones largas, Claude Managed Agents es la más capaz, pero Vertex Agent Engine la iguala en las pruebas portátiles (compactación y gestión de archivos grandes).

Principales conclusiones del estudio comparativo de la tarea

  1. Claude MA y Vertex AE empataron en tasa de aprobación con 30/30 (100%). Ambos manejan todos los tipos de tareas, incluidas las tareas de red (06, 10) que activaron OpenAI.
  2. Los fallos de OpenAI se deben a su política de entorno aislado. Las tareas 06 (API REST) y 10 (descargador concurrente) requieren HTTP saliente. El entorno aislado del intérprete de código restringe esto, y ambas fallaron 2/3 y 1/3, respectivamente. Observamos que GPT-5.4 puede escribir el código, pero el entorno aislado no lo ejecuta de forma fiable.
  3. Vertex AE es la opción más económica, con un precio total de 1,45 dólares. Claude MA es la más cara, con un precio de 2,50 dólares. Esto supone un coste un 72 % superior al de Vertex en el mismo conjunto de tareas con la misma tasa de éxito.
  4. Vertex AE es el más lento. La orquestación de ADK gestionada añade sobrecarga.

Capacidades específicas del arnés

Se comparan dos plataformas directamente en cuanto a características que solo existen gracias a un sistema de gestión de permisos.

Consulte la metodología de evaluación comparativa a continuación.

Plataformas de agentes de IA

Agentes gestionados por Claude

Claude Managed Agents de Anthropic proporciona un entorno de ejecución de agentes alojado que combina sesiones con estado, ejecución de herramientas integrada, transmisión basada en eventos y compactación automática para cargas de trabajo autónomas de larga duración. La plataforma se distingue por primitivas únicas no disponibles en ofertas similares, como la inyección de eventos de usuario en medio de la transmisión para la gestión en curso, transmisiones SSE reanudables para la desconexión/reconexión e integración nativa con el servidor MCP. Todo ello se ofrece como un servicio totalmente gestionado, sin necesidad de que los desarrolladores aprovisionen infraestructura. 1

El precio es de 0,08 dólares por hora de sesión, además del coste estándar de los tokens de la API de Claude.

Ventajas:

  • Las sesiones con estado y la inyección de eventos a mitad de la transmisión permiten que los nuevos mensajes de usuario guíen a los agentes durante la ejecución en curso.
  • La función de desconexión y reconexión se admite mediante flujos SSE persistentes; las sesiones continúan ejecutándose en el servidor a pesar de las interrupciones de la red y los clientes pueden reanudar el consumo de eventos al restablecerse la conexión.
  • El conjunto de herramientas integrado del agente incluye bash, operaciones de archivos (lectura, escritura, edición, glob, grep) y herramientas web (web_fetch, web_search) accesibles mediante un único parámetro de configuración, lo que elimina la necesidad de configurar herramientas personalizadas.
  • Integración nativa del servidor MCP (Protocolo de Contexto de Modelo) para extensiones de herramientas personalizadas sin modificar el conjunto de herramientas integrado del agente.

Desventajas:

  • Actualmente en fase beta; todas las solicitudes requieren el encabezado beta managed-agents-2026-04-01, y el comportamiento puede mejorar entre versiones.
  • Solo compatible con Claude, sin flexibilidad de modelo en comparación con plataformas como AWS Bedrock AgentCore o Northflank, que admiten múltiples proveedores de modelos.

Salesforce Fuerza de Agentes

Salesforce Agentforce se diferencia a través del acceso nativo a datos CRM mediante el motor de razonamiento Atlas y agentes preconfigurados para flujos de trabajo de ventas, servicio, marketing y comercio. 2

La plataforma se integra con MuleSoft Agent Fabric para la orquestación entre sistemas y ofrece Agentforce 360 para las asociaciones con AWS.

Agentforce presta servicios a organizaciones que requieren flujos de trabajo autónomos orientados al cliente integrados directamente en su infraestructura de nube existente Salesforce.

Ventajas:

– El acceso nativo a los datos de CRM a través de Atlas Reasoning Engine permite acciones de agente que tienen en cuenta el contexto.

– Los agentes preconfigurados disponibles para ventas, servicio, marketing y comercio reducen el tiempo de implementación.

– FedRAMP autorizó la nube gubernamental Salesforce para industrias reguladas.

– El nivel gratuito Foundations incluye 200.000 créditos Flex para las pruebas iniciales.

Desventajas:

– Software como servicio (SaaS) exclusivamente en la nube, sin opción de implementación local disponible.

– Independencia limitada del modelo; por defecto, utiliza modelos gestionados por Salesforce con soporte restringido para proveedores externos.

– Requiere inversión en el ecosistema existente Salesforce para obtener todo su valor.

Microsoft Estudio Copiloto

Ventajas:

– Se incluyen Microsoft 365 licencias de Copilot para uso interno de agentes sin cargo adicional. 3

– Agentes de voz en tiempo real y soporte telefónico IVR para escenarios de atención al cliente.

– FedRAMP autorizado a través del Gobierno Azure para despliegues en el sector público.

– Admite los modelos OpenAI, Anthropic y marcos de código abierto dentro de un único entorno de compilación.

Desventajas:

– Funcionalidad limitada fuera del ecosistema Microsoft; requiere Azure o un compromiso con M365 para obtener todas las capacidades.

– No existe una versión gratuita permanente independiente; se requiere una suscripción existente a M365 Copilot para su uso.

– El modelo de IA de voz en tiempo real estará alojado únicamente en Norteamérica a partir de abril de 2026.

Copilot Studio es más rentable para las organizaciones que ya utilizan Microsoft 365, Teams y Azure, ya que ofrece automatización orientada a los empleados que hereda las configuraciones existentes de identidad, seguridad y cumplimiento.

Google Generador de agentes de Agentspace y Vertex AI

La oferta dual de Google combina Agentspace para la gestión del conocimiento empresarial y Vertex AI Agent Builder para el desarrollo de bajo código, diferenciándose por la integración de modelos de Gemini, el contexto entre productos de Google Workspace y la compatibilidad con entrada multimodal para texto, voz e imágenes. 4

La plataforma ofrece 300 dólares en créditos gratuitos para nuevos usuarios y precios de pago por uso para Vertex AI Agent Engine.

Ventajas:

– Un crédito gratuito de 300 dólares para nuevos usuarios permite realizar prototipos a gran escala sin inversión inicial.

– Implementación local compatible a través de Google Nube distribuida para entornos regulados.

– FedRAMP autorizado a través de la nube Google.

– Google ADK (Agent Development Kit) admite el desarrollo basado en código en Python, TypeScript, Go y Java.

Desventajas:

– Gemini-el diseño primario limita la flexibilidad del modelo en comparación con las plataformas totalmente agnósticas.

Agentes y AgentCore de AWS Bedrock

AWS Bedrock Agents y la plataforma más reciente AgentCore proporcionan gestión de infraestructura sin servidor para agentes a escala empresarial, presentadas en re:Invent 2025. 5

Entre los elementos diferenciadores se incluyen precios de pago por uso a 0,0895 dólares por hora de vCPU para el entorno de ejecución de AgentCore, opciones de rendimiento aprovisionado y Mem0 como proveedor exclusivo de memoria.

Ventajas:

– Autorización FedRAMP High en AWS GovCloud para cargas de trabajo sensibles.

– La transmisión bidireccional admite agentes de voz con habla simultánea del usuario y del agente.

– Nivel gratuito disponible para nuevos clientes de AWS para experimentación inicial.

– Acceso a modelos de Anthropic, Amazon, Meta, Mistral y AI21 a través del catálogo de Bedrock.

Desventajas:

– No existen plantillas de agente predefinidas específicas para cada dominio; es necesario crearlas desde cero utilizando el SDK.

– No ofrece opción de implementación local; se ejecuta exclusivamente en la infraestructura de AWS.

– La creación de agentes requiere una programación de API/SDK significativamente mayor que la de los constructores visuales.

AWS Bedrock ofrece soluciones a empresas que requieren una infraestructura de agentes escalable y sin servidor, con una profunda integración en el ecosistema de AWS, y proporciona eficiencia de costes mediante una facturación granular basada en el uso.

IBM watsonx Orquestar

IBM watsonx Orchestrate se dirige a empresas reguladas con más de 150 agentes preconfigurados específicos de dominio para RRHH, adquisiciones, ventas y finanzas, junto con Skills Studio para crear habilidades personalizadas. 6

La plataforma ofrece flexibilidad de implementación híbrida en la nube y en las instalaciones a través de IBM Cloud Pak para Data and Software Hub.

Ventajas:

– La instalación local es compatible a través de Cloud Pak for Data (IBM) para los requisitos de residencia de datos.

– Más de 150 agentes y herramientas preconfiguradas de IBM y socios, con más de 80 integraciones de aplicaciones empresariales, incluidas SAP, Salesforce y Workday.

– La autorización FedRAMP se amplió en abril de 2026 para despliegues federales.

– Auténtico agnosticismo de modelos que admite múltiples proveedores de LLM sin dependencia de un único proveedor.

Desventajas:

– No existe una versión gratuita permanente; se requiere una suscripción de pago a Essentials o Standard para su uso continuado.

– Las funciones de voz y telefonía están disponibles en watsonx Orchestrate a través de la configuración de voz nativa en el ADK y las integraciones con proveedores como Deepgram y ElevenLabs, aunque la telefonía avanzada puede requerir configuración adicional.

– Estructura de precios compleja que requiere presupuestos personalizados para las funciones empresariales.

Agentes de IA de ServiceNow

Los agentes de IA de ServiceNow se integran directamente en la plataforma Now, diferenciándose por su integración nativa con los flujos de trabajo de TI, RR. HH. y atención al cliente, en lugar de funcionar como una plataforma independiente.

La plataforma incluye una torre de control de IA para la gobernanza, flujos de trabajo basados en agentes predefinidos para ITSM y HRSD, y un motor de contexto que conecta el historial de políticas con las acciones de los agentes. 7

Ventajas:

– Hereda la gobernanza, las reglas de SLA y los flujos de trabajo de aprobación existentes de la plataforma Now.

– Los agentes de voz con IA son compatibles con Genesys Cloud, Twilio y 3CLogic como proveedores de CCaaS.

– Los agentes web de IA aprenden de demostraciones humanas para automatizar tareas basadas en el navegador.

Desventajas:

– No existe un nivel gratuito permanente; los nuevos clientes solo reciben 100 llamadas gratuitas al Agente de Creación.

– La autorización FedRAMP High para AI Agents, AI Agent Orchestrator y AI Agent Studio se confirmó para los clientes de Government Community Cloud (GCC) a partir de marzo de 2026.

– Valor limitado para las organizaciones que no utilizan ServiceNow para la gestión de servicios de TI o de recursos humanos.

Kore.ai

Kore.ai se centra en la IA conversacional empresarial, con más de 300 agentes preconfigurados, más de 250 integraciones empresariales y una arquitectura independiente del modelo que admite implementaciones en la nube y en las instalaciones.

La plataforma presta servicios a seis sectores verticales, entre los que se incluyen la banca, la sanidad y el comercio minorista. 8

Ventajas:

– Infraestructura de voz nativa que ofrece interacciones de voz globales de baja latencia.

– Implementación flexible que incluye opciones locales y en la nube privada.

– Apoyo a múltiples proveedores de LLM.

Desventajas:

– No ofrece una versión gratuita permanente; solo ofrece 500 dólares en créditos únicos para las pruebas iniciales.

LangGraph

Ventajas:

– La licencia de código abierto del MIT permite el uso comercial y la modificación sin restricciones.

– El control determinista del flujo de trabajo mediante arquitectura gráfica garantiza rutas de ejecución reproducibles.

– La integración de observabilidad de LangSmith proporciona monitorización y trazabilidad de la producción.

Desventajas:

– No dispone de un constructor visual sin código; requiere código Python o JavaScript para definir los gráficos de agentes.

– No cuenta con integración nativa de voz ni telefonía; requiere programación personalizada para los canales de voz.

– Curva de aprendizaje pronunciada para equipos que no estén familiarizados con los paradigmas de programación basados en grafos.

LangGraph es ideal para equipos de ingeniería que desarrollan agentes de nivel de producción que requieren lógica condicional compleja, recuperación de errores y auditabilidad de los pasos de ejecución individuales.

CrewAI

Ventajas:

– La abstracción basada en roles refleja las estructuras de los equipos humanos para una coordinación intuitiva de los agentes.

– Núcleo de código abierto gratuito sin costes de licencia para implementaciones autoalojadas.

– El editor visual y el copiloto de IA están disponibles en la versión gratuita para los miembros del equipo que no sean técnicos.

Desventajas:

– No existe un mercado de plantillas oficial mantenido por el proveedor; depende de las contribuciones de la comunidad.

– El enfoque Code-first requiere conocimientos de Python para la creación de agentes.

– Los precios de los planes empresariales solo están disponibles bajo petición, lo que puede generar incertidumbre presupuestaria para los equipos pequeños en comparación con otras opciones de código abierto.

CrewAI permite la creación rápida de prototipos de sistemas de agentes basados en roles, especialmente adecuados para el procesamiento de documentos, flujos de trabajo de investigación y tareas de generación de contenido en varios pasos.

n8n

n8n opera bajo una licencia de código justo (Licencia de Uso Sostenible), ofreciendo más de 400 conectores de aplicaciones nativas con nodos de IA visual e infraestructura autoalojada.

Ventajas:

– La edición comunitaria autogestionada incluye SSO SAML, LDAP, RBAC y almacenes de secretos cifrados sin coste alguno.

– Compatibilidad nativa con LangChain y LlamaIndex en flujos de trabajo visuales.

– El editor visual de flujos de trabajo permite la automatización compleja sin necesidad de programar.

Desventajas:

– La licencia FairCode requiere una licencia de pago para servicios de alojamiento web comercial o productos SaaS.

– No dispone de nodo nativo de voz o telefonía; requiere la integración de una API externa para la función de voz.

– No se ha confirmado la autorización FedRAMP.

n8n combina la automatización de flujos de trabajo tradicionales con agentes de IA, prestando servicio a analistas de negocio técnicos y equipos de DevOps que requieren una implementación autohospedada para la residencia de datos, manteniendo al mismo tiempo capacidades de creación visual.

Dify

Dify es una plataforma LLMOps de código abierto.

La plataforma admite flujos de trabajo RAG, herramientas de ingeniería rápida y una arquitectura independiente del modelo.

Ventajas:

– La edición comunitaria autohospedada es gratuita de forma permanente y ofrece control total de los datos mediante la implementación de Docker.

– El creador de flujos de trabajo visuales permite la creación de agentes complejos sin necesidad de programar.

– Admite cientos de modelos LLM, tanto propietarios como de código abierto, de decenas de proveedores de inferencia.

Desventajas:

– La compatibilidad con voz requiere complementos del mercado como Agora o Tencent RTC; no hay telefonía PSTN nativa.

– Sin autorización FedRAMP.

– El plan Cloud Team, con un precio de 159 dólares al mes, puede resultar costoso para equipos pequeños.

Dify es ideal para equipos de producto y operaciones que requieren agentes con reconocimiento de documentos y sólidas capacidades RAG, especialmente aquellos que priorizan el control de datos mediante el autoalojamiento.

Flujo de voz

Voiceflow se distingue por ser la única plataforma importante que considera el diseño de agentes centrados en la voz como un elemento fundamental en lugar de un complemento, y ofrece un lienzo de diseño específicamente creado tanto para agentes de voz como de chat con una latencia inferior a 500 ms.

La plataforma está especializada en la automatización de la gestión de incidencias de atención al cliente y en sistemas IVR.

Ventajas:

– Canales de voz y telefonía nativos con soporte para IVR y latencia inferior a 500 ms.

– Capacidades de extracción de entidades para consultas a la base de conocimiento.

– El plan gratuito incluye 2 agentes y 100 tokens de IA mensuales sin fecha de caducidad.

– Lienzo visual diseñado específicamente para flujos de trabajo de IA conversacional.

Desventajas:

– La implementación local solo está disponible mediante acuerdos empresariales personalizados.

Voiceflow ayuda a los equipos de atención al cliente y soporte a crear agentes conversacionales orientados al cliente que requieren implementación en canales de voz, chat y mensajería desde una única interfaz de diseño.

IA de relevancia

Relevance AI ofrece la flexibilidad de "traiga su propio LLM" (BYOLLM) con un modelo de facturación basado en acciones, lo que permite a los equipos no técnicos crear equipos multiagente mediante descripciones en lenguaje natural.

Ventajas:

– El plan gratuito incluye 100 créditos al día sin fecha de caducidad.

– Más de 2000 integraciones, incluyendo HubSpot, Salesforce, Slack y Gmail.

– Auténtico agnosticismo de modelos que admite múltiples proveedores de LLM.

Desventajas:

– No ofrece opciones de autoalojamiento ni de implementación local; solo SaaS en la nube.

– No existe autorización FedRAMP para las industrias reguladas.

– Las funciones de voz requieren la integración con Vapi o Twilio en lugar de la telefonía nativa.

Lindy AI

Lindy AI ofrece diversas integraciones a través de Pipedream, plantillas de agente predefinidas para la clasificación y programación de correos electrónicos, y funcionalidades de agente para llamadas telefónicas mediante la función de voz Gaia. 9

La plataforma utiliza un modelo de ejecución basado en créditos, con una opción gratuita disponible.

Ventajas:

– El plan gratuito incluye 400 créditos al mes y una base de conocimientos de 1 millón de caracteres.

– Auténtico agnosticismo de modelos y amplia biblioteca de integración.

Desventajas:

– La implementación local solo está disponible mediante acuerdos empresariales personalizados para sectores regulados.

Ideal para usuarios empresariales individuales, fundadores y equipos de operaciones que requieren una automatización rápida de los flujos de trabajo de correo electrónico, calendario y CRM sin necesidad de recursos de ingeniería.

Metodología

¿Qué ventajas ofrece realmente una plataforma de agentes de IA gestionados frente a sus competidores y a la alternativa de crear un entorno de agente propio? El sector de las herramientas de IA presenta un punto ciego persistente en este aspecto. Los productos de "agentes gestionados" se comparan habitualmente utilizando las mismas métricas de finalización de tareas que se emplean para los modelos de lenguaje sin procesar, lo que confunde dos aspectos muy distintos: la capacidad del modelo para generar código correcto y la capacidad del entorno de ejecución para ejecutar ese código de forma fiable en un entorno gestionado con estado, herramientas y aislamiento. Diseñamos esta prueba comparativa para diferenciar estas dos señales.

¿Qué es una plataforma de agentes gestionados?

Estamos evaluando una categoría específica: entornos de ejecución alojados que integran la inferencia LLM, la orquestación de agentes y la ejecución de código en entornos aislados en un único servicio gestionado. Esto se diferencia de (1) las API de inferencia LLM sin procesar, (2) los marcos de orquestación de agentes que usted mismo aloja y (3) los entornos de computación aislados que combina con su propio modelo. Las cuatro plataformas que estamos probando presentan una configuración ligeramente diferente de este conjunto:

  • Claude Managed Agents (Anthropic): Sistema de gestión integral. Las definiciones de agentes, las sesiones, la transmisión basada en eventos, la compactación y la ejecución de herramientas se realizan en el servidor. Uno de los dos principales competidores en esta categoría.
  • Motor de agentes de IA de Vertex (Google): Entorno de ejecución totalmente gestionado. Implementa un agente definido por ADK en un entorno de ejecución gestionado; la implementación aloja el estado del agente y la ejecución de la herramienta. Se accede a través del SDK vertexai.agent_engines.
  • OpenAI API de respuestas con intérprete de código : categoría adyacente. API de inferencia con una herramienta de entorno aislado de Python integrada, pero sin estado de sesión persistente de múltiples turnos ni control de flujo intermedio.
  • Control: API de mensajes de Claude con un bucle de herramientas local : Incluido como referencia. Mismo modelo que Claude MA (claude-sonnet-4-6), pero implementamos el bucle del agente localmente en ~150 líneas de Python. Las herramientas (bash, write, read, edit) se ejecutan en un directorio temporal por tarea en la máquina de referencia. Esto aísla lo que el arnés administrado aporta más allá de "modelo más bucle de herramientas". Ejecutar la API de mensajes con un bucle de agente local produce una comparación donde el modelo es idéntico pero el arnés está ausente. Cualquier diferencia entre Claude MA y el control es atribuible completamente al arnés, no a la capacidad del modelo.

El conjunto de tareas

Diez tareas de codificación con tres niveles de dificultad. Cada tarea incluye una instrucción fija que especifica el resultado esperado y un script de verificación con criterios deterministas de aprobación/rechazo. Cada tarea se ejecuta tres veces por plataforma para medir la variabilidad.

Pruebas de resistencia específicas para arneses

El conjunto de tareas mide la corrección de extremo a extremo. No puede medir capacidades que existen únicamente gracias a un sistema gestionado: persistencia de sesión con estado, enrutamiento intermedio, reanudación de la conexión, compactación automática del contexto y gestión de artefactos del sistema de archivos. Para estas capacidades, diseñamos dos conjuntos de pruebas adicionales.

Suite A: Dirección e Interrupción

Tres pruebas que ejercitan funciones básicas específicas del arnés.

A1 inicia un agente en una tarea de codificación, luego inyecta un nuevo evento de usuario a través de POST /events después de 10 segundos cambiando los requisitos, y verifica inspeccionando el sistema de archivos del contenedor que el artefacto final refleje el nuevo requisito en lugar del original.

A2 abre una transmisión SSE, interrumpe la conexión después de cuatro eventos, se reconecta y verifica que la sesión aún alcance el estado status_idle.

A3 envía una indicación deliberadamente contradictoria y mide si el agente pide una aclaración o elige una interpretación en silencio.

Solo A3 es portable entre plataformas. La inyección de eventos en tiempo real de A1 no tiene un equivalente directo en OpenAI Responses (solicitud/respuesta única) ni en Vertex Agent Engine (el modelo de sesión carece de inyección de mensajes en tránsito). De igual manera, la desconexión/reconexión de A2 no tiene equivalente en ningún otro lugar. Estas son ventajas estructurales genuinas del modelo de sesión basado en eventos de Claude MA, que no se pueden comparar con las alternativas. Ejecutamos A1 y A2 solo en Claude MA y A3 tanto en Claude MA como en Vertex Agent Engine.

Suite B: Compactación y contexto

Dos pruebas que ponen a prueba las funcionalidades del contexto gestionado.

B1 inserta una cadena de prueba única (un token derivado de UUID) en el primer turno de una sesión, ejecuta 23 turnos de relleno con pequeñas tareas de codificación no relacionadas, cada una de las cuales produce llamadas a herramientas y resultados de herramientas, y luego le pide al agente que recupere la cadena de prueba de la memoria en el turno 25 sin permitir la búsqueda de archivos. La recuperación exitosa después de 23 turnos de relleno demuestra que el sistema conserva el contexto inicial mediante la política de compactación que utiliza.

B2 le pide al agente que genere un archivo de texto de 50 000 líneas con un marcador oculto y que luego responda una pregunta que requiere encontrar dicho marcador. Esto pone a prueba si el agente puede razonar sobre artefactos que superan su ventana de contexto sin intentar leer el archivo completo.

Tanto B1 como B2 se ejecutaron en Claude MA y Vertex Agent Engine, utilizando las mismas indicaciones y protocolos.

LLM como juez para la evaluación del comportamiento

Para la Suite A3 (contradicciones), aprobar/reprobar no es una verificación determinista; tratamos si el agente solicitó una aclaración como un juicio cualitativo sobre el comportamiento conversacional. Utilizamos un diseño LLM como juez con tres controles metodológicos:

  1. El modelo del juez es diferente del modelo probado: Claude Opus 4.6 es el juez para evitar el sesgo de autoevaluación.
  2. Rúbrica estructurada con 4 dimensiones booleanas: El juez devuelve una puntuación JSON: contradicción reconocida, solicitud de aclaración, procedimiento con suposición, suposición documentada y un razonamiento de un párrafo.
  3. Verificación de consistencia en 3 ejecuciones: Cada juicio se ejecuta 3 veces. Se informa el consenso mayoritario y la tasa de acuerdo por dimensión. Si el acuerdo en alguna dimensión cae por debajo del 67 %, el juez se marca como inconsistente en esa dimensión y el resultado se considera de baja confianza.

Se ejecuta una heurística de palabras clave en paralelo como comprobación de coherencia. Las divergencias entre la heurística y el juez se registran para su revisión manual.

Tanteo

Para cada tarea ejecutada en cada plataforma:

  • Aprobado/suspenso
  • Tiempo transcurrido: segundos desde el envío del mensaje hasta la recepción del evento de terminal (estado inactivo para Claude MA, finalización de tarea para Vertex AE, finalización de respuesta para OpenAI, salida del bucle de herramientas para control).
  • Recuento de llamadas a herramientas : Invocaciones distintas de herramientas. Útil como huella digital del comportamiento; menos útil como métrica de eficiencia debido a que la granularidad de las herramientas difiere significativamente entre plataformas.
  • Uso de tokens : Analizado a partir de eventos model_request_end en Claude MA, usage_metadata en Vertex AE, response.usage en OpenAI, acumulación por turno en el bucle de mensajes del control. Desglosado en entrada, salida, lectura de caché y creación de caché.
  • Costo en USD : Calculado a partir del uso del token en comparación con los precios publicados: claude-sonnet-4-6 a $3/$15/$0.30/$3.75 por millón; gpt-5.4 a $2.50/$15/$0.25; gemini-2.5-pro a $1.25/$10/$0.13. Se agregan tarifas de infraestructura específicas de la plataforma: $0.08/hora de sesión de Claude MA prorrateado por el tiempo real, $0.03/contenedor de OpenAI cuando se produjo alguna llamada de herramienta, tarifa de alojamiento de Vertex AE de aproximadamente $0.35/hora prorrateada por el tiempo de actividad de la implementación.

Los resultados de las suites A y B también capturan métricas a nivel de sesión (turnos, recuerdo del canario, consenso y acuerdo de los jueces).

Consideraciones de equidad y limitaciones conocidas

Varias asimetrías en la configuración afectan la forma en que deben leerse los números; es necesario señalarlas explícitamente:

El control ejecuta la herramienta en la máquina de referencia sin comunicación con la nube. Esto le otorga una ventaja injusta en el tiempo de ejecución, que no refleja tanto la velocidad del agente como la latencia de la red. Cuando observamos que el control completa las tareas un 25 % más rápido que Claude MA en el mismo modelo, aproximadamente la mitad de esa diferencia se debe a la asimetría en el tiempo de comunicación.

El intérprete de código OpenAI opera en un entorno aislado con restricciones de red. Las tareas 06 (API REST) y 10 (descargador concurrente) requieren HTTP saliente, que CI permite solo de forma intermitente. Los fallos de OpenAI en esas tareas son fallos de la política del entorno aislado, no fallos de la capacidad del modelo. GPT-5.4 puede escribir código HTTP concurrente correcto; la plataforma no siempre puede ejecutarlo. Los lectores no deben interpretar «OpenAI falla en tareas de red» como una afirmación sobre el modelo.

La versión Gemini 3.1-pro-preview está restringida a la lista de permisos de vista previa a nivel de proyecto. Intentamos evaluar el rendimiento de este modelo tanto en la API directa de Vertex como en el motor de agentes de Vertex. Las llamadas a la API directa devolvieron un error 404; las implementaciones del motor de agentes con el modelo se realizaron correctamente en el momento de la implementación, pero las llamadas de inferencia no devolvieron ningún evento ni error. Por lo tanto, recurrimos a la versión gemini-2.5-pro.

Un conjunto de tareas de refactorización de varias horas, la depuración en bases de código desconocidas o flujos de trabajo autónomos de larga duración someterían a las herramientas a una presión diferente y probablemente diferenciarían más claramente las opciones de nivel superior.

No medimos la latencia de aprovisionamiento, el comportamiento de arranque en frío, el rendimiento de sesiones concurrentes ni los límites de velocidad. Estos aspectos son importantes para cargas de trabajo de producción de alto rendimiento, pero quedaron fuera del alcance de esta ronda.

Características comunes a todas las plataformas de agentes de IA

Cada plataforma en esta comparativa ofrece capacidades básicas que definen la categoría de agente de IA. Estas características comunes establecen el producto mínimo viable para la automatización con agentes, mientras que las características diferenciadoras determinan la selección de la plataforma.

Orquestación multiagente: Todas las plataformas admiten la orquestación multiagente, aunque la implementación varía (consulte las secciones de cada plataforma más arriba).

Uso de herramientas e integraciones externas: Los agentes de todas las plataformas pueden llamar a API externas, bases de datos y aplicaciones empresariales. El número de conectores predefinidos oscila entre aproximadamente 50 (Dify) y más de 2000 (Relevance AI), y todas las plataformas admiten definiciones de API personalizadas.

Memoria persistente y gestión del contexto: La retención de información dentro de las sesiones (memoria a corto plazo) y entre sesiones (memoria a largo plazo) es una capacidad estándar que se logra mediante bases de datos vectoriales, objetos de sesión o ventanas de contexto configurables, según la plataforma.

Supervisión y observabilidad: Cada plataforma expone registros, trazas o análisis para inspeccionar la ejecución del agente, realizar un seguimiento del uso de tokens y la latencia, e identificar fallos.

Supervisión humana y controles de aprobación: Todas las plataformas cuentan con mecanismos para la revisión, aprobación o anulación humana de las acciones de los agentes. Algunos ejemplos son las puertas de aprobación por herramienta de n8n, las primitivas de interrupción y reanudación de LangGraph, los controles de políticas de Bedrock AgentCore, ServiceNow AI Control Tower y la escalada automática de Lindy.

Generación aumentada de bases de conocimiento y recuperación (RAG): Dotar a los agentes de conocimiento personalizado mediante la indexación y recuperación de documentos es una capacidad básica en esta categoría. Entre las implementaciones se incluyen la canalización RAG de Dify, la base de conocimiento de Voiceflow, las bases de conocimiento de Bedrock, el motor RAG de Vertex AI y la IA de búsqueda de Kore.ai.

Interfaz de creación de agentes sin código o con poco código: Todas las plataformas ofrecen interfaces gráficas o de lenguaje natural para la creación de agentes. Las plataformas empresariales ofrecen estudios sin código (Agentforce Builder, Copilot Studio, watsonx Orchestrate), mientras que los marcos de desarrollo proporcionan herramientas visuales complementarias (LangGraph Studio, AutoGen Studio, CrewAI Studio).

Şevval Alper
Şevval Alper
Investigador de IA
Şevval es analista del sector en AIMultiple, especializado en herramientas de codificación de IA, agentes de IA y tecnologías cuánticas.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450