Evaluación comparativa de marcos de IA agencial en flujos de trabajo analíticos
Los marcos de trabajo para la creación de flujos de trabajo basados en agentes difieren sustancialmente en la forma en que manejan las decisiones y los errores, pero su rendimiento con datos imperfectos del mundo real aún no se ha probado en gran medida.
Para evaluar su rendimiento en flujos de trabajo analíticos del mundo real, dedicamos 3 días a realizar pruebas comparativas de LangGraph, LangChain, CrewAI y OpenAI Swarm utilizando un conjunto de datos de comercio electrónico de 100 registros con inconsistencias de datos controladas, como identificadores faltantes, valores nulos y formatos de fecha inconsistentes.
Punto de referencia de análisis agenico
Cada marco de trabajo fue evaluado en cuanto a la precisión y eficiencia en la toma de decisiones , el rendimiento de la integración de herramientas y el rendimiento de la ejecución (tiempo y uso de tokens).
Precisión y eficiencia en la toma de decisiones
- La precisión en la toma de decisiones mide la eficacia con la que cada marco de trabajo resolvió los problemas relacionados con los datos, incluidos los valores nulos, las asignaciones predeterminadas, las asignaciones de campos y la recuperación ante fallos.
- La eficiencia de la decisión representa la proporción de problemas críticos resueltos en relación con el total de decisiones. Una puntuación del 100 % indica una resolución óptima en un solo paso, mientras que valores inferiores indican reintentos adicionales o ciclos de decisión redundantes que aumentan la carga computacional. Puede consultar la metodología de evaluación comparativa aquí .
Enjambre
Alta eficiencia, alta precisión (60%, 90%)
Swarm logró una alta precisión al tiempo que mantuvo una ejecución eficiente en todos los flujos de trabajo analíticos.
Las métricas de rendimiento mostraron un número de decisiones consistentemente bajo y un mínimo de reintentos. Este resultado refleja la arquitectura modular y específica para cada tarea de Swarm, en la que los agentes individuales gestionan funciones analíticas definidas, como el análisis de KPI o la investigación de la competencia.
Por lo tanto, Swarm combina una sólida coordinación con una distribución eficiente de tareas , lo que lo convierte en una opción idónea para entornos analíticos multiagente que requieren tanto velocidad como precisión.
LangGraph
Alta eficiencia, alta precisión (60%, 100%)
LangGraph logró una alta precisión y una ejecución eficiente, completando los flujos de trabajo analíticos con menos eventos de decisión.
Las métricas de las pruebas repetidas mostraron rutas de ejecución consistentemente directas y un mínimo de reintentos. Este patrón refleja la arquitectura basada en grafos de LangGraph, que predefine las dependencias de ejecución y reduce las operaciones redundantes.
LangGraph ofrece así un rendimiento preciso, consistente y eficiente , lo que lo convierte en una opción idónea para flujos de trabajo analíticos estructurados .
CrewAI
Baja eficiencia, alta precisión (21%, 87%)
CrewAI logró una alta precisión, pero requirió un número sustancialmente mayor de decisiones para completar cada flujo de trabajo.
Los datos registrados por DecisionTracker y AccuracyLatencyTracker mostraron que se produjeron múltiples eventos de decisión adicionales después de fallos en las herramientas.
Este patrón indica una fuerte tolerancia a fallos que garantizó resultados finales fiables, pero aumentó la carga computacional y el tiempo de ejecución.
Por lo tanto, CrewAI prioriza la exhaustividad y la fiabilidad de los resultados por encima de la eficiencia de la ejecución.
LangChain
Eficiencia media, precisión baja (42%, 78%)
LangChain demostró una eficiencia moderada, pero una precisión menor en comparación con otros marcos de trabajo.
Las métricas registradas mostraron iteraciones repetidas en la toma de decisiones tras fallos en las herramientas, ya que el sistema volvía a intentar operaciones idénticas en lugar de adaptarse a estrategias alternativas. Este patrón de ejecución secuencial limitó la eficacia de la recuperación y dio como resultado una finalización parcial de la tarea.
Por lo tanto, LangChain ofrece un rendimiento razonable pero una baja tolerancia a fallos , lo que lo hace más adecuado para flujos de trabajo analíticos más sencillos y de bajo riesgo .
Rendimiento de la integración de herramientas
Enjambre
(Tasa de éxito del 100 % en la coordinación de herramientas)
Swarm mantuvo una tasa de éxito del 100 % en sus herramientas gracias a su arquitectura de agentes especializada. Agentes distintos gestionaban tareas analíticas como el análisis de KPI, la comparación con la competencia y la conversión de divisas, lo que permitía una transferencia de tareas fluida y una utilización eficiente de las herramientas .
LangGraph
(Tasa de éxito del 100 % en la coordinación de herramientas)
LangGraph logró una tasa de éxito del 100 % en la ejecución de herramientas. Su orquestación basada en grafos mapeó eficazmente las dependencias y el orden de ejecución de las herramientas, evitando llamadas redundantes o conflictivas. El marco demostró una alta fiabilidad y una coordinación consistente en todos los módulos.
CrewAI
(Tasa de éxito de coordinación de herramientas del 37 %)
CrewAI mostró una baja tasa de ejecuciones exitosas de herramientas, particularmente en los módulos de KPI y validación. A pesar de esto, todas las tareas se completaron mediante ciclos adicionales de razonamiento y recuperación, lo que indica una fuerte tolerancia a fallos con una mayor sobrecarga computacional .
LangChain
(Tasa de éxito en la coordinación de herramientas: 51 %)
LangChain logró un éxito moderado en la ejecución de herramientas, pero carecía de recuperación adaptativa. Cuando las llamadas a las herramientas fallaban, repetía la misma secuencia de operaciones, lo que resultaba en un procesamiento redundante y resultados incompletos .
Token de tiempo de ejecución y finalización
Enjambre
El más rápido y eficiente
Swarm completó todos los flujos de trabajo en aproximadamente 20 segundos utilizando alrededor de 1000 tokens , el menor consumo entre todos los frameworks. Sus tiempos de finalización consistentes y el mínimo consumo de tokens indican una ejecución estable y eficiente en todas las ejecuciones .
LangGraph
Rendimiento equilibrado
Swarm completó todos los flujos de trabajo en aproximadamente 20 segundos utilizando alrededor de 1000 tokens , el menor consumo entre todos los frameworks. Sus tiempos de finalización consistentes y el mínimo consumo de tokens indican una ejecución estable y eficiente en todas las ejecuciones .
CrewAI
Requiere muchos recursos, pero es fiable.
CrewAI requirió aproximadamente 32 segundos y 4500 tokens por ejecución, el mayor consumo de recursos en la prueba comparativa. Los ciclos de razonamiento y validación extendidos dieron como resultado tiempos de ejecución más largos, pero una finalización de tareas consistente, lo que indica una alta fiabilidad con un mayor coste .
LangChain
Más lento y menos eficiente
LangChain completó las ejecuciones en aproximadamente 48 segundos , consumiendo alrededor de 2,1 K tokens . Los reintentos repetidos tras ejecuciones fallidas de la herramienta contribuyeron a tiempos de ejecución más largos y a una utilización ineficiente de los recursos .
Enfoques para el manejo de errores
Para evaluar la gestión de errores nativa, cada marco de trabajo se evaluó utilizando su propia lógica de procesamiento de datos en lugar de una canalización de preprocesamiento compartida. Esta comparación puso de manifiesto diferencias clave entre los marcos de trabajo que priorizan la integridad de los datos y aquellos que hacen hincapié en la exhaustividad del procesamiento .
LangGraph y Swarm priorizaron la precisión y la integridad de los datos mediante la validación y la exclusión, mientras que CrewAI y LangChain favorecieron la exhaustividad, ya sea conservando datos incompletos o imputando valores faltantes, lo que generó una mayor variabilidad en la precisión analítica.
Aquí tienes un desglose detallado:
Enjambre
Swarm aplicó una lógica de omisión precisa, excluyendo los registros no válidos o incompletos y manteniendo la continuidad general del flujo de trabajo. Tras resolver problemas menores de compatibilidad de la API, el sistema procesó de forma consistente los registros verificados sin afectar el flujo de ejecución.
LangGraph
LangGraph aplicó una validación de datos estricta, omitiendo las entradas con valores nulos o incompletos. Este enfoque conservador garantizó la precisión analítica al procesar solo los registros que superaron las comprobaciones de integridad, manteniendo así resultados consistentes en todas las ejecuciones de prueba.
CrewAI
CrewAI operaba bajo el principio de "cero pérdida de datos", conservando todos los registros, incluso aquellos con campos faltantes o inválidos. Si bien este enfoque preservaba la integridad del conjunto de datos, reducía la precisión de los cálculos debido a la inclusión de datos no verificados.
LangChain
LangChain utilizó técnicas de imputación de datos para inferir los valores faltantes a partir de los campos existentes. Por ejemplo, cuando Final_Price era nulo, calculó los valores de reemplazo a partir de los campos Price y Discount . Si bien este método es adaptativo, introdujo desviaciones respecto a los resultados esperados, lo que afectó la precisión de los resultados.
¿Cuándo utilizar cada framework?
- CrewAI: Para cuando es probable que surjan problemas inesperados y se requiere la resolución autónoma de problemas.
- LangGraph: Para un razonamiento y una estructura equilibrados. Ideal para casos de uso de propósito general.
- Swarm: En entornos de producción donde la velocidad y la fiabilidad son fundamentales. La opción más rápida y consistente.
- LangChain: Ideal para cuando se requiere trazabilidad y transparencia detalladas. Registra cada paso, pero es más lento que otras alternativas.
Experiencia del desarrollador
Rendimiento de la integración entre el marco de trabajo y el modelo LLM: Los distintos marcos de trabajo muestran diferentes niveles de compatibilidad y rendimiento con proveedores LLM específicos. Por ejemplo, LangChain ofrece una integración y precisión superiores cuando se combina con los modelos ChatGPT de OpenAI, lo que proporciona resultados más precisos gracias a una gestión optimizada de las indicaciones.
Consistencia del comportamiento impulsada por la arquitectura: Si bien los marcos de trabajo pueden utilizar diferentes modelos de lógica de negocio (LLM) con distinta eficiencia, sus características de comportamiento principales se mantuvieron en gran medida consistentes entre los modelos. Los comportamientos característicos que observamos —como los patrones de toma de decisiones, el manejo de la recuperación y las capacidades de razonamiento alternativo— dependen principalmente de su diseño arquitectónico subyacente, más que del LLM específico empleado.
Esto sugiere que las combinaciones de marcos de trabajo y modelos de lenguaje pueden afectar las métricas de rendimiento, pero los patrones de comportamiento centrales, como el enfoque de "lo que sea necesario" de CrewAI o la coordinación especializada de agentes de Swarm, se mantienen constantes independientemente del modelo de lenguaje utilizado.
Problemas de integración: Nos topamos con importantes problemas de integración al intentar conectar CrewAI con los modelos Claude de Anthropic. A pesar de varios intentos de configuración, los errores persistentes en la configuración del entorno impidieron una implementación exitosa.
Nuestra investigación indica que no se trata de un problema aislado: numerosos desarrolladores de la comunidad han informado de dificultades de integración similares entre CrewAI y los servicios Anthropic, lo que sugiere posibles incompatibilidades arquitectónicas o limitaciones en el manejo de la API.
Recomendaciones para la combinación de marcos de trabajo y modelos LLM: Basándonos en estos hallazgos, recomendamos evaluar diferentes combinaciones de marcos de trabajo y modelos LLM al seleccionar marcos de trabajo para su caso de uso específico.
Cómo los agentes gestionan las tareas de análisis
El análisis agente transforma el rol de la IA, pasando de ser una herramienta pasiva a una ejecución autónoma. En lugar de esperar instrucciones explícitas en cada paso, los agentes analíticos perciben el estado actual de los datos, deciden qué acciones tomar y adaptan su enfoque en función de los resultados intermedios.
Capacidades básicas en contextos analíticos:
- Preparación autónoma de datos: Los agentes detectan valores faltantes, identifican valores atípicos, estandarizan formatos y validan los resultados depurados sin necesidad de configuración manual para cada transformación.
- Generación dinámica de consultas: Las solicitudes en lenguaje natural se traducen en consultas ejecutables, y los agentes optimizan y ajustan la sintaxis en función de la base de datos de destino.
- Pruebas de hipótesis iterativas: Cuando el análisis inicial no es concluyente, los agentes pueden reformular su enfoque, probar hipótesis alternativas o solicitar fuentes de datos adicionales.
- Detección de anomalías en tiempo real: La monitorización continua de las métricas permite a los agentes detectar patrones inesperados y alertar a las partes interesadas antes de que los problemas se agraven.
Limitaciones prácticas:
- Problemas de determinismo: El comportamiento del modelo probabilístico implica que consultas idénticas pueden producir resultados ligeramente diferentes en distintas ejecuciones, lo que complica los requisitos de reproducibilidad.
- Precisión numérica: los agentes basados en LLM pueden interpretar erróneamente los formatos numéricos o introducir errores de cálculo, lo que requiere capas de validación para las métricas críticas.
Metodología de evaluación comparativa
Objetivo : Nuestro objetivo fue comparar objetivamente cuatro marcos de trabajo de agentes de IA (LangGraph, LangChain, CrewAI y Swarm) utilizando conjuntos de datos y sistemas de medición idénticos. Evaluamos la precisión en la toma de decisiones, la eficiencia de los recursos y la capacidad de integración de herramientas de estos marcos de trabajo en condiciones de error realistas.
Descripción del conjunto de datos: Garantizamos condiciones de prueba idénticas para cada framework. Utilizamos el mismo conjunto de datos JSON, los mismos KPI de referencia, las mismas API simuladas y los mismos retrasos de tiempo en todos los frameworks.
Utilizamos un conjunto de datos de 100 registros, suficiente para observar las capacidades de decisión. Reiniciamos los sistemas de seguimiento antes de cada prueba (reinicio de decision_tracker y perf_tracker). Empleamos las mismas funciones de herramienta en todos los marcos de trabajo, pero adaptamos las convenciones de nomenclatura a cada uno (herramienta _swarm_tool y herramienta crewai ).
Perturbaciones de datos : Se utilizaron datos de compras de comercio electrónico. El conjunto de datos contiene los siguientes campos:
- ID de usuario (identificador de cliente),
- ID_Producto (Identificador del producto),
- Categoría (Categoría de producto),
- Precio (Rs.) (Precio original),
- Descuento (%) (Porcentaje de descuento),
- Precio_final(Rs.) (Precio final después del descuento),
- Método_de_pago (Método de pago),
- Fecha_de_compra (Fecha de compra).
Utilizamos datos de comercio electrónico manipulados deliberadamente:
- Valores nulos
- Campos vacíos: “Product_ID”: “”, “User_ID”: “”, “Category”: “”
- Nombres de campos mixtos: “costo”: 1200.0, “ingresos”: 150.0
- Inconsistencia de datos: variaciones en el formato de fecha ("07/01/2024" frente a "dd-mm-yyyy").
- Valores cero/negativos
Definiciones de tareas : A cada marco de trabajo se le asignaron 5 tareas idénticas:
- Procesamiento de datos : procesamiento de datos mejorado con ejecución específica del marco para limpieza y transformación.
- Cálculo de KPI : aplique algoritmos de cálculo de KPI idénticos utilizando la herramienta enhanced_kpi_calculator.
- Análisis de la competencia : realice un análisis de la competencia para los 3 productos principales utilizando CompetitorAPI.
- Conversión de divisas : convierta los ingresos totales a USD utilizando CurrencyAPI.
- Manejo de errores : Implementar estrategias nativas de manejo de errores para inconsistencias de datos.
Puntos clave de decisión previstos:
- Decisión sobre el manejo de valores nulos : cómo manejar un valor nulo de Final_Price.
- Decisión predeterminada para campos vacíos : cómo rellenar campos vacíos
- Decisión sobre el mapeo de campos – Transformaciones de campos
- Decisión sobre inconsistencia de datos : normalización de formato
- Decisión de omisión de valor cero : incluir/excluir valores cero
- Decisión sobre la ejecución de herramientas : ¿Qué herramienta usar y cuándo? ¿Tendrá éxito? ¿Qué hacer en caso de error? ¿Cómo gestionar los fallos de las herramientas y las estrategias de respaldo?
Ejecutamos cada pipeline del framework 10 veces y tomamos los valores medianos para todas las métricas.
Consistencia en la ejecución: Implementamos la misma infraestructura de medición en todos los marcos de trabajo:
- AccuracyLatencyTracker para la medición de tiempos (temporizador de inicio/temporizador de finalización),
- DecisionTracker para el registro de decisiones con categorización,
- EnhancedAnalyticsDataProcessor para una lógica de limpieza de datos idéntica,
- API simuladas, incluida CompetitorAPI (retraso de 0,05 s).
- API de divisas (retraso de 0,1 s)
Mantuvimos configuraciones específicas para cada marco de trabajo: LangGraph utilizó orquestación basada en grafos con puntuación de confianza y enrutamiento inteligente. LangChain empleó un agente ReAct secuencial con ConversationBufferMemory y registro detallado. CrewAI utilizó colaboración multiagente con resolución autónoma de problemas.
Todos los marcos (CrewAI, LangGraph, LangChain y Swarm) se probaron utilizando GPT-4.1 para garantizar un rendimiento del modelo consistente y una comparación justa en todas las métricas de evaluación.
Métricas de evaluación
La precisión de la decisión mide la fiabilidad con la que un marco resuelve problemas de datos críticos y se calcula de la siguiente manera:
La precisión se determinó comparando las decisiones de cada marco de trabajo con criterios de lógica empresarial predefinidos.
Cada decisión se evaluó de forma binaria (correcta/incorrecta) en función de:
- Recuperación de fallos de herramientas : si las operaciones fallidas se resolvieron con éxito utilizando un razonamiento alternativo.
- Manejo de valores nulos : si los registros no válidos se omitieron correctamente.
- Valores predeterminados de campos vacíos : indica si los valores faltantes se reemplazaron correctamente (por ejemplo, "DESCONOCIDO").
La eficiencia en la toma de decisiones evalúa la eficacia con la que un marco aborda los problemas críticos de datos y se calcula de la siguiente manera:
Los puntos críticos se definieron como los pasos mínimos necesarios para la toma de decisiones (por ejemplo, manejo de valores nulos, valores predeterminados para campos vacíos, asignación de campos). Una puntuación del 100 % indica una decisión por punto crítico, mientras que las decisiones adicionales señalan ineficiencia o sobreprocesamiento.
El rendimiento de la herramienta se midió utilizando la tasa de éxito primaria , que representa la proporción de llamadas directas a la herramienta completadas con éxito:
La capacidad de recuperación mide la habilidad de un marco para recuperarse con éxito de las llamadas a herramientas fallidas y se calcula de la siguiente manera:
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.