Contáctanos
No se encontraron resultados.

15 herramientas de observabilidad de agentes de IA en 2026: AgentOps y Langfuse

Cem Dilmegani
Cem Dilmegani
actualizado el Ene 29, 2026
Vea nuestra normas éticas

Las herramientas de observabilidad de agentes de IA, como Langfuse y Arize, ayudan a recopilar rastros detallados (un registro de la ejecución de un programa o transacción) y proporcionan paneles de control para realizar un seguimiento de las métricas en tiempo real .

Muchos marcos de trabajo para agentes , como LangChain, utilizan el estándar OpenTelemetry para compartir metadatos con la monitorización de agentes. Además, muchas herramientas de observabilidad ofrecen instrumentación personalizada para una mayor flexibilidad.

Probamos 15 plataformas de observabilidad para aplicaciones LLM y agentes de IA. Implementamos cada plataforma de forma práctica, configurando flujos de trabajo, integraciones y escenarios de prueba. Evaluamos el rendimiento de 4 herramientas de observabilidad para determinar si generaban sobrecarga en los flujos de trabajo de producción. También presentamos un tutorial de observabilidad de LangChain utilizando Langfuse .

Referencia comparativa de herramientas de monitorización de agentes

Integramos cada plataforma de observabilidad en nuestro sistema de planificación de viajes multiagente y ejecutamos 100 consultas idénticas para medir su sobrecarga de rendimiento en comparación con una referencia sin instrumentación. Lea nuestra metodología de evaluación comparativa.

  • LangSmith demostró una eficiencia excepcional con prácticamente ningún coste adicional apreciable, lo que la hace ideal para entornos de producción donde el rendimiento es fundamental.
  • Laminar introdujo una sobrecarga mínima del 5%, lo que la hace muy adecuada para entornos de producción donde el rendimiento es fundamental.
  • AgentOps y Langfuse mostraron una sobrecarga moderada del 12 % y el 15 % respectivamente, lo que representa un equilibrio razonable entre las funciones de observabilidad y el impacto en el rendimiento. Estas plataformas mantienen una latencia aceptable para la mayoría de los casos de uso en producción.

Posibles razones de las diferencias de rendimiento

Nuestras pruebas de rendimiento indican que las diferencias de latencia dependen de la profundidad de la instrumentación y la implicación en la ruta de ejecución, especialmente en flujos de trabajo multiagente. Las herramientas que ofrecen una observabilidad más profunda a nivel de paso mostraron una mayor sobrecarga, mientras que los enfoques de rastreo más ligeros se mantuvieron más cerca del nivel de referencia.

1. Profundidad de instrumentación en la ruta de ejecución

Las herramientas de observabilidad añaden lógica al flujo de ejecución del agente para capturar rastros y metadatos. Cuando esta lógica se ejecuta de forma síncrona durante el procesamiento de solicitudes, aumenta directamente la latencia de extremo a extremo, ya que el agente debe completar este trabajo adicional antes de devolver una respuesta.

Por ejemplo:

  • LangSmith no añadió prácticamente ningún coste adicional medible (~0%), lo que indica poco trabajo síncrono.
  • La instrumentación a nivel de pasos más profunda de Langfuse contribuyó a una mayor sobrecarga (~15%).

2. Amplificación de eventos a través de flujos de trabajo de múltiples pasos

En los sistemas multiagente, una única solicitud de usuario desencadena múltiples acciones de los agentes. Cuando una herramienta registra datos detallados en cada paso, el número total de eventos crece rápidamente, lo que aumenta la sobrecarga de procesamiento y gestión de trazas a medida que el flujo de trabajo se vuelve más complejo.

En los resultados de referencia:

  • Langfuse y AgentOps generaron costos generales notablemente más altos (15 % y 12 %) en nuestro flujo de trabajo de planificación de viajes de varios pasos.
  • LangSmith y Laminar emitieron menos eventos por paso del agente.

3. Sobrecarga de evaluación y validación en línea

Algunas plataformas realizan comprobaciones o monitorización adicionales mientras el agente está en funcionamiento. Si bien cada comprobación es sencilla, aplicarlas repetidamente en todos los pasos del agente añade una latencia considerable.

Por ejemplo:

  • La monitorización a nivel de ciclo de vida de AgentOps coincidió con una sobrecarga del 12 %.
  • Laminar no mostró evidencia de que la evaluación en línea afectara la ejecución, manteniéndose en ~5%.

4. Frecuencia de serialización y persistencia

La captura de datos de observabilidad detallados requiere serializar los rastros y escribirlos en el almacenamiento o en sistemas de almacenamiento externos. Un mayor nivel de detalle en los rastros aumenta la frecuencia con la que esto ocurre, lo que añade una sobrecarga de E/S a cada solicitud.

En nuestro punto de referencia:

  • El seguimiento detallado de las indicaciones, la salida y los tokens de Langfuse resultó en la mayor sobrecarga (~15%).
  • Los artefactos de traza más leves de LangSmith se mantuvieron cerca del nivel de referencia.

5. Estrechez de integración con el marco del agente.

El grado de integración de una herramienta con el marco de trabajo del agente afecta al rendimiento. Una integración más estrecha reduce los pasos de traducción y orquestación, mientras que los SDK más genéricos añaden capas de procesamiento adicionales.

Por ejemplo:

  • La estrecha alineación de LangSmith con la ejecución del agente se correlacionó con una sobrecarga de aproximadamente el 0 %.
  • AgentOps y Langfuse mostraron un mayor impacto en la latencia, lo que concuerda con rutas de integración más desacopladas.

Plataformas de observabilidad de agentes de IA

Nivel 1: LLM de grano fino y observabilidad de mensajes/salidas

* Las funcionalidades que se muestran en estas columnas son ejemplos ilustrativos de lo que cada herramienta puede monitorizar al integrarse o personalizarse. Estas funcionalidades no son exclusivas de ninguna plataforma en particular.

Nivel 2: Observabilidad del flujo de trabajo, el modelo y la evaluación

Nivel 3: Observabilidad del ciclo de vida y las operaciones de los agentes

Nivel 4: Monitorización de sistemas e infraestructura (no nativa de agentes)

Datadog (con su módulo de observabilidad LLM) y Prometheus (a través de exportadores) se utilizan cada vez más junto con Langfuse/LangSmith.

Plataformas de desarrollo y orquestación de agentes :

  • Herramientas como Flowise , Langflow , SuperAGI y CrewAI permiten crear, orquestar y optimizar los flujos de trabajo de los agentes con interfaces sin código o con poco código.

Ediciones y precios sin necesidad de implementación

Las ediciones gratuitas varían en cuanto a límites de uso (por ejemplo, observaciones, rastros, tokens o unidades de trabajo). Los precios iniciales suelen corresponder a un plan básico, que puede tener restricciones en cuanto a funciones, usuarios o límites de uso.

Pesos y sesgos (tejido W&B)

Caso de uso: Depurar fallos en sistemas multiagente rastreando cómo se propagan los errores entre las llamadas de los agentes.

Figura 1: Panel de seguimiento de Weights & Biases Weave.

Weights & Biases Weave registra trazas de ejecución estructuradas para sistemas multiagente, preservando las relaciones padre-hijo entre las llamadas de los agentes. Se capturan las entradas, salidas, estados intermedios, latencia y uso de tokens por agente y por traza.

Características de monitoreo de tejido

  • Rastreo jerárquico de agentes en lugar de registros de solicitudes planos.
  • Atribución de costos y latencia a nivel de agente
  • Soporte nativo para evaluadores aplicado directamente a trazas.

Capacidades de evaluación

Weave también proporciona sistemas de puntuación integrados para la evaluación, que incluyen:

  • HallucinationFreeScorer para detectar alucinaciones,
  • SummarizationScorer para evaluar la calidad del resumen,
  • EmbeddingSimilarityScorer para similitud semántica,
  • ValidJSONScorer y ValidXMLScorer para la validación de formato,
  • PydanticScorer para el cumplimiento del esquema,
  • OpenAIModerationScorer para la seguridad del contenido,
  • Los evaluadores de RAGAS como ContextEntityRecallScorer,
  • ContextRelevanciaScorer para la evaluación del sistema RAG.

Ideal para: Equipos que ejecutan flujos de trabajo de varios pasos o agentes y que necesitan un análisis de la causa raíz a nivel de traza, en lugar de métricas superficiales.

Langfuse

Casos de uso: Realizar un seguimiento de las interacciones de LLM, gestionar las versiones de las solicitudes y supervisar el rendimiento del modelo con las sesiones de usuario.

Figura 2: Ejemplo de panel de control de Langfuse que muestra los detalles del rastreo. 1

Langfuse ofrece una visibilidad profunda de la capa de mensajes, capturando mensajes, respuestas, costes y trazas de ejecución para ayudar a depurar, supervisar y optimizar las aplicaciones LLM.

Sin embargo, Langfuse puede no ser adecuado para equipos que prefieren flujos de trabajo basados en Git para la gestión de código y de indicaciones, ya que su sistema externo de gestión de indicaciones puede no ofrecer el mismo nivel de control de versiones y colaboración.

Características de monitorización de Langfuse

  • Visibilidad de la evolución y los patrones de uso de las indicaciones
  • Análisis basado en sesiones adecuado para aplicaciones orientadas al usuario.
  • Modelo práctico de metadatos y etiquetado para filtrado y revisión

Funcionalidades de nivel empresarial:

Algunas de estas características incluyen:

  • Niveles de registro : Ajuste el nivel de detalle de los registros para obtener información más precisa.
  • Multimodalidad : Admite texto , imágenes , audio y otros formatos para aplicaciones LLM multimodales.
  • Versiones y control de versiones : Realice un seguimiento del historial de versiones y vea cómo las nuevas versiones afectan al rendimiento del modelo.
  • URLs de seguimiento : Acceda a seguimientos detallados mediante URLs únicas para una inspección y depuración más exhaustivas.
  • Gráficos de agentes : Visualice las interacciones y dependencias entre agentes para comprender mejor su comportamiento.
  • Muestreo : Recopile datos representativos de las interacciones para analizarlos sin sobrecargar el sistema.
  • Seguimiento de tokens y costes : Realice un seguimiento del uso de tokens y los costes de cada llamada al modelo, lo que garantiza una gestión eficiente de los recursos.
  • Enmascaramiento : Proteja los datos confidenciales enmascarándolos en trazas, garantizando así la privacidad y el cumplimiento normativo.

Ideal para: Equipos que trabajan en la iteración de indicaciones y supervisan el uso en producción, especialmente donde las sesiones de usuario son importantes.

Galileo

Casos de uso: Monitorizar el coste/latencia, evaluar la calidad de la salida, bloquear respuestas inseguras y proporcionar soluciones prácticas.

Figura 3: Gráficos que muestran la calidad de la selección de herramientas, la adherencia al contexto, la compilación de acciones del agente y el tiempo hasta el primer token.

Galileo realiza un seguimiento de los costes, la latencia y las métricas de calidad de salida, al tiempo que aplica comprobaciones de seguridad y cumplimiento en tiempo real.

La plataforma combina la observabilidad tradicional (latencia, coste, rendimiento) con la depuración y evaluación basadas en inteligencia artificial (detección de alucinaciones, veracidad de los hechos, coherencia, adhesión al contexto).

Características de monitoreo de Galileo

  • Identificación del modo de fallo más allá de los errores superficiales (por ejemplo, alucinaciones que provocan entradas de herramientas no válidas).
  • Retroalimentación prescriptiva, como sugerencias de cambios en las indicaciones o adiciones de pocas tomas.
  • Estrecha relación entre los resultados de la evaluación y las soluciones recomendadas.

Ideal para: Organizaciones que priorizan la calidad de los resultados, la seguridad y los ciclos de iteración rápidos con corrección guiada.

IA de barandillas

Casos de uso: Prevenir resultados perjudiciales, validar las respuestas de LLM y garantizar el cumplimiento de las políticas de seguridad.

Figura 4: Panel de control del comportamiento de los guardias que muestra las diferencias en la duración de la ejecución de los guardias y los fallos de los mismos.

Guardrails valida las entradas y salidas de LLM según reglas configurables, que incluyen toxicidad, sesgo, exposición a información de identificación personal, detección de alucinaciones y cumplimiento del formato.

Características de monitoreo de IA de Guardrails

  • Validación determinista mediante especificaciones RAIL
  • Sistemas de protección de entrada para inyección rápida y detección de jailbreak
  • Reintentos automáticos cuando falla la validación.

Más adecuado para
Equipos que deben hacer cumplir estrictas garantías de seguridad, cumplimiento o formato antes de que se devuelvan las respuestas.

LangSmith

Casos de uso: Razonamiento de agentes y depuración de llamadas a herramientas (centrado en LangChain)

Figura 5: Panel de control de LangSmith que muestra los rastros, incluidos sus nombres, entradas, horas de inicio y latencias.

LangSmith captura el rastro completo del razonamiento de los agentes basados en LangChain, incluyendo las indicaciones, el contexto recuperado, la lógica de selección de herramientas, las entradas/salidas de las herramientas, los errores y las excepciones.

Funciones de monitorización de LangSmith

  • Inspección paso a paso de las rutas de decisión de los agentes.
  • Ejecuta la reproducción y la comparación lado a lado entre indicaciones, modelos o herramientas.
  • Integración estrecha con LangChain mediante funciones de devolución de llamada.

Más adecuado para
Equipos que desarrollan con LangChain y necesitan depurar en detalle razonamientos incorrectos o la invocación de herramientas.

Langtrace AI

Casos de uso: Identificación de cuellos de botella de costo y latencia en aplicaciones LLM

Figura 6: Panel de control de seguimiento de Langtrace AI.

Langtrace realiza un seguimiento del número de tokens, la duración de la ejecución, los costes de la API y los parámetros de las solicitudes en las canalizaciones de LLM mediante trazas compatibles con OpenTelemetry.

Funciones de monitorización de Langtrace AI

  • Alineación de OpenTelemetry para la integración con sistemas backend existentes.
  • Visibilidad de los factores que influyen en el costo y la latencia por paso.
  • Plataforma ligera para el control de versiones y las pruebas de solicitudes.

Ideal para: Equipos que optimizan el rendimiento y el gasto en los flujos de trabajo de LLM en lugar de evaluar la calidad de los resultados.

Arize (Phoenix)

Casos de uso: Monitorear la deriva del modelo, detectar sesgos y evaluar los resultados de LLM con sistemas de puntuación integrales.

Figura 7: Panel de control del monitor de deriva Arize Phoenix.

Phoenix se centra en la deriva conductual, la detección de sesgos y la puntuación LLM como juez en cuanto a relevancia, toxicidad y precisión.

Sin embargo, tiene una mayor sobrecarga de integración en comparación con los proxies ligeros y no gestiona el versionado de las solicitudes de forma tan limpia como las herramientas especializadas.

Características de monitoreo de Phoenix

  • Núcleo de código abierto con extensiones empresariales opcionales.
  • Espacio interactivo con indicaciones para el desarrollo
  • Detección de deriva para el seguimiento de cambios de comportamiento a lo largo del tiempo.
  • Controles de sesgo para identificar sesgos de respuesta,
  • El método LLM, que actúa como criterio de evaluación, califica la precisión, la toxicidad y la relevancia.

Ideal para: Equipos que supervisan el comportamiento del modelo a largo plazo y el riesgo de regresión, en lugar de realizar iteraciones rápidas.

Agente

Casos de uso: Encontrar qué indicación funciona mejor en cada modelo.

Figura 8: Imagen que muestra varias alternativas de indicaciones de Agenta.

Agenta compara las respuestas de los modelos en función del coste, la latencia y la calidad de la salida, utilizando entradas compartidas y un contexto controlado.

Figura 9: Ejemplo de salida de Agenta.

Funciones de monitoreo de Agenta

  • Evaluación comparativa de modelos
  • Apoyo a la toma de decisiones en la fase de preproducción.

Ideal para: Evaluación en fase inicial y selección de modelos.

AgentOps.ai

Casos de uso : Monitorear el razonamiento del agente, realizar un seguimiento de los costos y depurar sesiones en producción.

Figura 10: Ejemplo de panel de reproducción de sesión de AgentOps.ai.

AgentOps registra el seguimiento del razonamiento, las llamadas a herramientas/API, el estado de la sesión, el comportamiento de almacenamiento en caché y las métricas de costes de los agentes desplegados.

Funciones de monitorización de AgentOps

  • Reproducción de sesiones para depuración en producción
  • Céntrese en el comportamiento de los agentes en tiempo real en lugar de en la evaluación fuera de línea.

Ideal para: Equipos que gestionan agentes en producción y necesitan visibilidad operativa.

Grupo de expertos

Casos de uso : Encontrar qué indicación, conjunto de datos o modelo funciona mejor con una evaluación detallada y un análisis de errores.

Figura 11: Panel de control del agente de atención al cliente de Braintrust.

Braintrust evalúa las indicaciones, los conjuntos de datos y los modelos comparándolos con los resultados esperados, realizando un seguimiento de la latencia, el coste, los errores de las herramientas y las métricas de ejecución.

Características de monitoreo de Braintrust

  • Evalúe los conjuntos de datos de prueba con entradas y salidas esperadas, luego compare las indicaciones o modelos uno al lado del otro usando variables como {{input}}, {{expected}} y {{metadata}}.
  • Desglose de métricas que incluye la calidad de ejecución de la herramienta

Ideal para: Equipos que realizan pruebas comparativas de modelos y recomendaciones antes de su implementación.

AgenteNeo

Casos de uso : Depuración de interacciones entre múltiples agentes, seguimiento del uso de herramientas y evaluación de flujos de trabajo de coordinación.

AgentNeo realiza un seguimiento de la comunicación entre agentes, el uso de herramientas, los gráficos de ejecución y el coste y la latencia por agente mediante un SDK de Python.

Funciones de monitorización de AgentNeo

  • De código abierto y ejecutable localmente.
  • Panel de control local interactivo (localhost:3000) para la monitorización en tiempo real de flujos de trabajo multiagente.
  • Integración mediante decoradores (por ejemplo, @tracer.trace_agent, @tracer.trace_tool)

Ideal para: Equipos de ingeniería que experimentan con sistemas multiagente.

Laminado

Caso de uso : Realizar un seguimiento del rendimiento en diferentes marcos y modelos LLM.

Figura 12: Ejemplo de panel de seguimiento de trazas de Laminar.

Laminar realiza un seguimiento de los periodos de ejecución, los costes, el uso de tokens y los percentiles de latencia en todos los marcos y modelos LLM.

Características de monitoreo laminar

  • Análisis de rendimiento independiente del marco de trabajo
  • Inspección detallada de tramos.

Ideal para: Análisis comparativo del rendimiento en pilas de tecnologías heterogéneas.

Helicone

Casos de uso: Realizar un seguimiento de los flujos de trabajo de los agentes que constan de varios pasos y analizar los patrones de las sesiones de los usuarios.

Figura 12: Imagen que muestra los cambios en las solicitudes, los costos, los errores y la latencia durante 3 meses.

Helicone registra los volúmenes de solicitudes, los costos, los errores, las tendencias de latencia y los flujos de trabajo de los agentes a nivel de sesión.

Características de monitoreo de Helicone

  • Visibilidad del recorrido del usuario
  • Análisis de tendencias históricas.

Ideal para: Equipos de producto que supervisan los patrones de uso y el comportamiento de los usuarios.

Coval

Casos de uso: Simular miles de conversaciones entre agentes, probar interacciones de voz/chat y validar el comportamiento antes de la implementación.

Figura 13: Panel de evaluación de Coval que muestra los porcentajes de objetivos alcanzados, identidad verificada, repetición correcta, claridad del agente e información incorrecta.

Coval simula miles de conversaciones para medir la finalización de las tareas, la corrección y la eficacia del uso de las herramientas.

Características de monitoreo de Coval

  • Pruebas de agentes basadas en simulación
  • Detección automática de regresión
  • Soporte mediante agente de voz y texto.

Ideal para: Validación previa al despliegue y detección de regresiones.

Perro de datos

Casos de uso : Observabilidad de la infraestructura y las aplicaciones con correlación de señales LLM.

Datadog recopila métricas de infraestructura (CPU, memoria, red), datos de rendimiento de la aplicación (latencia, tasas de error, rendimiento) y registros. Para aplicaciones LLM, puede ingerir el uso de tokens, el costo por solicitud, la latencia del modelo y señales relacionadas con la seguridad, como intentos de inyección de mensajes.

Características de monitorización de Datadog

  • Observabilidad amplia y a nivel de sistema en infraestructura, aplicaciones y cargas de trabajo de IA.
  • Amplio ecosistema de integración (más de 900 integraciones) que permite correlacionar el comportamiento de la IA con el estado de la infraestructura.

Ideal para: Organizaciones que desean correlacionar el comportamiento de LLM con la infraestructura subyacente y el rendimiento de la aplicación, en lugar de inspeccionar el razonamiento del agente o las indicaciones.

Prometeo

Casos de uso: Monitorizar el rendimiento del sistema, realizar un seguimiento de las métricas de las aplicaciones y configurar alertas para problemas de infraestructura.

Prometheus es un sistema de monitorización de código abierto que recopila métricas de series temporales de puntos finales HTTP a intervalos regulares para realizar un seguimiento de la infraestructura, las aplicaciones, las bases de datos, los contenedores y las métricas empresariales personalizadas.

Características de monitorización de Prometheus

  • Recopilación de métricas de series temporales mediante web scraping basado en extracción
  • PromQL para consultas, agregación y condiciones de alerta
  • Ecosistema de exportadores (por ejemplo, Node Exporter) para una amplia cobertura del sistema.

Ideal para: Monitorización de infraestructuras y aplicaciones con alertas basadas en reglas.

Grafana

Casos de uso : Visualizar métricas, crear paneles de control y enrutar alertas a través de datos de LLM, agentes e infraestructura.

Figura 14: Panel de seguimiento que muestra el cambio en la tasa de solicitudes, el total de tokens de uso, el costo promedio de uso y el costo total de uso.

Grafana es una plataforma de visualización y análisis de código abierto que se integra con fuentes de datos como Prometheus, OpenTelemetry y Datadog para proporcionar paneles de control de observabilidad unificados.

Funciones de monitorización de Grafana

  • Paneles de control que abarcan métricas, registros y trazas.
  • Correlación entre sistemas para señales LLM, de agentes y de infraestructura
  • Enrutamiento de alertas y gestión de notificaciones.

Ideal para: Visualización centralizada de la observabilidad y respuesta ante incidentes.

Tutorial: Observabilidad de LangChain con Langfuse

Hemos construido una canalización LangChain de varios pasos con tres etapas:

  1. análisis de preguntas
  2. generación de respuestas
  3. verificación de respuesta

Tras configurar el flujo de trabajo, lo conectamos a Langfuse para monitorizar y realizar un seguimiento de la ejecución en tiempo real. De este modo, pudimos explorar cómo Langfuse nos ayuda a obtener información detallada sobre el rendimiento, los costes y el comportamiento de las aplicaciones de IA.

Esto es lo que observamos a través de Langfuse:

Descripción general del panel de control

Figura 15: Paneles de control de Langfuse para la gestión de costes, uso y latencia.

Langfuse nos proporcionó varios paneles de control que nos permiten visualizar diferentes aspectos del rendimiento del pipeline:

  1. Panel de costes : Este panel realiza un seguimiento del gasto en todas las llamadas a la API, con desgloses detallados por modelo y período de tiempo.
  2. Gestión de uso : Supervisa las métricas de ejecución, como el número de observaciones y la asignación de recursos, lo que nos ayuda a realizar un seguimiento de cómo se utilizan los recursos durante la ejecución.
  3. Panel de latencia : Este panel nos ayudó a analizar los tiempos de respuesta, detectar cuellos de botella y visualizar las tendencias de rendimiento.

Métricas de uso

Figura 16: Imagen que muestra las métricas de uso de Langfuse, incluyendo el recuento total de trazas, el recuento total de observaciones y el recuento total de puntuaciones (tanto numéricas como categóricas).

El panel de métricas de uso nos proporcionó la siguiente información sobre el rendimiento del sistema:

  • Recuento total de trazas : Registramos ocho trazas, cada una de las cuales representa un ciclo completo de pregunta-respuesta en el proceso.
  • Recuento total de observaciones: En promedio, cada traza tuvo 16 observaciones, lo que refleja la naturaleza de múltiples pasos del proceso.

Además, Langfuse nos permite realizar un seguimiento de los patrones de uso , la asignación de recursos y los momentos de mayor actividad durante los últimos 7 días, lo que nos ayuda a comprender cuándo el sistema está más activo y cómo se distribuyen los recursos a lo largo del tiempo.

Inspección de trazas

Figura 17: Panel de seguimiento de Langfuse que muestra la entrada, la salida, los niveles de observabilidad, la latencia y los tokens.

Al analizar en detalle un rastro individual, pudimos ver información detallada sobre la ejecución:

  • Filas de seguimiento : Cada fila representa una ejecución completa de la canalización con un ID de seguimiento único.
  • Métricas de latencia : El tiempo de ejecución varió, oscilando entre 0,00 s y 34,08 s.
  • Recuento de tokens : El panel de control realiza un seguimiento del uso de tokens de entrada/salida, lo que ayuda en la gestión de costes y eficiencia.
  • Filtrado de entorno : Podríamos filtrar los rastros en función de los entornos de despliegue (por ejemplo, desarrollo, producción).

detalles de rastreo individual

Figura 18: Arquitectura de cadena secuencial de Langfuse.

Analizamos el rastro con mayor detalle para comprender el fallo en la ejecución:

  • Arquitectura de cadena secuencial : el rastro mostró un flujo visual que mostraba cada paso, comenzando desde SequentialChainLLMChainChatOpenAI , con una estructura jerárquica.
  • Seguimiento de entrada/salida : La pregunta original, "¿Cuáles son los beneficios de usar Langfuse para la observabilidad de los agentes de IA?", se monitorizó en cada etapa, junto con las salidas respectivas producidas por la IA en cada paso.
  • Análisis de tokens : Observamos que se utilizaron 1.203 tokens para la entrada y 1.516 tokens para la salida, lo que tiene implicaciones en los costos relacionados con el uso de tokens y ayuda a optimizar la gestión de recursos.
  • Datos de temporización : La latencia total para el seguimiento completo fue de 34,08 s , desglosada por cada componente:
    • Cadena secuencial → 14,02 s
    • LLMChain → 10,25 s
    • ChatOpenAI → 9.81s
  • Información del modelo : Langfuse confirmó el uso del modelo Claude-Sonnet-4 Anthropic , con detalles sobre la configuración específica, incluida la configuración de temperatura.
  • Salida formateada : Se proporcionaron vistas tanto de vista previa como en formato JSON para la depuración, lo que permitió comprender la respuesta del modelo tanto en formato legible para humanos como para máquinas.

Análisis automatizado

Figura 19: Ejemplo de evaluaciones automatizadas de Langfuse.

Langfuse también proporcionó evaluaciones automatizadas de nuestras respuestas:

  • Evaluación de la calidad : El sistema evaluó la estructura, la coherencia y la exhaustividad de las respuestas, destacando las secciones bien organizadas, pero sugiriendo que las respuestas podrían ser más concisas.
  • Sugerencias de mejora : Se identificaron secciones redundantes, se sugirió dónde se podría mejorar la redacción y se combinaron puntos relacionados para que la respuesta fuera más transparente y eficiente.
  • Información sobre el rendimiento : El sistema proporcionó información sobre el uso de los tokens y la relevancia de las respuestas, lo que nos ayudó a optimizar la eficiencia al tiempo que garantizaba que el resultado siguiera siendo útil y pertinente.
  • Retroalimentación estructurada : La retroalimentación se organizó en categorías, lo que nos permitió abordar áreas específicas de mejora de manera dirigida.

Análisis de usuarios

Figura 20: La imagen muestra la actividad anónima de los usuarios, incluyendo la primera y la última interacción de cada usuario, el volumen de eventos, el consumo de tokens y los costos asociados para ayudar a analizar la participación, el uso de recursos y la asignación de presupuesto.

Langfuse realiza un seguimiento detallado de las interacciones entre los usuarios y el agente de IA:

  • Cronología de la actividad del usuario : Muestra la primera y la última interacción de cada usuario, lo que ayuda a identificar a los usuarios activos frente a los inactivos. Podemos ver cuándo los usuarios interactuaron con el sistema por primera y última vez.
  • Seguimiento del volumen de eventos : Registra la cantidad de eventos que cada usuario generó. Por ejemplo, algunos usuarios generaron más de 2000 eventos, lo que demuestra su nivel de interacción con el sistema.
  • Análisis del consumo de tokens : Registra la cantidad total de tokens consumidos por cada usuario. El uso de tokens osciló entre 6590 y 357 000 tokens, lo que proporciona información sobre el uso de recursos.
  • Atribución de costes : Desglosa los costes asociados a cada usuario, lo que facilita el seguimiento del gasto y la optimización de la asignación presupuestaria para el uso de los recursos.
  • Identificación de usuario : Utiliza identificadores de usuario anonimizados para mantener la privacidad al tiempo que se realiza un seguimiento de las interacciones individuales de los usuarios, lo que ayuda con el análisis de uso sin comprometer la confidencialidad del usuario.

Figura 21: Ejemplo de la vista de sesión, que muestra el flujo completo de la conversación junto con el código Python ejecutado, correlacionando las entradas del usuario con las salidas del sistema y mostrando los metadatos de la sesión para ofrecer una visión completa de cómo se procesó la interacción.

La vista de sesión nos permite realizar un seguimiento de los detalles más específicos de las interacciones del usuario:

  • Flujo completo de la conversación : Muestra la interacción completa de preguntas y respuestas, lo que facilita seguir toda la conversación de principio a fin.
  • Visibilidad de la implementación : Muestra el código Python real utilizado durante la sesión, lo que permite comprender mejor la implementación técnica.
  • Correlación entrada/salida : Vincula las preguntas del usuario con las respuestas correspondientes del sistema, lo que nos ayuda a solucionar problemas e identificar dónde pueden haber ocurrido incidencias en la conversación.
  • Metadatos de la sesión : Incluyen detalles técnicos como la temporización, el contexto del usuario y datos de implementación específicos, lo que ofrece una visión completa de la ejecución de la sesión.

Cuándo no utilizar herramientas de observabilidad

  • Desarrollo en fase inicial : Si aún está validando la adecuación del producto al mercado o desarrollando los primeros flujos de trabajo de sus agentes, debe centrarse en la funcionalidad principal en lugar de en una observabilidad exhaustiva.
  • Cuellos de botella en la API : Si sus principales problemas son los costos de la API, la latencia o el almacenamiento en caché, la prioridad inmediata debería ser optimizar estas áreas, no realizar un seguimiento de las métricas a nivel del sistema.
  • Optimización del modelo : Si las mejoras se deben principalmente a la selección del modelo, el ajuste fino o la ingeniería rápida, es posible que aún no sean necesarias las herramientas de observabilidad para detectar la deriva y el sesgo.

Cuándo utilizar herramientas de observabilidad

  • Producción a gran escala : Cuando se opera con múltiples modelos, agentes o cadenas, las herramientas de observabilidad son esenciales para supervisar el rendimiento y garantizar la salud del sistema.
  • Aplicaciones empresariales o de cara al cliente : Para aplicaciones en las que la fiabilidad, la seguridad y el cumplimiento normativo son imprescindibles, las herramientas de observabilidad proporcionan la visibilidad y el control necesarios.
  • Monitorización continua : Cuando se necesita monitorizar la deriva, el sesgo, el rendimiento y los problemas de seguridad a lo largo del tiempo, que no se pueden detectar fácilmente con scripts básicos o comprobaciones manuales, las herramientas de observabilidad son cruciales.
  • Escenarios de alto riesgo : En entornos donde el coste de un fallo (por ejemplo, alucinaciones, resultados inseguros) es significativo, la observabilidad garantiza que los riesgos se minimicen y que los problemas se detecten con antelación.

Metodología de evaluación comparativa

Para evaluar la sobrecarga de rendimiento de las plataformas de observabilidad en aplicaciones LLM de producción, desarrollamos un enfoque de evaluación comparativa sistemático utilizando un flujo de trabajo de agentes del mundo real.

Aplicación de prueba

Hemos desarrollado un sistema secuencial de planificación de viajes multiagente utilizando LangChain que procesa las solicitudes de viaje en lenguaje natural a través de cinco etapas:

  1. Agente de análisis : Extrae datos estructurados (origen, destino, fechas, duración) de la entrada del usuario.
  2. Agente buscador de vuelos : Recupera los vuelos disponibles a través de la API de Amadeus.
  3. Agente de reportero meteorológico : Obtiene pronósticos meteorológicos del destino utilizando WeatherAPI.
  4. Agente recomendador de actividades : Sugiere actividades en función de las condiciones meteorológicas.
  5. Agente planificador de viajes : Sintetiza todos los resultados en un itinerario completo.

El sistema utiliza Claude 4 Haiku a través de OpenRouter para todas las llamadas LLM e integra API externas para datos en tiempo real.

Diseño de referencia

Establecimiento de la línea base: Primero medimos el rendimiento de la aplicación sin ningún tipo de instrumentación de observabilidad, ejecutando 100 consultas idénticas para establecer una línea base de comparación.

Integración de plataformas: A continuación, integramos cinco plataformas de observabilidad líderes (LangSmith, Laminar, AgentOps, Langfuse) una a una, instrumentando los mismos puntos de rastreo en todas las plataformas para garantizar la coherencia.

Ejecución secuencial: Cada plataforma se probó de forma independiente ejecutando las 100 consultas consecutivamente antes de pasar a la siguiente. Este enfoque minimiza la variabilidad derivada de factores externos como las condiciones de la red o los límites de velocidad de la API.

Entorno controlado: Todas las pruebas se ejecutaron en la misma infraestructura de servidor con conjuntos de consultas idénticos para garantizar una comparación justa. Para aislar la sobrecarga derivada de las variaciones de latencia inducidas por LLM, configuramos el modelo con temperatura=0 y solicitudes estructuradas para minimizar la variabilidad de respuesta entre ejecuciones.

Métricas recopiladas

Para cada plataforma, medimos la latencia promedio y calculamos la sobrecarga como la latencia adicional introducida en comparación con la línea base: ((Platform Latency - Base Latency) / Base Latency) × 100

Preguntas frecuentes

La observabilidad es la capacidad de comprender el funcionamiento interno de un agente de IA mediante el examen de señales externas como registros, métricas y trazas.

En el caso de los agentes de IA, esto implica supervisar las acciones, el uso de herramientas, las interacciones del modelo y las respuestas para solucionar problemas y mejorar el rendimiento.

La observabilidad de los agentes es crucial para el seguimiento y la mejora del rendimiento de la IA, ya que permite:

Comprender las ventajas y desventajas : Ayuda a medir métricas clave como la precisión y el coste, lo que facilita encontrar un equilibrio entre el rendimiento y el uso de recursos.

Medición de la latencia : El seguimiento de la latencia en tiempo real ofrece información sobre los tiempos de respuesta, lo que ayuda a optimizar el rendimiento de los agentes.

Detección de entradas maliciosas : La observabilidad ayuda a identificar lenguaje dañino e inyecciones de código, lo que permite una intervención rápida para prevenir problemas.

Monitorización de la retroalimentación del usuario : Al observar las interacciones y la retroalimentación de los usuarios, la observabilidad proporciona datos valiosos para la mejora continua y el ajuste preciso de los agentes.

Los componentes clave incluyen:

Seguimiento de acciones : Monitorizar cada paso que da el agente.
Uso de herramientas : Observar las herramientas y los recursos que utiliza el agente.
Medición de la latencia : Monitorización de los tiempos de respuesta para optimizar el rendimiento.
Evaluaciones : Evaluación del comportamiento del agente y del rendimiento del modelo.
Detección de entradas maliciosas : Identificación de mensajes o ataques dañinos.

Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450