What is observability?

Observability is the ability to understand an AI agent's internal workings by examining external signals such as logs, metrics, and traces. For AI agents, this involves monitoring actions, tool usage, model interactions, and responses to troubleshoot and enhance performance.

What makes agent observability essential for AI?

Agent observability is crucial for tracking and improving AI performance by enabling:Understanding trade-offs: It helps measure key metrics like accuracy and cost, making it easier to strike a balance between performance and resource usage.Measuring latency: Real-time latency tracking offers insights into response times, helping optimize agent performance.Detecting malicious inputs: Observability helps identify harmful language and prompt injections, allowing for prompt intervention to prevent issues.User feedback monitoring: By observing user interactions and feedback, observability provides valuable data for continuous improvement and fine-tuning of agents.

What are the key components of agent observability?

Key components include:- Tracking actions: Monitoring each step taken by the agent. - Tool usage: Observing the tools and resources the agent uses.- Latency measurement: Monitoring response times to optimize performance.- Evaluations: Assessing agent behavior and model performance.- Malicious input detection: Identifying harmful prompts or attacks.

Agente de IA Marcos de IA agencial

15 herramientas de observabilidad de agentes de IA en 2026: AgentOps y Langfuse

Cem Dilmegani

actualizado el Ene 29, 2026

Vea nuestra normas éticas

Las herramientas de observabilidad de agentes de IA, como Langfuse y Arize, ayudan a recopilar rastros detallados (un registro de la ejecución de un programa o transacción) y proporcionan paneles de control para realizar un seguimiento de las métricas en tiempo real .

Muchos marcos de trabajo para agentes , como LangChain, utilizan el estándar OpenTelemetry para compartir metadatos con la monitorización de agentes. Además, muchas herramientas de observabilidad ofrecen instrumentación personalizada para una mayor flexibilidad.

Probamos 15 plataformas de observabilidad para aplicaciones LLM y agentes de IA. Implementamos cada plataforma de forma práctica, configurando flujos de trabajo, integraciones y escenarios de prueba. Evaluamos el rendimiento de 4 herramientas de observabilidad para determinar si generaban sobrecarga en los flujos de trabajo de producción. También presentamos un tutorial de observabilidad de LangChain utilizando Langfuse .

Referencia comparativa de herramientas de monitorización de agentes

Integramos cada plataforma de observabilidad en nuestro sistema de planificación de viajes multiagente y ejecutamos 100 consultas idénticas para medir su sobrecarga de rendimiento en comparación con una referencia sin instrumentación. Lea nuestra metodología de evaluación comparativa.

LangSmith demostró una eficiencia excepcional con prácticamente ningún coste adicional apreciable, lo que la hace ideal para entornos de producción donde el rendimiento es fundamental.
Laminar introdujo una sobrecarga mínima del 5%, lo que la hace muy adecuada para entornos de producción donde el rendimiento es fundamental.
AgentOps y Langfuse mostraron una sobrecarga moderada del 12 % y el 15 % respectivamente, lo que representa un equilibrio razonable entre las funciones de observabilidad y el impacto en el rendimiento. Estas plataformas mantienen una latencia aceptable para la mayoría de los casos de uso en producción.

Posibles razones de las diferencias de rendimiento

Nuestras pruebas de rendimiento indican que las diferencias de latencia dependen de la profundidad de la instrumentación y la implicación en la ruta de ejecución, especialmente en flujos de trabajo multiagente. Las herramientas que ofrecen una observabilidad más profunda a nivel de paso mostraron una mayor sobrecarga, mientras que los enfoques de rastreo más ligeros se mantuvieron más cerca del nivel de referencia.

1. Profundidad de instrumentación en la ruta de ejecución

Las herramientas de observabilidad añaden lógica al flujo de ejecución del agente para capturar rastros y metadatos. Cuando esta lógica se ejecuta de forma síncrona durante el procesamiento de solicitudes, aumenta directamente la latencia de extremo a extremo, ya que el agente debe completar este trabajo adicional antes de devolver una respuesta.

Por ejemplo:

LangSmith no añadió prácticamente ningún coste adicional medible (~0%), lo que indica poco trabajo síncrono.
La instrumentación a nivel de pasos más profunda de Langfuse contribuyó a una mayor sobrecarga (~15%).

2. Amplificación de eventos a través de flujos de trabajo de múltiples pasos

En los sistemas multiagente, una única solicitud de usuario desencadena múltiples acciones de los agentes. Cuando una herramienta registra datos detallados en cada paso, el número total de eventos crece rápidamente, lo que aumenta la sobrecarga de procesamiento y gestión de trazas a medida que el flujo de trabajo se vuelve más complejo.

En los resultados de referencia:

Langfuse y AgentOps generaron costos generales notablemente más altos (15 % y 12 %) en nuestro flujo de trabajo de planificación de viajes de varios pasos.
LangSmith y Laminar emitieron menos eventos por paso del agente.

3. Sobrecarga de evaluación y validación en línea

Algunas plataformas realizan comprobaciones o monitorización adicionales mientras el agente está en funcionamiento. Si bien cada comprobación es sencilla, aplicarlas repetidamente en todos los pasos del agente añade una latencia considerable.

Por ejemplo:

La monitorización a nivel de ciclo de vida de AgentOps coincidió con una sobrecarga del 12 %.
Laminar no mostró evidencia de que la evaluación en línea afectara la ejecución, manteniéndose en ~5%.

4. Frecuencia de serialización y persistencia

La captura de datos de observabilidad detallados requiere serializar los rastros y escribirlos en el almacenamiento o en sistemas de almacenamiento externos. Un mayor nivel de detalle en los rastros aumenta la frecuencia con la que esto ocurre, lo que añade una sobrecarga de E/S a cada solicitud.

En nuestro punto de referencia:

El seguimiento detallado de las indicaciones, la salida y los tokens de Langfuse resultó en la mayor sobrecarga (~15%).
Los artefactos de traza más leves de LangSmith se mantuvieron cerca del nivel de referencia.

5. Estrechez de integración con el marco del agente.

El grado de integración de una herramienta con el marco de trabajo del agente afecta al rendimiento. Una integración más estrecha reduce los pasos de traducción y orquestación, mientras que los SDK más genéricos añaden capas de procesamiento adicionales.

Por ejemplo:

La estrecha alineación de LangSmith con la ejecución del agente se correlacionó con una sobrecarga de aproximadamente el 0 %.
AgentOps y Langfuse mostraron un mayor impacto en la latencia, lo que concuerda con rutas de integración más desacopladas.

Plataformas de observabilidad de agentes de IA

Nivel 1: LLM de grano fino y observabilidad de mensajes/salidas

* Las funcionalidades que se muestran en estas columnas son ejemplos ilustrativos de lo que cada herramienta puede monitorizar al integrarse o personalizarse. Estas funcionalidades no son exclusivas de ninguna plataforma en particular.

Nivel 2: Observabilidad del flujo de trabajo, el modelo y la evaluación

Nivel 3: Observabilidad del ciclo de vida y las operaciones de los agentes

Nivel 4: Monitorización de sistemas e infraestructura (no nativa de agentes)

Datadog (con su módulo de observabilidad LLM) y Prometheus (a través de exportadores) se utilizan cada vez más junto con Langfuse/LangSmith.

Plataformas de desarrollo y orquestación de agentes :

Herramientas como Flowise , Langflow , SuperAGI y CrewAI permiten crear, orquestar y optimizar los flujos de trabajo de los agentes con interfaces sin código o con poco código.

Ediciones y precios sin necesidad de implementación

Las ediciones gratuitas varían en cuanto a límites de uso (por ejemplo, observaciones, rastros, tokens o unidades de trabajo). Los precios iniciales suelen corresponder a un plan básico, que puede tener restricciones en cuanto a funciones, usuarios o límites de uso.

Pesos y sesgos (tejido W&B)

Caso de uso: Depurar fallos en sistemas multiagente rastreando cómo se propagan los errores entre las llamadas de los agentes.

Figura 1: Panel de seguimiento de Weights & Biases Weave.

Weights & Biases Weave registra trazas de ejecución estructuradas para sistemas multiagente, preservando las relaciones padre-hijo entre las llamadas de los agentes. Se capturan las entradas, salidas, estados intermedios, latencia y uso de tokens por agente y por traza.

Características de monitoreo de tejido

Rastreo jerárquico de agentes en lugar de registros de solicitudes planos.
Atribución de costos y latencia a nivel de agente
Soporte nativo para evaluadores aplicado directamente a trazas.

Capacidades de evaluación

Weave también proporciona sistemas de puntuación integrados para la evaluación, que incluyen:

HallucinationFreeScorer para detectar alucinaciones,
SummarizationScorer para evaluar la calidad del resumen,
EmbeddingSimilarityScorer para similitud semántica,
ValidJSONScorer y ValidXMLScorer para la validación de formato,
PydanticScorer para el cumplimiento del esquema,
OpenAIModerationScorer para la seguridad del contenido,
Los evaluadores de RAGAS como ContextEntityRecallScorer,
ContextRelevanciaScorer para la evaluación del sistema RAG.

Ideal para: Equipos que ejecutan flujos de trabajo de varios pasos o agentes y que necesitan un análisis de la causa raíz a nivel de traza, en lugar de métricas superficiales.

Langfuse

Casos de uso: Realizar un seguimiento de las interacciones de LLM, gestionar las versiones de las solicitudes y supervisar el rendimiento del modelo con las sesiones de usuario.

Figura 2: Ejemplo de panel de control de Langfuse que muestra los detalles del rastreo. ¹

Langfuse ofrece una visibilidad profunda de la capa de mensajes, capturando mensajes, respuestas, costes y trazas de ejecución para ayudar a depurar, supervisar y optimizar las aplicaciones LLM.

Sin embargo, Langfuse puede no ser adecuado para equipos que prefieren flujos de trabajo basados en Git para la gestión de código y de indicaciones, ya que su sistema externo de gestión de indicaciones puede no ofrecer el mismo nivel de control de versiones y colaboración.

Características de monitorización de Langfuse

Visibilidad de la evolución y los patrones de uso de las indicaciones
Análisis basado en sesiones adecuado para aplicaciones orientadas al usuario.
Modelo práctico de metadatos y etiquetado para filtrado y revisión

Funcionalidades de nivel empresarial:

Algunas de estas características incluyen:

Niveles de registro : Ajuste el nivel de detalle de los registros para obtener información más precisa.
Multimodalidad : Admite texto , imágenes , audio y otros formatos para aplicaciones LLM multimodales.
Versiones y control de versiones : Realice un seguimiento del historial de versiones y vea cómo las nuevas versiones afectan al rendimiento del modelo.
URLs de seguimiento : Acceda a seguimientos detallados mediante URLs únicas para una inspección y depuración más exhaustivas.
Gráficos de agentes : Visualice las interacciones y dependencias entre agentes para comprender mejor su comportamiento.
Muestreo : Recopile datos representativos de las interacciones para analizarlos sin sobrecargar el sistema.
Seguimiento de tokens y costes : Realice un seguimiento del uso de tokens y los costes de cada llamada al modelo, lo que garantiza una gestión eficiente de los recursos.
Enmascaramiento : Proteja los datos confidenciales enmascarándolos en trazas, garantizando así la privacidad y el cumplimiento normativo.

Ideal para: Equipos que trabajan en la iteración de indicaciones y supervisan el uso en producción, especialmente donde las sesiones de usuario son importantes.

Galileo

Casos de uso: Monitorizar el coste/latencia, evaluar la calidad de la salida, bloquear respuestas inseguras y proporcionar soluciones prácticas.

Figura 3: Gráficos que muestran la calidad de la selección de herramientas, la adherencia al contexto, la compilación de acciones del agente y el tiempo hasta el primer token.

Galileo realiza un seguimiento de los costes, la latencia y las métricas de calidad de salida, al tiempo que aplica comprobaciones de seguridad y cumplimiento en tiempo real.

La plataforma combina la observabilidad tradicional (latencia, coste, rendimiento) con la depuración y evaluación basadas en inteligencia artificial (detección de alucinaciones, veracidad de los hechos, coherencia, adhesión al contexto).

Características de monitoreo de Galileo

Identificación del modo de fallo más allá de los errores superficiales (por ejemplo, alucinaciones que provocan entradas de herramientas no válidas).
Retroalimentación prescriptiva, como sugerencias de cambios en las indicaciones o adiciones de pocas tomas.
Estrecha relación entre los resultados de la evaluación y las soluciones recomendadas.

Ideal para: Organizaciones que priorizan la calidad de los resultados, la seguridad y los ciclos de iteración rápidos con corrección guiada.

IA de barandillas

Casos de uso: Prevenir resultados perjudiciales, validar las respuestas de LLM y garantizar el cumplimiento de las políticas de seguridad.

Figura 4: Panel de control del comportamiento de los guardias que muestra las diferencias en la duración de la ejecución de los guardias y los fallos de los mismos.

Guardrails valida las entradas y salidas de LLM según reglas configurables, que incluyen toxicidad, sesgo, exposición a información de identificación personal, detección de alucinaciones y cumplimiento del formato.

Características de monitoreo de IA de Guardrails

Validación determinista mediante especificaciones RAIL
Sistemas de protección de entrada para inyección rápida y detección de jailbreak
Reintentos automáticos cuando falla la validación.

Más adecuado para
Equipos que deben hacer cumplir estrictas garantías de seguridad, cumplimiento o formato antes de que se devuelvan las respuestas.

LangSmith

Casos de uso: Razonamiento de agentes y depuración de llamadas a herramientas (centrado en LangChain)

Figura 5: Panel de control de LangSmith que muestra los rastros, incluidos sus nombres, entradas, horas de inicio y latencias.

LangSmith captura el rastro completo del razonamiento de los agentes basados en LangChain, incluyendo las indicaciones, el contexto recuperado, la lógica de selección de herramientas, las entradas/salidas de las herramientas, los errores y las excepciones.

Funciones de monitorización de LangSmith

Inspección paso a paso de las rutas de decisión de los agentes.
Ejecuta la reproducción y la comparación lado a lado entre indicaciones, modelos o herramientas.
Integración estrecha con LangChain mediante funciones de devolución de llamada.

Más adecuado para
Equipos que desarrollan con LangChain y necesitan depurar en detalle razonamientos incorrectos o la invocación de herramientas.

Langtrace AI

Casos de uso: Identificación de cuellos de botella de costo y latencia en aplicaciones LLM

Figura 6: Panel de control de seguimiento de Langtrace AI.

Langtrace realiza un seguimiento del número de tokens, la duración de la ejecución, los costes de la API y los parámetros de las solicitudes en las canalizaciones de LLM mediante trazas compatibles con OpenTelemetry.

Funciones de monitorización de Langtrace AI

Alineación de OpenTelemetry para la integración con sistemas backend existentes.
Visibilidad de los factores que influyen en el costo y la latencia por paso.
Plataforma ligera para el control de versiones y las pruebas de solicitudes.

Ideal para: Equipos que optimizan el rendimiento y el gasto en los flujos de trabajo de LLM en lugar de evaluar la calidad de los resultados.

Arize (Phoenix)

Casos de uso: Monitorear la deriva del modelo, detectar sesgos y evaluar los resultados de LLM con sistemas de puntuación integrales.

Figura 7: Panel de control del monitor de deriva Arize Phoenix.

Phoenix se centra en la deriva conductual, la detección de sesgos y la puntuación LLM como juez en cuanto a relevancia, toxicidad y precisión.

Sin embargo, tiene una mayor sobrecarga de integración en comparación con los proxies ligeros y no gestiona el versionado de las solicitudes de forma tan limpia como las herramientas especializadas.

Características de monitoreo de Phoenix

Núcleo de código abierto con extensiones empresariales opcionales.
Espacio interactivo con indicaciones para el desarrollo
Detección de deriva para el seguimiento de cambios de comportamiento a lo largo del tiempo.
Controles de sesgo para identificar sesgos de respuesta,
El método LLM, que actúa como criterio de evaluación, califica la precisión, la toxicidad y la relevancia.

Ideal para: Equipos que supervisan el comportamiento del modelo a largo plazo y el riesgo de regresión, en lugar de realizar iteraciones rápidas.

Agente

Casos de uso: Encontrar qué indicación funciona mejor en cada modelo.

Figura 8: Imagen que muestra varias alternativas de indicaciones de Agenta.

Agenta compara las respuestas de los modelos en función del coste, la latencia y la calidad de la salida, utilizando entradas compartidas y un contexto controlado.

Figura 9: Ejemplo de salida de Agenta.

Funciones de monitoreo de Agenta

Evaluación comparativa de modelos
Apoyo a la toma de decisiones en la fase de preproducción.

Ideal para: Evaluación en fase inicial y selección de modelos.

AgentOps.ai

Casos de uso : Monitorear el razonamiento del agente, realizar un seguimiento de los costos y depurar sesiones en producción.

Figura 10: Ejemplo de panel de reproducción de sesión de AgentOps.ai.

AgentOps registra el seguimiento del razonamiento, las llamadas a herramientas/API, el estado de la sesión, el comportamiento de almacenamiento en caché y las métricas de costes de los agentes desplegados.

Funciones de monitorización de AgentOps

Reproducción de sesiones para depuración en producción
Céntrese en el comportamiento de los agentes en tiempo real en lugar de en la evaluación fuera de línea.

Ideal para: Equipos que gestionan agentes en producción y necesitan visibilidad operativa.

Grupo de expertos

Casos de uso : Encontrar qué indicación, conjunto de datos o modelo funciona mejor con una evaluación detallada y un análisis de errores.

Figura 11: Panel de control del agente de atención al cliente de Braintrust.

Braintrust evalúa las indicaciones, los conjuntos de datos y los modelos comparándolos con los resultados esperados, realizando un seguimiento de la latencia, el coste, los errores de las herramientas y las métricas de ejecución.

Características de monitoreo de Braintrust

Evalúe los conjuntos de datos de prueba con entradas y salidas esperadas, luego compare las indicaciones o modelos uno al lado del otro usando variables como {{input}}, {{expected}} y {{metadata}}.
Desglose de métricas que incluye la calidad de ejecución de la herramienta

Ideal para: Equipos que realizan pruebas comparativas de modelos y recomendaciones antes de su implementación.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

AgenteNeo

Casos de uso : Depuración de interacciones entre múltiples agentes, seguimiento del uso de herramientas y evaluación de flujos de trabajo de coordinación.

AgentNeo realiza un seguimiento de la comunicación entre agentes, el uso de herramientas, los gráficos de ejecución y el coste y la latencia por agente mediante un SDK de Python.

Funciones de monitorización de AgentNeo

De código abierto y ejecutable localmente.
Panel de control local interactivo (localhost:3000) para la monitorización en tiempo real de flujos de trabajo multiagente.
Integración mediante decoradores (por ejemplo, @tracer.trace_agent, @tracer.trace_tool)

Ideal para: Equipos de ingeniería que experimentan con sistemas multiagente.

Laminado

Caso de uso : Realizar un seguimiento del rendimiento en diferentes marcos y modelos LLM.

Figura 12: Ejemplo de panel de seguimiento de trazas de Laminar.

Laminar realiza un seguimiento de los periodos de ejecución, los costes, el uso de tokens y los percentiles de latencia en todos los marcos y modelos LLM.

Características de monitoreo laminar

Análisis de rendimiento independiente del marco de trabajo
Inspección detallada de tramos.

Ideal para: Análisis comparativo del rendimiento en pilas de tecnologías heterogéneas.

Helicone

Casos de uso: Realizar un seguimiento de los flujos de trabajo de los agentes que constan de varios pasos y analizar los patrones de las sesiones de los usuarios.

Figura 12: Imagen que muestra los cambios en las solicitudes, los costos, los errores y la latencia durante 3 meses.

Helicone registra los volúmenes de solicitudes, los costos, los errores, las tendencias de latencia y los flujos de trabajo de los agentes a nivel de sesión.

Características de monitoreo de Helicone

Visibilidad del recorrido del usuario
Análisis de tendencias históricas.

Ideal para: Equipos de producto que supervisan los patrones de uso y el comportamiento de los usuarios.

Coval

Casos de uso: Simular miles de conversaciones entre agentes, probar interacciones de voz/chat y validar el comportamiento antes de la implementación.

Figura 13: Panel de evaluación de Coval que muestra los porcentajes de objetivos alcanzados, identidad verificada, repetición correcta, claridad del agente e información incorrecta.

Coval simula miles de conversaciones para medir la finalización de las tareas, la corrección y la eficacia del uso de las herramientas.

Características de monitoreo de Coval

Pruebas de agentes basadas en simulación
Detección automática de regresión
Soporte mediante agente de voz y texto.

Ideal para: Validación previa al despliegue y detección de regresiones.

Perro de datos

Casos de uso : Observabilidad de la infraestructura y las aplicaciones con correlación de señales LLM.

Datadog recopila métricas de infraestructura (CPU, memoria, red), datos de rendimiento de la aplicación (latencia, tasas de error, rendimiento) y registros. Para aplicaciones LLM, puede ingerir el uso de tokens, el costo por solicitud, la latencia del modelo y señales relacionadas con la seguridad, como intentos de inyección de mensajes.

Características de monitorización de Datadog

Observabilidad amplia y a nivel de sistema en infraestructura, aplicaciones y cargas de trabajo de IA.
Amplio ecosistema de integración (más de 900 integraciones) que permite correlacionar el comportamiento de la IA con el estado de la infraestructura.

Ideal para: Organizaciones que desean correlacionar el comportamiento de LLM con la infraestructura subyacente y el rendimiento de la aplicación, en lugar de inspeccionar el razonamiento del agente o las indicaciones.

Prometeo

Casos de uso: Monitorizar el rendimiento del sistema, realizar un seguimiento de las métricas de las aplicaciones y configurar alertas para problemas de infraestructura.

Prometheus es un sistema de monitorización de código abierto que recopila métricas de series temporales de puntos finales HTTP a intervalos regulares para realizar un seguimiento de la infraestructura, las aplicaciones, las bases de datos, los contenedores y las métricas empresariales personalizadas.

Características de monitorización de Prometheus

Recopilación de métricas de series temporales mediante web scraping basado en extracción
PromQL para consultas, agregación y condiciones de alerta
Ecosistema de exportadores (por ejemplo, Node Exporter) para una amplia cobertura del sistema.

Ideal para: Monitorización de infraestructuras y aplicaciones con alertas basadas en reglas.

Grafana

Casos de uso : Visualizar métricas, crear paneles de control y enrutar alertas a través de datos de LLM, agentes e infraestructura.

Figura 14: Panel de seguimiento que muestra el cambio en la tasa de solicitudes, el total de tokens de uso, el costo promedio de uso y el costo total de uso.

Grafana es una plataforma de visualización y análisis de código abierto que se integra con fuentes de datos como Prometheus, OpenTelemetry y Datadog para proporcionar paneles de control de observabilidad unificados.

Funciones de monitorización de Grafana

Paneles de control que abarcan métricas, registros y trazas.
Correlación entre sistemas para señales LLM, de agentes y de infraestructura
Enrutamiento de alertas y gestión de notificaciones.

Ideal para: Visualización centralizada de la observabilidad y respuesta ante incidentes.

Tutorial: Observabilidad de LangChain con Langfuse

Hemos construido una canalización LangChain de varios pasos con tres etapas:

análisis de preguntas
generación de respuestas
verificación de respuesta

Tras configurar el flujo de trabajo, lo conectamos a Langfuse para monitorizar y realizar un seguimiento de la ejecución en tiempo real. De este modo, pudimos explorar cómo Langfuse nos ayuda a obtener información detallada sobre el rendimiento, los costes y el comportamiento de las aplicaciones de IA.

Esto es lo que observamos a través de Langfuse:

Descripción general del panel de control

Figura 15: Paneles de control de Langfuse para la gestión de costes, uso y latencia.

Langfuse nos proporcionó varios paneles de control que nos permiten visualizar diferentes aspectos del rendimiento del pipeline:

Panel de costes : Este panel realiza un seguimiento del gasto en todas las llamadas a la API, con desgloses detallados por modelo y período de tiempo.
Gestión de uso : Supervisa las métricas de ejecución, como el número de observaciones y la asignación de recursos, lo que nos ayuda a realizar un seguimiento de cómo se utilizan los recursos durante la ejecución.
Panel de latencia : Este panel nos ayudó a analizar los tiempos de respuesta, detectar cuellos de botella y visualizar las tendencias de rendimiento.

Métricas de uso

Figura 16: Imagen que muestra las métricas de uso de Langfuse, incluyendo el recuento total de trazas, el recuento total de observaciones y el recuento total de puntuaciones (tanto numéricas como categóricas).

El panel de métricas de uso nos proporcionó la siguiente información sobre el rendimiento del sistema:

Recuento total de trazas : Registramos ocho trazas, cada una de las cuales representa un ciclo completo de pregunta-respuesta en el proceso.
Recuento total de observaciones: En promedio, cada traza tuvo 16 observaciones, lo que refleja la naturaleza de múltiples pasos del proceso.

Además, Langfuse nos permite realizar un seguimiento de los patrones de uso , la asignación de recursos y los momentos de mayor actividad durante los últimos 7 días, lo que nos ayuda a comprender cuándo el sistema está más activo y cómo se distribuyen los recursos a lo largo del tiempo.

Inspección de trazas

Figura 17: Panel de seguimiento de Langfuse que muestra la entrada, la salida, los niveles de observabilidad, la latencia y los tokens.

Al analizar en detalle un rastro individual, pudimos ver información detallada sobre la ejecución:

Filas de seguimiento : Cada fila representa una ejecución completa de la canalización con un ID de seguimiento único.
Métricas de latencia : El tiempo de ejecución varió, oscilando entre 0,00 s y 34,08 s.
Recuento de tokens : El panel de control realiza un seguimiento del uso de tokens de entrada/salida, lo que ayuda en la gestión de costes y eficiencia.
Filtrado de entorno : Podríamos filtrar los rastros en función de los entornos de despliegue (por ejemplo, desarrollo, producción).

detalles de rastreo individual

Figura 18: Arquitectura de cadena secuencial de Langfuse.

Analizamos el rastro con mayor detalle para comprender el fallo en la ejecución:

Arquitectura de cadena secuencial : el rastro mostró un flujo visual que mostraba cada paso, comenzando desde SequentialChain → LLMChain → ChatOpenAI , con una estructura jerárquica.
Seguimiento de entrada/salida : La pregunta original, "¿Cuáles son los beneficios de usar Langfuse para la observabilidad de los agentes de IA?", se monitorizó en cada etapa, junto con las salidas respectivas producidas por la IA en cada paso.
Análisis de tokens : Observamos que se utilizaron 1.203 tokens para la entrada y 1.516 tokens para la salida, lo que tiene implicaciones en los costos relacionados con el uso de tokens y ayuda a optimizar la gestión de recursos.
Datos de temporización : La latencia total para el seguimiento completo fue de 34,08 s , desglosada por cada componente:
- Cadena secuencial → 14,02 s
- LLMChain → 10,25 s
- ChatOpenAI → 9.81s
Información del modelo : Langfuse confirmó el uso del modelo Claude-Sonnet-4 Anthropic , con detalles sobre la configuración específica, incluida la configuración de temperatura.
Salida formateada : Se proporcionaron vistas tanto de vista previa como en formato JSON para la depuración, lo que permitió comprender la respuesta del modelo tanto en formato legible para humanos como para máquinas.

Análisis automatizado

Figura 19: Ejemplo de evaluaciones automatizadas de Langfuse.

Langfuse también proporcionó evaluaciones automatizadas de nuestras respuestas:

Evaluación de la calidad : El sistema evaluó la estructura, la coherencia y la exhaustividad de las respuestas, destacando las secciones bien organizadas, pero sugiriendo que las respuestas podrían ser más concisas.
Sugerencias de mejora : Se identificaron secciones redundantes, se sugirió dónde se podría mejorar la redacción y se combinaron puntos relacionados para que la respuesta fuera más transparente y eficiente.
Información sobre el rendimiento : El sistema proporcionó información sobre el uso de los tokens y la relevancia de las respuestas, lo que nos ayudó a optimizar la eficiencia al tiempo que garantizaba que el resultado siguiera siendo útil y pertinente.
Retroalimentación estructurada : La retroalimentación se organizó en categorías, lo que nos permitió abordar áreas específicas de mejora de manera dirigida.

Análisis de usuarios

Figura 20: La imagen muestra la actividad anónima de los usuarios, incluyendo la primera y la última interacción de cada usuario, el volumen de eventos, el consumo de tokens y los costos asociados para ayudar a analizar la participación, el uso de recursos y la asignación de presupuesto.

Langfuse realiza un seguimiento detallado de las interacciones entre los usuarios y el agente de IA:

Cronología de la actividad del usuario : Muestra la primera y la última interacción de cada usuario, lo que ayuda a identificar a los usuarios activos frente a los inactivos. Podemos ver cuándo los usuarios interactuaron con el sistema por primera y última vez.
Seguimiento del volumen de eventos : Registra la cantidad de eventos que cada usuario generó. Por ejemplo, algunos usuarios generaron más de 2000 eventos, lo que demuestra su nivel de interacción con el sistema.
Análisis del consumo de tokens : Registra la cantidad total de tokens consumidos por cada usuario. El uso de tokens osciló entre 6590 y 357 000 tokens, lo que proporciona información sobre el uso de recursos.
Atribución de costes : Desglosa los costes asociados a cada usuario, lo que facilita el seguimiento del gasto y la optimización de la asignación presupuestaria para el uso de los recursos.
Identificación de usuario : Utiliza identificadores de usuario anonimizados para mantener la privacidad al tiempo que se realiza un seguimiento de las interacciones individuales de los usuarios, lo que ayuda con el análisis de uso sin comprometer la confidencialidad del usuario.

Figura 21: Ejemplo de la vista de sesión, que muestra el flujo completo de la conversación junto con el código Python ejecutado, correlacionando las entradas del usuario con las salidas del sistema y mostrando los metadatos de la sesión para ofrecer una visión completa de cómo se procesó la interacción.

La vista de sesión nos permite realizar un seguimiento de los detalles más específicos de las interacciones del usuario:

Flujo completo de la conversación : Muestra la interacción completa de preguntas y respuestas, lo que facilita seguir toda la conversación de principio a fin.
Visibilidad de la implementación : Muestra el código Python real utilizado durante la sesión, lo que permite comprender mejor la implementación técnica.
Correlación entrada/salida : Vincula las preguntas del usuario con las respuestas correspondientes del sistema, lo que nos ayuda a solucionar problemas e identificar dónde pueden haber ocurrido incidencias en la conversación.
Metadatos de la sesión : Incluyen detalles técnicos como la temporización, el contexto del usuario y datos de implementación específicos, lo que ofrece una visión completa de la ejecución de la sesión.

Cuándo no utilizar herramientas de observabilidad

Desarrollo en fase inicial : Si aún está validando la adecuación del producto al mercado o desarrollando los primeros flujos de trabajo de sus agentes, debe centrarse en la funcionalidad principal en lugar de en una observabilidad exhaustiva.
Cuellos de botella en la API : Si sus principales problemas son los costos de la API, la latencia o el almacenamiento en caché, la prioridad inmediata debería ser optimizar estas áreas, no realizar un seguimiento de las métricas a nivel del sistema.
Optimización del modelo : Si las mejoras se deben principalmente a la selección del modelo, el ajuste fino o la ingeniería rápida, es posible que aún no sean necesarias las herramientas de observabilidad para detectar la deriva y el sesgo.

Cuándo utilizar herramientas de observabilidad

Producción a gran escala : Cuando se opera con múltiples modelos, agentes o cadenas, las herramientas de observabilidad son esenciales para supervisar el rendimiento y garantizar la salud del sistema.
Aplicaciones empresariales o de cara al cliente : Para aplicaciones en las que la fiabilidad, la seguridad y el cumplimiento normativo son imprescindibles, las herramientas de observabilidad proporcionan la visibilidad y el control necesarios.
Monitorización continua : Cuando se necesita monitorizar la deriva, el sesgo, el rendimiento y los problemas de seguridad a lo largo del tiempo, que no se pueden detectar fácilmente con scripts básicos o comprobaciones manuales, las herramientas de observabilidad son cruciales.
Escenarios de alto riesgo : En entornos donde el coste de un fallo (por ejemplo, alucinaciones, resultados inseguros) es significativo, la observabilidad garantiza que los riesgos se minimicen y que los problemas se detecten con antelación.

Metodología de evaluación comparativa

Para evaluar la sobrecarga de rendimiento de las plataformas de observabilidad en aplicaciones LLM de producción, desarrollamos un enfoque de evaluación comparativa sistemático utilizando un flujo de trabajo de agentes del mundo real.

Aplicación de prueba

Hemos desarrollado un sistema secuencial de planificación de viajes multiagente utilizando LangChain que procesa las solicitudes de viaje en lenguaje natural a través de cinco etapas:

Agente de análisis : Extrae datos estructurados (origen, destino, fechas, duración) de la entrada del usuario.
Agente buscador de vuelos : Recupera los vuelos disponibles a través de la API de Amadeus.
Agente de reportero meteorológico : Obtiene pronósticos meteorológicos del destino utilizando WeatherAPI.
Agente recomendador de actividades : Sugiere actividades en función de las condiciones meteorológicas.
Agente planificador de viajes : Sintetiza todos los resultados en un itinerario completo.

El sistema utiliza Claude 4 Haiku a través de OpenRouter para todas las llamadas LLM e integra API externas para datos en tiempo real.

Diseño de referencia

Establecimiento de la línea base: Primero medimos el rendimiento de la aplicación sin ningún tipo de instrumentación de observabilidad, ejecutando 100 consultas idénticas para establecer una línea base de comparación.

Integración de plataformas: A continuación, integramos cinco plataformas de observabilidad líderes (LangSmith, Laminar, AgentOps, Langfuse) una a una, instrumentando los mismos puntos de rastreo en todas las plataformas para garantizar la coherencia.

Ejecución secuencial: Cada plataforma se probó de forma independiente ejecutando las 100 consultas consecutivamente antes de pasar a la siguiente. Este enfoque minimiza la variabilidad derivada de factores externos como las condiciones de la red o los límites de velocidad de la API.

Entorno controlado: Todas las pruebas se ejecutaron en la misma infraestructura de servidor con conjuntos de consultas idénticos para garantizar una comparación justa. Para aislar la sobrecarga derivada de las variaciones de latencia inducidas por LLM, configuramos el modelo con temperatura=0 y solicitudes estructuradas para minimizar la variabilidad de respuesta entre ejecuciones.

Métricas recopiladas

Para cada plataforma, medimos la latencia promedio y calculamos la sobrecarga como la latencia adicional introducida en comparación con la línea base: ((Platform Latency - Base Latency) / Base Latency) × 100

Preguntas frecuentes

La observabilidad es la capacidad de comprender el funcionamiento interno de un agente de IA mediante el examen de señales externas como registros, métricas y trazas.

En el caso de los agentes de IA, esto implica supervisar las acciones, el uso de herramientas, las interacciones del modelo y las respuestas para solucionar problemas y mejorar el rendimiento.

La observabilidad de los agentes es crucial para el seguimiento y la mejora del rendimiento de la IA, ya que permite:

Comprender las ventajas y desventajas : Ayuda a medir métricas clave como la precisión y el coste, lo que facilita encontrar un equilibrio entre el rendimiento y el uso de recursos.

Medición de la latencia : El seguimiento de la latencia en tiempo real ofrece información sobre los tiempos de respuesta, lo que ayuda a optimizar el rendimiento de los agentes.

Detección de entradas maliciosas : La observabilidad ayuda a identificar lenguaje dañino e inyecciones de código, lo que permite una intervención rápida para prevenir problemas.

Monitorización de la retroalimentación del usuario : Al observar las interacciones y la retroalimentación de los usuarios, la observabilidad proporciona datos valiosos para la mejora continua y el ajuste preciso de los agentes.

Los componentes clave incluyen:

– Seguimiento de acciones : Monitorizar cada paso que da el agente.
– Uso de herramientas : Observar las herramientas y los recursos que utiliza el agente.
– Medición de la latencia : Monitorización de los tiempos de respuesta para optimizar el rendimiento.
– Evaluaciones : Evaluación del comportamiento del agente y del rendimiento del modelo.
– Detección de entradas maliciosas : Identificación de mensajes o ataques dañinos.

Enlaces de referencia

Model Usage & Cost Tracking for LLM applications (open source) - Langfuse

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

Siguiente para leer

Agentes de IAAbr 27

Agentes de uso de computadoras: evaluación comparativa y arquitectura

Cem Dilmegani

Web agencialMay 25

Búsqueda basada en agentes en 2026: Evaluación comparativa de 8 API de búsqueda para agentes

Hazal Şimşek

con

Ekrem Sarı

Gestión de servicios de TIMay 6

15 herramientas de observabilidad de agentes de IA en 2026: AgentOps y Langfuse

Referencia comparativa de herramientas de monitorización de agentes

Posibles razones de las diferencias de rendimiento

1. Profundidad de instrumentación en la ruta de ejecución

2. Amplificación de eventos a través de flujos de trabajo de múltiples pasos

3. Sobrecarga de evaluación y validación en línea

4. Frecuencia de serialización y persistencia

5. Estrechez de integración con el marco del agente.

Plataformas de observabilidad de agentes de IA

Nivel 1: LLM de grano fino y observabilidad de mensajes/salidas

Nivel 2: Observabilidad del flujo de trabajo, el modelo y la evaluación

Nivel 3: Observabilidad del ciclo de vida y las operaciones de los agentes

Nivel 4: Monitorización de sistemas e infraestructura (no nativa de agentes)

Plataformas de desarrollo y orquestación de agentes :

Ediciones y precios sin necesidad de implementación

Pesos y sesgos (tejido W&B)

Características de monitoreo de tejido

Capacidades de evaluación

Langfuse

Características de monitorización de Langfuse

Funcionalidades de nivel empresarial:

Galileo

Características de monitoreo de Galileo

IA de barandillas

Características de monitoreo de IA de Guardrails

LangSmith

Funciones de monitorización de LangSmith

Langtrace AI

Funciones de monitorización de Langtrace AI

Arize (Phoenix)

Características de monitoreo de Phoenix

Agente

Funciones de monitoreo de Agenta

AgentOps.ai

Funciones de monitorización de AgentOps

Grupo de expertos

Características de monitoreo de Braintrust

AgenteNeo

Funciones de monitorización de AgentNeo

Laminado

Características de monitoreo laminar

Helicone

Características de monitoreo de Helicone

Coval

Características de monitoreo de Coval

Perro de datos

Características de monitorización de Datadog

Prometeo

Características de monitorización de Prometheus

Grafana

Funciones de monitorización de Grafana

Tutorial: Observabilidad de LangChain con Langfuse

Descripción general del panel de control

Métricas de uso

Inspección de trazas

detalles de rastreo individual

Análisis automatizado

Análisis de usuarios

Cuándo no utilizar herramientas de observabilidad

Cuándo utilizar herramientas de observabilidad

Metodología de evaluación comparativa

Aplicación de prueba

Diseño de referencia

Métricas recopiladas

Preguntas frecuentes

¿Qué es la observabilidad?

¿Qué hace que la observabilidad de los agentes sea esencial para la IA?

¿Cuáles son los componentes clave de la observabilidad de los agentes?

Enlaces de referencia

Sé el primero en comentar

Siguiente para leer

Agentes de uso de computadoras: evaluación comparativa y arquitectura

Búsqueda basada en agentes en 2026: Evaluación comparativa de 8 API de búsqueda para agentes

IA agencial en ITSM: 10 casos de uso y ejemplos

Creación de agentes de IA personales + 18 plataformas y herramientas para agentes

Creación de agentes de IA con patrones componibles

Los 14 mejores agentes de IA para contabilidad