15 ferramentas de observabilidade de agentes de IA em 2026: AgentOps e Langfuse
Ferramentas de observabilidade de agentes de IA, como Langfuse e Arize, ajudam a coletar rastreamentos detalhados (um registro da execução de um programa ou transação) e fornecem painéis para acompanhar as métricas em tempo real .
Muitas estruturas de agentes , como o LangChain, usam o padrão OpenTelemetry para compartilhar metadados com o monitoramento de agentes. Além disso, muitas ferramentas de observabilidade oferecem instrumentação personalizada para maior flexibilidade.
Testamos 15 plataformas de observabilidade para aplicações LLM e agentes de IA. Cada plataforma foi implementada na prática, através da configuração de fluxos de trabalho, integração e execução de cenários de teste. Comparamos o desempenho de 4 ferramentas de observabilidade para avaliar se elas introduzem sobrecarga em pipelines de produção. Também demonstramos um tutorial de observabilidade do LangChain utilizando o Langfuse .
benchmark de sobrecarga de ferramentas de monitoramento de agentes
Integramos cada plataforma de observabilidade ao nosso sistema de planejamento de viagens multiagente e executamos 100 consultas idênticas para medir a sobrecarga de desempenho em comparação com uma linha de base sem instrumentação. Leia nossa metodologia de benchmark.
- A LangSmith demonstrou uma eficiência excepcional com praticamente nenhuma sobrecarga mensurável, tornando-a ideal para ambientes de produção com desempenho crítico.
- A tecnologia Laminar introduziu uma sobrecarga mínima de 5%, tornando-a altamente adequada para ambientes de produção onde o desempenho é crítico.
- O AgentOps e o Langfuse apresentaram sobrecarga moderada de 12% e 15%, respectivamente, representando um equilíbrio razoável entre recursos de observabilidade e impacto no desempenho. Essas plataformas ainda mantêm latência aceitável para a maioria dos casos de uso em produção.
Possíveis razões para as diferenças de desempenho
Nossos testes de benchmark indicam que as diferenças de latência são impulsionadas pela profundidade da instrumentação e pelo envolvimento do caminho de execução, particularmente em fluxos de trabalho multiagentes. Ferramentas que oferecem observabilidade mais profunda, em nível de etapa, apresentaram maior sobrecarga, enquanto abordagens de rastreamento mais leves permaneceram mais próximas da linha de base.
1. Profundidade da instrumentação no caminho de execução
As ferramentas de observabilidade adicionam lógica ao fluxo de execução do agente para capturar rastreamentos e metadados. Quando essa lógica é executada de forma síncrona durante o processamento de requisições, ela aumenta diretamente a latência de ponta a ponta, pois o agente precisa concluir esse trabalho extra antes de retornar uma resposta.
Por exemplo:
- LangSmith não adicionou praticamente nenhuma sobrecarga mensurável (~0%), indicando pouco trabalho síncrono.
- A instrumentação mais detalhada em nível de etapa do Langfuse contribuiu para uma sobrecarga maior (aproximadamente 15%).
2. Amplificação de eventos em pipelines de múltiplas etapas
Em sistemas multiagentes, uma única solicitação do usuário desencadeia múltiplas ações do agente. Quando uma ferramenta registra dados detalhados em cada etapa, o número total de eventos cresce rapidamente, aumentando a sobrecarga de processamento e rastreamento à medida que o fluxo de trabalho se torna mais complexo.
Nos resultados de referência:
- Langfuse e AgentOps geraram custos indiretos consideravelmente maiores (15% e 12%) em nosso fluxo de trabalho de planejamento de viagens com várias etapas.
- LangSmith e Laminar emitiram menos eventos por etapa do agente.
3. Sobrecarga de avaliação e validação em linha
Algumas plataformas realizam verificações ou monitoramentos adicionais enquanto o agente está em execução. Embora cada verificação seja simples, aplicá-las repetidamente em todas as etapas do agente adiciona uma latência mensurável.
Por exemplo:
- O monitoramento do ciclo de vida do AgentOps coincidiu com uma sobrecarga de 12%.
- A Laminar não apresentou evidências de que a avaliação em linha tenha afetado a execução, permanecendo em torno de 5%.
4. Serialização e frequência de persistência
A captura de dados de observabilidade detalhados exige a serialização de rastreamentos e sua gravação em armazenamento ou backends externos. Um nível de detalhamento maior nos rastreamentos aumenta a frequência desse processo, adicionando sobrecarga de E/S a cada requisição.
Em nosso estudo de referência:
- O rastreamento detalhado de prompts, saídas e tokens do Langfuse resultou na maior sobrecarga (~15%).
- Os artefatos de traço mais leves de LangSmith permaneceram próximos à linha de base.
5. Integração estreita com a estrutura do agente
O grau de integração de uma ferramenta com a estrutura do agente afeta o desempenho. Integrações mais estreitas reduzem as etapas de tradução e orquestração, enquanto SDKs mais genéricos adicionam camadas extras de processamento.
Por exemplo:
- A estreita relação entre LangSmith e a execução do agente resultou em uma sobrecarga de aproximadamente 0%.
- AgentOps e Langfuse apresentaram maior impacto na latência, o que é consistente com caminhos de integração mais desacoplados.
plataformas de observabilidade de agentes de IA
Nível 1: LLM granular e observabilidade de prompt/saída
* As funcionalidades listadas nestas colunas são exemplos ilustrativos do que cada ferramenta pode monitorar quando ampliada por meio de integrações ou personalizações. Elas não são exclusivas de uma única plataforma.
Nível 2: Observabilidade do fluxo de trabalho, modelo e avaliação
Nível 3: Observabilidade do ciclo de vida e das operações do agente
Nível 4: Monitoramento de sistemas e infraestrutura (não nativo de agentes)
O Datadog (com seu módulo de observabilidade LLM) e o Prometheus (via exportadores) são cada vez mais usados em conjunto com o Langfuse/LangSmith.
Plataformas de desenvolvimento e orquestração de agentes :
- Ferramentas como Flowise , Langflow , SuperAGI e CrewAI permitem criar, orquestrar e otimizar fluxos de trabalho de agentes com interfaces sem código ou com pouco código.
Edições e preços gratuitos para implantação
As versões gratuitas variam de acordo com os limites de uso (por exemplo, observações, rastreamentos, tokens ou unidades de trabalho). Os preços iniciais geralmente se referem a um plano básico, que pode ter restrições em relação a recursos, usuários ou limites de uso.
Pesos e Viéses (Tecelagem W&B)
Caso de uso: Depurar falhas em sistemas multiagentes rastreando como os erros se propagam pelas chamadas dos agentes.
Figura 1: Painel de rastreamento do Weights & Biases Weave.
O Weights & Biases Weave registra rastreamentos de execução estruturados para sistemas multiagentes, preservando as relações pai-filho entre as chamadas dos agentes. Entradas, saídas, estados intermediários, latência e uso de tokens são capturados por agente e por rastreamento.
Recursos de monitoramento de trama
- Rastreamento hierárquico de agentes em vez de registros de solicitações simples.
- Atribuição de custos e latência no nível do agente
- Suporte nativo para avaliadores aplicado diretamente aos traços.
Capacidades de avaliação
O Weave também oferece ferramentas de avaliação integradas, incluindo:
- HallucinationFreeScorer para detecção de alucinações,
- SummarizationScorer para avaliar a qualidade do resumo,
- EmbeddingSimilarityScorer para similaridade semântica,
- ValidJSONScorer e ValidXMLScorer para validação de formato,
- PydanticScorer para conformidade com o esquema,
- OpenAIModerationScorer para segurança de conteúdo,
- Pontuadores RAGAS como ContextEntityRecallScorer,
- ContextRelevancyScorer para avaliação do sistema RAG.
Ideal para: Equipes que executam fluxos de trabalho com várias etapas ou vários agentes e que precisam de análise de causa raiz em nível de rastreamento, em vez de métricas superficiais.
Langfuse
Casos de uso: Rastrear interações do LLM, gerenciar versões de prompts e monitorar o desempenho do modelo com sessões de usuário.
Figura 2: Exemplo de painel do Langfuse mostrando detalhes do rastreamento. 1
O Langfuse oferece visibilidade profunda da camada de prompts, capturando prompts, respostas, custos e rastreamentos de execução para ajudar a depurar, monitorar e otimizar aplicativos LLM.
No entanto, o Langfuse pode não ser adequado para equipes que preferem fluxos de trabalho baseados em Git para gerenciamento de código e prompts, já que seu sistema externo de gerenciamento de prompts pode não oferecer o mesmo nível de controle de versão e colaboração.
Recursos de monitoramento Langfuse
- Visibilidade da evolução imediata e dos padrões de uso
- Análise baseada em sessões, adequada para aplicações voltadas para o usuário.
- Modelo prático de metadados e etiquetagem para filtragem e revisão.
Funcionalidades de nível empresarial:
Algumas dessas características incluem:
- Níveis de registro : Ajuste o nível de detalhamento dos registros para obter informações mais específicas.
- Multimodalidade : Suporta texto , imagens , áudio e outros formatos para aplicações LLM multimodais.
- Lançamentos e controle de versões : acompanhe o histórico de versões e veja como os novos lançamentos afetam o desempenho do modelo.
- URLs de rastreamento : Acesse rastreamentos detalhados por meio de URLs exclusivos para inspeção e depuração adicionais.
- Gráficos de agentes : Visualize as interações e dependências entre agentes para uma melhor compreensão do seu comportamento.
- Amostragem : Coletar dados representativos das interações para análise, sem sobrecarregar o sistema.
- Rastreamento de tokens e custos : Monitore o uso de tokens e os custos para cada chamada de modelo, garantindo uma gestão eficiente de recursos.
- Mascaramento : Proteja dados sensíveis mascarando-os em vestígios, garantindo privacidade e conformidade.
Ideal para: Equipes que estão aprimorando prompts e monitorando o uso em produção, especialmente em situações onde as sessões do usuário são importantes.
Galileu
Casos de uso: Monitorar custo/latência, avaliar a qualidade da saída, bloquear respostas inseguras e fornecer correções práticas.
Figura 3: Gráficos que mostram a qualidade da seleção de ferramentas, a aderência ao contexto, a compilação da ação do agente e o tempo até o primeiro token.
O Galileo monitora métricas de custo, latência e qualidade de saída, ao mesmo tempo que aplica verificações de segurança e conformidade em tempo real.
A plataforma combina a observabilidade tradicional (latência, custo, desempenho) com a depuração e avaliação baseadas em IA (detecção de alucinações, exatidão factual, coerência, aderência ao contexto).
recursos de monitoramento do Galileo
- Identificação do modo de falha além de erros superficiais (por exemplo, alucinações que levam a entradas inválidas da ferramenta)
- Feedback prescritivo, como sugestões de alterações nos prompts ou adições de poucos disparos.
- Forte correlação entre os resultados da avaliação e as correções recomendadas.
Ideal para: Organizações que priorizam a qualidade da produção, a segurança e ciclos de iteração rápidos com correção guiada.
IA de guarda-corpos
Casos de uso: Prevenir resultados prejudiciais, validar respostas de LLM e garantir a conformidade com as políticas de segurança.
Figura 4: Painel de comportamento do guarda mostrando as diferenças na duração da execução do guarda e nas falhas do guarda.
O Guardrails valida as entradas e saídas do LLM em relação a regras configuráveis, incluindo toxicidade, viés, exposição a informações pessoais identificáveis (PII), sinalização de alucinações e conformidade com o formato.
Recursos de monitoramento de IA do Guardrails
- Validação determinística por meio de especificações RAIL
- Entradas de segurança para injeção imediata e detecção de jailbreak.
- Tentativas automáticas quando a validação falha.
Ideal para
Equipes que devem impor garantias rigorosas de segurança, conformidade ou formatação antes que as respostas sejam enviadas.
LangSmith
Casos de uso: Raciocínio do agente e depuração de chamadas de ferramentas (com foco em LangChain)
Figura 5: Painel do LangSmith mostrando os rastreamentos, incluindo seus nomes, entradas, horários de início e latências.
O LangSmith captura o rastreamento completo do raciocínio de agentes baseados em LangChain, incluindo prompts, contexto recuperado, lógica de seleção de ferramentas, entradas/saídas de ferramentas, erros e exceções.
Recursos de monitoramento LangSmith
- Inspeção passo a passo dos caminhos de decisão do agente
- Execute reproduções e comparações lado a lado entre prompts, modelos ou ferramentas.
- Integração estreita com LangChain por meio de callbacks.
Ideal para
Equipes que utilizam LangChain e precisam depurar em detalhes raciocínios incorretos ou invocações de ferramentas.
Langtrace AI
Casos de uso: Identificação de gargalos de custo e latência em aplicativos LLM
Figura 6: Painel de rastreamento de IA da Langtrace.
O Langtrace rastreia a contagem de tokens, a duração da execução, os custos da API e os parâmetros de solicitação em pipelines LLM usando rastreamentos compatíveis com OpenTelemetry.
Recursos de monitoramento de IA da Langtrace
- Alinhamento do OpenTelemetry para integração com sistemas backend existentes.
- Visibilidade dos fatores de custo e latência por etapa
- Ambiente de testes e versionamento simples e intuitivo.
Mais indicado para: Equipes que otimizam o desempenho e os gastos em fluxos de trabalho de Gestão de Aprendizagem Baseada em Liderança (LLM), em vez de avaliar a qualidade dos resultados.
Arize (Fênix)
Casos de uso: Monitorar a deriva do modelo, detectar viés e avaliar as saídas do LLM com sistemas de pontuação abrangentes.
Figura 7: Painel de controle do monitor de deriva Arize Phoenix.
O Phoenix se concentra na deriva comportamental, na detecção de vieses e na avaliação do LLM como juiz, considerando relevância, toxicidade e precisão.
No entanto, apresenta uma sobrecarga de integração maior em comparação com proxies leves e não gerencia o versionamento de prompts tão bem quanto ferramentas dedicadas.
Recursos de monitoramento do Phoenix
- Núcleo de código aberto com extensões empresariais opcionais.
- Ambiente interativo com prompts para desenvolvimento
- Detecção de deriva para rastrear mudanças comportamentais ao longo do tempo.
- Verificações de viés para identificar vieses de resposta,
- Avaliação do LLM como juiz em relação à precisão, toxicidade e relevância.
Mais indicado para: Equipes que monitoram o comportamento do modelo a longo prazo e o risco de regressão, em vez de iterações rápidas.
Agente
Casos de uso: Descobrir qual comando funciona melhor em qual modelo
Figura 8: Imagem mostrando várias alternativas de prompts da Agenta.
O Agenta compara as respostas do modelo em termos de custo, latência e qualidade de saída, usando entradas compartilhadas e contexto controlado.
Figura 9: Exemplo de saída do Agenta.
Recursos de monitoramento do Agenta
- Avaliação de modelos lado a lado
- Apoio à tomada de decisões na fase de pré-produção.
Ideal para: Avaliação em estágio inicial e seleção de modelos.
AgentOps.ai
Casos de uso : Monitorar o raciocínio do agente, rastrear custos e depurar sessões em produção.
Figura 10: Exemplo de painel de reprodução de sessão da AgentOps.ai.
O AgentOps captura rastros de raciocínio, chamadas de ferramentas/APIs, estado da sessão, comportamento de cache e métricas de custo para agentes implantados.
Recursos de monitoramento do AgentOps
- Reprodução de sessão para depuração em produção
- Foque no comportamento do agente em tempo real, em vez da avaliação offline.
Ideal para: Equipes que executam agentes em produção e precisam de visibilidade operacional.
Conselho de especialistas
Casos de uso : Identificar qual prompt, conjunto de dados ou modelo apresenta melhor desempenho, com avaliação detalhada e análise de erros.
Figura 11: Painel de controle do agente de suporte ao cliente da Braintrust.
A Braintrust avalia solicitações, conjuntos de dados e modelos em relação aos resultados esperados, monitorando latência, custo, erros de ferramentas e métricas de execução.
Recursos de monitoramento do Braintrust
- Avalie conjuntos de dados de teste com entradas e saídas esperadas e, em seguida, compare prompts ou modelos lado a lado usando variáveis como
{{input}},{{expected}}e{{metadata}}. - Análise detalhada das métricas, incluindo a qualidade de execução da ferramenta.
Ideal para: Equipes que avaliam modelos e instruções antes da implementação.
Agente Neo
Casos de uso : Depuração de interações multiagentes, rastreamento do uso de ferramentas e avaliação de fluxos de trabalho de coordenação.
O AgentNeo monitora a comunicação entre agentes, o uso de ferramentas, os gráficos de execução e o custo e a latência por agente por meio de um SDK em Python.
Recursos de monitoramento do AgentNeo
- De código aberto e executável localmente.
- Painel de controle local interativo (
localhost:3000) para monitoramento em tempo real de fluxos de trabalho multiagentes. - Integração usando decoradores (ex:
@tracer.trace_agent,@tracer.trace_tool)
Ideal para: Equipes de engenharia que experimentam sistemas multiagentes.
Laminar
Caso de uso : Rastrear o desempenho em diferentes estruturas e modelos de aprendizado de máquina.
Figura 12: Exemplo de painel de controle de rastreamento do Laminar.
A Laminar monitora os períodos de execução, custos, uso de tokens e percentis de latência em diferentes estruturas e modelos de LLM (Laminar Learning Machine).
Recursos de monitoramento laminar
- Análise de desempenho independente de framework
- Inspeção de vãos com detalhes minuciosos.
Ideal para: Análise comparativa de desempenho em diferentes arquiteturas de sistemas.
Helicone
Casos de uso: Rastrear fluxos de trabalho de agentes com várias etapas e analisar padrões de sessão do usuário.
Figura 12: Imagem mostrando 3 meses de alterações em solicitações, custos, erros e latência.
O Helicone captura volumes de solicitações, custos, erros, tendências de latência e fluxos de trabalho de agentes em nível de sessão.
Recursos de monitoramento Helicone
- Visibilidade da jornada do usuário
- Análise de tendências históricas.
Ideal para: Equipes de produto que monitoram padrões de uso e comportamento do usuário.
Coval
Casos de uso: Simular milhares de conversas entre agentes, testar interações de voz/chat e validar o comportamento antes da implementação.
Figura 13: Painel de avaliação da Coval mostrando as porcentagens de metas alcançadas, identidade verificada, repetição correta, clareza do agente e informações incorretas.
A Coval simula milhares de conversas para medir a conclusão de tarefas, a precisão e a eficácia das chamadas de ferramentas.
Recursos de monitoramento Coval
- Teste de agentes baseado em simulação
- Detecção automática de regressão
- Suporte por agentes de voz e texto.
Ideal para: Validação pré-implantação e detecção de regressões.
Datadog
Casos de uso : Observabilidade de infraestrutura e aplicações com correlação de sinal LLM.
O Datadog coleta métricas de infraestrutura (CPU, memória, rede), dados de desempenho de aplicativos (latência, taxas de erro, taxa de transferência) e logs. Para aplicativos LLM, ele pode ingerir dados de uso de tokens, custo por requisição, latência do modelo e sinais relacionados à segurança, como tentativas de injeção de prompts.
Recursos de monitoramento do Datadog
- Ampla observabilidade em todo o sistema, abrangendo infraestrutura, aplicativos e cargas de trabalho de IA.
- Amplo ecossistema de integração (mais de 900 integrações) que permite a correlação entre o comportamento da IA e a integridade da infraestrutura.
Ideal para: Organizações que desejam correlacionar o comportamento do LLM com a infraestrutura subjacente e o desempenho do aplicativo, em vez de inspecionar o raciocínio do agente ou fornecer instruções.
Prometeu
Casos de uso: Monitorar o desempenho do sistema, acompanhar as métricas do aplicativo e configurar alertas para problemas de infraestrutura.
O Prometheus é um sistema de monitoramento de código aberto que coleta métricas de séries temporais de endpoints HTTP em intervalos regulares para rastrear métricas de infraestrutura, aplicativos, bancos de dados, contêineres e métricas de negócios personalizadas.
Recursos de monitoramento do Prometheus
- Coleta de métricas de séries temporais por meio de extração de dados baseada em pull requests.
- PromQL para consultas, agregações e condições de alerta.
- Ecossistema de exportação (por exemplo, Node Exporter) para ampla cobertura do sistema.
Ideal para: Monitoramento de infraestrutura e aplicações com alertas baseados em regras.
Grafana
Casos de uso : Visualizar métricas, criar painéis e encaminhar alertas entre dados do LLM, agentes e infraestrutura.
Figura 14: Painel de rastreamento mostrando a mudança na taxa de solicitações, tokens de uso total, custo médio de uso e custo total de uso.
O Grafana é uma plataforma de visualização e análise de código aberto que se integra a fontes de dados como Prometheus, OpenTelemetry e Datadog para fornecer painéis de observabilidade unificados.
Recursos de monitoramento do Grafana
- Painéis de controle com métricas, registros e rastreamentos.
- Correlação entre sistemas para sinais de LLM, agentes e infraestrutura
- Encaminhamento de alertas e gerenciamento de notificações.
Ideal para: Visualização centralizada de observabilidade e resposta a incidentes.
Tutorial: Observabilidade do LangChain com Langfuse
Construímos um pipeline LangChain de várias etapas com três fases:
- análise de questões
- geração de respostas
- verificação de resposta
Após configurar o pipeline, conectamos ele ao Langfuse para monitorar e acompanhar a execução em tempo real. Dessa forma, conseguimos explorar como o Langfuse nos ajuda a obter informações detalhadas sobre o desempenho, os custos e o comportamento de aplicações de IA.
Eis o que observamos através do Langfuse:
Visão geral do painel de controle
Figura 15: Painéis de controle de custo, gerenciamento de uso e latência do Langfuse.
A Langfuse nos forneceu diversos painéis que nos dão visibilidade de diferentes aspectos do desempenho do pipeline:
- Painel de Custos : Este painel monitora os gastos em todas as chamadas de API, com detalhamentos por modelo e período.
- Gerenciamento de Uso : Monitora métricas de execução, como contagens de observações e alocação de recursos, ajudando-nos a rastrear como os recursos são usados durante a execução.
- Painel de Latência : Este painel nos ajudou a analisar os tempos de resposta, detectar gargalos e visualizar as tendências de desempenho.
Métricas de utilização
Figura 16: Imagem mostrando as métricas de uso do Langfuse, incluindo a contagem total de rastreamentos, a contagem total de observações e a contagem total de pontuações (tanto numéricas quanto categóricas).
O painel de métricas de utilização forneceu-nos as seguintes informações sobre o desempenho do sistema:
- Total de rastreamentos : Rastreámos oito rastreamentos, cada um representando um ciclo completo de pergunta e resposta no pipeline.
- Número total de observações: Em média, cada registro continha 16 observações, refletindo a natureza de múltiplas etapas do processo.
Além disso, o Langfuse nos permite rastrear padrões de uso , alocação de recursos e horários de pico nos últimos 7 dias, ajudando-nos a entender quando o sistema está mais ativo e como os recursos são distribuídos ao longo do tempo.
Inspeção de vestígios
Figura 17: Painel de rastreamento do Langfuse mostrando entrada, saída, níveis de observabilidade, latência e tokens.
Ao analisar um rastreamento individual, conseguimos visualizar informações detalhadas sobre a execução:
- Linhas de rastreamento : Cada linha representa uma execução completa do pipeline com um ID de rastreamento exclusivo.
- Métricas de latência : O tempo de execução variou, de 0,00s a 34,08s.
- Contagem de tokens : O painel de controle rastreia o uso de tokens de entrada/saída, o que auxilia no gerenciamento de custos e na otimização da eficiência.
- Filtragem de ambiente : Podemos filtrar os rastreamentos com base nos ambientes de implantação (por exemplo, desenvolvimento, produção).
Detalhes de rastreamento individual
Figura 18: Arquitetura de cadeia sequencial de Langfuse.
Analisamos o rastreamento com mais detalhes para entender a falha na execução:
- Arquitetura de cadeia sequencial : O rastreamento exibiu um fluxo visual mostrando cada etapa, começando de SequentialChain → LLMChain → ChatOpenAI , com estrutura hierárquica.
- Rastreamento de entrada/saída : A pergunta original, "Quais são os benefícios de usar o Langfuse para a observabilidade de agentes de IA?", foi rastreada em cada etapa, juntamente com as respectivas saídas produzidas pela IA em cada passo.
- Análise de tokens : Observamos que 1.203 tokens foram usados para entrada e 1.516 tokens para saída, o que tem implicações de custo relacionadas ao uso de tokens e ajuda a otimizar o gerenciamento de recursos.
- Dados de temporização : A latência total para o rastreamento completo foi de 34,08s , dividida entre cada componente:
- SequentialChain → 14,02s
- LLMChain → 10,25s
- ChatOpenAI → 9,81s
- Informações sobre o modelo : A Langfuse confirmou o uso do modelo Anthropic Claude-Sonnet-4 , com detalhes sobre as configurações específicas, incluindo a configuração de temperatura.
- Saída formatada : Foram fornecidas visualizações de pré-visualização e JSON para depuração, oferecendo informações sobre a resposta do modelo em formato legível para humanos e para máquinas.
Análise automatizada
Figura 19: Exemplo de avaliações automatizadas do Langfuse.
A Langfuse também forneceu avaliações automatizadas de nossas respostas:
- Avaliação da qualidade : O sistema avaliou a estrutura, a coerência e a completude das respostas, destacando as seções bem organizadas, mas sugerindo que as respostas poderiam ser mais concisas.
- Sugestões de melhoria : Identificou trechos redundantes, sugerindo onde a redação poderia ser aprimorada, e combinou pontos relacionados para tornar a resposta mais transparente e eficiente.
- Análise de desempenho : O sistema forneceu feedback sobre o uso de tokens e a relevância das respostas, ajudando-nos a otimizar a eficiência e, ao mesmo tempo, garantindo que o resultado permanecesse útil e pertinente.
- Feedback estruturado : O feedback foi organizado em categorias, permitindo-nos abordar áreas específicas de melhoria de forma direcionada.
Análise de usuários
Figura 20: A imagem mostra a atividade anonimizada do usuário, exibindo a primeira e a última interação de cada usuário, o volume de eventos, o consumo de tokens e os custos associados para ajudar a analisar o engajamento, o uso de recursos e a alocação de orçamento.
O Langfuse rastreia interações detalhadas entre usuários e o agente de IA:
- Linha do tempo da atividade do usuário : Exibe a primeira e a última interação de cada usuário, ajudando a identificar usuários ativos e inativos. Podemos ver quando os usuários interagiram com o sistema pela primeira e última vez.
- Rastreamento do volume de eventos : Registra o número de eventos que cada usuário gerou. Por exemplo, alguns usuários geraram mais de 2.000 eventos, demonstrando seu nível de engajamento com o sistema.
- Análise do consumo de tokens : Monitora o número total de tokens consumidos por cada usuário. O uso de tokens variou de 6,59 mil a 357 mil tokens, fornecendo informações sobre a utilização de recursos.
- Atribuição de custos : Detalha os custos associados a cada usuário, facilitando o acompanhamento dos gastos e a otimização da alocação de orçamento para o uso de recursos.
- Identificação do usuário : Utiliza IDs de usuário anonimizados para manter a privacidade enquanto rastreia as interações individuais do usuário, auxiliando na análise de uso sem comprometer a confidencialidade do usuário.
Figura 21: Um exemplo da visualização da sessão, mostrando todo o fluxo da conversa juntamente com o código Python executado, correlacionando as entradas do usuário com as saídas do sistema e exibindo os metadados da sessão para fornecer uma visão completa de como a interação foi processada.
A visualização de sessão permite rastrear detalhes minuciosos das interações do usuário:
- Fluxo completo da conversa : Mostra toda a interação de perguntas e respostas, facilitando o acompanhamento de toda a conversa do início ao fim.
- Visibilidade da implementação : Exibe o código Python real usado durante a sessão, fornecendo informações sobre a implementação técnica.
- Correlação entrada/saída : Vincula as perguntas do usuário às respostas correspondentes do sistema, ajudando-nos a solucionar problemas e identificar onde podem ter ocorrido falhas na conversa.
- Metadados da sessão : Inclui detalhes técnicos como tempo, contexto do usuário e dados específicos de implementação, oferecendo uma visão abrangente da execução da sessão.
Quando não usar ferramentas de observabilidade
- Desenvolvimento em estágio inicial : Se você ainda está validando a adequação do produto ao mercado ou criando seus primeiros fluxos de trabalho de agentes, o foco deve estar na funcionalidade principal, em vez de na observabilidade extensiva.
- Gargalos na API : Se seus principais problemas são custos de API, latência ou cache, a prioridade imediata deve ser otimizar essas áreas, e não monitorar métricas de nível de sistema.
- Otimização do modelo : Se as melhorias forem impulsionadas principalmente pela seleção do modelo, ajuste fino ou engenharia imediata, as ferramentas de observabilidade para deriva e viés podem ainda não ser necessárias.
Quando usar ferramentas de observabilidade
- Produção em escala : Quando você opera com vários modelos, agentes ou cadeias, as ferramentas de observabilidade são essenciais para monitorar o desempenho e garantir a integridade do sistema.
- Aplicações empresariais ou voltadas para o cliente : Para aplicações em que confiabilidade, segurança e conformidade são imprescindíveis, as ferramentas de observabilidade fornecem a visibilidade e o controle necessários.
- Monitoramento contínuo : Quando você precisa monitorar desvios, vieses, desempenho e problemas de segurança ao longo do tempo, que não podem ser facilmente capturados com scripts básicos ou verificações manuais, as ferramentas de observabilidade são cruciais.
- Cenários de alto risco : Em ambientes onde o custo da falha (por exemplo, alucinações, resultados inseguros) é significativo, a observabilidade garante que os riscos sejam minimizados e os problemas sejam detectados precocemente.
Metodologia de referência
Para avaliar a sobrecarga de desempenho das plataformas de observabilidade em aplicações LLM de produção, desenvolvemos uma abordagem sistemática de benchmarking usando um fluxo de trabalho agentivo do mundo real.
Aplicativo de teste
Criamos um sistema sequencial de planejamento de viagens multiagente usando LangChain, que processa solicitações de viagens em linguagem natural em cinco etapas:
- Agente de análise sintática : Extrai dados estruturados (origem, destino, datas, duração) da entrada do usuário.
- Agente de busca de voos : Recupera voos disponíveis através da API da Amadeus.
- Agente de previsão do tempo : Obtém previsões meteorológicas para o destino usando a API do Tempo.
- Agente de recomendação de atividades : sugere atividades com base nas condições climáticas.
- Agente de planejamento de viagens : Sintetiza todas as informações em um itinerário completo.
O sistema utiliza Claude 4 Haiku via OpenRouter para todas as chamadas LLM e integra APIs externas para dados em tempo real.
Design de referência
Estabelecimento da linha de base: Inicialmente, medimos o desempenho da aplicação sem qualquer instrumento de observabilidade, executando 100 consultas idênticas para estabelecer uma linha de base para comparação.
Integração de plataformas: Em seguida, integramos cinco plataformas líderes de observabilidade (LangSmith, Laminar, AgentOps, Langfuse) uma de cada vez, instrumentando os mesmos pontos de rastreamento em todas as plataformas para garantir consistência.
Execução sequencial: Cada plataforma foi testada independentemente, executando todas as 100 consultas consecutivamente antes de passar para a próxima plataforma. Essa abordagem minimiza a variabilidade causada por fatores externos, como condições de rede ou limites de taxa da API.
Ambiente controlado: Todos os testes foram executados na mesma infraestrutura de servidor com conjuntos de consultas idênticos para garantir uma comparação justa. Para isolar a sobrecarga decorrente das variações de latência induzidas pelo LLM, configuramos o modelo com temperatura = 0 e prompts estruturados para minimizar a variabilidade de resposta entre as execuções.
Métricas coletadas
Para cada plataforma, medimos a latência média e calculamos a sobrecarga como a latência adicional introduzida em comparação com a linha de base: ((Platform Latency - Base Latency) / Base Latency) × 100
Perguntas frequentes
Observabilidade é a capacidade de compreender o funcionamento interno de um agente de IA examinando sinais externos, como registros, métricas e rastreamentos.
Para agentes de IA, isso envolve o monitoramento de ações, uso de ferramentas, interações com modelos e respostas para solucionar problemas e aprimorar o desempenho.
A observabilidade do agente é crucial para monitorar e melhorar o desempenho da IA, permitindo:
Compreender as compensações : Isso ajuda a medir métricas importantes, como precisão e custo, facilitando o equilíbrio entre desempenho e uso de recursos.
Medição de latência : O monitoramento de latência em tempo real oferece informações sobre os tempos de resposta, ajudando a otimizar o desempenho do agente.
Detecção de entradas maliciosas : A observabilidade ajuda a identificar linguagem prejudicial e injeções de alerta, permitindo uma intervenção rápida para prevenir problemas.
Monitoramento do feedback do usuário : Ao observar as interações e o feedback do usuário, a observabilidade fornece dados valiosos para a melhoria contínua e o ajuste fino dos agentes.
Os principais componentes incluem:
– Rastreamento de ações : Monitoramento de cada passo dado pelo agente.
– Utilização de ferramentas : Observar as ferramentas e os recursos que o agente utiliza.
– Medição de latência : Monitoramento dos tempos de resposta para otimizar o desempenho.
– Avaliações : Avaliar o comportamento do agente e o desempenho do modelo.
– Detecção de entradas maliciosas : Identificação de solicitações ou ataques prejudiciais.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.