A avaliação de modelos requer ferramentas que analisem o raciocínio em múltiplas etapas, o desempenho em produção e o uso das ferramentas. Passamos dois dias revisando frameworks populares de avaliação de modelos que fornecem métricas estruturadas, registros e rastreamentos para identificar como e quando um modelo se desvia do comportamento esperado. Especificamente, nós:
- Verificou se as ferramentas de avaliação LLM suportam análise de rastreamento de comportamento de agentes e monitoramento de produção .
- Ferramentas agrupadas por foco de avaliação funcional .
- Comparação das capacidades de avaliação , desde testes de turno único até avaliações de múltiplos turnos em situações reais.
LLM cenário de avaliação
Categoria funcional | Ferramentas | Objetivo principal |
|---|---|---|
OpenAI Avaliações, DeepEval, MLflow (LLM Avaliação), RAGAS, TruLens, Deepchecks, Inspect AI | Avalie as saídas de LLM usando métricas de qualidade, precisão e coerência. | |
Promptfoo, Humanloop, Opik | Projetar, testar e otimizar prompts para obter melhores resultados do modelo. | |
LangChain Avaliações, LangSmith, Avaliação LlamaIndex | Avalie LLMs em ecossistemas específicos como LangChain ou LlamaIndex. | |
Arize Phoenix, Langfuse, Langtrace AI, Lunar | Monitoramento e análise contínuos do desempenho do modelo em produção. |
LLM capacidades de avaliação
Explicação das capacidades de avaliação:
- Gateway de IA (acesso a múltiplos modelos): Capacidade da plataforma de avaliar múltiplos modelos fundamentais através de uma interface de API unificada.
- Avaliações de turno único: medem o desempenho do modelo em perguntas individuais, utilizando métricas como precisão, veracidade ou coerência.
- Avaliações de múltiplas interações: Auxiliam na avaliação de trocas de informações ou conversas em várias etapas para testar o raciocínio contextual e a memória.
- Avaliações offline: As avaliações offline são usadas para verificar os resultados do aplicativo LLM antes da liberação para produção. Use avaliações offline para verificações de CI/CD do seu aplicativo LLM.
- Métricas personalizadas LLM: Permitem definir métricas de avaliação específicas do domínio ou da tarefa, além dos métodos de pontuação predefinidos.
Comportamento do agente e capacidades de monitoramento de ferramentas
As ferramentas de avaliação podem ajudar na detecção de comportamentos desalinhados dos agentes, especialmente à medida que se amplia o escopo da "avaliação" (não apenas o estímulo ou a resposta, mas também o comportamento do agente ao longo do tempo, o uso da ferramenta e os efeitos colaterais).
Anthropic sugere que avaliar como um modelo se comporta, e não apenas o que ele diz, pode se tornar uma dimensão crucial de confiança e segurança em sistemas de IA de próxima geração. 1
- Se você estiver interessado em monitoramento de produção e avaliação em nível de sistema, pode acessar a seção de frameworks de observabilidade com recursos de avaliação (LLM) .
- Leia LLM plataformas de observabilidade e avaliação para saber mais.
- Se você estiver usando RAG ou agentes de conclusão de tarefas, temos um guia separado sobre avaliação de agentes .
Estruturas de avaliação principais LLM
OpenAI Avaliação s
OpenAI Evals é uma estrutura de avaliação de código aberto desenvolvida por OpenAI para avaliar sistematicamente o desempenho de grandes modelos de linguagem (LLMs).
Trata-se de uma infraestrutura de avaliação de propósito geral que permite aos usuários medir a qualidade do modelo em uma ampla variedade de tarefas; desde a geração e o raciocínio sobre texto até a geração de saídas estruturadas, como código ou SQL.
Aqui está um exemplo de pipeline de avaliação construído com OpenAI Evals, projetado para avaliar a capacidade de um modelo de gerar consultas SQL sintaticamente corretas. A avaliação usa dados sintéticos gerados com GPT-4 e uma configuração YAML personalizada para registrar a avaliação dentro da estrutura:
Avaliação profunda
É um framework que prioriza o Python, frequentemente descrito como "pytest para LLMs". Ele se destaca por seu amplo conjunto de métricas baseadas em pesquisa e por sua capacidade de testar pipelines completos ou componentes isolados.
Aqui está um exemplo de uma avaliação de rastreamento, representando uma única execução de um aplicativo LLM. Executar avaliações em rastreamentos permite a avaliação de ponta a ponta do comportamento do modelo, semelhante às avaliações de turno único realizadas durante o desenvolvimento:
Fonte: ConfidentAI 3
MLflow (LLM Avaliação)
Ele amplia o MLflow para avaliação LLM. Seu principal ponto forte é o rastreamento de experimentos e a comparação lado a lado entre execuções e versões.
Aqui está um exemplo da visualização de comparação de avaliação do MLflow, que exibe os resultados lado a lado de várias execuções. Neste caso, a métrica de pontuação concisa melhorou em 33%, enquanto a cobertura de conceitos diminuiu em 11%.
Fonte: MLflow 4
Ragas
O RAGAS (Retrieval-Augmented Generation Assessment Suite) é uma estrutura de avaliação de código aberto projetada especificamente para medir o desempenho de aplicações de Geração Aumentada por Recuperação (RAG) e de agentes LLM. Ele fornece um ambiente de experimentação leve, semelhante ao uso do pandas para análise rápida de dados.
O RAGAS avalia a eficácia com que um sistema recupera e integra o contexto relevante em suas respostas geradas. Ele faz isso por meio de um conjunto de métricas baseadas em pesquisa, incluindo:
- Fidelidade : o grau de precisão com que a resposta gerada reflete o contexto recuperado.
- Relevância contextual : o quão relevantes os documentos recuperados são para a consulta.
- Relevância da resposta : o quão relevante a resposta gerada é para a pergunta do usuário.
- Recuperação contextual e precisão contextual : quão completa e precisamente a informação relevante é recuperada.
Essas métricas se combinam para produzir uma pontuação geral RAG, que quantifica a qualidade da recuperação e da geração. Além de RAG, o RAGAS agora oferece suporte a métricas para fluxos de trabalho com agentes, uso de ferramentas, avaliação de SQL e até mesmo tarefas multimodais por meio de extensões como Fidelidade Multimodal e Sensibilidade ao Ruído .
RAGAS também introduz novas métricas ao longo do tempo, disponíveis no repositório GitHub RAGAS aqui .
Segue abaixo uma análise da distribuição de pontuação por RAGAS:
Fonte: RAGAS 5
TruLens
TruLens é uma biblioteca de código aberto projetada para a análise qualitativa de saídas do modelo LLM. Ela opera injetando funções de feedback que são executadas após cada chamada do modelo para avaliar a resposta. É adequada para análise de raciocínio e avaliação qualitativa, não apenas para precisão.
Além dos testes de precisão, a TruLens oferece suporte à avaliação ética e comportamental:
Deepchecks (LLM)
Deepchecks (LLM) é uma estrutura de avaliação de código aberto originalmente criada para validação de modelos de aprendizado de máquina, agora estendida para grandes modelos de linguagem (LLMs) e aplicações RAG. Ela oferece módulos especificamente adaptados para avaliar pipelines de recuperação baseados em LLM.
Deepchecks (LLM) destaca-se pelo seu foco em métricas de avaliação e fluxos de trabalho de automação:
- Agente-como-Juiz
- RAG avaliação
- LLM estrutura de avaliação
- Pipelines CI/CD
Aqui está um exemplo de caso de uso de perguntas e respostas em que o modelo responde a uma pergunta médica sobre dor relacionada à GVHD (Doença do Enxerto Contra o Hospedeiro).
Fonte: Deepchecks 6
Inspecionar IA
O Inspect AI é uma estrutura de avaliação de código aberto desenvolvida com foco em avaliações de nível de pesquisa. Ele suporta avaliações tanto em nível de modelo quanto em nível de agente, permitindo que os usuários avaliem não apenas as saídas do modelo em uma única etapa, mas também o comportamento do agente em várias etapas, as cadeias de raciocínio e a execução de tarefas ao longo do tempo.
A estrutura é fácil de configurar em ambientes isolados, como contêineres Docker ou máquinas virtuais, tornando-a adequada para avaliar fluxos de trabalho com agentes de forma segura, sem expor o sistema hospedeiro. O Inspect fornece uma definição de tarefas e um modelo de execução claros, permitindo que os usuários definam rapidamente tarefas de avaliação, controlem tamanhos de amostra (por exemplo, para padrões estatísticos no estilo de CI) e integrem avaliações em pipelines automatizados.
O Inspect também fornece registros de avaliação detalhados, passo a passo, incluindo latência e uso de tokens por etapa, além de um relatório sobre ações e chamadas de ferramentas. Esse nível de detalhamento facilita o diagnóstico de onde e por que um modelo ou agente se desvia do comportamento esperado.
Outro ponto positivo do Inspect AI é que ele foi projetado para avaliação offline, priorizando a correção, a transparência e a reprodutibilidade em detrimento dos recursos de telemetria em tempo real.
Testes e otimização rápidos
Promptfoo
Promptfoo é um conjunto de ferramentas de código aberto para engenharia, teste e avaliação de prompts. Ele permite testes A/B de prompts e saídas usando configurações simples em YAML ou linha de comando e suporta avaliações com o usuário como avaliador.
O conjunto de ferramentas foi projetado para experimentação leve, não exigindo configuração em nuvem nem dependências de SDK, e é amplamente utilizado por desenvolvedores para iteração rápida de prompts e testes automatizados de robustez (como injeção de prompts ou verificações de toxicidade). Ideal para integrar a avaliação de prompts aos fluxos de trabalho de desenvolvimento diários.
Humanloop
Humanloop é uma plataforma de avaliação e otimização de resultados focada no feedback humano. Permite que as equipes coletem e analisem julgamentos humanos sobre os resultados, ajudando a melhorar a qualidade dos resultados, o alinhamento do modelo e a confiabilidade.
Opik (por Comet)
Opik é uma plataforma de avaliação e monitoramento de código aberto desenvolvida pela Comet. Ela fornece ferramentas para rastrear, avaliar e monitorar aplicações de código aberto ao longo de seu ciclo de vida de desenvolvimento e produção.
O Opik registra rastreamentos e extensões completos de fluxos de trabalho de prompts, suporta métricas automatizadas (incluindo métricas complexas como a correção factual por meio de LLM-as-a-judge) e permite a comparação de desempenho entre versões de prompts ou modelos.
Seu diferencial reside na combinação de avaliação rápida com gerenciamento de experimentos e observabilidade, preenchendo a lacuna entre testes e monitoramento da produção.
Avaliação específica da estrutura
LangChain Avaliações
O LangChain Evals é uma ferramenta de avaliação específica para fluxos de trabalho LangChain. Ele fornece um conjunto de modelos e métricas de avaliação integrados, personalizados para avaliar o desempenho de aplicações LangChain, especialmente aquelas que envolvem cadeias complexas de LLMs.
LangSmith
LangSmith é uma plataforma de avaliação e observabilidade desenvolvida pela equipe LangChain. Ela fornece ferramentas para registrar e analisar interações LLM, com recursos de avaliação especializados para tarefas como detecção de viés e testes de segurança.
Trata-se de um serviço gerenciado (hospedado), e não de uma ferramenta totalmente de código aberto, que oferece suporte de nível empresarial para aplicativos baseados em LangChain.
Avaliação do LlamaIndex
O LlamaIndex Eval é um conjunto de ferramentas de avaliação integrado à estrutura do LlamaIndex (anteriormente GPT Index), para avaliar pipelines construídos sobre o LlamaIndex. Ele inclui um Avaliador de Correção que compara as respostas geradas com respostas de referência para uma determinada consulta e também pode usar o LlamaIndex como um juiz para avaliar a qualidade da resposta de forma independente da referência.
Sua funcionalidade é semelhante à de RAGAS, mas está integrada nativamente ao fluxo de trabalho do LlamaIndex, permitindo que os desenvolvedores avaliem a qualidade da recuperação e geração sem introduzir dependências externas.
LLM estruturas de observabilidade com capacidades de avaliação
Arize Phoenix
O Phoenix, desenvolvido pela Arize AI (uma empresa de observabilidade de aprendizado de máquina), é um conjunto de ferramentas de código aberto para analisar e solucionar problemas de comportamento em ambientes de produção. Ao contrário das estruturas de avaliação tradicionais, o Phoenix se concentra na observabilidade e na análise exploratória, em vez de métricas predefinidas.
O Phoenix pode ser usado para monitorar sistemas RAG ou LLM implantados e, em seguida, recorrer a estruturas como RAGAS ou Giskard para uma avaliação mais aprofundada em nível de métricas dos problemas identificados.
Langfuse
O Langfuse concentra-se principalmente no monitoramento de sistemas de Modelo de Linguagem Amplo (Large Language Model) e Geração Aumentada por Recuperação (Retrieval-Augmented Generation). Ele ajuda as equipes a rastrear e analisar o desempenho dos modelos em ambientes de produção em tempo real.
Embora possa avaliar o desempenho do modelo por meio de várias métricas, sua principal vantagem reside em proporcionar observabilidade sobre como os pipelines LLM e RAG se comportam durante a operação. Isso inclui o rastreamento do desempenho em todas as saídas LLM, a qualidade da recuperação e a deriva do modelo, garantindo que os modelos continuem atendendo aos padrões de qualidade à medida que interagem com conjuntos de dados dinâmicos ou mudam ao longo do tempo.
Langtrace AI
A Langtrace AI é especializada na avaliação de aplicações LLM através da captura de rastreamentos detalhados e métricas de desempenho. Ela oferece ferramentas para monitorar aspectos-chave como uso de tokens, latência, precisão e custo, proporcionando uma visão abrangente do comportamento e desempenho do modelo.
Lunar
A Lunary se especializa em fornecer observabilidade profunda das interações LLM, permitindo que os desenvolvedores monitorem e avaliem o comportamento do modelo em ambientes de produção em tempo real.
LLM métricas de avaliação
As métricas de avaliação evoluíram de avaliadores estatísticos tradicionais para abordagens baseadas em modelos e agora para abordagens que consideram o avaliador como um todo. Aqui está uma breve explicação para cada uma delas:
- Métricas estatísticas (baseadas em referência): Métricas como acurácia, precisão, recall, F1, BLEU e ROUGE medem a sobreposição com uma resposta de referência. Elas funcionam bem para tarefas estruturadas (por exemplo, classificação, sumarização), mas têm dificuldades com resultados abertos.
- Avaliadores baseados em modelos (sem referência): Métricas como Supert, BLANC, SummaC ou QAFactEval avaliam a qualidade, a factualidade ou a consistência lógica do texto sem referências exatas.
- Avaliadores baseados em LLM (LLM como juiz): As avaliações usam outro modelo (por exemplo, GPT-5 ) para avaliar a qualidade da resposta no contexto.
Para mais informações, consulte: Avaliações agentivas: Como avaliamos as aplicações LLM?
Por que as avaliações LLM são difíceis
Avaliar LLMs está longe de ser simples. Além do fato de os critérios de qualidade variarem de acordo com o caso de uso, o próprio processo de avaliação é fundamentalmente diferente dos testes de software tradicionais ou da avaliação preditiva de aprendizado de máquina.
Uma dificuldade fundamental é o não determinismo: os LLMs geram saídas probabilísticas, de modo que a mesma entrada pode produzir respostas diferentes a cada vez, tornando a consistência e a reprodutibilidade mais difíceis de medir.
Fonte da imagem: AI world 7
Embora a natureza probabilística de LLMs permita respostas criativas e diversas , também torna os testes mais difíceis; você deve determinar se uma gama de resultados ainda atende às expectativas, em vez de verificar uma única resposta correta.
Não existe uma única verdade absoluta: os sistemas LLM frequentemente lidam com tarefas abertas, como escrita, resumo ou conversação. Nesses casos, podem existir várias respostas válidas. Avaliar esses sistemas exige medir a similaridade semântica, o tom, o estilo ou a precisão factual, e não apenas comparar com o texto de referência.
Espaço de entrada diversificado: as aplicações LLM enfrentam uma vasta gama de entradas; por exemplo, um chatbot de suporte ao cliente pode lidar com perguntas sobre devoluções, faturamento ou segurança da conta. Uma avaliação eficaz requer conjuntos de testes baseados em cenários que capturem essa diversidade.
Mesmo testes offline bem elaborados podem falhar em implantações no mundo real, onde os usuários introduzem solicitações inesperadas e casos extremos. Isso destaca a necessidade de avaliação e observabilidade contínuas em produção para garantir a qualidade consistente do modelo ao longo do tempo.
Riscos únicos na avaliação LLM
Trabalhar com sistemas probabilísticos que seguem instruções introduz riscos novos e complexos que a avaliação tradicional de IA raramente abrange:
- Alucinações: O modelo pode gerar informações falsas ou enganosas — por exemplo, inventar produtos, citar fontes inexistentes ou fornecer aconselhamento médico ou jurídico incorreto.
- Explosões de segurança: Usuários maliciosos podem explorar avisos para contornar as restrições de segurança , induzindo o modelo a produzir conteúdo prejudicial, tendencioso ou proibido.
- Vazamentos de dados: Um LLM pode revelar involuntariamente informações sensíveis ou proprietárias de seus dados de treinamento ou sistemas conectados.
Para mitigar esses problemas, as equipes precisam de fluxos de trabalho de avaliação robustos que vão além das métricas de precisão:
- Realizar testes de estresse em modelos com entradas adversárias e de casos extremos para descobrir vulnerabilidades.
- Realize testes de intrusão e avaliações de segurança para testar a resiliência do modelo a estímulos maliciosos.
- Monitore continuamente as interações em tempo real para detectar problemas emergentes, como desvios, vazamentos de privacidade ou resultados inseguros em produção.
LLM métodos de avaliação
Os métodos de avaliação LLM ajudam a medir o desempenho de um modelo de linguagem em tarefas como raciocínio, sumarização e diálogo. Métricas estatísticas (por exemplo, BLEU, ROUGE) são utilizadas em abordagens de avaliação por terceiros, onde outro modelo avalia a qualidade, a segurança e a precisão factual. Existem também métodos de avaliação baseados em agentes e testes comportamentais que monitoram como os modelos se comportam ao longo do tempo e utilizam ferramentas.
Para uma visão mais aprofundada das principais abordagens e seus desafios, confira nosso artigo completo sobre métodos de avaliação LLM .
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.