Ferramentas de avaliação RAG: Weights & Biases vs Ragas vs DeepEval

com

atualizado em Mar 23, 2026

Quando um pipeline RAG recupera o contexto errado, o LLM gera, com segurança, a resposta errada. Os indicadores de relevância contextual são a principal defesa.

Comparamos cinco ferramentas em 1.460 perguntas e mais de 14.600 contextos pontuados sob condições idênticas: mesmo modelo de avaliador (GPT-4o), configurações padrão e sem prompts personalizados. Sob condições padrão, WandB, TruLens e Ragas se destacaram como as melhores. Sob pressão adversária (negações difíceis com troca de entidades), WandB apresentou o melhor desempenho.

resultados de referência das ferramentas de avaliação RAG

Loading Chart

Os três primeiros (WandB, TruLens, Ragas) estão estatisticamente empatados em Precisão Top-1 (IC de 95% com sobreposição entre 94,0% e 98,0%).

Para entender detalhadamente nossa avaliação e métricas, consulte nossa metodologia de referência para as ferramentas de avaliação RAG.

Explicação das métricas

Precisão Top-1 : A ferramenta consegue atribuir a pontuação de relevância mais alta ao contexto de referência? Isso mede a segurança contra recuperação adversária, uma falha comum em produção.

NDCG@5 (ganho cumulativo descontado normalizado) : Dados cinco contextos com diferentes níveis de relevância (4, 3, 2, 1, 0), a ferramenta os classifica na ordem correta? Ao contrário da precisão binária, o NDCG recompensa ferramentas que atribuem pontuações proporcionalmente maiores a contextos mais relevantes.

Coeficiente de correlação de Spearman (ρ) : Quão bem a classificação da pontuação de uma ferramenta se correlaciona com a ordenação de relevância da verdade fundamental? Uma ferramenta perfeita produziria ρ = 1,0.

MRR (classificação recíproca média) : Média de 1/classificação para o contexto de referência. Se uma ferramenta classifica o contexto de referência em primeiro lugar, MRR = 1,0; em segundo lugar, MRR = 0,5; em terceiro lugar, MRR = 0,33. Penaliza ferramentas que relegam o contexto correto a uma posição inferior a contextos menos relevantes.

Principais conclusões

O WandB se destaca na identificação, enquanto o TruLens se destaca na classificação : o WandB apresenta a maior precisão Top-1 (94,5%), mas os menores valores de NDCG@5 (0,910) e Spearman ρ (0,669). O TruLens se destaca em NDCG@5 (0,932), Spearman ρ (0,750) e MRR (0,594). A diferença reside no design da pontuação: a pontuação binária do WandB é simples, porém grosseira; a escala de 4 pontos do TruLens oferece maior resolução, mas é mais propensa a inversões.
O TruLens possui a maior taxa de discriminação : ao distinguir um contexto correto de uma versão quase idêntica com entidades trocadas, o TruLens acerta a direção em 35,5% dos casos, com apenas 8,4% de inversões (proporção de 4,2:1). Nenhuma outra ferramenta se compara a isso.
Nenhuma ferramenta distingue contextos factualmente incorretos de contextos factualmente corretos : todas as cinco ferramentas atribuem pontuações mais altas a negações categóricas do que a contextos parciais, invertendo a ordem correta de relevância. Uma passagem com as entidades corretas e a resposta errada consistentemente supera uma passagem com o tópico correto, mas sem resposta. Isso está de acordo com a relevância contextual, que mede a adequação ao tópico, e não a precisão factual.
DeepEval subestima contextos de ouro : a decomposição de declarações do DeepEval produz classificações competitivas (NDCG@5 = 0,923), mas atribui uma pontuação média de 0,46 aos contextos de ouro, em comparação com 0,82–0,91 para outras ferramentas. Isso o torna pouco confiável para identificar o melhor contexto individual.
A escala ternária do UpTrain limita a discriminação : três valores de saída (0, 0,5, 1,0) não podem representar cinco níveis de relevância. O UpTrain apresenta a pior taxa de discriminação (1,4:1) e a menor precisão de classificação (27,6% de ordenação perfeita).

Discriminação: negativa dourada versus negativa rígida

Com que frequência a ferramenta atribui uma pontuação mais alta ao contexto ideal do que à negação difícil com troca de entidades?

Vitória = pontuação de ouro estritamente maior. Empate = pontuação igual. Derrota = pontuação negativa rígida maior.

O WandB tem o menor número de derrotas (4,8%), mas também o menor número de vitórias (15,5%): sua pontuação binária produz empates em 80% dos casos. Quando há diferenciação, quase sempre acerta a direção. A precisão estrita Top-1 do WandB (o contexto dourado é o máximo único ) é de apenas 8,3%, em comparação com 25,3% do TruLens; sua precisão Top-1 com argmax é alta porque o contexto dourado está no índice 0 e se beneficia do desempate.

Qualidade da classificação

Acurácia aos pares = % de todos os 10 pares de contexto por amostra classificados corretamente. Acurácia Top-2 = o contexto com a maior pontuação é o ideal ou parcialmente ideal. Acurácia de 5 vias = classificação monotônica perfeita em todos os 5 níveis.

O WandB lidera em todas as três métricas porque sua pontuação binária cria uma divisão natural em dois níveis (relevante vs. irrelevante) que elimina erros de ordenação dentro de cada nível. Observação: a precisão em pares considera empates como corretos (s[i] >= s[j]), o que beneficia ferramentas binárias. O NDCG@5 e o coeficiente de correlação de Spearman (ρ) (mostrados no gráfico acima) penalizam empates e classificam o TruLens em primeiro lugar.

Pontuações médias por nível de relevância

Nenhuma ferramenta ordena corretamente Parcial > Negativo Difícil.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Como cada ferramenta avalia a relevância do contexto

Todas as cinco ferramentas usam GPT-4o como seu juiz subjacente, mas empregam estratégias de avaliação diferentes.

WandB Weave: Prompt Binário LLM

O WandB envia uma única solicitação ao LLM pedindo que ele avalie a relevância "em uma escala de 0 a 1". No entanto, seu esquema de resposta interno define a pontuação como um número inteiro , portanto, o modelo só pode retornar 0 ou 1 .

Uma chamada LLM, uma decisão binária. O WandB responde à pergunta “este é o contexto correto?” de forma clara (maior precisão Top-1), mas não consegue expressar graus de relevância: um contexto parcial e uma resposta negativa categórica recebem a mesma pontuação.

Valores de saída: 0, 1

TruLens: Escala Likert de 4 pontos

O TruLens solicita ao LLM que atue como um "avaliador de RELEVÂNCIA" com critérios explícitos em uma escala de 0 a 3 :

0: Irrelevante para a consulta
1: Relevante para algumas das perguntas
2: Relevante para a maior parte da consulta
3: Relevante para a totalidade da consulta

A pontuação bruta é normalizada para 0,0–1,0 dividindo-se por 3. Isso confere ao TruLens quatro níveis de saída distintos, proporcionando granularidade suficiente para distinguir contextos parciais de negativas absolutas, mantendo a solicitação simples.

Valores de saída: 0,0, 0,33, 0,67, 1,0

Ragas: Média de dois juízes

A Ragas executa duas avaliações independentes para cada critério, cada uma com uma formulação diferente dos mesmos (0 = irrelevante, 1 = parcialmente relevante, 2 = totalmente relevante). A pontuação final é a média das avaliações de ambos os juízes, normalizada para uma escala de 0,0 a 1,0.

Graças à média de duas escalas de 3 pontos, o Ragas produz cinco valores possíveis , mais valores de saída do que qualquer outra ferramenta testada. O design de dupla avaliação também oferece resistência integrada à sensibilidade excessiva.

Valores de saída: 0,0, 0,25, 0,5, 0,75, 1,0

UpTrain: Classificação ternária (A/B/C)

O UpTrain define relevância como uma classificação de múltipla escolha :

A (1.0): O contexto pode responder à pergunta completamente.
B (0,5): O contexto pode fornecer algumas respostas relevantes, mas não responde completamente.
C (0.0): O contexto não contém nenhuma informação para responder à consulta.

O modelo ternário consegue distinguir o "parcialmente relevante" do "irrelevante", mas não consegue separar o "enganoso" do "tangencialmente relacionado"; ambos podem ser classificados na mesma categoria.

Valores de saída: 0,0, 0,5, 1,0

DeepEval: Decomposição de instruções (G-Eval)

Em vez de solicitar uma única pontuação de relevância, o DeepEval decompõe o contexto em declarações individuais e, em seguida, pede ao LLM que classifique cada declaração como "sim" (relevante) ou "não" (irrelevante) para a consulta. A pontuação final é a proporção de declarações relevantes em relação ao total de declarações.

O resultado é uma pontuação contínua (por exemplo, 7 de 10 afirmações relevantes = 0,70). No entanto, a abordagem é rigorosa: mesmo um contexto altamente relevante é penalizado se contiver frases fora do tópico. Contextos de ouro às vezes incluem detalhes contextuais que a decomposição marca como "irrelevantes", reduzindo a pontuação para um valor inferior ao de uma afirmação negativa direta mais curta e focada. Isso explica a precisão Top-1 de 78,1% do DeepEval.

Valores de saída: Contínuos (0,0–1,0)

Metodologia de referência para ferramentas de avaliação RAG

Projeto de conjunto de dados adversários

Cada consulta possui cinco contextos em um nível de relevância distinto :

Conjunto de dados

Combinamos duas fontes:

HaluEval (480 exemplos): Questões de conhecimento geral abrangendo música, cinema, esportes, história, geografia e muito mais. Negativas difíceis, contextos parciais e negativas fáceis são geradas por Claude.

HotPotQA (530 exemplos): Questões de raciocínio multi-hop que exigem síntese de informações em vários documentos.

Total: 1.010 amostras , cada uma com 5 contextos = 5.050 avaliações de contexto por ferramenta . Todas as amostras passaram pela filtragem automática de vazamentos (489 amostras foram removidas durante a geração devido ao vazamento de respostas).

Protocolo multimodelo

Para eliminar o viés de autopreferência (em que um avaliador do LLM prefere o texto gerado por ele mesmo), usamos Claude Sonnet 4.5 para geração de contexto adversarial e GPT-4o como juiz para todas as ferramentas. Ambos foram chamados via OpenRouter com temperature=0.

As armadilhas adversárias

A armadilha de múltiplos saltos (Confusão de relações)

As questões frequentemente exigem o rastreamento de uma cadeia de relações (por exemplo, A é parente de B, que é parente de C). As negativas diretas respondem a uma versão mais simples da pergunta, quebrando a cadeia.

Pergunta ID 89 : “Quem publica a série de jogos da qual Retro City Rampage é uma paródia?” Resposta correta : Rockstar Games

A armadilha do distrator de entidades

Os mecanismos de recuperação frequentemente encontram a localização ou o assunto corretos, mas retornam metadados sobre o evento ou atributo errado.

Pergunta ID 90 : “…O Bridge Inn é o local de qual competição anual de mentirosos, realizada em Cumbria, Inglaterra?” Resposta correta : Maior Mentiroso do Mundo

A armadilha da relevância parcial

Um contexto com o tópico e as entidades corretas, mas sem resposta.

Pergunta ID 9 : “Quem escreveu a letra de Portofino com um colaborador em 'Um Violinista no Telhado'?” Resposta correta : Richard Ney

TruLens e DeepEval pontuam corretamente os contextos parciais com notas mais altas do que os negativos absolutos nessas amostras específicas, embora esse padrão não se mantenha em todo o conjunto de dados.

Qual ferramenta você deve usar?

Conclusão

A granularidade da pontuação é a principal compensação. As ferramentas binárias (WandB) levam vantagem na identificação porque, em caso de empate, a decisão final é favorável a elas; as ferramentas multiponto (TruLens, Ragas) levam vantagem na classificação porque podem expressar graus de relevância.

A relevância contextual funciona como um filtro inicial: todas as ferramentas separam contextos relevantes de irrelevantes em mais de 91% dos casos (precisão par a par). Mas nenhuma delas verifica a exatidão factual. Uma passagem com as entidades corretas e a resposta errada obtém uma pontuação alta em todas as ferramentas testadas. Para a correção factual, combine com métricas de fidelidade da resposta.

Limitações

Modelo de juiz único : Todas as avaliações usam GPT-4o como juiz. Os resultados podem diferir com outros modelos.
Relevância contextual apenas : Este parâmetro avalia apenas a relevância contextual, não a fidelidade da resposta ou outras métricas RAG.
Configurações padrão : As ferramentas foram avaliadas sem qualquer configuração adicional. O desempenho pode ser melhorado com a engenharia de prompts personalizada.
Execução única com critério de desempate : O benchmark foi executado uma única vez com temperatura=0. A acurácia Top-1 utiliza o critério argmax (o primeiro índice vence em caso de empate), o que beneficia ferramentas com altas taxas de empate (WandB: 86%). Apresentamos a acurácia Top-1 estrita juntamente com a argmax quando relevante.
Conjunto de dados exclusivamente adversário : Todos os negativos difíceis utilizam troca de entidades. Os resultados refletem o desempenho em condições adversárias; as ferramentas podem apresentar desempenho diferente em contextos recuperados naturalmente.

Leitura complementar

Explore outros benchmarks RAG, como:

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por