Quando um pipeline RAG recupera o contexto errado, o LLM gera, com segurança, a resposta errada. Os indicadores de relevância contextual são a principal defesa.
Avaliamos cinco ferramentas em 1.460 questões e mais de 14.600 contextos pontuados sob condições idênticas: mesmo modelo de avaliador (GPT-4o), configurações padrão e sem prompts personalizados. Sob condições padrão, WandB, TruLens e Ragas se destacaram como as melhores. Sob pressão adversária (negações difíceis com troca de entidades), WandB apresentou o melhor desempenho.
resultados de referência das ferramentas de avaliação RAG
Os três primeiros (WandB, TruLens, Ragas) estão estatisticamente empatados em Precisão Top-1 (IC de 95% com sobreposição entre 94,0% e 98,0%).
Para entender detalhadamente nossa avaliação e métricas, consulte nossa metodologia de referência para as ferramentas de avaliação RAG.
Explicação das métricas
Precisão Top-1 : A ferramenta consegue atribuir a pontuação de relevância mais alta ao contexto de referência? Isso mede a segurança contra recuperação adversária, uma falha comum em produção.
NDCG@5 (ganho cumulativo descontado normalizado) : Dados cinco contextos com diferentes níveis de relevância (4, 3, 2, 1, 0), a ferramenta os classifica na ordem correta? Ao contrário da precisão binária, o NDCG recompensa ferramentas que atribuem pontuações proporcionalmente maiores a contextos mais relevantes.
Coeficiente de correlação de Spearman (ρ) : Quão bem a classificação da pontuação de uma ferramenta se correlaciona com a ordenação de relevância da verdade fundamental? Uma ferramenta perfeita produziria ρ = 1,0.
MRR (classificação recíproca média) : Média de 1/classificação para o contexto de referência. Se uma ferramenta classifica o contexto de referência em primeiro lugar, MRR = 1,0; em segundo lugar, MRR = 0,5; em terceiro lugar, MRR = 0,33. Penaliza ferramentas que relegam o contexto correto a uma posição inferior a contextos menos relevantes.
Principais conclusões
- O WandB se destaca na identificação, enquanto o TruLens se destaca na classificação : o WandB apresenta a maior precisão Top-1 (94,5%), mas os menores valores de NDCG@5 (0,910) e Spearman ρ (0,669). O TruLens se destaca em NDCG@5 (0,932), Spearman ρ (0,750) e MRR (0,594). A diferença reside no design da pontuação: a pontuação binária do WandB é simples, porém grosseira; a escala de 4 pontos do TruLens oferece maior resolução, mas é mais propensa a inversões.
- O TruLens possui a maior taxa de discriminação : ao distinguir um contexto correto de uma versão quase idêntica com entidades trocadas, o TruLens acerta a direção em 35,5% dos casos, com apenas 8,4% de inversões (proporção de 4,2:1). Nenhuma outra ferramenta se compara a isso.
- Nenhuma ferramenta distingue contextos factualmente incorretos de contextos factualmente corretos : todas as cinco ferramentas atribuem pontuações mais altas a negações categóricas do que a contextos parciais, invertendo a ordem correta de relevância. Uma passagem com as entidades corretas e a resposta errada consistentemente supera uma passagem com o tópico correto, mas sem resposta. Isso está de acordo com a relevância contextual, que mede a adequação ao tópico, e não a precisão factual.
- DeepEval subestima contextos de ouro : a decomposição de declarações do DeepEval produz classificações competitivas (NDCG@5 = 0,923), mas atribui uma pontuação média de 0,46 aos contextos de ouro, em comparação com 0,82–0,91 para outras ferramentas. Isso o torna pouco confiável para identificar o melhor contexto individual.
- A escala ternária do UpTrain limita a discriminação : três valores de saída (0, 0,5, 1,0) não podem representar cinco níveis de relevância. O UpTrain apresenta a pior taxa de discriminação (1,4:1) e a menor precisão de classificação (27,6% de ordenação perfeita).
Discriminação: negativa dourada versus negativa rígida
Com que frequência a ferramenta atribui uma pontuação mais alta ao contexto ideal do que à negação difícil com troca de entidades?
Vitória = pontuação de ouro estritamente maior. Empate = pontuação igual. Derrota = pontuação negativa rígida maior.
O WandB tem o menor número de derrotas (4,8%), mas também o menor número de vitórias (15,5%): sua pontuação binária produz empates em 80% dos casos. Quando há diferenciação, quase sempre acerta a direção. A precisão estrita Top-1 do WandB (o contexto dourado é o máximo único ) é de apenas 8,3%, em comparação com 25,3% do TruLens; sua precisão Top-1 com argmax é alta porque o contexto dourado está no índice 0 e se beneficia do desempate.
Qualidade da classificação
Acurácia aos pares = % de todos os 10 pares de contexto por amostra classificados corretamente. Acurácia Top-2 = o contexto com a maior pontuação é o ideal ou parcialmente ideal. Acurácia de 5 vias = classificação monotônica perfeita em todos os 5 níveis.
O WandB lidera em todas as três métricas porque sua pontuação binária cria uma divisão natural em dois níveis (relevante vs. irrelevante) que elimina erros de ordenação dentro de cada nível. Observação: a acurácia de comparação aos pares considera empates como corretos (s[i] >= s[j]), o que beneficia ferramentas binárias. O NDCG@5 e o coeficiente de correlação de Spearman (ρ) (mostrados no gráfico acima) penalizam empates e classificam o TruLens em primeiro lugar.
Pontuações médias por nível de relevância
Nenhuma ferramenta ordena corretamente Parcial > Negativo Difícil.
Como cada ferramenta avalia a relevância do contexto
Todas as cinco ferramentas usam GPT-4o como seu juiz subjacente, mas empregam estratégias de avaliação diferentes.
WandB Weave: Prompt Binário LLM
O WandB envia uma única solicitação ao LLM pedindo que ele avalie a relevância "em uma escala de 0 a 1". No entanto, seu esquema de resposta interno define a pontuação como um número inteiro , portanto, o modelo só pode retornar 0 ou 1 .
Uma chamada LLM, uma decisão binária. O WandB responde à pergunta “este é o contexto correto?” de forma clara (maior precisão Top-1), mas não consegue expressar graus de relevância: um contexto parcial e uma resposta negativa categórica recebem a mesma pontuação.
Valores de saída: 0, 1
TruLens: Escala Likert de 4 pontos
O TruLens apresenta o LLM como um "avaliador de RELEVÂNCIA" com critérios explícitos em uma escala de 0 a 3 :
- 0: Irrelevante para a consulta
- 1: Relevante para algumas das perguntas
- 2: Relevante para a maior parte da consulta
- 3: Relevante para a totalidade da consulta
A pontuação bruta é normalizada para 0,0–1,0 dividindo-se por 3. Isso confere ao TruLens quatro níveis de saída distintos, proporcionando granularidade suficiente para distinguir contextos parciais de negativas absolutas, mantendo a solicitação simples.
Valores de saída: 0,0, 0,33, 0,67, 1,0
Ragas: Média de dois juízes
A Ragas aplica dois questionários de avaliação independentes a cada avaliação, cada um com uma formulação diferente dos mesmos critérios (0 = irrelevante, 1 = parcialmente relevante, 2 = totalmente relevante). A pontuação final é a média das duas avaliações, normalizada para um intervalo de 0,0 a 1,0.
Graças à média de duas escalas de 3 pontos, o Ragas produz cinco valores possíveis , mais valores de saída do que qualquer outra ferramenta testada. O design de dupla avaliação também oferece resistência integrada à sensibilidade excessiva.
Valores de saída: 0,0, 0,25, 0,5, 0,75, 1,0
UpTrain: Classificação ternária (A/B/C)
O UpTrain define relevância como uma classificação de múltipla escolha :
- A (1.0): O contexto pode responder à pergunta completamente.
- B (0,5): O contexto pode fornecer algumas respostas relevantes, mas não responde completamente.
- C (0.0): O contexto não contém nenhuma informação para responder à consulta.
O modelo ternário consegue distinguir o "parcialmente relevante" do "irrelevante", mas não consegue separar o "enganoso" do "tangencialmente relacionado"; ambos podem ser classificados na mesma categoria.
Valores de saída: 0,0, 0,5, 1,0
DeepEval: Decomposição de instruções (G-Eval)
Em vez de solicitar uma única pontuação de relevância, o DeepEval decompõe o contexto em declarações individuais e, em seguida, pede ao LLM que classifique cada declaração como "sim" (relevante) ou "não" (irrelevante) para a consulta. A pontuação final é a proporção de declarações relevantes em relação ao total de declarações.
O resultado é uma pontuação contínua (por exemplo, 7 de 10 afirmações relevantes = 0,70). No entanto, a abordagem é rigorosa: mesmo um contexto altamente relevante é penalizado se contiver frases fora do tópico. Contextos de ouro às vezes incluem detalhes contextuais que a decomposição marca como "irrelevantes", reduzindo a pontuação para um valor inferior ao de uma afirmação negativa direta mais curta e focada. Isso explica a precisão Top-1 de 78,1% do DeepEval.
Valores de saída: Contínuos (0,0–1,0)
Metodologia de referência para ferramentas de avaliação RAG
Projeto de conjunto de dados adversários
Cada consulta possui cinco contextos em um nível de relevância distinto :
Conjunto de dados
Combinamos duas fontes:
HaluEval (480 exemplos): Questões de conhecimento geral abrangendo música, cinema, esportes, história, geografia e muito mais. Negativas difíceis, contextos parciais e negativas fáceis são geradas por Claude.
HotPotQA (530 exemplos): Questões de raciocínio multi-hop que exigem síntese de informações em vários documentos.
Total: 1.010 amostras , cada uma com 5 contextos = 5.050 avaliações de contexto por ferramenta . Todas as amostras passaram pela filtragem automática de vazamentos (489 amostras foram removidas durante a geração devido ao vazamento de respostas).
Protocolo multimodelo
Para eliminar o viés de autopreferência (em que um avaliador LLM prefere o texto gerado por ele mesmo), usamos Claude Sonnet 4.5 para geração de contexto adversarial e GPT-4o como juiz para todas as ferramentas. Ambos foram chamados via OpenRouter com temperature=0.
As armadilhas adversárias
A armadilha de múltiplos saltos (Confusão de relações)
As questões frequentemente exigem o rastreamento de uma cadeia de relações (por exemplo, A é parente de B, que é parente de C). As negativas diretas respondem a uma versão mais simples da pergunta, quebrando a cadeia.
Pergunta ID 89 : “Quem publica a série de jogos da qual Retro City Rampage é uma paródia?” Resposta correta : Rockstar Games
A armadilha do distrator de entidades
Os mecanismos de recuperação frequentemente encontram a localização ou o assunto corretos, mas retornam metadados sobre o evento ou atributo errado.
Pergunta ID 90 : “…O Bridge Inn é o local de qual competição anual de mentirosos, realizada em Cumbria, Inglaterra?” Resposta correta : Maior Mentiroso do Mundo
A armadilha da relevância parcial
Um contexto com o tópico e as entidades corretas, mas sem resposta.
Pergunta ID 9 : “Quem escreveu a letra de Portofino com um colaborador em 'Um Violinista no Telhado'?” Resposta correta : Richard Ney
TruLens e DeepEval pontuam corretamente os contextos parciais com notas mais altas do que os negativos absolutos nessas amostras específicas, embora esse padrão não se mantenha em todo o conjunto de dados.
Qual ferramenta você deve usar?
Conclusão
A granularidade da pontuação é a principal compensação. As ferramentas binárias (WandB) levam vantagem na identificação porque, em caso de empate, a decisão final é favorável a elas; as ferramentas multiponto (TruLens, Ragas) levam vantagem na classificação porque podem expressar graus de relevância.
A relevância contextual funciona como um filtro inicial: todas as ferramentas separam contextos relevantes de irrelevantes em mais de 91% dos casos (precisão par a par). Mas nenhuma delas verifica a exatidão factual. Uma passagem com as entidades corretas e a resposta errada obtém uma pontuação alta em todas as ferramentas testadas. Para a correção factual, combine com métricas de fidelidade da resposta.
Limitações
- Modelo de juiz único : Todas as avaliações usam GPT-4o como juiz. Os resultados podem diferir com outros modelos.
- Relevância contextual apenas : Este parâmetro avalia apenas a relevância contextual, não a fidelidade da resposta ou outras métricas RAG.
- Configurações padrão : As ferramentas foram avaliadas sem qualquer configuração adicional. O desempenho pode ser melhorado com a engenharia de prompts personalizada.
- Execução única com critério de desempate : O benchmark foi executado uma única vez com temperatura=0. A acurácia Top-1 utiliza
argmax(o primeiro índice vence em caso de empate), o que beneficia ferramentas com altas taxas de empate (WandB: 86%). Apresentamos a acurácia Top-1 estrita juntamente com o argmax quando relevante. - Conjunto de dados exclusivamente adversário : Todos os negativos difíceis utilizam troca de entidades. Os resultados refletem o desempenho em condições adversárias; as ferramentas podem apresentar desempenho diferente em contextos recuperados naturalmente.
Leitura complementar
Explore outros benchmarks RAG, como:
- Modelos de incorporação: OpenAI vs Gemini vs Cohere
- Os 16 principais modelos de incorporação de código aberto para RAG
- Principais bases de dados vetoriais para RAG: Qdrant vs Weaviate vs Pinecone
- Análise comparativa do Reranker: Comparação dos 8 melhores modelos
- Modelos de Incorporação Multimodal: Apple vs Meta vs OpenAI
- RAG Híbrido: Aumentando a Precisão do RAG
- Os 10 principais modelos de incorporação multilíngue para RAG
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.