Lorsqu'un pipeline RAG récupère un contexte incorrect, le LLM génère systématiquement une réponse erronée. Les évaluateurs de pertinence contextuelle constituent le principal mécanisme de défense.
Nous avons comparé cinq outils sur 1 460 questions et plus de 14 600 contextes évalués, dans des conditions identiques : même modèle de juge (GPT-4o), configurations par défaut et aucune invite personnalisée. Dans des conditions standard, WandB, TruLens et Ragas se sont révélés les plus performants. Sous pression adverse (négatifs stricts avec inversion d’entités), WandB a obtenu les meilleurs résultats.
Résultats de référence des outils d'évaluation RAG
Les trois premiers (WandB, TruLens, Ragas) sont statistiquement à égalité en termes de précision Top-1 (IC à 95 % se chevauchant entre 94,0 % et 98,0 %).
Pour comprendre en détail notre évaluation et nos indicateurs, consultez notre méthodologie de référence pour les outils d'évaluation RAG.
Explication des indicateurs
Précision Top-1 : L’outil peut-il attribuer le score de pertinence le plus élevé au contexte de référence ? Cela mesure la sécurité contre la récupération adverse, un mode de défaillance courant en production.
NDCG@5 (gain cumulatif actualisé normalisé) : Étant donné cinq contextes de différents niveaux de pertinence (4, 3, 2, 1, 0), l’outil les classe-t-il dans le bon ordre ? Contrairement à la précision binaire, le NDCG valorise les outils qui attribuent des scores proportionnellement plus élevés aux contextes les plus pertinents.
Coefficient de corrélation de rang de Spearman (ρ) : Dans quelle mesure le classement des scores d’un outil est-il corrélé à l’ordre de pertinence réel ? Un outil parfait produirait un ρ = 1,0.
MRR (rang réciproque moyen) : Moyenne de l’inverse du rang du contexte de référence. Si un outil classe le contexte de référence en premier, MRR = 1,0 ; en deuxième position, MRR = 0,5 ; en troisième position, MRR = 0,33. Ce système pénalise les outils qui relèguent le contexte correct au second plan, derrière des contextes moins pertinents.
Principales conclusions
- WandB excelle en identification, TruLens en classement : WandB affiche la meilleure précision Top-1 (94,5 %) mais les scores NDCG@5 (0,910) et de Spearman (0,669) les plus faibles. TruLens se distingue par un score NDCG@5 (0,932), un coefficient de corrélation de Spearman (0,750) et un MRR (0,594) supérieurs. Cette différence s'explique par la conception du système de notation : la notation binaire de WandB est simple mais grossière ; l'échelle à 4 points de TruLens offre une meilleure résolution, mais est plus sujette aux inversions.
- TruLens présente le taux de discrimination le plus élevé : lorsqu’il s’agit de distinguer un contexte correct d’une version quasi identique où les entités sont inversées, TruLens détermine la direction correcte dans 35,5 % des cas, avec seulement 8,4 % d’inversions (ratio de 4,2:1). Aucun autre outil n’atteint ce résultat.
- Aucun outil ne permet de distinguer les contextes factuellement erronés des contextes factuellement corrects : les cinq outils attribuent un score plus élevé aux affirmations clairement négatives qu’aux contextes partiels, inversant ainsi l’ordre de pertinence. Un passage contenant les bonnes entités et une réponse erronée obtient systématiquement un meilleur score qu’un passage abordant le bon sujet mais ne contenant pas de réponse. Ceci est cohérent avec le fait que la pertinence contextuelle mesure la pertinence thématique, et non l’exactitude factuelle.
- DeepEval sous-estime les contextes optimaux : la décomposition des énoncés par DeepEval produit des classements compétitifs (NDCG@5 = 0,923), mais attribue aux contextes optimaux un score moyen de 0,46, contre 0,82 à 0,91 pour d’autres outils. De ce fait, il est peu fiable pour identifier le meilleur contexte.
- L'échelle ternaire d'UpTrain présente des limites en matière de discrimination : trois valeurs de sortie (0, 0,5, 1,0) ne peuvent représenter cinq niveaux de pertinence. UpTrain affiche le plus faible ratio de discrimination (1,4:1) et la plus faible précision de classement (27,6 % de classement parfait).
Discrimination : doré vs. dur négatif
Dans quelle fréquence l'outil attribue-t-il un score plus élevé au contexte de référence qu'à l'erreur négative sévère avec inversion d'entités ?
Victoire = score maximal. Égalité = score égal. Défaite = score maximal.
WandB enregistre le moins de défaites (4,8 %) mais aussi le moins de victoires (15,5 %) : son système de notation binaire aboutit à des égalités dans 80 % des cas. Lorsqu'il parvient à départager les résultats, il détermine presque toujours la bonne direction. La précision stricte Top-1 de WandB (le contexte optimal étant le maximum unique ) n'est que de 8,3 %, contre 25,3 % pour TruLens ; sa précision Top-1 argmax est élevée car le contexte optimal se situe à l'indice 0 et bénéficie du départage.
Qualité du classement
Précision par paires = pourcentage des 10 paires de contextes correctement classées par échantillon. Précision Top-2 = le contexte ayant obtenu le meilleur score est le contexte optimal ou partiel. Précision 5-way = classement parfaitement monotone sur les 5 niveaux.
WandB domine les trois indicateurs car son système de notation binaire établit une distinction naturelle entre deux niveaux (pertinent et non pertinent), éliminant ainsi les erreurs de classement au sein de chaque niveau. Remarque : la précision par paires considère les égalités comme correctes (s[i] >= s[j]), ce qui avantage les outils binaires. NDCG@5 et le coefficient de corrélation de Spearman (présentés dans le graphique ci-dessus) pénalisent les égalités et placent TruLens en tête.
Scores moyens par niveau de pertinence
Aucun outil ne commande correctement Partiellement > Négatif dur.
Comment chaque outil évalue la pertinence du contexte
Les cinq outils utilisent tous GPT-4o comme juge sous-jacent, mais ils emploient des stratégies d'évaluation différentes.
WandB Weave : Invite de LLM binaire
WandB envoie une seule invite au LLM lui demandant d'évaluer la pertinence « sur une échelle de 0 à 1 ». Cependant, son schéma de réponse interne définit le score comme un entier , de sorte que le modèle ne peut renvoyer que 0 ou 1 .
Un appel LLM, une décision binaire. WandB répond clairement à la question « Est-ce le bon contexte ? » (précision Top-1 maximale), mais ne peut pas exprimer les degrés de pertinence : un contexte partiel et une réponse négative catégorique obtiennent le même score.
Valeurs de sortie : 0, 1
TruLens : échelle de Likert à 4 points
TruLens invite le LLM à jouer le rôle d’un « évaluateur de PERTINENCE » avec des critères explicites pour une échelle de 0 à 3 :
- 0 : Sans rapport avec la requête
- 1 : Pertinent pour certains aspects de la requête
- 2 : Pertinent pour la majeure partie de la requête
- 3 : Pertinent pour l'intégralité de la requête
Le score brut est normalisé entre 0,0 et 1,0 en le divisant par 3. Cela donne à TruLens quatre niveaux de sortie distincts, offrant une granularité suffisante pour distinguer les contextes partiels des négations absolues tout en conservant une invite simple.
Valeurs de sortie : 0,0 ; 0,33 ; 0,67 ; 1,0
Ragas : Moyenne à deux juges
Ragas soumet chaque évaluation à deux juges indépendants , chacun formulant différemment les mêmes critères (0 = non pertinent, 1 = partiellement pertinent, 2 = pleinement pertinent). La note finale correspond à la moyenne des deux évaluations, normalisée entre 0,0 et 1,0.
Grâce à la moyenne de deux échelles à 3 points, Ragas génère cinq valeurs possibles , soit plus que tout autre outil testé. Sa conception à double juge offre également une résistance intrinsèque à la sensibilité aux prompteurs.
Valeurs de sortie : 0,0 ; 0,25 ; 0,5 ; 0,75 ; 1,0
UpTrain : Classification ternaire (A/B/C)
UpTrain conçoit la pertinence comme une classification à choix multiples :
- A (1.0) : Le contexte peut répondre complètement à la requête
- B (0,5) : Le contexte peut apporter des éléments de réponse pertinents, mais ne permet pas de répondre complètement.
- C (0.0) : Le contexte ne contient aucune information permettant de répondre à la requête.
Le modèle ternaire permet de distinguer les éléments « partiellement pertinents » des éléments « non pertinents », mais ne peut pas séparer les éléments « trompeurs » des éléments « tangentiellement liés » ; les deux peuvent tomber dans la même catégorie.
Valeurs de sortie : 0,0 ; 0,5 ; 1,0
DeepEval : Décomposition d'énoncés (G-Eval)
Au lieu de demander un score de pertinence unique, DeepEval décompose le contexte en énoncés individuels , puis demande au LLM de juger chaque énoncé comme étant « oui » (pertinent) ou « non » (non pertinent) par rapport à la requête. Le score final correspond au ratio d'énoncés pertinents par rapport au nombre total d'énoncés.
Le résultat est un score continu (par exemple, 7 énoncés pertinents sur 10 = 0,70). Cependant, l'approche est stricte : même un contexte très pertinent est pénalisé s'il contient des phrases hors sujet. Les contextes de référence incluent parfois des détails contextuels que la décomposition juge « non pertinents », ce qui fait chuter le score en dessous de celui d'un contexte négatif strict plus court et plus ciblé. Ceci explique la précision de 78,1 % de DeepEval pour les énoncés les plus pertinents.
Valeurs de sortie : continues (0,0–1,0)
Méthodologie de référence des outils d'évaluation RAG
Conception d'ensembles de données adverses
Chaque requête comporte cinq contextes à un niveau de pertinence distinct :
Ensemble de données
Nous combinons deux sources :
HaluEval (480 exemples) : Questions de culture générale portant sur la musique, le cinéma, le sport, l’histoire, la géographie, etc. Claude génère des réponses négatives strictes, des contextes partiels et des réponses négatives partielles.
HotPotQA (530 échantillons) : Questions de raisonnement à sauts multiples nécessitant une synthèse d'informations à travers plusieurs documents.
Au total : 1 010 échantillons , chacun avec 5 contextes = 5 050 évaluations de contexte par outil . Tous les échantillons ont passé le filtrage automatique des fuites (489 échantillons supprimés lors de la génération en raison de fuites de réponses).
Protocole inter-modèles
Pour éliminer le biais d'auto-préférence (lorsqu'un évaluateur LLM préfère un texte qu'il a lui-même généré), nous avons utilisé Claude Sonnet 4.5 pour la génération de contexte adverse et GPT-4o comme juge pour tous les outils. Les deux ont été appelés via OpenRouter avec temperature=0.
Les pièges adverses
Le piège à sauts multiples (Confusion relationnelle)
Les questions nécessitent souvent de retracer une chaîne de relations (par exemple, A est lié à B, qui est lié à C). Les réponses négatives strictes apportent une version simplifiée de la question, en interrompant la chaîne.
Question n° 89 : « Qui édite la série de jeux dont Retro City Rampage est une parodie ? » Réponse : Rockstar Games
Le piège de distraction d'entité
Les outils de récupération trouvent souvent le bon emplacement ou le bon sujet, mais renvoient des métadonnées concernant le mauvais événement ou le mauvais attribut.
Question ID 90 : « …Le Bridge Inn est le lieu où se déroule quel concours annuel de mensonges, organisé dans le Cumbria, en Angleterre ? » Réponse cible : Le plus grand menteur du monde
Le piège de la pertinence partielle
Un contexte avec le bon sujet et les bonnes entités, mais sans réponse.
Question n° 9 : « Qui a écrit les paroles de Portofino avec un collaborateur sur « Un violon sur le toit » ? » Réponse : Richard Ney
TruLens et DeepEval attribuent correctement des scores plus élevés aux contextes partiels qu'aux négatifs purs sur ces échantillons en particulier, bien que ce schéma ne se vérifie pas sur l'ensemble des données.
Quel outil devez-vous utiliser ?
Conclusion
Le principal compromis réside dans la granularité du score. Les outils binaires (WandB) excellent en identification car, en cas d'égalité, ils sont automatiquement choisis en leur faveur ; les outils multipoints (TruLens, Ragas) excellent en classement car ils peuvent exprimer différents degrés de pertinence.
La pertinence du contexte agit comme un premier filtre : tous les outils distinguent les contextes pertinents des contextes non pertinents dans plus de 91 % des cas (précision par paires). Cependant, aucun ne vérifie l’exactitude factuelle. Un passage contenant les bonnes entités mais une réponse erronée obtient un score élevé auprès de tous les outils testés. Pour une vérification de l’exactitude factuelle, il est recommandé de combiner cette méthode avec des indicateurs de fidélité de la réponse.
Limites
- Modèle à juge unique : Toutes les évaluations utilisent GPT-4o comme juge. Les résultats peuvent différer avec d’autres modèles.
- Pertinence du contexte uniquement : ce test évalue uniquement la pertinence du contexte, et non la fidélité des réponses ou d'autres indicateurs RAG.
- Configurations par défaut : Les outils ont été évalués tels quels. Les performances peuvent être améliorées grâce à une personnalisation des invites de commande.
- Exécution unique avec critère de départage : le test a été exécuté une seule fois avec une température nulle. La précision Top-1 utilise
argmax(le premier indice l'emporte en cas d'égalité), ce qui avantage les outils présentant des taux d'égalité élevés (WandB : 86 %). Nous affichons le Top-1 strict ainsi que l'argmax lorsque cela est pertinent. - Jeu de données uniquement adverse : tous les exemples négatifs stricts utilisent l’échange d’entités. Les résultats reflètent les performances dans des conditions adverses ; les outils peuvent avoir des performances différentes dans des contextes récupérés naturellement.
Pour en savoir plus
Explorez d'autres indicateurs RAG, tels que :
- Modèles d'intégration : OpenAI vs Gemini vs Cohere
- Les 16 meilleurs modèles d'embeddings open source pour RAG
- Meilleure base de données vectorielles pour RAG : Qdrant vs Weaviate vs Pinecone
- Analyse comparative des modèles de reclassement : Comparaison des 8 meilleurs modèles
- Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI
- Hybrid RAG : Amélioration de la précision RAG
- Les 10 meilleurs modèles d'intégration multilingues pour RAG
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.