Outils d'évaluation RAG : Pondération et biais vs Ragas vs DeepEval

avec

mis à jour le Mar 23, 2026

Lorsqu'un pipeline RAG récupère un contexte incorrect, le LLM génère systématiquement une réponse erronée. Les évaluateurs de pertinence contextuelle constituent le principal mécanisme de défense.

Nous avons comparé cinq outils sur 1 460 questions et plus de 14 600 contextes évalués, dans des conditions identiques : même modèle de juge (GPT-4o), configurations par défaut et aucune invite personnalisée. Dans des conditions standard, WandB, TruLens et Ragas se sont révélés les plus performants. Sous pression adverse (négatifs stricts avec inversion d’entités), WandB a obtenu les meilleurs résultats.

Résultats de référence des outils d'évaluation RAG

Loading Chart

Les trois premiers (WandB, TruLens, Ragas) sont statistiquement à égalité en termes de précision Top-1 (IC à 95 % se chevauchant entre 94,0 % et 98,0 %).

Pour comprendre en détail notre évaluation et nos indicateurs, consultez notre méthodologie de référence pour les outils d'évaluation RAG.

Explication des indicateurs

Précision Top-1 : L’outil peut-il attribuer le score de pertinence le plus élevé au contexte de référence ? Cela mesure la sécurité contre la récupération adverse, un mode de défaillance courant en production.

NDCG@5 (gain cumulatif actualisé normalisé) : Étant donné cinq contextes de différents niveaux de pertinence (4, 3, 2, 1, 0), l’outil les classe-t-il dans le bon ordre ? Contrairement à la précision binaire, le NDCG valorise les outils qui attribuent des scores proportionnellement plus élevés aux contextes les plus pertinents.

Coefficient de corrélation de rang de Spearman (ρ) : Dans quelle mesure le classement des scores d’un outil est-il corrélé à l’ordre de pertinence réel ? Un outil parfait produirait un ρ = 1,0.

MRR (rang réciproque moyen) : Moyenne de l’inverse du rang du contexte de référence. Si un outil classe le contexte de référence en premier, MRR = 1,0 ; en deuxième position, MRR = 0,5 ; en troisième position, MRR = 0,33. Ce système pénalise les outils qui relèguent le contexte correct au second plan, derrière des contextes moins pertinents.

Principales conclusions

WandB excelle en identification, TruLens en classement : WandB affiche la meilleure précision Top-1 (94,5 %) mais les scores NDCG@5 (0,910) et de Spearman (0,669) les plus faibles. TruLens se distingue par un score NDCG@5 (0,932), un coefficient de corrélation de Spearman (0,750) et un MRR (0,594) supérieurs. Cette différence s'explique par la conception du système de notation : la notation binaire de WandB est simple mais grossière ; l'échelle à 4 points de TruLens offre une meilleure résolution, mais est plus sujette aux inversions.
TruLens présente le taux de discrimination le plus élevé : lorsqu’il s’agit de distinguer un contexte correct d’une version quasi identique où les entités sont inversées, TruLens détermine la direction correcte dans 35,5 % des cas, avec seulement 8,4 % d’inversions (ratio de 4,2:1). Aucun autre outil n’offre une telle performance.
Aucun outil ne permet de distinguer les contextes factuellement erronés des contextes factuellement corrects : les cinq outils attribuent un score plus élevé aux affirmations clairement négatives qu’aux contextes partiels, inversant ainsi l’ordre de pertinence. Un passage contenant les bonnes entités et une réponse erronée obtient systématiquement un meilleur score qu’un passage abordant le bon sujet mais ne contenant pas de réponse. Ceci est cohérent avec le fait que la pertinence contextuelle mesure la pertinence thématique, et non l’exactitude factuelle.
DeepEval sous-estime les contextes optimaux : la décomposition des énoncés par DeepEval produit des classements compétitifs (NDCG@5 = 0,923), mais attribue aux contextes optimaux un score moyen de 0,46, contre 0,82 à 0,91 pour d’autres outils. De ce fait, il est peu fiable pour identifier le meilleur contexte.
L'échelle ternaire d'UpTrain présente des limites en matière de discrimination : trois valeurs de sortie (0, 0,5, 1,0) ne peuvent représenter cinq niveaux de pertinence. UpTrain affiche le plus faible ratio de discrimination (1,4:1) et la plus faible précision de classement (27,6 % de classement parfait).

Discrimination : doré vs. dur négatif

Dans quelle fréquence l'outil attribue-t-il un score plus élevé au contexte de référence qu'à l'erreur négative sévère avec inversion d'entités ?

Victoire = score maximal. Égalité = score égal. Défaite = score maximal.

WandB enregistre le moins de défaites (4,8 %) mais aussi le moins de victoires (15,5 %) : son système de notation binaire aboutit à des égalités dans 80 % des cas. Lorsqu'il parvient à départager les résultats, il détermine presque toujours la bonne direction. La précision stricte Top-1 de WandB (le contexte optimal étant le maximum unique ) n'est que de 8,3 %, contre 25,3 % pour TruLens ; sa précision Top-1 argmax est élevée car le contexte optimal se situe à l'indice 0 et bénéficie du départage.

Qualité du classement

Précision par paires = pourcentage des 10 paires de contextes correctement classées par échantillon. Précision Top-2 = le contexte ayant obtenu le meilleur score est le contexte optimal ou partiel. Précision 5-way = classement parfaitement monotone sur les 5 niveaux.

WandB domine les trois indicateurs car son système de notation binaire établit une distinction naturelle entre deux niveaux (pertinent et non pertinent), éliminant ainsi les erreurs de classement au sein de chaque niveau. Remarque : la précision par paires considère les ex æquo comme corrects (s[i] >= s[j]), ce qui avantage les outils binaires. NDCG@5 et le coefficient de corrélation de Spearman (présentés dans le graphique ci-dessus) pénalisent les ex æquo et placent TruLens en tête.

Scores moyens par niveau de pertinence

Aucun outil ne commande correctement Partiellement > Négatif dur.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Comment chaque outil évalue la pertinence du contexte

Les cinq outils utilisent tous GPT-4o comme juge sous-jacent, mais ils emploient des stratégies d'évaluation différentes.

WandB Weave : Invite de LLM binaire

WandB envoie une seule invite au LLM lui demandant d'évaluer la pertinence « sur une échelle de 0 à 1 ». Cependant, son schéma de réponse interne définit le score comme un entier , de sorte que le modèle ne peut renvoyer que 0 ou 1 .

Un appel LLM, une décision binaire. WandB répond clairement à la question « Est-ce le bon contexte ? » (précision Top-1 maximale), mais ne peut pas exprimer les degrés de pertinence : un contexte partiel et une réponse négative catégorique obtiennent le même score.

Valeurs de sortie : 0, 1

TruLens : échelle de Likert à 4 points

TruLens invite le LLM à jouer le rôle d’un « évaluateur de PERTINENCE » avec des critères explicites pour une échelle de 0 à 3 :

0 : Sans rapport avec la requête
1 : Pertinent pour certains aspects de la requête
2 : Pertinent pour la majeure partie de la requête
3 : Pertinent pour l'intégralité de la requête

Le score brut est normalisé entre 0,0 et 1,0 en le divisant par 3. Cela donne à TruLens quatre niveaux de sortie distincts, offrant une granularité suffisante pour distinguer les contextes partiels des négations absolues tout en conservant une invite simple.

Valeurs de sortie : 0,0 ; 0,33 ; 0,67 ; 1,0

Ragas : Moyenne à deux juges

Ragas soumet chaque évaluation à deux juges indépendants , chacun formulant différemment les mêmes critères (0 = non pertinent, 1 = partiellement pertinent, 2 = pleinement pertinent). La note finale correspond à la moyenne des deux évaluations, normalisée entre 0,0 et 1,0.

Grâce à la moyenne de deux échelles à 3 points, Ragas produit cinq valeurs possibles , soit plus que tout autre outil testé. Sa conception à double juge offre également une résistance intrinsèque à la sensibilité aux prompteurs.

Valeurs de sortie : 0,0 ; 0,25 ; 0,5 ; 0,75 ; 1,0

UpTrain : Classification ternaire (A/B/C)

UpTrain conçoit la pertinence comme une classification à choix multiples :

A (1.0) : Le contexte peut répondre complètement à la requête
B (0,5) : Le contexte peut apporter des éléments de réponse pertinents, mais ne permet pas de répondre complètement.
C (0.0) : Le contexte ne contient aucune information permettant de répondre à la requête.

Le modèle ternaire permet de distinguer ce qui est « partiellement pertinent » de ce qui est « non pertinent », mais il ne peut pas séparer ce qui est « trompeur » de ce qui est « tangentiellement lié » ; les deux peuvent tomber dans la même catégorie.

Valeurs de sortie : 0,0 ; 0,5 ; 1,0

DeepEval : Décomposition d'énoncés (G-Eval)

Au lieu de demander un score de pertinence unique, DeepEval décompose le contexte en énoncés individuels , puis demande au LLM de juger chaque énoncé comme étant « oui » (pertinent) ou « non » (non pertinent) par rapport à la requête. Le score final correspond au ratio d'énoncés pertinents par rapport au nombre total d'énoncés.

Le résultat est un score continu (par exemple, 7 énoncés pertinents sur 10 = 0,70). Cependant, l'approche est stricte : même un contexte très pertinent est pénalisé s'il contient des phrases hors sujet. Les contextes de référence incluent parfois des détails contextuels que la décomposition juge « non pertinents », ce qui fait chuter le score en dessous de celui d'un contexte négatif strict plus court et plus ciblé. Ceci explique la précision de 78,1 % de DeepEval pour les énoncés les plus pertinents.

Valeurs de sortie : continues (0,0–1,0)

Méthodologie de référence des outils d'évaluation RAG

Conception d'ensembles de données adverses

Chaque requête comporte cinq contextes à un niveau de pertinence distinct :

Ensemble de données

Nous combinons deux sources :

HaluEval (480 exemples) : Questions de culture générale portant sur la musique, le cinéma, le sport, l’histoire, la géographie, etc. Claude génère des réponses négatives strictes, des contextes partiels et des réponses négatives partielles.

HotPotQA (530 échantillons) : Questions de raisonnement à sauts multiples nécessitant une synthèse d'informations à travers plusieurs documents.

Au total : 1 010 échantillons , chacun avec 5 contextes = 5 050 évaluations de contexte par outil . Tous les échantillons ont passé le filtrage automatique des fuites (489 échantillons supprimés lors de la génération en raison de fuites de réponses).

Protocole inter-modèles

Pour éliminer le biais d'auto-préférence (lorsqu'un évaluateur de LLM préfère un texte qu'il a lui-même généré), nous avons utilisé Claude Sonnet 4.5 pour la génération de contexte adverse et GPT-4o comme juge pour tous les outils. Les deux ont été appelés via OpenRouter avec temperature=0.

Les pièges adverses

Le piège à sauts multiples (Confusion relationnelle)

Les questions nécessitent souvent de retracer une chaîne de relations (par exemple, A est lié à B, qui est lié à C). Les réponses négatives strictes apportent une version simplifiée de la question, en interrompant la chaîne.

Question n° 89 : « Qui édite la série de jeux dont Retro City Rampage est une parodie ? » Réponse : Rockstar Games

Le piège de distraction d'entité

Les outils de récupération trouvent souvent le bon emplacement ou le bon sujet, mais renvoient des métadonnées concernant le mauvais événement ou le mauvais attribut.

Question ID 90 : « …Le Bridge Inn est le lieu où se déroule quel concours annuel de mensonges, organisé dans le Cumbria, en Angleterre ? » Réponse cible : Le plus grand menteur du monde

Le piège de la pertinence partielle

Un contexte avec le bon sujet et les bonnes entités, mais sans réponse.

Question n° 9 : « Qui a écrit les paroles de Portofino avec un collaborateur sur « Un violon sur le toit » ? » Réponse : Richard Ney

TruLens et DeepEval attribuent correctement des scores plus élevés aux contextes partiels qu'aux négatifs purs sur ces échantillons en particulier, bien que ce schéma ne se vérifie pas sur l'ensemble des données.

Quel outil devez-vous utiliser ?

Conclusion

Le principal compromis réside dans la granularité du score. Les outils binaires (WandB) excellent dans l'identification car, en cas d'égalité, ils donnent automatiquement raison à l'un d'eux ; les outils multipoints (TruLens, Ragas) excellent dans le classement car ils peuvent exprimer différents degrés de pertinence.

La pertinence du contexte agit comme un premier filtre : tous les outils distinguent les contextes pertinents des contextes non pertinents dans plus de 91 % des cas (précision par paires). Cependant, aucun ne vérifie l’exactitude factuelle. Un passage contenant les bonnes entités mais une réponse erronée obtient un score élevé auprès de tous les outils testés. Pour une vérification de l’exactitude factuelle, il est recommandé de combiner cette méthode avec des indicateurs de fidélité de la réponse.

Limites

Modèle à juge unique : Toutes les évaluations utilisent GPT-4o comme juge. Les résultats peuvent différer avec d’autres modèles.
Pertinence du contexte uniquement : ce test évalue uniquement la pertinence du contexte, et non la fidélité des réponses ou d'autres indicateurs RAG.
Configurations par défaut : Les outils ont été évalués tels quels. Les performances peuvent être améliorées grâce à une personnalisation des invites de commande.
Exécution unique avec critère de départage : le test a été exécuté une seule fois avec une température nulle. La précision Top-1 est calculée avec argmax (le premier indice l'emporte en cas d'égalité), ce qui avantage les outils présentant des taux d'égalité élevés (WandB : 86 %). Nous indiquons également la précision Top-1 stricte ainsi que la précision argmax lorsque cela est pertinent.
Jeu de données uniquement adverse : tous les exemples négatifs stricts utilisent l’échange d’entités. Les résultats reflètent les performances dans des conditions adverses ; les outils peuvent avoir des performances différentes dans des contextes récupérés naturellement.

Pour en savoir plus

Explorez d'autres indicateurs RAG, tels que :

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par

Ekrem Sarı

Chercheur en IA

Suivre

Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et les frameworks RAG.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Outils d'évaluation RAG : Pondération et biais vs Ragas vs DeepEval

Résultats de référence des outils d'évaluation RAG

Explication des indicateurs

Principales conclusions

Discrimination : doré vs. dur négatif

Qualité du classement

Scores moyens par niveau de pertinence

Comment chaque outil évalue la pertinence du contexte

WandB Weave : Invite de LLM binaire

TruLens : échelle de Likert à 4 points

Ragas : Moyenne à deux juges

UpTrain : Classification ternaire (A/B/C)

DeepEval : Décomposition d'énoncés (G-Eval)

Méthodologie de référence des outils d'évaluation RAG

Conception d'ensembles de données adverses

Ensemble de données

Protocole inter-modèles

Les pièges adverses

Le piège à sauts multiples (Confusion relationnelle)

Le piège de distraction d'entité

Le piège de la pertinence partielle

Quel outil devez-vous utiliser ?

Conclusion

Limites

Pour en savoir plus

Soyez le premier à commenter

À lire ensuite

Comparaison des performances graphiques et vectorielles

Outils d'observabilité RAG - Analyse comparative

Le paysage de l'évaluation LLM avec des cadres de référence

Frameworks RAG : LangChain vs LangGraph vs LlamaIndex

Hybrid RAG : Amélioration de la précision RAG

Les 10 meilleurs outils IAST : Évaluation de la pertinence, de l'intégration et des fonctionnalités