RAG-Evaluierungsinstrumente: Gewichtungen & Verzerrungen vs. Ragas vs. DeepEval

mit

aktualisiert am Mär 23, 2026

Wenn eine RAG-Pipeline den falschen Kontext abruft, generiert das LLM mit Sicherheit die falsche Antwort. Kontextrelevanz-Scorer stellen die primäre Verteidigungslinie dar.

Wir haben fünf Tools anhand von 1.460 Fragen und über 14.600 bewerteten Kontexten unter identischen Bedingungen verglichen: gleiches Bewertungsmodell (GPT-4o), Standardkonfigurationen und keine benutzerdefinierten Eingabeaufforderungen. Unter Standardbedingungen erwiesen sich WandB, TruLens und Ragas als die leistungsstärksten Tools. Unter simuliertem Testdruck (mit vertauschten Entitäten) erzielte WandB die besten Ergebnisse.

RAG-Bewertungsinstrumente – Vergleichsergebnisse

Loading Chart

Die drei Erstplatzierten (WandB, TruLens, Ragas) liegen statistisch gleichauf hinsichtlich der Top-1-Genauigkeit (95%-Konfidenzintervall überschneidet sich zwischen 94,0% und 98,0%).

Um unsere Bewertungsmethoden und Kennzahlen im Detail zu verstehen, sehen Sie sich bitte unsere Benchmark-Methodik für die RAG-Bewertungsinstrumente an.

Erläuterung der Kennzahlen

Top-1-Genauigkeit : Kann das Tool dem optimalen Kontext die höchste Relevanzbewertung zuweisen? Dies misst die Sicherheit gegen Adversarial Retrieval, eine häufige Fehlerursache in der Produktion.

NDCG@5 (normalisierter diskontierter kumulativer Gewinn) : Ordnet das Tool fünf Kontexte mit unterschiedlichen Relevanzstufen (4, 3, 2, 1, 0) in der richtigen Reihenfolge an? Im Gegensatz zur binären Genauigkeit belohnt NDCG Tools, die relevanteren Kontexten proportional höhere Punktzahlen zuweisen.

Spearman-Rangkorrelationskoeffizient ρ : Wie gut korreliert die Rangfolge der Ergebnisse eines Tools mit der tatsächlichen Relevanzreihenfolge? Ein perfektes Tool würde einen Wert von ρ = 1,0 ergeben.

MRR (mittlerer reziproker Rang) : Durchschnitt von 1/Rang für den optimalen Kontext. Wenn ein Tool den optimalen Kontext an erster Stelle einordnet, beträgt der MRR 1,0; an zweiter Stelle 0,5; und an dritter Stelle 0,33. Tools, die den korrekten Kontext unter weniger relevanten platzieren, werden bestraft.

Wichtigste Erkenntnisse

WandB ist führend bei der Identifizierung, TruLens bei der Rangfolge : WandB erzielt die höchste Top-1-Genauigkeit (94,5 %), aber die niedrigsten Werte für NDCG@5 (0,910) und Spearman-Korrelationskoeffizient ρ (0,669). TruLens führt bei NDCG@5 (0,932), Spearman-Korrelationskoeffizient ρ (0,750) und MRR (0,594). Der Unterschied liegt im Bewertungsdesign: WandBs binäre Bewertung ist einfach, aber grob; die 4-Punkte-Skala von TruLens bietet eine höhere Auflösung, ist aber anfälliger für Inversionen.
TruLens weist die höchste Diskriminierungsrate auf : Bei der Unterscheidung eines korrekten Kontexts von einer nahezu identischen, aber vertauschten Version erkennt TruLens die Richtung in 35,5 % der Fälle richtig, mit nur 8,4 % Fehlern (Verhältnis 4,2:1). Kein anderes Tool erreicht diese Leistung.
Kein Instrument unterscheidet zwischen faktisch falschen und faktisch richtigen Kontexten : Alle fünf Instrumente bewerten eindeutig negative Kontexte höher als partielle Kontexte, wodurch die korrekte Relevanzreihenfolge umgekehrt wird. Ein Textabschnitt mit den richtigen Entitäten, aber der falschen Antwort, erzielt durchweg bessere Ergebnisse als ein Textabschnitt mit dem richtigen Thema, aber ohne Antwort. Dies deckt sich mit der Annahme, dass die Kontextrelevanz die thematische Passung und nicht die faktische Richtigkeit misst.
DeepEval vernachlässigt die Bedeutung von „Golden Contexts“ : Die Statement-Zerlegung von DeepEval liefert zwar wettbewerbsfähige Ranglisten (NDCG@5 = 0,923), bewertet „Golden Contexts“ jedoch mit einem Mittelwert von 0,46 gegenüber 0,82–0,91 bei anderen Tools. Daher ist DeepEval unzuverlässig, um den besten einzelnen Kontext zu identifizieren.
Die ternäre Skala von UpTrain schränkt die Unterscheidungsfähigkeit ein : Drei Ausgabewerte (0, 0,5, 1,0) können nicht fünf Relevanzstufen darstellen. UpTrain weist das schlechteste Unterscheidungsverhältnis (1,4:1) und die geringste Genauigkeit bei der Rangordnung (27,6 % korrekte Reihenfolge) auf.

Diskriminierung: goldene vs. harte negative Diskriminierung

Wie häufig weist das Tool dem optimalen Kontext eine höhere Punktzahl zu als dem durch einen Entitätstausch entstandenen harten Negativkontext?

Sieg = höhere Punktzahl (Golden Score). Unentschieden = gleiche Punktzahl. Niederlage = höhere Punktzahl (Hard Minus Score).

WandB verzeichnet die wenigsten Verluste (4,8 %), aber auch die wenigsten Siege (15,5 %): Die binäre Bewertung führt in 80 % der Fälle zu einem Unentschieden. Wenn eine Unterscheidung gelingt, wird die Richtung fast immer korrekt vorhergesagt. Die strikte Top-1-Genauigkeit von WandB (mit dem eindeutigen Maximum „golden“) liegt bei nur 8,3 %, verglichen mit 25,3 % bei TruLens. Die hohe Argmax-Top-1-Genauigkeit erklärt sich dadurch, dass der optimale Kontext Index 0 hat und von der Tie-Break-Funktion profitiert.

Rangqualität

Paarweise Genauigkeit = Prozentsatz aller 10 Kontextpaare pro Stichprobe, die korrekt zugeordnet wurden. Top-2-Genauigkeit = Der Kontext mit der höchsten Punktzahl ist optimal oder teilweise korrekt. 5-Wege-Genauigkeit = Perfekte monotone Rangfolge über alle 5 Ebenen.

WandB ist in allen drei Metriken führend, da die binäre Bewertung eine natürliche Zweiteilung (relevant vs. irrelevant) erzeugt, die Fehler in der Reihenfolge innerhalb der Kategorien eliminiert. Hinweis: Die paarweise Genauigkeit wertet Gleichstände als korrekt (s[i] >= s[j]), was binären Tools zugutekommt. NDCG@5 und Spearman ρ (siehe Grafik oben) bestrafen Gleichstände und platzieren TruLens an erster Stelle.

Durchschnittliche Punktzahlen nach Relevanzniveau

Kein Tool ordnet Partial > Hard Negative korrekt an.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Wie jedes Tool die Kontextrelevanz bewertet

Alle fünf Tools verwenden GPT-4o als zugrunde liegenden Richter, wenden aber unterschiedliche Bewertungsstrategien an.

WandB Weave: Binäre LLM-Aufforderung

WandB sendet eine einzelne Anfrage an das LLM, in der es aufgefordert wird, die Relevanz „auf einer Skala von 0 bis 1“ zu bewerten. Da das interne Antwortschema des Modells die Bewertung jedoch als ganze Zahl definiert, kann das Modell nur 0 oder 1 zurückgeben.

Ein LLM-Aufruf, eine binäre Entscheidung. WandB beantwortet die Frage „Ist dies der richtige Kontext?“ eindeutig (höchste Top-1-Genauigkeit), kann aber keine Relevanzgrade ausdrücken: Ein partieller Kontext und eine eindeutige Verneinung erhalten beide die gleiche Punktzahl.

Ausgabewerte: 0, 1

TruLens: 4-stufige Likert-Skala

TruLens fordert den LLM als „Relevanzbewerter“ mit expliziten Kriterien für eine Skala von 0 bis 3 auf:

0: Für die Anfrage irrelevant
1: Relevant für einige der Anfragen
2: Relevant für den Großteil der Anfrage
3: Relevant für die gesamte Anfrage

Der Rohwert wird durch Division durch 3 auf einen Bereich von 0,0 bis 1,0 normalisiert. Dadurch erhält TruLens vier unterschiedliche Ausgabestufen, die eine ausreichende Granularität bieten, um partielle Kontexte von harten Verneinungen zu unterscheiden und gleichzeitig die Eingabeaufforderung einfach zu halten.

Ausgabewerte: 0,0, 0,33, 0,67, 1,0

Ragas: Durchschnittsberechnung durch zwei Richter

Ragas lässt bei jeder Bewertung zwei unabhängige Gutachter die gleichen Kriterien unterschiedlich formulieren (0 = irrelevant, 1 = teilweise relevant, 2 = voll relevant). Die Endpunktzahl ergibt sich aus dem Durchschnitt beider Gutachterbewertungen und wird auf den Bereich 0,0–1,0 normiert.

Da zwei 3-Punkte-Skalen gemittelt werden, liefert Ragas fünf mögliche Werte – mehr Ausgabewerte als jedes andere getestete Tool. Die Zwei-Punkte-Skala sorgt zudem für eine hohe Empfindlichkeit gegenüber überempfindlichen Eingaben.

Ausgabewerte: 0,0, 0,25, 0,5, 0,75, 1,0

UpTrain: Ternäre Klassifizierung (A/B/C)

UpTrain stellt Relevanz als eine Klassifizierung mit mehreren Auswahlmöglichkeiten dar:

A (1.0): Der Kontext kann die Anfrage vollständig beantworten.
B (0,5): Der Kontext kann einige relevante Antworten liefern, aber keine vollständige Antwort liefern.
C (0.0): Der Kontext enthält keine Informationen zur Beantwortung der Anfrage.

Das ternäre Design kann zwischen „teilweise relevant“ und „irrelevant“ unterscheiden, aber nicht zwischen „irreführend“ und „tangential verwandt“ trennen; beides kann in dieselbe Kategorie fallen.

Ausgabewerte: 0,0, 0,5, 1,0

DeepEval: Statement decomposition (G-Eval)

Anstatt einen einzelnen Relevanzwert zu ermitteln, zerlegt DeepEval den Kontext in einzelne Aussagen und lässt das LLM jede Aussage anschließend als „ja“ (relevant) oder „nein“ (irrelevant) für die Suchanfrage bewerten. Der endgültige Wert ergibt sich aus dem Verhältnis der relevanten Aussagen zur Gesamtzahl der Aussagen.

Das Ergebnis ist ein kontinuierlicher Wert (z. B. 7 von 10 relevanten Aussagen = 0,70). Der Ansatz ist jedoch streng: Selbst ein hochrelevanter Kontext wird abgewertet, wenn er themenfremde Sätze enthält. „Goldene Kontexte“ enthalten mitunter Details, die die Zerlegung als „irrelevant“ einstuft, wodurch der Wert unter den einer kürzeren, prägnanteren Verneinung fällt. Dies erklärt die Top-1-Genauigkeit von DeepEval von 78,1 %.

Ausgabewerte: Kontinuierlich (0,0–1,0)

RAG-Bewertungsinstrumente Benchmark-Methodik

adversarieller Datensatzentwurf

Jede Anfrage hat fünf Kontexte auf unterschiedlichen Relevanzstufen :

Datensatz

Wir kombinieren zwei Quellen:

HaluEval (480 Beispiele): Allgemeinwissensfragen aus den Bereichen Musik, Film, Sport, Geschichte, Geografie und mehr. Harte Verneinungen, Teilkontexte und weiche Verneinungen werden von Claude generiert.

HotPotQA (530 Beispiele): Mehrstufige Logikfragen, die die Synthese von Informationen aus mehreren Dokumenten erfordern.

Insgesamt: 1.010 Beispiele , jedes mit 5 Kontexten = 5.050 Kontextauswertungen pro Tool . Alle Beispiele haben die automatische Leckfilterung bestanden (489 Beispiele wurden während der Generierung aufgrund von Antwortlecks entfernt).

Modellübergreifendes Protokoll

Um eine Verzerrung durch Selbstpräferenz (bei der ein LLM-Evaluator selbstgenerierten Text bevorzugt) zu eliminieren, verwendeten wir Claude Sonnet 4.5 für die adversarielle Kontextgenerierung und GPT-4o als Bewertungskriterium für alle Tools. Beide wurden über OpenRouter mit temperature=0 aufgerufen.

Die gegnerischen Fallen

Die Mehrfachsprungfalle (Verwirrung von Beziehungen)

Fragen erfordern oft das Nachvollziehen einer Verwandtschaftskette (z. B. A ist mit B verwandt, der wiederum mit C verwandt ist). Harte Verneinungen beantworten eine vereinfachte Version der Frage und unterbrechen so die Kette.

Frage-ID 89 : „Wer veröffentlicht die Spielereihe, die in Retro City Rampage parodiert wird?“ Zielantwort : Rockstar Games

Die Ablenkungsfalle für Entitäten

Retriever finden oft den richtigen Ort oder das richtige Thema, liefern aber Metadaten über das falsche Ereignis oder Attribut.

Frage-ID 90 : „…Das Bridge Inn ist der Veranstaltungsort welchen jährlichen Lügenwettbewerbs in Cumbria, England?“ Zielantwort : Der größte Lügner der Welt

Die Falle der partiellen Relevanz

Ein Kontext mit dem richtigen Thema und den richtigen Entitäten, aber ohne Antwort.

Frage-ID 9 : „Wer schrieb den Text von Portofino zusammen mit einem Mitarbeiter von ‚Anatevka‘?“ Zielantwort : Richard Ney

TruLens und DeepEval bewerten partielle Kontexte bei diesen Beispielen korrekterweise höher als harte Negative, allerdings gilt dieses Muster nicht für den gesamten Datensatz.

Welches Werkzeug sollten Sie verwenden?

Abschluss

Die Granularität der Bewertung ist der wichtigste Kompromiss. Binäre Tools (WandB) sind bei der Identifizierung im Vorteil, da jeder Gleichstand standardmäßig zu ihren Gunsten gewertet wird; Multi-Point-Tools (TruLens, Ragas) sind bei der Rangfolge im Vorteil, da sie Relevanzgrade ausdrücken können.

Kontextrelevanz dient als erster Filter: Alle Tools trennen relevante von irrelevanten Kontexten in über 91 % der Fälle (paarweise Genauigkeit). Keines der Tools überprüft jedoch die faktische Richtigkeit. Ein Textabschnitt mit den richtigen Entitäten und der falschen Antwort erzielt bei allen getesteten Tools hohe Werte. Zur Überprüfung der faktischen Korrektheit sollten daher Metriken zur Treue der Antwort herangezogen werden.

Einschränkungen

Einzelbeurteilungsmodell : Alle Bewertungen verwenden GPT-4o als Beurteiler. Die Ergebnisse können bei anderen Modellen abweichen.
Nur Kontextrelevanz : Dieser Benchmark bewertet ausschließlich die Kontextrelevanz, nicht die Treue der Antworten oder andere RAG-Metriken.
Standardkonfigurationen : Die Tools wurden im Auslieferungszustand evaluiert. Die Leistung kann durch benutzerdefinierte Prompt-Entwicklung verbessert werden.
Einzeldurchlauf mit Tie-Break-Konvention : Der Benchmark wurde einmal mit einer Temperatur von 0 ausgeführt. Die Top-1-Genauigkeit basiert auf argmax (der erste Index gewinnt bei Gleichstand), was Tools mit hohen Gleichstandraten zugutekommt (WandB: 86 %). Wir geben die strikte Top-1-Genauigkeit zusammen mit argmax an, sofern relevant.
Datensatz ausschließlich für adversarische Tests : Alle harten Negativbeispiele verwenden Entitätstausch. Die Ergebnisse spiegeln die Leistung unter adversariellen Bedingungen wider; die Tools können bei natürlich abgerufenen Kontexten anders abschneiden.

Weiterführende Literatur

Erkunden Sie weitere RAG-Benchmarks, wie zum Beispiel:

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von