Reranker-Benchmark: Vergleich der 8 besten Modelle

aktualisiert am Feb 26, 2026

Wir haben acht Reranker-Modelle anhand von ca. 145.000 englischen Amazon-Rezensionen verglichen, um zu messen, wie stark ein Reranking-Schritt die Suche nach dichten Rezensionen verbessert. Wir ermittelten die 100 besten Kandidaten mit multilingual-e5-base, führten mit jedem Modell ein Reranking durch und evaluierten die Top-10-Ergebnisse anhand von 300 Suchanfragen, die jeweils konkrete Details aus der Originalrezension enthielten. Der beste Reranker steigerte die Trefferquote (Hit@1) von 62,67 % auf 83,00 % (+20,33 Prozentpunkte).

Reranker-Benchmark-Ergebnisse

Loading Chart

Erläuterung der Kennzahlen :

ΔHit@1 / ΔHit@10 zeigt die Verbesserung gegenüber dem Ausgangswert (ohne Reranker) in Prozentpunkten (pp). Beispielsweise bedeutet +20,33pp, dass der Reranker die Trefferquote bei 1 um 20,33 Prozentpunkte gegenüber den 62,67 % des Ausgangswerts verbessert hat.

Hit@K misst, ob eine Rezension mit der korrekten Produkt-ID unter den ersten K Ergebnissen erscheint. Als Referenz dient die Produkt-ID der Rezension, die die Anfrage ausgelöst hat. Erscheint eine andere Rezension desselben Produkts unter den ersten K, wird dies als Treffer gewertet. Hit@1 ist der strengste Test: Stammt das erste Ergebnis vom richtigen Produkt? Hit@10 ist weniger streng: Befindet sich das richtige Produkt unter den ersten zehn Ergebnissen?

Der mittlere reziproke Rang ( MRR@10 ) berechnet den Mittelwert aus 1/Rang des ersten korrekten Ergebnisses über alle Anfragen hinweg. Befindet sich die erste übereinstimmende Produkt-ID auf Rang 1, beträgt der Wert 1,0. Auf Rang 2 ist er 0,5 und auf Rang 10 0,1. Dadurch werden Modelle belohnt, die das korrekte Produkt möglichst weit oben platzieren.

nDCG@10 (Normalisierter diskontierter kumulativer Gewinn) bewertet die Positionen aller übereinstimmenden Bewertungen unter den Top 10, nicht nur die erste. Wenn dasselbe Produkt mehrere Bewertungen im Kandidatenset hat und mehrere davon unter den Top 10 landen, wird jede Bewertung entsprechend ihrer Position im nDCG berücksichtigt. In der Praxis haben die meisten Produkte nur 1–2 Bewertungen unter den Top 100, sodass nDCG und MRR eng korrelieren.

Recall@10 misst den Anteil der übereinstimmenden Rezensionen (gleiche Produkt-ID) unter den Top 10 aller übereinstimmenden Rezensionen im gesamten Kandidatenset (Top 100). Hat ein Produkt beispielsweise 3 Rezensionen unter den Top 100 und der Reranker platziert 2 davon unter den Top 10, beträgt Recall@10 für diese Anfrage 2/3. Da die meisten Produkte nur wenige doppelte Rezensionen im Kandidatenset aufweisen, sind Recall@10 und Hit@10 in diesem Benchmark nahezu identisch.

Latenzprobleme

Die Reranking-Latenz misst die Zeit, die jeder Cross-Encoder benötigt, um 100 Kandidatendokumente anhand der Anfrage zu bewerten. Die Vektorsuchzeit (~20 ms) wird nicht berücksichtigt, da sie über alle Durchläufe hinweg konstant bleibt und unabhängig vom Reranker ist.

Erläuterung der Latenzmetriken :

Rerank ist die Zeit, die der Cross-Encoder benötigt, um alle 100 Kandidatendokumente anhand der Anfrage zu bewerten. Hier unterscheiden sich die Modelle: Ein einzelner Vorwärtsdurchlauf ist schnell, während autoregressives Decodieren langsam ist.

P95 ist die Gesamtlatenz im 95. Perzentil. Einige Anfragen haben längere Antworttexte, was die Tokenisierungs- und Bewertungszeit verlängert. P95 zeigt den Worst-Case-Wert, der für 95 % aller Anfragen zu erwarten ist.

Wichtigste Erkenntnisse

Ein 149M-Modell entspricht einem 1.2B-Modell.

gte-reranker-modernbert-base hat 149 Millionen Parameter, nemotron-rerank-1b 1,2 Milliarden. Beide erreichten eine Trefferquote von 83,00 % bei englischer Sprache. Die ModernBERT-Architektur ist achtmal kleiner und liefert die gleiche Spitzengenauigkeit.

Das bedeutet nicht, dass die Modellgröße irrelevant ist. Nemotron liegt bei MRR@10 (0,8514 vs. 0,8483) und Hit@10 (88,33 % vs. 88,00 %) leicht vorn, was bedeutet, dass es relevante Dokumente in den Top 10 etwas besser einordnet. Für die meisten Anwendungen, bei denen es auf das erste richtige Ergebnis ankommt, ist das 149M-Modell jedoch ausreichend.

Das größte Modell ist nicht das beste.

qwen3_reranker_4b hat 4 Milliarden Parameter und benötigt über eine Sekunde pro Abfrage. Die Trefferquote (Hit@1) liegt bei 77,67 % und damit auf Platz vier hinter nemotron (1,2 Milliarden), gte_modernbert (149 Millionen) und jina (560 Millionen). Die Latenz ist 4,5-mal so hoch wie bei nemotron, die Genauigkeit ist jedoch um 5,3 Prozentpunkte geringer.

Die Architektur von qwen3 verwendet kausale Sprachmodellierung mit einem Ja/Nein-Logit-Ansatz. Das Modell liest das Anfrage-Dokument-Paar und gibt die Wahrscheinlichkeit für „Ja, dies ist relevant“ aus. Dies ist konzeptionell elegant, die Inferenz ist jedoch aufgrund des Overheads der autoregressiven Dekodierung aufwändig. Die SequenceClassification-Modelle (gte_modernbert, bge) und der Prompt-Template-Ansatz von nemotron verarbeiten das Paar in einem einzigen Vorwärtsdurchlauf, was grundsätzlich schneller ist.

Jina bietet den besten Kompromiss zwischen Geschwindigkeit und Genauigkeit.

jina_reranker_v3 erreicht eine Trefferquote von 81,33 % bei 188 ms. nemotron erreicht 83,00 % bei 243 ms. Wenn Sie eine Gesamtlatenz von unter 200 ms pro Abfrage benötigen, ist Jina das einzige Modell der Spitzenklasse, das diese Anforderung erfüllt. Der Unterschied von 1,67 Prozentpunkten rechtfertigt möglicherweise nicht die zusätzlichen 55 ms in einem Produktionssystem, das Tausende von Anfragen pro Sekunde verarbeitet.

Ein einzelner Reranker verschlechtert die Ergebnisse.

mxbai_rerank_xsmall (70 Mio. Parameter) erzielt eine Trefferquote von 64,67 % (Hit@1). Die Baseline ohne Reranking-Algorithmus erreicht 62,67 %. Die Verbesserung beträgt lediglich 2 Prozentpunkte und liegt damit im Bereich des Rauschens bei 300 Anfragen. Bei 70 Mio. Parametern ist das Modell nicht in der Lage, die Relevanz von Anfrage und Dokument bei längeren oder differenzierteren Texten zuverlässig zu beurteilen.

Ein Reranker ist nicht automatisch vorteilhaft. Testen Sie ihn mit Ihren tatsächlichen Daten, bevor Sie ihn einsetzen.

Der Retriever setzt die Obergrenze

Alle führenden Reranker erreichen eine Trefferquote von etwa 87–88 % (Hit@10). Diese Obergrenze ist auf den Retriever zurückzuführen. Wenn multilingual-e5-base das korrekte Dokument nicht unter den ersten 100 Kandidaten platziert, kann kein Reranker es wiederherstellen. Die verbleibenden 12 % der Anfragen, bei denen alle Reranker versagen, stellen Fälle dar, in denen der Dense Retriever das relevante Dokument schlichtweg übersehen hat.

Um diese Grenze zu überwinden, ist ein besserer Retrieval-Algorithmus, ein größerer Kandidatenpool oder beides erforderlich. Wir testeten die Top-250-Kandidaten und stellten gegenüber den Top-100 kaum eine Verbesserung fest. Das bedeutet, dass e5_base seine brauchbaren Kandidaten weit vor Rang 250 ausschöpft.

Wie Reranker funktionieren

Ein dichter Retriever (Bi-Encoder) kodiert Anfragen und Dokumente unabhängig voneinander in Vektoren. Die Suche erfolgt als Nächste-Nachbarn-Suche in diesen Vektoren. Dies ist schnell, da die Anfrage nur zum Suchzeitpunkt kodiert wird. Allerdings sieht das Modell Anfrage und Dokument nie zusammen, wodurch subtile Relevanzsignale verloren gehen können.

Ein Reranker (Cross-Encoder) verwendet ein Anfrage-Dokument-Paar als Eingabe. Das Modell analysiert beide Texte gemeinsam und erkennt so Beziehungen, die bei unabhängiger Kodierung übersehen werden. Der Nachteil besteht darin, dass das Modell für jeden Kandidaten einmal ausgeführt werden muss, weshalb nur eine kleine Anzahl von Kandidaten bewertet werden kann.

Architekturen in diesem Benchmark

Wir haben vier verschiedene Cross-Encoder-Architekturen getestet:

Sequenzklassifizierungsmodelle (bge_base, bge_v2_m3, mxbai_xsmall, gte_modernbert) nehmen ein [Anfrage, Dokument]-Paar als Eingabe und geben einen einzelnen Logit-Score aus. Dies ist der einfachste und gebräuchlichste Ansatz.

Nemotron verwendet ein Eingabeformat: „Frage:{q} Textabschnitt:{p}“. Die Eingabe sieht eher wie Klartext als wie ein strukturiertes Paar aus, dennoch gibt das Modell mittels Sequenzklassifizierung einen Relevanzwert aus. Das LLM-Pretraining (basierend auf Llama) sorgt für ein starkes Sprachverständnis.

Qwen3 Reranker verwenden kausale Sprachmodellierung. Das Modell liest das Paar und generiert ein Ja/Nein-Urteil. Der Score berechnet sich aus log P(ja) / (P(ja) + P(nein)). Dies erfordert den vollständigen autoregressiven Mechanismus, was die höhere Latenz erklärt.

Jina v3 verwendet eine benutzerdefinierte API (model.rerank()), die Tokenisierung und Scoring intern übernimmt. Die zugrundeliegende Architektur nutzt Cross-Attention, die Schnittstelle abstrahiert jedoch die Details.

Reranker-Benchmark-Methodik

GPU: NVIDIA H100 PCIe 80GB via Runpod
Vektordatenbank: Qdrant 1.12.0 (lokales Binärsystem), Kosinusdistanz
Retriever: multilingual-e5-base (768-dim). Query-Präfix: "query: " , Dokumentpräfix: "passage: "
Software: Transformers 5.2.0, PyTorch 2.8.0, CUDA 12.8.1
Datensatz: Englische Teilmenge von Amazon Reviews Multi (Kaggle). Nach dem Filtern auf mindestens 100 Zeichen ergeben sich ¹ 145.000 Bewertungen. Jede Bewertung enthält eine Produkt-ID, den Bewertungstext und eine Sternebewertung.
Anfragegenerierung: Claude Sonnet 4.6 über OpenRouter. 300 englische Anfragen (5 Typen: Fakten, Meinungen, Anwendung, Problemlösung, Merkmalsvergleich). Jede Anfrage muss sich auf spezifische Details aus der Quellenanalyse beziehen; allgemeine Fragen (Spezifitätswert < 4/5) werden herausgefiltert.
Dokumentformat: "Review Title: {title}\nReview: {body}"
Pipeline: Die Top-100-Kandidaten werden mit multilingual-e5-base abgerufen, mit Cross-Encoder neu geordnet und die Top-10 zurückgegeben. Die Baseline überspringt die Neuordnung und gibt direkt die Top-10 des Retrievers zurück.
Tatsächliche Bewertung: Nur exakte Übereinstimmung der Produkt-ID. Keine Kosinusähnlichkeit als Ausweichkriterium. Keine Teilgutschrift für semantisch ähnliche Produkte.
Kontrollierte Variable: Nur das Reranker-Modell ändert sich zwischen den Experimenten. Retriever, Kandidatenanzahl, Query-Set und Bewertungskriterien sind in allen Durchläufen identisch.
Keine Feinabstimmung: Alle Modelle wurden mit den Standardgewichten von HuggingFace ohne weitere Anpassungen evaluiert.
Latenz: Neubewertung (übergreifende Encoder-Bewertung von 100 Kandidaten). Gemessen pro Anfrage auf der GPU.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Getestete Modelle

Einschränkungen

Dieser Benchmark verwendet einen einzelnen Retriever (multilingual-e5-base). Ein anderer Retriever würde andere Kandidatenmengen erzeugen und könnte die Rangfolge der Reranker verändern. Die Ergebnisse spiegeln wider, wie gut jeder Reranker mit diesem spezifischen Retriever zusammenarbeitet, nicht die Qualität der Reranker an sich.

Wir haben die Tests mit englischen Produktrezensionen von Amazon durchgeführt. Die Ergebnisse auf anderen Domänen (wissenschaftliche Arbeiten, juristische Dokumente, Quellcode) oder in anderen Sprachen können abweichen.

Die Kandidatenanzahl ist auf 100 festgelegt. Einige Reranking-Algorithmen könnten bei 20 oder 200 Kandidaten zu unterschiedlichen Ergebnissen kommen. Wir haben 250 Kandidaten getestet und nur eine geringfügige Verbesserung festgestellt, was darauf hindeutet, dass 100 Kandidaten für e5_base ausreichend sind. Andere Retriever könnten sich jedoch anders verhalten.

300 Anfragen stellen eine moderate Stichprobengröße dar. Die drei besten Modelle (nemotron, gte_modernbert, jina) trennen weniger als 2 Prozentpunkte. Bei einer größeren Anzahl von Anfragen könnten sich diese Rangfolgen ändern. Der Abstand zwischen den besten und den schlechtesten Modellen (über 20 Prozentpunkte) ist jedoch beträchtlich.

Abschluss

Reranker funktionieren. Das beste Modell in diesem Benchmark steigert die Trefferquote (Hit@1) von 62,67 % auf 83,00 % (+20,33 Prozentpunkte). Das bedeutet, dass 20 von 100 Anfragen, die zuvor das falsche Dokument zuerst lieferten, nun das richtige Dokument zurückgeben. Dies ist ein signifikanter Gewinn für eine Komponente, die die Latenz um weniger als 250 ms erhöht.

Die wichtigste Erkenntnis ist, dass die Modellgröße nicht die Qualität des Rerankers bestimmt. gte-reranker-modernbert-base mit 149 Millionen Parametern erreicht auf Hit@1 die gleiche Qualität wie nemotron-rerank-1b mit 1,2 Milliarden Parametern. Das Modell Qwen3 mit 4 Milliarden Parametern belegt den vierten Platz. Wenn Sie einen Reranker für ein Produktivsystem auswählen, beginnen Sie mit den kleineren Modellen. Möglicherweise benötigen Sie die größeren nie.

Für latenzkritische Anwendungen ist jina-reranker-v3 die beste Option unter 200 ms. Für maximale Genauigkeit ohne Latenzbeschränkung teilen sich nemotron-rerank-1b und gte-reranker-modernbert-base den Spitzenplatz. Für Teams mit begrenztem GPU-Budget ist gte-modernbert die eindeutig beste Wahl: dieselbe Genauigkeit wie das 1,2-B-Modell bei deutlich geringerem Speicherbedarf.

Ein Muster zeigte sich in allen Experimenten: Der Retriever setzt die Obergrenze. Kein Reranker konnte Hit@10 über 88 % bringen, da die verbleibenden 12 % korrekter Dokumente nie unter den Top-100-Kandidaten erschienen. Die Investition in einen besseren Retriever dürfte größere Vorteile bringen als der Wechsel zwischen den drei besten Rerankern.