Open Source Embedding Models Benchmark für RAG

aktualisiert am Apr 25, 2026

Wir haben 14 Open-Source-Embedding-Modelle, die auf einem einzelnen H100-Server selbst gehostet wurden, anhand von über 500 manuell kuratierten Suchanfragen aus den Bereichen Rechtsverträge, technische Kundendienstdokumente und medizinische Abstracts verglichen. Llama-Embed-Nemotron-8B (NVIDIA) erzielt die höchste Genauigkeit. EmbeddingGemma-300m (Google) ist im Vergleich zu Nemotron etwa viermal günstiger, allerdings mit einem geringfügigen Genauigkeitsverlust.

Benchmark-Ergebnisse für Open-Source-Einbettungsmodelle

Loading Chart

Erläuterung der Kennzahlen

nDCG@3: Normalisierter diskontierter kumulativer Gewinn bei Cutoff 3. Bei einem relevanten Dokument pro Anfrage beträgt der Wert 1 / log₂(Rang + 1), wenn das Referenzdokument unter den ersten 3 landet, und 0 andernfalls. Rang 1 erhält den Wert 1,000, Rang 2 den Wert 0,631 und Rang 3 den Wert 0,500. Wir verwenden nDCG@3 als primäre Metrik, da produktive RAG-Pipelines die ersten 3 bis 5 Datenblöcke an das LLM weiterleiten und der Primacy-Bias Rang 1 überproportional gewichtet.

nDCG@10: Gleiche Formel mit Grenzwert 10.

Recall@10: Anteil der Suchanfragen, bei denen das Golddokument unter den ersten 10 Ergebnissen erscheint.

MRR@10: Mittlerer reziproker Rang bei Cutoff 10. Gold auf Rang 1 ergibt 1,000 Punkte, Rang 2 0,500 Punkte und Rang 10 0,100 Punkte. Ähnliches Prinzip wie nDCG@3, jedoch mit einer stärkeren Rangstrafe.

Top-1-Treffer: Anteil der Suchanfragen, bei denen das relevante Dokument das erste Suchergebnis ist. Die strengste Metrik und diejenige, die einem Workflow ohne LLM am nächsten kommt.

nDCG@3-Ergebnisse nach Domäne

Die AVG-Rangliste verschleiert Domain-Inversionen. Harrier gewinnt bei CUAD, landet aber bei TechQA auf Platz sieben. SFR-2 belegt bei TechQA den zweiten Platz, bei CUAD jedoch nur den vierten. KaLM-12B ist Fünfter bei MedRAG und Neunter bei TechQA. nDCG@3 pro Domain:

BM25 ist auf MedRAG konkurrenzfähig (0,7862, besser als PubMedBERT und das mehrsprachige Granite), schneidet aber auf CUAD schwach ab (0,5844, wo 11 von 14 dichten Modellen besser abschneiden). Rechtsverträge enthalten eine dichte Entitätssprache, die lexikalische Übereinstimmung belohnt. Bei medizinischen Abstracts übertreffen die besten dichten Modelle (Nemotron 0,9629, SFR-2 0,9620, jina-v5 0,9523) BM25 um 0,17 bis 0,18 absolute nDCG@3-Punkte.

Bootstrap-Konfidenzintervalle von 95 % pro (Modell, Domäne)-Zelle, einschließlich eines Vier-Wege-Gleichstands von MedRAG an der Spitze und einer Harrier-Nemotron-CUAD-Überlappung, die durch die Punktschätzungsrangfolge ausgeglichen wird, werden im Abschnitt zur Benchmark-Methodik berichtet .

Kosten pro Million Token

Die Kosten für das Selbsthosting werden GPU-amortisiert: Der Stundensatz wird durch die Anzahl der pro Stunde verarbeiteten Token geteilt. Wir verwendeten einen RunPod Community-Cloud H100 80GB SXM5 zu einem Preis von 2,99 $/Std . Die Laufzeit pro Modell über die 551 Abfragen und 3 Korpora (insgesamt ca. 46,2 Mio. Token) ergibt folgende Schätzwerte pro 1 Mio. Token:

Die Formel:

GPU-Kosten pro Stunde = 2,99 $ (der Community-Tarif des verwendeten RunPod H100 80GB SXM5). wall_seconds = die gesamte Laufzeit jedes Modells über den Durchlauf mit 551 Abfragen und 3 Korpora. total_tokens ≈ 46,22 Mio. (Summe aus 3 Korpora und 551 Abfragen, Zeichenanzahl ÷ 4 Heuristik).

Beispielrechnung, Nemotron-8B: ($2,99 / 3600) × (1247,8 × 1.000.000 / 46.220.000) = $0,0224 pro 1 Mio. Token .

Fünf Modelle führen in ihrer jeweiligen Kostenklasse (keine andere Reihe ist sowohl günstiger als auch qualitativ besser): Granite-278m-multilingual am unteren Ende der Kostenskala, gefolgt von Granite-small-r2, EmbeddingGemma-300m, jina-v5-text-small und Nemotron-8B an der Spitze der Qualitätsskala. Die Endpunkte unterscheiden sich um das 13-Fache in den Kosten (0,0017 $/M bis 0,0224 $/M) und um 0,23 nDCG@3 absolut (0,6952 bis 0,9249).

Domänenspezialisten vs. Generalisten

PubMedBERT, feinabgestimmt auf PubMed-Titel-Abstract-Paare, ist das offensichtlich „richtige Werkzeug“ für die medizinische RAG-Suche in PubMed. Es erzielt einen nDCG@3-Wert von 0,7084 auf MedRAG, was unter dem lexikalischen BM25-Baseline-Wert (0,7862) auf demselben Korpus liegt. Moderne Open-Source-Allgemeinprogramme übertreffen es um 0,22 bis 0,25 absolute Punkte auf seinem Trainingsdatensatz.

Der Grund für die geringere Leistungsfähigkeit der Spezialisten liegt in ihrem Alter und ihrer Architektur. PubMedBERT ist ein BERT-Modell aus dem Jahr 2022 mit 110 Millionen Parametern, symmetrischem Mean Pooling und ohne Instruktionspräfix. Die Generalisten der Jahre 2024–2026 basieren auf größeren Backbones, asymmetrischen Query- und Dokumentpräfixen sowie auf Instruktionen optimierten Retrieval-Zielen. Der architektonische Unterschied ist wichtiger als die Domänenübereinstimmung: Ein vier Jahre altes Fine-Tuning kann mit einem aktuellen, auf Instruktionen optimierten Retrieval nicht mithalten, selbst nicht mit dem eigenen Trainingskorpus.

Käufer sollten vor dem Einsatz eines Domänenspezialisten diesen anhand repräsentativer Anfragen gegen einen modernen Generalisten testen. Die Annahme, dass der Spezialist in seinem Fachgebiet die Nase vorn hat, ist für Open-Source-Embedding-Modelle im Jahr 2026 nicht mehr haltbar.

Ergebnisse des Open-Source-Embedding-Benchmarks

Nemotron-8Bs TechQA-Führung ist statistisch gesehen vom Zweitplatzierten getrennt.

Der durchschnittliche nDCG@3-Wert von Nemotron-8B beträgt 0,9249. Domänenbezogen liegt er bei 0,8602 auf CUAD, 0,9515 auf TechQA und 0,9629 auf MedRAG. Das TechQA-Ergebnis (0,9515, 0,923, 0,977) überschneidet sich nicht mit dem zweitplatzierten SFR-Embedding-2_R (0,9109, 0,869, 0,949). Die Bootstrap-CIs sind klar voneinander getrennt. Die 8B Llama-3.1-Basis, optimiert für den Abruf mit einem abfrageseitigen Präfix „Instruct: …\nQuery: …“ und einem symmetrischen dokumentseitigen Präfix, erzielt bei Workloads mit Unterstützung für lange Dokumente einen absoluten nDCG@3-Vorsprung von 0,04 gegenüber der nächsten Zeile.

Die beiden Bereiche, in denen Nemotron eindeutig führt (TechQA, MedRAG), sind die Langdokumentenkorpora, bei denen die Asymmetrie der Anweisungspräfixe besonders relevant ist. CUAD ist der einzige Bereich, in dem Nemotron nicht führend ist: Harrier-oss-v1-0.6b (0,8720) von Microsoft schneidet bei juristischen Verträgen besser ab als Nemotron (0,8602), obwohl es 13-mal kleiner ist. Allerdings überschneiden sich die Konfidenzintervalle, und der Vorsprung ist bei dieser Stichprobengröße statistisch nicht signifikant.

Ein 0,6B Microsoft Harrier-Modell übertrifft alle offenen Modelle mit weniger als 7B Parametern

Microsoft Harrier-oss-v1-0.6b (veröffentlicht im April 2026 mit einer Basis von Qwen3-0.6B und einer MIT-Lizenz) erreicht einen durchschnittlichen nDCG@3-Wert von 0,8911 und belegt damit den vierten Platz. Es übertrifft die 12B Tencent KaLM-Gemma3 (0,8057, Tencent Community-Lizenz), die 7B Salesforce SFR-Embedding-2_R auf CUAD (0,8421 gegenüber Harrier 0,8720) und Google EmbeddingGemma-300m (0,8706). Im Vergleich gleicher Architektur liegt Harrier-0.6b (0,8911) um 0,074 nDCG@3 über Qwen3-Embedding-0.6B (0,8168), das auf der identischen Basis Qwen3-0.6B basiert. Die Differenz ist auf den Trainingskorpus und die Trainingsmethode zurückzuführen, nicht auf die Anzahl der Parameter.

Für Käufer ist Harrier die am besten bewertete Open-Source-Software, die mit einer uneingeschränkten Lizenz für die kommerzielle Nutzung ausgeliefert wird. SFR-2 (CC-BY-NC), Nemotron (NSCL-v1) und jina-v5 (CC-BY-NC) stehen zwar im Durchschnitt vor Harrier, sind aber alle drei nur für Forschungszwecke oder nicht-kommerzielle Nutzung zugelassen.

Ein eingebetteter medizinischer Spezialist unterliegt BM25

NeuMLs PubMedBERT-basierte Embeddings wurden anhand von PubMed-Titel-Abstract-Paaren optimiert. Sie sind das optimale Werkzeug für einen medizinischen RAG-Benchmark auf PubMed. Auf MedRAG erreichen sie einen nDCG@3-Wert von 0,7084 , was 0,078 Punkte unter dem lexikalischen BM25-Baseline-Wert (0,7862) auf demselben Korpus liegt. Die führenden Open-Source-Generalisten auf MedRAG erzielen deutlich höhere Werte: Nemotron-8B 0,9629, SFR-Embedding-2_R 0,9620, Harrier-oss 0,9605, jina-v5 0,9523 und KaLM-Gemma3-12B 0,9453.

Diese Umkehrung sollte die Auswahlkriterien für Domänenspezialisten verändern. PubMedBERT ist ein BERT-Algorithmus mit 110 Millionen Parametern aus dem Jahr 2022, der symmetrisches Mean Pooling nutzt und kein Instruktionspräfix verwendet. Der Generalistenbereich, der von 2024 bis 2026 entwickelt wird, basiert auf größeren Backbones, asymmetrischen Query- und Dokumentpräfixen sowie auf Instruktionen abgestimmten Retrieval-Zielen. Bei MedRAG-Anfragen, die bereits medizinisches Vokabular enthalten, ist die lexikalische Übereinstimmung von BM25 von Natur aus stark, und die Spezialisierung von PubMedBERT bietet keinen zusätzlichen Nutzen.

Die praktische Schlussfolgerung lautet: Wählen Sie einen spezialisierten Einbettungsanbieter nicht allein aufgrund seines Namens. Testen Sie ihn anhand Ihrer eigenen Abfragen, bevor Sie sich endgültig entscheiden.

Snowflake Arctic schwankt um 0,32 nDCG@3 über verschiedene Domänen hinweg

Snowflake's snowflake-arctic-embed-l-v2.0 (568M, Apache-2.0, bge-m3-retromae derivative, multilingual) erzielt einen nDCG@3-Wert von 0,5846 für CUAD-Rechtsverträge und 0,9053 für MedRAG-Medizin-Abstracts. Dasselbe Modell, dieselbe Vorgehensweise, dasselbe Abfrageformat – mit einer Abweichung von lediglich 0,32 Punkten zwischen den beiden Domänen. Andere Modelle weisen geringere Schwankungen auf: SFR-2 liegt zwischen 0,8421 und 0,9620 (Differenz 0,12), Nemotron zwischen 0,8602 und 0,9629 (Differenz 0,10) und Harrier zwischen 0,8408 und 0,9605 (Differenz 0,12).

Der Mechanismus beruht auf der Zusammensetzung der Trainingsdaten. Arctic wurde mit BEIR, MIRACL und CLEF optimiert; rechtliche Verträge werden nicht abgebildet. Für eine vertikale Retrieval-Arbeitslast ist die Anzahl der Trainingsdaten wichtiger als die Anzahl der Parameter oder die Kontextlänge.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Wie Open-Source-Embedding-Inferenz funktioniert

In diesem Benchmark werden Open-Source-Embedding-Modelle mit zwei Backends verwendet: sentence-transformers (12 Modelle) und vLLM (4 Modelle). Die Aufteilung hat nichts mit der Qualität zu tun, sondern mit der Laufzeiteffizienz bei Modellen ab 8 Byte, da die standardmäßige Python-Inferenzschleife von sentence-transformers hierfür zu langsam ist.

Die modellspezifische Vorgehensweise ist wichtiger als die Wahl des Backends. Moderne Retrieval-Modelle verwenden asymmetrische Präfixe: Die Anfrageseite ist in eine Instruct-ähnliche Aufforderung eingebettet ( Instruct: Given a question, retrieve passages...\nQuery: <text> "), während die Dokumentseite unauffällig ist. Der Pooling-Typ variiert: BERT-basierte Modelle verwenden CLS-Pooling; LLM-basierte Modelle (Llama, Mistral, Qwen3, Gemma3 base) verwenden Last-Token-Pooling; mehrsprachige Modelle verwenden häufig Mean-Pooling. Die HuggingFace-Karte für jedes Modell ist die maßgebliche Quelle für die korrekte Präfix- und Pooling-Kombination.

Backend-Ebene:

vLLM: Nemotron-8B, KaLM-Gemma3-12B, jina-v5-text-small
Satztransformatoren: Qwen3-0.6B, EmbeddingGemma-300m, Granite Trio, SFR-2, Conan-v1, PubMedBERT, GIST, Snowflake Arctic, Microsoft Harrier

Asymmetrische Präfixmuster beobachtet:

Anweisung + Abfrage/Dokument: SFR-2, KaLM-Gemma3, Nemotron-8B, Qwen3-Einbettung
Eingebaute Funktionen encode_query / encode_document: EmbeddingGemma, KaLM-Gemma3, Nemotron-8B
Aufgabe / prompt_name (Parameter „sentence-transformers“): jina-v5, Snowflake Arctic, Harrier
Kein Präfix (symmetrisch): Granite Trio, Conan, PubMedBERT, GIST

Pooling-Typ nach Basisarchitektur:

CLS-Pooling: Granite r2 Trio, Snowflake Arctic
Last-Token-Pooling: Nemotron, KaLM-Gemma3, SFR-2, jina-v5, Qwen3-Embedding, Harrier
Mittelwertpooling: EmbeddingGemma, Granite-multilingual, Conan, PubMedBERT, GIST

Die Verwendung einer falschen Konfiguration verschlechtert die Abrufqualität unbemerkt, ohne zum Absturz zu führen. Jeder Benchmark für Open-Source-Embedder sollte einen Mindestwert für plausible Ergebnisse enthalten (ein Recall@10-Wert unter 0,5 über alle Domänen hinweg für jedes Modell ist ein deutliches Warnsignal für eine Fehlkonfiguration, kein zufriedenstellendes Ergebnis).

Benchmark-Methodik für Open-Source-Einbettungsmodelle

Drei Suchbereiche wurden evaluiert: CUAD-Rechtsverträge (246 Anfragen, 509 Verträge), TechQA-Kundensupport-Technoten (151 Anfragen, 28.000 Technotes) und MedRAG-PubMed-Abstracts im Gesundheitswesen (154 Anfragen, 50.000 Abstracts). Insgesamt wurden 551 Anfragen gestellt.

Die Methodik zur Erstellung des Datensatzes entspricht der unseres vorherigen Benchmarks für englische Einbettungsmodelle : Generierung von Konsensabfragen nach Protocol-A 3-LLM (rotierender Writer-Pool, fester Scorer, zwei Validatoren ohne Writer-Funktion pro Versuch), Korpusfixierung mittels SHA-256-Hash, Whitelists für sperrbare Entitäten pro Domäne zur Vermeidung lexikalischer Abkürzungen nach BM25, Cohen's κ Inter-Rater-Übereinstimmung pro Validatorpaar, BM25-Baseline-Ränge werden aus dem Feld bm25_rank_at_target in jedem Abfrage-JSON synthetisiert (Pyserini-Äquivalent). Primäre Metrik: nDCG@3 (RAG-realistisch, entspricht dem, was produktive RAG-Systeme verwenden); sekundäre Metriken: nDCG@10, Recall@10, Recall@100, MRR@10, Top-1-Treffer.

Open-Source-spezifische Spezifikationen:

GPU: 1 x NVIDIA H100 80GB SXM5 über RunPod Community Cloud

Pod-Vorlage: runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404

Stack: PyTorch 2.10.0+cu128, vLLM 0.19.1, transformers 5.6.2, sentence-transformers 5.4.1

Modellbezogene Dispatcher: HF-Modellkarte primärer Pfad. ST für 12 Modelle, vLLM für Nemotron-8B, KaLM-Gemma3-12B, jina-v5-text-small.

Modellspezifisches Chunking: Kürzen auf Zeichenebene bei max_seq_length x 4 Zeichen pro Token, dann kürzt der Tokenizer des Modells auf seine tatsächliche maximale Sequenzlänge.

Asymmetrischer Abruf: Jedes Modell, das dies unterstützt, erhält das in der HF-Karte dokumentierte Abfrage- und Dokumentpräfix. Für einige Modelle ist kein Präfix die dokumentierte Standardeinstellung.

L2-Normalisierung: wird nach dem Pooling einheitlich angewendet. Einige Modelle führen dies intern durch. Wir normalisieren erneut, um die Vergleichbarkeit aller Datensätze zu gewährleisten.

Einbettungs-Cache-Schlüssel: enthält Präfix + Aufgabe + Prompt-Name + max_seq + Backend, sodass ein Präfix-Tausch während der Ausführung nicht stillschweigend veraltete Einbettungen laden kann.

Statistisches Protokoll: 10.000 Bootstrap-Resamples pro Zelle (Modell, Domäne, Metrik), Perzentil 95% CI, Seed=2026.

Getestete Modelle

Sortiert nach dem durchschnittlichen nDCG@3-Rang. Backend-Spalte: ST = Satztransformatoren, vLLM = vLLM 0,19.

Ergebnisse der Bootstrap-95%-Konfidenzintervalle

Die vollständige Rangliste oben zeigt die Ergebnisse eines einzelnen Durchlaufs pro (Modell, Domäne)-Zelle. Die Varianz der Modellinitialisierung über verschiedene Sitzungen hinweg wird nicht gemessen. Um die Varianz auf Abfrageebene innerhalb eines Durchlaufs zu erfassen, wird der Rangvektor pro Abfrage für jede (Modell, Domäne)-Zelle 10.000-mal mit Zurücklegen neu gezogen (Perzentilmethode, Startwert = 2026, Stichprobengrößen CUAD n = 246, TechQA n = 151, MedRAG n = 154). 95%-Konfidenzintervall (Bootstrap) pro Domäne für nDCG@3:

Die Konfidenzintervalle beeinflussen, welche Inversionen die Daten stützen. Auf CUAD überlappen sich die Konfidenzintervalle von Harrier (0,8720, [0,836, 0,906]) und Nemotron (0,8602, [0,821, 0,897]), sodass der Vorsprung von Harrier auf CUAD bei dieser Stichprobengröße nicht eindeutig ist. Auf TechQA überlappen sich die Konfidenzintervalle von Nemotron (0,9515, [0,923, 0,977]) und SFR-2 (0,9109, [0,869, 0,949]) nicht, sodass der Vorsprung von Nemotron auf TechQA statistisch signifikant ist. Auf MedRAG liegen die vier besten Ergebnisse (Nemotron 0,9629, SFR-2 0,9620, Harrier 0,9605, jina-v5 0,9523) innerhalb der jeweiligen Konfidenzintervalle und bilden ein statistisches Gleichstand zwischen vier Ergebnissen. Die PubMedBERT-Wert-unterhalb-BM25-Inversion auf MedRAG (0,7084 [0,641, 0,772] vs. BM25 0,7862) liegt an der Grenze zur Überlappung. Die zentrale Tendenz platziert den Spezialisten eindeutig unterhalb von BM25, jedoch sind drei Durchläufe über verschiedene Sitzungen hinweg erforderlich, um eine Trennung anstelle einer Überlappung festzustellen.

Einschränkungen

Ein Durchlauf pro (Modell-, Domänen-)Zelle. Die obige Bootstrap-CI-Tabelle erfasst die Varianz auf Abfrageebene innerhalb eines Durchlaufs (10.000 Resamples, Perzentilmethode, Seed = 2026), jedoch wird die Varianz der Modellinitialisierung über verschiedene Sitzungen hinweg nicht gemessen. Für Version 2.1 ist ein Durchlauf mit drei Durchläufen über Mitternacht geplant. Die engeren Übereinstimmungen, die in der CI-Tabelle sichtbar werden (z. B. die Vierfachübereinstimmung von MedRAG an der Spitze, die Überlappung von Harrier und Nemotron CUAD, die marginale Inversion zwischen PubMedBERT und BM25), würden am meisten von einem Durchlauf mit mehreren Durchläufen profitieren.

Die Kontextlänge pro Modell beeinflusst die Ergebnisse. Modelle mit einem Kontextfenster von 512 Token (Granite-278m-multilingual, PubMedBERT, Conan, GIST) erfassen nur die ersten ca. 2.000 Zeichen jedes Dokuments. Modelle mit einem Kontextfenster von 8.000 oder 32.000 Zeichen (Nemotron, KaLM-12B, jina-v5, Harrier, Granite r2 english) erfassen das gesamte Dokument. Dies begünstigt Modelle mit langem Kontext auf TechQA (lange Technotes) und MedRAG (lange Abstracts).

Risiko der Kontamination der MedRAG-Trainingsdaten. Mehrere der evaluierten Modelle wurden mit Daten aus PubMed trainiert (per Definition PubMedBERT, möglicherweise Granite-278m-multilingual, möglicherweise Qwen3 base). Ein gewisser MedRAG-nDCG@3-Boost könnte eher auf Überschneidungen der Trainingsdaten als auf die Qualität der Datenabfrage zurückzuführen sein.

Conan-v1 wurde für den chinesischen Sprachgebrauch trainiert. Die Einbeziehung in rein englischsprachige Domänen liefert einen aufschlussreichen Datenpunkt zur Sprachdiskrepanz, jedoch keinen direkten Vergleich der englischen Suchqualität. Wir erwarten eine geringere Leistung im Vergleich zu englischsprachigen Trainingsmodellen, und genau das bestätigen die Daten.

Abschluss

NVIDIA Llama-Embed-Nemotron-8B führt mit einem durchschnittlichen nDCG@3-Wert von 0,9249 und statistisch signifikanten Siegen bei TechQA und MedRAG. Die am besten bewertete Open-Source-Lösung unter einer uneingeschränkten MIT-Lizenz ist Microsoft Harrier-oss-v1-0.6b mit einem durchschnittlichen Wert von 0,8911. Google EmbeddingGemma-300m ist bei etwa viermal geringeren Kosten und geringfügigen Genauigkeitseinbußen lauffähig.

Weiterführende Literatur

Erkunden Sie weitere RAG-Benchmarks, wie zum Beispiel:

Ekrem Sarı

KI-Forscher

Folgen auf

Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und RAG-Frameworks.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

LAPPENApr 15