Dienstleistungen
Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Die 10 besten mehrsprachigen Einbettungsmodelle für RAG

Ekrem Sarı
Ekrem Sarı
aktualisiert am Feb 20, 2026
Siehe unsere ethischen Normen

Wir haben zehn mehrsprachige Einbettungsmodelle anhand von ca. 606.000 Amazon-Rezensionen in sechs Sprachen (Deutsch, Englisch, Spanisch, Französisch, Japanisch und Chinesisch) getestet. Dazu generierten wir 1.800 Anfragen (300 pro Sprache), die jeweils konkrete Details aus der jeweiligen Rezension enthielten.

Für die Suche trainierte Modelle (Trennung von Suchanfrage und Dokument) sind größeren Modellen, die für die allgemeine Textähnlichkeit trainiert wurden, überlegen: e5_base (110 Millionen Parameter) übertrifft Modelle mit 5- bis 70-mal mehr Parametern, während LaBSE (471 Millionen Parameter), ein vielzitiertes mehrsprachiges Modell, den vorletzten Platz belegt.

Genauigkeit der mehrsprachigen Datenabfrage

Top-1 misst, ob die richtige Rezension als erstes Ergebnis angezeigt wird; Top-10 misst, ob sie unter den ersten zehn Ergebnissen erscheint.

Top-1 Genauigkeit

Loading Chart

Top-3 Genauigkeit

Top-5 Genauigkeit

Top-10 Genauigkeit

Erläuterung der Kennzahlen

  • Top-K-Genauigkeit: Ob das richtige Dokument (exakte Übereinstimmung der product_id) unter den ersten K Ergebnissen erscheint. „Kann das Modell die passende deutsche Rezension finden, wenn es unter ca. 130.000 deutschen Rezensionen eine deutsche Frage stellt?“
  • Top-1/3/5/10: K-Werte getestet. Top-1 ist die strengste Methode (das richtige Dokument muss das erste Ergebnis sein), Top-10 die nachsichtigste.

Um unsere Bewertung und Metriken im Detail zu verstehen, sehen Sie sich bitte unsere Bewertungsstruktur und Benchmark-Methodik für mehrsprachige Einbettungsmodelle an.

Korpus : ~606.000 Rezensionen (Mindestlänge der Rezensionen ≥100 Zeichen; ZH: ~17.700, DE/EN/ES/FR/JA: je ~120.000–145.000), kein Kosinusähnlichkeits-Fallback, nur exakte Übereinstimmung der Produkt-ID. Evaluiert auf NVIDIA H100 PCIe 80GB.

Latenz und Durchsatz

Die Latenz entscheidet darüber, ob ein Modell für den Produktiveinsatz geeignet ist. Modelle mit einer Latenz unter 15 ms ermöglichen Echtzeitsuche; bei über 25 ms ist Batchverarbeitung oder Caching erforderlich.

Wichtigste Erkenntnisse

1. e5_base ist in allen Sprachen führend.

e5_base erzielt in sechs Sprachen einen Top-1-Durchschnitt von 16,5 % und übertrifft damit das nächstplatzierte Modell (e5_small) um 3,8 Prozentpunkte. Das asymmetrische Training von Query-/Passage-Präfixen erzeugt präzise Einbettungen, die semantisch ähnliche Rezensionen in derselben Sprache gut unterscheiden.

2. LLM-basierte Modelle sind trotz ihrer Größe wettbewerbsfähig.

qwen3_emb_06b (600 Mio. Parameter) und llama_embed_nemotron_8b (8 Mrd. Parameter) erreichen beide eine einsprachige Genauigkeit von über 10 %. Ihr umfangreiches mehrsprachiges Vortraining scheint Repräsentationen zu erzeugen, die durch Feinabstimmung der Retrieval-Methode nicht vollständig gelöscht werden können. Dadurch bleiben sie mit Modellen konkurrenzfähig, die nur einen Bruchteil ihrer Parameteranzahl aufweisen. Nemotron erreicht eine Top-10-Generation von 25,8 % und erzielt damit das drittbeste Ergebnis insgesamt.

3. nomic_embed_v1_5 schlägt bei CJK-Sprachen fehl.

Das Modell nomic erreicht in Chinesisch eine Genauigkeit von 0 % und in Japanisch lediglich 4 %. Es ist das einzige Modell, das bei ganzen Sprachen komplett versagt. Die englischzentrierte Trainingsmethode in Kombination mit der Asymmetrie der Suchanfrage- und Suchdokumentpräfixe führt zu erheblichen Abdeckungslücken bei nicht-europäischen Sprachen, obwohl es für Englisch (17 % Top-1-Ergebnis) und Deutsch (9 %) gute Ergebnisse liefert.

4. LaBSE scheitert trotz seines guten Rufs bei der Datenwiederherstellung.

LaBSE wurde explizit für die semantische Ähnlichkeitsanalyse in mehreren Sprachen entwickelt und wird in der Fachliteratur häufig zitiert. In diesem Benchmark belegt es den vorletzten Platz (4,8 % Top-1-Platzierungen). Das Training mit Übersetzungspaaren und natürlicher Sprachverarbeitung führte nicht zu der für den Abruf erforderlichen Unterscheidungsgenauigkeit: der exakten Quellrezension von Hunderten semantisch ähnlicher Produkte in derselben Sprache zu unterscheiden.

5. Die Top-10-Skalierung kommt allen Modellen zugute, insbesondere aber den stärkeren.

Der Wechsel von Platz 1 zu Platz 10 verdoppelt die Trefferquote durchweg. Nemotron erzielt den besten durchschnittlichen Trefferwert unter den Top 10 (25,8 %), obwohl es unter den Top 1 nur auf Platz 3 liegt (12,0 %). Dies deutet darauf hin, dass sein 4096-dimensionaler Raum bei größeren K-Werten eine gute Nearest-Neighbor-Struktur aufweist.

6. Spanisch und Französisch schneiden durchweg unterdurchschnittlich ab.

In allen Modellen schneiden ES und FR durchweg schlechter ab als DE, EN, JA und ZH. Dieses Muster zeigt sich selbst bei Modellen mit explizitem mehrsprachigem Training, was auf eine geringere Repräsentation in den Vortrainingskorpora oder eine Diskrepanz zwischen Sprachdomäne und Produktbewertungen hindeutet.

Wie mehrsprachige Einbettungen funktionieren

Ein Einbettungsmodell wandelt Text in einen hochdimensionalen Vektor (z. B. 384 oder 768 Zahlen) um, der die Bedeutung des Textes und nicht die einzelnen Wörter erfasst. Zwei semantisch ähnliche Texte sollten unabhängig von der Sprache Vektoren aufweisen, die in diesem Raum nahe beieinander liegen.

Ein mehrsprachiges Einbettungsmodell verarbeitet mehrere Sprachen im selben Vektorraum. Bei der Informationssuche muss das Modell das richtige Dokument unter Zehntausenden von Rezensionen in derselben Sprache finden, die oft ähnliche Produkte und Themen behandeln. Die Herausforderung besteht in der Unterscheidungsgenauigkeit: die exakte Originalrezension von Hunderten semantisch ähnlicher Rezensionen in derselben Kategorie zu unterscheiden.

Mehrsprachiges Evaluierungs-Setup

Etwa 606.000 Produktbewertungen sind in Qdrant indexiert (nur Bewertungen mit mindestens 100 Zeichen im Text; ZH: ca. 17.700, andere Sprachen: jeweils ca. 120.000–145.000). LLM generiert nativ 1.800 Anfragen (300 pro Sprache) aus Bewertungen, die dieselbe Längenschwelle erfüllen. Jede Anfrage muss konkrete Details aus der zugehörigen Bewertung enthalten (Messwerte, Mengen, Markennamen, Zeitangaben); generische Fragen werden anhand eines Spezifitätswerts herausgefiltert. Die Aufgabe besteht darin, für eine Anfrage in Sprache X die zugehörige Bewertung unter den Bewertungen in derselben Sprache zu finden. Qdrant filtert die Ergebnisse nach Sprache. Die Genauigkeit wird anhand der exakten Übereinstimmung der Produkt-ID an den Top-1/3/5/10-Positionen ohne Verwendung der Kosinusähnlichkeit als Fallback gemessen.

Beispielabfragen aus dem Benchmark:

Deutsch (Elektronik, MEINUNG):

Französisch (Apotheke, GEBRAUCH):

Spanisch (Industriebedarf, FAKTEN):

Das Modell muss jede Anfrage anhand der Produkt-ID der exakten Quellrezension zuordnen. Eine Anfrage zum WLAN-Signalverlust durch ein Antennenkabel könnte semantisch Tausende von Elektronikrezensionen treffen, die Verbindungsprobleme behandeln; nur eine beschreibt einen Signalabfall von 60 % auf 20 % nach der Installation dieses speziellen Kabels.

Technische Analyse & Empfehlungen

Symmetrische vs. asymmetrische Modelle

Das Trainingsziel sagt die Abrufleistung weitgehend voraus:

Warum asymmetrische Modelle die besten Ergebnisse liefern: Das Query-/Passage-Präfix trainiert das Modell, Anfragen und Dokumente systematisch in unterschiedlichen Bereichen des Suchraums einzubetten und so eine abrufspezifische Geometrie zu erzeugen. Dies führt zu differenzierteren Einbettungen, die semantisch ähnliche, aber unterschiedliche Dokumente trennen. e5_base erreicht dies mit 110 Millionen Parametern, da die Genauigkeit des Abrufs vom Trainingsziel und nicht von der Modellkapazität abhängt.

Warum LLM-basierte Modelle konkurrenzfähig sind: Umfassendes mehrsprachiges Vortraining erzeugt eine reichhaltige semantische Struktur in den Modellgewichten. Die Feinabstimmung der Retrieval-Funktion ergänzt dieses tiefe Sprachverständnis um eine aufgabenspezifische Ausrichtung, was zu einer wettbewerbsfähigen Leistung führt. Der Nachteil ist die Latenz: Die 4096-dimensionalen Vektoren von Nemotron benötigen 25 ms pro Anfrage, im Vergleich zu 11 ms bei e5_base.

Warum LaBSE trotz seines guten Rufs scheitert: LaBSE wurde anhand von Übersetzungspaaren trainiert, um die Bedeutung von Sätzen in verschiedenen Sprachen anzugleichen – eine reine Ähnlichkeitsaufgabe. Die Suche nach relevanten Informationen ist jedoch grundlegend anders: Sie erfordert die Unterscheidung der exakten Quellrezension aus Hunderten semantisch ähnlicher Produkte in derselben Sprache. Während das Training auf grobe semantische Ähnlichkeit optimiert, benötigt die Suche nach relevanten Informationen eine feine Unterscheidung zwischen nahezu identischen Textstellen.

Welches Modell sollten Sie verwenden?

Beste Genauigkeit: e5_base (16,5 % Top-1, 11 ms Latenz). Mit einem Sprachfilter verwenden.

Bestes Verhältnis von Latenz zu Genauigkeit: e5_small (12,7 % Top-1, 9,7 ms), fast so schnell wie minilm mit besserer Genauigkeit.

Beste Top-10-Recall-Rate: nemotron (25,8 % Top-10), wenn man sich die Latenz von 25 ms und den GPU-Speicher für 4096-dimensionale Vektoren leisten kann.

Für latenzempfindliche Produktionssysteme: e5_small oder minilm bei ~10 ms. e5_small wird deutlich bevorzugt (12,7 % gegenüber 3,8 %).

Verwenden Sie immer einen Sprachfilter, wenn Sie wissen, dass die Sprache der Suchanfrage und des Dokuments übereinstimmt. Alle Modelle zeigen deutliche Genauigkeitsgewinne durch die sprachgefilterte Suche.

Methodik für mehrsprachige Einbettungsmodelle

  • GPU: NVIDIA H100 PCIe 80GB via Runpod
  • Vektordatenbank: Qdrant 1.12.0 (lokale Binärdatei)
  • Einbettungsbibliothek: sentence-transformers 5.2.2
  • Anfragegenerierung: Claude Sonnet 4.6 über OpenRouter. Jede Frage muss sich auf spezifische Details aus der Quellprüfung beziehen; allgemeine Fragen (Spezifitätswert < 4/5) werden herausgefiltert.
  • Datensatz: Amazon Reviews Multi (Kaggle) 1 , train.csv. ~606.000 Rezensionen indexiert (mind. 100 Zeichen; ZH: ~17.700, andere: je ~120.000–145.000). 6 Sprachen: DE, EN, ES, FR, JA, ZH.
  • Anfragen: insgesamt 1.800 (300 pro Sprache, 5 Fragetypen, nativ in jeder Sprache generiert).
  • Dokumentformat: "Review Title: {title}\nReview: {body}"
  • Tatsächliche Regel: Nur exakte Übereinstimmung der product_id. Keine Kosinusähnlichkeit als Ausweichmethode.
  • Suche: Vektorsuche mit Kosinusdistanz (Qdrant). Top-K = 10. Sprachfilter für einsprachige Auswertung angewendet.
  • Einbettung: L2-Normalisierung. Asymmetrische Präfixe, wo anwendbar: "query: " / "passage: " (e5), "search_query: " / "search_document: " (nomic).
  • Keine Feinabstimmung: Alle Modelle wurden mit Standardgewichten und ohne weitere Anpassungen evaluiert.
  • Latenz: Nur Einbettungsinferenz (einzelne Abfrage). Beinhaltet nicht die Vektorsuchzeit.

Bewertete Modelle

Warum sind die Ergebnisse niedriger als bei BEIR/MTEB?

Die in diesem Benchmark ermittelten absoluten Genauigkeitswerte sollten nicht direkt mit den auf BEIR oder MTEB gemeldeten Werten verglichen werden. Die beiden Benchmarks unterscheiden sich in mehreren strukturellen Aspekten:

Die Metrik für exakte Übereinstimmungen stellt den größten strukturellen Unterschied dar. Jede Anfrage bezieht sich auf konkrete Details aus der Quellrezension (z. B. „Wie viele Stunden hat der 3D-Drucker benötigt, um die Katzendatei von der SD-Karte zu drucken?“), sodass jede Anfrage ein eindeutiges Ziel hat. Dennoch vergibt die Metrik null Punkte für eine semantisch relevante Rezension eines anderen Produkts. Teilgutschriften wie nDCG würden bei denselben Suchergebnissen höhere Werte liefern. Entscheidend für diesen Benchmark ist das relative Ranking der Modelle , nicht die absoluten Zahlen.

Einschränkungen

  • Fragetypen entsprechen möglicherweise nicht den tatsächlichen Nutzeranfragen. Von LLM generierte Fragen sind in der Regel wohlgeformt und präzise. Reale Nutzer formulieren ihre Anfragen oft fragmentarisch oder mehrdeutig.
  • Es wird ausschließlich die dichte Suche getestet. Sparse Methoden (BM25), hybride Suchverfahren und Reranking-Pipelines werden nicht evaluiert. Diese können die Rangfolge der Modelle erheblich verändern.
  • 300 Anfragen pro Sprache stellen eine angemessene Stichprobe dar. Die Ergebnisse pro Sprache weisen relativ enge Konfidenzintervalle auf, dennoch sollten Ranglistenplätze im Mittelfeld der Tabelle mit Vorsicht interpretiert werden.
  • Die Qualität der Einbettung wird nicht über die reine Datenabfrage hinaus bewertet. Clustering-Qualität, Genauigkeit der semantischen Ähnlichkeit und andere nachgelagerte Aufgaben werden nicht gemessen.

Abschluss

Für die Suche trainierte Modelle (mit separaten Abfrage- und Dokumenteinbettungen) sind Modellen, die für allgemeine Textähnlichkeit trainiert wurden, unabhängig von ihrer Größe durchweg überlegen. e5_base (110 Mio. Parameter) übertrifft Modelle, die 5- bis 70-mal größer sind. LaBSE (471 Mio. Parameter), das häufig für mehrsprachige Aufgaben verwendet wird, belegt den vorletzten Platz, da sein Ähnlichkeitstraining nicht die für die Suche erforderliche feine Unterscheidung ermöglicht.

LLM-basierte Modelle (qwen3 mit 600 Millionen Parametern, nemotron mit 8 Milliarden Parametern) erreichen dank intensivem mehrsprachigem Vortraining eine vergleichbare Genauigkeit, allerdings auf Kosten der Latenz: nemotron benötigt 25 ms pro Anfrage gegenüber 11 ms bei e5_base, bei nur geringfügig besserer Top-10-Recall. Für die meisten Produktionssysteme bieten die kleineren, suchbasierten Modelle einen besseren Kompromiss.

Für Anwender, die mehrsprachige RAG-Systeme entwickeln, ist e5_base mit einem Sprachfilter die eindeutige Wahl (16,5 % Top-1, 11 ms Latenz und ein Abstand von 3,8 Prozentpunkten zum Zweitplatzierten).

Weiterführende Literatur

Erkunden Sie weitere RAG-Benchmarks, wie zum Beispiel:

Ekrem Sarı
Ekrem Sarı
KI-Forscher
Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und RAG-Frameworks.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450