RAG Benchmarks: Einbettungsmodelle, Vektordatenbanken, Agentic RAG
RAG verbessert die Zuverlässigkeit von LLM mit externen Datenquellen. Wir vergleichen die gesamte RAG-Pipeline: führende Einbettungsmodelle, Top-Vektordatenbanken und die neuesten agentenbasierten Frameworks, alle bewertet anhand ihrer Leistung in realen Anwendungen.
RAG Benchmarks: Einbettungsmodelle, Vektordatenbanken, Agentic RAG erkunden
Einbettungsmodelle: OpenAI vs Gemini vs Cohere
Die Effektivität eines Retrieval-Augmented Generation (RAG)-Systems hängt von der Präzision seines Retrievers ab. Wir haben elf führende Text-Embedding-Modelle, darunter Modelle von OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral und Voyage AI, anhand von ca. 500.000 Amazon-Rezensionen verglichen. Wir bewerteten die Fähigkeit jedes Modells, die richtige Antwort zuerst abzurufen und zu priorisieren.
Open Source Embedding Models Benchmark für RAG
Wir haben 14 Open-Source-Embedding-Modelle, die auf einem einzelnen H100-Server selbst gehostet wurden, anhand von über 500 manuell kuratierten Abfragen aus den Bereichen Rechtsverträge, technische Kundendienstdokumente und medizinische Abstracts verglichen. Llama-Embed-Nemotron-8B (NVIDIA) erzielt die höchste Genauigkeit. EmbeddingGemma-300m (Google) ist im Vergleich zu Nemotron etwa viermal günstiger, allerdings mit einem geringfügigen Genauigkeitsverlust.
Hybrid RAG: Steigerung der RAG-Genauigkeit
Die Suche mit dichten Vektoren eignet sich hervorragend zum Erfassen semantischer Intentionen, hat aber oft Schwierigkeiten bei Anfragen, die eine hohe Keyword-Genauigkeit erfordern. Um diese Lücke zu quantifizieren, haben wir einen Standard-Retriever, der ausschließlich auf dichten Vektoren basiert, mit einem hybriden RAG-System verglichen, das SPLADE-Sparse-Vektoren integriert.
Reranker-Benchmark: Vergleich der 8 besten Modelle
Wir haben acht Reranker-Modelle anhand von ca. 145.000 englischen Amazon-Rezensionen verglichen, um zu messen, wie sehr ein Reranking-Schritt die Suche nach dichten Suchergebnissen verbessert. Wir ermittelten die 100 besten Kandidaten mit multilingual-e5-base, führten mit jedem Modell ein Reranking durch und evaluierten die Top-10-Ergebnisse anhand von 300 Anfragen, die jeweils konkrete Details aus der Originalrezension enthielten.
Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI
Multimodale Einbettungsmodelle eignen sich hervorragend zur Objekterkennung, haben aber Schwierigkeiten mit Beziehungen. Aktuelle Modelle können beispielsweise nicht zwischen „Telefon auf einer Karte“ und „Karte auf einem Telefon“ unterscheiden. Wir haben sieben führende Modelle auf MS-COCO und Winoground verglichen, um diese spezifische Einschränkung zu untersuchen. Um einen fairen Vergleich zu gewährleisten, haben wir jedes Modell unter identischen Bedingungen mit A40-Hardware und bfloat16-Genauigkeit evaluiert.
Die 10 besten mehrsprachigen Einbettungsmodelle für RAG
Wir haben zehn mehrsprachige Einbettungsmodelle anhand von ca. 606.000 Amazon-Rezensionen in sechs Sprachen (Deutsch, Englisch, Spanisch, Französisch, Japanisch und Chinesisch) getestet. Dazu generierten wir 1.800 Suchanfragen (300 pro Sprache), die jeweils konkrete Details aus der zugehörigen Rezension enthielten.
Graph-RAG vs. Vektor-RAG-Benchmark
Vector RAG ruft Dokumente anhand semantischer Ähnlichkeit ab. Graph RAG ergänzt dies um einen Wissensgraphen, extrahiert Entitäten und Beziehungen aus den Dokumenten, speichert diese in einer Graphdatenbank und nutzt Graphdurchlauf in Verbindung mit Vektorsuche zur Abfragezeit. Wir haben anhand von 3.904 Amazon-Elektronikartikeln getestet, ob diese zusätzliche Ebene die Abruf- und Antwortgenauigkeit verbessert.
RAG Observability Tools Benchmark
Wir haben vier RAG-Observability-Plattformen in einer 7-Knoten-LangGraph-Pipeline anhand von drei praktischen Dimensionen verglichen: Latenz-Overhead, Integrationsaufwand und Plattform-Kompromisse. Metriken zum Latenz-Overhead: Erläuterung der Metriken: Der Mittelwert ist die durchschnittliche Latenz aus 150 gemessenen `graph.invoke()`-Aufrufen. Die LLM-Judge-Auswertungen erfolgen nach Ablauf des Timers. Der Median ist die Latenz des 50. Perzentils.
RAG-Evaluierungsinstrumente: Gewichtungen & Verzerrungen vs. Ragas vs. DeepEval
Wenn eine RAG-Pipeline den falschen Kontext abruft, generiert das LLM mit Sicherheit die falsche Antwort. Kontextrelevante Bewertungsalgorithmen bilden die primäre Verteidigungslinie. Wir haben fünf Tools anhand von 1.460 Fragen und über 14.600 bewerteten Kontexten unter identischen Bedingungen verglichen: gleiches Bewertungsmodell (GPT-4o), Standardkonfigurationen und keine benutzerdefinierten Eingabeaufforderungen.
Die besten RAG-Tools, Frameworks und Bibliotheken
RAG (Retrieval-Augmented Generation) verbessert die Ergebnisse von LLM-Systemen durch die Einbindung externer Datenquellen. Wir haben verschiedene Einbettungsmodelle verglichen und separat unterschiedliche Chunk-Größen getestet, um die optimalen Kombinationen für RAG-Systeme zu ermitteln. Entdecken Sie führende RAG-Frameworks und -Tools, erfahren Sie, was RAG ist, wie es funktioniert, welche Vorteile es bietet und welche Rolle es in der heutigen LLM-Landschaft spielt.