Kontaktieren Sie uns
Keine Ergebnisse gefunden.

RAG Benchmarks: Einbettungsmodelle, Vektordatenbanken, Agentic RAG

RAG verbessert die Zuverlässigkeit von LLM mit externen Datenquellen. Wir vergleichen die gesamte RAG-Pipeline: führende Einbettungsmodelle, Top-Vektordatenbanken und die neuesten agentenbasierten Frameworks, alle bewertet anhand ihrer Leistung in realen Anwendungen.

RAG Benchmarks: Einbettungsmodelle, Vektordatenbanken, Agentic RAG erkunden

Top 20+ Agentic RAG Frameworks

LAPPENMai 8

Agentic RAG erweitert das traditionelle RAG durch eine verbesserte LLM-Performance und ermöglicht eine stärkere Spezialisierung. Wir haben einen Benchmark durchgeführt, um die Performance beim Routing zwischen mehreren Datenbanken und der Generierung von Abfragen zu bewerten. Erfahren Sie mehr über Agentic-RAG-Frameworks und -Bibliotheken, die wichtigsten Unterschiede zum Standard-RAG sowie die Vorteile und Herausforderungen, um deren volles Potenzial auszuschöpfen.

Mehr lesen
LAPPENMai 1

Einbettungsmodelle: OpenAI vs Gemini vs Cohere

Die Effektivität eines Retrieval-Augmented Generation (RAG)-Systems hängt von der Präzision seines Retrievers ab. Wir haben elf führende Text-Embedding-Modelle, darunter Modelle von OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral und Voyage AI, anhand von ca. 500.000 Amazon-Rezensionen verglichen. Wir bewerteten die Fähigkeit jedes Modells, die richtige Antwort zuerst abzurufen und zu priorisieren.

LAPPENApr 26

Open Source Embedding Models Benchmark für RAG

Wir haben 14 Open-Source-Embedding-Modelle, die auf einem einzelnen H100-Server selbst gehostet wurden, anhand von über 500 manuell kuratierten Abfragen aus den Bereichen Rechtsverträge, technische Kundendienstdokumente und medizinische Abstracts verglichen. Llama-Embed-Nemotron-8B (NVIDIA) erzielt die höchste Genauigkeit. EmbeddingGemma-300m (Google) ist im Vergleich zu Nemotron etwa viermal günstiger, allerdings mit einem geringfügigen Genauigkeitsverlust.

LAPPENApr 16

Hybrid RAG: Steigerung der RAG-Genauigkeit

Die Suche mit dichten Vektoren eignet sich hervorragend zum Erfassen semantischer Intentionen, hat aber oft Schwierigkeiten bei Anfragen, die eine hohe Keyword-Genauigkeit erfordern. Um diese Lücke zu quantifizieren, haben wir einen Standard-Retriever, der ausschließlich auf dichten Vektoren basiert, mit einem hybriden RAG-System verglichen, das SPLADE-Sparse-Vektoren integriert.

LAPPENApr 15

Reranker-Benchmark: Vergleich der 8 besten Modelle

Wir haben acht Reranker-Modelle anhand von ca. 145.000 englischen Amazon-Rezensionen verglichen, um zu messen, wie sehr ein Reranking-Schritt die Suche nach dichten Suchergebnissen verbessert. Wir ermittelten die 100 besten Kandidaten mit multilingual-e5-base, führten mit jedem Modell ein Reranking durch und evaluierten die Top-10-Ergebnisse anhand von 300 Anfragen, die jeweils konkrete Details aus der Originalrezension enthielten.

LAPPENApr 15

Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI

Multimodale Einbettungsmodelle eignen sich hervorragend zur Objekterkennung, haben aber Schwierigkeiten mit Beziehungen. Aktuelle Modelle können beispielsweise nicht zwischen „Telefon auf einer Karte“ und „Karte auf einem Telefon“ unterscheiden. Wir haben sieben führende Modelle auf MS-COCO und Winoground verglichen, um diese spezifische Einschränkung zu untersuchen. Um einen fairen Vergleich zu gewährleisten, haben wir jedes Modell unter identischen Bedingungen mit A40-Hardware und bfloat16-Genauigkeit evaluiert.

LAPPENApr 15

Die 10 besten mehrsprachigen Einbettungsmodelle für RAG

Wir haben zehn mehrsprachige Einbettungsmodelle anhand von ca. 606.000 Amazon-Rezensionen in sechs Sprachen (Deutsch, Englisch, Spanisch, Französisch, Japanisch und Chinesisch) getestet. Dazu generierten wir 1.800 Suchanfragen (300 pro Sprache), die jeweils konkrete Details aus der zugehörigen Rezension enthielten.

LAPPENMär 27

Graph-RAG vs. Vektor-RAG-Benchmark

Vector RAG ruft Dokumente anhand semantischer Ähnlichkeit ab. Graph RAG ergänzt dies um einen Wissensgraphen, extrahiert Entitäten und Beziehungen aus den Dokumenten, speichert diese in einer Graphdatenbank und nutzt Graphdurchlauf in Verbindung mit Vektorsuche zur Abfragezeit. Wir haben anhand von 3.904 Amazon-Elektronikartikeln getestet, ob diese zusätzliche Ebene die Abruf- und Antwortgenauigkeit verbessert.

LAPPENMär 23

RAG Observability Tools Benchmark

Wir haben vier RAG-Observability-Plattformen in einer 7-Knoten-LangGraph-Pipeline anhand von drei praktischen Dimensionen verglichen: Latenz-Overhead, Integrationsaufwand und Plattform-Kompromisse. Metriken zum Latenz-Overhead: Erläuterung der Metriken: Der Mittelwert ist die durchschnittliche Latenz aus 150 gemessenen `graph.invoke()`-Aufrufen. Die LLM-Judge-Auswertungen erfolgen nach Ablauf des Timers. Der Median ist die Latenz des 50. Perzentils.

LAPPENMär 23

RAG-Evaluierungsinstrumente: Gewichtungen & Verzerrungen vs. Ragas vs. DeepEval

Wenn eine RAG-Pipeline den falschen Kontext abruft, generiert das LLM mit Sicherheit die falsche Antwort. Kontextrelevante Bewertungsalgorithmen bilden die primäre Verteidigungslinie. Wir haben fünf Tools anhand von 1.460 Fragen und über 14.600 bewerteten Kontexten unter identischen Bedingungen verglichen: gleiches Bewertungsmodell (GPT-4o), Standardkonfigurationen und keine benutzerdefinierten Eingabeaufforderungen.

LAPPENFeb 4

Die besten RAG-Tools, Frameworks und Bibliotheken

RAG (Retrieval-Augmented Generation) verbessert die Ergebnisse von LLM-Systemen durch die Einbindung externer Datenquellen. Wir haben verschiedene Einbettungsmodelle verglichen und separat unterschiedliche Chunk-Größen getestet, um die optimalen Kombinationen für RAG-Systeme zu ermitteln. Entdecken Sie führende RAG-Frameworks und -Tools, erfahren Sie, was RAG ist, wie es funktioniert, welche Vorteile es bietet und welche Rolle es in der heutigen LLM-Landschaft spielt.

FAQ