Graph-RAG vs. Vektor-RAG-Benchmark

aktualisiert am Mär 20, 2026

Vector RAG ruft Dokumente anhand semantischer Ähnlichkeit ab. Graph RAG ergänzt dies um einen Wissensgraphen, extrahiert Entitäten und Beziehungen aus den Dokumenten, speichert diese in einer Graphdatenbank und verwendet Graphdurchlauf zusammen mit der Vektorsuche zur Abfragezeit.

Wir haben anhand von 3.904 Amazon-Elektronikrezensionen mit fast 900 Suchanfragen überprüft, ob diese zusätzliche Ebene die Genauigkeit der Suchergebnisse und Antworten verbessert.

Genauigkeit der Suchergebnisse nach Anfragetyp

Loading Chart

Beispielfragen:

Spezifische Suchanfrage: „Finde mir einen Testbericht über Akkuprobleme bei diesem Bluetooth-Headset.“
Entitätsaggregation: „Was sind die häufigsten Beschwerden über Sony-Produkte?“
Dokumentenübergreifendes Denken: „Was ist die häufigste Beschwerde im gesamten Elektronikbereich?“

Vector RAG findet spezifische Dokumente besser (54 % vs. 35 %). Graph RAG liefert relevante Ergebnisse für Aggregationsabfragen dreimal häufiger (23 % vs. 8 %) und für dokumentenübergreifende Schlussfolgerungen viermal häufiger (33 % vs. 8 %).

Der Unterschied liegt darin, wie die einzelnen Pipelines die Anfrage verarbeiten: „Welche Marken haben die meisten Beschwerden über die Gebühren?“

Vector RAG kodiert die Frage als Einbettung und findet die zehn ähnlichsten Rezensionen. Die Ergebnisse sind semantisch mit „Aufladen“ verwandt, stammen aber von zufälligen Marken.
Graph RAG extrahiert „Aufladung“ und „Beschwerde“ aus der Frage, durchläuft den Wissensgraphen Marke → Produkt → Bewertung → Negatives Merkmal und gibt Bewertungen gruppiert nach Marke zurück. Eine Abfrage, <1 ms.

Was ist ein RAG-Graph?

Graph RAG erweitert die Vektorsuche um einen Wissensgraphen. Die Vektorsuche selbst bleibt weiterhin aktiv. Der Graph ermöglicht strukturierte Berechnungen, die mit der Vektorsuche allein nicht möglich sind.

Bei der Indexierung durchläuft jedes Dokument zwei Prozesse. Ein LLM extrahiert Entitäten (Marken, Merkmale, Stimmungen) und speichert sie als Knoten und Kanten in einer Graphdatenbank. Dieselben Dokumente werden eingebettet und in einem Vektorindex gespeichert.

Bei Abfragen greift das System auf beide Pfade zurück: Ähnlichkeitsanalyse und Graphdurchlauf. Die Ergebnisse werden zu einer einzigen Rangliste zusammengeführt. Für Aggregationsabfragen berechnet der Graph zudem vorab Zählungen und Gruppierungen aus dem vollständigen Datensatz. Diese vorab berechnete Aggregation unterscheidet Graph RAG von Vector RAG.

Wie der Wissensgraph aufgebaut wird

Ein LLM liest jede Rezension und extrahiert Entitäten und Beziehungen. Zum Beispiel aus einer einzelnen Rezension:

„Die Sony WH-1000XM4 haben eine hervorragende Geräuschunterdrückung, aber der Akku hält nur 20 Stunden, nicht 30 wie beworben.“

Die LLM-Auszüge:

Marke: Sony
Produkt: WH-1000XM4
Positives Merkmal: Geräuschunterdrückung
Negativer Aspekt: Akkulaufzeit

3.904 Rezensionen erzeugen 16.120 Knoten und 23.940 Kanten. Das Schema bestimmt, welche Fragen durch eine einzige Graphdurchquerung beantwortet werden können.

Durch die Trennung von HAS_POSITIVE und HAS_NEGATIVE wird die Abfrage der „häufigsten Beschwerden über Sony“ zu einem einzigen Durchlauf. Ohne die mit Stimmungsinformationen gekennzeichneten Kanten würde das LLM jede Rezension zum Abfragezeitpunkt lesen und klassifizieren.

Wird „Sony“ nicht extrahiert, findet keine Graphdurchquerung es. Werden „Batterien“ und „Akkulaufzeit“ nicht auf denselben Knoten aufgelöst, sind die Zählungen falsch. Unterschiedliche Domänen benötigen unterschiedliche Schemata. Ein falsches Schema führt zu unnötiger Komplexität im Graph.

Wie Graph RAG Antworten abruft und generiert

Beispiel: „Was sind die häufigsten Beschwerden über Sony-Produkte?“

Entitätsextraktion: Gemini Flash extrahiert Marken: [“sony”], Stimmung: negativ (~$0,001, zwischengespeichert)
Vektorsuche: e5-Basis-Kosinusähnlichkeit, Top 30 Ergebnisse (keine Entitätsextraktion, reiner Embedding-Abgleich)
Graphsuche: Cypher-Traversierung mit extrahierten Entitäten, Top 30 Ergebnisse
RRF-Zusammenführung: 1/(k + rank_vector) + 1/(k + rank_graph) mit k=60, die 10 besten Ergebnisse wurden zurückgegeben
Cypher-Aggregation: Vorab berechnete Zählungen aus dem vollständigen Graphen, die zusammen mit den abgerufenen Rezensionen an das LLM übergeben werden.

Die Cypher-Aggregation in Schritt 5 durchläuft Marke → Produkt → Rezension → Negatives Merkmal für „Sony“, zählt jedes Merkmal und gibt „Kompatibilität: 7, Haltbarkeit: 4, Preis: 3“ in weniger als 1 ms zurück. Dieses vorab berechnete Ergebnis erhält das LLM zusammen mit den abgerufenen Rezensionen.

Vector RAG kodiert die Frage als Einbettung und findet semantisch ähnliche Dokumente. Es findet keine Entitätsextraktion statt.
Graph RAG extrahiert zusätzlich Entitäten aus der Frage mittels LLM, speist sie in Cypher-Traversierungen ein, führt Graph-Ergebnisse mit Vektor-Ergebnissen mittels RRF zusammen und berechnet Aggregationen für das LLM.

Extraktionskosten nach Datensatzgröße

Der zusätzliche Kostenfaktor von Graph RAG gegenüber Vector RAG besteht in der Entitätsextraktion zur Indexierungszeit:

Die Graphdurchquerung zur Abfragezeit ist kostenlos (selbstgehostet, <1 ms). Die Extraktion von Entitäten aus der Frage kostet ca. 0,001 $ pro Abfrage (zwischenspeicherbar). Neue Dokumente werden inkrementell hinzugefügt.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Die Genauigkeitslücke ist auf Berechnungsfehler zurückzuführen.

Wir haben die Generierungsgenauigkeit von 238 Aggregationsabfragen mit und ohne Cypher-Aggregation des Graphen gemessen:

Standardmäßig erhält Graph RAG die aus dem vollständigen Wissensgraphen berechnete Cypher-Aggregation (3.904 Rezensionen). Vector RAG erhält den unformatierten Rezensionstext.

Kein Graphkontext: Beide Pipelines erhalten nur den Rohdatentext der Rezensionen. Keine Aggregation.

Ohne Cypher-Aggregation sinkt der Graph-RAG-Wert von 73,5 % auf 23,1 % und liegt damit nahe am Vector-RAG-Wert von 18,5 %. Die Lücke von 50 Punkten entstand nicht durch einen Abruf, sondern durch Berechnungsaufwand: Der Graph durchläuft, gruppiert und zählt die Elemente im gesamten Datensatz, bevor das LLM ein Ergebnis generiert.

Alle Generationsunterschiede sind bei p < 0 signifikant.

Graph-Rag-Benchmark-Methodik

Datensatz: 3.904 englische Elektronikrezensionen von Amazon Reviews Multi (Kaggle), mindestens 100 Zeichen.

Einbettungsmodell: multilingual-e5-base (768-dimensional). Dichte Einbettungen in Qdrant (im Speicher).

Wissensgraph: 16.120 Knoten, 23.940 Kanten. Entitätsextraktion mittels Gemini 2.0 Flash (google/gemini-2.0-flash-001 auf OpenRouter, Gesamtkosten 2,29 $). Neo4j als Graphdatenbank.

Abfragesätze (insgesamt 905):

Graphstrukturiert (503): Generiert aus Graphmustern. Testet die Traversierung von Graphen.
Graphagnostisch (150): LLM-generiert aus Rezensionstexten. Testet natürlichsprachliche Anfragen.
Extern (252): LLM-generiert unabhängig vom Graphen. Fünf Typen: Dokumentensuche (65), Markenaggregation (24), Merkmalsaggregation (50), Markenvergleich (50), globale Aggregation (60) sowie drei Sternebewertungsabfragen. Bestätigt, dass die Vorteile des Graphen kein Artefakt graphenbasierter Abfragen sind.

Pipelines:

Generation: Top-10-Bewertungen an Gemini Flash übergeben. Graph RAG durchläuft zusätzlich die Cypher-Aggregation. Fuzzy-Containment-Matching (Schwellenwert 0,80). Strenger Modus (0,90) erhält die Reihenfolge: Graph RAG 68,9 %, Vector RAG 13,5 %.

Statistische Validierung: McNemar-Test, p < 0,001, Bonferroni-korrigiert. Bootstrap-95%-Konfidenzintervall für die Genauigkeit der Graph-RAG-Generierung: 68,1 %–79,0 %.

Einschränkung

Einzelner Bereich, kleiner Datensatz : 3.904 Elektronikrezensionen. Anderer Bereich, anderes Schema, andere Ergebnisse.

Abschluss

Graph RAG eignet sich am besten für Abfragen, die Berechnungen über viele Dokumente erfordern: Aggregation, Zählen, Gruppieren und Vergleichen. Bei solchen Abfragen liefert es in 73,5 % der Fälle korrekte Ergebnisse, im Vergleich zu nur 18,5 % bei Vector RAG. Ohne die Berechnungen des Graphen verschwindet dieser Unterschied (23,1 % gegenüber 18,5 %).

Für die Suche nach spezifischen Dokumenten ist Vector RAG besser geeignet (54 % gegenüber 35 %). Graph RAG ist kein Ersatz für die Vektorsuche, sondern eine zusätzliche Berechnungsebene.

Die Leistung von Graph RAG hängt maßgeblich von zwei technischen Entscheidungen ab: dem Schema-Design und der Qualität der Entitätsextraktion. Das Schema definiert, welche Fragen durch einen einzelnen Graphdurchlauf beantwortet werden können. Die Entitätsextraktion legt fest, welche Entitäten der Graph kennt. Für 2,29 $ in LLM werden 3.904 Dokumente benötigt.