What is Retrieval-Augmented Generation (RAG), and why is a hybrid approach necessary?

RAG allows a generative model, like a Large Language Model (LLM), to generate responses based on external data rather than relying solely on its internal training data. This improves factual accuracy by grounding answers in retrieved information.However, not all data is the same. Some queries demand semantic understanding, while others rely on precise keyword matching, especially when dealing with structured queries or entities extracted from complex information. That’s why hybrid retrieval augmented generation (Hybrid RAG) is essential. It combines dense semantic search with sparse lexical search, providing both contextual relevance and keyword precision. This hybrid nature ensures that the system retrieves context from both structured and unstructured text data, delivering more accurate responses.

How does this Hybrid RAG system handle different types of data?

The current implementation focuses on unstructured text data, such as product reviews, which often contain nuanced opinions, technical details, and varied linguistic patterns. The system uses multiple retrieval techniques to ensure it captures both meaning and exact terms.Looking forward, Hybrid RAG could be extended to include structured information and graph data, allowing it to answer more complex queries by integrating facts from knowledge graphs with the sentiment or context in reviews. This would result in a unified context that bridges raw data, structured documents, and narrative content, enabling richer context during response generation.

What happens during the information retrieval process in this specific system?

When a user submits a query, the system activates two parallel retrieval components: a dense retriever (semantic) and a sparse retriever (lexical). The dense model captures broad meanings and relationships, while the SPLADE-based sparse model locks onto key terms.These two result sets are fused using Reciprocal Rank Fusion (RRF), which resolves the scoring incompatibility between different retrieval methods. This hybrid approach allows the system to retrieve multiple documents that satisfy different parts of a query, improving its ability to generate coherent responses based on the most relevant and comprehensive context available.

Are there downsides to using a hybrid system? What are the computational costs?

Yes, the hybrid approach is more resource-intensive. It requires more computational resources due to dual-vector generation, double-search operations, and fusion logic. This means longer query processing times and a need for additional infrastructure to handle large volumes of data.Despite this, the performance gains, especially in Mean Reciprocal Rank (MRR) and Recall@5, make it a worthwhile trade-off for applications where factual accuracy and completeness matter. When compared in a rigorous benchmark, the hybrid method consistently retrieved more contextually appropriate and precise information than dense-only systems.

How does Hybrid RAG compare to other RAG methods?

Unlike traditional RAG techniques that rely solely on dense embeddings, Hybrid RAG leverages multiple retrieval methods to maximize answer quality. It supports a broader spectrum of query types, from vague to highly specific, thanks to its dual-retrieval design.Its hybrid nature makes it especially powerful in use cases where multiple constraints must be satisfied, such as combining structured information (e.g., “paraben-free”) with broader intents (e.g., “natural deodorant”). This comparative analysis demonstrates that Hybrid RAG offers a more balanced and adaptive response based on both dense and sparse signals.

Can this system work with graph-based or structured data in the future?

Yes, future directions for Hybrid RAG include incorporating knowledge graphs and structured data alongside text. By doing so, it can respond to structured queries and provide answers that synthesize graph-based relationships (like product categories or ingredient interactions) with freeform user reviews.This would allow the system to generate responses grounded in both precise factual structures and nuanced human narratives, improving both factual accuracy and user satisfaction.

Why does better accuracy require more processing power?

Because Hybrid RAG performs two types of retrieval and then fuses the results, it naturally uses more computational resources. Vector generation, especially when generating both dense and sparse embeddings, accounts for over 90% of total latency. Compared to a dense-only approach, this increases latency (~201ms per query in our benchmark).

KI LAPPEN

Hybrid RAG : Steigerung RAG Genauigkeit

Cem Dilmegani

mit

Ekrem Sarı

aktualisiert am Mär 11, 2026

Siehe unsere ethischen Normen

Die Suche mit dichten Vektoren eignet sich hervorragend zum Erfassen semantischer Intentionen, hat aber oft Schwierigkeiten bei Anfragen, die eine hohe Genauigkeit der Schlüsselwörter erfordern. Um diese Diskrepanz zu quantifizieren, haben wir einen standardmäßigen, ausschließlich dichten Retriever mit einem hybriden RAG System verglichen, das spärliche SPLADE-Vektoren integriert.

Unsere Bewertung, die anhand eines sorgfältig zusammengestellten Satzes von 100 anspruchsvollen, praxisnahen Fragen durchgeführt wurde, konzentrierte sich auf die Fähigkeit jedes Systems, die beste Antwort zu ermitteln und korrekt zu ordnen.

Leistungsvergleich: Dichte vs. hybride Datensuche

Unsere Benchmark-Analyse zeigt, dass ein gut abgestimmtes hybrides Suchsystem einen rein dichten Suchansatz deutlich übertrifft, indem es genauere und höherrangige Ergebnisse liefert.

Loading Chart

Höhere Ranking-Präzision (MRR +18,5 %): Das Hybridsystem steigerte den mittleren reziproken Rang von 0,410 auf 0,486 . Diese deutliche Verbesserung ist das überzeugendste Ergebnis, da sie sich direkt in einer besseren Nutzererfahrung niederschlägt, indem die Wahrscheinlichkeit, dass die beste Antwort an erster Stelle erscheint, signifikant erhöht wird.
Verbesserte Trefferquote (Recall@5 +7,2 %): Das Hybridmodell steigerte den Recall@5-Wert von 0,655 auf 0,702 . Dies belegt seine Fähigkeit, die richtige Antwort unter den ersten fünf Ergebnissen zuverlässiger zu finden und Dokumente aufzudecken, die der rein dichte Ansatz vollständig übersehen hätte.

Um unsere Bewertungsmethoden und Kennzahlen im Detail zu verstehen, sehen Sie sich unsere Benchmark-Methodik für Hybrid RAG an.

Genauigkeit vs. Latenz: Der Kompromiss zwischen Leistung und Performance

Das Hybridsystem bietet zwar eine höhere Genauigkeit, diese Leistungssteigerung geht jedoch mit einem messbaren Rechenaufwand einher.

Das Hybridsystem führt zu einer zusätzlichen Latenz von 201 ms pro Abfrage, was einer Steigerung der Verarbeitungszeit um 24,5 % entspricht. Eine detaillierte Beschreibung unseres Latenzmessverfahrens und unserer Zeitmessmethodik finden Sie in unserer Dokumentation zur Latenzmessmethodik .

Wohin verschwindet die zusätzliche Zeit?

Die um 201 ms erhöhte Latenz des Hybridsystems verteilt sich nicht gleichmäßig auf alle Operationen. Unsere detaillierte Zeitanalyse zeigt genau, wo die Rechenkosten liegen:

Diese Aufschlüsselung zeigt deutlich, dass der Großteil der Latenz aus dem ersten Schritt der Vektorerzeugung stammt, bei dem das System sowohl einen dichten Vektor als auch einen dünnbesetzten Vektor erzeugen muss.

Die eigentlichen Such- und Fusionsschritte sind bemerkenswert schnell und beanspruchen zusammen weniger als 7 % der Gesamtzeit. Beispielsweise könnte die Generierung dichter und dünnbesetzter Vektoren parallelisiert werden, um diesen Engpass zu reduzieren.

Mögliche Gründe für Leistungsunterschiede

Semantische Erinnerung vs. lexikalische Präzision

Die dichte Suche basiert auf semantischer Ähnlichkeit, die zwar effektiv die Nutzerintention erfasst, aber exakte Begriffe und Einschränkungen vernachlässigen kann. Dies schränkt die Fähigkeit ein, Dokumente zuverlässig zu finden, die von bestimmten Schlüsselwörtern oder Attributen abhängen.

Im Benchmark entsprach der auf dichte Daten beschränkte Retriever oft der allgemeinen Absicht der Anfragen, verfehlte aber strenge Einschränkungen wie die exakten Namen der Zutaten.

Dual-Signal-Retrieval-Abdeckung

Hybrid RAG kombiniert dichte und spärliche Repräsentationen und ermöglicht dem System so die semantische und lexikalische Bewertung von Dokumenten. Diese doppelte Abdeckung erhöht die Wahrscheinlichkeit, dass relevante Dokumente gefunden und hoch eingestuft werden.

Rangsensitivität durch Fusion

Reciprocal Rank Fusion (RRF) priorisiert Dokumente, die in mehreren Retrieval-Signalen gut abschneiden, anstatt sich auf reine Ähnlichkeitswerte zu stützen. Diese rangbasierte Aggregation verbessert die Genauigkeit der Top-Ergebnisse, wenn sowohl semantische Relevanz als auch Keyword-Präzision übereinstimmen.

Overhead der Vektorgenerierung

Die hybride Suche erfordert die Generierung sowohl dichter als auch dünnbesetzter Vektoren für jede Anfrage, was den Rechenaufwand bereits vor Beginn der Suche erhöht. Diese zusätzliche Vorverarbeitung wirkt sich direkt auf die End-to-End-Latenz aus.

Empfindlichkeit gegenüber Parameteranpassung

Die Leistungsfähigkeit von Hybridverfahren hängt stark von der Ausgewogenheit der Fusionsparameter ab. Eine Übergewichtung spärlicher Signale kann die semantische Relevanz verringern und die Ergebnisse verschlechtern.

Hybrid- RAG -Systemarchitektur

Unser Hybridsystem kombiniert zwei sich ergänzende Abrufverfahren, die jeweils unterschiedliche Anfragecharakteristika durch eine sorgfältig konzipierte parallele Verarbeitungsarchitektur adressieren.

Abbildung 1: Der Workflow unseres hybriden Retrievalsystems, von der ersten Benutzeranfrage bis zur endgültigen Rangliste der an das LLM gesendeten Dokumente.

Dichte Komponente: Semantisches Verständnis

Modell: OpenAI text-embedding-3-small
Stärke: Erfasst semantische Bedeutung und Kontext und zeichnet sich durch ein hervorragendes Verständnis der Nutzerabsicht aus, selbst wenn Suchanfragen keine spezifischen Schlüsselwörter enthalten.
Anwendungsbeispiel: Eine Suchanfrage wie „magenfreundliche Schmerzlinderung“ findet erfolgreich Dokumente, die Konzepte wie „schonend für meine Verdauung“ oder „verursacht keine Magenbeschwerden“ erwähnen, selbst wenn das Wort „freundlich“ nicht genau verwendet wird.

Sparse Komponente: Schlüsselwortgenauigkeit

Modell: SPLADE (SParse Lexical and Expansion model)
Stärke: Identifiziert und gewichtet diskriminierende Schlüsselwörter, darunter technische Bezeichnungen, Modellnummern und spezifische Produktattribute, die bei einer rein semantischen Suche möglicherweise übersehen werden.
Anwendungsfall: Eine Suchanfrage mit einem spezifischen Begriff wie „Paracetamol“ erfordert eine exakte Übereinstimmung. SPLADE stellt sicher, dass Dokumente mit diesem präzisen Begriff ein hohes Ranking erzielen – eine Aufgabe, bei der ein dichtes Modell möglicherweise zu „Schmerzmittel“ generalisiert und den spezifischen Inhaltsstoff übersieht.

Der reziproke Rangfusionsalgorithmus (RRF)

Eine Benutzeranfrage wird von den OpenAI und SPLADE-Modellen gleichzeitig vektorisiert, was zu zwei unabhängigen Ranglisten führt. Der entscheidende Schritt ist die Kombination dieser Listen mittels Reciprocal Rank Fusion (RRF).

RRF löst das Problem der Zusammenführung von Ergebnissen aus Systemen mit inkompatiblen Bewertungsskalen (z. B. ein hoher Wert von 0,89 im Vergleich zu einem niedrigen Wert von 95,4). Anstatt Rohwerte zu verwenden, konzentriert es sich ausschließlich auf die Rangposition des Dokuments (1., 2., 3.).

Beispiel : Für die Suchanfrage „natürliches Deodorant ohne Aluminium und Parabene“

Bei einer dichten Suche wird eine Rezension über „Bio-Deodorant ohne Chemikalien“ als Nummer 1 eingestuft (semantische Relevanz).
Eine einfache Suche listet eine Rezension mit den Begriffen „aluminiumfrei“ und „parabenfrei“ auf Platz 1 (exakte Schlüsselwörter).
Die RRF-Fusion befördert Dokumente, die in beiden Listen weit oben erscheinen, an die Spitze.

Eine Rezension, die semantisch relevant ist UND die exakten Schlüsselwörter enthält, erhält die höchste Gesamtpunktzahl.

Die Endwertung wird nach folgender Formel berechnet:

wobei k=60 und rank_i die Position des Dokuments in jedem Suchergebnis ist. Der Parameter sparse_boost (1.2) priorisiert die Genauigkeit der Schlüsselwörter leicht, ohne das semantische Verständnis zu beeinträchtigen.

Die Rolle der Fusionsparameteroptimierung

Ein zentrales Ergebnis unserer Forschung ist, dass die bloße Kombination zweier Retrievalsysteme keine Leistungsverbesserung garantiert. Unsere anfängliche Hybridkonfiguration schnitt sogar schlechter ab als die rein dichte Datenbasis und erreichte einen MRR-Wert von lediglich 0,390.

Das Problem war ein falsch eingestellter Fusionsparameter:

Problematische Ausgangseinstellung : sparse_boost = 3.0
Optimierte Einstellung : sparse_boost = 1,2

Die ursprüngliche Konfiguration gewichtete die Keyword-Treffer von SPLADE dreimal so hoch wie die semantischen Treffer des dichten Modells. Diese aggressive Gewichtung führte dazu, dass semantisch irrelevante, aber keywordreiche Dokumente die kontextuell passenden Ergebnisse überlagerten und die Gesamtleistung beeinträchtigten.

Die Optimierung auf sparse_boost = 1.2 bietet eine leichte Bevorzugung von Schlüsselwortübereinstimmungen, ohne das semantische Verständnis zu beeinträchtigen – ein Gleichgewicht, das sich als entscheidend für die Erzielung der MRR-Verbesserung um 18,5 % erwies.

Wenn hybride Retrieval-Verfahren ihre Stärken ausspielen: Die Multi-Constraint-Abfrage

Der Leistungsvorteil von Hybridsystemen zeigt sich bei bestimmten Abfragetypen, die rein dichte Ansätze vor Herausforderungen stellen. Eine häufige und anspruchsvolle Abfrage aus unserem Datensatz „Gesundheit und Körperpflege“ lautet:

„Ich brauche ein natürliches Deodorant, das sowohl aluminium- als auch parabenfrei ist.“

Diese Anfrage besteht aus zwei unterschiedlichen Teilen: einer breiten semantischen Absicht („natürliches Deodorant“) und zwei strengen Schlüsselwortbeschränkungen („aluminiumfrei“, „parabenfrei“).

Wie ein System reagiert, das ausschließlich auf dichte Deodorants achtet: Ein solches System versteht die Intention von „natürlichen Deodorants“ hervorragend. Es findet Rezensionen, die „sanfte, organische Deodorants“ erwähnen. Allerdings könnte es eine Rezension, die von „rein natürlichen“ und „aluminiumfreien“ Inhaltsstoffen spricht, hoch einstufen, selbst wenn Parabene nicht erwähnt werden. Das System erfasst zwar die primäre Intention korrekt, scheitert aber an einer der unabdingbaren Bedingungen.

Wie das Hybridsystem gewinnt: Das Hybridsystem geht dieses Problem durch einen zweigleisigen Ansatz an:

Die spärliche Suche (Präzisionsfilter): Das SPLADE-Modell findet sofort Dokumente, die die exakten, hochgewichteten Schlüsselwörter „aluminiumfrei“ und „parabenfrei“ enthalten.
Die dichte Suche (Relevanzfilter): Gleichzeitig sucht das OpenAI Modell nach Dokumenten, die semantisch mit „natürliches, wirksames Deodorant“ verwandt sind.
Die Fusion (RRF): RRF vergleicht anschließend beide Ranglisten. Ein Dokument, das in beiden Listen weit oben erscheint – beispielsweise eine überschwängliche Rezension, die ein Produkt ausdrücklich als „natürlich“, „wirksam“, „aluminiumfrei“ und „parabenfrei“ lobt –, erhält die höchstmögliche Gesamtpunktzahl und steigt auf Platz 1 auf.

Rerankers: Eine optionale zweite Abrufphase

Reranker fungieren als zweiter Filterschritt in zweistufigen Retrieval-Pipelines: Das System ruft zunächst eine große Menge an Kandidatendokumenten ab, die anschließend von einem Cross-Encoder-Reranker anhand ihrer Relevanz für die Suchanfrage bewertet und neu geordnet werden. In der Praxis kann ein System Dutzende oder sogar Hunderte von Kandidaten abrufen (beispielsweise durch eine hybride dichte-spärliche Suche mit etwa 50–100 Treffern) und anschließend mithilfe des Rerankers die wenigen relevantesten Passagen für das Sprachmodell auswählen. Dieser zweistufige Ansatz ermöglicht es, relevante Passagen, die nicht zu den am besten bewerteten Elementen gehörten, in die finale Auswahl für die Generierung aufzunehmen.

Im Reranker- Benchmark testeten wir 8 Reranker-Modelle anhand von ca. 145.000 englischen Amazon-Rezensionen und stellten fest, dass der beste Reranker die Trefferquote (Hit@1) zusätzlich zu einem dichten Retriever von 62,67 % auf 83,00 % steigerte, während die Latenz pro Abfrage um weniger als 250 ms erhöht wurde.

Dieser hybride RAG Benchmark beinhaltet keine Reranking-Stufe. Unser Ziel war es, den Einfluss der Kombination dichter und spärlicher Retrieval-Signale mittels RRF zu isolieren. Die Hinzunahme eines Rerankers zum hybriden Retrieval ist ein naheliegender nächster Schritt und könnte weitere Genauigkeitssteigerungen ermöglichen. Allerdings würde dies eine Störvariable einführen, die es erschwert, Verbesserungen entweder der Retrieval-Methode oder dem Reranking-Modell zuzuordnen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Benchmark-Methodik für hybride RAG

Unsere Evaluierungsmethodik wurde entwickelt, um einen fairen, transparenten und reproduzierbaren Vergleich zwischen den rein dichten und den hybriden Retrieval-Systemen zu gewährleisten.

Testaufbau und Datenkorpus

Wissenskorpus: Wir verwendeten einen Datensatz mit 494.094 realen Nutzerrezensionen aus dem Amazon-Kundenrezensions-Datensatz (Kategorie Gesundheit und Körperpflege). ¹ .
Vektordatenbank: Wir haben Qdrant verwendet, um zwei separate Sammlungen zu hosten.
- Die ausschließlich dichte Sammlung enthielt nur OpenAI Vektoren.
- Die hybride Sammlung nutzte die Funktion „benannte Vektoren“ von Qdrant , um sowohl einen dichten (dense) als auch einen dünnbesetzten (text-sparse) Vektor für jedes Dokument zu speichern.
Ähnlichkeitsmetrik: Für alle dichten Vektorsuchen wurde die Kosinusähnlichkeit verwendet.

Testabfragen: Auswahlprozess

Wir haben mithilfe eines dreistufigen, codebasierten Prozesses einen hochwertigen Testdatensatz mit 100 Fragen erstellt, um anekdotische oder voreingenommene Bewertungen zu vermeiden:

Vorverarbeitung: Wir haben die Rohdaten von Amazon Q&A programmatisch bereinigt. ² Aussortieren unsinniger oder qualitativ minderwertiger Fragen. Für jede Frage wurde eine „wahre“ Antwort festgelegt, indem die Antwort mit den meisten „hilfreichen“ Nutzerbewertungen ausgewählt wurde.
Schwierigkeitsgradklassifizierung: Wir verwendeten ein regelbasiertes Skript, um alle Fragen nach ihrem Schwierigkeitsgrad zu bewerten und zu klassifizieren. Fragen mit vergleichender Sprache („Unterschied zwischen“, „vs.“, „besser als“) oder die nach Meinungen fragten („Erfahrung mit“), wurden als schwieriger eingestuft als einfache Faktenfragen („Welche Dimensionen gibt es?“).
Endgültige Auswahl: Wir haben die finalen 100 Fragen des Benchmark-Sets aus der Kategorie „schwierig“ manuell zusammengestellt. Dadurch stellen wir sicher, dass wir die Grenzen jedes Abrufsystems testen, wo die Leistungsunterschiede am deutlichsten zutage treten.

Bewertungskriterien

Trefferquote (Recall@5): Diese Kennzahl beantwortet die grundlegende Frage: „Hat das System die richtigen Informationen gefunden?“ Sie misst den Prozentsatz der Suchanfragen, bei denen die korrekte Antwort unter den ersten fünf Suchergebnissen erschien. Ein hoher Recall@5-Wert deutet auf ein effektives System hin, das relevante Informationen erfolgreich liefert.
MRR (Mittlerer reziproker Rang): Diese rangabhängige Metrik beantwortet die Frage: „Wie schnell hat der Nutzer die richtige Information gefunden?“ Die richtige Antwort wird stark belohnt (Wert 1,0), während die Werte für niedrigere Ränge abnehmen (0,5 für Platz 2, 0,33 für Platz 3 usw.). Ein hoher MRR-Wert ist entscheidend für die Nutzererfahrung, da er signalisiert, dass das korrekteste Ergebnis ganz oben angezeigt wird.

Latenzmessung

Um eine umfassende Leistungsanalyse zu ermöglichen, haben wir die End-to-End-Abfragelatenz sowohl für das rein dichte System als auch für das Hybridsystem gemessen. Diese Messung ist entscheidend, um die tatsächlichen Kosten der durch den Hybridansatz erzielten Genauigkeitsgewinne zu verstehen.

Der Prozess wurde in unseren Python-Evaluierungsskripten mithilfe der hochpräzisen Funktion `time.perf_counter()` implementiert. Für jede der 100 Testanfragen wurde die Gesamtzeit vom Absenden der Anfrage an die Abfragefunktion bis zur Rückgabe der endgültigen, sortierten Dokumentenliste gemessen.

Für das Hybridsystem führten wir eine detailliertere Analyse durch, indem wir die drei einzelnen Phasen unabhängig voneinander zeitlich erfassten:

Vektorgenerierung : Die Gesamtzeit, die benötigt wird, um sowohl den dichten Vektor (über einen API -Aufruf an OpenAI ) als auch den dünnbesetzten Vektor (über lokale SPLADE-Modellinferenz) zu generieren.
Suchvorgänge : Die Zeit, die für die Ausführung zweier separater Suchanfragen an die Qdrant -Vektordatenbank benötigt wird, eine für den dichten Vektor und eine für den dünnbesetzten Vektor.
Fusion (RRF) : Die Rechenzeit, die der Reciprocal Rank Fusion-Algorithmus benötigt, um die beiden Ergebnismengen zusammenzuführen und die endgültige, neu geordnete Liste zu erzeugen.

Die in unseren Ergebnissen angegebenen Latenzwerte stellen den arithmetischen Mittelwert der über alle 100 Testanfragen erfassten Zeiten dar und wurden zur besseren Übersichtlichkeit in Millisekunden (ms) umgerechnet. Dieses Vorgehen gewährleistet, dass unsere Latenzmesswerte robust sind und die durchschnittliche Nutzererfahrung widerspiegeln.

Einschränkungen und Umfang

Unser Benchmark konzentriert sich speziell auf den Bereich Gesundheit und Körperpflege und verwendet dafür Amazon-Rezensionsdaten. Die Leistungsmuster können in anderen Bereichen mit abweichenden sprachlichen Merkmalen oder Anforderungen an die Fachterminologie variieren.

Die Auswertung erfolgte auf Dokumentenebene, wobei jede Rezension als einzelner Vektor behandelt wurde. Die Ergebnisse können je nach Chunking-Strategie oder feingranularem Retrieval-Ansatz variieren.

Weiterführende Literatur

Erkunden Sie weitere RAG Benchmarks, wie zum Beispiel:

Die 10 besten mehrsprachigen Einbettungsmodelle für RAG

Einbettungsmodelle: OpenAI vs. Gemini vs. Cohere

Die 16 besten Open-Source-Einbettungsmodelle für RAG

Top-Vektordatenbank für RAG : Qdrant vs Weaviate vs Pinecone

Agentic RAG Benchmark: Multi-Datenbank-Routing und Abfragegenerierung

Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI

Abschluss

Dieser Benchmark bestätigt, dass ein optimal abgestimmtes hybrides Retrieval-System bei anspruchsvollen, realen Suchanfragen einen deutlichen Leistungsvorteil gegenüber einem rein dichten Ansatz bietet. Durch die intelligente Kombination von semantischer und lexikalischer Suche verbessert das Hybridmodell die Ranking-Genauigkeit und liefert präzisere und höherrangige Ergebnisse.

Zu den wichtigsten Erkenntnissen aus unserem Vergleichstest gehören:

Hybrid übertrifft rein dichte Systeme: Das optimierte Hybridsystem erzielte eine Steigerung von +7,2 % bei Recall@5 und eine deutliche Verbesserung von +18,5 % bei MRR, was seine überlegene Fähigkeit beweist, die beste Antwort sowohl zu finden als auch korrekt zu ordnen.
Die Feinabstimmung ist unerlässlich: Eine einfache Kombination aus dichter und spärlicher Suche reicht nicht aus. Unser anfängliches, nicht optimiertes Hybridsystem blieb hinter der rein dichten Basislinie zurück. Die strategische Optimierung der Fusionsparameter war daher entscheidend für die Leistungssteigerung.
Genauigkeit hat ihren Preis: Die verbesserte Genauigkeit des Hybridsystems führte zu einer um ca. 201 ms (24,5 %) erhöhten Latenz pro Abfrage. Dieser Zielkonflikt ist für Systementwickler von entscheidender Bedeutung, da sie die Notwendigkeit von Präzision mit den Echtzeit-Leistungsanforderungen in Einklang bringen müssen.

FAQs

RAG ermöglicht es einem generativen Modell, wie beispielsweise einem Large Language Model ( LLM ), Antworten auf Basis externer Daten zu generieren, anstatt sich ausschließlich auf seine internen Trainingsdaten zu stützen. Dies verbessert die faktische Genauigkeit, indem die Antworten auf abgerufenen Informationen basieren.
Allerdings sind Daten nicht gleich Daten. Manche Anfragen erfordern semantisches Verständnis, andere hingegen präzises Keyword-Matching, insbesondere bei strukturierten Anfragen oder aus komplexen Informationen extrahierten Entitäten. Daher ist die hybride Retrieval Augmented Generation (Hybrid RAG ) unerlässlich. Sie kombiniert dichte semantische Suche mit spärlicher lexikalischer Suche und bietet so sowohl kontextuelle Relevanz als auch Keyword-Präzision. Diese hybride Natur gewährleistet, dass das System Kontext aus strukturierten und unstrukturierten Textdaten extrahiert und dadurch genauere Ergebnisse liefert.

Die aktuelle Implementierung konzentriert sich auf unstrukturierte Textdaten wie Produktrezensionen, die oft differenzierte Meinungen, technische Details und vielfältige sprachliche Muster enthalten. Das System verwendet mehrere Abrufverfahren, um sowohl die Bedeutung als auch die exakten Begriffe zu erfassen.
Zukünftig könnte Hybrid RAG um strukturierte Informationen und Graphdaten erweitert werden, wodurch es komplexere Anfragen beantworten könnte, indem Fakten aus Wissensgraphen mit Stimmungen oder dem Kontext von Rezensionen verknüpft werden. Dies würde einen einheitlichen Kontext schaffen, der Rohdaten, strukturierte Dokumente und narrative Inhalte verbindet und so eine umfassendere Kontextualisierung bei der Antwortgenerierung ermöglicht.

Wenn ein Benutzer eine Anfrage absendet, aktiviert das System zwei parallele Abfragekomponenten: einen dichten (semantischen) und einen spärlichen (lexikalischen) Abfrager. Das dichte Modell erfasst allgemeine Bedeutungen und Beziehungen, während das auf SPLADE basierende spärliche Modell sich auf Schlüsselbegriffe konzentriert.
Diese beiden Ergebnismengen werden mithilfe von Reciprocal Rank Fusion (RRF) zusammengeführt, wodurch die Inkompatibilität der Bewertungsmethoden unterschiedlicher Retrieval-Verfahren behoben wird. Dieser hybride Ansatz ermöglicht es dem System, mehrere Dokumente abzurufen, die verschiedene Teile einer Anfrage erfüllen, und verbessert so seine Fähigkeit, kohärente Antworten auf Basis des relevantesten und umfassendsten verfügbaren Kontexts zu generieren.

Ja, der hybride Ansatz ist ressourcenintensiver. Er benötigt aufgrund der Generierung zweier Vektoren, doppelter Suchvorgänge und der Fusionslogik mehr Rechenressourcen. Dies führt zu längeren Abfrageverarbeitungszeiten und einem Bedarf an zusätzlicher Infrastruktur zur Verarbeitung großer Datenmengen.
Trotzdem rechtfertigen die Leistungssteigerungen, insbesondere beim mittleren reziproken Rang (MRR) und Recall@5, den Kompromiss für Anwendungen, bei denen faktische Genauigkeit und Vollständigkeit entscheidend sind. Im Vergleich in einem anspruchsvollen Benchmark lieferte die Hybridmethode durchweg kontextbezogenere und präzisere Informationen als Systeme, die ausschließlich auf Datendichte setzen.

Im Gegensatz zu herkömmlichen RAG -Verfahren, die ausschließlich auf dichten Einbettungen basieren, nutzt Hybrid RAG mehrere Abrufmethoden, um die Qualität der Antworten zu maximieren. Dank seines dualen Abrufdesigns unterstützt es ein breiteres Spektrum an Anfragetypen, von vage bis hochspezifisch.
Durch seine hybride Natur ist es besonders leistungsstark in Anwendungsfällen, in denen mehrere Anforderungen erfüllt werden müssen, beispielsweise die Kombination strukturierter Informationen (z. B. „parabenfrei“) mit allgemeineren Intentionen (z. B. „natürliches Deodorant“). Diese vergleichende Analyse zeigt, dass Hybrid RAG eine ausgewogenere und adaptivere Reaktion auf Basis sowohl dichter als auch spärlicher Signale bietet.

Ja, zukünftige Entwicklungsrichtungen für Hybrid RAG umfassen die Integration von Wissensgraphen und strukturierten Daten neben Text. Dadurch kann es auf strukturierte Anfragen reagieren und Antworten liefern, die graphenbasierte Beziehungen (wie Produktkategorien oder Wechselwirkungen von Inhaltsstoffen) mit freien Nutzerbewertungen verknüpfen.
Dadurch wäre das System in der Lage, Antworten zu generieren, die sowohl auf präzisen Faktenstrukturen als auch auf differenzierten menschlichen Erzählungen basieren, wodurch sowohl die faktische Genauigkeit als auch die Zufriedenheit der Nutzer verbessert würden.

Da Hybrid RAG zwei Arten von Abfragen durchführt und die Ergebnisse anschließend zusammenführt, benötigt es naturgemäß mehr Rechenressourcen. Die Vektorgenerierung, insbesondere bei der Erzeugung sowohl dichter als auch dünnbesetzter Einbettungen, ist für über 90 % der Gesamtlatenz verantwortlich. Im Vergleich zu einem rein dichten Ansatz erhöht dies die Latenz (ca. 201 ms pro Anfrage in unserem Benchmark).

Referenzlinks

McAuley-Lab/Amazon-Reviews-2023 · Datasets at Hugging Face

McAuley-Lab

Amazon question/answer data

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von