RAG (Retrieval-Augmented Generation) verbessert die Antworten von LLM-Systemen durch die Einbindung externer Datenquellen. Wir haben verschiedene Einbettungsmodelle verglichen und separat unterschiedliche Chunk-Größen getestet, um die optimalen Kombinationen für RAG-Systeme zu ermitteln.
Entdecken Sie die besten RAG-Frameworks und -Tools , erfahren Sie, was RAG ist, wie es funktioniert, welche Vorteile es bietet und welche Rolle es in der heutigen LLM-Landschaft spielt.
RAG-Benchmark-Ergebnisse
Einbettungsmodelle
Die Leistungsfähigkeit von RAG-Systemen hängt stark von der Qualität der Einbettungsmodelle ab, da diese die Genauigkeit und Effektivität des Systems beim Abrufen relevanter Informationen direkt beeinflussen.
Um dies zu beurteilen, haben wir die Leistung von vier Einbettungsmodellen evaluiert:
Diese Ergebnisse zeigen, dass Mistral Embed in unserem Benchmark die höchste Genauigkeit erreichte, was die Bedeutung der Auswahl des richtigen Einbettungsmodells für RAG-Systeme unterstreicht.
Einbettungen beeinflussen sowohl die Relevanz der abgerufenen Informationen als auch die Genauigkeit der generierten Antworten. Unseren Evaluierungsprozess verstehen Sie in unserer Einbettungsmethodik.
Unsere detaillierte Benchmark-Analyse, in der wir die Genauigkeit und die Kosten führender Anbieter wie OpenAI, Gemini und Cohere vergleichen, finden Sie in unserem vollständigen Benchmark für Einbettungsmodelle .
Stückgröße
Die Chunk-Größe in RAG-Systemen bestimmt, wie groß die Textsegmente bei der Verarbeitung sind. Diese Segmente werden anschließend mithilfe von eingebetteten Modellen in Vektoren umgewandelt und in einer Vektordatenbank gespeichert . Wird eine Frage gestellt, ruft das Modell die relevantesten Segmente aus der Vektordatenbank ab und generiert darauf basierend eine Antwort.
Die Wahl der richtigen Kombination aus Chunk-Größe und Einbettungsmodell ist entscheidend, um ein Gleichgewicht zwischen Abrufgenauigkeit und Gesamteffizienz des Systems zu gewährleisten:
Die Benchmark-Ergebnisse verdeutlichen die Bedeutung der Chunk-Größe in RAG-Systemen. Die Chunk-Größe beeinflusst direkt die Segmentierung des Textes und die Qualität der abgerufenen Informationen. Daher ist ein ausgewogenes Verhältnis erforderlich, um einen effizienten und gleichzeitig präzisen Systembetrieb zu gewährleisten.
Die Ergebnisse deuten darauf hin, dass eine Chunk-Größe von 512 Token die beste Leistung bietet und ein ausgewogenes Verhältnis zwischen Abrufgenauigkeit und Effizienz gewährleistet.
Im Chunk-Größen-Benchmark verwendeten wir Folgendes:
- Einbettungsmodell: OpenAI text-embedding-3-small
- Vektordatenbank: Pinecone.
RAG-Chunk-Größen-Benchmark-Methodik
Diese Studie wurde speziell konzipiert, um die Leistungsfähigkeit von Retrieval-Augmented-Generation-Systemen (RAG) zu evaluieren. Um die Fähigkeit von RAG zu testen, präzise und relevante Informationen aus einer Vektordatenbank abzurufen und zu generieren, erstellten wir einen Datensatz auf Basis von CNN-Nachrichtenartikeln und formulierten entsprechende Fragestellungen. Die Tests konzentrierten sich auf die Untersuchung des Einflusses kritischer Parameter wie Chunk-Größe und Einbettungsmodelle.
- Die CNN-Nachrichtenartikel wurden in eine Vektordatenbank geladen. Diese Datenbank diente als Wissensquelle für das LLM und stellte sicher, dass die vom Modell generierten Antworten ausschließlich auf den bereitgestellten Daten basierten.
- Jede vom LLM generierte Antwort wurde mit den tatsächlichen Daten in den Quellartikeln verglichen. Dieser Vergleich erfolgte automatisch mithilfe eines Genauigkeitsbewertungssystems, wobei die Genauigkeitsrate auf Basis der exakten Übereinstimmung zwischen den Antworten und den Artikeldaten berechnet wurde.
Ampelfenster vs. Kontextfenster
RAG ruft externe Daten für Abfragen ab, während Kontextfenster feste Textmengen verarbeiten. Da Kontextfenster auf Millionen von Token anwachsen, wird die Notwendigkeit von RAG mitunter in Frage gestellt, doch unsere Ergebnisse zeigen, dass es weiterhin deutliche Genauigkeitsvorteile bietet.
Wir haben den RAG-Ansatz mit einem Ansatz mit langem Kontextfenster verglichen:
Für das Kontextfenster:
Wir haben die native Kontextlänge von Llama 4 Scout verwendet.
Für RAG:
- LLM: Lama 4 Scout
- Vektordatenbank: Pinecone
- Einbettungsmodell : OpenAI text-embedding-3-large
- Stückgröße: 512
RAG-Fenster vs. Kontextfenster: Mögliche Gründe für Leistungsunterschiede
Genauigkeit
RAG erzielt eine höhere Genauigkeit, da es als strenger Filter fungiert und 99 % des irrelevanten Textes entfernt, bevor das LLM ihn verarbeitet. Dieser diskriminative Ansatz der harten Aufmerksamkeit zwingt das Modell, sich ausschließlich auf die relevanten Fakten zu konzentrieren, reduziert so das Rauschen und gewährleistet effektiv eine hohe Genauigkeit.
Aufmerksamkeitsablenkung
Die Ergebnisse der Kontextfensterung waren aufgrund des „Lost-in-the-Middle“-Phänomens schlecht, da die Aufmerksamkeit des LLM bei langen Dokumenten naturgemäß nachlässt. Das Modell hat Schwierigkeiten, eine einzelne relevante Tatsache zu priorisieren, wenn diese in Zehntausenden von zusammenhangslosen Textbausteinen untergeht.
Warum die Ampelregelung weiterhin effektiv ist
RAG-Systeme nutzen externe Wissensdatenbanken wie Vektordatenbanken, um die relevantesten Informationen für eine bestimmte Anfrage abzurufen. Durch die Segmentierung der Daten in Blöcke und deren Einbettung konnte sich Llama 4 auf qualitativ hochwertige, kontextrelevante Daten konzentrieren, anstatt einen gesamten, umfangreichen Kontext zu verarbeiten.
Dadurch wird die Flut irrelevanter Daten vermieden, die Modelle in Szenarien mit langem Kontext oft überfordert. RAG trägt dazu bei, dass das Modell übersichtlich bleibt und präzisere Ergebnisse liefert, indem es sich auf kleinere, zielgerichtete Eingaben konzentriert.
Bei langen Kontextlängen haben Modelle oft Schwierigkeiten, Informationen effektiv zu verarbeiten und zu priorisieren, was zu einer verminderten Leistung führt. 1
Können lange Kontextfenster RAG ersetzen?
Lange Kontextfenster können große Datensätze in einem Durchgang verarbeiten. Ihre praktischen Nachteile, wie z. B. Leistungseinbußen und Rechenineffizienz, machen RAG jedoch zu einer zuverlässigeren Option für Aufgaben, die eine hohe Genauigkeit erfordern.
RAG-Systeme begegnen diesen Herausforderungen durch die Anpassung von Parametern wie Chunk-Größe und Einbettungsmodellen und erzielen so ein Gleichgewicht zwischen Effizienz und Effektivität. Kontextfenster bieten nur eine begrenzte Sicht auf die Eingabe, während RAG relevante externe Informationen abruft, um die Antwortqualität zu verbessern. Dadurch eignet sich RAG besser für Aufgaben, die aktuelles oder domänenspezifisches Wissen erfordern, das über die internen Trainingsdaten des Modells hinausgeht.
Während Kontextfenster für einfachere Aufgaben innerhalb der Token-Grenze des Modells funktionieren können, ist RAG effektiver, wenn externes Wissen erforderlich ist.
Methodik für den Vergleich von RAG- und Kontextfenstern
Wir evaluierten die Leistung von Llama 4 Scout anhand zweier Ansätze: RAG und einem langen Kontextfenster. Für RAG integrierten wir Llama 4 Scout mit Pinecone als Vektordatenbank, verwendeten das OpenAI-Modell text-embedding-3-large für die Einbettungen und eine Chunk-Größe von 512.
Für den Kontextfenster-Ansatz nutzten wir ausschließlich die native Kontextlänge von Llama 4 Scout ohne externe Abfrage. Beide Methoden wurden anhand unseres zuvor erwähnten Datensatzes evaluiert , wobei die Genauigkeit als Prozentsatz korrekter Antworten auf eine Reihe von Anfragen berechnet wurde.
Warum ist RAG gerade jetzt wichtig?
Die Bedeutung von Retrieval-Augmented Generation (RAG) hat in den letzten Jahren aufgrund des wachsenden Bedarfs an KI-Systemen, die präzise, transparente und kontextrelevante Antworten liefern, zugenommen. Führungskräften ist der Begriff jedoch möglicherweise noch nicht geläufig, da RAG ein relativ neues Forschungsgebiet ist (siehe Abbildung unten).
Da Unternehmen und Entwickler bestrebt sind, die Einschränkungen traditioneller großer Sprachmodelle (LLMs) wie veraltetes Wissen, mangelnde Transparenz und halluzinatorische Ausgaben zu überwinden, hat sich RAG als entscheidende Lösung herauskristallisiert.
Welche RAG-Modelle und -Werkzeuge stehen zur Verfügung?
Retrieval-Augmented Generation (RAG)-Modelle und -Werkzeuge lassen sich in drei Kategorien unterteilen:
- LLMs mit integrierten RAG-Funktionen zur Verbesserung der Antwortgenauigkeit durch Zugriff auf externes Wissen.
- RAG-Bibliotheken und Frameworks , die für kundenspezifische Implementierungen auf LLMs angewendet werden können.
- Komponenten wie Integrationsframeworks, Vektordatenbanken und Retrievalmodelle, die miteinander oder mit großen Sprachmodellen (LLMs) kombiniert werden können, um RAG-Systeme zu erstellen.
LLMs mit integrierten RAG-Funktionen
Mehrere LLMs verfügen mittlerweile über eine native RAG-Funktionalität, um ihre Genauigkeit und Relevanz durch den Abruf externen Wissens zu verbessern.
- Meta AI : Das RAG-Modell von Meta AI integriert Retrieval und Generierung in einem einzigen Framework. Es nutzt Dense Passage Retrieval (DPR) für den Retrieval-Prozess und BART für die Generierung. Dieses Modell ist auf Hugging Face für wissensintensive Aufgaben verfügbar.
- Anthropic's Claude : Enthält eine Zitations-API für Modelle wie Claude 3.5 Sonnet und Haiku, die die Referenzierung von Quellen ermöglicht.
- Mistrals SuperRAG 2.0 : Dieses Modell bietet Datenabruf mit Integration in Mistral 8x7B v1.
- Cohere's Command R : Optimiert für RAG mit mehrsprachiger Unterstützung und Zitaten, zugänglich über API oder Hugging Face Modellgewichte.
- Gemini Embedding : Googles Gemini-Einbettungsmodell für RAG.
- Mistral Embed : Das Einbettungsmodell von Mistral ergänzt das LLM-Angebot durch die Erzeugung dichter Vektoreinbettungen, die für RAG-Aufgaben optimiert sind.
- OpenAI Embeddings : OpenAI bietet verschiedene Embedding-Modelle an, wie z. B. Embedding-3-Large, Embedding-3-Small und text-embedding-ada-002, die jeweils für unterschiedliche Anwendungsfälle in Aufgaben der natürlichen Sprachverarbeitung wie der Retrieval-augmented Generierung geeignet sind.
RAG-Bibliotheken und -Frameworks
Mithilfe dieser Tools können Entwickler bestehende LLMs um RAG-Funktionen erweitern und so Flexibilität und Skalierbarkeit gewährleisten.
- Haystack : Ein durchgängiges Framework von Deepset zum Aufbau von RAG-Pipelines mit Schwerpunkt auf Dokumentensuche und Fragebeantwortung.
- LlamaIndex : Spezialisiert auf Datenerfassung und -indizierung, erweitert LLMs um Abrufsysteme.
- Weaviate : Eine Vektordatenbank mit RAG-Funktionen, die skalierbare Such- und Abruf-Workflows unterstützt.
- DSPY : Ein deklaratives Programmierframework zur Optimierung von RAG in großen Sprachmodellen.
- Pathway : Ein Rahmenwerk für den großflächigen Einsatz von RAG mit Datenkonnektivität.
- Azure Maschinelles Lernen : Bietet RAG-Funktionen durch Azure AI Studio und Machine Learning-Pipelines.
- IBM watsonx.ai : Bietet Frameworks für die Entwicklung von Anwendungen, die die Implementierung von RAG mit großen Sprachmodellen erleichtern.
Einen detaillierteren Vergleich und eine umfassendere Analyse finden Sie in unserem RAG-Framework-Benchmark .
Integrationsframeworks für RAG
Integrationsframeworks vereinfachen die Entwicklung kontextsensitiver, auf LLMs basierender, logikfähiger Anwendungen. Sie bieten modulare Komponenten und vorkonfigurierte, auf spezifische Bedürfnisse zugeschnittene Ketten und ermöglichen gleichzeitig individuelle Anpassungen.
- LangChain : Ein Framework zur Erstellung kontextsensitiver Anwendungen, das häufig mit RAG und LLMs verwendet wird.
- Dust : Ermöglicht die Erstellung benutzerdefinierter KI-Assistenten mit semantischer Suche und RAG-Unterstützung und verbessert so LLM-Anwendungen.
Die Nutzer können diese Frameworks mit Vektordatenbanken kombinieren, um RAG vollständig zu implementieren und so die Kontexttiefe der LLM-Ausgaben zu erhöhen.
Vektordatenbanken für RAG
Vektordatenbanken (VDs) verarbeiten multidimensionale Daten wie Patientensymptome, Bluttestergebnisse, Verhaltensweisen und Gesundheitskennzahlen und sind daher für RAG-Systeme unerlässlich.
- Deep Lake : Ein für LLMs optimierter Data Lake, der Vektorspeicherung und die Integration mit Tools wie LlamaIndex unterstützt.
- Pinecone : Ein verwalteter Vektordatenbankdienst für RAG-Setups.
- Weaviate : Kombiniert Vektorspeicherung mit RAG-fähigen Funktionen für den Datenabruf.
- Milvus : Eine Open-Source-Vektordatenbank für KI-Anwendungsfälle .
- Qdrant : Eine Vektorsuchmaschine für Ähnlichkeitssuchen.
- Zep Vector Store : Eine Open-Source-Plattform, die einen Dokumentenvektorspeicher unterstützt, in dem Sie Dokumente hochladen, einbetten und nach RAG durchsuchen können.
Andere Retrieval-Modelle, die RAG unterstützen
Da RAG Sequenz-zu-Sequenz- und Retrieval-Techniken wie DPR nutzt, können Entwickler diese Modelle mit LLMs kombinieren, um eine Retrieval-gestützte Generierung zu ermöglichen.
- BART mit Retrieval : Integriert die generative Kraft von BART mit Retrievalmechanismen für RAG.
- BM25 : Ein traditioneller, auf Termfrequenzen basierender Retrieval-Algorithmus, der aufgrund seiner Einfachheit weit verbreitet ist.
- ColBERT-Modell : Basierend auf BERT (Bidirectional Encoder Representations from Transformers) und konzipiert, um sowohl die dichte Suche als auch die traditionelle spärliche Suche zu kombinieren.
- DPR-Modell (Dense Passage Retrieval) : Ein Modell, das für Informationsabrufaufgaben verwendet wird, insbesondere im Bereich der Frage-Antwort-Systeme und Suchsysteme.
Was ist abrufgestützte Generierung?
Im Jahr 2020 wurden in der Studie Meta RAG-Modelle zur präzisen Wissensmanipulation eingeführt. Lewis und Kollegen bezeichnen RAG als einen universellen Feinabstimmungsansatz, der vortrainierte parametrische Speichergenerierungsmodelle mit einem nicht-parametrischen Speicher kombinieren kann.
Vereinfacht ausgedrückt ist Retrieval-augmented Generation (RAG) ein Ansatz der natürlichen Sprachverarbeitung (NLP), der Elemente von Retrieval- und Generierungsmodellen kombiniert, um die Qualität und Relevanz der generierten Inhalte zu verbessern. Es handelt sich um einen hybriden Ansatz, der die Stärken beider Techniken nutzt, um die Einschränkungen rein generativer oder rein Retrieval-basierter Methoden zu überwinden. Hier ist ein kurzes Video zu RAG:
Wie funktionieren RAG-Modelle?
Das RAG-System arbeitet in zwei Phasen: Abruf und Inhaltsgenerierung.
In der Abrufphase :
Algorithmen suchen und rufen mithilfe von Techniken wie BM25 aktiv relevante Informationsschnipsel ab, basierend auf der Eingabeaufforderung oder Frage des Benutzers. Diese abgerufenen Informationen bilden die Grundlage für die Generierung kohärenter und kontextbezogener Antworten.
- In offenen Verbraucherumgebungen können diese Informationen aus indizierten Dokumenten im Internet bezogen werden. In geschlossenen Unternehmensumgebungen wird typischerweise ein eingeschränkterer Quellenkreis verwendet, um die Sicherheit und Zuverlässigkeit des internen Wissens zu erhöhen. Beispielsweise kann das RAG-System nach Folgendem suchen:
- Aktuelle Kontextfaktoren, wie z. B. Echtzeit-Wetterdaten und der genaue Standort des Nutzers
- Nutzerbezogene Details, ihre bisherigen Bestellungen auf der Website, ihre Interaktionen mit der Website und ihr aktueller Kontostatus
- Relevante Fakten in abgerufen Dokumente, die entweder privat sind oder nach dem LLM-Ausbildungsprozess aktualisiert wurden.
In der Phase der Inhaltsgenerierung :
- Nach dem Abrufen der relevanten Einbettungen übernimmt ein generatives Sprachmodell, beispielsweise ein Transformer-basiertes Modell wie GPT. Es nutzt den abgerufenen Kontext, um natürlichsprachliche Antworten zu generieren. Der generierte Text kann anhand des abgerufenen Inhalts weiter angepasst und feinabgestimmt werden, um sicherzustellen, dass er dem Kontext entspricht und kontextuell korrekt ist. Das System kann aus Gründen der Transparenz und Verifizierbarkeit Links oder Verweise auf die konsultierten Quellen einfügen.
RAG LLMs nutzen zwei Systeme zur Gewinnung externer Daten:
- Vektordatenbank: Vektordatenbanken helfen dabei, relevante Dokumente mithilfe von Ähnlichkeitssuchen zu finden. Sie können entweder eigenständig verwendet werden oder Teil der LLM-Bewerbung sein.
- Feature-Stores: Hierbei handelt es sich um Systeme oder Plattformen zur Verwaltung und Speicherung strukturierter Datenmerkmale, die in Anwendungen des maschinellen Lernens und der künstlichen Intelligenz verwendet werden. Sie stellen organisierte und zugängliche Daten für Trainings- und Inferenzprozesse in Modellen des maschinellen Lernens wie LLMs bereit.
Was versteht man unter abrufgestützter Generierung in großen Sprachmodellen?
RAG-Modelle generieren Lösungen, die Herausforderungen großer Sprachmodelle (LLMs) bewältigen können. Zu diesen Hauptproblemen gehören:
- Begrenzter Wissenszugriff und eingeschränkte Manipulationsmöglichkeiten: LLMs haben Schwierigkeiten, ihr Weltwissen aktuell zu halten, da Aktualisierungen ihrer Trainingsdatensätze nicht praktikabel sind. Zudem stoßen sie bei der präzisen Manipulation von Wissen an Grenzen. Diese Einschränkung beeinträchtigt ihre Leistung bei wissensintensiven Aufgaben und führt häufig dazu, dass sie hinter aufgabenspezifischen Architekturen zurückbleiben. Beispielsweise fehlt LLMs domänenspezifisches Wissen, da sie für generalisierte Aufgaben trainiert werden.
- Mangelnde Transparenz: LLM-Institute tun sich schwer damit, transparente Informationen über ihre Entscheidungsprozesse bereitzustellen. Es ist schwierig nachzuvollziehen, wie und warum sie zu bestimmten Schlussfolgerungen oder Antworten gelangen, weshalb sie oft als „Black Boxes“ gelten.
- Halluzinationen in Antworten: Sprachmodelle können Fragen beantworten, die zwar korrekt oder kohärent erscheinen, aber tatsächlich völlig erfunden oder fehlerhaft sind. Die Erkennung und Reduzierung solcher Halluzinationen ist eine entscheidende Herausforderung, um die Zuverlässigkeit und Vertrauenswürdigkeit von sprachmodellgenerierten Inhalten zu verbessern.
Welche verschiedenen Arten von RAG gibt es?
Spekulatives RAG
Speculative RAG nutzt ein kleineres, spezialisiertes Sprachmodell, um parallel mehrere Antworten aus verschiedenen Dokumenten-Teilmengen zu generieren, während ein größeres, allgemeineres Sprachmodell die beste Antwort überprüft und auswählt. Dieser Dual-System-Ansatz erhöht die Genauigkeit bei gleichzeitiger Reduzierung der Latenz und eignet sich daher ideal für Anwendungen mit hohem Durchsatz, bei denen sowohl Geschwindigkeit als auch Genauigkeit entscheidend sind.
Retrieval-Augmented Fine-Tuning (RAFT)
RAFT kombiniert RAG mit überwachtem Feintuning, um die domänenspezifische Leistung zu verbessern. Man kann es sich wie die Vorbereitung auf eine Prüfung mit erlaubten Hilfsmitteln vorstellen: Anstatt sich bei der Abfrage auf externe Dokumente zu verlassen (RAG) oder alles auswendig zu lernen (Feintuning), trainiert RAFT das Modell, die Dokumente im Voraus zu „studieren“.
So funktioniert es:
- Die Trainingsdaten umfassen Fragen, „Orakel“-Dokumente (die die Antwort enthalten) und „Distraktor“-Dokumente (irrelevantes Rauschen).
- Das Modell lernt, relevante Informationen zu erkennen und gleichzeitig Störfaktoren zu ignorieren.
- Antworten im Stil einer Gedankenkette verbessern die Qualität des logischen Denkens.
Zu beachten ist: Jüngste Forschungsergebnisse deuten darauf hin, dass RAFT die größten Verbesserungen gegenüber älteren LLMs bietet. Neuere Modelle könnten bescheidenere Verbesserungen aufweisen, da sie über bessere integrierte Abrufmechanismen verfügen.
Erweiterte RAG-Architekturen
Die RAG-Landschaft hat sich über die Standardtypen „Kontextuell“ und „Spekulativ“ hinaus zu komplexen Architekturen für anspruchsvolles Schließen entwickelt. Die bisherige Vorgehensweise „Abrufen und dann Generieren“ wird durch Schleifen ersetzt, in denen das Modell aktiv mit dem Abrufer interagiert.
Graphbasiertes RAG (GraphRAG)
GraphRAG geht über das Abrufen flacher Textabschnitte hinaus. Es erstellt einen Wissensgraphen, in dem Dokumente und Entitäten Knoten darstellen, wodurch das System „Teilgraphen“ oder Schlussfolgerungspfade anstelle isolierter Ausschnitte abrufen kann.
- So funktioniert es: Anstatt Textpassagen isoliert zu bewerten, identifiziert das System Beziehungen (Kanten) zwischen Entitäten. Es kann diese Verbindungen durchlaufen, um mehrstufige Fragen zu beantworten (z. B. „In welcher Beziehung steht der CEO von Unternehmen A zum Lieferanten von Unternehmen B?“).
- Strukturbewusstsein: Systeme wie G-RETRIEVER konstruieren minimale zusammenhängende Teilgraphen, die Mehrschrittkontexte kodieren, bevor das LLM überhaupt die Eingabeaufforderung sieht. Dadurch wird die Genauigkeit verbessert und Halluzinationen werden reduziert.
- Am besten geeignet für: Komplexe Denkaufgaben, bei denen die Beziehungen zwischen Datenpunkten wichtiger sind als die Übereinstimmung mit Schlüsselwörtern.
Hybride und kontextbezogene Ampel
- Kontextuelles RAG: Verbessert die Standardabfrage durch Vorverarbeitung von Chunks mit „kontextuellen Einbettungen“ oder Zusammenfassungen, die erklären, warum ein Chunk relevant ist, wodurch Abruffehler reduziert werden.
- Hybrid Retrieval : Kombiniert dichte Suche (semantische Vektoren) mit spärlicher Suche (BM25-Schlüsselwörter). Die dichte Suche erfasst die semantische Bedeutung, während BM25 exakte Schlüsselwortübereinstimmungen findet, die bei der semantischen Suche möglicherweise übersehen werden. Diese Kombination gilt heute als bewährte Methode, um Fehler bei der Suche zu minimieren.
Agentic RAG
Agentische Pipelines nutzen einen LLM-Controller zur Orchestrierung mehrerer Tools und Speicherbereiche. Der Agent kann einen Workflow planen (z. B. „Finanzdaten abrufen“, dann „Rechner verwenden“, dann „Zusammenfassen“).
- Orchestrierung: Im Gegensatz zum linearen RAG-Modell verwendet ein agentenbasiertes System Planungstoken (GEDANKE, AKTION, BEOBACHTUNG), um seinen nächsten Zug dynamisch zu bestimmen.
- Werkzeugnutzung: Es ermöglicht den schnellen Wechsel zwischen verschiedenen Werkzeugen (z. B. von einem dichten Vektorindex zu einer SQL-Datenbankabfrage), je nach Bedarf des Benutzers.
Iteratives und aktives Ampelsystem
Diese Systeme behandeln den Abruf als einen Dialogprozess und nicht als einen einmaligen Schritt. Das Modell bestimmt, wann abgerufen und welche Daten gespeichert werden.
- Active RAG (FLARE): Mechanismen wie FLARE (Forward-Looking Active REtrieval) überwachen die Zuverlässigkeit des Modells während der Generierung. Generiert das Modell Token mit geringer Zuverlässigkeit, pausiert es, um eine Suchanfrage zu formulieren und neue Daten abzurufen, anstatt unüberlegt zu generieren. Dies ist besonders effektiv bei der Generierung längerer Texte, in denen sich der Informationsbedarf im Verlauf des Textes ändert.
- Selbst-RAG: Das Modell generiert „Reflexions-Tokens“ (z. B.
Retrieve,ISREL,ISSUP,ISUSE), um die abgerufenen Inhalte selbst zu bewerten. Es prüft, ob Textpassagen relevant sind, ob die generierten Inhalte durch Belege gestützt werden und wie nützlich die Antwort insgesamt ist – und entscheidet, ob Belege beibehalten, verfeinert oder verworfen werden, bevor die endgültige Antwort generiert wird. - Zyklische Verfeinerung: Architekturen wie Chain-of-Note verpflichten den LLM dazu, prägnante Notizen zu den abgerufenen Dokumenten zu schreiben, um deren Zuverlässigkeit zu beurteilen, bevor er eine Antwort synthetisiert.
Wie man Ampelsysteme bewertet
Die Evaluierung von RAG ist komplexer als herkömmliche LLM-Tests, da sie die Bewertung zweier unterschiedlicher Komponenten erfordert: des Retrievers (der die richtigen Daten findet) und des Generators (der die Antwort korrekt synthetisiert). Die Forschungsgemeinschaft hat sich von einfachen, oberflächlichen Metriken (wie BLEU oder ROUGE) hin zu semantischen und algorithmischen Evaluierungsrahmen entwickelt, die drei Kernkriterien messen: Kontextrelevanz , Genauigkeit und Antwortrelevanz .
Ampel-Bewertungsmatrix
1. Metriken auf Komponentenebene
Um Leistungsprobleme zu diagnostizieren, müssen Sie die Abruf- und Generierungsphasen separat auswerten.
Retrieval-Metriken (Die Suchphase)
Wenn der Abrufer fehlschlägt, hat der Generator keine Chance. Zu den wichtigsten Kennzahlen gehören:
- Precision@k & Recall@k: Precision misst, wie viele der abgerufenen Dokumente tatsächlich relevant sind, während Recall misst, ob das System alle relevanten Dokumente in der Datenbank gefunden hat.
- Mittlerer reziproker Rang (MRR): Dieser Wert ist entscheidend für RAG-Systeme, bei denen das LLM den ersten Abschnitten die größte Bedeutung beimisst. Der MRR bewertet, wie weit oben in der Liste das erste relevante Dokument erscheint.
- Normalisierter diskontierter kumulativer Gewinn (nDCG): Im Gegensatz zu binären Treffer-/Fehltreffer-Metriken berücksichtigt nDCG die abgestufte Relevanz und belohnt Systeme, die die nützlichsten Dokumente oben im Kontextfenster platzieren.
Generationsmetriken (Die Antwortphase)
- Treue (Groundness): Misst, ob die generierte Antwort ausschließlich aus dem abgerufenen Kontext stammt. Dies ist das primäre Kriterium zur Erkennung von Halluzinationen; fügt das Modell Informationen hinzu, die in der Quelle nicht vorhanden sind, sinkt die Treue.
- Antwortrelevanz: Es wird geprüft, ob die Antwort tatsächlich auf die Anfrage des Benutzers eingeht, um sicherzustellen, dass das Modell nicht den Kontext zusammenfasst, ohne die konkrete Frage zu beantworten.
- Negative Ablehnung: Ein kritischer Sicherheitsindikator, der die Fähigkeit des Systems testet, „Ich weiß es nicht“ zu sagen, wenn der abgerufene Kontext die Antwort nicht enthält, anstatt eine plausibel klingende Falschmeldung zu erfinden.
2. Automatisierte Bewertungsrahmen
Sich ausschließlich auf menschliche Beurteilungen zu verlassen, ist langsam und teuer. Der Branchenstandard hat sich hin zu „LLM-als-Richter“-Frameworks verlagert, bei denen ein aussagekräftiges Modell die Ergebnisse Ihrer Ampel-Pipeline bewertet.
- RAGAS (Referenzfreie Evaluierung): RAGAS nutzt im Hintergrund Sprachmodelle, um die Qualität von Antworten zu beurteilen, ohne auf manuell annotierte „Goldstandard“-Antworten angewiesen zu sein. Es bietet umfassende Metriken wie Kontextpräzision, Kontextrelevanz, Genauigkeit und Antwortrelevanz. RAGAS ist hocheffizient und skalierbar, reagiert jedoch empfindlich auf die verwendeten Evaluierungsaufforderungen.
- ARES (Automatisiertes RAG-Evaluierungssystem): ARES optimiert ressourcenschonende Sprachlernalgorithmen mithilfe synthetischer Trainingsdaten, um Kontextrelevanz, Antwortgenauigkeit und Antwortrelevanz zu bewerten. Es verwendet prädiktionsbasierte Inferenz (PPI) mit einem kleinen Satz (~150+) manuell annotierter Datenpunkte, um Konfidenzintervalle zu generieren. Obwohl ARES eine höhere Präzision bietet und auch bei Domänenwechseln effektiv bleibt, ist der Einrichtungsaufwand im Vergleich zu RAGAS höher.
3. Erweiterte Benchmark-Analyse
Über die grundlegende Genauigkeit hinaus testen fortgeschrittene Benchmarks spezifische Fehlermodi:
- Rauschrobustheit: Kann das Modell irrelevante Dokumente, die in das Kontextfenster eingemischt sind, herausfiltern?
- Informationsintegration: Kann das Modell eine Antwort synthetisieren, die die Kombination von Hinweisen aus mehreren unterschiedlichen Dokumenten erfordert (mehrstufiges Schließen)?
- Kontrafaktische Robustheit: Kann das Modell Fehler erkennen und korrigieren, wenn die abgerufenen Informationen mit seinem internen parametrischen Wissen in Konflikt stehen (oder umgekehrt)?
Welche Vorteile bietet die abrufgestützte Generierung?
RAG-Formulierungen lassen sich in verschiedenen NLP-Anwendungen einsetzen, darunter Chatbots, Frage-Antwort-Systeme und Content-Generierung, wo korrekte Informationswiedergewinnung und natürliche Sprachgenerierung von entscheidender Bedeutung sind. Zu den wichtigsten Vorteilen von RAG gehören:
Verbesserte Relevanz und Genauigkeit
Gen AI-Tools und -Modelle wie ChatGPT haben das Potenzial, wissensintensive NLP-Aufgaben zu automatisieren, die etwa 70 % der Arbeitszeit der Mitarbeiter ausmachen. 3 Dennoch halten rund 67 % der Unternehmensführer und Analysten KI-generierte Inhalte für voreingenommen oder ungenau, was die Akzeptanzrate von LLMs verringert. 4
Durch die Integration einer Abfragekomponente können RAG-Modelle auf externe Wissensquellen zugreifen und so sicherstellen, dass der generierte Text auf korrekten und aktuellen Informationen basiert. Dies führt zu kontextbezogeneren und präziseren Antworten und reduziert Fehlinterpretationen bei der Beantwortung von Fragen und der Inhaltsgenerierung.
Kontextuelle Kohärenz
Retrievalbasierte Modelle liefern Kontext für den Generierungsprozess und erleichtern so die Erstellung kohärenter und kontextuell angemessener Texte. Dies führt zu verständlicheren und besser nachvollziehbaren Antworten, da die Generierungskomponente auf den abgerufenen Informationen aufbauen kann.
Umgang mit Anfragen an offene Domänen
RAG-Modelle eignen sich hervorragend für die Beantwortung von Fragestellungen in offenen Bereichen, bei denen die benötigten Informationen möglicherweise nicht in den Trainingsdaten enthalten sind. Die Retrieval-Komponente kann relevante Informationen aus einer umfangreichen Wissensdatenbank abrufen, sodass das Modell Antworten liefern oder Inhalte zu verschiedenen Themen generieren kann.
Reduzierter Generationsbias
Die Einbeziehung von Retrieval-Methoden kann dazu beitragen, einige inhärente Verzerrungen rein generativer Modelle abzumildern. Indem sie auf vorhandene Informationen aus verschiedenen Quellen zurückgreifen, können RAG-Modelle weniger verzerrte und objektivere Ergebnisse liefern.
Effiziente Berechnung
Retrievalbasierte Modelle können für Aufgaben, bei denen die Wissensbasis verfügbar und strukturiert ist, recheneffizient sein. Anstatt Antworten von Grund auf neu zu generieren, können sie vorhandene Informationen abrufen und anpassen, wodurch der Rechenaufwand reduziert wird.
Multimodale Fähigkeiten
RAG-Modelle lassen sich erweitern, um mit verschiedenen Modalitäten wie Text und Bildern zu arbeiten. Dadurch können sie kontextbezogene Texte zu textuellen und visuellen Inhalten generieren und eröffnen so Anwendungsmöglichkeiten in der Bildunterschriftung, Inhaltszusammenfassung und vielem mehr.
Anpassung und Feinabstimmung
RAG-Modelle lassen sich an spezifische Domänen oder Anwendungsfälle anpassen. Diese Anpassungsfähigkeit macht sie für verschiedene Anwendungen geeignet, darunter domänenspezifische Chatbots, Kundensupport und Informationsabfragesysteme.
Mensch-KI-Kollaboration
RAG-Modelle können Menschen bei der Informationssuche unterstützen, indem sie relevante Informationen aus einer Wissensbasis schnell zusammenfassen und präsentieren, wodurch der Zeit- und Arbeitsaufwand für die manuelle Suche reduziert wird.
Feinabstimmung vs. Abrufgestützte Generierung
Typischerweise kann ein Grundlagenmodell neues Wissen durch zwei primäre Methoden erlangen:
- Feinabstimmung: Dieser Prozess erfordert die Anpassung vortrainierter Modelle anhand eines Trainingsdatensatzes und der Modellgewichte.
- RAG: Diese Methode führt Wissen durch Modelleingaben ein oder fügt Informationen in ein Kontextfenster ein.
Feinabstimmung ist ein gängiger Ansatz. Sie wird jedoch nicht zur Verbesserung des Faktenwissens empfohlen, sondern vielmehr zur Optimierung der Leistung bei spezialisierten Aufgaben. Hier ein umfassender Vergleich der beiden Ansätze:
Haftungsausschluss
RAG ist ein aufstrebendes Feld, weshalb es nur wenige Quellen gibt, die diese Tools und Frameworks kategorisieren können. Daher stützte sich AIMultiple bei der Kategorisierung auf öffentliche Herstellerangaben. AIMultiple wird diese Herstellerliste und Kategorisierung mit dem Wachstum des Marktes verbessern.
Die oben aufgeführten RAG-Modelle und -Bibliotheken sind auf dieser Seite alphabetisch sortiert, da AIMultiple derzeit keinen Zugriff auf relevantere Kennzahlen hat, um diese Unternehmen zu bewerten.
Die Anbieterlisten sind nicht vollständig.
Weiterführende Literatur
Entdecken Sie die neuesten Entwicklungen zu LLMs und LLMOps, indem Sie Folgendes besuchen:
- Vergleich von über 10 LLMOps-Tools: Ein umfassender Anbietervergleich
- Vergleich der Top 20+ KI-Governance-Tools: Ein Anbietervergleich
- Einbettungsmodelle: OpenAI vs Gemini vs Cohere
- Hybrid RAG: Steigerung der RAG-Genauigkeit
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.