Retrieval-Augmented Generation (RAG) is a technique that combines retrieval-based methods with generative models to enhance information retrieval and response generation.Explore more on retrieval-augmented generation technique and common models.

An agent is a computer program designed to observe its environment, make decisions, and execute actions autonomously to achieve specific objectives without direct human intervention.Usage in AI SystemsAgents are used to automate tasks, optimize processes, and make intelligent decisions in dynamic environments. Depending on their complexity, agents can range from simple rule-based systems to advanced models using learning techniques.Types of AgentsReactive Agents: Operate based on the current state of the environment and follow predefined rules, without using past experiences.Cognitive Agents: Store past experiences and use them to analyze patterns and make decisions, enabling learning from previous interactions.Collaborative Agents: Interact with other agents or systems to achieve shared goals, often within multi-agent systems where coordination and information sharing are key.

Is agentic RAG better?

Agentic RAG can be better for tasks requiring more dynamic, context-aware decision-making and iterative interactions, but its effectiveness depends on the specific use case and implementation needs.

What is the difference between vanilla RAG and agentic RAG?

Vanilla RAG passively retrieves and generates answers based on a static query-response model, while agentic RAG incorporates iterative processes, decision-making, and dynamic interactions to refine responses or handle complex tasks.

KI LAPPEN

Top 20+ Agentic RAG Frameworks

Cem Dilmegani

mit

Ekrem Sarı

aktualisiert am Feb 20, 2026

Siehe unsere ethischen Normen

Agentic RAG verbessert das traditionelle RAG durch eine höhere LLM-Performance und ermöglicht eine stärkere Spezialisierung. Wir haben einen Benchmark durchgeführt, um die Performance beim Routing zwischen mehreren Datenbanken und bei der Generierung von Abfragen zu bewerten.

Erkunden Sie agentenbasierte RAG-Frameworks und -Bibliotheken , die wichtigsten Unterschiede zum Standard-RAG, Vorteile und Herausforderungen, um ihr volles Potenzial auszuschöpfen.

Agentic RAG Benchmark: Multi-Datenbank-Routing und Abfragegenerierung

Wir haben unsere agentenbasierte RAG-Benchmark-Methodik verwendet, um die Fähigkeit des Systems zu demonstrieren, die richtige Datenbank aus einem Satz von fünf verschiedenen Datenbanken auszuwählen, von denen jede einzigartige Kontextinformationen enthält, und semantisch korrekte SQL-Abfragen zu generieren, um die richtigen Daten abzurufen:

Loading Chart

Im agentenbasierten RAG-Benchmark verwendeten wir:

Agenten-Framework: Langchain
Vektordatenbank: ChromaDB

In vielen realen Unternehmensszenarien sind Daten häufig auf mehrere Datenbanken verteilt, die jeweils spezialisierte Informationen für bestimmte Bereiche oder Aufgaben enthalten. Beispielsweise speichert eine Datenbank Finanzdaten, während eine andere Kundendaten oder Bestandsdetails enthält.

Ein effektives Agentic-RAG-System muss die Anfrage eines Benutzers intelligent an die relevanteste Datenbank weiterleiten, um präzise Informationen abzurufen. Dieser Prozess umfasst die Analyse der Anfrage, das Verständnis des Kontextes und die Auswahl der passenden Datenquelle aus einer Reihe verfügbarer Datenbanken.

Abbildung 1: Übersicht über das Agentic RAG-System, das eine Anfrage an eine von fünf verschiedenen Datenbanken weiterleitet

Denkprozess des Agenten

Kern eines agentenbasierten RAG-Systems ist die Fähigkeit des LLM, autonom zu argumentieren und zu handeln, um ein Ziel zu erreichen. Unser funktionsaufrufbasierter Ansatz ermöglicht es Modellen, durch selbstgesteuerte Datenbankauswahl und iterative Informationssammlung echtes agentenbasiertes Verhalten zu demonstrieren.

Abbildung 2: Denkprozess des agentischen RAG-Systems.

Autonome Entscheidungsfindung : Der Agent analysiert die eingehende Benutzeranfrage und bestimmt selbstständig, welche Datenbankfunktion basierend auf dem Anfragekontext und den verfügbaren Funktionsbeschreibungen aufgerufen werden soll. Dieser Entscheidungsprozess erfolgt ohne vorgegebene Routing-Regeln und demonstriert somit echte logische Fähigkeiten.

Mehrstufige Ausführung : Der Agent führt typischerweise mehrere Funktionsaufrufe nacheinander aus, zunächst um die relevante Datenbank zu identifizieren und darauf zuzugreifen, dann um detaillierte Schemainformationen zu sammeln und schließlich um sein Verständnis zu verfeinern, bevor er die SQL-Abfrage generiert. Dieser iterative Prozess spiegelt menschliche Problemlösungsansätze wider.

Selbstkorrekturfähigkeit : Wenn die ersten Funktionsaufrufe nicht genügend Informationen liefern, kann der Agent autonom entscheiden, zusätzliche Aufrufe mit verfeinerten Parametern durchzuführen. Dies zeigt ein adaptives Verhalten, das über einfache Abrufsysteme hinausgeht.

Zielgerichtetes Verhalten : Während des gesamten Prozesses konzentriert sich der Agent darauf, eine genaue SQL-Abfrage zu generieren und nutzt das Ergebnis jedes Funktionsaufrufs, um nachfolgende Entscheidungen und Aktionen zu treffen.

Dieses autonome, mehrstufige Interaktionsmuster unterscheidet agentenbasierte RAG-Systeme grundlegend von traditionellen RAG-Systemen, die vorgegebenen Pfaden und einmaligen Abrufmechanismen folgen.

Agentic RAG Benchmark-Methodik

Dieser Benchmark bewertet die Fähigkeit großer Sprachmodelle (LLMs), als autonome Agenten innerhalb einer Retrieval-Augmented Generation (RAG)-Pipeline zu fungieren. Konkret misst er zwei Kernkompetenzen:

Datenbank-Routing: Die Fähigkeit des Agenten, bei Beantwortung einer natürlichsprachlichen Frage aus mehreren Kandidaten die relevanteste Datenbank korrekt zu identifizieren und auszuwählen.
SQL-Generierung: Die Fähigkeit des Agenten, eine präzise SQL-Abfrage anhand des Schemas der ausgewählten Datenbank zu generieren.

Datensatz

Der Benchmark verwendet den BIRD-SQL-Datensatz. ¹ -SQL ist ein weit verbreiteter akademischer Benchmark für Text-zu-SQL-Aufgaben. Er stellt Fragen in natürlicher Sprache zusammen mit Referenzdatenbankbezeichnern und standardisierten SQL-Abfragen und eignet sich daher ideal zur Bewertung sowohl der Routing-Genauigkeit als auch der Qualität der Abfragegenerierung.

Aus dem vollständigen BIRD-SQL-Datensatz haben wir eine Teilmenge von 500 Fragen zusammengestellt, die sich auf fünf verschiedene Datenbanken verteilen und diverse Bereiche abdecken:

Jede Frage hat genau eine korrekte Zieldatenbank. Die Antwort auf jede Frage befindet sich nur in einer bestimmten Datenbank, weshalb der Agent eine eindeutige Routing-Entscheidung treffen muss.

Herausforderung der semantischen Mehrdeutigkeit

Um die Denkfähigkeit des Agenten über die oberflächliche Übereinstimmung von Schlüsselwörtern hinaus zu bewerten, haben wir die datenbankübergreifende semantische Ähnlichkeit als bewussten Störfaktor bei der Fragenauswahl eingeführt.

Auswahlverfahren für die Fragen:

Alle Kandidatenfragen aus den fünf Datenbanken wurden mithilfe von Satztransformatoren eingebettet (all-MiniLM-L6-v2).
Es wurden datenbankübergreifende Fragenpaare berechnet und nach Kosinusähnlichkeit geordnet.
Fragen mit datenbankübergreifenden Kosinusähnlichkeitswerten über 0,70 wurden bewusst priorisiert, um in die Analyse einbezogen zu werden. Dadurch entstehen Szenarien, in denen semantisch ähnliche Fragen zu völlig unterschiedlichen Datenbanken gehören.

Beispiel für semantische Verwirrung:

Frage A (finanzielle Datenbank): „Wie hoch ist die Steigerungsrate des Kontostands des Kunden, dessen Kredit am 05.07.1993 erstmals bewilligt wurde, vom 22.03.1993 bis zum 27.12.1998?“

Frage B (debit_card DB): „Wie hoch war die Rückgangsrate des Konsums von 2012 auf 2013 für den Kunden, der am 25.08.2012 634,8 bezahlt hat?“

Beide Anfragen folgen nahezu identischen semantischen Mustern: Sie identifizieren einen bestimmten Kunden anhand einer Transaktion und berechnen anschließend die Zinsänderung über einen bestimmten Zeitraum. Die benötigten Datenbanken unterscheiden sich jedoch grundlegend; die eine benötigt Kredit- und Kontodaten, die andere Transaktions- und Verbrauchsdaten. Dies zwingt den Agenten zu einer tiefergehenden Kontextanalyse der Daten, anstatt sich auf oberflächliche Finanz-Schlüsselwörter zu verlassen, die zu beiden Datenbanken passen würden.

Datenbankumgebung

Das Schema und eine kurze Beschreibung in natürlicher Sprache jeder Datenbank wurden in ChromaDB gespeichert, einer Vektordatenbank für effiziente semantische Suche. Die Sammlung jeder Datenbank enthält:

Eine allgemeine Beschreibung des Anwendungsbereichs und des Zwecks der Datenbank.
Tabellenspezifische Schemadokumente, einschließlich Spaltennamen, Datentypen und Wertbeschreibungen

Diese Konfiguration ermöglicht es dem Agenten, nach Auswahl einer Zieldatenbank relevante Schemainformationen mittels semantischer Suche abzurufen.

Agentenarchitektur

Um einen fairen und standardisierten Vergleich zu gewährleisten, wurde für alle Modelle eine funktionsaufrufbasierte Agentenarchitektur eingesetzt. Jede der fünf Datenbanken wurde als separate aufrufbare Funktion (Werkzeug) mit standardisierten Parametern repräsentiert. Dieses Design nutzt die nativen Funktionsaufruffähigkeiten jedes Modells und ermöglicht es den Modellen, autonom zu agieren.

Analysieren Sie die eingehende Frage
Wählen Sie die entsprechende Datenbankfunktion aus und rufen Sie sie auf.
Empfange Schemainformationen als Funktionsantwort
Optional können zusätzliche Funktionen zur Verfeinerung aufgerufen werden.
Generieren Sie die endgültige SQL-Abfrage.

Dieser Ansatz gewährleistet eine einheitliche Bewertungsmethodik über verschiedene Modellfamilien hinweg, einschließlich traditioneller Modelle und auf logisches Denken optimierter Modelle.

Agentischer Prozessablauf

Das System implementiert eine echte, mehrstufige Agentenschleife anstelle einer festen Pipeline:

Frageanalyse: Der Agent erhält die natürlichsprachliche Frage zusammen mit Beschreibungen aller fünf verfügbaren Datenbankfunktionen.
Datenbankauswahl (Toolaufruf): Der Agent wählt selbstständig die Datenbankfunktion aus, die er für relevant hält, und ruft sie auf. Es handelt sich um einen echten Funktionsaufruf; der Agent erhält das Schema als strukturierte Tool-Antwort innerhalb desselben Gesprächskontexts.
Schema-Schlussfolgerung: Der Agent beobachtet das zurückgegebene Schema und schlussfolgert, welche Tabellen und Spalten für die Frage relevant sind.
Optionale Wiederherstellung: Falls der Agent feststellt, dass die ausgewählte Datenbank die erforderlichen Informationen nicht enthält, kann er eine andere Datenbankfunktion aufrufen, die eine Selbstkorrektur ohne externes Eingreifen ermöglicht.
SQL-Generierung: Basierend auf dem gesammelten Kontext (Frage + Schemabeobachtung) erzeugt der Agent die endgültige SQL-Abfrage.

Dieser mehrstufige Dialogablauf unterscheidet den Benchmark von herkömmlichen, sequenziellen RAG-Ansätzen. Der Agent behält den vollständigen Kontext über alle Dialogrunden hinweg bei, kann die Folgen seiner Aktionen beobachten und sein Vorgehen iterativ verfeinern – Kennzeichen echten agentengesteuerten Verhaltens.

Wichtigste architektonische Merkmale:

Die Konversation ist kontinuierlich, der Agent sieht seine eigenen vorherigen Schlussfolgerungen und Werkzeugreaktionen.
Es werden keine künstlichen Wendebegrenzungen auferlegt; der Agent entscheidet, wann er über ausreichende Informationen verfügt.
Sowohl die Datenbankauswahl als auch die SQL-Generierung erfolgen innerhalb derselben Agentensitzung.
Die Anzahl der Tool-Aufrufe pro Frage wird als zusätzliche Kennzahl zur Analyse der Agenteneffizienz erfasst.

Evaluierungsprozess

Für jede Frage im Benchmark:

Schritt 1: Auswertung des Datenbank-Routings

Der erste Datenbankfunktionsaufruf des Agenten wird als dessen Routing-Entscheidung protokolliert. Diese wird mit den in der BIRD-SQL-Datenbank definierten Referenzdaten verglichen.

Kennzahl: Genauigkeit der Datenbankweiterleitung (Prozentsatz der korrekten Antworten im Verhältnis zur Gesamtzahl der Fragen)

Schritt 2: Bewertung der SQL-Qualität

Die vom Agenten generierte SQL-Abfrage wird mithilfe eines LLM-als-Judge-Ansatzes bewertet. Ein separates Judge-Modell (Claude 4 Sonnet) erhält sowohl die vom Agenten generierte SQL-Abfrage als auch die BIRD-SQL-Referenz-SQL-Abfrage und vergibt einen semantischen Ähnlichkeitswert auf einer Skala von 0 bis 5:

Wichtige Designentscheidung: Die SQL-Qualität wird nur dann bewertet, wenn der Agent die korrekte Datenbank auswählt. Wählt der Agent die falsche Datenbank aus, erhält er automatisch den Wert 0, da eine SQL-Abfrage gegen das falsche Schema sinnlos ist. Dadurch wird sichergestellt, dass die SQL-Qualitätsmetrik ausschließlich die Fähigkeit zur Abfragegenerierung widerspiegelt und nicht durch Routing-Fehler verfälscht wird.

Kennzahlen:

Durchschnittlicher SQL-Qualitätswert (von 5,0), berechnet nur für korrekt weitergeleitete Fragen
Trefferquote: Prozentsatz der korrekt weitergeleiteten Fragen mit der Höchstpunktzahl 5/5

Kontrollierte Variablen

Um einen fairen Vergleich der Modelle zu gewährleisten:

Alle Modelle erhalten identische Systemanweisungen und Werkzeugdefinitionen.
Die Temperatur wird für deterministische Ausgaben auf 0 gesetzt.
Es werden keine modellspezifischen Prompt-Engineering-Lösungen oder Beispiele mit wenigen Wiederholungen bereitgestellt (Zero-Shot-Evaluation).
Das BIRD-SQL- Evidenzfeld (domänenspezifische Hinweise) wird in allen Modellen zur Messung des ungestützten Schließens ausgeblendet.
Alle Modelle greifen mit identischen Schemaeinbettungen auf dieselbe ChromaDB-Instanz zu.

Agentische RAG-Frameworks und Bibliotheken

Agentic RAG-Frameworks ermöglichen es KI-Systemen nicht nur, Informationen zu finden, sondern auch zu schlussfolgern, Entscheidungen zu treffen und Maßnahmen zu ergreifen. Die wichtigsten Tools und Bibliotheken für Agentic RAG:

Diese Liste enthält Werkzeuge, die folgende Kriterien erfüllen:

Mehr als 50 Sterne auf GitHub.
Häufige Verwendung in Agentic RAG-Projekten.

Beachten Sie Folgendes in der Tabelle:

Die Verwendung von Tools bezieht sich auf die native Fähigkeit eines Systems, Tools innerhalb seiner Umgebung zu routen und aufzurufen.
Der Werkzeugtyp bezieht sich auf den Haupteinsatzbereich der Werkzeuge, zum Beispiel:
- Agentic RAG-Frameworks sind speziell für den Aufbau, die Bereitstellung und die Konfiguration von Agentic RAG-Systemen konzipiert.
- Agentenbibliotheken ermöglichen die Erstellung intelligenter Agenten, die logisch denken, Entscheidungen treffen und mehrstufige Aufgaben ausführen können.
- LLMOps-Frameworks verwalten den Lebenszyklus von LLMs und optimieren den Einsatz und die Nutzung von LLMs in agentenbasierten Systemen.
- LLMs verfügen über integrierte Funktionen für den Aufruf und das Routing von Tools und ermöglichen so dynamische Entscheidungsfindung. Andere LLMs benötigen möglicherweise externe APIs oder Integrationen, um die Agentenfunktionalität zu aktivieren.
Die Überprüfung der Werkzeugnutzung und der Agententypen erfolgt über öffentliche Quellen.

Was ist das agentische RAG-Modell?

Agentic Retrieval-Augmented Generation (RAG) ist ein KI-Framework, das Retrieval-Techniken mit generativen Modellen kombiniert, um dynamische Entscheidungsfindung und Wissenssynthese zu ermöglichen. Dieser Ansatz integriert die Genauigkeit des traditionellen RAG mit den generativen Fähigkeiten fortschrittlicher KI und zielt darauf ab, die Effizienz und Effektivität KI-gestützter Aufgaben zu steigern.

Einschränkungen traditioneller RAG-Systeme

Agentic RAG zielt darauf ab, die Einschränkungen des Standard-RAG-Systems zu überwinden, wie zum Beispiel:

Schwierigkeiten bei der Informationspriorisierung : RAG-Systeme haben oft Schwierigkeiten, Daten in großen Datensätzen effizient zu verwalten und zu priorisieren, was die Gesamtleistung beeinträchtigen kann.
Begrenzte Integration von Expertenwissen : Diese Systeme bewerten spezialisierte, qualitativ hochwertige Inhalte möglicherweise unter und bevorzugen stattdessen allgemeine Informationen.
Schwaches Kontextverständnis : Obwohl sie in der Lage sind, Daten abzurufen, verstehen sie häufig nicht vollständig deren Relevanz oder wie diese mit der jeweiligen Anfrage übereinstimmen.

Abbildung 4: Agentisches RAG-Architekturdiagramm im Vergleich zum traditionellen RAG ²

Wie man ein agentisches RAG-Modell erstellt

1. Werkzeugnutzung

Router einsetzen: Im ersten Schritt werden Router verwendet, um zu entscheiden, ob Dokumente abgerufen, Berechnungen durchgeführt oder die Abfrage neu geschrieben werden soll. Dieser Ansatz erweitert die Möglichkeiten zur Entscheidungsfindung, um Anfragen an mehrere Tools weiterzuleiten und ermöglicht es großen Sprachmodellen (LLMs), die geeigneten Verarbeitungsprozesse auszuwählen.
Tool-Aufrufintegration: Dies bezieht sich auf die Erstellung einer Schnittstelle, über die Agenten eine Verbindung zu ausgewählten Tools herstellen können. Benutzer können LLMs mit Tool-Aufruffunktionen nutzen oder eigene entwickeln, um:
- Wählen Sie eine auszuführende Funktion aus.
- Leiten Sie die notwendigen Argumente für diese Funktion ab.
- Das Abfrageverständnis wird über herkömmliche RAG-Pipelines hinaus erweitert, wodurch Aufgaben wie Datenbankabfragen oder komplexe Schlussfolgerungen ermöglicht werden.

Abbildung 5: So erstellen Sie Agentic RAG durch Hinzufügen eines aufrufenden Agenten ³

2. Agentenimplementierung

Einzelaufruf-Agenten: Eine Anfrage löst einen einzelnen Aufruf an das entsprechende Tool aus, das die Antwort zurückgibt. Dies ist effektiv für einfache Aufgaben, kann aber bei unklaren oder komplexen Anfragen an seine Grenzen stoßen.
Multi-Call-Agenten: Bei diesem Ansatz werden Aufgaben auf spezialisierte Agenten aufgeteilt, wobei sich jeder Agent auf eine bestimmte Teilaufgabe konzentriert. Zum Beispiel:
- Retriever-Agent: Optimiert die Abfrageabfrage in Echtzeit.
- Manager-Agent: Übernimmt die Aufgabenverteilung und -koordination.

Abbildung 6: Multiagenten-RAG-Architektur ⁴

3. Mehrstufiges Denken

Bei komplexen Arbeitsabläufen nutzen Agenten Logikschleifen, um iterative, mehrstufige Schlussfolgerungen zu ziehen und sich dabei die Zwischenschritte zu merken. Diese Schleifen umfassen:

Mehrere Tools aufrufen.
Daten abrufen und deren Relevanz prüfen.
Abfragen bei Bedarf umschreiben.

Frameworks definieren häufig mehrere Agenten zur Bearbeitung spezifischer Teilaufgaben, um eine effiziente Ausführung des Gesamtprozesses zu gewährleisten.

Abbildung 7: Ampelsystem für mehrere Dokumente ⁵

4. Hybride Ansätze: Kombination von Abruf und Ausführung

Ein hybrider Ansatz kombiniert Abruf-Pipelines mit dynamischen Ausführungsstrategien:

Einbettungs- und vektorbasierte Abrufstrategien für den Dokumentenzugriff.
Funktionen zum Aufruf von Tools für die dynamische Abfrageauflösung.
Zusammenarbeit mehrerer Agenten für spezialisierte Teilaufgaben.

Worin besteht der Unterschied zwischen RAG und agentischem RAG?

Hier sind die Stärken und Schwächen von RAG vs. Agentic RAG aus verschiedenen Perspektiven:

Schnelle Entwicklung
- Traditionelles RAG-System: Setzt stark auf die manuelle Optimierung der Eingabeaufforderungen.
- Agentic RAG: Passt die Eingabeaufforderungen dynamisch an Kontext und Ziele an, wodurch der Bedarf an manuellen Eingriffen reduziert wird.
Kontextbewusstsein
- Traditionelles RAG: Besitzt nur begrenztes Kontextbewusstsein und stützt sich auf statische Abrufprozesse.
- Agentic RAG: Berücksichtigt den Gesprächsverlauf und passt die Abrufstrategien dynamisch an den Kontext an.
Autonomie
- Traditionelles RAG-Modell: Es mangelt an autonomen Aktionen und es kann sich nicht an sich verändernde Situationen anpassen.
- Agentic RAG: Führt Aktionen in Echtzeit durch und passt sich auf Basis von Feedback und Echtzeitbeobachtungen an.
Begründung
- Traditionelles RAG: Erfordert zusätzliche Klassifikatoren und Modelle für mehrstufige Schlussfolgerungen und den Einsatz von Werkzeugen.
- Agentic RAG: Verarbeitet mehrstufige Schlussfolgerungen intern, wodurch die Notwendigkeit externer Modelle entfällt.
Datenqualität
- Traditionelles RAG-System: Verfügt über keinen eingebauten Mechanismus zur Bewertung der Datenqualität oder zur Sicherstellung der Genauigkeit.
- Agentic RAG: Bewertet die Datenqualität und führt Nachbearbeitungsprüfungen durch, um genaue Ergebnisse zu gewährleisten.
Flexibilität
- Traditionelles RAG-System: Arbeitet mit statischen Regeln und schränkt dadurch die Anpassungsfähigkeit ein.
- Agentic RAG: Nutzt dynamische Abrufstrategien und passt seinen Ansatz je nach Bedarf an.
Abrufeffizienz
- Traditionelles RAG: Die Datenabfrage ist statisch und aufgrund von Ineffizienzen oft kostspielig.
- Agentic RAG: Optimiert Abfragen, um unnötige Operationen zu minimieren, Kosten zu senken und die Effizienz zu verbessern.
Einfachheit
- Traditionelles RAG: Bietet eine unkomplizierte Einrichtung mit weniger Konfigurationskomplexitäten.
- Agentic RAG: Beinhaltet komplexere Konfigurationen zur Unterstützung dynamischer und kontextsensitiver Operationen.
Vorhersagbarkeit
- Traditionelles RAG-System: Konsequent und regelbasiert, aber starr im Verhalten.
- Agentisches RAG-Modell: Das Verhalten kann dynamisch auf der Grundlage von Echtzeitkontext und Beobachtungen variieren.
Kosten bei Bereitstellungen
- Traditionelles RAG-System: Günstiger für einfache Konfigurationen, kann aber langfristig höhere Betriebskosten verursachen.
- Agentic RAG: Erfordert aufgrund fortschrittlicher Funktionen und dynamischer Fähigkeiten eine höhere Anfangsinvestition.

Langkontextmodelle vs. agentenbasiertes RAG: Wann der Abruf unnötig wird

Die Kontextfenster-Revolution der Jahre 2025-2026 stellt eine Kernannahme der RAG-Architektur in Frage. Modelle unterstützen nun 1-2 Millionen Tokens, was eine grundlegende Frage aufwirft: Wann ist die direkte Kontextverarbeitung komplexen Retrieval-Agenten überlegen?

Die sich verändernde Kontextlandschaft

Die Anzahl der Kontextfenster hat sich von 128.000 Tokens Anfang 2024 auf über 1 Million im Jahr 2026 drastisch erhöht. Jüngste Untersuchungen, bei denen Romane in voller Länge als Testdaten verwendet wurden, zeigen, dass diese Expansion neue architektonische Kompromisse mit sich bringt, die Ingenieure berücksichtigen müssen. ⁶

Der Rechenaufwand für die Verarbeitung massiver Kontexte muss gegen die technische Komplexität und die potenziellen Fehlerquellen von Abfragesystemen abgewogen werden. Die Verarbeitung von 1 Million Tokens macht die verlustbehaftete Komprimierung durch Chunking und Indizierung überflüssig, ist aber mit hohen Kosten pro Abfrage verbunden.

Das Problem des Abrufengpasses

Die Forschung zu längeren Dokumenten deckt eine gravierende Einschränkung traditioneller RAG-Ansätze auf. Die standardmäßige Top-k-Suche führt zu einem sogenannten „Suchengpass“: Wenn der erste Abruf den relevanten Abschnitt verfehlt, fehlt dem System ein Wiederherstellungsmechanismus.

Agentic RAG begegnet diesem Problem durch iterative Abfrageverfeinerung. Studien zeigen, dass agentenbasierte Systeme einen signifikanten Anteil der Probleme erfolgreich lösen, die bei einmaliger Abfrage vollständig scheitern. Die autonome Schleife ermöglicht es Agenten, Abfragen neu zu formulieren, wenn erste Versuche nicht genügend Informationen liefern. ⁷

Wenn Daten jedoch in erweiterte Kontextfenster passen, übertrifft die direkte Verarbeitung langer Kontexte selbst hochentwickelte agentenbasierte Suchsysteme. Dieser Leistungsunterschied entsteht, weil das Modell das gesamte Dokument gleichzeitig analysieren kann und so die bei der chunkbasierten Suche übliche Fragmentierung vermeidet.

Verschiedene Arten von Agentic RAG-Modellen

Zu den Agenten, die große Sprachmodelle (LLMs) innerhalb von Retrieval-Augmented Generation (RAG)-Frameworks nutzen, gehören:

Routing-Agent : Nutzt ein großes Sprachmodell (LLM) für agentenbasiertes Schließen, um die am besten geeignete Retrieval-Augmented-Generierung (RAG)-Pipeline (z. B. Zusammenfassung oder Fragebeantwortung) für eine gegebene Anfrage auszuwählen. Der Agent ermittelt die optimale Lösung durch Analyse der Eingabeanfrage.
One-Shot-Abfrageplanungsagent : Zerlegt komplexe Abfragen in kleinere Teilabfragen, führt diese über verschiedene RAG-Pipelines mit unterschiedlichen Datenquellen aus und kombiniert die Ergebnisse zu einer umfassenden Antwort.
Tool-Nutzungsagent : Erweitert Standard-RAG-Frameworks durch die Einbindung externer Datenquellen (z. B. APIs, Datenbanken) zur Bereitstellung zusätzlichen Kontexts. Dies ermöglicht eine angereicherte Verarbeitung von Abfragen mithilfe von LLMs.
ReAct-Agent : Integriert logisches Denken und Handeln zur Bearbeitung sequenzieller, mehrteiliger Anfragen. Er verwaltet einen Zustand im Arbeitsspeicher und ruft iterativ Tools auf, verarbeitet deren Ergebnisse und bestimmt die nächsten Schritte, bis die Anfrage vollständig gelöst ist.
Dynamischer Planungs- und Ausführungsagent : Dieser Agent ist für die Bearbeitung komplexerer Anfragen konzipiert und trennt die übergeordnete Planung von der Ausführung. Er verwendet einen LLM als Planer, um einen Berechnungsablaufplan mit den zur Beantwortung der Anfrage notwendigen Schritten zu erstellen, und setzt einen Executor ein, um diese Schritte effizient auszuführen. Der Fokus liegt auf Zuverlässigkeit, Beobachtbarkeit, Parallelisierung und Optimierung für Produktionsumgebungen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Agentic RAG Vorteile

Agentic RAG verbessert LLMs durch:

Autonomer und zielorientierter Ansatz : Im Gegensatz zum traditionellen RAG agiert Agentic RAG wie ein autonomer Agent, der Entscheidungen trifft, um definierte Ziele zu erreichen und tiefere, bedeutungsvollere Interaktionen anzustreben.
Verbesserte Kontextwahrnehmung und Sensibilität : Agentic RAG berücksichtigt dynamisch den Gesprächsverlauf, die Benutzerpräferenzen, frühere Interaktionen und den aktuellen Kontext, um relevante, fundierte Antworten und Entscheidungen zu ermöglichen.
Dynamische Suche & fortgeschrittenes Schließen : Es verwendet intelligente, auf die Anfragen zugeschnittene Suchmethoden und bewertet und überprüft gleichzeitig die Genauigkeit und Zuverlässigkeit der abgerufenen Daten.
Multiagenten-Orchestrierung : Sie koordiniert mehrere spezialisierte Agenten, zerlegt Anfragen in überschaubare Aufgaben und gewährleistet eine nahtlose Koordination, um genaue Ergebnisse zu liefern.
Erhöhte Genauigkeit durch nachträgliche Überprüfung : Agentische RAG-Modelle führen Qualitätsprüfungen an generierten Inhalten durch, um die bestmögliche Antwort zu gewährleisten und LLMs mit agentenbasierten Systemen für eine überlegene Leistung zu kombinieren.
Anpassungsfähigkeit und Lernfähigkeit : Diese Systeme lernen und verbessern sich kontinuierlich im Laufe der Zeit, steigern ihre Problemlösungsfähigkeiten, Genauigkeit und Effizienz und passen sich verschiedenen Anwendungsbereichen für spezifische Aufgaben an.
Flexible Toolnutzung : Agenten können externe Tools wie Suchmaschinen, Datenbanken oder APIs nutzen, um die Datenerfassung, -verarbeitung und -anpassung für verschiedene Anwendungen zu verbessern.

Agentische RAG-Herausforderungen

Datenqualität : Zuverlässige Ergebnisse erfordern qualitativ hochwertige, aufbereitete Daten. Herausforderungen ergeben sich bei der Integration und Verarbeitung diverser Datensätze, darunter Text- und Bilddaten, um die Anforderungen der Nutzerabfragen zu erfüllen. Auch die weiteren Datenabfrageprozesse müssen Genauigkeit und Konsistenz gewährleisten.
- Tipp: Setzen Sie automatisierte Datenbereinigungstools und KI-gestützte Datenvalidierungstechniken ein, um eine konsistente und qualitativ hochwertige Datenintegration über Text- und Bilddatensätze hinweg zu gewährleisten.
Skalierbarkeit : Die effiziente Verwaltung von Systemressourcen und Abrufprozessen ist mit zunehmender Systemgröße entscheidend. Mit steigenden Benutzeranfragen und Datenmengen stellt die Verarbeitung von Daten in Echtzeit und im Stapelbetrieb eine erhebliche Herausforderung dar.
- Tipp: Nutzen Sie skalierbare Cloud-Infrastrukturen und verteilte Rechenframeworks, um steigende Datenmengen effizient zu bewältigen. Integrieren Sie dynamischen Lastausgleich für die Echtzeit-Abfrageverarbeitung.
Erklärbarkeit: Transparenz bei Entscheidungen schafft Vertrauen. Klare Einblicke in die Generierung von Antworten auf Nutzeranfragen zu geben, insbesondere bei der Nutzung von Text- und Bilddaten, bleibt eine ständige Herausforderung.
- Tipp: Nutzen Sie KI-Erklärbarkeitstools wie SHAP oder LIME, um Modellvorhersagen interpretierbar zu machen, und integrieren Sie Visualisierungs-Dashboards, um die Begründung für die Antworten zu verdeutlichen.
Datenschutz und Sicherheit: Ein starker Datenschutz und sichere Kommunikationsprotokolle sind unerlässlich. Der Umgang mit sensiblen oder vertraulichen Daten erfordert robuste Verschlüsselungs- und Compliance-Mechanismen bei der Speicherung, dem Abruf und der Verarbeitung der Daten.
- Tipp: Setzen Sie auf Ende-zu-Ende- Verschlüsselung und Zugriffsmanagementlösungen und stellen Sie die Einhaltung von Datenschutzbestimmungen wie DSGVO oder CCPA sicher. Verwenden Sie sichere API-Gateways für den weiteren Datenabruf.
Ethische Bedenken: Die Auseinandersetzung mit Verzerrungen, Fairness und Missbrauch ist entscheidend für den verantwortungsvollen Einsatz von KI. Unvoreingenommene Antworten auf vielfältige Nutzeranfragen zu gewährleisten, bleibt ein zentraler Aspekt ethischen KI- Designs.
- Tipp: Setzen Sie verantwortungsvolle KI-Plattformen und KI-Governance-Tools ein, um KI-Verzerrungen entgegenzuwirken und dievier Leitprinzipien der KI einzuhalten.

Zukunftsaussichten

Die neuesten Forschungsergebnisse zum agentenbasierten RAG-Modell umfassen Verbesserungsbereiche wie:

Wissensgraphintegration : Verbessert das logische Denken durch die Nutzung komplexer Datenbeziehungen.
Neue Technologien : Einsatz von Werkzeugen wie Ontologien und dem semantischen Web zur Verbesserung der Systemfähigkeiten.
Spezialisierte Agentenzusammenarbeit : Agenten mit Fachkenntnissen in verschiedenen Bereichen (z. B. Vertrieb, Marketing, Finanzen) arbeiten in einem koordinierten Arbeitsablauf zusammen, um komplexe Aufgaben zu bewältigen.
Qualitätsoptimierung : Behebung von inkonsistenten Ergebnissen zur Verbesserung der Zuverlässigkeit und Präzision von Multiagentensystemen.

Weiterführende Literatur

Erkunden Sie weitere RAG-Benchmarks, wie zum Beispiel:

Änderungsprotokoll

20. Februar 2026

Dem Benchmark wurden 2 neue Modelle hinzugefügt:

Google: Gemini 3.1 Pro Vorschau (google/gemini-3.1-pro-preview)
Anthropic: Claude Sonnet 4.6 (anthropic/claude-sonnet-4.6)

10. Februar 2026

Dem Benchmark wurden 2 neue Modelle hinzugefügt:

Claude Opus 4.6 (anthropic/claude-opus-4.6)
Kimi K2.5 (moonshotai/kimi-k2.5)

FAQs

Retrieval-Augmented Generation (RAG) ist eine Technik, die abrufbasierte Methoden mit generativen Modellen kombiniert, um den Informationsabruf und die Antwortgenerierung zu verbessern.

Erfahren Sie mehr über die Retrieval-gestützte Generierungstechnik und gängige Modelle.

Ein Agent ist ein Computerprogramm, das so konzipiert ist, dass es seine Umgebung beobachtet, Entscheidungen trifft und Aktionen autonom ausführt, um bestimmte Ziele ohne direkte menschliche Intervention zu erreichen.

Verwendung in KI-Systemen
Agenten werden eingesetzt, um Aufgaben zu automatisieren, Prozesse zu optimieren und in dynamischen Umgebungen intelligente Entscheidungen zu treffen. Je nach Komplexität reichen Agenten von einfachen regelbasierten Systemen bis hin zu fortgeschrittenen Modellen, die Lernverfahren nutzen.

Agententypen
Reaktive Agenten : Sie agieren auf der Grundlage des aktuellen Zustands der Umgebung und befolgen vordefinierte Regeln, ohne auf vergangene Erfahrungen zurückzugreifen.
Kognitive Agenten : Sie speichern vergangene Erfahrungen und nutzen diese, um Muster zu analysieren und Entscheidungen zu treffen, wodurch das Lernen aus früheren Interaktionen ermöglicht wird.
Kollaborative Agenten : Interagieren mit anderen Agenten oder Systemen, um gemeinsame Ziele zu erreichen, oft innerhalb von Multiagentensystemen, in denen Koordination und Informationsaustausch von zentraler Bedeutung sind.

Agentic RAG eignet sich besser für Aufgaben, die eine dynamischere, kontextsensitive Entscheidungsfindung und iterative Interaktionen erfordern, seine Effektivität hängt jedoch vom jeweiligen Anwendungsfall und den Implementierungsanforderungen ab.

Vanilla RAG ruft passiv Antworten ab und generiert sie auf der Grundlage eines statischen Anfrage-Antwort-Modells, während agentic RAG iterative Prozesse, Entscheidungsfindung und dynamische Interaktionen einbezieht, um Antworten zu verfeinern oder komplexe Aufgaben zu bewältigen.

Referenzlinks

[2305.03111] Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

Agentic RAG: Revolutionizing AI with Data Accuracy & Precision

Multi-agent RAG System 🤖🤝🤖 · Hugging Face

[2601.09723] SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von