Intelligentere Modelle haben oft ein schlechteres Gedächtnis. Wir testeten 26 große Sprachmodelle in einer Geschäftskonversation mit 32 Nachrichten, um herauszufinden, welche tatsächlich Informationen behalten.
Ergebnisse des KI-Speicher-Benchmarks
Wir testeten 26 gängige große Sprachmodelle anhand einer simulierten Geschäftskonversation mit 32 Nachrichten und 43 Fragen. Unser Benchmark bewertete drei Schlüsselmetriken: Gedächtnisleistung, Qualität des logischen Denkens und Halluzinationserkennung. Hierfür verwendeten wir einen komplexen fiktiven Datensatz mit benutzerdefinierten Emissionsfaktoren und 847 Lieferantendatensätzen. Um zu messen, wie gut die Modelle spezifische Informationen über längere Interaktionen hinweg abrufen und anwenden können, integrierten wir Interferenztests und Impulskontrollen in die Konversation.
Einzelheiten zu den verwendeten Fragen und Kennzahlen finden Sie in der Methodik .
Ausschlusskriterium für GPT-5: GPT-5 lieferte leere Ergebnisse, wenn die Kontextgrenzen erreicht wurden. Eine Reduzierung der Batchgröße, um dieses Problem zu umgehen, hätte Vergleiche mit anderen Modellen ungültig gemacht.
Erkenntnisse über das KI-Gedächtnis
Bei den 26 getesteten Modellen zeigten sich zwei übereinstimmende Muster. Modelle mit logischem Denken schnitten bei Gedächtnisaufgaben schlechter ab als Standardmodelle vergleichbarer Größe. Kleinere Modelle waren größeren bei Gedächtnisaufgaben überlegen. Eine 2025 auf der ACL-Konferenz veröffentlichte Arbeit zur Entflechtung von Gedächtnis und logischem Denken in LLMs liefert eine formale Grundlage für diesen Zielkonflikt: Ein auf logisches Denken optimiertes Training verringert die Fähigkeit des Modells, spezifische Fakten zu speichern. 1
Warum haben große Modelle Speicherprobleme?
Größere Modelle generieren längere Antworten, die ungefragten Kontext und Erläuterungen enthalten. Dadurch wird der Kontextfensterplatz schneller belegt, selbst wenn das Fenster selbst größer ist, sodass weniger Raum für frühere Gesprächsinhalte bleibt. Kleinere Modelle liefern fokussiertere Antworten, sparen Speicherplatz und erweitern den Erinnerungsbereich des Modells.
Es gibt auch eine strukturelle Einschränkung: Transformer-Modelle kodieren Wissen in statischen Gewichtsmatrizen. Die Aktualisierung dieser Gewichte, um neue Informationen zu lernen, stört zuvor gelernte Muster – ein Phänomen, das als katastrophales Vergessen bezeichnet wird.
Eine kürzlich in Nature Communications veröffentlichte Studie liefert differenziertere Erkenntnisse: Lernlernsysteme speichern Trainingsdaten nicht nur durch exakte Wiederholung, sondern auch durch das Zusammensetzen von Bruchstücken aus unscharfen Duplikaten – ein Prozess, den die Autoren als „Mosaikgedächtnis“ bezeichnen. Die Speicherung erfolgt vorwiegend syntaktisch und weniger semantisch, was Auswirkungen darauf hat, wie gewichtetes Wissen bei Aktualisierungen abnimmt. 2
Architekturansätze zur Überwindung dieser Grenzen
Vier Forschungsrichtungen, die Ende 2025 und Anfang 2026 veröffentlicht wurden, zielen auf die oben genannten Speicherbeschränkungen ab:
- Google Titans + MIRAS führt ein neuronales Langzeitgedächtnismodul ein, das die Speicherung anhand einer „Überraschungsmetrik“ priorisiert; unerwartete Informationen werden eher behalten, was der menschlichen Tendenz zu ungewöhnlichen Ereignissen entspricht. Das MIRAS-Framework bietet einen theoretischen Rahmen, der Titans mit abgeleiteten Architekturen (Moneta, Yaad, Memora) vereint, die jeweils unterschiedliche Regeln für die Speicherung und Aktualisierung von Daten erforschen. 3
- Google Nested Learning betrachtet ein Modell nicht als einzelnen Optimierungsprozess, sondern als Hierarchie verschachtelter Teilprozesse, die sich mit unterschiedlichen Frequenzen aktualisieren. Die Proof-of-Concept-Architektur Hope implementiert ein kontinuierliches Speichersystem mit schnellen, mittleren und langsamen Speicherbereichen. Hope übertraf Standard-Transformer und Mamba2 bei Sprachmodellierung, Common-Sense-Reasoning und Aufgaben zur Suche der Nadel im Heuhaufen mit langem Kontext. 4
- DeepSeek Engram führt ein bedingtes Speichermodul ein, das statisches Musterabrufen von dynamischem Schließen trennt. DeepSeek ermittelte eine optimale Speicheraufteilung von 75 % für dynamisches Schließen und 25 % für statischen Speicher. Eine 100-Byte-Parameter-Einbettungstabelle kann mit einem Inferenz-Overhead von unter 3 % auf den Host-DRAM ausgelagert werden. Die Genauigkeit komplexer Schlussfolgerungs-Benchmarks verbesserte sich in Tests wie BigBench Hard, ARC-Challenge und MMLU von 70 % auf 74 %. 5
- Stanford/NVIDIA TTT-E2E definiert die Modellierung von Sprachen mit langem Kontext als kontinuierliches Lernproblem neu. Anstatt Token in einem Key-Value-Speicher zu speichern, komprimiert das Modell den Kontext während der Inferenz durch die Vorhersage des nächsten Tokens in seine eigenen Gewichte. Bei 128.000 Token ist TTT-E2E auf der NVIDIA H100 2,7-mal schneller als Full Attention; bei 2 Millionen Token sogar 35-mal schneller bei gleicher Genauigkeit. Die Inferenzlatenz bleibt unabhängig von der Kontextlänge konstant – eine Eigenschaft, die bisher nur bei RNNs beobachtet wurde. 6
Wie lässt sich das Verhältnis zwischen Intelligenz, Halluzinationsrate und Gedächtnis optimieren?
Unsere Benchmarks für KI-Halluzinationen und Gedächtnisleistung korrelieren nicht perfekt. Wenn Sie ein Modell suchen, das keine Halluzinationen erzeugt UND sich gut erinnert, finden Sie den optimalen Punkt in diesem Diagramm im oberen rechten Bereich.
Methodik für KI-Speicher-Benchmarks
Fragetypen (insgesamt 43 in 32 Nachrichten)
Einfache Frage: „Wie hoch ist unser Anteil an recyceltem Kunststoff?“
Tests: Reine Retention
Speicher + Berechnung: „Berechnen Sie die Emissionen für 18.500 kg recycelten Kunststoff.“
Tests: Ob das Modell gespeicherte Informationen korrekt anwendet
Gedächtnisstörung: Zwischen der Bestätigung einer Tatsache und der erneuten Abfrage werden themenfremde Fragen eingefügt.
Tests: Belastbarkeit gegenüber kognitivem Druck
Zusammenfassende Diskussionszusammenfassung: „Erstellen Sie ein dreijähriges ROI-Modell, das die Bepreisung von CO2-Emissionen, die Vorteile der Cloud-Migration und die Einsparungen durch hybride Arbeitsmodelle kombiniert.“
Tests: Informationen aus dem gesamten Gespräch extrahieren
Der Datensatz
Wir haben ein fiktives Elektronikfertigungsunternehmen mit 450 Mitarbeitern erstellt. Der Datensatz umfasst:
- Benutzerdefinierte Emissionsdaten aus einer Lebenszyklusanalyse (LCA) einer fiktiven McKinsey-Studie im Wert von 2,3 Millionen US-Dollar
- 847 Lieferanten mit EcoVadis-Bewertungen und wissenschaftsbasierten Zielvorgaben
- Operative Kennzahlen (Auswirkungen von Hybridarbeit, Konferenzkosten, Softwarelizenzen)
- Drei Standorte: Austin (180 Mitarbeiter), Denver (150), Portland (120)
- 3,2 Millionen Dollar Nachhaltigkeitsbudget in fünf Kategorien
Der Datensatz ist intern konsistent, aber nicht öffentlich zugänglich. Er ist komplex genug, um eine Synthese über mehrere Geschäftsbereiche hinweg zu erfordern, und spezifisch genug, dass Modelle nicht einfach online nach Antworten suchen können; sie müssen sich die Informationen tatsächlich merken.
Erfolgsmessung
Für eine optimale Leistung ist Folgendes erforderlich:
- Unter Berücksichtigung aller kundenspezifischen Faktoren (nicht der Branchenstandards: recycelter Kunststoff hat in unserem Datensatz 1,2 kg CO₂e/kg, nicht die branchenüblichen 0,6-0,9).
- Alle Interferenztests ohne Leistungseinbußen durchführen
- Synthese komplexer Szenarien unter Verwendung spezifischer Details aus dem vollständigen Gespräch
Bewertungsmetriken
1. Speichermetriken
- Faktorgenauigkeit: Verwendet kundenspezifische 1,2 kg CO₂e/kg im Vergleich zu branchenüblichen 0,6–0,9 kg.
- Aufbewahrungszeitpunkt: Wann versagt der Speicher?
- Störungsresistenz: Leistung nach ablenkenden Fragen
2. Argumentationsqualität
- Synthese: Integration von Informationen aus verschiedenen Gesprächsteilen
- Rechengenauigkeit: Korrekte Verwendung von Faktoren in Gleichungen
- Kontextpflege: Lieferanten, Zeitpläne und Kosten verfolgen
3. Halluzinationserkennung
- Zahlenfälschung: Erfindet Zahlen vs. erinnert sich an tatsächliche Zahlen
- Konfidenzkalibrierung: Sicher falsch vs. unsicher richtig
- Allgemeine Ausweichlösung: Gesprächsdetails vs. Geschäftsklischees
KI-Speicher: So funktioniert er
Der Begriff „KI-Speicher“ bezeichnet die Mechanismen, mit denen Modelle Informationen innerhalb einer Konversation oder über mehrere Sitzungen hinweg speichern, abrufen und anwenden. Er ist der entscheidende Faktor dafür, ob ein Modell eine Information von der dritten bis zur dreißigsten Nachricht unverändert beibehalten oder verfälschen kann und ob es auf eine Nutzerpräferenz aus einer Sitzung zugreifen kann, die Wochen zurückliegt.
Die Forschungsgemeinschaft unterscheidet vier Speichertypen anhand des Speicherorts, der Persistenz, des Schreibpfads und der Zugriffsmethode. 7
Das parametrische Gedächtnis ist Wissen, das während des Vortrainings und der Feinabstimmung in die Gewichte des Modells kodiert wird. Es ist ohne Abruf stets verfügbar, aber statisch; es kann nur durch erneutes Training aktualisiert werden. Zudem ist es überwiegend syntaktisch: Eine Studie aus Nature Communications vom Januar 2026 ergab, dass LLMs Trainingsdaten speichern, indem sie Fragmente aus ähnlichen Sequenzen zusammensetzen, anstatt Fakten als diskrete Einheiten zu speichern. Dies bedeutet, dass der parametrische Abruf für präzise Zahlen weniger zuverlässig ist, als es zunächst scheint. 8
Das Kontextgedächtnis (Kurzzeitgedächtnis) umfasst die Inhalte, die während einer Sitzung im aktiven Kontextfenster gespeichert werden. Es beinhaltet die letzten Interaktionen, festgelegte Parameter und den Gesprächsverlauf bis zum Ende des Fensters. Sobald das Fenster voll ist, werden ältere Inhalte verworfen oder komprimiert. Eine Studie aus dem Januar 2026 zu maximal effektiven Kontextfenstern ergab, dass die meisten Modelle in der Praxis deutlich unter ihren beworbenen Grenzwerten liegen. Einige Modelle weisen bereits nach 1.000 Tokens eine signifikante Leistungsverschlechterung auf, und fast alle erreichen unter realen Bedingungen mehr als 99 % weniger als ihr architektonisches Maximum. 9
Externer (abruferweiterter) Speicher speichert Daten in Vektordatenbanken oder strukturierten Speichern außerhalb des Modells. Das Modell fragt diese während der Inferenz ab und integriert die abgerufenen Inhalte in das Kontextfenster. Dadurch wird das Problem der Kontextlänge vermieden und der Speicher kann ohne erneutes Training aktualisiert werden. Untersuchungen von Mem0 im Rahmen des LOCOMO-Benchmarks ergaben, dass der abruferweiterte Speicher eine um 26 % höhere Antwortgenauigkeit als die native Speicherfunktion von OpenAI (66,9 % vs. 52,9 %) erreichte und gleichzeitig die p95-Abruflatenz um 91 % und den Tokenverbrauch im Vergleich zu Methoden mit vollständigem Kontext um 90 % reduzierte. 10
Das prozedurale und episodische Gedächtnis umfasst aufgabenspezifisches Wissen und die sitzungsübergreifende Interaktionshistorie: Was wurde dem Modell aufgetragen, wie wurden frühere Aufgaben gelöst und welche Präferenzen oder Einschränkungen wurden vom Benutzer im Laufe der Zeit angegeben. Dieser Typ ist der am wenigsten standardisierte der vier und wird typischerweise durch Agenten-Frameworks implementiert, die strukturierte Protokolle oder Wissensgraphen sitzungsübergreifend verwalten.
Natives vs. abruferweitertes Gedächtnis
Der native Speicher erweitert das Kontextfenster, um mehr Gesprächsverlauf zu speichern. Die Kosten für die Inferenz steigen quadratisch mit der Kontextlänge bei Standardaufmerksamkeit und linear bei effizienteren Varianten. Sie verschlechtert sich, sobald die Kapazität erreicht ist; Inhalte werden verworfen, anstatt zusammengefasst zu werden, es sei denn, ein expliziter Komprimierungsschritt wird hinzugefügt.
Retrieval-augmented Memory (RAG) speichert Langzeitdaten extern und ruft relevante Datensätze zum Abfragezeitpunkt ab. Es skaliert unabhängig von der Modellarchitektur und ermöglicht selektiven Abruf, anstatt alle vorherigen Inhalte im aktiven Fenster zu halten. Der Nachteil besteht in der Abrufverzögerung und dem Risiko, Kontext zu verpassen, der nicht oder ungenau indiziert wurde.
Hybridsysteme kombinieren beide Ebenen: den nativen Kontext für die aktuelle Sitzung und die Abfrage historischer Daten. Der TTT-E2E-Ansatz von NVIDIA und Stanford (Januar 2026) schlägt einen dritten Weg vor, der den Kontext während der Inferenzzeit direkt in die Modellgewichte komprimiert, indem er die Vorhersage des nächsten Tokens nutzt. Dadurch wird eine konstante Inferenzlatenz unabhängig von der Kontextlänge erreicht, während gleichzeitig eine Genauigkeit erzielt wird, die mit voller Aufmerksamkeit vergleichbar ist. Die Forscher schlagen vor, dass TTT-E2E und RAG als komplementäre Ebenen fungieren: TTT-E2E für ein umfassendes Kontextverständnis, RAG für die präzise Faktenabfrage. 11
FAQs
Der Begriff „KI-Gedächtnis“ bezeichnet die Fähigkeit von Systemen künstlicher Intelligenz, relevante Informationen aus vergangenen Interaktionen sowohl im Kurzzeitgedächtnis (innerhalb einer einzelnen Sitzung) als auch im Langzeitgedächtnis (über externe Datenspeicher) zu speichern, abzurufen und zu nutzen. Im Gegensatz zum menschlichen Gedächtnis (das auf neuronalen Netzen beruht, die durch vergangene Erfahrungen geprägt sind) verwenden KI-Gedächtnissysteme strukturierte Abrufmechanismen und angesammeltes Wissen, um den Kontext zu erhalten und spezifische Details konsistent abzurufen.
Moderne KI-Modelle integrieren historische Daten und Nutzerpräferenzen, um kontextbezogene Gespräche zu ermöglichen und gleichzeitig durch strenge Datenspeicherungsprotokolle, Verschlüsselung und Nutzerkontrolle Transparenz zu gewährleisten. Ethische Überlegungen und klare Einwilligungsmechanismen ermöglichen es Nutzern, gespeicherte Daten einzusehen, zu ändern oder zu löschen. So werden personalisierte Interaktionen sichergestellt, ohne die Privatsphäre zu beeinträchtigen.
Durch das Erkennen von Mustern in jüngsten Interaktionen und das Abrufen von Erfahrungen können KI-Modelle personalisierte Antworten geben und relevante Informationen bereitstellen, die sich wie ein natürlicher, persönlicher KI-Assistent anfühlen. Dieser adaptive Lernansatz, kombiniert mit effizienten Token-Nutzungs- und Abrufmechanismen, ermöglicht es KI-Anwendungen, präzisere, energieeffizientere und wirkungsvollere Erkenntnisse für spezifische Aufgaben zu liefern.
Weiterführende Literatur
- Kognitive Agenten: Ein Bewusstsein erschaffen mit LangChain
- Die 5 besten Open-Source-Frameworks für agentenbasierte KI
- KI-Apps mit MCP-Speicher-Benchmark & Tutorial
- Codeausführung mit MCP: Ein neuer Ansatz zur Steigerung der Effizienz von KI-Agenten
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.