Kontaktieren Sie uns
Keine Ergebnisse gefunden.

KI-Halluzination: Vergleiche Top-LLMs wie GPT-5.2

Cem Dilmegani
Cem Dilmegani
aktualisiert am Apr 20, 2026
Siehe unsere ethischen Normen

KI-Modelle können Antworten generieren, die plausibel erscheinen, aber falsch oder irreführend sind – sogenannte KI-Halluzinationen. 77 % der Unternehmen sind besorgt über KI-Halluzinationen. 1

Wir haben 37 verschiedene LLMs anhand von 60 Fragen verglichen, um deren Halluzinationsraten zu messen:

Ergebnisse des KI-Halluzinations-Benchmarks

Loading Chart

Unsere Vergleichsanalyse ergab, dass selbst die neuesten Modelle bei der Analyse vorgegebener Aussagen in über 15 % der Fälle Halluzinationen auslösen. In der Methodik der Vergleichsanalyse erfahren Sie, wie wir diese Raten ermittelt haben.

Analyse der Halluzinationsrate: Kosten vs. Kontext

Um einen fairen Kostenvergleich zwischen den Modellen zu gewährleisten, normalisieren wir die Preise anhand einer einheitlichen Metrik, die reale Nutzungsmuster widerspiegelt. Da die meisten Token in praktischen Arbeitslasten aus Eingaben und nicht aus Ausgaben stammen, berechnen wir die Modellkosten als 0,75 × Tokenpreis der Eingabe + 0,25 × Tokenpreis der Ausgabe .

Dadurch wird verhindert, dass Modelle mit künstlich niedrigen Outputs oder unverhältnismäßig hohen Inputs fälschlicherweise effizient erscheinen, sodass jedes Modell auf einer einheitlichen, vergleichbaren Skala bewertet werden kann.

Die Grafik zeigt deutliche Muster beim Vergleich der Halluzinationsraten mit der Größe des Kontextfensters. Im Einklang mit früheren Kostendaten besteht kaum oder gar keine lineare Korrelation zwischen Kontextkapazität und Genauigkeit.

Ein großer Kontext garantiert keine Genauigkeit

Entgegen der Annahme, dass größere Eingabemengen zu besseren Schlussfolgerungen führen, zeigt sich ein uneinheitliches Bild. Modelle, die für sehr große Kontextfenster (über 1 Million Token) entwickelt wurden, weisen nicht durchgängig niedrigere Halluzinationsraten auf als ihre kleineren Pendants. Wie die Daten zeigen, finden sich sowohl über kurze als auch über lange Kontextspannen hinweg hochzuverlässige Modelle sowie leistungsschwächere Modelle.

Dies deutet darauf hin, dass ein großes Kontextfenster nicht automatisch eine verbesserte faktische Konsistenz gewährleistet. Letztendlich sind technische Spezifikationen wie die Kontextgröße keine eindeutigen Indikatoren für Zuverlässigkeit; die Leistung hängt vielmehr von der spezifischen Modellarchitektur und der Trainingsqualität als von der Kapazität allein ab.

Was sind KI-Halluzinationen?

Halluzinationen treten auf, wenn ein LLM Informationen erzeugt, die real erscheinen, aber entweder völlig erfunden oder faktisch falsch sind. Im Gegensatz zu einfachen Irrtümern sind Halluzinationen besonders problematisch, da sie mit der gleichen Gewissheit wie korrekte Informationen präsentiert werden, was es den Nutzern erschwert, sie ohne Bestätigung von außen zu erkennen.

Die Auswirkungen von Halluzinationen bei LLM

KI-Halluzinationen betreffen viele Branchen, da Organisationen auf generative KI- Tools angewiesen sind, um Texte zu erstellen , Daten zu analysieren und Entscheidungen zu unterstützen. Die möglichen Folgen sind vielfältig, doch einige Risiken treten immer wieder auf:

Reputationsschaden

Wenn ein Modell ungenaue Informationen, falsche Darstellungen oder irreführende Ergebnisse liefert, können Nutzer das Vertrauen in das System und die Organisation, die es einsetzt, verlieren. Es kann sich als schwierig erweisen, das Vertrauen wiederherzustellen, nachdem falsche Informationen Kunden, interne Teams oder die Öffentlichkeit erreicht haben.

Beispielsweise eine aktuelle Analyse von GPTZero 2 ergab, dass Dutzende der auf der NeurIPS 2025 angenommenen Artikel KI-generierte Zitate enthielten, die im Peer-Review-Verfahren nicht aufgefallen waren. Nach der Analyse von über 4.000 angenommenen Artikeln entdeckte das Unternehmen Hunderte fehlerhafter Referenzen in mindestens 50 Artikeln – von komplett gefälschten Zitaten bis hin zu veränderten Versionen realer Zitate.

Einige Fehler betrafen erfundene Autoren, Titel, Zeitschriften oder Links, während andere echte Zitate subtil veränderten, indem sie Autorennamen oder Titel von Artikeln modifizierten. Laut GPTZero wurden alle markierten Zitate später von Experten überprüft.

NeurIPS bestätigte den zunehmenden Einsatz großer Sprachmodelle in wissenschaftlichen Publikationen und erklärte, die Entwicklung zu beobachten. Falsche Quellenangaben führten nicht automatisch zur Ungültigkeit der Ergebnisse einer Arbeit. GPTZero bezeichnete die Ergebnisse dennoch als alarmierend, da die Arbeiten formell angenommen und auf einer hochselektiven Konferenz veröffentlicht worden waren.

Die Ergebnisse verdeutlichen, wie der sprunghafte Anstieg der Einreichungen – über 21.000 im Jahr 2025 – eine gründliche Begutachtung erschwert und Bedenken hinsichtlich der Forschungsintegrität, der Reproduzierbarkeit und der Risiken der Abhängigkeit von KI-generierten Zitaten im akademischen Publikationswesen aufwirft. 3

In regulierten Bereichen wie dem Gesundheitswesen , dem Finanzwesen und dem Rechtswesen können KI-generierte Inhalte mit sachlichen Fehlern zu Verstößen gegen Compliance-Vorschriften führen. Werden diese Inhalte ungeprüft verwendet, können Fehlinterpretationen von Daten oder Richtlinien Strafen, Kundenschäden oder Rechtsstreitigkeiten nach sich ziehen.

Beispielsweise haben sich KI-generierte gefälschte Gerichtsakten zu einem ernsthaften und zunehmenden Problem für Gerichte entwickelt. Allein im Jahr 2025 fällten Richter weltweit Hunderte von Urteilen zu KI-generierten Fehlern in Gerichtsakten; dies entspricht etwa 90 % aller bisher bekannten Fälle dieses Problems.

Richter bemängeln, dass diese Fehler wertvolle Zeit und Ressourcen verschwenden und Gerichte zwingen, nicht existierende Fälle zu untersuchen, anstatt sich auf die inhaltlichen Aspekte der Streitigkeiten zu konzentrieren. Sowohl Anwälte als auch Richter wurden dabei ertappt, wie sie sich auf fehlerhafte KI-Ergebnisse verließen, was zu Warnungen, Dienstanweisungen und immer strengeren Sanktionen führte.

Mit zunehmendem Bewusstsein für die Grenzen von KI werden Gerichte weniger tolerant gegenüber Ausreden und betrachten fehlerhafte Zitate als Fehlverhalten statt als Unwissenheit. Während Forscher, die dieses Thema verfolgen, einen rasanten Anstieg solcher Fälle berichten, sehen viele KI als grundsätzlich vorteilhaft für die juristische Arbeit an, sofern ihre Nutzung transparent und sorgfältig geprüft erfolgt und sie als Entwurfshilfe und nicht als Quelle der Rechtswahrheit dient. 4

Betriebliche Ineffizienz

Wenn sich Nutzer nicht auf KI-generierte Texte oder Ergebnisse verlassen können, müssen sie diese manuell überprüfen. Dies kostet Zeit und mindert den Nutzen generativer künstlicher Intelligenz. Anstatt Arbeitsabläufe zu unterstützen, können Fehlalarme entstehen, die eine menschliche Überprüfung erfordern, um falsche Informationen zu erkennen.

Beispielsweise führte bei einem Test von KI-generierten Polizeiberichten in Utah die Hintergrundmusik eines Disney-Films dazu, dass das System fälschlicherweise behauptete, ein Polizist habe sich in einen Frosch verwandelt. Der Vorfall ereignete sich im Dezember während eines Pilotprojekts für KI-Tools wie Axons Draft One, die Audioaufnahmen von Körperkameras in schriftliche Berichte umwandeln, um den Beamten Zeit zu sparen.

Offizielle Stellen geben zwar an, dass die Tools wöchentlich mehrere Stunden an Büroarbeit einsparen können, doch der Vorfall legte tieferliegende Bedenken hinsichtlich Genauigkeit und Kontrolle offen. Selbst routinemäßige Testberichte mussten korrigiert werden, und Kritiker warnen davor, dass KI Geräusche falsch interpretieren, Unsicherheiten verschleiern oder subtile Fehler einschleusen kann, die später in die offiziellen Aufzeichnungen einfließen. 5

Ursachen von KI-Halluzinationen

Das Verständnis der Ursachen von Halluzinationen ist unerlässlich für die Entwicklung von Techniken zur Linderung von Halluzinationen und die Entscheidung, wann man KI-generierten Inhalten vertrauen kann.

Einschränkungen der Trainingsdaten

Große Sprachmodelle werden mit riesigen Mengen an Internetdaten, Dokumenten und anderen Texten trainiert . Einschränkungen dieser Trainingsdaten können zu Fehlinterpretationen führen:

  • Unzureichende Trainingsdaten in Spezialgebieten können Wissenslücken verursachen. Wenn das Modell aufgefordert wird, Texte in solchen Bereichen zu generieren, füllt es fehlende Fakten möglicherweise mit erfundenen Informationen auf, anstatt Unsicherheiten zuzugeben.
  • Minderwertige Webseiten, Fake News oder irreführende Inhalte im Trainingsdatensatz können das Modell in Richtung falscher Darstellungen und sachlicher Fehler verzerren.
  • Veraltete Fakten können dazu führen, dass das Modell falsche Informationen über Themen liefert, die sich nach der Trainingsphase geändert haben.
  • Verzerrungen in den Trainingsdaten können dazu führen, dass KI-Modelle Personen, Ereignisse oder mögliche Ergebnisse nicht korrekt beschreiben.

Diese Probleme sind nicht auf die Textgenerierung beschränkt. Ähnliche Probleme treten auch beiComputer-Vision-Modellen auf, die mit verzerrten oder unvollständigen Datensätzen trainiert wurden, wobei die Fehler jedoch andere Formen annehmen, wie z. B. Fehlklassifizierungen .

Wissensabschluss und kontinuierliche Aktualisierungen

Frühere Generationen von KI-Modellen hatten ein präzises Stichtagsdatum für ihr Wissen und keinen Zugriff auf aktuelle externe Daten. Wenn Nutzer nach aktuellen Ereignissen fragten, generierte das Modell trotzdem oft Ergebnisse, was das Risiko von Halluzinationen erhöhte.

Moderne KI-Systeme kombinieren zunehmend statische Trainingsdaten mit dem Abruf aus einer dynamischen Wissensdatenbank oder anderen externen Quellen. Daraus ergibt sich:

  • Der Wissensabbruch spielt für einige Modelle weiterhin eine Rolle, vor allem bei Offline-Implementierungen.
  • In vielen Unternehmensumgebungen verringert die abrufgestützte Datengenerierung die Auswirkungen von Datenabbrüchen, indem aktuelle Fakten aus internen oder externen Datenquellen abgerufen werden.
  • Halluzinationen im Zusammenhang mit Aktualität spiegeln heute oft fehlende oder fehlerhafte Abrufprozesse wider, nicht nur das Alter der Modellparameter.

Selbstüberschätzung und Vorhersage des nächsten Wortes

Ein Sprachmodell generiert Text Token für Token und sagt das nächste Wort anhand des Eingabekontexts und der vorherigen Token voraus. Das Modell ist darauf optimiert, flüssige, wahrscheinliche Fortsetzungen zu erzeugen, jedoch keine garantiert korrekten Antworten. Dies hat mehrere Auswirkungen:

  • Das Modell legt möglicherweise mehr Wert auf eine flüssige Erklärung als darauf, zuzugeben, dass es die richtige Antwort nicht kennt.
  • Es kann ein plausibles, aber falsches Informationsmuster auswählen, wenn dieses Muster häufig in den Trainingsdaten vorkommt.
  • Das Modell kann aus Datenmustern zu stark verallgemeinern und Inhalte generieren, die zwar spezifisch erscheinen, aber nicht auf faktischen Quellen beruhen.

Aus der Sicht des Nutzers ist es aufgrund des Stils des KI-generierten Textes schwer zu erkennen, dass die Antwort falsch sein könnte.

Fehlinterpretationen und unklare Anweisungen

Halluzinationen können auch durch die Formulierung von Eingabeaufforderungen entstehen:

  • Unklare Eingabeaufforderungen geben dem Modell zu viel Freiheit, was zu unerwarteten Ergebnissen oder Antworten führt, die nicht der Absicht des Benutzers entsprechen.
  • Zu weit gefasste Fragestellungen veranlassen das Modell dazu, Ergebnisse zu generieren, die über das in seinen Parametern oder den abgerufenen Dokumenten vorhandene Wissen hinausgehen.
  • Mehrdeutige Formulierungen können dazu führen, dass das Modell eine Interpretation auswählt und auf der Grundlage dieser Interpretation fälschlicherweise ungenaue Informationen liefert.

Präzisere Anweisungen und explizite Einschränkungen verringern diese Auswirkungen oft, beseitigen sie aber nicht vollständig.

Strategien zur Reduzierung von KI-Halluzinationen

Techniken zur Linderung von Halluzinationen kombinieren typischerweise Architekturentscheidungen, Schulungsansätze und Systemdesign anstatt einer einzigen Lösung.

KI-gestützte Halluzinationserkennungstools

KI-gestützte Halluzinationserkennungstools prüfen, ob der gegebene Kontext oder die Referenzdaten die KI-generierten Ergebnisse stützen. Diese Tools verwenden meist LLM-basierte Beurteilungsmethoden in Verbindung mit Techniken wie Konsistenzanalyse, Konfidenzbewertung und auf Folgerungen basierender Verifizierung.

Wir haben 100 ausgewogene, faktenbasierte Frage-Antwort-Testfälle analysiert, um KI-gestützte Tools zur Halluzinationserkennung zu vergleichen. W&B Weave und Arize Phoenix erzielten mit 91 % bzw. 90 % eine vergleichbare Gesamtleistung, während Comet Opik aufgrund einer konservativeren Erkennungsstrategie eine Genauigkeit von 72 % erreichte. Weitere Informationen zu den Ergebnissen finden Sie im Artikel „KI-gestützte Tools zur Halluzinationserkennung“ .

Abrufgestützte Generation

Retrieval-augmented generation verbindet generative KI-Modelle mit einer externen Wissensbasis. Wenn ein Benutzer eine Anfrage sendet:

  • Das System ruft relevante Dokumente oder Daten aus kuratierten Quellen ab, wie z. B. internen Datenbanken, fachspezifischer Literatur oder ausgewählten Webseiten.
  • Diese abgerufenen Textpassagen werden dem Sprachmodell als zusätzlicher Kontext übergeben.
  • Das Modell generiert Ausgaben, die voraussichtlich näher an den abgerufenen Fakten liegen, anstatt sich ausschließlich auf seine gelerntenParameter zu stützen.

Neuere, auf Abruf basierende Generierungsverfahren erweitern dieses Muster wie folgt:

  • Mehrstufiger Abruf, bei dem das System die Daten abruft, zusammenfasst und sie dann erneut abruft, falls Informationen fehlen.
  • Strukturierte Informationssuche, bei der die KI-Tools APIs, SQL-Datenbanken oder Wissensgraphen abfragen, anstatt nur unstrukturierte Dokumente.
  • Die Überwachung der Abrufqualität, bei der geprüft wird, ob der abgerufene Kontext die Antwort tatsächlich stützt, kann potenzielle Fälle von Halluzinationen aufdecken.

RAG garantiert keine faktische Richtigkeit, reduziert aber in der Regel Halluzinationen, insbesondere wenn die Wissensbasis sorgfältig gepflegt und regelmäßig aktualisiert wird.

Ein neuer Artikel stellt beispielsweise REFIND vor, eine Retrieval-erweiterte Methode zur Erkennung halluzinierter Spannen in großen Sprachmodellausgaben, indem die Sensitivität jedes generierten Tokens gegenüber externen Hinweisen gemessen wird.

Mithilfe einer neuen Metrik namens Context Sensitivity Ratio (CSR) vergleicht REFIND die Token-Wahrscheinlichkeiten mit und ohne abgerufene Dokumente und kennzeichnet Token, die sich signifikant verändern, als wahrscheinliche Halluzinationen.

Die Evaluierung anhand des mehrsprachigen SemEval-2025 Mu-SHROOM-Datensatzes zeigt, dass der Ansatz bestehende Vergleichsmethoden übertrifft, insbesondere in ressourcenarmen Sprachen. Die Ergebnisse belegen, dass die Verknüpfung der Halluzinationserkennung mit recherchierten Belegen eine präzisere, zuverlässigere und skalierbarere Identifizierung von sachlichen Fehlern in LLM-generierten Texten ermöglicht. 6

Promptes Design in modernen Systemen

Die Gestaltung von Eingabeaufforderungen hat sich mit der Verbesserung generativer KI-Modelle verändert. Es geht nicht mehr nur um geschickte Formulierungen. In aktuellen Systemen konzentriert sich die Gestaltung von Eingabeaufforderungen auf Folgendes:

  • Die Aufgabe, die erforderlichen Angaben und die Einschränkungen sollten klar formuliert werden, einschließlich der Angabe, was als richtig gilt und was unbeantwortet bleiben sollte.
  • Das Modell wird angewiesen, „Ich weiß es nicht“ zu sagen oder weitere Informationen anzufordern, wenn die Eingabe unvollständig ist.
  • Das Modell sollte dazu angehalten werden, sich explizit auf den zitierten Kontext zu beziehen, anstatt Details zu erfinden, die in den bereitgestellten Daten nicht vorhanden sind.
  • Die Rollenanweisungen, Werkzeuge und Abrufeinstellungen werden so aufeinander abgestimmt, dass das Modell weiß, wann es externe Quellen nutzen und wann es sich auf seine eigenen Parameter verlassen soll.

Gute Eingabeaufforderungen verbessern die Qualität der KI-Ergebnisse, sind aber mittlerweile Teil eines größeren Systems, das auch Abruf, Werkzeuge und Verifizierung umfasst.

Externe Faktenprüfungs- und Verifizierungsmethoden

Die Überprüfung KI-generierter Inhalte anhand verlässlicher Fakten bleibt eine zentrale Strategie. Die Verifizierung kann auf verschiedene Weise erfolgen:

  • Automatisierter Abruf und Vergleich: Das System verwendet eine abrufgestützte Generierung, um Dokumente abzurufen, und prüft dann, ob diese Dokumente wichtige Aussagen im generierten Inhalt unterstützen.
  • Modellübergreifende Verifizierung: Ein Sprachmodell generiert eine Antwort, die anschließend von einem anderen Modell oder einer anderen Konfiguration auf sachliche Fehler überprüft wird.
  • Toolbasierte Verifizierung: KI-Modelle rufen spezialisierte KI-Tools auf, wie z. B. Code-Interpreter, Rechner oder Domänen-APIs, um numerische Werte, Datumsangaben oder strukturierte Ausgaben zu überprüfen.
  • Menschliche Beteiligung: Fachexperten prüfen die wichtigsten KI-generierten Texte, bevor sie in der Produktion eingesetzt oder veröffentlicht werden.

Moderne Systeme kombinieren diese Ansätze häufig, indem sie automatische Prüfungen für den Großteil der Inhalte durchführen und verdächtige Fälle zur Überprüfung durch einen Menschen weiterleiten.

Handlungsorientierte Ansätze zur Reduzierung von Halluzinationen

Jüngste Arbeiten im Bereich der künstlichen Intelligenz haben agentenbasierte Systeme eingeführt, in denen ein Modell planen, Werkzeuge aufrufen und mehrere Schritte ausführen kann, anstatt in einem einzigen Durchgang zu antworten. Dies verändert das Auftreten von Halluzinationen und wie diese reduziert werden können.

Agentenbasierte Sprachmodellsysteme können:

  • Zerlege eine Aufgabe in Teilprobleme und löse diese Schritt für Schritt.
  • Entscheiden Sie, wann weitere Daten benötigt werden, und führen Sie zusätzliche Datenabfragen aus einer Wissensdatenbank oder externen Quellen durch.
  • Um Zwischenergebnisse zu überprüfen, können Sie domänenspezifische Tools wie Such-APIs, Datenbanken oder Rechner verwenden.
  • Sie sollen ihren eigenen Antwortentwurf erneut prüfen und jene Teile überarbeiten, die im Widerspruch zu den gefundenen Beweisen stehen.

Anstatt beispielsweise sofort eine ausführliche Antwort zu generieren, könnte derKI-Agent Folgendes tun:

  1. Relevante Dokumente abrufen.
  2. Verschiedene Quellen zusammenfassen und vergleichen.
  3. Widersprüche oder fehlende Daten identifizieren.
  4. Stellen Sie dem Benutzer Nachfragen, wenn die Aufgabe unzureichend spezifiziert ist.
  5. Erst dann kann das endgültige Ergebnis generiert werden.

Diese mehrstufige Struktur macht Halluzinationen sichtbarer und bietet zusätzliche Punkte, an denen Kontrollen durchgeführt werden können.

Unsicherheitsabschätzung und Konfidenzwerte

Ein weiteres aktives Forschungsgebiet ist die Abschätzung der Wahrscheinlichkeit, dass ein KI-Output sachliche Fehler enthält. Die Unsicherheitsabschätzung kann sowohl während als auch nach der Generierung eingesetzt werden. Einige Ansätze sind:

  • Die Konfidenzwerte auf Token-Ebene zeigen, wie sicher sich das Modell bei jedem Wort oder jeder Phrase ist. Bereiche mit niedriger Konfidenz können zur Überprüfung markiert werden.
  • Konsistenzprüfungen, bei denen das Modell dieselbe Frage auf verschiedene Weisen oder mit unterschiedlichen Eingabeaufforderungen beantwortet und das System misst, wie stabil die Antworten sind.
  • Kontext-Suffizienz-Prüfungen, bei denen ein separates Modell prüft, ob die abgerufenen Dokumente genügend Informationen enthalten, um die Frage zu beantworten.
  • Risikobewertung vor der Generierung, bei der das System vorhersagt, ob eine bestimmte Eingabe in einer spezifischen Modellkonfiguration wahrscheinlich Halluzinationen auslösen wird.

Diese Methoden beseitigen zwar nicht die Halluzinationen, aber sie helfen Organisationen dabei, risikoreiche Ergebnisse zu identifizieren und sie an strengere Verifizierungsprozesse oder menschliche Prüfer weiterzuleiten.

Unsicherheit gegenüber Nutzern kommunizieren

Die Kommunikation von Unsicherheiten an die Nutzer ist entscheidend, wenn KI-Systeme an ihre Grenzen stoßen. Einige wirksame Vorgehensweisen sind:

  1. Die Verwendung bewusst unklarer Formulierungen trägt dazu bei, angemessene Erwartungen zu wecken und irreführende Ergebnisse zu vermeiden, die zu ungenauen Informationen führen könnten.
  2. Durch die Einbeziehung faktisch falscher Indikatoren können Modelle signalisieren, wenn sie ihren Antworten nicht sicher sind. Diese Transparenz, die in aktuellen Technologie-Reviews empfohlen wird, verhindert, dass Nutzer KI-generierte Inhalte unkritisch übernehmen.
  3. Durch die Hervorhebung spezifischer Textelemente, die die Reaktion des Modells beeinflusst haben, können die Benutzer die Gründe für unsichere Ergebnisse besser verstehen, während die Anzeige von Konfidenzbewertungen eine zuverlässigere Auswertung ermöglicht.
  4. Bei der Bearbeitung komplexer Probleme ermutigt die Präsentation mehrerer Quellen die Nutzer, Behauptungen unabhängig zu überprüfen, anstatt sich ausschließlich auf KI-Ausgaben zu verlassen, die möglicherweise Halluzinationen enthalten.

Diese Ansätze, die durch umfangreiches menschliches Feedback validiert wurden, schaffen eine ehrlichere Beziehung zwischen Nutzern und generativen KI-Modellen, indem sie anerkennen, wann Wissensbasisbeschränkungen zu potenziellen Halluzinationen führen könnten.

Abschätzung des Risikos von Halluzinationen, bevor sie auftreten

Die Erkennung gefälschter Inhalte, nachdem diese bereits vom LLM generiert wurden, steht im Mittelpunkt der meisten aktuellen Halluzinationsforschung. Tools wie RefChecker und Hallucination Guard dienen dazu, verdächtige Ergebnisse hervorzuheben oder zu bewerten und Nutzern so zu helfen, die halluzinierten Resultate zu filtern oder zu korrigieren.

Eine neue Perspektive interpretiert das Problem neu und legt nahe, dass Halluzinationen Komprimierungsartefakte und keine „Fehler“ sind. Große Sprachmodelle dekomprimieren während des Betriebs Informationen, die zuvor in ihren Parametern komprimiert wurden. Ähnlich wie eine beschädigte ZIP-Datei beim Entpacken Datenmüll erzeugt, füllt das Modell Lücken mit plausiblen, aber falschen Inhalten, wenn sein „Informationsbudget“ begrenzt ist. 7

LLMs optimieren die durchschnittliche Effizienz, was gelegentlich zu systematischen Halluzinationen führen kann. Das Erwartungsniveau-Dekompressionsgesetz (EDFL) definiert die Informationsschwellenwerte, die erforderlich sind, um Halluzinationen in LLMs zu verhindern.

Der Open-Source-Halluzinationsrisikorechner ermöglicht die Risikobewertung vor der Generierung von Halluzinationen, die Festlegung von Fehlergrenzen, die Kontextbewertung und SLA-ähnliche Garantien – Funktionen, die in regulierten Bereichen äußerst nützlich sind. Er ist mit jeder OpenAI-kompatiblen API nutzbar.

Methodik zur KI-Halluzinationsbewertung

Unser Ziel ist es, herauszufinden, ob Modelle Unternehmensinformationen verarbeiten und daraus korrekte Schlussfolgerungen ziehen können. Dies ist ein Bereich, in dem LLMs den größten Mehrwert für Unternehmen generieren können, und wir wollten die Fehlerquote in diesem Kontext verstehen.

Unser Benchmark bewertet die Halluzinationsraten von LLM anhand eines Datensatzes von Fragen, die aus CNN-Nachrichtenartikeln abgeleitet wurden.

Wir verwendeten ein automatisiertes Web-Datenerfassungssystem , um den Datensatz zu erstellen und Artikel direkt aus dem RSS-Feed von CNN abzurufen. Aus diesen Artikeln entwickelten wir 60 Fragen, die die Fähigkeit von LLM-Absolventen, faktische und artikelbezogene Informationen abzurufen, eingehend prüfen sollten.

Die Fragen wurden absichtlich so formuliert, dass:

  • Bitten Sie um genaue Zahlenwerte (Prozentsätze, Daten, Mengen).
  • Behandelt werden vielfältige Themen wie Ölpreise, Kunstgeschichte, wissenschaftliche Forschung, Finanzen und vieles mehr.
  • Beziehen Sie zeitliche Zusammenhänge und statistische Fakten mit ein, die schwer zu erraten sind.
  • Erfordert die exakte Wiedergabe aus dem bereitgestellten Text anstelle von verallgemeinerten Schlussfolgerungen.
  • Die Überprüfung wird erleichtert, indem man kontrolliert, ob die Antwort mit der Abbildung im Originalartikel übereinstimmt.

Evaluierung mithilfe eines dreistufigen Faktencheck-Systems

Nachdem die Fragen über API-Aufrufe an die einzelnen LLMs gesendet wurden, werden die Antworten mithilfe eines zweistufigen Faktenprüfungsverfahrens ausgewertet:

  1. Statische Übereinstimmungsprüfung: Das System führt zunächst einen schnellen Zeichenkettenvergleich zwischen der Antwort des LLM und dem aus dem Artikel extrahierten Referenzwert durch. Stimmen die Werte exakt überein, wird die Antwort als korrekt markiert.
  2. LLM als Richter Semantische Validierung: Falls keine exakte Übereinstimmung gefunden wird, wird in einem zusätzlichen Auswertungsschritt mithilfe eines LLM-als-Richter-Modells ermittelt, ob die Antwort semantisch äquivalent zur tatsächlichen Antwort ist.
    Dies berücksichtigt Abweichungen in Formatierung oder Formulierung, wie zum Beispiel
    • „26 Millionen“ vs. „26000000“
    • „n.a.“, „nicht verfügbar“ oder „nicht angegeben“
    • Geringfügige Unterschiede im Wortlaut, die die gleiche Bedeutung beibehalten.
  3. Abschließende Prüfung: Der LLM-als-Richter kann auch Halluzinationen haben. Um dies auszuschließen, haben wir einen zweiten LLM-als-Richter entwickelt, der die vom ersten LLM-als-Richter als „nicht bestanden“ markierten Ergebnisse überprüft, um festzustellen, ob sie tatsächlich nicht bestanden haben oder ob unser LLM-als-Richter halluziniert hat. Falls eine Antwort von diesem LLM-als-Richter als verdächtig eingestuft wird, haben wir sie manuell überprüft und bewertet, um sicherzustellen, dass bei der Bewertung keine Fehler aufgetreten sind.

Eine Antwort wird nur dann als Halluzination eingestuft, wenn sie sowohl die Prüfung auf exakte Übereinstimmung als auch die semantische Äquivalenzprüfung und die abschließende Prüfung nicht besteht.

Beispiel

Aufforderung: „Beantworten Sie die Frage ausschließlich anhand der Informationen aus dem bereitgestellten Artikel. Runden Sie die Antworten nicht. Geben Sie nur ein Wort oder eine Zahl an oder tragen Sie ‚nicht angegeben‘ ein.“

Artikel: Wissenschaftler identifizieren geheime Zutat in Gemälden von Leonardo da Vinci 8

Frage: In welchem Jahrhundert verbreitete sich die Ölmalerei in Nordeuropa?
Tatsächliche Tatsachen: Nicht angegeben.

Der Artikel liefert diese Information nicht; er bezieht sich lediglich auf das Mittelalter. Daher deutet jede andere Antwort als „nicht angegeben“ darauf hin, dass das Modell nicht dem Artikel folgt und erfundene oder angenommene Informationen generiert, was zu einer Halluzination führt.

FAQs

KI-Tools können falsche oder irreführende Informationen liefern. Um KI-Täuschungen vorzubeugen, sollten Nutzer die Antworten überprüfen und gezieltere Fragen stellen. Falsche Informationen in KI-generierten Texten können zu unerwünschten Ergebnissen führen, insbesondere in Bereichen wie wissenschaftlichem Schreiben und juristischer Recherche.

Veröffentlichungen haben verschiedene Ursachen für Fehlinterpretationen von KI-Systemen identifiziert. Wenn generative KI-Systeme wie große Sprachmodelle faktisch falsche Ergebnisse liefern, liegt dies häufig an unzureichenden Trainingsdaten oder der Verwendung veralteter Fakten. Untersuchungen zeigen, dass bisherige Methoden zur Erstellung von Wissensdatenbanken Modelle nicht ausreichend daran hinderten, bei der Verarbeitung von Internetdaten zur Beantwortung komplexer Probleme fehlerhafte Referenzen zu generieren oder ungenaue Informationen zu erzeugen.

KI-generierte Inhalte werden häufig nicht anhand externer Quellen überprüft, was zu irreführenden Ergebnissen führt. Generative Modelle haben Schwierigkeiten mit Themen außerhalb ihres Trainingskorpus und können plausibel klingende Fakten erfinden, die einer Überprüfung durch Experten nicht standhalten.

Obwohl KI-Systeme in Bereichen wie der Rechtsforschung wertvoll sind, können sie Ungenauigkeiten erzeugen, insbesondere bei Themen mit geringem Datenaufkommen oder unter feindlichem Angriff.

Modelle können Korrelation mit Kausalität verwechseln, und selbst korrekte Ergebnisse können Falschdarstellungen enthalten. Dies unterstreicht die Notwendigkeit, Fakten anhand vertrauenswürdiger Quellen zu überprüfen. Dieses Problem besteht fort, da die Prüfstandards für die Datenverarbeitung in Modellen unzureichend sind.

Weiterführende Literatur

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen

Kommentare 4

Teilen Sie Ihre Gedanken

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450
Abraham
Abraham
Aug 25, 2025 at 11:57

This article is updated in June while the GPT 5 is announced in August. How did you test GPT 5 in AI Hallucination Rates figure

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:46

Hi! Thanks for your comment. We use WordPress for our articles, which allows us to update graphs and tables independently of the main text. This means that even if the article text shows an earlier update date, we can still add the latest results to the figures without altering the written sections.

Rui
Rui
Aug 08, 2025 at 20:31

Hi Cem, I've been using this article as a reference of severity of hallucination. Is it possible to refresh the report with the newly released GPT-5? Thanks!

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:48

Hi Rui, Thanks a lot for your interest and for using our article as a reference. We’ve already refreshed the report with GPT-5 results, so you’ll find the latest updates included in the article.

Tim
Tim
Jul 19, 2025 at 10:13

Is there any chance that you might add Claude Sonnet/Opus 4 as well as Gemini 2.5 Pro?

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:48

Hi Tim, Thank you for your support and suggestion. Claude Sonnet/Opus 4 and Gemini 2.5 Pro have already been added to the article, so you can now see them included in the comparisons.

Joon
Joon
Feb 28, 2025 at 16:29

Hi, thank you for interesting benchmark! I was wondering Grok3's hallucination rate, both in Think mode and without. Are you planning to add these?

Cem Dilmegani
Cem Dilmegani
Mar 17, 2025 at 02:52

Hi Joon and thank you for your comment, Yes, we are waiting for API access.