Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Die LLM-Evaluierungslandschaft mit Rahmenwerken

Cem Dilmegani
Cem Dilmegani
aktualisiert am Jan 8, 2026
Siehe unsere ethischen Normen

Die Evaluierung von LLMs erfordert Werkzeuge, die mehrstufiges Schließen, die Produktionsleistung und die Werkzeugnutzung bewerten. Wir haben zwei Tage damit verbracht, gängige Evaluierungsframeworks für LLMs zu überprüfen, die strukturierte Metriken, Protokolle und Traces bereitstellen, um zu identifizieren, wie und wann ein Modell vom erwarteten Verhalten abweicht. Konkret haben wir:

LLM-Evaluierungslandschaft

Funktionskategorie
Werkzeuge
Hauptzweck
OpenAI Evals, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI
Die Ergebnisse des LLM-Programms werden anhand von Kennzahlen für Qualität, Genauigkeit und Kohärenz bewertet.
Promptfoo, Humanloop, Opik
Entwerfen, testen und optimieren Sie Eingabeaufforderungen für eine bessere Modellausgabe.
LangChain Evals, LangSmith, LlamaIndex Eval
Evaluieren Sie LLMs innerhalb spezifischer Ökosysteme wie LangChain oder LlamaIndex.
Arize Phoenix, Langfuse, Langtrace AI, Lunary
Kontinuierliche Überwachung und Analyse der Modellperformance im Produktionsbetrieb.

LLM-Evaluierungsfähigkeiten

Erläuterung der Bewertungsmöglichkeiten:

  • KI-Gateway (Multi-Modell-Zugriff): Fähigkeit der Plattform, mehrere Basismodelle über eine einheitliche API-Schnittstelle auszuwerten.
  • Einzelrunden-Evaluierungen: Messen die Modellleistung bei einzelnen Eingabeaufforderungen anhand von Kennzahlen wie Genauigkeit, Faktentreue oder Kohärenz.
  • Mehrrunden-Evaluationen: Unterstützt die Auswertung mehrstufiger oder dialogischer Interaktionen, um kontextuelles Denken und Gedächtnis zu testen.
  • Offline-Evaluierungen: Offline-Evaluierungen dienen der Überprüfung der Ergebnisse von LLM-Anwendungen vor der Produktionsfreigabe. Nutzen Sie Offline-Evaluierungen für CI/CD-Prüfungen Ihrer LLM-Anwendung.
  • Benutzerdefinierte LLM-Metriken: Ermöglicht die Definition domänenspezifischer oder aufgabenspezifischer Bewertungsmetriken, die über voreingestellte Bewertungsmethoden hinausgehen.

Agentenverhalten und Überwachungsmöglichkeiten für Tools

Evaluierungsinstrumente können bei der Erkennung von nicht konformem Agentenverhalten hilfreich sein, insbesondere wenn man den Umfang der „Evaluierung“ erweitert (nicht nur Aufforderung oder Antwort, sondern auch Agentenverhalten im Laufe der Zeit, Werkzeugnutzung, Nebenwirkungen).

Anthropic legt nahe, dass die Bewertung des Verhaltens eines Modells, nicht nur dessen, was es aussagt, zu einer entscheidenden Dimension des Vertrauens und der Sicherheit in KI-Systemen der nächsten Generation werden könnte. 1

Kern-Bewertungsrahmen für den LLM

OpenAI Eval s

OpenAI Evals ist ein Open-Source-Evaluierungsframework, das von OpenAI entwickelt wurde, um die Leistung großer Sprachmodelle (LLMs) systematisch zu bewerten.

Es handelt sich um eine universelle Evaluierungsinfrastruktur, die es Benutzern ermöglicht, die Modellqualität über eine Vielzahl von Aufgaben hinweg zu messen; von der Textgenerierung und dem logischen Schlussfolgern bis hin zur strukturierten Ausgabegenerierung wie Code oder SQL.

Hier ist ein Beispiel für eine Evaluierungspipeline, die mit OpenAI Evals erstellt wurde und die Fähigkeit eines Modells zur Generierung syntaktisch korrekter SQL-Abfragen bewertet. Die Evaluierung verwendet synthetische Daten, die mit GPT-4 generiert wurden, und eine benutzerdefinierte YAML-Konfiguration, um die Evaluierung im Framework zu registrieren:

Quelle: OpenAI 2

DeepEval

Es handelt sich um ein Python-basiertes Framework, das oft als „pytest für LLMs“ bezeichnet wird. Es zeichnet sich durch seine große Anzahl an forschungsbasierten Metriken und seine Fähigkeit aus, komplette Pipelines oder isolierte Komponenten zu testen.

Hier ist ein Beispiel für eine Ablaufverfolgungsauswertung, die eine einzelne Ausführung einer LLM-Anwendung darstellt. Die Auswertung von Ablaufverfolgungen ermöglicht eine durchgängige Bewertung des Modellverhaltens, ähnlich wie Einzelausführungsauswertungen während der Entwicklung:

Quelle: ConfidentAI 3

MLflow (LLM Eval)

Es erweitert MLflow um die LLM-Evaluierung. Seine größte Stärke liegt in der Nachverfolgung von Experimenten und dem direkten Vergleich über verschiedene Läufe und Releases hinweg.

Hier sehen Sie ein Beispiel der Auswertungsvergleichsansicht von MLflow, die die Ergebnisse mehrerer Durchläufe nebeneinander anzeigt. In diesem Fall verbesserte sich die Metrik „Concise Scorer“ um 33 %, während die Konzeptabdeckung um 11 % sank.

Quelle: MLflow 4

Ragas

RAGAS (Retrieval-Augmented Generation Assessment Suite) ist ein Open-Source-Evaluierungsframework, das speziell für die Leistungsmessung von Retrieval-Augmented Generation (RAG)- und agentenbasierten LLM-Anwendungen entwickelt wurde. Es bietet eine ressourcenschonende Experimentierumgebung, ähnlich wie pandas für die schnelle Datenanalyse.

RAGAS bewertet, wie effektiv ein System relevanten Kontext abruft und in seine generierten Antworten integriert. Dies geschieht anhand einer Reihe von wissenschaftlich fundierten Metriken, darunter:

  • Genauigkeit : Wie genau die generierte Antwort den abgerufenen Kontext widerspiegelt.
  • Kontextuelle Relevanz : Wie relevant die abgerufenen Dokumente für die Suchanfrage sind.
  • Antwortrelevanz : Wie relevant die generierte Antwort für die Frage des Nutzers ist.
  • Kontextueller Abruf und kontextuelle Präzision : wie vollständig und präzise relevante Informationen abgerufen werden.

Diese Metriken ergeben zusammen einen Gesamt-RAG-Score, der sowohl die Qualität der Datenabfrage als auch der Datengenerierung quantifiziert. Über RAG hinaus unterstützt RAGAS nun Metriken für agentenbasierte Workflows, Werkzeugnutzung, SQL-Evaluierung und sogar multimodale Aufgaben durch Erweiterungen wie Multimodal Faithfulness und Noise Sensitivity .

RAGAS führt im Laufe der Zeit auch neue Metriken ein, die im RAGAS GitHub-Repository hier verfügbar sind.

Hier ist eine Score-Verteilungsanalyse von RAGAS:

Quelle: RAGAS 5

TruLens

TruLens ist eine Open-Source-Bibliothek zur qualitativen Analyse von LLM-Ausgaben. Sie arbeitet mit Feedback-Funktionen, die nach jedem Modellaufruf ausgeführt werden, um die Antwort zu bewerten. Sie eignet sich hervorragend für die Analyse von Argumentationsmustern und die qualitative Bewertung, nicht nur für die Genauigkeitsprüfung.

Über die Genauigkeitsprüfung hinaus unterstützt TruLens auch die ethische und verhaltensbezogene Evaluation:

Deepchecks (LLM)

Deepchecks (LLM) ist ein Open-Source-Evaluierungsframework, das ursprünglich für die Validierung von ML-Modellen entwickelt wurde und nun für große Sprachmodelle (LLMs) und RAG-Anwendungen erweitert wurde. Es bietet Module, die speziell für die Evaluierung von LLM-basierten Retrieval-Pipelines entwickelt wurden.

Deepchecks (LLM) zeichnet sich durch seinen Fokus auf Bewertungsmetriken und Automatisierungspipelines aus:

  • Agent als Richter
  • Ampelbewertung
  • LLM-Evaluierungsrahmen
  • CI/CD-Pipelines

Hier ist ein Beispiel für einen Frage-Antwort-Anwendungsfall, in dem das Modell eine medizinische Frage zu GVHD-bedingten Schmerzen beantwortet.

Quelle: Deepchecks 6

KI prüfen

Inspect AI ist ein Open-Source-Framework zur Evaluierung von LLM-Systemen, das speziell für forschungsorientierte Bewertungen entwickelt wurde. Es unterstützt sowohl die Evaluierung auf Modell- als auch auf Agentenebene und ermöglicht es Nutzern, nicht nur die Ergebnisse einzelner Modellschritte, sondern auch das mehrstufige Verhalten von Agenten, Schlussfolgerungsketten und die Aufgabenausführung im Zeitverlauf zu bewerten.

Das Framework lässt sich in isolierten Umgebungen wie Docker-Containern oder virtuellen Maschinen unkompliziert einrichten und eignet sich daher ideal zur sicheren Evaluierung agentenbasierter Workflows, ohne das Hostsystem preiszugeben. Inspect bietet ein klares Modell zur Aufgabendefinition und -ausführung, mit dem Benutzer schnell Evaluierungsaufgaben definieren, Stichprobengrößen steuern (z. B. für statistische Standards im CI-Stil) und Evaluierungen in automatisierte Pipelines integrieren können.

Inspect liefert zudem detaillierte, schrittweise Auswertungsprotokolle, einschließlich Latenz und Token-Verbrauch pro Schritt, sowie einen Bericht über Aktionen und Tool-Aufrufe. Diese Granularität erleichtert die Diagnose, wo und warum ein Modell oder Agent vom erwarteten Verhalten abweicht.

Ein weiterer Vorteil von Inspect AI ist, dass es für die Offline-Auswertung konzipiert ist und Korrektheit, Transparenz und Reproduzierbarkeit gegenüber Echtzeit-Telemetriefunktionen priorisiert.

Schnelles Testen und Optimieren

Promptfoo

Promptfoo ist ein Open-Source-Toolkit für die Entwicklung, das Testen und die Evaluierung von Prompts. Es ermöglicht A/B-Tests von Prompts und LLM-Ausgaben mithilfe einfacher YAML- oder Kommandozeilenkonfigurationen und unterstützt LLM-als-Judge-Evaluierungen.

Das Toolkit ist für unkomplizierte Experimente konzipiert, benötigt keine Cloud-Einrichtung oder SDK-Abhängigkeiten und wird von Entwicklern häufig für schnelle Iterationen und automatisierte Robustheitstests (wie z. B. Prompt-Injection oder Toxizitätsprüfungen) eingesetzt. Es eignet sich optimal zur Integration von Prompt-Evaluierungen in alltägliche Entwicklungsabläufe.

Humanloop

Humanloop ist eine Plattform zur schnellen Auswertung und Optimierung, die auf dem Feedback von Nutzern basiert. Sie ermöglicht es Teams, menschliche Einschätzungen zu LLM-Ausgaben zu erfassen und zu analysieren und so die Qualität der Auswertungen, die Modellausrichtung und die Zuverlässigkeit zu verbessern.

Opik (von Comet)

Opik ist eine Open-Source-Plattform zur Evaluierung und Überwachung von LLM-Anwendungen, die von Comet entwickelt wurde. Sie bietet Werkzeuge zur Verfolgung, Bewertung und Überwachung von LLM-Anwendungen während ihres gesamten Entwicklungs- und Produktionslebenszyklus.

Opik protokolliert vollständige Ablaufverfolgungen und Spannen von Prompt-Workflows, unterstützt automatisierte Metriken (einschließlich komplexer Metriken wie faktische Korrektheit mittels LLM-as-a-Judge) und ermöglicht einen Leistungsvergleich über Prompt- oder Modellversionen hinweg.

Seine Besonderheit liegt in der Kombination aus schneller Auswertung, Versuchsmanagement und Beobachtbarkeit, wodurch die Lücke zwischen Testen und Produktionsüberwachung geschlossen wird.

Rahmenspezifische Bewertung

LangChain Evals

LangChain Evals ist ein frameworkspezifisches Evaluierungstool für LangChain-Workflows. Es bietet eine Reihe integrierter Evaluierungsvorlagen und Metriken, die speziell für die Bewertung der Leistung von LangChain-Anwendungen entwickelt wurden, insbesondere solcher mit komplexen Ketten von LLMs.

LangSmith

LangSmith ist eine vom LangChain-Team entwickelte Evaluierungs- und Observability-Plattform. Sie bietet Werkzeuge zum Protokollieren und Analysieren von LLM-Interaktionen sowie spezialisierte Evaluierungsfunktionen für Aufgaben wie die Erkennung von Verzerrungen und Sicherheitstests.

Es handelt sich um einen verwalteten (gehosteten) Dienst und nicht um ein vollständig quelloffenes Tool, der Unterstützung auf Unternehmensebene für LangChain-basierte Anwendungen bietet.

LlamaIndex Eval

LlamaIndex Eval ist ein in das LlamaIndex-Framework (ehemals GPT Index) integriertes Evaluierungstoolkit zur Bewertung von auf LlamaIndex basierenden RAG-Pipelines. Es beinhaltet einen Korrektheitsbewerter, der generierte Antworten mit Referenzantworten für eine gegebene Anfrage vergleicht und zudem GPT-5 als Bewertungskriterium verwenden kann, um die Antwortqualität referenzfrei zu beurteilen.

Seine Funktionalität ähnelt der von RAGAS, jedoch ist es nativ in den LlamaIndex-Workflow eingebettet, sodass Entwickler die Qualität von Abruf und Generierung bewerten können, ohne externe Abhängigkeiten einzuführen.

LLM-Beobachtbarkeitsframeworks mit Evaluierungsfunktionen

Arize Phoenix

Phoenix, entwickelt von Arize AI (einem Unternehmen für ML-Observability), ist ein Open-Source-Toolkit zur Analyse und Fehlerbehebung des Verhaltens von LLM in Produktionsumgebungen. Im Gegensatz zu herkömmlichen Evaluierungsframeworks konzentriert sich Phoenix auf Observability und explorative Analysen anstatt auf vordefinierte Metriken.

Phoenix kann zur Überwachung eingesetzter RAG- oder LLM-Systeme verwendet werden, und anschließend können Frameworks wie RAGAS oder Giskard für eine tiefergehende, auf Metrikebene basierende Auswertung der identifizierten Probleme herangezogen werden.

Langfuse

Langfuse konzentriert sich primär auf die Überwachung von LLM- (Large Language Model) und RAG-Systemen (Retrieval-Augmented Generation). Es unterstützt Teams bei der Verfolgung und Analyse der Leistung von Modellen in Echtzeit-Produktionsumgebungen.

Obwohl es die Modellleistung anhand verschiedener Metriken bewerten kann, liegt seine Kernstärke darin, Einblick in das Verhalten von LLM- und RAG-Pipelines während des Betriebs zu ermöglichen. Dies umfasst die Überwachung der Leistung bei LLM-Ausgaben, der Abrufqualität und der Modellabweichung, um sicherzustellen, dass die Modelle auch bei der Interaktion mit dynamischen Datensätzen oder bei Veränderungen im Zeitverlauf weiterhin die Qualitätsstandards erfüllen.

Langtrace AI

Langtrace AI ist auf die Bewertung von LLM-Anwendungen spezialisiert und erfasst detaillierte Protokolle und Leistungskennzahlen. Das Unternehmen bietet Tools zur Überwachung wichtiger Aspekte wie Token-Nutzung, Latenz, Genauigkeit und Kosten und liefert so einen umfassenden Überblick über das Verhalten und die Leistung des Modells.

Lunary

Lunary ist darauf spezialisiert, umfassende Einblicke in die Interaktionen von LLMs zu ermöglichen und Entwicklern so die Überwachung und Bewertung des Modellverhaltens in Echtzeit-Produktionsumgebungen zu ermöglichen.

LLM-Evaluierungsmetriken

Die Bewertungskriterien für LLM haben sich von traditionellen statistischen Bewertungsmethoden über modellbasierte Ansätze bis hin zu LLM-als-Richter-Ansätzen weiterentwickelt. Hier folgt eine kurze Erläuterung der einzelnen Ansätze:

  • Statistische Bewertungsmethoden (referenzbasiert): Metriken wie Genauigkeit, Präzision, Trefferquote, F1-Score, BLEU und ROUGE messen die Übereinstimmung mit einer Referenzlösung. Sie eignen sich gut für strukturierte Aufgaben (z. B. Klassifizierung, Zusammenfassung), haben aber Schwierigkeiten mit offenen Aufgabenstellungen.
  • Modellbasierte Bewertungsverfahren (referenzfrei): Metriken wie Supert, BLANC, SummaC oder QAFactEval bewerten die Textqualität, die Faktentreue oder die logische Konsistenz ohne exakte Referenzen.
  • LLM-basierte Bewertungsmethoden (LLM als Richter): Die Auswertungen verwenden ein anderes Modell (z. B. GPT-5 ), um die Qualität der Antworten im Kontext zu beurteilen.

Mehr dazu unter: Agentische Evaluierungen: Wie evaluieren wir LLM-Bewerbungen?

Warum LLM-Bewertungen schwierig sind

Die Bewertung von LLMs ist alles andere als einfach. Abgesehen davon, dass die Qualitätskriterien je nach Anwendungsfall variieren, unterscheidet sich der Bewertungsprozess selbst grundlegend von traditionellen Softwaretests oder der Bewertung von prädiktivem maschinellem Lernen.

Eine zentrale Schwierigkeit besteht im Nichtdeterminismus: LLMs erzeugen probabilistische Ausgaben, sodass dieselbe Eingabe jedes Mal unterschiedliche Ergebnisse liefern kann, was die Messung von Konsistenz und Reproduzierbarkeit erschwert.

Bildquelle: AI World 7

Während der probabilistische Charakter von LLMs kreative und vielfältige Antworten ermöglicht, erschwert er auch das Testen; man muss feststellen, ob eine Reihe von Ergebnissen noch den Erwartungen entspricht, anstatt nach einer einzigen richtigen Antwort zu suchen.

Es gibt keine allgemeingültige Wahrheit: Sprachlernsysteme bearbeiten häufig offene Aufgaben wie Schreiben, Zusammenfassen oder Konversation. In diesen Fällen können viele gültige Antworten existieren. Die Bewertung solcher Systeme erfordert die Messung semantischer Ähnlichkeit, Tonfall, Stil oder faktischer Richtigkeit, nicht nur den Abgleich mit Referenztexten.

Vielfältige Eingabemöglichkeiten: LLM-Anwendungen sehen sich einer Vielzahl von Eingaben gegenüber. Beispielsweise kann ein Kundensupport-Bot Fragen zu Rücksendungen, Rechnungen oder Kontosicherheit bearbeiten. Eine effektive Evaluierung erfordert szenariobasierte Testsets , die diese Vielfalt abbilden.

Selbst gut konzipierte Offline-Tests können im realen Einsatz versagen, wenn Benutzer unerwartete Eingabeaufforderungen und Sonderfälle einführen. Dies unterstreicht die Notwendigkeit einer kontinuierlichen Evaluierung und Überwachung im Produktivbetrieb, um eine gleichbleibende Modellqualität über die Zeit zu gewährleisten.

Besondere Risiken bei der LLM-Bewertung

Die Arbeit mit probabilistischen, anweisungsbefolgenden Systemen birgt neue und komplexe Risiken, die bei der traditionellen KI-Evaluierung selten berücksichtigt werden:

  • Halluzinationen: Das Modell kann falsche oder irreführende Fakten erzeugen – zum Beispiel Produkte erfinden, nicht existierende Quellen zitieren oder falsche medizinische oder rechtliche Ratschläge erteilen.
  • Jailbreaks: Angreifer können Eingabeaufforderungen ausnutzen, um Sicherheitsbeschränkungen zu umgehen und das Modell dazu zu bringen, schädliche, voreingenommene oder unzulässige Inhalte zu produzieren.
  • Datenlecks: Ein LLM könnte unbeabsichtigt sensible oder geschützte Informationen aus seinen Trainingsdaten oder verbundenen Systemen preisgeben .

Um dem entgegenzuwirken, benötigen Teams robuste Evaluierungsabläufe , die über Genauigkeitsmetriken hinausgehen:

  • Stresstests von Modellen mit adversariellen und Grenzfall-Eingaben sollen Schwachstellen aufdecken.
  • Führen Sie Red-Teaming- und Sicherheitsbewertungen durch, um die Widerstandsfähigkeit des Modells gegenüber böswilligen Eingaben zu testen.
  • Die Live-Interaktionen werden kontinuierlich überwacht, um auftretende Probleme wie Abweichungen, Datenschutzverletzungen oder unsichere Ausgaben in der Produktion zu erkennen.

LLM-Evaluierungsmethoden

Methoden zur Evaluierung von Sprachmodellen helfen dabei, deren Leistungsfähigkeit in Aufgaben wie logischem Denken, Zusammenfassen und Dialogen zu messen. Dies umfasst statistische Metriken (z. B. BLEU, ROUGE) sowie Ansätze, bei denen ein anderes Modell Qualität, Sicherheit und faktische Richtigkeit bewertet. Darüber hinaus gibt es agentenbasierte und verhaltensbasierte Testmethoden, die das Verhalten der Modelle im Zeitverlauf und den Umgang mit Werkzeugen überwachen.

Einen detaillierteren Überblick über die wichtigsten Ansätze und ihre Herausforderungen erhalten Sie in unserem vollständigen Artikel über LLM-Evaluierungsmethoden .

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450