Dienstleistungen
Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Die Evaluierungslandschaft mit Rahmenwerken (LLM)

Cem Dilmegani
Cem Dilmegani
aktualisiert am Mai 22, 2026
Siehe unsere ethischen Normen

Die Evaluierung von LLMs erfordert Werkzeuge, die mehrstufiges Schließen, Produktionsleistung und Werkzeugnutzung bewerten. Wir haben zwei Tage damit verbracht, gängige Evaluierungsframeworks für LLMs zu überprüfen, die strukturierte Metriken, Protokolle und Traces bereitstellen, um zu identifizieren, wie und wann ein Modell vom erwarteten Verhalten abweicht. Konkret haben wir:

LLM Bewertungslandschaft

Funktionskategorie
Werkzeuge
Hauptzweck
OpenAI Evals, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI
Bewerten Sie die Ergebnisse von LLM anhand von Kennzahlen für Qualität, Genauigkeit und Kohärenz.
Promptfoo, Humanloop, Opik
Entwerfen, testen und optimieren Sie Eingabeaufforderungen für eine bessere Modellausgabe.
LangChain Evals, LangSmith, LlamaIndex Eval
Evaluieren Sie LLMs innerhalb spezifischer Ökosysteme wie LangChain oder LlamaIndex.
Arize Phoenix, Langfuse, Langtrace AI, Lunary
Kontinuierliche Überwachung und Analyse der Modellperformance im Produktionsbetrieb.

LLM Bewertungsfähigkeiten

Erläuterung der Bewertungsmöglichkeiten:

  • KI-Gateway (Multi-Modell-Zugriff): Fähigkeit der Plattform, mehrere Basismodelle über eine einheitliche API-Schnittstelle auszuwerten.
  • Einzelrunden-Evaluierungen: Messen die Modellleistung bei einzelnen Eingabeaufforderungen anhand von Kennzahlen wie Genauigkeit, Faktentreue oder Kohärenz.
  • Mehrrunden-Evaluationen: Unterstützt die Auswertung mehrstufiger oder dialogischer Interaktionen, um kontextuelles Denken und Gedächtnis zu testen.
  • Offline-Evaluierungen: Offline-Evaluierungen dienen der Überprüfung der Anwendungsergebnisse (LLM) vor der Produktionsfreigabe. Verwenden Sie Offline-Evaluierungen für CI/CD-Prüfungen Ihrer Anwendung (LLM).
  • Benutzerdefinierte LLM-Metriken: Ermöglicht die Definition domänenspezifischer oder aufgabenspezifischer Bewertungsmetriken, die über voreingestellte Bewertungsmethoden hinausgehen.

Agentenverhalten und Überwachungsmöglichkeiten für Tools

Evaluierungsinstrumente können bei der Erkennung von nicht konformem Agentenverhalten hilfreich sein, insbesondere wenn man den Umfang der „Evaluierung“ erweitert (nicht nur Aufforderung oder Antwort, sondern auch Agentenverhalten im Laufe der Zeit, Werkzeugnutzung, Nebenwirkungen).

Anthropic legt nahe, dass die Bewertung des Verhaltens eines Modells, nicht nur dessen, was es aussagt, zu einer entscheidenden Dimension des Vertrauens und der Sicherheit in KI-Systemen der nächsten Generation werden könnte. 1

Kernbewertungsrahmen LLM

OpenAI Eval s

Evals ist ein Open-Source-Evaluierungsframework, das von Evals entwickelt wurde, um die Leistung großer Sprachmodelle systematisch zu bewerten.

Es handelt sich um eine universelle Evaluierungsinfrastruktur, die es Benutzern ermöglicht, die Modellqualität über eine Vielzahl von Aufgaben hinweg zu messen; von der Textgenerierung und dem logischen Schlussfolgern bis hin zur strukturierten Ausgabegenerierung wie Code oder SQL.

Hier ist ein Beispiel für eine Evaluierungspipeline, die mit OpenAI Evals erstellt wurde und die Fähigkeit eines Modells zur Generierung syntaktisch korrekter SQL-Abfragen bewertet. Die Evaluierung verwendet synthetische Daten, die mit GPT-4 generiert wurden, und eine benutzerdefinierte YAML-Konfiguration, um die Evaluierung im Framework zu registrieren:

Quelle: OpenAI 2

DeepEval

Es handelt sich um ein Python-basiertes Framework, das oft als „pytest für LLMs“ beschrieben wird. Es zeichnet sich durch seine große Anzahl an forschungsbasierten Metriken und seine Fähigkeit aus, komplette Pipelines oder isolierte Komponenten zu testen.

Hier ist ein Beispiel für eine Trace-Auswertung, die eine einzelne Ausführung einer LLM-Anwendung darstellt. Die Ausführung von Auswertungen auf Traces ermöglicht eine durchgängige Bewertung des Modellverhaltens, ähnlich wie Einzelausführungs-Auswertungen während der Entwicklung:

Quelle: ConfidentAI 3

MLflow (LLM Eval)

Es erweitert MLflow um die Evaluierung (LLM). Seine größte Stärke liegt in der Nachverfolgung von Experimenten und dem direkten Vergleich über verschiedene Durchläufe und Releases hinweg.

Hier sehen Sie ein Beispiel der Auswertungsvergleichsansicht von MLflow, die die Ergebnisse mehrerer Durchläufe nebeneinander anzeigt. In diesem Fall verbesserte sich die Metrik „Concise Scorer“ um 33 %, während die Konzeptabdeckung um 11 % sank.

Quelle: MLflow 4

Ragas

RAGAS (Retrieval-Augmented Generation Assessment Suite) ist ein Open-Source-Evaluierungsframework, das speziell für die Leistungsmessung von Retrieval-Augmented-Generation-Anwendungen (RAG) und agentenbasierten Anwendungen (LLM) entwickelt wurde. Es bietet eine ressourcenschonende Experimentierumgebung, ähnlich wie pandas für die schnelle Datenanalyse.

RAGAS bewertet, wie effektiv ein System relevanten Kontext abruft und in seine generierten Antworten integriert. Dies geschieht anhand einer Reihe von wissenschaftlich fundierten Metriken, darunter:

  • Genauigkeit : Wie genau die generierte Antwort den abgerufenen Kontext widerspiegelt.
  • Kontextuelle Relevanz : Wie relevant die abgerufenen Dokumente für die Suchanfrage sind.
  • Antwortrelevanz : Wie relevant die generierte Antwort für die Frage des Nutzers ist.
  • Kontextueller Abruf und kontextuelle Präzision : wie vollständig und präzise relevante Informationen abgerufen werden.

Diese Metriken ergeben zusammen einen Gesamtscore (RAG), der sowohl die Qualität der Datenabfrage als auch der Datengenerierung quantifiziert. Über RAG hinaus unterstützt RAGAS nun Metriken für agentenbasierte Workflows, Werkzeugnutzung, SQL-Auswertung und sogar multimodale Aufgaben durch Erweiterungen wie Multimodal Faithfulness und Noise Sensitivity .

RAGAS führt außerdem im Laufe der Zeit neue Metriken ein, die im RAGAS GitHub-Repository hier verfügbar sind.

Hier ist eine Score-Verteilungsanalyse von RAGAS:

Quelle: RAGAS 5

TruLens

TruLens ist eine Open-Source-Bibliothek zur qualitativen Analyse von LLM-Ausgaben. Sie arbeitet mit Feedback-Funktionen, die nach jedem Modellaufruf ausgeführt werden, um die Antwort zu bewerten. Sie eignet sich hervorragend für die Analyse von Argumentationszusammenhängen und die qualitative Bewertung, nicht nur für die Genauigkeitsprüfung.

Über die Genauigkeitsprüfung hinaus unterstützt TruLens auch die ethische und verhaltensbezogene Evaluation:

Deepchecks (LLM)

Deepchecks (LLM) ist ein Open-Source-Evaluierungsframework, das ursprünglich für die Validierung von ML-Modellen entwickelt wurde und nun für große Sprachmodelle (LLM) und RAG-Anwendungen erweitert wurde. Es bietet Module, die speziell für die Evaluierung von Retrieval-Pipelines auf Basis von LLM entwickelt wurden.

Deepchecks (LLM) zeichnet sich durch seinen Fokus auf Bewertungsmetriken und Automatisierungspipelines aus:

  • Agent als Richter
  • RAG Bewertung
  • LLM Bewertungsrahmen
  • CI/CD-Pipelines

Hier ist ein Beispiel für einen Frage-Antwort-Anwendungsfall, in dem das Modell eine medizinische Frage zu GVHD-bedingten Schmerzen beantwortet.

Quelle: Deepchecks 6

KI prüfen

Inspect AI ist ein Open-Source-Evaluierungsframework (LLM), das speziell für wissenschaftliche Bewertungen entwickelt wurde. Es unterstützt sowohl die Evaluierung auf Modell- als auch auf Agentenebene und ermöglicht es Nutzern, nicht nur die Ergebnisse einzelner Modellschritte, sondern auch das mehrstufige Verhalten von Agenten, Schlussfolgerungsketten und die Aufgabenausführung im Zeitverlauf zu bewerten.

Das Framework lässt sich in isolierten Umgebungen wie Docker-Containern oder virtuellen Maschinen unkompliziert einrichten und eignet sich daher ideal zur sicheren Evaluierung agentenbasierter Workflows, ohne das Hostsystem preiszugeben. Inspect bietet ein klares Modell zur Aufgabendefinition und -ausführung, mit dem Benutzer schnell Evaluierungsaufgaben definieren, Stichprobengrößen steuern (z. B. für statistische Standards im CI-Stil) und Evaluierungen in automatisierte Pipelines integrieren können.

Inspect liefert zudem detaillierte, schrittweise Auswertungsprotokolle, einschließlich Latenz und Token-Verbrauch pro Schritt, sowie einen Bericht über Aktionen und Tool-Aufrufe. Diese Granularität erleichtert die Diagnose, wo und warum ein Modell oder Agent vom erwarteten Verhalten abweicht.

Ein weiterer Vorteil von Inspect AI ist, dass es für die Offline-Auswertung konzipiert ist und Korrektheit, Transparenz und Reproduzierbarkeit gegenüber Echtzeit-Telemetriefunktionen priorisiert.

Schnelles Testen und Optimieren

Promptfoo

Promptfoo ist ein Open-Source-Toolkit für die Entwicklung, das Testen und die Evaluierung von Eingabeaufforderungen. Es ermöglicht A/B-Tests von Eingabeaufforderungen und Ausgaben mithilfe einfacher YAML- oder Kommandozeilenkonfigurationen und unterstützt Evaluierungen, bei denen ein externer Tester die Ergebnisse bewertet.

Das Toolkit ist für unkomplizierte Experimente konzipiert, benötigt keine Cloud-Einrichtung oder SDK-Abhängigkeiten und wird von Entwicklern häufig für schnelle Iterationen und automatisierte Robustheitstests (wie z. B. Prompt-Injection oder Toxizitätsprüfungen) eingesetzt. Es eignet sich optimal zur Integration von Prompt-Evaluierungen in alltägliche Entwicklungsabläufe.

Humanloop

Humanloop ist eine Plattform zur schnellen Auswertung und Optimierung, die auf dem Feedback von Nutzern basiert. Sie ermöglicht es Teams, menschliche Einschätzungen zu den Ergebnissen von LLM zu erfassen und zu analysieren und so die Qualität der Auswertungen, die Modellausrichtung und die Zuverlässigkeit zu verbessern.

Opik (von Comet)

Opik ist eine Open-Source-Evaluierungs- und Überwachungsplattform, die von Comet entwickelt wurde. Sie bietet Werkzeuge zur Verfolgung, Bewertung und Überwachung von Anwendungen während ihres gesamten Entwicklungs- und Produktionslebenszyklus.

Opik protokolliert vollständige Ablaufverfolgungen und Spannen von Prompt-Workflows, unterstützt automatisierte Metriken (einschließlich komplexer Metriken wie faktische Korrektheit über LLM-as-a-judge) und ermöglicht einen Leistungsvergleich über Prompt- oder Modellversionen hinweg.

Seine Besonderheit liegt in der Kombination aus schneller Auswertung, Versuchsmanagement und Beobachtbarkeit, wodurch die Lücke zwischen Testen und Produktionsüberwachung geschlossen wird.

To get up to date on enterprise AI and software, follow us:
Cem Dilmegani
Cem Dilmegani
Principal Analyst

Rahmenspezifische Bewertung

LangChain Bewertungen

Evals ist ein Framework-spezifisches Evaluierungstool für Workflows. Es bietet eine Reihe integrierter Evaluierungsvorlagen und Metriken, die speziell für die Bewertung der Leistung von Anwendungen entwickelt wurden, insbesondere solcher mit komplexen Ketten von Prozessen.

LangSmith

LangSmith ist eine Evaluierungs- und Beobachtbarkeitsplattform, die vom Team LangChain entwickelt wurde. Sie bietet Werkzeuge zum Protokollieren und Analysieren von Interaktionen LLM und verfügt über spezialisierte Evaluierungsfunktionen für Aufgaben wie die Erkennung von Verzerrungen und Sicherheitstests.

Es handelt sich um einen verwalteten (gehosteten) Dienst und nicht um ein vollständig quelloffenes Tool, der Unterstützung auf Unternehmensebene für auf LangChain basierende Anwendungen bietet.

LlamaIndex Eval

LlamaIndex Eval ist ein in das LlamaIndex-Framework (ehemals GPT Index) integriertes Evaluierungstoolkit zur Bewertung von auf LlamaIndex basierenden Pipelines. Es beinhaltet einen Korrektheitsbewerter, der generierte Antworten mit Referenzantworten für eine gegebene Anfrage vergleicht und zudem Referenzen als Bewertungskriterium verwenden kann, um die Antwortqualität referenzfrei zu beurteilen.

Seine Funktionalität ähnelt der von RAGAS, jedoch ist es nativ in den LlamaIndex-Workflow eingebettet, sodass Entwickler die Qualität von Abruf und Generierung bewerten können, ohne externe Abhängigkeiten einzuführen.

LLM Observability-Frameworks mit Evaluierungsfunktionen

Arize Phoenix

Phoenix, entwickelt von Arize AI (einem Unternehmen für ML-Observability), ist ein Open-Source-Toolkit zur Analyse und Fehlerbehebung von LLM-Verhalten in Produktionsumgebungen. Im Gegensatz zu herkömmlichen Evaluierungsframeworks konzentriert sich Phoenix auf Observability und explorative Analyse anstatt auf vordefinierte Metriken.

Phoenix kann zur Überwachung von bereitgestellten RAG- oder LLM-Systemen verwendet werden. Anschließend können Frameworks wie RAGAS oder Giskard für eine detailliertere Auswertung der identifizierten Probleme auf Metrikebene herangezogen werden.

Langfuse

Langfuse konzentriert sich primär auf die Überwachung von Systemen für große Sprachmodelle (Large Language Models, LLM) und Systemen für die generative Informationsgewinnung (Retrieval-Augmented Generation, RAG). Es unterstützt Teams bei der Verfolgung und Analyse der Modellleistung in Echtzeit-Produktionsumgebungen.

Obwohl es die Modellleistung anhand verschiedener Metriken bewerten kann, liegt seine Kernstärke darin, Einblick in das Verhalten der Pipelines LLM und RAG während des Betriebs zu geben. Dies umfasst die Überwachung der Leistung bei den LLM-Ausgaben, der Abrufqualität und der Modelldrift, um sicherzustellen, dass die Modelle auch bei der Interaktion mit dynamischen Datensätzen oder bei Veränderungen im Laufe der Zeit die Qualitätsstandards weiterhin erfüllen.

Langtrace AI

Langtrace AI ist auf die Bewertung von LLM-Anwendungen spezialisiert, indem es detaillierte Protokolle und Leistungskennzahlen erfasst. Es bietet Tools zur Überwachung wichtiger Aspekte wie Token-Nutzung, Latenz, Genauigkeit und Kosten und ermöglicht so einen umfassenden Überblick über das Verhalten und die Leistung des Modells.

Lunary

Lunary ist spezialisiert auf die Bereitstellung umfassender Beobachtbarkeit von Interaktionen und ermöglicht es Entwicklern, das Modellverhalten in Echtzeit-Produktionsumgebungen zu überwachen und zu bewerten.

LLM Bewertungsmetriken

Die Bewertungsmetriken haben sich von traditionellen statistischen Bewertungsmethoden über modellbasierte Ansätze bis hin zu Ansätzen entwickelt, bei denen die Bewertung als Beurteilungskriterium dient. Hier folgt eine kurze Erläuterung der einzelnen Ansätze:

  • Statistische Bewertungsmethoden (referenzbasiert): Metriken wie Genauigkeit, Präzision, Trefferquote, F1-Score, BLEU und ROUGE messen die Übereinstimmung mit einer Referenzlösung. Sie eignen sich gut für strukturierte Aufgaben (z. B. Klassifizierung, Zusammenfassung), haben aber Schwierigkeiten mit offenen Aufgabenstellungen.
  • Modellbasierte Bewertungsverfahren (referenzfrei): Metriken wie Supert, BLANC, SummaC oder QAFactEval bewerten die Textqualität, die Faktentreue oder die logische Konsistenz ohne exakte Referenzen.
  • LLM-basierte Bewertungsmethoden (LLM-als-Richter): Die Auswertungen verwenden ein anderes Modell (z. B. GPT-5 ), um die Qualität der Antworten im Kontext zu beurteilen.

Weitere Informationen finden Sie unter: Agentic evals: How we evaluate LLM applications?

Warum LLM-Auswertungen schwierig sind

Die Bewertung von LLMs ist alles andere als einfach. Abgesehen davon, dass die Qualitätskriterien je nach Anwendungsfall variieren, unterscheidet sich der Bewertungsprozess selbst grundlegend von traditionellen Softwaretests oder der Bewertung prädiktiver ML-Systeme.

Eine zentrale Schwierigkeit besteht im Nichtdeterminismus: LLMs erzeugen probabilistische Ausgaben, sodass dieselbe Eingabe jedes Mal unterschiedliche Ergebnisse liefern kann, was die Messung von Konsistenz und Reproduzierbarkeit erschwert.

Bildquelle: AI World 7

Während die Wahrscheinlichkeitsnatur von LLMs kreative und vielfältige Antworten ermöglicht, erschwert sie auch das Testen; man muss feststellen, ob eine Reihe von Ergebnissen noch den Erwartungen entspricht, anstatt nach einer einzigen richtigen Antwort zu suchen.

Es gibt keine allgemeingültige Wahrheit: Systeme wie LLM bearbeiten häufig offene Aufgaben wie Schreiben, Zusammenfassen oder Konversation. In diesen Fällen können viele gültige Antworten existieren. Die Bewertung solcher Systeme erfordert die Messung semantischer Ähnlichkeit, Tonfall, Stil oder faktischer Richtigkeit, nicht nur den Abgleich mit Referenztexten.

Vielfältige Eingabemöglichkeiten: Anwendungen sehen sich einer Vielzahl von Eingaben gegenüber. Beispielsweise kann ein Kundensupport-Bot Fragen zu Rücksendungen, Rechnungen oder Kontosicherheit bearbeiten. Eine effektive Evaluierung erfordert szenariobasierte Testsets , die diese Vielfalt abbilden.

Selbst gut konzipierte Offline-Tests können im realen Einsatz versagen, wenn Benutzer unerwartete Eingabeaufforderungen und Sonderfälle einführen. Dies unterstreicht die Notwendigkeit einer kontinuierlichen Evaluierung und Überwachung im Produktivbetrieb, um eine gleichbleibende Modellqualität über die Zeit zu gewährleisten.

Einzigartige Risiken bei der Bewertung von LLM

Die Arbeit mit probabilistischen, anweisungsbefolgenden Systemen birgt neue und komplexe Risiken, die bei der traditionellen KI-Evaluierung selten berücksichtigt werden:

  • Halluzinationen: Das Modell kann falsche oder irreführende Fakten erzeugen – zum Beispiel Produkte erfinden, nicht existierende Quellen zitieren oder falsche medizinische oder rechtliche Ratschläge erteilen.
  • Jailbreaks: Angreifer können Eingabeaufforderungen ausnutzen, um Sicherheitsbeschränkungen zu umgehen und das Modell dazu zu bringen, schädliche, voreingenommene oder unzulässige Inhalte zu produzieren.
  • Datenlecks: Ein System mit der Kennung LLM könnte unbeabsichtigt sensible oder geschützte Informationen aus seinen Trainingsdaten oder verbundenen Systemen preisgeben .

Um dem entgegenzuwirken, benötigen Teams robuste Evaluierungsabläufe , die über Genauigkeitsmetriken hinausgehen:

  • Stresstests von Modellen mit adversariellen und Grenzfall-Eingaben sollen Schwachstellen aufdecken.
  • Führe Red-Teaming- und Sicherheitsbewertungen durch, um die Widerstandsfähigkeit des Modells gegenüber böswilligen Eingaben zu testen.
  • Die Live-Interaktionen werden kontinuierlich überwacht, um auftretende Probleme wie Abweichungen, Datenschutzverletzungen oder unsichere Ausgaben in der Produktion zu erkennen.

LLM Bewertungsmethoden

Evaluierungsmethoden helfen dabei, die Leistungsfähigkeit eines Sprachmodells bei Aufgaben wie Schlussfolgerung, Zusammenfassung und Dialog zu messen. Statistische Metriken (z. B. BLEU, ROUGE) reichen bis hin zu objektiven Bewertungsansätzen, bei denen ein anderes Modell Qualität, Sicherheit und faktische Richtigkeit beurteilt. Darüber hinaus gibt es agentenbasierte und verhaltensbasierte Testmethoden, die das Verhalten der Modelle im Zeitverlauf und ihren Umgang mit Werkzeugen überwachen.

Einen detaillierteren Überblick über die wichtigsten Ansätze und ihre Herausforderungen erhalten Sie in unserem vollständigen Artikel über Evaluierungsmethoden (LLM) .

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450