Einblick

200+ Führende KI-Benchmarks

aktualisiert am 8. Juli 2026

Wir haben eine Liste mit über 200 KI-Benchmarks für LLMs, GPUs, Cloud-GPUs, KI-Agenten, tabellarische KI und Cybersicherheit zusammengestellt, die noch nicht gesättigt sind.

Wachstum der KI-Benchmarks

Loading Chart

Wir stellten fest, dass die Benchmarking-Aktivität in den Jahren 2024–2025 relativ gering und stabil war, dann aber Anfang 2026 anstieg. Dies spiegelt das rasante Wachstum der zu evaluierenden KI-Systeme wider, insbesondere da die Modelle in den Bereichen Codierung, logisches Denken, multimodale Aufgaben, Agentenfähigkeiten und geschäftliche Anwendungsfälle leistungsfähiger geworden sind.

KI-Benchmarks nach Kategorien

Wir haben die KI-Benchmarks nach ihren Hauptkategorien aufgelistet. LLM-Benchmarks sind führend in Bezug auf die größte Anzahl an Benchmarks.

KI-Benchmarks nach Unterkategorien

Lassen Sie unser Team einen Ihrer Geschäftsprozesse kostenlos mit KI-Agenten automatisieren.

Einen Prozess automatisieren

Liste der KI-Benchmarks

Benchmark	Kategorie	Unterkategorie	Metrik	Letzte Messung	Freq.	Leistung	Preis	Latenz	Zuverlässigkeit	Kontaminationsresistent	Kontaminationsquelle
BenchLM Weighted Score	LLM	Intelligenz	Intelligenz	05-26	Kontinuierlich	T	T	F	F	F	benchlm.ai/methodology
Humanity's Last Exam	LLM	Logisches Denken	Logisches Denken	05-26	Kontinuierlich	T	F	F	F	T	labs.scale.com/leaderboard/humanitys_last_exam
ARC-AGI-2	LLM	Logisches Denken	Logisches Denken	05-26	Kontinuierlich	T	T	F	F	T	arcprize.org/guide/1
SimpleBench	LLM	Logisches Denken	Logisches Denken	05-26	Pro Veröffentlichung	T	F	F	F	T	simple-bench.com
CritPt	LLM	Logisches Denken	Logisches Denken	05-26	Pro Veröffentlichung	T	F	F	F	T	artificialanalysis.ai
FrontierMath	LLM	Mathematik	Mathematisches Denken	05-26	Pro Veröffentlichung	T	F	F	F	T	epoch.ai/frontiermath
FrontierMath Tier 4	LLM	Mathematik	Mathematisches Denken	05-26	Pro Veröffentlichung	T	F	F	F	T	epoch.ai
AIME 2025	LLM	Mathematik	Mathematik	04-26	Pro Veröffentlichung	T	F	F	F	F	matharena.ai
AIME 2026	LLM	Mathematik	Mathematik	04-26	Jährlich	T	F	F	F	T	matharena.ai
USAMO 2026	LLM	Mathematik	Mathematischer Beweis	03-26	Jährlich	T	F	F	F	T	matharena.ai

Lesen Sie unsere Methodik, um zu erfahren, wie wir diese Liste zusammengestellt haben.

Hinweise zum Lesen der Liste:

Die vier Spalten mit booleschen Flags (T = wahr, F = falsch) geben an, welche Bewertungsdimension jeder Benchmark abdeckt. Jedes Flag beantwortet eine Ja/Nein-Frage zum Umfang des Benchmarks:

Leistung (T/F): Bewertet der Benchmark die Fähigkeit oder Qualität, wie z. B. Ausgabegenauigkeit, Aufgabenerfüllung oder Intelligenz? Dies ist für fast alle Benchmarks mit T markiert, da die meisten bewerten, wie gut ein Modell oder System funktioniert. Es ist mit F für Benchmarks markiert, die sich ausschließlich auf Kosten oder Geschwindigkeit konzentrieren und die Ausgabequalität nicht bewerten.
Preis (T/F): Beinhaltet der Benchmark kostenbezogene Faktoren, wie z. B. Dollar pro Token, Preis pro Durchsatz oder Kosten pro Aufgabe?
Latenz (T/F): Misst der Benchmark die Geschwindigkeit, wie z. B. Tokens pro Sekunde, Zeit bis zum ersten Token, Durchsatz oder Antwortzeit? Es ist F für Benchmarks, die Korrektheit bewerten, unabhängig davon, wie lange die Antwort dauert.
Zuverlässigkeit (T/F): Bewertet der Benchmark die Konsistenz oder Verlässlichkeit, wie z. B. Varianz zwischen Durchläufen, Stabilität der Erfolgsraten oder Robustheit? Dies ist das am wenigsten verbreitete Flag. Es ist T für Benchmarks, die für diesen Zweck entwickelt wurden, einschließlich HAL Reliability, tau-bench/tau2-bench, METR Time Horizons und mehreren Agenten-Benchmarks, bei denen die Konsistenz der Bestehensrate im Mittelpunkt steht. Es ist F für die meisten Leaderboards, die eine einzelne Gesamtpunktzahl melden.
Kontaminationsresistent (T/F): Gibt an, ob der Benchmark darauf ausgelegt ist, das Risiko einer Datenkontamination zu verringern, bei der Testfragen in den Trainingsdaten eines Modells erscheinen und das Modell hohe Punktzahlen eher durch Wiedererkennung als durch echte Fähigkeiten erzielt. T bedeutet, dass der Benchmark eine sinnvolle Abwehrmaßnahme hat, wie z. B. einen versteckten Holdout, neu generierte oder rotierende Fragen, monatliche Auffrischungen, selbstgenerierende Elemente oder Wettbewerbsprobleme, die nach dem Trainingsstichtag eines Modells veröffentlicht wurden. F bedeutet, dass der Benchmark ein fester öffentlicher Datensatz ist, der seit Jahren online ist und möglicherweise in Trainingskorpora aufgenommen wurde. In diesen Fällen sollten hohe Punktzahlen mit größerer Vorsicht interpretiert werden.

In der Praxis stellt eine mit T/F/F/F markierte Zeile einen reinen Qualitätsbenchmark dar. Im Gegensatz dazu bewertet ein mit T/T/T/T/F markierter Benchmark Qualität, Kosten und Geschwindigkeit zusammen. Diese Flags bieten eine kompakte Taxonomie, die zeigt, welche der vier Bewertungsachsen jeder Benchmark abdeckt.

Warum sind einige Zellen leer?

Kontaminationsresistent & Kontaminationsquelle: Diese beiden Felder sind normalerweise aus denselben Gründen für dieselben Zeilentypen leer, insbesondere bei GPU, Cloud-GPU, Geschwindigkeits- und Preisbenchmarks. Kontaminationsresistenz ist relevant für Wissens- und Denkbenchmarks, bei denen ein Modell Testfragen aus den Trainingsdaten auswendig gelernt haben könnte. Bei Hardware-Durchsatz-, Latenz- oder Preisbenchmarks gibt es keine zu kontaminierenden Testfragen, daher wird das Feld leer gelassen, anstatt mit T oder F markiert zu werden.

KI-Benchmarks Methodik

Wir haben die Benchmark-Daten durch einen Online-Recherche- und Validierungsprozess gesammelt. Das Ziel war es, eine strukturierte Liste von Technologie-Benchmarks zu erstellen, die für den Vergleich aktueller KI-Systeme und -Infrastrukturen nützlich bleiben und LLMs, GPUs, Cloud-GPUs, KI-Agenten, tabellarische KI und Cybersicherheit abdecken.

Wir begannen mit der Definition des Umfangs des Datensatzes. Wir konzentrierten uns auf Benchmarks, die Modellfähigkeit, Infrastrukturleistung, Kosten, Latenz, Zuverlässigkeit oder Kontaminationsresistenz messen. Die anfängliche Quellenliste umfasste große Benchmark- und Analyseanbieter wie Artificial Analysis, SemiAnalysis, Vals KI, LMArena, AIMultiple und Epoch KI sowie offizielle Benchmark-Websites, GitHub-Repositories, akademische Arbeiten, Leaderboard-Seiten und relevante Drittanbieter-Benchmark-Aggregatoren.

Für jeden Benchmark haben wir sowohl beschreibende als auch bewertende Felder erfasst. Beschreibende Felder erfassen, was der Benchmark ist, was er misst, welche Produkte oder Modelle bewertet werden und wie häufig er aktualisiert wird. Bewertende Felder klassifizieren, ob der Benchmark Leistung, Preis, Latenz oder Zuverlässigkeit misst. Wir haben auch Informationen zur Benchmark-Struktur und Datenintegrität gesammelt.

Wir haben nach Möglichkeit Primärquellen priorisiert. Dazu gehörten offizielle Benchmark-Methodikseiten, Leaderboard-Seiten, GitHub-Repositories, Benchmark-Papiere und Anbieterdokumentationen. Wenn eine Primärquelle ein bestimmtes Feld nicht bereitstellte, haben wir seriöse Sekundärquellen oder Aggregatoren verwendet, um Lücken zu füllen, insbesondere bei Spitzenwerten, aktueller Modellabdeckung und aktuellen Messdaten. Quellenspalten wurden im gesamten Datensatz aufgenommen, damit die Evidenz für jeden Wert zu ihrer Quelle zurückverfolgt werden konnte.

Entdecken Sie weitere unserer Benchmarks und datengestützten Erkenntnisse in der Google-Suche.

Als bevorzugte Quelle hinzufügen

Diese Forschung zitieren

Wählen Sie das Format, das zu Ihrem Veröffentlichungsort passt. Wenn Sie die Link-Version in Ihr CMS einfügen, bleibt der Backlink erhalten.

Sıla Ermut (2026) - "200+ Führende KI-Benchmarks". Online veröffentlicht auf AIMultiple.com. Abgerufen am 8. Juli 2026, von: https://aimultiple.com/ai-benchmarks [Online-Ressource]

Ermut, S. (2026, 8. Juli). 200+ Führende KI-Benchmarks. AIMultiple. https://aimultiple.com/ai-benchmarks

@misc{ermut2026,
  author = {Ermut, Sıla},
  title  = {{200+ Führende KI-Benchmarks}},
  year   = {2026},
  month  = jul,
  howpublished    = {\url{https://aimultiple.com/ai-benchmarks}},
  note   = {AIMultiple. Abgerufen am 8. Juli 2026}
}

Sıla Ermut

Branchenanalystin

Folgen auf

Sıla Ermut ist Branchenanalystin bei AIMultiple mit Schwerpunkt auf E-Mail-Marketing und Verkaufsvideos. Sie arbeitete zuvor als Personalvermittlerin in Projektmanagement- und Beratungsfirmen. Sıla hat einen Master of Science in Sozialpsychologie und einen Bachelor of Arts in Internationale Beziehungen.

Vollständiges Profil anzeigen