Vergleich der 9 führenden KI-Anbieter

mit

aktualisiert am Mai 18, 2026

Das Ökosystem der KI-Infrastruktur wächst rasant, und die Anbieter verfolgen unterschiedliche Ansätze zum Erstellen, Hosten und Beschleunigen von Modellen. Obwohl sie alle darauf abzielen, KI-Anwendungen zu ermöglichen, konzentriert sich jeder auf eine andere Ebene des Technologie-Stacks.

Wir haben die gängigsten Anbieter anhand der folgenden Datenbanken verglichen: OpenRouter: Cerebras, DeepInfra, Fireworks AI, Groq, Nebius und SambaNova. Dabei verwendeten wir das GPT-OSS-120B-Modell. Für die Evaluierung jedes Anbieters nutzten wir denselben Datensatz mit 108 Fragen, bestehend aus 35 Fragen zum Alltagswissen und 73 Aufgaben zum mathematischen Denken.

Genauigkeitsvergleich von KI-Anbietern

Loading Chart

Wir senden jedem Anbieter den ganzen Tag über alle 5 Minuten 108 Fragen (35 Wissensfragen zu Artikeln + 73 Rechenaufgaben) und berechnen die durchschnittliche tägliche Genauigkeit. Zusätzlich senden wir jedes Mal eine spezifische Referenzfrage, um die FTL- und E2E-Latenz-Metriken zu messen.

Aus unbekannten Gründen konnte die KI Fireworks am 26. Oktober trotz fehlender Token-Beschränkung für die meisten Fragen keine endgültigen Antworten liefern. Zwar gab es an diesem Tag eine kurze Ausfallzeit von einer Minute, das Problem schien jedoch den gesamten Tag über die Antworten zu beeinträchtigen. Wie bereits dokumentiert, haben wir festgestellt, dass einige Anbieter gelegentlich aus noch ungeklärten Gründen keine endgültigen Antworten generieren. Dieser Vorfall ähnelt früheren Ereignissen.

Wir haben GPT-OSS-120B auf einer RunPod H200 GPU-Instanz getestet und dabei eine Genauigkeit von 98 % auf dem in unserem Benchmark verwendeten Datensatz erzielt. Lesen Sie mehr über unsere Benchmark-Methodik.

Latenz-Benchmark für KI-Anbieter

An Tagen, an denen die Latenz für Fireworks anstieg, kam es zu einer Ausfallzeit von 1 Minute, aber im Laufe des Tages wurden die meisten Fragen aus unbekannten Gründen in jeweils etwa 10 Minuten beantwortet.

Latenz- und Kostenvergleich

Wir haben die am weitesten verbreiteten Modelle identifiziert, die auch am häufigsten von KI-Anbietern angeboten werden, und anschließend die durchschnittlichen Preise der Anbieter pro 1 Million Input/Output-Token sowie deren Latenzwerte für den ersten Token erfasst.

KI-Anbieter: Detaillierter Vergleich

Integration von Daten- und ML-Pipelines

Gewichte & Verzerrungen

Weights & Biases (W&B) kombiniert Experiment-Tracking, Modellevaluierung und Anwendungs-Observability mit einer verwalteten Trainings- und Inferenzinfrastruktur. Ursprünglich als System of Record für ML-Workflows positioniert, hat sich W&B nach der Übernahme von CoreWeave zu einem stärker vertikal integrierten Angebot entwickelt.

Fähigkeiten

Erfasst Experimente, Hyperparameter, Metriken, Datensätze und Artefakte, um die Reproduzierbarkeit und Vergleichbarkeit über verschiedene Modelle und Infrastrukturen hinweg zu gewährleisten.
Bietet ein Modellregister mit Versionierung, Promotion, Rollback und Herkunftsnachweis, das Modelle mit Daten und Trainingsläufen verknüpft.
Bietet verwaltetes Training und Feinabstimmung, einschließlich serverloser GPU-Berechnungen für Reinforcement Learning und generative KI-Workloads.
Unterstützt gehostete Inferenz für Open-Source- und benutzerdefinierte Modelle.
Ermöglicht die Überwachung von LLM-Anwendungen auf Anfrageebene durch Weave und erfasst dabei Eingabeaufforderungen, Antworten, Latenz und Bewertungsergebnisse.
Unterstützt die automatisierte und die manuelle Bewertung und das Benchmarking verschiedener Modelle, Eingabeaufforderungen und Anbieter.
Integriert neben der eigenen Infrastruktur auch Drittanbieter von KI-Lösungen, selbstgehostete GPUs und externe APIs.

Einschränkungen

W&B bietet über seine CoreWeave-basierten Angebote eine eingeschränkte native KI-Infrastruktur. Gehostete Inferenz und serverloses GPU-Training werden unterstützt, aber für das Training umfangreicher oder kundenspezifischer Modelle ist häufig externe Infrastruktur erforderlich.

Anwendungsfall: Am besten geeignet für KI-Teams, die eine durchgängige Transparenz über Experimente, Training, Evaluierung und Bereitstellung hinweg benötigen, insbesondere beim Vergleich mehrerer Modelle oder Anbieter und bei der Aufrechterhaltung einer produktionsreifen Observability ohne vollständige Anbieterbindung.

Databricks

Databricks bietet eine einheitliche Plattform, die Datenanalyse, maschinelles Lernen und Modellmanagement kombiniert.

Fähigkeiten

Basierend auf der Spark-Infrastruktur ermöglicht es die durchgängige Integration von Datenaufbereitung, Modelltraining und Inferenz.
Verwendet MLflow für die Modellverfolgung, einschließlich Parameter, Metriken und Experimenthistorie.
Unity Catalog gewährleistet Datenherkunft und Datengovernance fürverantwortungsvolle KI-Praktiken .
Starke Kompetenzen in der Stapelverarbeitung und im Modellvergleich.

Einschränkungen

Nicht für Echtzeit-Inferenz optimiert. Überwachung und Metriken sind für Batch-Verarbeitung ausgelegt, nicht für die Latenz pro Anfrage.
Eher geeignet für die Verwaltung komplexer Prozesse über Daten und Modelle hinweg als für latenzkritische KI-Workloads.

Anwendungsfall: Effizient für Unternehmen, die KI in ihre Data-Science-Pipelines integrieren müssen, insbesondere für prädiktive Modellierung und Unternehmensanwendungen, bei denen Governance und Rückverfolgbarkeit erforderlich sind.

Model-Hosting-Plattformen

Baseten

Baseten positioniert sich als Modellhosting-Plattform für die Bereitstellung und Ausführung von KI-Modellen mit Fokus auf Produktionszuverlässigkeit und detaillierter Beobachtbarkeit.

Fähigkeiten

Die Dauer des API-Aufrufs wird in Modellladen, Inferenz und Antwortserialisierung unterteilt, sodass Entwickler Latenzquellen genau lokalisieren können.
Kaltstarts werden auf Replika-Ebene erfasst, um die Auswirkungen auf die Leistung zu messen.
Benutzer konfigurieren die Parameter für die automatische Skalierung, wie z. B. die Anzahl der Replikate und die Schwellenwerte für gleichzeitige Zugriffe. Dies ermöglicht zwar Flexibilität, birgt aber das Risiko einer Fehlkonfiguration, die entweder zu unnötigen Kosten oder zu höheren Latenzzeiten führen kann.
Dieses System bietet eine Kostenverfolgung pro Anfrage, die mit dem GPU-Typ und der Nutzung verknüpft ist und Leistungs- und Kostenvergleiche beim Wechsel zwischen Hardware wie A100- und H100-GPUs ermöglicht.
Echtzeit-Log-Streaming ist verfügbar, allerdings sind Filter- und Suchfunktionen eingeschränkt.

Einschränkungen

Die Überwachung ist auf Anfrageebene detailliert, die Protokollsuche und -filterung sind jedoch grundlegend, was die Fehlersuche bei großen Arbeitslasten erschwert.
Eine fehlerhafte Konfiguration der automatischen Skalierung kann sich direkt auf Kosten und Latenz auswirken.

Anwendungsfall: Baseten ist ideal für KI-Entwickler, die eine transparente Beobachtbarkeit für generative KI- Modelle in Produktionsumgebungen anstreben.

Parasail

Parasail bietet ein KI-Inferenznetzwerk, das für flexible GPU-Nutzung und Kostenoptimierung entwickelt wurde.

Fähigkeiten

Das System unterstützt den Wechsel zwischen verschiedenen GPU-Typen mit automatischer Ressourcenzuweisung je nach Arbeitslastbedarf.
Das Dashboard hebt aggregierte Nutzungsmetriken hervor, darunter Betriebszeit und GPU-Zuweisung.
Es bietet Preisflexibilität durch verschiedene GPU-Klassen und ermöglicht so Kosten-Nutzen-Abwägungen.

Einschränkungen

Bietet keine Ablaufverfolgung auf Anfrageebene. Entwickler können die Kosten oder die Leistung einzelner Anfragen nicht analysieren.
Die Beobachtbarkeit bleibt auf einer aggregierten Ebene, was die Tiefe des Debuggings einschränkt.

Anwendungsfall: Parasail ist für Organisationen konzipiert, die Wert auf kostengünstige und flexible KI-Lösungen legen, bietet aber weniger Einblicke für Teams, die eine detaillierte Beobachtbarkeit benötigen.

DeepInfra

DeepInfra bietetserverloses GPU -Hosting über mehrere Regionen hinweg und ermöglicht so die skalierbare Bereitstellung von KI-Modellen als APIs.

Fähigkeiten

Die Unterstützung mehrerer Regionen ermöglicht Inferenzprozesse näher an den Endnutzern und reduziert so die Latenz.
Bietet Latenz- und Durchsatzmetriken auf Dashboard-Ebene.
Bietet nutzungsbasierte Preisgestaltung mit aggregierter Kostenaufstellung.
Unterstützt die Bereitstellung von Open-Source-Modellen für generative KI mit einfachen APIs.

Einschränkungen

Bietet keine Ablaufverfolgung auf Anfrageebene, was die Ursachenanalyse erschwert.
Die Kostenaufschlüsselung ist nur aggregiert und enthält keine Details pro Anfrage oder Region.
Die Versionsverwaltung und die Mechanismen zum Zurücksetzen von Modellen sind nicht automatisiert und erfordern eine manuelle Bearbeitung.

Anwendungsfall: Am besten geeignet für Organisationen, die KI-Workloads regionsübergreifend einsetzen, wo Kostenflexibilität und geografische Abdeckung wichtiger sind als tiefgehendes Debugging.

Together AI

Together AI fungiert als KI-Beschleunigungs-Cloud und bietet sowohl Modellhosting- als auch Trainingsmöglichkeiten.

Fähigkeiten

Bietet Metriken sowohl auf aggregierter Ebene als auch auf Anfrageebene, einschließlich Latenzhistogrammen und versionsspezifischer Aufschlüsselungen der Aufrufe.
Die integrierte Modellversionierung und Rollback-Funktion ermöglichen ein schnelles Zurückkehren zu früheren Versionen.
Die Aufteilung des Datenverkehrs ermöglicht A/B-Tests zwischen verschiedenen Modellversionen.
Umfassende SDK-Unterstützung mit mehrsprachigen Clientbibliotheken.
Durch CI/CD-Integrationen sind die Bereitstellungspipelines ausgereifter als bei anderen Hosting-Plattformen.

Einschränkungen

Diese Lösung bietet eine höhere operative Reife, geht aber mit einer höheren Systemkomplexität im Vergleich zu leichteren Hosting-Plattformen einher.

Anwendungsfall: Together AI eignet sich für KI-Unternehmen und professionelle Dienstleistungsfirmen, die eine zuverlässige Versionskontrolle, fortschrittliches Monitoring und die Integration von generativen KI-Tools in strukturierte Arbeitsabläufe benötigen.

Hardwareoptimierte / spezialisierte Infrastruktur

Cerebras

Cerebras konzentriert sich auf hardwareoptimierte KI-Infrastruktur, die um ihre Wafer-Scale Engine (WSE) herum aufgebaut ist.

Fähigkeiten

Die WSE integriert Millionen von Verarbeitungseinheiten auf einem einzigen Chip und bietet so einen extrem hohen Durchsatz für KI-Workloads.
Dashboards zeigen Standardkennzahlen wie Token pro Sekunde und Gesamtdurchsatz an.
Geeignet für das Training und die Inferenz auf Basis fortgeschrittener KI-Modelle in großem Umfang.

Einschränkungen

Die Implementierung erfolgt nicht sofort; sie erfordert eine entsprechende Infrastrukturvorbereitung.
Interne Hardware-Details wie Zeitplanung und Speichernutzung werden für den Benutzer abstrahiert.
Eingeschränkte Unterstützung für die Einbindung beliebiger benutzerdefinierter Modelle.

Anwendungsfall: Effizient für groß angelegte, hochdurchsatzfähige Machine-Learning-Aufgaben in KI-Laboren, der Verteidigungsindustrie oder Regierungsbehörden, wo der Durchsatz wichtiger ist als die Flexibilität.

SambaNova

SambaNova entwickelt Hardware- und Softwarelösungen für KI auf Basis seiner Datenflussarchitektur, die auf der Ebene des Rechengraphen optimiert ist.

Fähigkeiten

Bietet Plattformen wie SambaCloud (Cloud-Service), SambaStack (On-Premise) und SambaManaged (Managed Service).
Optimiert für Inferenz und Training von generativen KI-Modellen.
Standard-Dashboard-Metriken für Latenz und Durchsatz auf Token-Ebene.

Einschränkungen

Für die Implementierung ist die Kompatibilität des Modells mit seiner Architektur erforderlich, was zusätzliche Optimierungen notwendig macht.
Interne Leistungskennzahlen, wie beispielsweise die Speicherbandbreite, werden den Benutzern nicht angezeigt.
Die Einführung erfolgt nicht sofort; es sind Implementierungsphasen erforderlich.

Anwendungsfall: Geeignet für Unternehmen, die KI-gestützte Lösungen benötigen, welche Hardware und Software kombinieren, insbesondere in Branchen, die eine kontrollierte IT-Infrastruktur erfordern.

Groq

Groq bietet eine KI-Inferenzplattform, die von ihren Language Processing Units (LPUs) angetrieben wird.

Fähigkeiten

Optimiert für die sequentielle Token-Generierung mit Streaming-Antworten geringer Latenz.
Dashboards zeigen Tokenanzahl, Latenz und Fehlerraten an.
Die Kosten werden auf Token-Ebene erfasst.

Einschränkungen

Unterstützt keine benutzerdefinierte Modellbereitstellung. Es stehen nur von Groq bereitgestellte Modelle zur Verfügung.
Es stehen nur minimale Debugging-Tools zur Verfügung; falls Leistungsprobleme auftreten, ist die Einreichung eines Support-Tickets erforderlich.
Die internen Abläufe der LPUs bleiben undurchsichtig.

Anwendungsfall: Am besten geeignet für Anwendungen, bei denen extrem niedrige Latenzzeiten für große Sprachmodelle entscheidend sind, wie z. B. dialogbasierte KI oder Entscheidungsalgorithmen.

API-basiertes Hosting

Fireworks AI

Fireworks AI bietet einen schlanken, API-basierten Hosting-Service für KI-Modelle.

Fähigkeiten

Schnelle Modellbereitstellung mit sofort verfügbaren API-Endpunkten.
Unterstützt die Feinabstimmung von generativen KI-Modellen.
Die Dashboards liefern Kennzahlen wie Anruflatenz, Token-Nutzung, Fehlerrate und Anzahl der Anfragen.

Einschränkungen

Die Ablaufverfolgung auf Anfrageebene fehlt, was ein detailliertes Debugging erschwert.
Die Kostendaten sind nur aggregiert und bieten keine Transparenz pro Anfrage.
Das Rollback erfolgt manuell; für die Rückkehr zu älteren Versionen ist eine erneute Bereitstellung erforderlich.

Anwendungsfall: Geeignet für KI-Entwickler, die schnellen Zugriff auf generative KI-Funktionen benötigen, ohne tiefgreifende Observability oder komplexes Deployment-Management.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Was ist ein KI-Anbieter?

Ein KI-Anbieter ist ein Unternehmen für künstliche Intelligenz, das die Infrastruktur , Modelle und Dienstleistungen bereitstellt, die andere benötigen, um KI-gestützte Lösungen zu entwickeln und auszuführen.

KI-Anbieter sind von entscheidender Bedeutung, weil sie:

Niedrigere Hürden für die Einführung von KI, insbesondere für Unternehmen ohne tiefgreifendes internes Fachwissen.
Gewährleisten Sie Skalierbarkeit durch die Abwicklung komplexer Prozesse wie Autoscaling und verteiltes Training.
Bieten Sie Kosteneffizienz mit bedarfsgerechter Infrastruktur anstelle von Vorabinvestitionen in KI-Hardware.
Gewährleisten Sie verantwortungsvolle KI-Praktiken durch Governance-, Rückverfolgbarkeits- und Compliance-Funktionen.

Arten von KI-Anbietern

KI-Anbieter lassen sich in drei Hauptkategorien einteilen:

Anbieter von KI-Infrastruktur konzentrieren sich auf spezialisierte KI-Hardware, darunter kundenspezifische Prozessoren und Hochleistungschips für Training und Inferenz.
Modellhosting-Plattformen ermöglichen den Zugriff auf generative KI-Modelle über APIs und erleichtern so die Integration von KI in Anwendungen. Sie bieten häufig Funktionen wie automatische Skalierung, Latenzüberwachung und Feinabstimmung.
Daten- und Machine-Learning-Plattformen betonen die durchgängige Integration von Datenanalyse, Modelltraining und Governance mit Fokus auf verantwortungsvoller KI.

Hauptmerkmale von KI-Anbietern

Branchenübergreifend weisen die meisten KI-Anbieter mehrere gemeinsame Kernmerkmale auf, die prägend dafür sind, wie sie Mehrwert schaffen und Organisationen in die Lage versetzen, KI-Funktionen effektiv zu implementieren:

Zugang zu großen Sprachmodellen und anderen generativen KI-Modellen

KI-Anbieter ermöglichen den direkten Zugriff auf große Sprachmodelle (LLMs) und eine Reihe generativer KI-Modelle für Aufgaben wie Textgenerierung , Sprachverarbeitung und Bilderkennung . Diese Modelle werden typischerweise über APIs bereitgestellt, was es Unternehmen erleichtert, KI-gestützte Lösungen in Anwendungen zu integrieren, ohne dass umfangreiche Kenntnisse im Modelltraining erforderlich sind.

KI-Infrastruktur zur Bewältigung anspruchsvoller KI-Workloads

Anbieter stellen Rechenumgebungen bereit, die speziell für fortschrittliche KI-Modelle und umfangreiche KI-Workloads entwickelt wurden. Dazu gehört die Rechenleistung, die für Training , Feinabstimmung und Inferenz benötigt wird und häufig sowohl für Batch-Verarbeitung mit hohem Durchsatz als auch für latenzkritische Aufgaben ausgelegt ist. Diese Infrastruktur ermöglicht es Unternehmen, komplexe Prozesse effizient und zuverlässig auszuführen.

Bereitstellungs- und Überwachungs-Dashboards mit Kennzahlen zu Latenz, Durchsatz und Kosten

Dashboards sind Standard und bieten Einblick in die Leistung und Effizienz von KI-Systemen. Typische Kennzahlen umfassen die Latenz pro Anfrage, den Gesamtdurchsatz, die Token-Verarbeitungsrate und die Fehleranzahl. Auch die Kosten werden transparent dargestellt, von detaillierten Berichten pro Anfrage bis hin zu aggregierten Zusammenfassungen. Diese Tools unterstützen ein effektives Ressourcenmanagement und die Optimierung der Ressourcen.

Optionen zur Feinabstimmung und Modellverwaltung

Viele Plattformen bieten die Möglichkeit, generative KI-Modelle für spezielle Anwendungsfälle präzise anzupassen. So können Unternehmen Modelle an branchenspezifische Bedürfnisse anpassen, beispielsweise prädiktive Modellierung in der Lieferkette oder dialogbasierte KI im Kundensupport. Funktionen zur Modellverwaltung umfassen häufig Versionskontrolle, Rollback und Traffic-Splitting für Experimente, was die Zuverlässigkeit bei der Entwicklung neuer Implementierungen gewährleistet.

Preisflexibilität, oft basierend auf nutzungsabhängiger Bezahlung oder Token-Verbrauch

Anstatt auf hohe Vorabinvestitionen in KI-Hardware zu setzen, nutzen Anbieter üblicherweise verbrauchsbasierte Preismodelle. Diese können pro Anfrage, pro Token oder pro Rechenzeit abgerechnet werden. Flexible Preisgestaltung senkt die Einstiegshürde für Unternehmen, die mit der KI-Einführung experimentieren, und ermöglicht es ihnen gleichzeitig, die Ausgaben an den Arbeitslastbedarf anzupassen und Kosten und Leistung zu optimieren.

Was sind KI-Gateways?

Ein KI-Gateway ist eine Middleware-Plattform, die die Integration, das Routing und die Steuerung von KI-Modellen und -Diensten in Unternehmensumgebungen übernimmt. Anstatt die Modelle selbst bereitzustellen, fungieren KI-Gateways als einheitliche Schnittstelle zwischen Anwendungen und verschiedenen KI-Tools, darunter große Sprachmodelle , Bilderkennungssysteme und andere generative KI-Dienste.

Sie übernehmen Funktionen wie API-Standardisierung, Modellorchestrierung, Überwachung, Durchsetzung von Sicherheitsmaßnahmen und Kostenverfolgung und ermöglichen es Unternehmen so, den Zugriff auf und die Nutzung von KI-Workloads über verschiedene Anbieter hinweg zu kontrollieren.

Wesentliche Unterschiede zwischen KI-Gateways und KI-Anbietern

Funktion

KI-Anbieter liefern KI-Infrastruktur, KI-Modelle und die Rechenleistung, die zu deren Ausführung benötigt wird.
KI-Gateways verwalten und orchestrieren die Interaktionen mit diesen Modellen und bieten so Konsistenz und Kontrolle.

Position im Stapel

KI-Anbieter agieren auf der Infrastruktur- und Modellebene und stellen die eigentlichen KI-Funktionen bereit.
KI-Gateways sind über den Anbietern angesiedelt und verbinden Anwendungen über eine einzige Steuerungsebene mit einem oder mehreren Modellen.

Verantwortungsbereich

KI-Anbieter konzentrieren sich auf das Training, die Feinabstimmung, das Hosting und die Bereitstellung von Modellen.
KI-Gateways konzentrieren sich auf die Vereinheitlichung von APIs, das Routing von Arbeitslasten, die Beobachtbarkeit und die Durchsetzung von Richtlinien über verschiedene Modelle hinweg.

Governance und Sicherheit

KI-Anbieter implementieren Governance-Systeme für ihre eigenen Modelle, wie z. B. Versionskontrolle und Kostenüberwachung.
KI-Gateways bieten eine zentrale Steuerung und ermöglichen so Compliance, Zugriffskontrolle und Datenschutz über verschiedene Modelle und Anbieter hinweg.

Bereitstellungsansatz

KI-Anbieter bieten verschiedene Infrastrukturoptionen an, darunter Cloud-APIs, dedizierte Cluster und On-Premises-Hardware.
KI-Gateways bieten Bereitstellungsmodelle (global, Multicloud, Sidecar oder Micro-Gateway), die das Traffic-Routing zwischen Anwendungen und Modellen optimieren.

Benchmark-Methodik

Für diesen Benchmark wurde GPT-OSS-120B, das am weitesten verbreitete Open-Source-Modell auf der Plattform OpenRouter, ausgewählt und analysiert. Vor Beginn des Benchmarks wurde die Basisleistung des GPT-OSS-120B-Modells ermittelt. Das Modell wurde in einer selbstgehosteten Umgebung auf einer RunPod H200 GPU-Instanz getestet und erreichte eine Genauigkeit von 98 % auf dem im Benchmark verwendeten Datensatz mit 108 Fragen (35 artikelbasierte Fragen + 73 mathematische Aufgaben).

Vor Beginn des Benchmarks wurden die Marktanteilsdaten von OpenRouter analysiert, um die sechs führenden KI-Anbieter mit dem größten Marktanteil zu ermitteln. Nur diese Anbieter wurden im Test berücksichtigt. Alle API-Anfragen wurden über denselben API-Endpunkt OpenRouter gesendet, um einheitliche Testbedingungen zu gewährleisten.

Datensatz und Testprozess

Der Benchmark-Datensatz umfasst insgesamt 108 Fragen. 35 dieser Fragen sind Wissensfragen aus dem realen Leben, die aus CNN-Nachrichtenartikeln stammen und mit verifizierten Referenzdaten abgeglichen wurden. Ziel dieses Abschnitts ist es, zu messen, ob das Modell numerische Informationen wie Prozentsätze, Daten und Mengen korrekt wiedergibt und ob es zu Fehlinterpretationen neigt. Die verbleibenden 73 Fragen bestehen aus mathematischen Denkaufgaben und testen die numerische Konsistenz, die logischen Schlussfolgerungen und die Rechengenauigkeit des Modells.

Die 108 im Testverfahren verwendeten Fragen sind solche, die das Modell durchgehend korrekt beantwortet. Ziel dieses Tests ist es, die Leistungs- und Qualitätsverschlechterung des Modells zu bestimmten Tageszeiten oder bei Änderungen der Systemlast zu beobachten.

Der Testablauf wird wie folgt durchgeführt:

Die 108 Fragen werden einzeln im Abstand von 5 Minuten versendet, und dieser Vorgang wird kontinuierlich fortgesetzt.
Die aus jeder Frage erhaltenen Richtig/Falsch-Antworten werden für Genauigkeitsberechnungen verwendet.
Gleichzeitig wird mit jeder Einreichung eine festgelegte Referenzfrage an alle Anbieter gesendet. Die anhand dieser Referenzfrage gemessenen Kennzahlen sind:
- First Token Latency (FTL) : Die Zeit vom Senden der Anfrage bis zur Erzeugung des ersten Tokens durch das Modell.
- End-to-End-Latenz (E2E-Latenz) : Die Zeit, die das Modell benötigt, um die Antwort vollständig zu generieren.

Anfragen für dasselbe Modell werden gleichzeitig an alle Anbieter über denselben API-Endpunkt gesendet. Das Benchmark-System arbeitet zyklisch; am Ende jedes Tages werden die aus den 108 Fragen ermittelten Genauigkeitswerte und die Tagesmittelwerte der FTL/E2E-Latenzwerte, gemessen anhand der festgelegten Referenzfrage, in Diagrammen dargestellt.

Details zum selbstgehosteten Basistest

Der Basisleistungstest wurde durchgeführt, indem das Modell openai/gpt-oss-120b in einer selbstgehosteten Umgebung auf einer RunPod H200 GPU-Instanz ausgeführt wurde. Die Testumgebung wurde mit der RunPod PyTorch-Vorlage erstellt, wobei die vLLM-Inferenz-Engine (Version 0.10.2) als zentrale Bibliothek installiert war. Eine kritische Komponente des Software-Stacks war das openai-harmony SDK, das für die korrekte Kodierung von Eingabeaufforderungen und die Dekodierung von Antworten für die GPT-OSS-Modellreihe unerlässlich ist. Die vLLM-Engine wurde mit gpu_memory_utilization=0.85 und max_model_len=4096 konfiguriert, um die MXFP4-Quantisierungs- und Kontextanforderungen des Modells zu erfüllen. Zur Leistungsoptimierung wurde außerdem die flashinfer-Bibliothek installiert, die eine deutliche Beschleunigung der Inferenz auf H200-Hardware ermöglicht.

Der Benchmark wurde mit dem Skript test_baseline_harmony_correct.py ausgeführt, das einen konsolidierten Datensatz von 108 Fragen (35 artikelbasierte Fragen und 73 mathematische Aufgaben) verarbeitet. Für jede Frage wurde mithilfe des OpenAI-Harmony SDKs eine Eingabeaufforderung programmgesteuert erstellt. Dazu wurde ein Konversationsobjekt mit unterschiedlichen Nachrichten für die Rollen SYSTEM, ENTWICKLER und BENUTZER erzeugt. Der Entwicklerinhalt enthielt die Anweisung „Reasoning: high“, um detaillierte Antworten zu erhalten. Dieses Objekt wurde mithilfe der HarmonyEncodingName.HARMONY_GPT_OSS-Kodierung in Token-IDs umgewandelt. Die Inferenz wurde mit deterministischen Sampling-Parametern (Temperatur = 0,0) und max_tokens = 2048 durchgeführt, um die vollständige Argumentation zu erfassen. Die Stop-Token-IDs wurden direkt von der Methode stop_tokens_for_assistant_actions() der Harmony-Kodierung bereitgestellt. Schließlich wurden die Ausgabetoken des Modells mithilfe des Harmony SDK analysiert, um die strukturierte Antwort zu extrahieren, die dann normalisiert und anhand der Referenzwerte validiert wurde, um die Genauigkeit zu berechnen.

Sıla Ermut

Branchenanalyst

Folgen auf

Sıla Ermut ist Branchenanalystin bei AIMultiple und spezialisiert auf E-Mail-Marketing und Vertriebsvideos. Zuvor war sie als Personalberaterin in Projektmanagement- und Beratungsunternehmen tätig. Sıla hat einen Master of Science in Sozialpsychologie und einen Bachelor of Arts in Internationalen Beziehungen.

Vollständiges Profil anzeigen

Recherchiert von

Nazlı Şipi

KI-Forscher

Nazlı ist Datenanalystin bei AIMultiple. Sie verfügt über Erfahrung in der Datenanalyse in verschiedenen Branchen, wo sie an der Umwandlung komplexer Datensätze in umsetzbare Erkenntnisse gearbeitet hat.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

Web-ProxysMai 13

Sıla Ermut

Vergleich der 9 führenden KI-Anbieter

Genauigkeitsvergleich von KI-Anbietern

Latenz-Benchmark für KI-Anbieter

Latenz- und Kostenvergleich

KI-Anbieter: Detaillierter Vergleich

Integration von Daten- und ML-Pipelines

Gewichte & Verzerrungen

Databricks

Model-Hosting-Plattformen

Baseten

Parasail

DeepInfra

Together AI

Hardwareoptimierte / spezialisierte Infrastruktur

Cerebras

SambaNova

Groq

API-basiertes Hosting

Fireworks AI

Was ist ein KI-Anbieter?

Arten von KI-Anbietern

Hauptmerkmale von KI-Anbietern

Zugang zu großen Sprachmodellen und anderen generativen KI-Modellen

KI-Infrastruktur zur Bewältigung anspruchsvoller KI-Workloads

Bereitstellungs- und Überwachungs-Dashboards mit Kennzahlen zu Latenz, Durchsatz und Kosten

Optionen zur Feinabstimmung und Modellverwaltung

Preisflexibilität, oft basierend auf nutzungsabhängiger Bezahlung oder Token-Verbrauch

Was sind KI-Gateways?

Wesentliche Unterschiede zwischen KI-Gateways und KI-Anbietern

Benchmark-Methodik

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Vergleich der IPv6-Proxy-Anbieter hinsichtlich Preis und Leistung

Vergleich der Top 4 Google Play Scraping-Anbieter

6 beste Anbieter für Web-Scraping im Vergleich (991259_843 Bewertungen)

Die besten Anbieter von E-Commerce-Datensätzen im Jahr 2026

LLM-Preise: Vergleich der Top 15+ Anbieter

E-Mail-Marketing-Preise im Vergleich: Top 20 Anbieter