Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Vergleich der 9 führenden KI-Anbieter

Sıla Ermut
Sıla Ermut
aktualisiert am Jan 23, 2026
Siehe unsere ethischen Normen

Das Ökosystem der KI-Infrastruktur wächst rasant, und die Anbieter verfolgen unterschiedliche Ansätze zum Erstellen, Hosten und Beschleunigen von Modellen. Obwohl sie alle darauf abzielen, KI-Anwendungen zu ermöglichen, konzentriert sich jeder auf eine andere Ebene des Technologie-Stacks.

Wir haben die gängigsten Anbieter anhand der OpenRouter: Cerebras, DeepInfra, Fireworks AI, Groq, Nebius und SambaNova mithilfe des GPT-OSS-120B-Modells verglichen. Für die Evaluierung verwendeten wir denselben Datensatz mit 108 Fragen, bestehend aus 35 Fragen zum Alltagswissen und 73 Aufgaben zum mathematischen Denken.

Genauigkeitsvergleich von KI-Anbietern

Loading Chart

Wir senden jedem Anbieter den ganzen Tag über alle 5 Minuten 108 Fragen (35 Wissensfragen zu Artikeln + 73 Rechenaufgaben) und berechnen die durchschnittliche tägliche Genauigkeit. Zusätzlich senden wir jedes Mal eine spezifische Referenzfrage, um die FTL- und E2E-Latenz-Metriken zu messen.

Aus unbekannten Gründen konnte die KI Fireworks am 26. Oktober trotz fehlender Token-Beschränkung für die meisten Fragen keine endgültigen Antworten liefern. Zwar gab es an diesem Tag nur eine kurze Ausfallzeit von einer Minute, das Problem schien jedoch den gesamten Tag über Auswirkungen auf die Antworten zu haben. Wie bereits dokumentiert, kommt es vor, dass einige Anbieter aus noch ungeklärten Gründen gelegentlich keine endgültigen Antworten generieren. Dieser Fall ähnelt früheren Vorfällen.

Wir haben GPT-OSS-120B auf einer RunPod H200 GPU-Instanz getestet und dabei eine Genauigkeit von 98 % auf dem in unserem Benchmark verwendeten Datensatz erzielt. Lesen Sie mehr über unsere Benchmark-Methodik.

Latenz-Benchmark für KI-Anbieter

An Tagen, an denen die Latenz für Fireworks anstieg, kam es zu einer Ausfallzeit von 1 Minute, aber im Laufe des Tages wurden die meisten Fragen aus unbekannten Gründen in jeweils etwa 10 Minuten beantwortet.

Latenz- und Kostenvergleich

Wir haben die am weitesten verbreiteten Modelle identifiziert, die auch am häufigsten von KI-Anbietern angeboten werden, und anschließend die durchschnittlichen Preise der Anbieter pro 1 Million Input/Output-Token sowie deren Latenzwerte für den ersten Token erfasst.

KI-Anbieter: Detaillierter Vergleich

Integration von Daten- und ML-Pipelines

Gewichte & Verzerrungen

Weights & Biases (W&B) kombiniert Experiment-Tracking, Modellevaluierung und Anwendungs-Observability mit einer verwalteten Trainings- und Inferenzinfrastruktur. Ursprünglich als System of Record für ML-Workflows positioniert, hat sich W&B nach der Übernahme von CoreWeave zu einem stärker vertikal integrierten Angebot entwickelt.

Fähigkeiten

  • Erfasst Experimente, Hyperparameter, Metriken, Datensätze und Artefakte, um die Reproduzierbarkeit und Vergleichbarkeit über verschiedene Modelle und Infrastrukturen hinweg zu gewährleisten.
  • Bietet ein Modellregister mit Versionierung, Promotion, Rollback und Herkunftsnachweis, das Modelle mit Daten und Trainingsläufen verknüpft.
  • Bietet verwaltetes Training und Feinabstimmung, einschließlich serverloser GPU-Berechnungen für Reinforcement Learning und generative KI-Workloads.
  • Unterstützt gehostete Inferenz für Open-Source- und benutzerdefinierte Modelle.
  • Ermöglicht die Überwachung von LLM-Anwendungen auf Anfrageebene durch Weave und erfasst dabei Eingabeaufforderungen, Antworten, Latenz und Bewertungsergebnisse.
  • Unterstützt die automatisierte und die manuelle Bewertung und das Benchmarking verschiedener Modelle, Eingabeaufforderungen und Anbieter.
  • Integriert neben der eigenen Infrastruktur auch Drittanbieter von KI-Lösungen, selbstgehostete GPUs und externe APIs.

Einschränkungen

W&B bietet über seine CoreWeave-basierten Angebote eine eingeschränkte native KI-Infrastruktur. Gehostete Inferenz und serverloses GPU-Training werden unterstützt, aber für das Training umfangreicher oder kundenspezifischer Modelle ist häufig externe Infrastruktur erforderlich.

Anwendungsfall: Am besten geeignet für KI-Teams, die eine durchgängige Transparenz über Experimente, Training, Evaluierung und Bereitstellung hinweg benötigen, insbesondere beim Vergleich mehrerer Modelle oder Anbieter und bei der Aufrechterhaltung einer produktionsreifen Observability ohne vollständige Anbieterbindung.

Databricks

Databricks bietet eine einheitliche Plattform, die Datenanalyse, maschinelles Lernen und Modellmanagement kombiniert.

Fähigkeiten

  • Basierend auf der Spark-Infrastruktur ermöglicht es die durchgängige Integration von Datenaufbereitung, Modelltraining und Inferenz.
  • Verwendet MLflow für die Modellverfolgung, einschließlich Parameter, Metriken und Experimenthistorie.
  • Unity Catalog gewährleistet Datenherkunft und Datengovernance fürverantwortungsvolle KI-Praktiken .
  • Starke Kompetenzen in der Stapelverarbeitung und im Modellvergleich.

Einschränkungen

  • Nicht für Echtzeit-Inferenz optimiert. Überwachung und Metriken sind für Batch-Verarbeitung ausgelegt, nicht für die Latenz pro Anfrage.
  • Eher geeignet für die Verwaltung komplexer Prozesse über Daten und Modelle hinweg als für latenzkritische KI-Workloads.

Anwendungsfall: Effizient für Unternehmen, die KI in ihre Data-Science-Pipelines integrieren müssen, insbesondere für prädiktive Modellierung und Unternehmensanwendungen, bei denen Governance und Rückverfolgbarkeit erforderlich sind.

Model-Hosting-Plattformen

Baseten

Baseten positioniert sich als Modellhosting-Plattform für die Bereitstellung und Ausführung von KI-Modellen mit Fokus auf Produktionszuverlässigkeit und detaillierter Beobachtbarkeit.

Fähigkeiten

  • Die Dauer des API-Aufrufs wird in Modellladen, Inferenz und Antwortserialisierung unterteilt, sodass Entwickler Latenzquellen genau lokalisieren können.
  • Kaltstarts werden auf Replikatebene erfasst, um die Auswirkungen auf die Leistung zu messen.
  • Benutzer konfigurieren die Parameter für die automatische Skalierung, wie z. B. die Anzahl der Replikate und die Schwellenwerte für gleichzeitige Zugriffe. Dies ermöglicht zwar Flexibilität, birgt aber das Risiko einer Fehlkonfiguration, die entweder zu unnötigen Kosten oder zu höheren Latenzzeiten führen kann.
  • Dieses System bietet eine Kostenverfolgung pro Anfrage, die mit dem GPU-Typ und der Nutzung verknüpft ist und Leistungs- und Kostenvergleiche beim Wechsel zwischen Hardware wie A100- und H100-GPUs ermöglicht.
  • Echtzeit-Log-Streaming ist verfügbar, allerdings sind Filter- und Suchfunktionen eingeschränkt.

Einschränkungen

  • Die Überwachung ist auf Anfrageebene detailliert, die Protokollsuche und -filterung sind jedoch grundlegend, was die Fehlersuche bei großen Arbeitslasten erschwert.
  • Eine fehlerhafte Konfiguration der automatischen Skalierung kann sich direkt auf Kosten und Latenz auswirken.

Anwendungsfall: Baseten ist ideal für KI-Entwickler, die eine transparente Beobachtbarkeit für generative KI- Modelle in Produktionsumgebungen anstreben.

Parasail

Parasail bietet ein KI-Inferenznetzwerk, das für flexible GPU-Nutzung und Kostenoptimierung entwickelt wurde.

Fähigkeiten

  • Das System unterstützt den Wechsel zwischen verschiedenen GPU-Typen mit automatischer Ressourcenzuweisung je nach Arbeitslastbedarf.
  • Das Dashboard hebt aggregierte Nutzungsmetriken hervor, darunter Betriebszeit und GPU-Zuweisung.
  • Es bietet Preisflexibilität durch verschiedene GPU-Klassen und ermöglicht so Kosten-Nutzen-Abwägungen.

Einschränkungen

  • Bietet keine Ablaufverfolgung auf Anfrageebene. Entwickler können die Kosten oder die Leistung einzelner Anfragen nicht analysieren.
  • Die Beobachtbarkeit bleibt auf einer aggregierten Ebene, was die Tiefe des Debuggings einschränkt.

Anwendungsfall: Parasail ist für Organisationen konzipiert, die Wert auf kostengünstige und flexible KI-Lösungen legen, bietet aber weniger Einblicke für Teams, die eine detaillierte Beobachtbarkeit benötigen.

DeepInfra

DeepInfra bietetserverloses GPU -Hosting über mehrere Regionen hinweg und ermöglicht so die skalierbare Bereitstellung von KI-Modellen als APIs.

Fähigkeiten

  • Die Unterstützung mehrerer Regionen ermöglicht Inferenzprozesse näher an den Endnutzern und reduziert so die Latenz.
  • Bietet Latenz- und Durchsatzmetriken auf Dashboard-Ebene.
  • Bietet nutzungsbasierte Preisgestaltung mit aggregierter Kostenaufstellung.
  • Unterstützt die Bereitstellung von Open-Source-Modellen für generative KI mit einfachen APIs.

Einschränkungen

  • Bietet keine Ablaufverfolgung auf Anfrageebene, was die Ursachenanalyse erschwert.
  • Die Kostenaufschlüsselung ist nur aggregiert und enthält keine Details pro Anfrage oder Region.
  • Die Versionsverwaltung und die Mechanismen zum Zurücksetzen von Modellen sind nicht automatisiert und erfordern eine manuelle Bearbeitung.

Anwendungsfall: Am besten geeignet für Organisationen, die KI-Workloads regionsübergreifend einsetzen, wo Kostenflexibilität und geografische Abdeckung wichtiger sind als tiefgehendes Debugging.

Gemeinsame KI

Together AI fungiert als KI-Beschleunigungs-Cloud und bietet sowohl Modellhosting- als auch Trainingsmöglichkeiten.

Fähigkeiten

  • Bietet Metriken sowohl auf aggregierter Ebene als auch auf Anfrageebene, einschließlich Latenzhistogrammen und versionsspezifischer Aufschlüsselungen der Aufrufe.
  • Die integrierte Modellversionierung und Rollback-Funktion ermöglichen ein schnelles Zurückkehren zu früheren Versionen.
  • Die Aufteilung des Datenverkehrs ermöglicht A/B-Tests zwischen verschiedenen Modellversionen.
  • Umfassende SDK-Unterstützung mit mehrsprachigen Clientbibliotheken.
  • Durch CI/CD-Integrationen sind die Bereitstellungspipelines ausgereifter als bei anderen Hosting-Plattformen.

Einschränkungen

  • Diese Lösung bietet eine höhere operative Reife, geht aber mit einer höheren Systemkomplexität im Vergleich zu leichteren Hosting-Plattformen einher.

Anwendungsfall: Together AI eignet sich für KI-Unternehmen und professionelle Dienstleistungsfirmen, die eine zuverlässige Versionskontrolle, fortschrittliches Monitoring und die Integration von generativen KI-Tools in strukturierte Arbeitsabläufe benötigen.

Hardwareoptimierte / spezialisierte Infrastruktur

Cerebras

Cerebras konzentriert sich auf hardwareoptimierte KI-Infrastruktur, die um ihre Wafer-Scale Engine (WSE) herum aufgebaut ist.

Fähigkeiten

  • Die WSE integriert Millionen von Verarbeitungseinheiten auf einem einzigen Chip und bietet so einen extrem hohen Durchsatz für KI-Workloads.
  • Dashboards zeigen Standardkennzahlen wie Token pro Sekunde und Gesamtdurchsatz an.
  • Geeignet für das Training und die Inferenz auf Basis fortgeschrittener KI-Modelle in großem Umfang.

Einschränkungen

  • Die Implementierung erfolgt nicht sofort; sie erfordert eine entsprechende Infrastrukturvorbereitung.
  • Interne Hardware-Details wie Zeitplanung und Speichernutzung werden für den Benutzer abstrahiert.
  • Eingeschränkte Unterstützung für die Einbindung beliebiger benutzerdefinierter Modelle.

Anwendungsfall: Effizient für groß angelegte, hochdurchsatzfähige Machine-Learning-Aufgaben in KI-Laboren, der Verteidigungsindustrie oder Regierungsbehörden, wo der Durchsatz wichtiger ist als die Flexibilität.

SambaNova

SambaNova entwickelt Hardware- und Softwarelösungen für KI auf Basis seiner Datenflussarchitektur, die auf der Ebene des Rechengraphen optimiert ist.

Fähigkeiten

  • Bietet Plattformen wie SambaCloud (Cloud-Service), SambaStack (On-Premise) und SambaManaged (Managed Service).
  • Optimiert für Inferenz und Training von generativen KI-Modellen.
  • Standard-Dashboard-Metriken für Latenz und Durchsatz auf Token-Ebene.

Einschränkungen

  • Für die Implementierung ist die Kompatibilität des Modells mit seiner Architektur erforderlich, was zusätzliche Optimierungen notwendig macht.
  • Interne Leistungskennzahlen, wie beispielsweise die Speicherbandbreite, werden den Benutzern nicht angezeigt.
  • Die Einführung erfolgt nicht sofort; es sind Implementierungsphasen erforderlich.

Anwendungsfall: Geeignet für Unternehmen, die KI-gestützte Lösungen benötigen, welche Hardware und Software kombinieren, insbesondere in Branchen, die eine kontrollierte IT-Infrastruktur erfordern.

Groq

Groq bietet eine KI-Inferenzplattform, die von ihren Language Processing Units (LPUs) angetrieben wird.

Fähigkeiten

  • Optimiert für die sequentielle Token-Generierung mit Streaming-Antworten geringer Latenz.
  • Dashboards zeigen Tokenanzahl, Latenz und Fehlerraten an.
  • Die Kosten werden auf Token-Ebene erfasst.

Einschränkungen

  • Unterstützt keine benutzerdefinierte Modellbereitstellung. Es stehen nur von Groq bereitgestellte Modelle zur Verfügung.
  • Es stehen nur minimale Debugging-Tools zur Verfügung; falls Leistungsprobleme auftreten, ist die Einreichung eines Support-Tickets erforderlich.
  • Die internen Abläufe der LPUs bleiben undurchsichtig.

Anwendungsfall: Am besten geeignet für Anwendungen, bei denen extrem niedrige Latenzzeiten für große Sprachmodelle entscheidend sind, wie z. B. dialogbasierte KI oder Entscheidungsalgorithmen.

API-basiertes Hosting

Fireworks KI

Fireworks AI bietet einen schlanken, API-basierten Hosting-Service für KI-Modelle.

Fähigkeiten

  • Schnelle Modellbereitstellung mit sofort verfügbaren API-Endpunkten.
  • Unterstützt die Feinabstimmung von generativen KI-Modellen.
  • Die Dashboards liefern Kennzahlen wie Anruflatenz, Token-Nutzung, Fehlerrate und Anzahl der Anfragen.

Einschränkungen

  • Die Ablaufverfolgung auf Anfrageebene fehlt, was ein detailliertes Debugging erschwert.
  • Die Kostendaten sind nur aggregiert und bieten keine Transparenz pro Anfrage.
  • Das Rollback erfolgt manuell; für die Rückkehr zu älteren Versionen ist eine erneute Bereitstellung erforderlich.

Anwendungsfall: Geeignet für KI-Entwickler, die schnellen Zugriff auf generative KI-Funktionen benötigen, ohne tiefgreifende Observability oder komplexes Deployment-Management.

Was ist ein KI-Anbieter?

Ein KI-Anbieter ist ein Unternehmen für künstliche Intelligenz, das die Infrastruktur , Modelle und Dienstleistungen bereitstellt, die andere benötigen, um KI-gestützte Lösungen zu entwickeln und auszuführen.

KI-Anbieter sind von entscheidender Bedeutung, weil sie:

  • Niedrigere Hürden für die Einführung von KI, insbesondere für Unternehmen ohne tiefgreifende interne Expertise.
  • Gewährleisten Sie Skalierbarkeit durch die Abwicklung komplexer Prozesse wie Autoscaling und verteiltes Training.
  • Bieten Sie Kosteneffizienz mit bedarfsgerechter Infrastruktur anstelle von Vorabinvestitionen in KI-Hardware.
  • Gewährleisten Sie verantwortungsvolle KI-Praktiken durch Governance-, Rückverfolgbarkeits- und Compliance-Funktionen.

Arten von KI-Anbietern

KI-Anbieter lassen sich in drei Hauptkategorien einteilen:

  • Anbieter von KI-Infrastruktur konzentrieren sich auf spezialisierte KI-Hardware, darunter kundenspezifische Prozessoren und Hochleistungschips für Training und Inferenz.
  • Modellhosting-Plattformen ermöglichen den Zugriff auf generative KI-Modelle über APIs und erleichtern so die Integration von KI in Anwendungen. Sie bieten häufig Funktionen wie automatische Skalierung, Latenzüberwachung und Feinabstimmung.
  • Daten- und Machine-Learning-Plattformen betonen die durchgängige Integration von Datenanalyse, Modelltraining und Governance mit Fokus auf verantwortungsvoller KI.

Hauptmerkmale von KI-Anbietern

Branchenübergreifend weisen die meisten KI-Anbieter mehrere gemeinsame Kernmerkmale auf, die prägend dafür sind, wie sie Mehrwert schaffen und Organisationen in die Lage versetzen, KI-Funktionen effektiv zu implementieren:

Zugang zu großen Sprachmodellen und anderen generativen KI-Modellen

KI-Anbieter ermöglichen den direkten Zugriff auf große Sprachmodelle (LLMs) und eine Reihe generativer KI-Modelle für Aufgaben wie Textgenerierung , Sprachverarbeitung und Bilderkennung . Diese Modelle werden typischerweise über APIs bereitgestellt, was es Unternehmen erleichtert, KI-gestützte Lösungen in Anwendungen zu integrieren, ohne dass umfangreiche Kenntnisse im Modelltraining erforderlich sind.

KI-Infrastruktur zur Bewältigung anspruchsvoller KI-Workloads

Anbieter stellen Rechenumgebungen bereit, die speziell für fortschrittliche KI-Modelle und umfangreiche KI-Workloads entwickelt wurden. Dazu gehört die Rechenleistung, die für Training , Feinabstimmung und Inferenz benötigt wird und häufig sowohl für Batch-Verarbeitung mit hohem Durchsatz als auch für latenzkritische Aufgaben ausgelegt ist. Diese Infrastruktur ermöglicht es Unternehmen, komplexe Prozesse effizient und zuverlässig auszuführen.

Bereitstellungs- und Überwachungs-Dashboards mit Kennzahlen zu Latenz, Durchsatz und Kosten

Dashboards sind Standard und bieten Einblick in die Leistung und Effizienz von KI-Systemen. Typische Kennzahlen umfassen die Latenz pro Anfrage, den Gesamtdurchsatz, die Token-Verarbeitungsrate und die Fehleranzahl. Auch die Kosten werden transparent dargestellt, von detaillierten Berichten pro Anfrage bis hin zu aggregierten Zusammenfassungen. Diese Tools unterstützen ein effektives Ressourcenmanagement und die Optimierung der Ressourcen.

Optionen zur Feinabstimmung und Modellverwaltung

Viele Plattformen bieten die Möglichkeit, generative KI-Modelle für spezielle Anwendungsfälle präzise anzupassen. So können Unternehmen Modelle an branchenspezifische Bedürfnisse anpassen, beispielsweise prädiktive Modellierung in der Lieferkette oder dialogbasierte KI im Kundensupport. Funktionen zur Modellverwaltung umfassen häufig Versionskontrolle, Rollback und Traffic-Splitting für Experimente, was die Zuverlässigkeit bei der Entwicklung neuer Implementierungen gewährleistet.

Preisflexibilität, oft basierend auf nutzungsabhängiger Bezahlung oder Token-Verbrauch

Anstatt auf hohe Vorabinvestitionen in KI-Hardware zu setzen, nutzen Anbieter üblicherweise verbrauchsbasierte Preismodelle. Diese können pro Anfrage, pro Token oder pro Rechenzeit abgerechnet werden. Flexible Preisgestaltung senkt die Einstiegshürde für Unternehmen, die mit der KI-Einführung experimentieren, und ermöglicht es ihnen gleichzeitig, die Ausgaben an den Arbeitslastbedarf anzupassen und Kosten und Leistung zu optimieren.

Was sind KI-Gateways?

Ein KI-Gateway ist eine Middleware-Plattform, die die Integration, das Routing und die Steuerung von KI-Modellen und -Diensten in Unternehmensumgebungen übernimmt. Anstatt die Modelle selbst bereitzustellen, fungieren KI-Gateways als einheitliche Schnittstelle zwischen Anwendungen und verschiedenen KI-Tools, darunter große Sprachmodelle , Bilderkennungssysteme und andere generative KI-Dienste.

Sie übernehmen Funktionen wie API-Standardisierung, Modellorchestrierung, Überwachung, Durchsetzung von Sicherheitsmaßnahmen und Kostenverfolgung und ermöglichen es Unternehmen so, den Zugriff auf und die Nutzung von KI-Workloads über verschiedene Anbieter hinweg zu kontrollieren.

Wesentliche Unterschiede zwischen KI-Gateways und KI-Anbietern

Funktion

  • KI-Anbieter liefern KI-Infrastruktur, KI-Modelle und die Rechenleistung, die zu deren Ausführung benötigt wird.
  • KI-Gateways verwalten und orchestrieren die Interaktionen mit diesen Modellen und bieten so Konsistenz und Kontrolle.

Position im Stapel

  • KI-Anbieter agieren auf der Infrastruktur- und Modellebene und stellen die eigentlichen KI-Funktionen bereit.
  • KI-Gateways sind über den Anbietern angesiedelt und verbinden Anwendungen über eine einzige Steuerungsebene mit einem oder mehreren Modellen.

Verantwortungsbereich

  • KI-Anbieter konzentrieren sich auf das Training, die Feinabstimmung, das Hosting und die Bereitstellung von Modellen.
  • KI-Gateways konzentrieren sich auf die Vereinheitlichung von APIs, das Routing von Arbeitslasten, die Beobachtbarkeit und die Durchsetzung von Richtlinien über verschiedene Modelle hinweg.

Governance und Sicherheit

  • KI-Anbieter implementieren Governance-Systeme für ihre eigenen Modelle, wie z. B. Versionskontrolle und Kostenüberwachung.
  • KI-Gateways bieten eine zentrale Steuerung und ermöglichen so Compliance, Zugriffskontrolle und Datenschutz über verschiedene Modelle und Anbieter hinweg.

Bereitstellungsansatz

  • KI-Anbieter bieten verschiedene Infrastrukturoptionen an, darunter Cloud-APIs, dedizierte Cluster und On-Premises-Hardware.
  • KI-Gateways bieten Bereitstellungsmodelle (global, Multicloud, Sidecar oder Micro-Gateway), die das Traffic-Routing zwischen Anwendungen und Modellen optimieren.

Benchmark-Methodik

Für diesen Benchmark wurde GPT-OSS-120B, das am weitesten verbreitete Open-Source-Modell auf der Plattform OpenRouter, ausgewählt und analysiert. Vor Beginn des Benchmarks wurde die Basisleistung des GPT-OSS-120B-Modells ermittelt. Das Modell wurde in einer selbstgehosteten Umgebung auf einer RunPod H200 GPU-Instanz getestet und erreichte eine Genauigkeit von 98 % auf dem im Benchmark verwendeten Datensatz mit 108 Fragen (35 artikelbasierte Fragen + 73 mathematische Aufgaben).

Vor Beginn des Benchmarks wurden die Marktanteilsdaten von OpenRouter analysiert, um die sechs KI-Anbieter mit dem höchsten Marktanteil zu ermitteln. Nur diese Anbieter wurden im Test berücksichtigt. Alle API-Anfragen wurden über denselben API-Endpunkt OpenRouter gesendet, um einheitliche Testbedingungen zu gewährleisten.

Datensatz und Testprozess

Der Benchmark-Datensatz umfasst insgesamt 108 Fragen. 35 dieser Fragen sind Wissensfragen aus dem realen Leben, die aus CNN-Nachrichtenartikeln stammen und mit verifizierten Referenzdaten abgeglichen wurden. Ziel dieses Abschnitts ist es, zu messen, ob das Modell numerische Informationen wie Prozentsätze, Daten und Mengen korrekt wiedergibt und ob es zu Fehlinterpretationen neigt. Die verbleibenden 73 Fragen bestehen aus mathematischen Denkaufgaben und testen die numerische Konsistenz, die logischen Schlussfolgerungen und die Rechengenauigkeit des Modells.

Die 108 im Testverfahren verwendeten Fragen sind solche, die das Modell durchgehend korrekt beantwortet. Ziel dieses Tests ist es, die Leistungs- und Qualitätsverschlechterung des Modells zu bestimmten Tageszeiten oder bei Änderungen der Systemlast zu beobachten.

Der Testablauf wird wie folgt durchgeführt:

  • Die 108 Fragen werden einzeln im Abstand von 5 Minuten versendet, und dieser Vorgang wird kontinuierlich fortgesetzt.
  • Die aus jeder Frage erhaltenen Richtig/Falsch-Antworten werden für Genauigkeitsberechnungen verwendet.
  • Gleichzeitig wird mit jeder Einreichung eine festgelegte Referenzfrage an alle Anbieter gesendet. Die anhand dieser Referenzfrage gemessenen Kennzahlen sind:
    • First Token Latency (FTL) : Die Zeit vom Senden der Anfrage bis zur Erzeugung des ersten Tokens durch das Modell.
    • End-to-End-Latenz (E2E-Latenz) : Die Zeit, die das Modell benötigt, um die Antwort vollständig zu generieren.

Anfragen für dasselbe Modell werden gleichzeitig an alle Anbieter über denselben API-Endpunkt gesendet. Das Benchmark-System arbeitet zyklisch; am Ende jedes Tages werden die aus den 108 Fragen ermittelten Genauigkeitswerte und die Tagesmittelwerte der FTL/E2E-Latenzwerte, gemessen anhand der festgelegten Referenzfrage, in Diagrammen dargestellt.

Details zum selbstgehosteten Basistest

Der Basisleistungstest wurde durchgeführt, indem das Modell openai/gpt-oss-120b in einer selbstgehosteten Umgebung auf einer RunPod H200 GPU-Instanz ausgeführt wurde. Die Testumgebung wurde mit der RunPod PyTorch-Vorlage erstellt, wobei die vLLM-Inferenz-Engine (Version 0.10.2) als zentrale Bibliothek installiert war. Eine kritische Komponente des Software-Stacks war das openai-harmony SDK, das für die korrekte Kodierung von Eingabeaufforderungen und die Dekodierung von Antworten für die GPT-OSS-Modellreihe unerlässlich ist. Die vLLM-Engine wurde mit gpu_memory_utilization=0.85 und max_model_len=4096 konfiguriert, um die MXFP4-Quantisierungs- und Kontextanforderungen des Modells zu erfüllen. Zur Leistungsoptimierung wurde außerdem die flashinfer-Bibliothek installiert, die eine deutliche Beschleunigung der Inferenz auf H200-Hardware ermöglicht.

Der Benchmark wurde mit dem Skript test_baseline_harmony_correct.py ausgeführt, das einen konsolidierten Datensatz von 108 Fragen (35 artikelbasierte Fragen und 73 mathematische Aufgaben) verarbeitet. Für jede Frage wurde mithilfe des OpenAI-Harmony SDKs eine Eingabeaufforderung programmgesteuert erstellt. Dazu wurde ein Konversationsobjekt mit unterschiedlichen Nachrichten für die Rollen SYSTEM, ENTWICKLER und BENUTZER erzeugt. Der Entwicklerinhalt enthielt die Anweisung „Reasoning: high“, um detaillierte Antworten zu erhalten. Dieses Objekt wurde mithilfe der HarmonyEncodingName.HARMONY_GPT_OSS-Kodierung in Token-IDs umgewandelt. Die Inferenz wurde mit deterministischen Sampling-Parametern (Temperatur = 0,0) und max_tokens = 2048 durchgeführt, um die vollständige Argumentation zu erfassen. Die Stop-Token-IDs wurden direkt von der Methode stop_tokens_for_assistant_actions() der Harmony-Kodierung bereitgestellt. Schließlich wurden die Ausgabetoken des Modells mithilfe des Harmony SDK analysiert, um die strukturierte Antwort zu extrahieren, die dann normalisiert und anhand der Referenzwerte validiert wurde, um die Genauigkeit zu berechnen.

Sıla Ermut
Sıla Ermut
Branchenanalyst
Sıla Ermut ist Branchenanalystin bei AIMultiple und spezialisiert auf E-Mail-Marketing und Vertriebsvideos. Zuvor war sie als Personalberaterin in Projektmanagement- und Beratungsunternehmen tätig. Sıla hat einen Master of Science in Sozialpsychologie und einen Bachelor of Arts in Internationalen Beziehungen.
Vollständiges Profil anzeigen
Recherchiert von
Nazlı Şipi
Nazlı Şipi
KI-Forscher
Nazlı ist Datenanalystin bei AIMultiple. Sie verfügt über Erfahrung in der Datenanalyse in verschiedenen Branchen, wo sie an der Umwandlung komplexer Datensätze in umsetzbare Erkenntnisse gearbeitet hat.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450