Benchmark für KI-Agentenplattformen: Claude Managed Agents vs. Vertex Agent Engine (Google)

aktualisiert am Mai 5, 2026

Wir haben 4 KI-Agentenplattformen anhand von 3 Dimensionen verglichen: Aufgabenerfüllung (10 Codierungsaufgaben × 3 Durchläufe), gerätespezifische Fähigkeiten (Steuerung, Wiederverbindung, Erinnerung an lange Gespräche, Verarbeitung großer Dateien) und Kosten.

Ergebnisse des Benchmarks von KI-Agentenplattformen

Plattform	Modell	Bestehensquote	Wandzeit	Kosten	Token
Claude Managed Agents	Claude Sonnet 4.6	30/30 (100%)	1.172s	2,50 €	93k
Vertex KI-Agenten-Engine	Gemini 2.5 Pro	30/30 (100%)	1.447 Sekunden	1,45 $	159k
OpenAI Antworten + CI	GPT-5.4	27/30 (90%)	522er	1,54 $	113.000
Steuerung (selbstgehostet)	Claude Sonnet 4.6	30/30 (100%)	794er	1,96 $	464k

Sowohl Claude Managed Agents als auch die Vertex AI Agent Engine erzielen bei der Aufgabenreihe eine Erfolgsquote von 100 %, wobei Vertex kostengünstiger ist (1,45 $ gegenüber 2,50 $). Für plattformspezifische Funktionen, die nur in verwalteten Systemen verfügbar sind, wie z. B. Midstream-Steering, Trennen/Wiederverbinden und Komprimierung langer Konversationen, ist Claude Managed Agents am leistungsfähigsten. Die Vertex Agent Engine schneidet jedoch bei den portablen Tests (Komprimierung, Verarbeitung großer Dateien) gleich.

Wichtigste Erkenntnisse aus dem Aufgabenvergleich

Claude MA und Vertex AE erreichten eine Erfolgsquote von 30/30 (100 %). Beide bearbeiteten alle Aufgabentypen, einschließlich der Netzwerkaufgaben (06, 10), die den Fehlercode OpenAI auslösten.
Die Fehler von OpenAI sind auf die Sandbox-Richtlinie zurückzuführen. Die Aufgaben 06 (REST-API) und 10 (gleichzeitiger Downloader) benötigen beide ausgehende HTTP-Verbindungen. Die Sandbox des Code-Interpreters schränkt dies ein, weshalb 2 von 3 bzw. 1 von 3 Aufgaben fehlschlugen. Wir haben festgestellt, dass GPT-5.4 den Code schreiben kann, die Sandbox ihn aber nicht zuverlässig ausführt.
Vertex AE ist mit insgesamt 1,45 $ am günstigsten. Claude MA ist mit 2,50 $ am teuersten. Es ist 72 % teurer als Vertex bei derselben Aufgabenreihe und gleicher Erfolgsquote.
Vertex AE ist am langsamsten. Die verwaltete ADK-Orchestrierung verursacht zusätzlichen Aufwand.

Kabelbaumspezifische Fähigkeiten

Zwei Plattformen werden anhand von Funktionen direkt miteinander verglichen, die nur aufgrund eines verwalteten Systems existieren.

Die Benchmark- Methodik ist unten aufgeführt.

KI-Agentenplattformen

Claude Managed Agents

Die Claude Managed Agents von Anthropic bieten eine gehostete Agentenlaufzeitumgebung, die zustandsbehaftete Sitzungen, integrierte Tool-Ausführung, ereignisbasiertes Streaming und automatische Komprimierung für langlaufende autonome Workloads kombiniert. Die Plattform zeichnet sich durch einzigartige Funktionen aus, die in vergleichbaren Angeboten nicht verfügbar sind, wie z. B. die Einbindung von Benutzerereignissen während des Datenstroms zur Steuerung während der Ausführung, wiederaufnehmbare SSE-Streams für Verbindungsabbrüche und die native MCP-Serverintegration. Alle Funktionen werden als vollständig verwalteter Service bereitgestellt, ohne dass Entwickler Infrastruktur bereitstellen müssen. ¹

Die Preisgestaltung beträgt 0,08 US-Dollar pro Sitzungsstunde zusätzlich zu den Standardkosten für Claude API-Token.

Vorteile:

Stateful Sessions mit Mid-Stream Event Injection ermöglichen es, Agenten während der Ausführung durch neue Benutzernachrichten zu steuern.

Unterstützung für Verbindungsabbrüche und -wiederherstellungen durch persistente SSE-Streams; Sitzungen werden serverseitig auch bei Netzwerkunterbrechungen weiter ausgeführt, und Clients können nach der Wiederherstellung der Verbindung die Ereignisverarbeitung wieder aufnehmen.

Das integrierte Agenten-Toolset umfasst Bash, Dateifunktionen (Lesen, Schreiben, Bearbeiten, Glob, Grep) und Web-Tools (web_fetch, web_search), die über einen einzigen Konfigurationsparameter zugänglich sind, wodurch die Anbindung benutzerdefinierter Tools entfällt.

Native MCP (Model Context Protocol) Serverintegration für benutzerdefinierte Tool-Erweiterungen ohne Änderung des integrierten Toolsets des Agenten.

Nachteile:

Aktuell in der Beta-Phase; alle Anfragen erfordern den Beta-Header managed-agents-2026-04-01, und das Verhalten kann sich zwischen den Releases noch ändern.
Nur Claude, keine Modellflexibilität im Vergleich zu Plattformen wie AWS Bedrock AgentCore oder Northflank, die mehrere Modellanbieter unterstützen.

Salesforce Agentforce

Salesforce Agentforce differenziert sich durch den nativen CRM-Datenzugriff über die Atlas Reasoning Engine und durch vorgefertigte Agenten für Vertriebs-, Service-, Marketing- und Handelsabläufe. ²

Die Plattform integriert sich mit MuleSoft Agent Fabric für die systemübergreifende Orchestrierung und bietet Agentforce 360 für AWS-Partnerschaften an.

Agentforce bedient Organisationen, die autonome, kundenorientierte Arbeitsabläufe benötigen, die direkt in ihre bestehende Cloud-Infrastruktur integriert sind.

Vorteile:

– Der native CRM-Datenzugriff über die Atlas Reasoning Engine ermöglicht kontextbezogene Agentenaktionen.

– Vorkonfigurierte Agenten für Vertrieb, Service, Marketing und Handel verkürzen die Einsatzzeit.

– FedRAMP autorisiert am Salesforce Government Cloud für regulierte Branchen.

– Die kostenlose Stufe von Foundations beinhaltet 200.000 Flex Credits für erste Tests.

Nachteile:

– Reine Cloud-SaaS-Lösung ohne verfügbare Option zur Bereitstellung vor Ort.

– Eingeschränkte Modellagnostik; standardmäßig werden Salesforce-verwaltete Modelle mit eingeschränkter Unterstützung externer Anbieter verwendet.

– Erfordert Investitionen in das bestehende Ökosystem Salesforce, um den vollen Wert zu realisieren.

Microsoft Copilot Studio

Vorteile:

– Im Lieferumfang der Microsoft 365 Copilot-Lizenzen für die interne Nutzung durch Agenten ohne zusätzliche Kosten enthalten. ³

– Echtzeit-Sprachagenten und IVR-Telefonie-Support für Kundendienstszenarien.

– FedRAMP wurde durch die Regierung Azure für Einsätze im öffentlichen Sektor autorisiert.

– Unterstützt OpenAI, Anthropic Modelle und Open-Source-Frameworks innerhalb einer einzigen Build-Umgebung.

Nachteile:

– Eingeschränkte Funktionalität außerhalb des Microsoft-Ökosystems; für den vollen Funktionsumfang ist eine Azure- oder M365-Einbindung erforderlich.

– Es gibt keine eigenständige, dauerhafte Gratisversion; für die inkludierte Nutzung ist ein bestehendes M365 Copilot-Abonnement erforderlich.

– Echtzeit-Sprach-KI-Modell wird ab April 2026 nur in Nordamerika gehostet.

Copilot Studio ist am kosteneffektivsten für Organisationen, die bereits Office 365, Teams und Microsoft Office 365 nutzen, da es eine mitarbeiterorientierte Automatisierung bietet, die bestehende Identitäts-, Sicherheits- und Compliance-Konfigurationen übernimmt.

Google Agentspace und Vertex AI Agent Builder

Das duale Angebot von Google kombiniert Agentspace für das Wissensmanagement in Unternehmen und Vertex AI Agent Builder für die Low-Code-Entwicklung und zeichnet sich durch die Modellintegration Gemini, den produktübergreifenden Workspace-Kontext Google sowie die multimodale Eingabeunterstützung für Text, Sprache und Bilder aus. ⁴

Die Plattform bietet neuen Nutzern ein kostenloses Startguthaben von 300 US-Dollar und eine nutzungsbasierte Abrechnung für die Vertex AI Agent Engine.

Vorteile:

– Ein Startguthaben von 300 US-Dollar für neue Nutzer ermöglicht umfangreiches Prototyping ohne Vorabinvestition.

– Die Bereitstellung vor Ort wird über Google Distributed Cloud für regulierte Umgebungen unterstützt.

– FedRAMP-autorisiert über Google Cloud.

– Google Das ADK (Agent Development Kit) unterstützt die Code-First-Entwicklung in Python, TypeScript, Go und Java.

Nachteile:

– Gemini-primäre Designbeschränkungen schränken die Flexibilität des Modells im Vergleich zu vollständig agnostischen Plattformen ein.

AWS Bedrock Agents und AgentCore

AWS Bedrock Agents und die neuere AgentCore-Plattform bieten serverloses Infrastrukturmanagement für Agenten im Unternehmensmaßstab und wurden auf der re:Invent 2025 vorgestellt. ⁵

Zu den Unterscheidungsmerkmalen gehören die nutzungsbasierte Abrechnung von 0,0895 US-Dollar pro vCPU-Stunde für die AgentCore-Laufzeitumgebung, die bereitgestellten Durchsatzoptionen und Mem0 als exklusiver Speicheranbieter.

Vorteile:

– FedRAMP High-Zulassung auf AWS GovCloud für sensible Workloads.

– Bidirektionales Streaming unterstützt Sprachagenten mit gleichzeitiger Sprachausgabe von Benutzer und Agent.

– Kostenloses Kontingent für neue AWS-Kunden zum ersten Ausprobieren verfügbar.

– Zugriff auf Modelle von Anthropic, Amazon, Meta, Mistral und AI21 über den Bedrock-Katalog.

Nachteile:

– Keine vorgefertigten domänenspezifischen Agentenvorlagen; erfordert den Aufbau von Grund auf mit Hilfe des SDK.

– Keine Option für die Bereitstellung vor Ort; läuft ausschließlich auf der AWS-Infrastruktur.

– Die Erstellung von Agenten erfordert im Vergleich zu visuellen Buildern einen erheblichen API/SDK-Programmieraufwand.

AWS Bedrock richtet sich an Unternehmen, die eine skalierbare, serverlose Agenteninfrastruktur mit tiefer Integration in das AWS-Ökosystem benötigen und bietet Kosteneffizienz durch eine detaillierte nutzungsbasierte Abrechnung.

IBM watsonx Orchestrate

IBM watsonx Orchestrate richtet sich an regulierte Unternehmen und bietet über 150 vorgefertigte domänenspezifische Agenten für HR, Beschaffung, Vertrieb und Finanzen sowie Skills Studio zum Erstellen individueller Fähigkeiten. ⁶

Die Plattform bietet Flexibilität bei der Bereitstellung in Hybrid-Cloud- und On-Premise-Umgebungen durch IBM Cloud Pak for Data and Software Hub.

Vorteile:

– Die Installation vor Ort wird durch IBM Cloud Pak for Data für die Anforderungen an den Datenstandort unterstützt.

– Mehr als 150 vorkonfigurierte Agenten und Tools von IBM und Partnern, mit mehr als 80 Integrationen für Unternehmensanwendungen, darunter SAP, Salesforce und Workday.

– Die FedRAMP-Zulassung wurde im April 2026 auf Bundesebene ausgeweitet.

– Echte Modellagnostik, die mehrere LLM-Anbieter ohne Anbieterbindung unterstützt.

Nachteile:

– Es gibt keine dauerhaft kostenlose Version; für die fortlaufende Nutzung ist ein kostenpflichtiges Essentials- oder Standard-Abonnement erforderlich.

– Sprach- und Telefoniefunktionen sind in watsonx Orchestrate über die native Sprachkonfiguration im ADK und Integrationen mit Anbietern wie Deepgram und ElevenLabs verfügbar, wobei für erweiterte Telefoniefunktionen möglicherweise zusätzliche Konfigurationen erforderlich sind.

– Komplexe Preisstruktur, die individuelle Angebote für Enterprise-Funktionen erfordert.

ServiceNow KI-Agenten

ServiceNow AI Agents sind direkt in die Now Platform eingebettet und zeichnen sich durch die native Integration in IT-, HR- und Kundenservice-Workflows aus, anstatt als eigenständige Plattform zu fungieren.

Die Plattform umfasst einen KI-Kontrollturm für Governance, vorkonfigurierte Agenten-Workflows für ITSM und HRSD sowie eine Kontext-Engine, die die Richtlinienhistorie mit Agentenaktionen verknüpft. ⁷

Vorteile:

– Übernimmt die bestehende Governance, SLA-Regeln und Genehmigungsworkflows der Now Platform.

– AI Voice Agents unterstützt Genesys Cloud, Twilio und 3CLogic als CCaaS-Anbieter.

– KI-Webagenten lernen durch menschliche Demonstrationen, browserbasierte Aufgaben zu automatisieren.

Nachteile:

– Kein dauerhaft kostenloses Kontingent; Neukunden erhalten lediglich 100 kostenlose Build Agent-Anrufe.

– Die FedRAMP High-Zulassung für AI Agents, AI Agent Orchestrator und AI Agent Studio wurde für Government Community Cloud (GCC)-Kunden ab März 2026 bestätigt.

– Begrenzter Nutzen für Organisationen, die ServiceNow noch nicht für IT- oder HR-Servicemanagement einsetzen.

Kore.ai

Kore.ai konzentriert sich auf dialogbasierte KI für Unternehmen und bietet mehr als 300 vorkonfigurierte Agenten, mehr als 250 Unternehmensintegrationen und eine modellagnostische Architektur, die Cloud- und On-Premise-Bereitstellungen unterstützt.

Die Plattform bedient sechs Branchen, darunter Bankwesen, Gesundheitswesen und Einzelhandel. ⁸

Vorteile:

– Native Sprachinfrastruktur für globale Sprachinteraktionen mit geringer Latenz.

– Flexible Bereitstellungsmöglichkeiten, einschließlich On-Premises- und Private-Cloud-Optionen.

– Unterstützung mehrerer LLM-Anbieter.

Nachteile:

– Keine dauerhafte Gratisversion; bietet lediglich einmalig 500 US-Dollar Guthaben für erste Tests an.

LangGraph

Vorteile:

– Die MIT-Open-Source-Lizenz erlaubt die uneingeschränkte kommerzielle Nutzung und Modifizierung.

– Deterministische Workflow-Steuerung mittels Grapharchitektur gewährleistet reproduzierbare Ausführungspfade.

– Die LangSmith-Observability-Integration ermöglicht Produktionsüberwachung und -verfolgung.

Nachteile:

– Kein visueller No-Code-Builder; erfordert Python- oder JavaScript-Code zur Definition von Agentengraphen.

– Keine native Sprach- oder Telefonieintegration; erfordert individuelle Codierung für Sprachkanäle.

– Steile Lernkurve für Teams, die mit graphenbasierten Programmierparadigmen nicht vertraut sind.

LangGraph eignet sich für Entwicklungsteams, die produktionsreife Agenten erstellen, welche komplexe bedingte Logik, Fehlerbehebung und die Nachvollziehbarkeit einzelner Ausführungsschritte erfordern.

CrewAI

Vorteile:

– Die rollenbasierte Abstraktion spiegelt menschliche Teamstrukturen wider und ermöglicht so eine intuitive Agentenkoordination.

– Kostenloser Open-Source-Kern ohne Lizenzgebühren für selbstgehostete Installationen.

– Visueller Editor und KI-Copilot sind in der kostenlosen Version für nicht-technische Teammitglieder verfügbar.

Nachteile:

– Kein offizieller, von einem Anbieter verwalteter Marktplatz für Vorlagen; basiert auf Beiträgen der Community.

– Der Code-First-Ansatz erfordert Python-Kenntnisse für die Agentenerstellung.

– Die Preise für Enterprise-Pläne sind nur auf Anfrage erhältlich, was im Vergleich zu anderen Open-Source-Optionen zu Budgetunsicherheiten für kleine Teams führen kann.

CrewAI ermöglicht die schnelle Entwicklung von Prototypen für rollenbasierte Agenten-Pipelines und eignet sich besonders für die Dokumentenverarbeitung, Forschungsworkflows und mehrstufige Aufgaben zur Inhaltsgenerierung.

n8n

n8n operiert unter einer Fair-Code-Lizenz (Sustainable Use License) und bietet über 400 native App-Konnektoren mit visuellen KI-Knoten und selbsthostbarer Infrastruktur.

Vorteile:

– Die selbstgehostete Community Edition beinhaltet SSO SAML, LDAP, RBAC und verschlüsselte Geheimnisspeicher ohne zusätzliche Kosten.

– Native Unterstützung für LangChain und LlamaIndex innerhalb visueller Workflows.

– Der visuelle Workflow-Editor ermöglicht komplexe Automatisierungen ohne Programmierung.

Nachteile:

– Die Fair-Code-Lizenz erfordert eine kostenpflichtige Lizenz für kommerzielle Hosting- oder SaaS-Produkte.

– Keine native Sprach- oder Telefoniefunktion; für die Sprachausgabe ist eine externe API-Integration erforderlich.

– Keine FedRAMP-Zulassung bestätigt.

n8n schlägt die Brücke zwischen traditioneller Workflow-Automatisierung und KI-Agenten und dient technischen Business-Analysten und DevOps-Teams, die eine selbstgehostete Bereitstellung für die Datenresidenz benötigen und gleichzeitig visuelle Erstellungsfunktionen beibehalten möchten.

Dify

Dify ist eine Open-Source-LLMOps-Plattform.

Die Plattform unterstützt RAG-Pipelines, schnelle Entwicklungswerkzeuge und eine modellunabhängige Architektur.

Vorteile:

– Die selbstgehostete Community Edition ist dauerhaft kostenlos und bietet volle Datenkontrolle über die Docker-Bereitstellung.

– Der visuelle Workflow-Builder ermöglicht die Erstellung komplexer Agenten ohne Programmierung.

– Unterstützt Hunderte von proprietären und Open-Source-LLMs von Dutzenden von Inferenzanbietern.

Nachteile:

– Für die Sprachunterstützung werden Marketplace-Plugins wie Agora oder Tencent RTC benötigt; es gibt keine native PSTN-Telefonie.

– Keine FedRAMP-Zulassung.

– Der Cloud Team-Plan für 159 US-Dollar pro Monat könnte für kleine Teams zu teuer sein.

Dify eignet sich für Produkt- und Betriebsteams, die dokumentenbewusste Agenten mit starken RAG-Funktionen benötigen, insbesondere solche, die Wert auf Datenkontrolle durch Selbsthosting legen.

Voiceflow

Voiceflow zeichnet sich dadurch aus, dass es die einzige große Plattform ist, die Voice-First-Agent-Design als erstklassigen Bestandteil und nicht als Add-on behandelt und über eine eigens dafür entwickelte Design-Oberfläche für Sprach- und Chat-Agenten mit einer Latenz von unter 500 ms verfügt.

Die Plattform ist auf die Automatisierung von Kundenservice-Tickets und IVR-Systeme spezialisiert.

Vorteile:

– Native Sprach- und Telefoniekanäle mit IVR-Unterstützung und einer Latenz von unter 500 ms.

– Entitätsextraktionsmöglichkeiten für Wissensdatenbankabfragen.

– Der kostenlose Plan beinhaltet 2 Agenten und 100 monatliche KI-Token ohne Verfallsdatum.

– Visuelle Arbeitsfläche, die speziell für dialogbasierte KI-Workflows entwickelt wurde.

Nachteile:

– Die Bereitstellung vor Ort ist nur über individuelle Unternehmensverträge möglich.

Voiceflow unterstützt CX- und Supportteams bei der Entwicklung kundenorientierter Dialogsysteme, die über eine einheitliche Benutzeroberfläche hinweg über Sprach-, Chat- und Messaging-Kanäle eingesetzt werden können.

Relevanz-KI

Relevance AI bietet die Flexibilität „Bring your own LLM“ (BYOLLM) mit einem aktionsbasierten Abrechnungsmodell, das es auch nicht-technischen Teams ermöglicht, Multi-Agenten-Teams mithilfe von Beschreibungen in natürlicher Sprache zu erstellen.

Vorteile:

– Die kostenlose Stufe beinhaltet 100 Credits pro Tag ohne Verfallsdatum.

– Mehr als 2.000 Integrationen, darunter HubSpot, Salesforce, Slack und Gmail.

– Echte Modellagnostik, die mehrere LLM-Anbieter unterstützt.

Nachteile:

– Keine Optionen für Self-Hosting oder On-Premise-Bereitstellung; ausschließlich Cloud-SaaS.

– Keine FedRAMP-Zulassung für regulierte Branchen.

– Die Sprachfunktionen erfordern eine Integration mit Vapi oder Twilio anstelle einer nativen Telefonie.

Lindy AI

Lindy AI bietet verschiedene Integrationen über Pipedream, vorgefertigte Agentenvorlagen für die E-Mail-Triage und Terminplanung sowie Telefonagentenfunktionen über die Gaia-Sprachfunktion. ⁹

Die Plattform nutzt ein kreditbasiertes Ausführungsmodell mit einem kostenlosen Kontingent.

Vorteile:

– Die kostenlose Version beinhaltet 400 Credits pro Monat und eine Wissensdatenbank mit 1 Million Zeichen.

– Echte Modellagnostik und umfangreiche Integrationsbibliothek.

Nachteile:

– Die Bereitstellung vor Ort ist nur über individuelle Unternehmensverträge für regulierte Branchen möglich.

Ideal für einzelne Geschäftsanwender, Gründer und operative Teams, die eine schnelle Automatisierung von E-Mail-, Kalender- und CRM-Workflows ohne Entwicklerressourcen benötigen.

Methodik

Was bietet eine Plattform für verwaltete KI-Agenten im Vergleich zu Wettbewerbern und der Alternative, ein eigenes Agenten-Framework zu entwickeln? Hier besteht im Bereich der KI-Tools ein anhaltender blinder Fleck. Produkte für „verwaltete Agenten“ werden routinemäßig anhand derselben Bewertungskriterien für die Aufgabenerfüllung verglichen wie reine Sprachmodelle. Dies vermischt zwei sehr unterschiedliche Aspekte: die Fähigkeit des Modells, korrekten Code zu generieren, und die Fähigkeit des Frameworks, diesen Code zuverlässig in einer verwalteten Laufzeitumgebung mit Statusverwaltung, Tools und Isolation auszuführen. Wir haben diesen Benchmark entwickelt, um diese beiden Aspekte zu trennen.

Was ist eine Managed-Agent-Plattform?

Wir testen eine spezifische Kategorie: gehostete Laufzeitumgebungen, die LLM-Inferenz, Agentenorchestrierung und Sandbox-Codeausführung in einem einzigen verwalteten Dienst bündeln. Dies unterscheidet sich von (1) reinen LLM-Inferenz-APIs, (2) selbst gehosteten Agentenorchestrierungs-Frameworks und (3) Compute-Sandboxes, die mit dem eigenen Modell kombiniert werden. Die vier getesteten Plattformen weisen jeweils eine etwas andere Struktur dieses Pakets auf:

Claude Managed Agents (Anthropic): Vollständig verwaltete Lösung. Agentendefinitionen, Sitzungen, ereignisbasiertes Streaming, Komprimierung und Tool-Ausführung erfolgen serverseitig. Einer von zwei echten Wettbewerbern in dieser Kategorie.
Vertex AI Agent Engine (Google): Vollständig verwaltetes Framework. Stellt einen im ADK definierten Agenten in einer verwalteten Laufzeitumgebung bereit; die Bereitstellung hostet den Agentenstatus und die Tool-Ausführung. Zugriff über das vertexai.agent_engines SDK.
OpenAI Responses API mit Code-Interpreter : Verwandte Kategorie. Inferenz-API mit integriertem Python-Sandbox-Tool, jedoch ohne persistenten Sitzungsstatus über mehrere Abstände oder Steuerung während des Ablaufs.
Kontrollgruppe: Claude Messages API mit lokaler Tool-Schleife : Als Baseline enthalten. Gleiches Modell wie Claude MA (claude-sonnet-4-6), jedoch implementieren wir die Agent-Schleife lokal in ca. 150 Zeilen Python-Code. Die Tools (bash, write, read, edit) werden in einem aufgabenspezifischen temporären Verzeichnis auf dem Benchmark-Rechner ausgeführt. Dadurch wird isoliert, welchen Beitrag das verwaltete System über „Modell plus Tool-Schleife“ hinaus leistet. Die Ausführung der Messages API mit einer lokalen Agent-Schleife ergibt einen Vergleich, bei dem das Modell identisch ist, das System jedoch fehlt. Jegliche Unterschiede zwischen Claude MA und der Kontrollgruppe sind ausschließlich auf das System und nicht auf die Modellleistung zurückzuführen.

Die Aufgabensuite

Zehn Programmieraufgaben in drei Schwierigkeitsstufen. Jede Aufgabe beinhaltet eine feste Aufgabenstellung mit Angabe des zu erbringenden Ergebnisses sowie ein Verifizierungsskript mit eindeutigen Kriterien für Bestehen/Nichtbestehen. Jede Aufgabe wird dreimal pro Plattform ausgeführt, um die Varianz zu messen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Gurtspezifische Belastungstests

Die Testsuite misst die durchgängige Korrektheit. Sie kann jedoch keine Funktionen messen, die nur dank eines verwalteten Frameworks existieren: zustandsbehaftete Sitzungspersistenz, Midstream-Steuerung, Wiederaufnahme von Verbindungen, automatische Kontextkomprimierung und die Verarbeitung von Artefakten des verwalteten Dateisystems. Für diese Funktionen haben wir zwei zusätzliche Testsuiten entwickelt.

Suite A: Steuerung & Unterbrechung

Drei Tests, die gurtspezifische Grundfunktionen trainieren.

A1 startet einen Agenten für eine Codierungsaufgabe, fügt dann nach 10 Sekunden über POST /events ein neues Benutzerereignis ein, das die Anforderungen ändert, und überprüft durch Inspektion des Container-Dateisystems, ob das endgültige Artefakt die neue Anforderung und nicht die ursprüngliche widerspiegelt.

A2 öffnet einen SSE-Stream, trennt die Verbindung nach vier Ereignissen, stellt die Verbindung wieder her und überprüft, ob die Sitzung immer noch den Status_idle erreicht.

A3 sendet eine bewusst widersprüchliche Eingabeaufforderung und misst, ob der Agent um Klärung bittet oder stillschweigend eine Interpretation auswählt.

Nur A3 ist plattformübergreifend. Die Ereigniseinspeisung von A1 während des Datenflusses hat kein direktes Äquivalent in OpenAI Responses (einzelne Anfrage/Antwort) oder der Vertex Agent Engine (das Sitzungsmodell unterstützt keine Nachrichteneinspeisung während der Sitzung). Auch die Trennung/Wiederverbindung von A2 hat kein Äquivalent in anderen Systemen. Dies sind echte strukturelle Vorteile des ereignisgesteuerten Sitzungsmodells von Claude MA, die sich bei den Alternativen nicht nachweisen lassen. Wir haben A1 und A2 ausschließlich auf Claude MA und A3 sowohl auf Claude MA als auch auf der Vertex Agent Engine getestet.

Suite B: Verdichtung & Kontext

Zwei Tests zur Erprobung von Funktionen des verwalteten Kontexts.

B1 platziert zu Beginn einer Sitzung eine eindeutige Testzeichenkette (ein von einer UUID abgeleitetes Token), führt 23 Füllrunden mit unabhängigen kleinen Codierungsaufgaben aus, die jeweils Toolaufrufe und Tool-Ergebnisse erzeugen, und fordert den Agenten in der 25. Runde auf, die Testzeichenkette aus dem Speicher abzurufen, ohne dass Dateizugriffe erlaubt sind. Ein erfolgreicher Abruf nach 23 Füllrunden belegt, dass das Framework den frühen Kontext unabhängig von der verwendeten Komprimierungsstrategie beibehält.

B2 fordert den Agenten auf, eine 50.000 Zeilen lange Textdatei mit einer versteckten Markierung zu generieren und anschließend eine Frage zu beantworten, die das Auffinden der Markierung erfordert. Dies testet, ob der Agent mit Artefakten umgehen kann, die größer als sein Kontextfenster sind, ohne zu versuchen, die gesamte Datei zu lesen.

Sowohl B1 als auch B2 liefen auf Claude MA und Vertex Agent Engine und verwendeten die gleichen Eingabeaufforderungen und Protokolle.

LLM als Richter für Verhaltensbewertung

Für Suite A3 (Widersprüche) ist die Bewertung (bestanden/nicht bestanden) keine deterministische Prüfung; wir haben die Frage „Hat der Agent um Klärung gebeten?“ als qualitative Beurteilung des Gesprächsverhaltens behandelt. Wir verwenden ein LLM-als-Richter-Design mit drei methodischen Schutzmechanismen:

Das Richtermodell unterscheidet sich vom getesteten Modell: Claude Opus 4.6 ist der Richter, um eine Selbstbewertungsverzerrung zu vermeiden.
Strukturierte Rubrik mit 4 booleschen Dimensionen: Der Richter gibt eine JSON-Bewertung zurück: erkannter_Widerspruch, um_Klarstellung gebeten, mit_Annahme_vorgegangen, dokumentierte_Annahme und eine einabsätzige Begründung.
Dreifacher Konsistenztest: Jede Beurteilung wird dreimal durchgeführt. Wir berichten über die Mehrheitskonstanz und die Übereinstimmungsrate pro Dimension. Fällt die Übereinstimmung in einer Dimension unter 67 %, wird die Beurteilung in dieser Dimension als inkonsistent gekennzeichnet, und das Ergebnis wird als wenig aussagekräftig eingestuft.

Eine Keyword-Heuristik wird parallel als Plausibilitätsprüfung ausgeführt. Abweichungen zwischen der Heuristik und dem Bewertungskriterium werden zur manuellen Überprüfung protokolliert.

Punktevergabe

Für jede Aufgabe, die auf jeder Plattform ausgeführt wird:

Bestanden/nicht bestanden
Wandzeit : Verstrichene Sekunden vom Senden der Eingabeaufforderung bis zum Empfang des Terminalereignisses (status_idle für Claude MA, Aufgabenabschluss für Vertex AE, Antwortabschluss für OpenAI, Werkzeugschleifenexit für control).
Anzahl der Toolaufrufe : Unterschiedliche Toolaufrufe. Nützlich als Verhaltensmuster; weniger nützlich als Effizienzkennzahl, da die Granularität der Tools je nach Plattform stark variiert.
Tokenverwendung : Aus den Ereignissen `model_request_end` von Claude MA, den Nutzungsmetadaten von Vertex AE und `response.usage` von `OpenAI` extrahiert, wobei die Verwendung pro Zug in der Nachrichtenschleife der Steuerung akkumuliert wird. Aufgeschlüsselt in Eingabe, Ausgabe, Cache-Lesezugriffe und Cache-Erstellung.
Kosten in USD : Berechnet anhand der Token-Nutzung im Vergleich zu den veröffentlichten Preisen: claude-sonnet-4-6 zu 3 $/15 $/0,30 $/3,75 $ pro Million; gpt-5.4 zu 2,50 $/15 $/0,25 $; gemini-2.5-pro zu 1,25 $/10 $/0,13 $. Plattformspezifische Infrastrukturgebühren werden hinzugefügt: Claude MAs 0,08 $/Sitzungsstunde, anteilig nach Laufzeit, OpenAIs 0,03 $/Container bei jedem Tool-Aufruf, Vertex AEs Hosting-Gebühr von ca. 0,35 $/Stunde, anteilig nach Bereitstellungszeit.

Die Ergebnisse der Suite A und B erfassen zusätzlich Metriken auf Sitzungsebene (Zugrunden, Kanarienvogel-Erinnerung, Richterkonsens und Übereinstimmung).

Fairnessüberlegungen und bekannte Einschränkungen

Mehrere Asymmetrien im Aufbau beeinflussen die Lesart der Zahlen; sie werden daher explizit genannt:

Die Kontrollgruppe führt die Werkzeugausführung auf der Benchmark-Maschine ohne Cloud-Roundtrip aus. Dies verschafft ihr einen unfairen Zeitvorteil, der weniger die Agentengeschwindigkeit als vielmehr den Netzwerk-Skip widerspiegelt. Wenn wir beobachten, dass die Kontrollgruppe Aufgaben auf demselben Modell etwa 25 % schneller als Claude MA abschließt, ist ungefähr die Hälfte dieses Unterschieds auf Roundtrip-Asymmetrie zurückzuführen.

Der Code-Interpreter OpenAI läuft in einer netzwerkbeschränkten Sandbox. Die Aufgaben 06 (REST-API) und 10 (konkurrenter Downloader) erfordern ausgehendes HTTP, das der CI nur zeitweise zulässt. Die Fehler von OpenAI bei diesen Aufgaben sind auf Verstöße gegen die Sandbox-Richtlinien und nicht auf Modellfehler zurückzuführen. GPT-5.4 kann korrekten parallelen HTTP-Code schreiben; die Plattform kann ihn jedoch nicht immer ausführen. Leser sollten die Aussage „OpenAI schlägt bei Netzwerkaufgaben fehl“ nicht als Aussage über das Modell interpretieren.

Die Version Gemini 3.1-pro-preview ist nur über eine Projekt-basierte Vorschau-Zulassungsliste zugänglich. Wir haben versucht, dieses Modell sowohl über die direkte Vertex-API als auch über die Vertex Agent Engine zu testen. Direkte API-Aufrufe lieferten den Fehlercode 404. Die Bereitstellung des Modells über die Agent Engine war zwar erfolgreich, aber die Inferenzaufrufe lieferten keine Ereignisse ohne Fehlermeldung. Daher verwendeten wir stattdessen die Version gemini-2.5-pro.

Eine Reihe mehrstündiger Refactoring-Aufgaben, das Debuggen in unbekannten Codebasen oder langlaufende autonome Arbeitsabläufe würden die Harnesses unterschiedlich belasten und wahrscheinlich die Top-Tier-Optionen deutlicher voneinander trennen.

Wir haben weder die Bereitstellungslatenz, das Kaltstartverhalten, die Leistung bei gleichzeitigen Sitzungen noch die Ratenbegrenzungen gemessen. Diese Aspekte sind zwar wichtig für produktive Workloads mit hohem Durchsatz, lagen aber außerhalb des Untersuchungsbereichs dieser Runde.

Gemeinsame Merkmale aller KI-Agentenplattformen

Jede Plattform in diesem Vergleich bietet grundlegende Funktionen, die die Kategorie der KI-Agenten definieren. Diese gemeinsamen Merkmale bilden das minimal funktionsfähige Produkt für die agentenbasierte Automatisierung, während differenzierende Merkmale die Plattformauswahl bestimmen.

Multiagenten-Orchestrierung: Alle Plattformen unterstützen die Multiagenten-Orchestrierung, die Implementierung variiert jedoch (siehe die Abschnitte zu den einzelnen Plattformen oben).

Tool-Nutzung und externe Integrationen: Agenten auf allen Plattformen können externe APIs, Datenbanken und Geschäftsanwendungen aufrufen. Die Anzahl der vordefinierten Konnektoren reicht von ca. 50 (Dify) bis über 2.000 (Relevance AI), wobei alle Plattformen benutzerdefinierte API-Definitionen unterstützen.

Persistentes Speicher- und Kontextmanagement: Das Speichern von Informationen innerhalb von Sitzungen (Kurzzeitspeicher) und über Sitzungen hinweg (Langzeitspeicher) ist eine Standardfunktion, die je nach Plattform durch Vektordatenbanken, Sitzungsobjekte oder konfigurierbare Kontextfenster erreicht wird.

Überwachung und Beobachtbarkeit: Jede Plattform stellt Protokolle, Traces oder Analysen zur Verfügung, um die Agentenausführung zu überprüfen, die Token-Nutzung und Latenz zu verfolgen und Fehler zu identifizieren.

Menschliche Aufsicht und Genehmigungskontrollen: Mechanismen zur menschlichen Überprüfung, Genehmigung oder Aufhebung von Agentenaktionen sind auf allen Plattformen vorhanden. Beispiele hierfür sind die toolspezifischen Genehmigungsprozesse von n8n, die Unterbrechungs- und Fortsetzungsfunktionen von LangGraph, die Richtliniensteuerung von Bedrock AgentCore, der ServiceNow AI Control Tower und die automatische Eskalation von Lindy.

Wissensbasierte und abrufgestützte Generierung (RAG): Die Verankerung von Agenten in benutzerdefiniertem Wissen durch Dokumentenindizierung und -abfrage ist eine grundlegende Funktion in dieser Kategorie. Beispiele hierfür sind die Dify RAG-Pipeline, Voiceflow Knowledge Base, Bedrock Knowledge Bases, die Vertex AI RAG Engine und Kore.ai Search AI.

Agenten-Builder-Oberfläche ohne oder mit geringem Codeaufwand: Grafische oder natürlichsprachliche Schnittstellen zur Agentenerstellung sind auf jeder Plattform verfügbar. Enterprise-Plattformen bieten No-Code-Studios (Agentforce Builder, Copilot Studio, watsonx Orchestrate), während Entwickler-Frameworks ergänzende visuelle Werkzeuge bereitstellen (LangGraph Studio, AutoGen Studio, CrewAI Studio).