Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Codeausführung mit MCP: Ein neuer Ansatz zur Steigerung der Effizienz von KI-Agenten

Sena Sezer
Sena Sezer
aktualisiert am Jan 22, 2026
Siehe unsere ethischen Normen

Anthropic hat eine Methode eingeführt , mit der KI-Agenten über ausführbaren Code mit MCP-Servern (Model Context Protocol) interagieren, anstatt Tools direkt aufzurufen. Der Agent behandelt Tools wie Dateien auf einem Computer, findet die benötigten Informationen und verwendet sie direkt im Code, sodass keine Zwischenspeicherdaten durch den Modellspeicher geleitet werden müssen. Wir haben diesen Ansatz getestet, um zu prüfen, ob er die Token-Kosten senkt und gleichzeitig die Erfolgsquote beibehält.

Codeausführung mit MCP im Vergleich zu regulärem MCP

Metrisch
Regelmäßiges MCP
MCP mit Codeausführung
Unterschied
Erfolgsquote
100%
100%
Dasselbe
Durchschnittliche Latenz
9,66 s
10,37 Sekunden
+7 %
Durchschnittliche Eingabe-Tokens
15.417
3.310
-78,5 %
Durchschnittliche Ausgabetoken
87
192
+120%
Gesamtzahl der eingegebenen Token
770.852
165.496
-78,5 %
Gesamtausgabe Token
4.345
9.585
+120%
Gesamtanzahl aller Token
775.197
175.081
-77,4 %

Wir verglichen zwei Ansätze zum Erstellen von KI-Agenten, die über das MCP mit externen Tools interagieren:

  • Reguläres MCP : Traditioneller Ansatz, bei dem alle Werkzeugdefinitionen in das Kontextfenster des Modells geladen werden.
  • Codeausführungs-MCP : Ein neuartiger Ansatz, bei dem das Modell Code schreibt, der Tools aufruft, wobei Zwischenergebnisse aus dem Kontext gefiltert werden.

Wichtigste Erkenntnisse

Einsparungen bei Eingabetoken: Die Codeausführung benötigt 78,5 % weniger Eingabetoken (165.000 gegenüber 771.000):

  • Regelmäßige Ladevorgänge: ca. 15.400 Tokens an Werkzeugdefinitionen pro Aufruf
  • Für die Codeausführung werden nur etwa 3.300 Token pro Aufruf benötigt.

Höhere Anzahl an Ausgabetoken: Der Codeausführungsansatz verwendet 2,2-mal mehr Ausgabetoken, da das Modell Code + Erklärungen schreibt.

Netto-Tokeneinsparung: 77,4 % Gesamtreduktion der Token (175.000 gegenüber 775.000)

Kostenfolgen:

  • Eingabe-Token sind in der Regel günstiger als Ausgabe-Token.
  • Die Einsparungen von 78 % beim Input überwiegen jedoch die Verdopplung der Produktionsmenge bei Weitem.
  • Geschätzte Kostenreduzierung von ca. 70 % durch Codeausführung

Beide erzielten bei diesen Anfragen mit GPT-4.1 eine Erfolgsquote von 100%.

Der Ansatz zur Codeausführung ist von Anthropics Beitrag über die Verwendung der Codeausführung mit MCP zur Reduzierung der Kontextfensternutzung bei gleichzeitiger Aufrechterhaltung der Agentenfunktionalität inspiriert. 1

Methodik der Codeausführung mit MCP-Vergleich

Aufgaben

Wir führen jede Aufgabe für jeden Ansatz 50 Mal aus:

  • Gehen Sie zu https://aimultiple.com/open-source-embedding-models und nennen Sie mir die fünf besten Modelle (d. h. die Modelle mit einer Top-5-Genauigkeit von 100 %).
  • Gehen Sie zu https://aimultiple.com/open-source-embedding-models und teilen Sie mir mit, welches Modell die höchste Latenz aufweist.

Vergleichsaufbau

Wir verwendeten den MCP-Server von Bright Data mit aktiviertem Pro-Modus, da dieser in unserem Browser-MCP-Benchmark die höchste Genauigkeit aufwies.

Bright Data MCP Server: Web-Integrationstools für KI.

Website besuchen

Wir haben GPT-4.1 als LLM aufgrund seines großen Kontextfensters verwendet.

Umgebungskonfiguration: Wir haben alle zwischengespeicherten Daten gelöscht und für jeden Durchlauf eine neue Verbindung zum MCP-Server sichergestellt. Jede Abfrage wird als separater Unterprozess ausgeführt.

Architekturvergleich

Standard-MCP-Architektur

Im regulären MCP-Verfahren folgt der Agent einem einfachen Ablauf: Die Benutzeranfrage wird an einen LangGraph ReAct Agent gesendet, der Zugriff auf alle 63 Werkzeugdefinitionen in seinem Kontextfenster hat. Der Agent wählt Werkzeuge aus und ruft sie über die MCP-Client-Sitzung auf. Die Ergebnisse der Werkzeuge werden über das Kontextfenster zurückgesendet, um die nächste Aktion des Agenten zu steuern.

Codeausführungsarchitektur der MCP

Der Codeausführungsansatz fügt eine Zwischenschicht hinzu: Die Benutzeranfrage wird mit einem kompakten Kontext (nur Werkzeugnamen, keine vollständigen Schemas) an einen Codeausführungsagenten gesendet. Dieser Agent generiert Python-Code, der die Werkzeuge aufruft. Der Code wird in einer isolierten Codeausführungsumgebung ausgeführt, die mit der MCP-Client-Sitzung kommuniziert. Lediglich die Endergebnisse oder Zusammenfassungen werden an den Kontext des Agenten zurückgegeben, nicht die rohen Zwischenergebnisse.

Die Codeausführung erfolgt mittels progressiver Offenlegung. Im Systemprompt werden lediglich Werkzeugnamen und gekürzte Beschreibungen (60 Zeichen) angezeigt. Benötigt das Modell ein Werkzeug, generiert es Python-Code, der die in der Ausführungsumgebung bereitgestellte asynchrone Funktion `call_tool()` aufruft.

Grenzen unseres Ansatzes

  1. Vielfalt der Abfragen: Es wurden nur 2 Abfragetypen getestet; die Ergebnisse können bei anderen Aufgabentypen abweichen.
  2. Einzelmodell: Nur mit GPT-4.1 getestet; andere Modelle können abweichende Ergebnisse zeigen.
  3. Codequalität: Der Erfolg der Codeausführung hängt von der Fähigkeit des Modells zur Codegenerierung ab; dies kann bei komplexeren Aufgaben zu einer Verringerung der Erfolgsquote führen.

Warum herkömmliche MCP-Verfahren Ressourcen verschwenden

Problem 1: Werkzeugdefinitionen verbrauchen übermäßig viel Kontext

Jedes Werkzeug benötigt Anweisungen im Speicher des Modells. Ein einfaches Beispiel:

 gdrive.getDocument
Ruft eine Datei von Google Drive ab.
Benötigt: Dokumenten-ID
Rückgabewert: der Dateiinhalt

Beispiel: Ein Agent, der mit 50 Servern mit jeweils 20 Tools verbunden ist, ergibt 1.000 Tool-Definitionen. Bei etwa 150 Tokens pro Definition werden somit 150.000 Tokens verbraucht, bevor der Agent Ihre erste Anfrage verarbeitet.

Problem 2: Die Daten werden mehrfach verarbeitet

Aufgabe: „Meine Besprechungsnotizen aus Google Drive abrufen und in Salesforce hinzufügen.“

Was geschieht:

  1. Der Agent erhält das Dokument (50.000 Tokens).
  2. Das Modell liest es.
  3. Der Agent sendet es an Salesforce (weitere 50.000 Tokens).

Das Modell verarbeitet über 100.000 Tokens, um Daten von einem Ort zum anderen zu übertragen – so, als würde jemand ein ganzes Buch laut vorlesen, nur um es dann jemand anderem zu geben.

Wann sollte die Codeausführung mit MCP verwendet werden?

Die Codeausführung mit MCP behebt zwei grundlegende Ineffizienzen traditioneller MCP-Implementierungen:

  1. Werkzeugdefinitionen überladen das Kontextfenster nicht mehr.
  2. Zwischendaten fließen unnötigerweise nicht mehr durch das Modell.

Diese Methode funktioniert am besten, wenn:

  • Sie haben viele MCP-Tools angeschlossen
  • Ihre Arbeitsabläufe beinhalten mehrstufige Datenverarbeitung.
  • Große Dokumente oder Datensätze werden zwischen verschiedenen Tools verschoben.
  • Kontextfensterbeschränkungen wirken sich auf Ihre Agenten aus

Aufgrund der Infrastrukturanforderungen ist dies nicht automatisch für alle Anwendungsfälle besser geeignet. Bei kleineren Implementierungen mit wenigen Tools rechtfertigt sich die operative Komplexität möglicherweise nicht.

Für Organisationen, die bereits Agenten mit umfangreichen MCP-Toolkatalogen einsetzen, lohnt es sich, diesen Ansatz genauer zu untersuchen, da das Potenzial für eine Token-Reduzierung von über 98 % und entsprechende Kosteneinsparungen besteht.

Sena Sezer
Sena Sezer
Branchenanalyst
Sena ist Branchenanalystin bei AIMultiple. Sie hat ihren Bachelor-Abschluss an der Bogazici-Universität erworben.
Vollständiges Profil anzeigen
Recherchiert von
Şevval Alper
Şevval Alper
KI-Forscher
Şevval ist Branchenanalystin bei AIMultiple und spezialisiert auf KI-Codierungswerkzeuge, KI-Agenten und Quantentechnologien.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450