Codeausführung mit MCP: Ein neuer Ansatz zur Steigerung der Effizienz von KI-Agenten

mit

aktualisiert am Jan 22, 2026

Anthropic stellte eine Methode vor , mit der KI-Agenten über ausführbaren Code mit MCP-Servern (Model Context Protocol) interagieren, anstatt Tools direkt aufzurufen. Der Agent behandelt Tools wie Dateien auf einem Computer, findet die benötigten Informationen und verwendet sie direkt im Code, sodass keine Zwischenspeicherdaten durch den Modellspeicher geleitet werden müssen. Wir haben diesen Ansatz getestet, um zu prüfen, ob er die Token-Kosten senkt und gleichzeitig die Erfolgsquote beibehält.

Codeausführung mit MCP im Vergleich zu regulärem MCP

Metrisch	Regelmäßiges MCP	MCP mit Codeausführung	Unterschied
Erfolgsquote	100%	100%	Dasselbe
Durchschnittliche Latenz	9,66 s	10,37 Sekunden	+7 %
Durchschnittliche Eingabe-Tokens	15.417	3.310	-78,5 %
Durchschnittliche Ausgabetoken	87	192	+120%
Gesamtzahl der eingegebenen Token	770.852	165.496	-78,5 %
Gesamtausgabe Token	4.345	9.585	+120%
Gesamtanzahl aller Token	775.197	175.081	-77,4 %

Wir verglichen zwei Ansätze zum Erstellen von KI-Agenten, die über das MCP mit externen Tools interagieren:

Reguläres MCP : Traditioneller Ansatz, bei dem alle Werkzeugdefinitionen in das Kontextfenster des Modells geladen werden.
Codeausführungs-MCP : Ein neuartiger Ansatz, bei dem das Modell Code schreibt, der Tools aufruft, wobei Zwischenergebnisse aus dem Kontext gefiltert werden.

Wichtigste Erkenntnisse

Einsparungen bei Eingabetoken: Die Codeausführung benötigt 78,5 % weniger Eingabetoken (165.000 gegenüber 771.000):

Regelmäßige Ladevorgänge: ca. 15.400 Tokens an Werkzeugdefinitionen pro Aufruf
Für die Codeausführung werden nur etwa 3.300 Token pro Aufruf benötigt.

Höhere Anzahl an Ausgabetoken: Der Codeausführungsansatz verwendet 2,2-mal mehr Ausgabetoken, da das Modell Code + Erklärungen schreibt.

Netto-Tokeneinsparung: 77,4 % Gesamtreduktion der Token (175.000 gegenüber 775.000)

Kostenfolgen:

Eingabe-Token sind in der Regel günstiger als Ausgabe-Token.
Die Einsparungen von 78 % beim Input überwiegen jedoch die Verdopplung der Produktionsmenge bei Weitem.
Geschätzte Kostenreduzierung von ca. 70 % durch Codeausführung

Beide erzielten bei diesen Abfragen mit GPT-4.1 eine Erfolgsquote von 100%.

Der Ansatz zur Codeausführung ist inspiriert von Anthropics Beitrag über die Verwendung der Codeausführung mit MCP zur Reduzierung der Kontextfensternutzung bei gleichzeitiger Aufrechterhaltung der Agentenfunktionalität. ¹

Methodik der Codeausführung mit MCP-Vergleich

Aufgaben

Wir führen jede Aufgabe für jeden Ansatz 50 Mal aus:

Gehen Sie zu https://aimultiple.com/open-source-embedding-models und nennen Sie mir die fünf besten Modelle (d. h. die Modelle mit einer Top-5-Genauigkeit von 100 %).
Gehen Sie zu https://aimultiple.com/open-source-embedding-models und teilen Sie mir mit, welches Modell die höchste Latenz aufweist.

Vergleichsaufbau

Wir haben den MCP-Server von Bright Data mit aktiviertem Pro-Modus verwendet, da dieser in unserem Browser-MCP-Benchmark die höchste Genauigkeit aufwies.

Bright Data MCP-Server: Web-Integrationstools für KI.

Website besuchen

Wir haben GPT-4.1 als LLM verwendet, da es ein großes Kontextfenster hat.

Umgebungskonfiguration: Wir haben alle zwischengespeicherten Daten gelöscht und für jeden Durchlauf eine neue Verbindung zum MCP-Server sichergestellt. Jede Abfrage wird als separater Unterprozess ausgeführt.

Architekturvergleich

Standard-MCP-Architektur

Im regulären MCP-Verfahren folgt der Agent einem einfachen Ablauf: Die Benutzeranfrage wird an einen LangGraph ReAct Agent gesendet, der Zugriff auf alle 63 Werkzeugdefinitionen in seinem Kontextfenster hat. Der Agent wählt Werkzeuge aus und ruft sie über die MCP-Client-Sitzung auf. Die Ergebnisse der Werkzeuge werden über das Kontextfenster zurückgesendet, um die nächste Aktion des Agenten zu steuern.

Codeausführungsarchitektur der MCP

Der Codeausführungsansatz fügt eine Zwischenschicht hinzu: Die Benutzeranfrage wird mit einem kompakten Kontext (nur Werkzeugnamen, keine vollständigen Schemas) an einen Codeausführungsagenten gesendet. Dieser Agent generiert Python-Code, der die Werkzeuge aufruft. Der Code wird in einer isolierten Codeausführungsumgebung ausgeführt, die mit der MCP-Client-Sitzung kommuniziert. Lediglich die Endergebnisse oder Zusammenfassungen werden an den Kontext des Agenten zurückgegeben, nicht die rohen Zwischenergebnisse.

Die Codeausführung erfolgt mittels progressiver Offenlegung. Im Systemprompt werden lediglich Werkzeugnamen und gekürzte Beschreibungen (60 Zeichen) angezeigt. Benötigt das Modell ein Werkzeug, generiert es Python-Code, der die in der Ausführungsumgebung bereitgestellte asynchrone Funktion `call_tool()` aufruft.

Grenzen unseres Ansatzes

Vielfalt der Abfragen: Es wurden nur 2 Abfragetypen getestet; die Ergebnisse können bei anderen Aufgabentypen abweichen.
Einzelmodell: Nur mit GPT-4.1 getestet; andere Modelle können abweichende Muster aufweisen.
Codequalität: Der Erfolg der Codeausführung hängt von der Fähigkeit des Modells zur Codegenerierung ab; dies kann bei komplexeren Aufgaben zu einer Verringerung der Erfolgsquote führen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Warum herkömmliche MCP-Verfahren Ressourcen verschwenden

Problem 1: Werkzeugdefinitionen verbrauchen übermäßig viel Kontext

Jedes Werkzeug benötigt Anweisungen im Speicher des Modells. Ein einfaches Beispiel:

 gdrive.getDocument
 Ruft eine Datei vom Laufwerk Google ab
 Benötigt: Dokumenten-ID
 Rückgabewert: der Dateiinhalt

Beispiel: Ein Agent, der mit 50 Servern mit jeweils 20 Tools verbunden ist, ergibt 1.000 Tool-Definitionen. Bei etwa 150 Tokens pro Definition werden somit 150.000 Tokens verbraucht, bevor der Agent Ihre erste Anfrage verarbeitet.

Problem 2: Die Daten werden mehrfach verarbeitet

Aufgabe: „Meine Besprechungsnotizen vom Laufwerk Google abrufen und zu Salesforce hinzufügen.“

Was geschieht:

Der Agent erhält das Dokument (50.000 Tokens).
Das Modell liest es.
Der Agent sendet es an Salesforce (weitere 50.000 Tokens).

Das Modell verarbeitet über 100.000 Tokens, um Daten von einem Ort zum anderen zu übertragen – so, als würde jemand ein ganzes Buch laut vorlesen, nur um es dann jemand anderem zu geben.

Wann sollte die Codeausführung mit MCP verwendet werden?

Die Codeausführung mit MCP behebt zwei grundlegende Ineffizienzen traditioneller MCP-Implementierungen:

Werkzeugdefinitionen überladen das Kontextfenster nicht mehr.
Zwischendaten fließen unnötigerweise nicht mehr durch das Modell.

Diese Methode funktioniert am besten, wenn:

Sie haben viele MCP-Tools angeschlossen
Ihre Arbeitsabläufe beinhalten mehrstufige Datenverarbeitung.
Große Dokumente oder Datensätze werden zwischen verschiedenen Tools verschoben.
Kontextfensterbeschränkungen wirken sich auf Ihre Agenten aus

Aufgrund der Infrastrukturanforderungen ist dies nicht automatisch für alle Anwendungsfälle besser geeignet. Bei kleineren Implementierungen mit wenigen Tools rechtfertigt sich die operative Komplexität möglicherweise nicht.

Für Organisationen, die bereits Agenten mit umfangreichen MCP-Toolkatalogen einsetzen, lohnt es sich, diesen Ansatz genauer zu untersuchen, da das Potenzial für eine Token-Reduzierung von über 98 % und entsprechende Kosteneinsparungen besteht.