Agente IA Protocollo di contesto del modello

Esecuzione del codice con MCP: un nuovo approccio all'efficienza degli agenti di intelligenza artificiale

con

aggiornato il Gen 22, 2026

Anthropic ha introdotto un metodo in cui gli agenti di intelligenza artificiale interagiscono con i server del Model Context Protocol (MCP) scrivendo codice eseguibile anziché effettuare chiamate dirette agli strumenti. L'agente tratta gli strumenti come file su un computer, trova ciò di cui ha bisogno e li utilizza direttamente con il codice, in modo che i dati intermedi non debbano passare attraverso la memoria del modello. Abbiamo testato questo approccio per verificare se riduce il costo del token mantenendo lo stesso tasso di successo.

Esecuzione del codice con MCP rispetto al normale MCP

metrico	MCP regolare	MCP con esecuzione del codice	Differenza
Tasso di successo	100%	100%	Stesso
Latenza media	9,66 secondi	10,37 secondi	+7%
Token di input medi	15.417	3.310	-78,5%
Token di output medi	87	192	+120%
Token di input totali	770.852	165.496	-78,5%
Token di output totali	4.345	9.585	+120%
Totale di tutti i token	775.197	175.081	-77,4%

Abbiamo confrontato due approcci per la creazione di agenti di intelligenza artificiale che interagiscono con strumenti esterni tramite l'MCP:

MCP standard : approccio tradizionale in cui tutte le definizioni degli strumenti vengono caricate nella finestra di contesto del modello.
Esecuzione del codice MCP : un nuovo approccio in cui il modello scrive codice che richiama strumenti, mantenendo i dati intermedi fuori contesto.

Principali risultati

Risparmio di token di input: l'esecuzione del codice utilizza il 78,5% in meno di token di input (165.000 contro 771.000):

Caricamenti regolari ~15.400 token di definizioni di strumenti per chiamata
L'esecuzione del codice richiede solo circa 3.300 token per chiamata

Numero maggiore di token di output: l'approccio di esecuzione del codice utilizza 2,2 volte più token di output perché il modello scrive codice + spiegazioni

Risparmio netto di token: riduzione totale dei token pari al 77,4% (175.000 contro 775.000)

Implicazioni in termini di costi:

I token di input sono in genere più economici dei token di output
Ma un risparmio del 78% sugli input compensa ampiamente il raddoppio dell'output.
Riduzione dei costi stimata di circa il 70% grazie all'esecuzione del codice.

Entrambi hanno ottenuto un tasso di successo del 100% su queste query con GPT-4.1.

L'approccio all'esecuzione del codice è ispirato al post di Anthropic sull'utilizzo dell'esecuzione del codice con MCP per ridurre l'utilizzo della finestra di contesto mantenendo al contempo la funzionalità dell'agente. ¹

Metodologia di esecuzione del codice con confronto MCP

Compiti

Eseguiamo ogni attività 50 volte per ciascun approccio:

Vai su https://aimultiple.com/open-source-embedding-models e indicami i 5 modelli con le migliori prestazioni (ovvero, i modelli con una precisione del 100% tra i primi 5).
Vai su https://aimultiple.com/open-source-embedding-models e dimmi quale modello ha la latenza più alta.

Configurazione di confronto

Abbiamo utilizzato il server MCP di Bright Data con la modalità Pro abilitata, poiché ha mostrato la massima precisione nel nostro benchmark MCP per browser.

Bright Data Server MCP: strumenti di integrazione web per l'IA.

Visita il sito web

Abbiamo utilizzato GPT-4.1 come LLM a causa della sua ampia finestra di contesto.

Configurazione dell'ambiente: abbiamo cancellato tutti i dati memorizzati nella cache e garantito una nuova connessione al server MCP per ogni esecuzione. Ogni query viene eseguita come sottoprocesso separato.

Confronto architettonico

Architettura MCP standard

Nell'approccio MCP standard, l'agente segue un flusso semplice: la query dell'utente entra in un agente LangGraph ReAct, che ha accesso a tutte le 63 definizioni degli strumenti nella sua finestra di contesto. L'agente seleziona e richiama gli strumenti tramite la sessione client MCP e i risultati degli strumenti vengono restituiti tramite la finestra di contesto per informare l'agente sull'azione successiva.

Architettura MCP per l'esecuzione del codice

L'approccio basato sull'esecuzione del codice aggiunge un livello intermedio: la query dell'utente viene inviata a un agente di esecuzione del codice con un contesto compatto (solo i nomi degli strumenti, non gli schemi completi). L'agente scrive codice Python che richiama gli strumenti. Questo codice viene eseguito in un ambiente sandbox di esecuzione del codice, che comunica con la sessione client MCP. Solo i risultati finali o i riepiloghi vengono restituiti al contesto dell'agente, non i dati intermedi grezzi.

L'implementazione dell'esecuzione del codice utilizza la divulgazione progressiva. Nel prompt di sistema vengono inclusi solo i nomi degli strumenti e descrizioni troncate (60 caratteri). Quando il modello deve utilizzare uno strumento, scrive codice Python che richiama una funzione asincrona chiamata `call_tool()` fornita nell'ambiente di esecuzione.

Limiti del nostro approccio

Diversità delle query: sono stati testati solo 2 tipi di query; i risultati possono variare per altri tipi di attività.
Modello singolo: testato solo con GPT-4.1; altri modelli potrebbero mostrare schemi diversi
Qualità del codice: il successo dell'esecuzione del codice dipende dalla capacità di generazione del codice del modello; ciò può causare una diminuzione dei tassi di successo in attività più complesse.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Perché i tradizionali MCP sprecano risorse

Problema 1: Le definizioni degli strumenti consumano un contesto eccessivo

Ogni strumento necessita di istruzioni nella memoria del modello. Un esempio di base:

 gdrive.getDocument
 Scarica un file dall'unità Google
 Necessario: documento d'identità
 Restituisce: il contenuto del file

Esempio: un agente connesso a 50 server con 20 strumenti ciascuno significa 1.000 definizioni di strumenti. Considerando circa 150 token per definizione, vengono consumati 150.000 token prima che l'agente legga la prima richiesta.

Problema 2: I dati vengono elaborati più volte

Compito: "Recupera gli appunti della mia riunione dall'unità Google e aggiungili all'unità Salesforce."

Che succede:

L'agente riceve il documento (50.000 token)
Il modello lo legge
L'agente lo invia a Salesforce (altri 50.000 token)

Il modello gestisce oltre 100.000 token per trasferire dati da un luogo all'altro, come ad esempio far leggere ad alta voce un intero libro a qualcuno per poi consegnarlo a qualcun altro.

Quando è opportuno utilizzare l'esecuzione di codice con MCP?

L'esecuzione del codice con MCP risolve due inefficienze fondamentali delle implementazioni MCP tradizionali:

Le definizioni degli strumenti non affollano più la finestra di contesto
I dati intermedi smettono di fluire attraverso il modello inutilmente

Questo approccio funziona al meglio quando:

Hai molti strumenti MCP collegati
I tuoi flussi di lavoro prevedono l'elaborazione dei dati in più fasi.
Documenti o set di dati di grandi dimensioni vengono trasferiti tra strumenti
I limiti della finestra di contesto influiscono sui tuoi agenti

I requisiti infrastrutturali implicano che questa soluzione non sia automaticamente migliore per tutti i casi d'uso. Implementazioni su piccola scala con pochi strumenti potrebbero non giustificare la complessità operativa.

Per le organizzazioni che già utilizzano agenti con ampi cataloghi di strumenti MCP, la possibilità di una riduzione dei token superiore al 98% e il conseguente risparmio sui costi rendono questo approccio degno di essere approfondito.