Agente de IA Protocolo de contexto del modelo

Ejecución de código con MCP: Un nuevo enfoque para la eficiencia de los agentes de IA

con

actualizado el Ene 22, 2026

El artículo Anthropic introdujo un método en el que los agentes de IA interactúan con los servidores del Protocolo de Contexto de Modelo (MCP) escribiendo código ejecutable en lugar de realizar llamadas directas a las herramientas. El agente trata las herramientas como archivos en una computadora, encuentra lo que necesita y las usa directamente con el código, por lo que los datos intermedios no tienen que pasar por la memoria del modelo. Probamos este enfoque para ver si reduce el costo de tokens manteniendo la misma tasa de éxito.

Ejecución de código con MCP frente a MCP estándar

Métrico	MCP regular	MCP con ejecución de código	Diferencia
Tasa de éxito	100%	100%	Mismo
Latencia promedio	9,66 s	10,37 s	+7%
Tokens de entrada promedio	15.417	3.310	-78,5%
Tokens de salida promedio	87	192	+120%
Tokens de entrada totales	770.852	165.496	-78,5%
Tokens de producción total	4.345	9.585	+120%
Total de fichas	775.197	175.081	-77,4%

Comparamos dos enfoques para construir agentes de IA que interactúan con herramientas externas a través del MCP:

MCP regular : Enfoque tradicional donde todas las definiciones de herramientas se cargan en la ventana de contexto del modelo.
MCP de ejecución de código : Enfoque novedoso donde el modelo escribe código que llama a herramientas, manteniendo los datos intermedios fuera de contexto.

Principales conclusiones

Ahorro de tokens de entrada: La ejecución del código utiliza un 78,5 % menos de tokens de entrada (165 000 frente a 771 000):

Cargas regulares de aproximadamente 15.400 tokens de definiciones de herramientas por llamada.
La ejecución del código solo necesita aproximadamente 3300 tokens por llamada.

Mayor cantidad de tokens de salida: El enfoque de ejecución de código utiliza 2,2 veces más tokens de salida porque el modelo escribe código + explicaciones.

Ahorro neto en tokens: reducción total del 77,4% (175.000 frente a 775.000).

Implicaciones en los costos:

Los tokens de entrada suelen ser más baratos que los tokens de salida.
Pero el ahorro de insumos del 78% compensa con creces el aumento de producción del doble.
Reducción estimada de costos de aproximadamente el 70% con la ejecución del código.

Ambos lograron una tasa de éxito del 100% en estas consultas con GPT-4.1.

El enfoque de ejecución de código está inspirado en la publicación de Anthropic sobre el uso de la ejecución de código con MCP para reducir el uso de la ventana de contexto manteniendo la capacidad del agente. ¹

Metodología de ejecución de código con comparación MCP

Tareas

Ejecutamos cada tarea 50 veces para cada enfoque:

Ve a https://aimultiple.com/open-source-embedding-models y dime cuáles son los 5 mejores modelos (es decir, los modelos con una precisión del 100% entre los 5 mejores).
Ve a https://aimultiple.com/open-source-embedding-models y dime qué modelo tiene la mayor latencia.

Configuración de comparación

Utilizamos el servidor MCP de Bright Data con el modo profesional habilitado, ya que tenía la mayor precisión en nuestra prueba comparativa de MCP del navegador.

Bright Data Servidor MCP: herramientas de integración web para IA.

Visita el sitio web

Utilizamos GPT-4.1 como LLM debido a su gran ventana de contexto.

Configuración del entorno: Borramos los datos en caché y nos aseguramos de establecer una conexión nueva con el servidor MCP en cada ejecución. Cada consulta se ejecuta como un subproceso independiente.

Comparación de arquitectura

Arquitectura MCP estándar

En el enfoque MCP estándar, el agente sigue un flujo sencillo: la consulta del usuario ingresa a un agente LangGraph ReAct, que tiene acceso a las 63 definiciones de herramientas en su ventana de contexto. El agente selecciona y llama a las herramientas a través de la sesión del cliente MCP, y los resultados de las herramientas fluyen de vuelta a través de la ventana de contexto para informar la siguiente acción del agente.

Arquitectura MCP de ejecución de código

El método de ejecución de código añade una capa intermedia: la consulta del usuario se envía a un agente de ejecución de código con un contexto compacto (solo nombres de herramientas, no esquemas completos). El agente escribe código Python que llama a las herramientas. Este código se ejecuta en un entorno aislado del ejecutor de código, que se comunica con la sesión del cliente MCP. Solo los resultados finales o los resúmenes se devuelven al contexto del agente, no los datos intermedios sin procesar.

La implementación de la ejecución del código utiliza divulgación progresiva. En el mensaje del sistema solo se incluyen los nombres de las herramientas y descripciones truncadas (60 caracteres). Cuando el modelo necesita usar una herramienta, escribe código Python que llama a la función asíncrona `call_tool()` proporcionada en el entorno de ejecución.

Limitaciones de nuestro enfoque

Diversidad de consultas: Solo se probaron 2 tipos de consultas; los resultados pueden variar para otros tipos de tareas.
Modelo único: Probado únicamente con GPT-4.1; otros modelos pueden mostrar patrones diferentes.
Calidad del código: El éxito de la ejecución del código depende de la capacidad de generación de código del modelo, lo que puede provocar una disminución en las tasas de éxito en tareas más complejas.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Por qué el MCP tradicional desperdicia recursos

Problema 1: Las definiciones de herramientas consumen un contexto excesivo.

Cada herramienta necesita instrucciones en la memoria del modelo. Un ejemplo básico:

 gdrive.obtenerDocumento
 Obtiene un archivo de la unidad Google
 Requisitos: ID del documento
 Devuelve: el contenido del archivo

Ejemplo: Un agente conectado a 50 servidores con 20 herramientas cada uno implica 1000 definiciones de herramientas. A un coste aproximado de 150 tokens por definición, se consumirían 150 000 tokens antes de que el agente procese su primera solicitud.

Problema 2: Los datos se procesan varias veces.

Tarea: “Obtén mis notas de la reunión de la unidad Google y agrégalas a Salesforce.”

Lo que sucede:

El agente recibe el documento (50.000 tokens).
El modelo lo lee
El agente lo envía a Salesforce (otros 50.000 tokens)

El modelo maneja más de 100.000 tokens para transferir datos de un lugar a otro, como si alguien leyera un libro entero en voz alta solo para entregárselo a otra persona.

¿Cuándo utilizar la ejecución de código con MCP?

La ejecución de código con MCP aborda dos ineficiencias fundamentales en las implementaciones tradicionales de MCP:

Las definiciones de herramientas ya no saturan la ventana de contexto.
Los datos intermedios dejan de fluir a través del modelo innecesariamente.

Este método funciona mejor cuando:

Tienes muchas herramientas MCP conectadas.
Sus flujos de trabajo implican el procesamiento de datos en varios pasos.
Los documentos o conjuntos de datos grandes se transfieren entre herramientas.
Los límites de la ventana de contexto afectan a sus agentes.

Los requisitos de infraestructura implican que esto no es automáticamente mejor para todos los casos de uso. Las implementaciones a pequeña escala con pocas herramientas podrían no justificar la complejidad operativa.

Para las organizaciones que ya utilizan agentes con amplios catálogos de herramientas MCP, el potencial de reducción de tokens en más del 98 % y el consiguiente ahorro de costes hacen que valga la pena investigar este enfoque.