Ejecución de código con MCP: Un nuevo enfoque para la eficiencia de los agentes de IA
El artículo Anthropic introdujo un método en el que los agentes de IA interactúan con los servidores del Protocolo de Contexto de Modelo (MCP) escribiendo código ejecutable en lugar de realizar llamadas directas a las herramientas. El agente trata las herramientas como archivos en una computadora, encuentra lo que necesita y las usa directamente con el código, por lo que los datos intermedios no tienen que pasar por la memoria del modelo. Probamos este enfoque para ver si reduce el costo de tokens manteniendo la misma tasa de éxito.
Ejecución de código con MCP frente a MCP estándar
Métrico | MCP regular | MCP con ejecución de código | Diferencia |
|---|---|---|---|
Tasa de éxito | 100% | 100% | Mismo |
Latencia promedio | 9,66 s | 10,37 s | +7% |
Tokens de entrada promedio | 15.417 | 3.310 | -78,5% |
Tokens de salida promedio | 87 | 192 | +120% |
Tokens de entrada totales | 770.852 | 165.496 | -78,5% |
Tokens de producción total | 4.345 | 9.585 | +120% |
Total de fichas | 775.197 | 175.081 | -77,4% |
Comparamos dos enfoques para construir agentes de IA que interactúan con herramientas externas a través del MCP:
- MCP regular : Enfoque tradicional donde todas las definiciones de herramientas se cargan en la ventana de contexto del modelo.
- MCP de ejecución de código : Enfoque novedoso donde el modelo escribe código que llama a herramientas, manteniendo los datos intermedios fuera de contexto.
Principales conclusiones
Ahorro de tokens de entrada: La ejecución del código utiliza un 78,5 % menos de tokens de entrada (165 000 frente a 771 000):
- Cargas regulares de aproximadamente 15.400 tokens de definiciones de herramientas por llamada.
- La ejecución del código solo necesita aproximadamente 3300 tokens por llamada.
Mayor cantidad de tokens de salida: El enfoque de ejecución de código utiliza 2,2 veces más tokens de salida porque el modelo escribe código + explicaciones.
Ahorro neto en tokens: reducción total del 77,4% (175.000 frente a 775.000).
Implicaciones en los costos:
- Los tokens de entrada suelen ser más baratos que los tokens de salida.
- Pero el ahorro de insumos del 78% compensa con creces el aumento de producción del doble.
- Reducción estimada de costos de aproximadamente el 70% con la ejecución del código.
Ambos lograron una tasa de éxito del 100% en estas consultas con GPT-4.1.
El enfoque de ejecución de código está inspirado en la publicación de Anthropic sobre el uso de la ejecución de código con MCP para reducir el uso de la ventana de contexto manteniendo la capacidad del agente. 1
Metodología de ejecución de código con comparación MCP
Tareas
Ejecutamos cada tarea 50 veces para cada enfoque:
- Ve a https://aimultiple.com/open-source-embedding-models y dime cuáles son los 5 mejores modelos (es decir, los modelos con una precisión del 100% entre los 5 mejores).
- Ve a https://aimultiple.com/open-source-embedding-models y dime qué modelo tiene la mayor latencia.
Configuración de comparación
Utilizamos el servidor MCP de Bright Data con el modo pro habilitado, ya que tenía la mayor precisión en nuestra prueba comparativa de MCP del navegador.
Bright Data Servidor MCP: herramientas de integración web para IA.
Visita el sitio webUtilizamos GPT-4.1 como LLM debido a su gran ventana de contexto.
Configuración del entorno: Borramos los datos en caché y nos aseguramos de establecer una conexión nueva con el servidor MCP en cada ejecución. Cada consulta se ejecuta como un subproceso independiente.
Comparación de arquitectura
Arquitectura MCP estándar
En el enfoque MCP estándar, el agente sigue un flujo sencillo: la consulta del usuario ingresa a un agente LangGraph ReAct, que tiene acceso a las 63 definiciones de herramientas en su ventana de contexto. El agente selecciona y llama a las herramientas a través de la sesión del cliente MCP, y los resultados de las herramientas fluyen de vuelta a través de la ventana de contexto para informar la siguiente acción del agente.
Arquitectura MCP de ejecución de código
El método de ejecución de código añade una capa intermedia: la consulta del usuario se envía a un agente de ejecución de código con un contexto compacto (solo nombres de herramientas, no esquemas completos). El agente escribe código Python que llama a las herramientas. Este código se ejecuta en un entorno aislado del ejecutor de código, que se comunica con la sesión del cliente MCP. Solo los resultados finales o los resúmenes se devuelven al contexto del agente, no los datos intermedios sin procesar.
La implementación de la ejecución del código utiliza divulgación progresiva. En el mensaje del sistema solo se incluyen los nombres de las herramientas y descripciones truncadas (60 caracteres). Cuando el modelo necesita usar una herramienta, escribe código Python que llama a la función asíncrona `call_tool()` proporcionada en el entorno de ejecución.
Limitaciones de nuestro enfoque
- Diversidad de consultas: Solo se probaron 2 tipos de consultas; los resultados pueden variar para otros tipos de tareas.
- Modelo único: Probado únicamente con GPT-4.1; otros modelos pueden mostrar patrones diferentes.
- Calidad del código: El éxito de la ejecución del código depende de la capacidad de generación de código del modelo, lo que puede provocar una disminución en las tasas de éxito en tareas más complejas.
Por qué el MCP tradicional desperdicia recursos
Problema 1: Las definiciones de herramientas consumen un contexto excesivo.
Cada herramienta necesita instrucciones en la memoria del modelo. Un ejemplo básico:
gdrive.obtenerDocumento
Obtiene un archivo de la unidad Google
Requisitos: ID del documento
Devuelve: el contenido del archivo
Ejemplo: Un agente conectado a 50 servidores con 20 herramientas cada uno implica 1000 definiciones de herramientas. A un coste aproximado de 150 tokens por definición, se consumirían 150 000 tokens antes de que el agente procese su primera solicitud.
Problema 2: Los datos se procesan varias veces.
Tarea: “Obtén mis notas de la reunión de la unidad Google y agrégalas a Salesforce.”
Lo que sucede:
- El agente recibe el documento (50.000 tokens).
- El modelo lo lee
- El agente lo envía a Salesforce (otros 50.000 tokens)
El modelo maneja más de 100.000 tokens para transferir datos de un lugar a otro, como si alguien leyera un libro entero en voz alta solo para entregárselo a otra persona.
¿Cuándo utilizar la ejecución de código con MCP?
La ejecución de código con MCP aborda dos ineficiencias fundamentales en las implementaciones tradicionales de MCP:
- Las definiciones de herramientas ya no saturan la ventana de contexto.
- Los datos intermedios dejan de fluir a través del modelo innecesariamente.
Este método funciona mejor cuando:
- Tienes muchas herramientas MCP conectadas.
- Sus flujos de trabajo implican el procesamiento de datos en varios pasos.
- Los documentos o conjuntos de datos grandes se transfieren entre herramientas.
- Los límites de la ventana de contexto afectan a sus agentes.
Los requisitos de infraestructura implican que esto no es automáticamente mejor para todos los casos de uso. Las implementaciones a pequeña escala con pocas herramientas podrían no justificar la complejidad operativa.
Para las organizaciones que ya utilizan agentes con amplios catálogos de herramientas MCP, el potencial de reducción de tokens en más del 98 % y el consiguiente ahorro de costes hacen que valga la pena investigar este enfoque.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.