Aplicaciones de IA con prueba de rendimiento de memoria MCP y tutorial

actualizado el Mar 6, 2026

Probamos cuatro servidores de memoria del Protocolo de Contexto de Modelo (MCP) para determinar cuáles retienen y recuperan el contexto entre sesiones de agentes de IA. Utilizando el Agente ReAct de LangChain, conectamos cada servidor, ejecutamos conversaciones estandarizadas de varias sesiones y los evaluamos según la precisión de sus operaciones de memoria.

También creamos una demostración funcional que conecta Claude y Cursor mediante OpenMemory MCP, una capa de memoria compartida que mantiene el contexto en ambas herramientas. La demostración muestra cómo funciona la memoria en la práctica: qué se almacena, cuándo se recupera y cómo el contexto determina qué información se muestra .

Resultados y metodología de la evaluación comparativa del servidor de memoria MCP

Evaluamos qué tan bien los modelos de lenguaje grandes (LLM) gestionan el conocimiento a través de conversaciones de múltiples sesiones, preservan el contexto conversacional y recuperan información importante mediante el uso de sistemas de memoria externa. Evaluamos cuatro implementaciones distintas de servidores MCP: Handrails ¹ , Grafo de conocimiento ² , Memoria básica ³ y fanzine ⁴ .

Loading Chart

El objetivo de nuestra prueba de rendimiento es medir la capacidad de un servidor MCP para:

Recordar el material con precisión durante los descansos de la sesión sin hacer las mismas preguntas dos veces.
Ejecutar las operaciones de memoria adecuadas (lectura, escritura, actualización y eliminación) en los momentos apropiados.
Modifique las respuestas en función del contexto y las preferencias del usuario guardados previamente.

Ejemplos de interacciones en MCP a partir del conjunto de datos

1- Problema de instalación del paquete: Este ejemplo prueba cómo el sistema gestiona una situación en la que un usuario intenta instalar software y encuentra problemas. A continuación, se detalla la interacción:

Sesión 1: “Tengo problemas para instalar el paquete 25.”
Sesión 2: “Intenté instalarlo con apt, pero me denegó el permiso.”
La sesión 2 continuó: “¡Eso funcionó! Gracias” (después de la sugerencia de sudo)

Comportamiento esperado: El sistema debería registrar que sudo resolvió el problema de instalación para casos similares futuros.

2. Prueba de adaptación de habilidades del usuario: Este ejemplo se centra en cómo el sistema adapta sus respuestas en función del nivel de experiencia del usuario. A continuación, se detalla la interacción:

Sesión 1: “Necesito ayuda con mi solicitud de beneficios. Soy nuevo en esto.”
Pausa para la sesión
Sesión 2: “Gracias, pero no puedo iniciar sesión ahora.”

Comportamiento esperado: El agente debería recordar que el usuario es principiante y proporcionar explicaciones más sencillas en lugar de pasos avanzados para la resolución de problemas.

Operaciones de memoria

Cada diálogo implica operaciones de memoria específicas que realiza el servidor, poniendo a prueba su capacidad para almacenar/escribir , recuperar/leer , actualizar y limpiar la memoria.

Escribir: Guardar la información inicial del dispositivo, los síntomas y el nivel de habilidad del usuario.
Lea: Recuperar el contexto anterior cuando se reanuden las sesiones.
Actualización: Realizar un seguimiento de los resultados de la solución (éxito o fracaso).
Eliminar: Eliminar información obsoleta.

Cómo se ejecuta la prueba de rendimiento

Nuestro sistema de evaluación comparativa utiliza el marco de agente ReAct de LangChain y el modelo base OpenAI. Probamos cada servidor MCP (Knowledge Graph, Basic Memory, Handrail, Zine) individualmente.

Cada escenario se ejecuta para verificar la persistencia de la memoria del sistema y el manejo de diálogos multisesión. Probamos la memoria del sistema mediante:

Validación y carga de conjuntos de datos: Carga conversaciones de múltiples sesiones en formato JSON y verifica la estructura principal.
Inicialización del agente:
- Conecta el servidor MCP con un agente ReAct y configura un indicador del sistema específico para las operaciones de memoria en el agente.
- Utiliza una lista de herramientas permitidas para restringir las operaciones a las funciones de memoria relevantes.
Procesamiento secuencial : Mantiene el historial de la conversación gestionando cada sesión por separado e indica claramente las pausas entre sesiones para evaluar la continuidad.
Aplicación de las operaciones de memoria:
- Implementa medidas de seguridad que siguen las mejores prácticas, como evitar duplicados exigiendo una verificación antes de escribir y asegurando que la memoria se lea después de las interrupciones de sesión.
- Ofrece oportunidades para reintentar cuando se activan las medidas de seguridad.
Análisis de llamadas a herramientas:
- Todas las llamadas a herramientas se extraen y categorizan (lectura, escritura, actualización, eliminación).
- Analiza las tendencias en la secuencia de herramientas a través de los límites de las sesiones y dentro de los turnos.
- Supervisa los cambios entre distintos tipos de operaciones, como escritura-actualización y lectura-escritura.
Evaluación y puntuación:
- Compara las operaciones esperadas a partir de las anotaciones del conjunto de datos con las operaciones observadas.
- Determina la precisión de cada turno y combina métricas de muchas conversaciones.
- Mide en particular los comportamientos de lectura al reanudar la ejecución y de lectura antes de la escritura.
Análisis de errores: Registra información detallada paso a paso con datos operativos, clasifica los errores, realiza un seguimiento de las tendencias de fallos y genera informes y resúmenes de rendimiento.
Salida: Genera archivos CSV con datos de referencia e informes resumidos con métricas clave, lo que facilita la lectura de la información.

Nuestro indicador clave es la precisión operativa , que mide el porcentaje de turnos en los que el modelo realiza las operaciones de memoria esperadas.

El problema radica en la falta de memoria compartida entre herramientas.

Es común usar herramientas como Claude para generar ideas. Normalmente, tomo ese plan y alterno entre diferentes herramientas. Sin embargo, sin memoria compartida, las distintas herramientas de IA no recuerdan decisiones pasadas, elecciones arquitectónicas anteriores ni los matices de tu código.

Esto plantea varios problemas:

Se pierde el contexto entre herramientas: cuando realizas cambios en una herramienta, como actualizar un plan o ajustar la pila tecnológica en Claude , Cursor no tiene conocimiento de esos cambios al volver a ella. Debes volver a introducir todos los detalles manualmente. Por ejemplo, cada vez que regreses al proyecto, debes volver a explicar aspectos como el framework que estás utilizando (por ejemplo, React con Redux o Flutter con Bloc).
Duplicación de datos: También es necesario repetir información en diferentes herramientas. Por ejemplo, la pila tecnológica, el diseño y las características de la aplicación deben redefinirse en Cursor , aunque ya se hayan configurado en Claude .
Productividad reducida: Dado que las herramientas no comparten memoria, se termina reintroduciendo constantemente el mismo contexto.

¿Cómo interactúan la memoria y el MCP?

En el sistema Memory MCP , todas sus herramientas de IA y clientes MCP (por ejemplo, Cursor) trabajan juntos aprovechando tanto la memoria como el Protocolo de Contexto del Modelo (MCP) .

La memoria almacena información personalizada y persistente sobre las preferencias del usuario y las tareas recurrentes. Por ejemplo, Cursor recuerda tus lenguajes de programación preferidos, tu estilo y los detalles de tu flujo de trabajo.
MCP proporciona acceso en tiempo real a datos dinámicos y específicos de cada tarea, como archivos de proyecto o API, durante una sesión. Garantiza que se recupere información actualizada y contextualizada cuando sea necesario.

Introducción a OpenMemory

OpenMemory es una herramienta de MemZero que proporciona un sistema de memoria unificado para múltiples aplicaciones y agentes de IA. Se puede usar como un chip de memoria que integra todos los clientes de MCP en un único espacio de memoria continuo. Se puede utilizar localmente o en la nube.

Un ejemplo de alto nivel de cómo se utiliza OpenMemory para el chat personalizado sensible al contexto (usando ChatGPT). ⁵

Tutorial: OpenMemory MCP

Requisitos

Antes de comenzar, asegúrese de tener lo siguiente configurado:

Docker : Necesario para ejecutar los servidores OpenMemory y MCP localmente ( instalar Docker ).
Git : Para clonar los repositorios necesarios.
OpenMemory: Necesitará instalarOpenMemory para interactuar con los servidores LLM localmente.
Clave API : Necesitarás tu clave API para las interacciones con LLM. En este ejemplo, utilizaremos la clave API OpenAI .

Configurando OpenMemory

Nota de seguridad: Al configurar y utilizar OpenMemory, se recomienda no compartir claves API privadas, contraseñas ni ninguna otra información confidencial directamente en su código o repositorios públicos.

Paso 1: Clonar el repositorio

La carpeta OpenMemory de GitHub se encuentra dentro de la carpeta mem porque mem es el repositorio principal. Para obtener OpenMemory, necesitamos clonar todo el repositorio mem.

1. Ve al repositorio de MemZero y copia el enlace del repositorio (https://github.com/mem0ai/mem0.git).

2. Abre tu terminal y escribe git clone seguido del enlace del repositorio de GitHub.

3. Navega al directorio : Después de clonar, entra en la carpeta mem0 (escribe cd mem0) y localiza la carpeta OpenMemory (escribe cd openmemory/). A continuación, accede a ella y desde allí ejecutarás todos los comandos posteriores.

Para que OpenMemory funcione, es necesario ejecutar tanto la interfaz de usuario como el servidor MCP.

Por lo tanto, es necesario instalar Docker para contenerizarlos. Con Docker, tanto la interfaz de usuario como el servidor MCP se pueden empaquetar con todas sus dependencias en contenedores, lo que garantiza una ejecución consistente en diferentes entornos.

Esto le permite configurar, ejecutar y escalar la interfaz de usuario y el servidor MCP sin tener que preocuparse por la configuración manual.

Paso 2: Configurar Docker y crear contenedores.

Si Docker no está instalado en su sistema, descárguelo e instálelo desde el sitio web de Docker .

Construye los contenedores Docker : Ejecuta el siguiente comando “make build” para construir los contenedores, lo que instalará las dependencias necesarias:

Iniciar los contenedores : Después de que los contenedores estén construidos, inícielos escribiendo “make up”.

Solo necesitas ejecutar make build una vez. Después, puedes simplemente ejecutar make up para iniciar los contenedores cuando sea necesario.

Además, para usar el servidor MCP, Docker debe estar ejecutándose en su sistema. Hasta que tenga acceso a la nube, deberá mantener Docker activo para ejecutarlo localmente.

Si vas a la pestaña de creación, puedes ver que el servidor OpenMemory MCP ya está en funcionamiento :

El servidor OpenMemory MCP debería estar ejecutándose en: http://localhost:8765 por defecto.

Paso 3: Configurar el servidor MCP

Ahora que Docker está en funcionamiento, el siguiente paso es configurar el servidor MCP para gestionar la capa de memoria.

La interfaz de usuario de OpenMemory se ejecuta por defecto en http://localhost:3000 . Con Docker en funcionamiento, el servidor MCP estará activo y accesible localmente en esta dirección. Para comprobar que el servidor funciona correctamente, simplemente acceda a http://localhost:3000 en el panel de control de OpenMemory.

Paso 4: Configurar los clientes (Claude/Cursor en este ejemplo)

Para conectar Claude y Cursor (o cualquier otro agente) al sistema de memoria compartida, abra el directorio en Cursor, pulse en Cursor en su terminal:

Configurar la clave API OpenAI : Abra la carpeta API en la estructura del proyecto. Una vez abierta, tendrá un aspecto similar a este, y la estructura de archivos aparecerá así:

Dentro de la estructura de archivos, dirígete a la carpeta API . Allí encontrarás un archivo llamado av_example .

Debes pegar tu clave API OpenAI en este archivo. Cópialo, cámbiale el nombre a .env eliminando la palabra “example” del nombre del archivo y luego pega tu clave API real.

Una vez hecho esto, podrás usar el comando de maquillaje . Han indicado este paso como requisito previo porque es necesario para las interacciones con LLM, por lo que solicitan la clave de la API abierta.

Paso 5: Configurar MCP en las herramientas

Necesitamos instalar el MCP para diferentes herramientas. Tenemos el enlace del MCP, que debes configurar manualmente en los ajustes. Al ejecutarlo, el MCP se añade automáticamente al cliente Claude. Lo mismo se aplica a Cursor.

Como puedes ver, instalé ambos MCP. Aquí están instalados Claude y Cursor :

Puedes ver que en Cursor ya está funcionando :

Ejemplo de implementación de MCP

Este ejemplo muestra cómo usar el servidor MCP. Puedes abrir Claude Desktop y pedirle que genere ideas para diferentes tipos de aplicaciones o soluciones. En este ejemplo, exploraremos cómo generar un concepto para una aplicación de seguimiento del tiempo.

En primer lugar, Claude presenta su propio plan. A continuación, puedes seguir los puntos que se enumeran a continuación, centrándote en las funcionalidades que deberían implementarse.

Después de que agregue los cambios al plan original, puede solicitar que guarde el plan en la memoria como "plan de seguimiento de tiempo".

Puedes ver los detalles de la memoria en la pestaña del extremo derecho del panel de control de OpenMemory. Aquí están los detalles de la memoria:

Todas las imágenes presentadas en esta sección provienen del tutorial MCP de AI Labs. ⁶

Pasando a Cursor, puedes indicarle algo como "Quiero crear una aplicación de seguimiento del tiempo" y preguntarle si puede recuperar los detalles de la memoria.

A continuación, utilizó las herramientas de MCP para listar y buscar en la memoria. Esta función es increíblemente útil, ya que busca información relevante. Por ejemplo, al consultar sobre la aplicación de seguimiento del tiempo, recuperó todos los recuerdos relacionados con ese tema.

A partir de ahí, extrajo detalles sobre Next.js, React, TypeScript y el resto de la pila tecnológica que se iba a utilizar. Luego comenzó a construir la aplicación.

Tras completar la tarea, puedes solicitar que guarde el progreso en memoria, y lo hará. Añade notas de progreso, divide todo en partes manejables y también almacena esa información. Ahora, todas las actualizaciones se guardan en memoria.

Aquí está la aplicación creada:

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Desafíos después de la creación de la aplicación

Después de un tiempo, Cursor mostró un error al iniciar un nuevo chat debido al tamaño del contexto. Una vez iniciado el chat, se le puede solicitar que recupere información sobre el progreso de la aplicación. Volvió a llamar a la herramienta MCP y recuperó todos los datos relevantes, como el lugar donde se estaba ejecutando y las acciones realizadas hasta el momento.

Luego, se proporcionó una captura de pantalla porque el contraste en algunos elementos de React era deficiente y el texto no era visible. Se puede solicitar que se corrija la interfaz de usuario, lo cual se hizo.

Mientras trabajaba en ello, el programa se llamaba a sí mismo repetidamente, intentando localizar el directorio de origen. Sin embargo, no identificó que existía una carpeta de interfaz.

Cómo MCP, Cursor y Claude recuperaban y gestionaban la memoria

Ahora bien, lo que queremos ver es cómo recupera realmente los recuerdos.

Lo principal a tener en cuenta es que este recuerdo está vinculado a todos los demás recuerdos creados en la misma sesión. Por lo tanto, si el cliente MCP solicita un recuerdo etiquetado como "tiempo", también recupera los recuerdos relacionados.

Puedes consultar la aplicación de origen de cada memoria. Algunas fueron creadas por Cursor, otras por Claude. Si abres la memoria, puedes ver el registro de acceso, cambiar el estado o incluso editarla.

Probar la capacidad del MCP para diferenciar entre proyectos

Para comprobar si el sistema MCP puede diferenciar entre distintos proyectos, cambie la pila tecnológica a la pila MERN e indique a Claude Desktop que envíe esta nueva información al servidor MCP.

A continuación, abre Cursor y consulta qué conjunto de tecnologías se utilizará para el nuevo proyecto. Asegúrate de indicarle que utilice únicamente MCP y que evite consultar el directorio del proyecto para obtener información adicional.

Resultados de la prueba:

Cuando se realiza la llamada a MCP, el sistema se confunde, incorporando ambas pilas tecnológicas, la pila MERN del proyecto anterior y Next.js del nuevo, y recuperándolas juntas.

Esto demuestra que el sistema MCP no pudo separar los contextos de los dos proyectos.

Por lo tanto, si bien el sistema MCP puede almacenar información entre sesiones, ocasionalmente puede mezclar información de diferentes proyectos.

Reflexiones finales

Si bien el sistema MCP es un buen punto de partida, necesita una mejor separación de memoria para proyectos similares a fin de evitar la superposición de datos. Funciona bien para proyectos individuales o con nombres distintos, pero las mejoras en la ejecución de consultas y la gestión de memoria lo harían aún más potente.

¿Cuáles son las otras aplicaciones de Memory MCP?

1. Asistente de investigación multiagente con una capa de memoria

Varios agentes LLM se especializan en diferentes ámbitos de investigación (por ejemplo, artículos académicos, repositorios de GitHub, noticias). Cada agente almacena sus hallazgos en memoria, que el agente principal puede consultar posteriormente para obtener información contextual relacionada.

Ejemplo de la vida real : Anthropic Sistema de investigación multiagente. ⁷

2. Asistente de reuniones con memoria persistente entre sesiones.

Un asistente almacena los resúmenes de las reuniones, los puntos de acción y las notas clave, recuperando el contexto relevante para futuras reuniones.

Ejemplo práctico : Otter.ai es un asistente para reuniones que captura los puntos clave y los recupera en sesiones posteriores para mantener el contexto. Para más información sobre Otter.ai, consulte: Tomador de notas con IA.

3. Asistente de codificación agencial que evoluciona con el uso.

Asistentes de codificación que aprenden de los patrones de uso y almacenan soluciones para problemas recurrentes, recuperando y aplicando automáticamente soluciones anteriores para mejorar la productividad.

Ejemplo real : GitHub Copilot, un asistente de codificación que aprende del estilo de código del desarrollador. Para más información sobre agentes cognitivos, consulte: Memoria de agentes de IA .

Enlaces de referencia

Handrails - Shared Context Layer for AI-Assisted Development | Build with context. Ship with confidence.

Handrails

servers/src/memory at b1e1eb1a55847e0dcf78deb8ee821e2e46150a47 · modelcontextprotocol/servers · GitHub

GitHub - basicmachines-co/basic-memory: AI conversations that actually remember. Never re-explain your project to your AI again. Join our Discord: https://discord.gg/tyvKNccgqN · GitHub

Zine - AI-Powered Portable Memory and Context

GitHub - mem0ai/mem0: Universal memory layer for AI Agents · GitHub

All My AI Apps Are Connected to One MIND — With Open Memory - YouTube

How we built our multi-agent research system \ Anthropic

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo