Los modelos más inteligentes suelen tener peor memoria. Probamos 26 modelos de lenguaje complejos en una conversación empresarial de 32 mensajes para determinar cuáles retienen realmente la información.
Resultados de la prueba de rendimiento de memoria de IA
Probamos 26 modelos de lenguaje populares a través de una conversación empresarial simulada de 32 mensajes con 43 preguntas. Nuestra evaluación comparativa analizó tres métricas clave: retención de memoria, calidad del razonamiento y detección de alucinaciones, utilizando un conjunto de datos ficticio complejo con factores de emisión personalizados y 847 registros de proveedores. Incluimos pruebas de interferencia y comprobaciones de pulso a lo largo de la conversación para medir la capacidad de los modelos para recordar y aplicar información específica en interacciones prolongadas.
Para obtener más detalles sobre las preguntas y las métricas utilizadas, consulte la metodología .
Exclusión de GPT-5: GPT-5 devolvió resultados vacíos al acercarse a los límites del contexto. Reducir el tamaño de los lotes para solucionar esto habría invalidado las comparaciones con otros modelos.
Hallazgos sobre la memoria de la IA
En los 26 modelos evaluados, surgieron dos patrones consistentes. Los modelos de razonamiento obtuvieron puntuaciones más bajas en retención de memoria que los modelos estándar de tamaño equivalente. Los modelos más pequeños superaron a los más grandes en tareas de memoria. Un artículo de la ACL de 2025 sobre la distinción entre memoria y razonamiento en los modelos de aprendizaje por correspondencia proporciona una base formal para esta disyuntiva: el entrenamiento optimizado para el razonamiento reduce la capacidad del modelo para retener información fáctica específica. 1
¿Por qué los modelos grandes tienen problemas de memoria?
Los modelos más grandes generan respuestas más extensas, incluyendo contexto y aclaraciones no solicitadas. Esto consume el espacio de la ventana de contexto más rápidamente, incluso cuando la ventana en sí es más grande, dejando menos espacio para el contenido inicial de la conversación. Los modelos más pequeños producen respuestas más concisas, ahorrando espacio y ampliando el rango de recuperación del modelo.
También existe una limitación estructural: los modelos Transformer codifican el conocimiento en matrices de ponderación estáticas. Actualizar estas ponderaciones para aprender nueva información altera los patrones aprendidos previamente, un fenómeno conocido como olvido catastrófico.
Un estudio reciente publicado en Nature Communications aporta matices: los modelos de aprendizaje por correspondencia (LLM) memorizan los datos de entrenamiento no solo mediante la repetición exacta, sino también ensamblando fragmentos a partir de duplicados imprecisos, un proceso que los autores denominan "memoria mosaico". La memorización es predominantemente sintáctica, más que semántica, lo que tiene implicaciones sobre cómo se degrada el conocimiento codificado ponderado durante las actualizaciones. 2
Enfoques arquitectónicos que abordan estos límites
Cuatro líneas de investigación publicadas a finales de 2025 y principios de 2026 abordan las limitaciones de memoria mencionadas anteriormente:
- Titans + MIRAS introduce un módulo de memoria neuronal a largo plazo que aprende a priorizar el almacenamiento mediante una "métrica de sorpresa"; la información inesperada tiene más probabilidades de retenerse, reflejando el sesgo de la memoria humana hacia los eventos anómalos. El marco MIRAS proporciona un modelo teórico que unifica Titans con arquitecturas derivadas (Moneta, Yaad, Memora), cada una de las cuales explora diferentes reglas de retención y actualización de la memoria. 3
- El aprendizaje anidado trata un modelo no como un único proceso de optimización, sino como una jerarquía de subprocesos anidados que se actualizan con diferentes frecuencias. Su arquitectura de prueba de concepto, Hope, implementa un sistema de memoria continua con bancos de memoria rápidos, medianos y lentos. Hope superó a los transformadores estándar y a Mamba2 en modelado de lenguaje, razonamiento de sentido común y tareas de búsqueda de una aguja en un pajar con contexto extenso. 4
- Engram introduce un módulo de memoria condicional que separa la recuperación de patrones estáticos del razonamiento dinámico. Engram encontró que la división óptima de capacidad es 75 % razonamiento dinámico y 25 % memoria estática. Una tabla de incrustación de 100 mil millones de parámetros se puede descargar a la DRAM del host con una sobrecarga de inferencia inferior al 3 %. Los puntos de referencia de razonamiento complejo mejoraron de una precisión del 70 % al 74 % en pruebas que incluyen Big-Bench Hard, ARC-Challenge y MMLU. 5
- Stanford/NVIDIA TTT-E2E reformula el modelado de lenguaje de contexto largo como un problema de aprendizaje continuo. En lugar de almacenar tokens en un almacén KV, el modelo comprime el contexto en sus propios pesos mediante la predicción del siguiente token durante la inferencia. Con 128 000 tokens, TTT-E2E es 2,7 veces más rápido que la atención completa en NVIDIA H100; con 2 millones de tokens, es 35 veces más rápido, igualando la precisión de la atención completa. La latencia de inferencia permanece constante independientemente de la longitud del contexto, una propiedad que anteriormente solo se había observado en las RNN. 6
¿Cómo optimizar el equilibrio entre inteligencia, tasa de alucinaciones y memoria?
Nuestras pruebas de rendimiento de IA para detectar alucinaciones y para recordar no se correlacionan perfectamente. Si buscas un modelo que no tenga alucinaciones Y que recuerde bien, busca el punto óptimo en este gráfico, cerca de la esquina superior derecha.
Metodología de evaluación comparativa de memoria de IA
Tipos de preguntas (43 en total, repartidas en 32 mensajes)
Recordatorio sencillo: "¿Cuál es nuestro factor de plástico reciclado?"
Pruebas: Retención pura
Memoria + cálculo: “Calcular las emisiones para 18.500 kg de plástico reciclado”.
Pruebas: Si el modelo aplica correctamente la información recordada.
Interferencia de memoria: Se insertan preguntas no relacionadas entre la confirmación de un hecho y su repetición.
Pruebas: Resiliencia ante la presión cognitiva
Síntesis de la conversación: “Desarrolle un modelo de retorno de la inversión a tres años que combine la fijación de precios del carbono, los beneficios de la migración a la nube y los ahorros derivados del trabajo híbrido”.
Pruebas: Extraer información de toda la conversación.
El conjunto de datos
Creamos una empresa ficticia de fabricación de productos electrónicos con 450 empleados. El conjunto de datos incluye:
- Datos de emisiones de evaluación del ciclo de vida (ACV) personalizados de un estudio ficticio de McKinsey de 2,3 millones de dólares.
- 847 proveedores con puntuaciones EcoVadis y plazos de cumplimiento basados en la ciencia.
- Métricas operativas (efectos del trabajo híbrido, gastos de conferencias, licencias de software)
- Tres instalaciones: Austin (180 empleados), Denver (150), Portland (120)
- Presupuesto de sostenibilidad de 3,2 millones de dólares en cinco categorías.
El conjunto de datos es internamente coherente, pero no está disponible públicamente. Es lo suficientemente complejo como para requerir síntesis entre múltiples áreas de negocio y lo suficientemente específico como para que los modelos no puedan simplemente buscar respuestas en línea; deben recordarlas.
Medición del éxito
Para un rendimiento perfecto se requiere:
- Recordando todos los factores personalizados (no los estándares de la industria: el plástico reciclado es de 1,2 kg CO₂e/kg en nuestro conjunto de datos, no de 0,6-0,9 como en la industria).
- Realiza todas las pruebas de interferencia sin degradación.
- Sintetizar escenarios complejos utilizando detalles específicos de una conversación completa.
Métricas de evaluación
1. Métricas de memoria
- Precisión del factor: Utiliza un valor personalizado de 1,2 kg CO₂e/kg frente al valor estándar de la industria de 0,6-0,9.
- Cronograma de retención: ¿Cuándo falla la memoria?
- Resiliencia ante interferencias: Rendimiento tras preguntas distractoras
2. Calidad del razonamiento
- Síntesis: Integración de información de diferentes partes de la conversación.
- Precisión del cálculo: Factores recordados correctos en las ecuaciones
- Mantenimiento del contexto: Seguimiento de proveedores, plazos y costes.
3. Detección de alucinaciones
- Fabricación de números: Inventa cifras en lugar de recordar las reales.
- Calibración de la confianza: estar seguro de estar equivocado frente a estar inciertamente correcto
- Opción genérica de reserva: detalles de la conversación frente a clichés empresariales
Memoria de IA: Cómo funciona
La memoria de la IA se refiere a los mecanismos mediante los cuales los modelos retienen, recuperan y aplican información a lo largo de una conversación o de sesiones distintas. Es el factor determinante principal para saber si un modelo puede conservar un dato del mensaje 3 al mensaje 30 sin perderlo ni distorsionarlo, y si puede hacer referencia a una preferencia del usuario de una sesión que tuvo lugar semanas atrás.
La comunidad investigadora distingue cuatro tipos de memoria en función de la ubicación de almacenamiento, la persistencia, la ruta de escritura y el método de acceso. 7
La memoria paramétrica es el conocimiento codificado en los pesos del modelo durante el preentrenamiento y el ajuste fino. Siempre está disponible sin necesidad de recuperación, pero es estática; no se puede actualizar sin volver a entrenar. Además, es predominantemente sintáctica: un estudio publicado en enero de 2026 en Nature Communications reveló que los modelos de aprendizaje por correspondencia memorizan los datos de entrenamiento ensamblando fragmentos de secuencias similares en lugar de almacenar los hechos como unidades discretas, lo que significa que la recuperación paramétrica es menos fiable para cifras precisas de lo que parece. 8
La memoria contextual (a corto plazo) es el contenido que se mantiene en la ventana de contexto activa durante una sesión. Incluye los intercambios recientes, los parámetros establecidos y el historial de conversaciones hasta el límite de la ventana. Una vez que la ventana se llena, el contenido más antiguo se descarta o comprime. Un estudio de enero de 2026 sobre las ventanas de contexto efectivas máximas reveló que la mayoría de los modelos funcionan muy por debajo de sus límites anunciados en la práctica, con algunos que se degradan significativamente en 1000 tokens y casi todos que no alcanzan su máximo arquitectónico en más del 99 % en condiciones de tareas reales. 9
La memoria externa (con recuperación aumentada) almacena datos en bases de datos vectoriales o almacenes estructurados fuera del modelo. El modelo consulta estos almacenes en el momento de la inferencia e incorpora el contenido recuperado a la ventana de contexto. Esto evita el problema de la longitud del contexto y permite actualizar el almacén de memoria sin necesidad de reentrenar. La investigación de Mem0 en el benchmark LOCOMO reveló que la memoria con recuperación aumentada logró una precisión de respuesta un 26 % mayor que la función de memoria nativa de OpenAI (66,9 % frente a 52,9 %), al tiempo que redujo la latencia de recuperación p95 en un 91 % y el consumo de tokens en un 90 % en comparación con los métodos de contexto completo. 10
La memoria procedimental y episódica abarca el conocimiento específico de la tarea y el historial de interacción entre sesiones: qué se le ha pedido al modelo que haga, cómo se completaron las tareas anteriores y qué preferencias o restricciones ha indicado el usuario a lo largo del tiempo. Este es el tipo menos estandarizado de los cuatro y suele implementarse mediante marcos de agentes que mantienen registros estructurados o grafos de conocimiento entre sesiones.
Memoria nativa frente a memoria aumentada por recuperación
La memoria nativa amplía la ventana de contexto para conservar un historial de conversación más extenso. El coste de inferencia aumenta cuadráticamente con la longitud del contexto bajo el sistema de atención estándar y linealmente bajo variantes más eficientes. Su rendimiento disminuye al alcanzar la capacidad máxima, descartando el contenido en lugar de resumirlo, a menos que se añada un paso de compresión explícito.
La memoria con recuperación aumentada (RAG) almacena datos a largo plazo externamente y recupera los registros relevantes en el momento de la consulta. Se escala independientemente de la arquitectura del modelo y permite la recuperación selectiva en lugar de mantener todo el contenido anterior en la ventana activa. La desventaja es la latencia de recuperación y el riesgo de perder contexto que no se indexó o se indexó de forma imprecisa.
Los sistemas híbridos combinan ambas capas: contexto nativo para la sesión actual y recuperación de datos históricos. El enfoque TTT-E2E de Stanford (enero de 2026) propone una tercera vía que comprime el contexto directamente en los pesos del modelo en el momento de la inferencia mediante la predicción del siguiente token, logrando una latencia de inferencia constante independientemente de la longitud del contexto, manteniendo una precisión comparable a la de la atención completa. Los investigadores sugieren que TTT-E2E y RAG funcionan como capas complementarias: TTT-E2E para una comprensión contextual amplia y RAG para una recuperación fáctica precisa. 11
Preguntas frecuentes
La memoria de la IA se refiere a la capacidad de los sistemas de inteligencia artificial para almacenar, recuperar y utilizar información relevante de interacciones pasadas, empleando tanto la memoria a corto plazo (dentro de una misma sesión) como la memoria a largo plazo (a través del almacenamiento externo de datos). A diferencia de la memoria humana (que se basa en redes neuronales moldeadas por experiencias pasadas), los sistemas de memoria de la IA utilizan mecanismos de recuperación estructurados y conocimiento acumulado para mantener el contexto y recordar detalles específicos de forma consistente.
Los modelos de IA modernos integran datos históricos y preferencias del usuario para facilitar conversaciones contextualizadas, al tiempo que aplican protocolos robustos de almacenamiento de datos, cifrado y control del usuario para garantizar la transparencia. Las consideraciones éticas y los mecanismos de consentimiento claros permiten a los usuarios ver, modificar o eliminar los datos históricos almacenados, asegurando interacciones personalizadas sin comprometer la privacidad.
Al reconocer patrones en interacciones recientes y basarse en experiencias pasadas, los modelos de IA pueden personalizar sus respuestas y proporcionar información relevante, similar a la de un asistente virtual personal y natural. Este enfoque de aprendizaje adaptativo, combinado con mecanismos eficientes de uso y recuperación de tokens, permite que las aplicaciones de IA ofrezcan información más precisa, eficiente en consumo de energía y de mayor impacto para tareas específicas.
Lecturas adicionales
- Agentes cognitivos: Creando una mente con LangChain
- Los 5 mejores marcos de trabajo de IA agenica de código abierto
- Aplicaciones de IA con prueba de rendimiento de memoria MCP y tutorial
- Ejecución de código con MCP: Un nuevo enfoque para la eficiencia de los agentes de IA
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.