Memória de IA: Os modelos de IA mais populares com a melhor memória

com

atualizado em Mai 26, 2026

Modelos mais inteligentes geralmente têm pior desempenho de memória. Testamos 26 modelos de linguagem complexos em uma conversa comercial de 32 mensagens para determinar quais deles realmente retêm informações.

Resultados do teste de memória de IA

Loading Chart

Testamos 26 modelos de linguagem populares de grande porte por meio de uma conversa comercial simulada de 32 mensagens com 43 perguntas. Nossa avaliação comparativa analisou três métricas principais: retenção de memória, qualidade do raciocínio e detecção de alucinações, utilizando um conjunto de dados fictício complexo com fatores de emissão personalizados e 847 registros de fornecedores. Incluímos testes de interferência e verificações de pulso ao longo da conversa para medir o quão bem os modelos recordam e aplicam informações específicas em interações prolongadas.

Para obter detalhes sobre as perguntas e métricas utilizadas, consulte a metodologia .

A exclusão do modelo GPT-5: GPT-5 retornou resultados vazios ao se aproximar dos limites de contexto. Reduzir o tamanho dos lotes para contornar esse problema teria invalidado as comparações com outros modelos.

Descobertas sobre a memória da IA

Dois padrões consistentes emergiram nos 26 modelos testados. Os modelos de raciocínio apresentam menor retenção de memória do que os modelos padrão de tamanho equivalente. Modelos menores superam os maiores em tarefas de memória. Um artigo da ACL de 2025 sobre a separação entre memória e raciocínio em LLMs fornece uma base formal para essa relação inversa: o treinamento otimizado para raciocínio reduz a capacidade do modelo de reter informações factuais específicas. ¹

Por que modelos grandes têm problemas com a memória?

Modelos maiores geram respostas mais longas, incluindo contexto e qualificações não solicitadas. Isso consome o espaço da janela de contexto mais rapidamente, mesmo quando a própria janela é maior, deixando menos espaço para o conteúdo da conversa anterior. Modelos menores produzem respostas mais focadas, conservando espaço e ampliando o alcance de recuperação do modelo.

Existe também uma limitação estrutural: os modelos Transformer codificam o conhecimento em matrizes de pesos estáticas. A atualização desses pesos para aprender novas informações interrompe padrões previamente aprendidos, um fenômeno chamado esquecimento catastrófico.

Um estudo recente publicado na Nature Communications acrescenta nuances: os modelos de memória de longo prazo (LLMs) memorizam dados de treinamento não apenas por meio de repetição exata, mas também pela montagem de fragmentos a partir de duplicatas imprecisas, um processo que os autores denominam "memória em mosaico". A memorização é predominantemente sintática, e não semântica, com implicações sobre como o conhecimento codificado por pesos se degrada durante atualizações. ²

Abordagens arquitetônicas que abordam essas limitações

Quatro linhas de pesquisa publicadas no final de 2025 e início de 2026 visam as restrições de memória mencionadas acima:

O Titans + MIRAS introduz um módulo neural de memória de longo prazo que aprende a priorizar o armazenamento usando uma "métrica de surpresa"; informações inesperadas têm maior probabilidade de serem retidas, espelhando a tendência da memória humana em relação a eventos anômalos. A estrutura MIRAS fornece um modelo teórico que unifica o Titans com arquiteturas derivadas (Moneta, Yaad, Memora), cada uma explorando diferentes regras de retenção e atualização de memória. ³
A aprendizagem aninhada (Nested Learning) trata um modelo não como um único processo de otimização, mas como uma hierarquia de subprocessos aninhados que se atualizam em frequências diferentes. Sua arquitetura de prova de conceito, Hope, implementa um Sistema de Memória Contínua com bancos de memória rápidos, médios e lentos. O Hope superou os Transformers padrão e o Mamba2 em tarefas de modelagem de linguagem, raciocínio de senso comum e busca de contexto longo do tipo "agulha no palheiro". ⁴
O Engram DeepSeek introduz um módulo de memória condicional que separa a recuperação de padrões estáticos do raciocínio dinâmico. O Engram DeepSeek descobriu que a divisão ideal de capacidade é de 75% para raciocínio dinâmico e 25% para memória estática. Uma tabela de incorporação de 100 bilhões de parâmetros pode ser descarregada para a DRAM do host com uma sobrecarga de inferência inferior a 3%. Os benchmarks de raciocínio complexo melhoraram de 70% para 74% de precisão em testes como Big-Bench Hard, ARC-Challenge e MMLU. ⁵
O TTT-E2E reformula a modelagem de linguagem de contexto longo como um problema de aprendizado contínuo. Em vez de armazenar tokens em um repositório chave-valor, o modelo comprime o contexto em seus próprios pesos por meio da previsão do próximo token durante a inferência. Com 128 mil tokens, o TTT-E2E é 2,7 vezes mais rápido que a atenção completa no conjunto de dados H100; com 2 milhões de tokens, é 35 vezes mais rápido, mantendo a mesma precisão da atenção completa. A latência de inferência permanece constante, independentemente do comprimento do contexto, uma propriedade anteriormente observada apenas em redes neurais recorrentes (RNNs). ⁶

Como otimizar o equilíbrio entre inteligência, frequência de alucinações e memória?

Nossos testes de desempenho para alucinações e memória em IA não têm uma correlação perfeita. Se você deseja um modelo que não apresente alucinações E que tenha boa memória, procure o ponto ideal neste gráfico, próximo ao canto superior direito.

Metodologia de avaliação comparativa de memória de IA

Tipos de perguntas (43 no total, distribuídas em 32 mensagens)

Resumindo: “Qual é o nosso fator de reciclagem de plástico?”
Testes: Retenção pura

Memória + cálculo: “Calcular as emissões para 18.500 kg de plástico reciclado.”
Testes: Verifica se o modelo aplica corretamente as informações memorizadas.

Interferência na memória: perguntas não relacionadas são inseridas entre a confirmação de um fato e a solicitação da mesma informação.
Testes: Resiliência cognitiva à pressão

Síntese das conversas: "Criar um modelo de ROI de três anos que combine precificação de carbono, benefícios da migração para a nuvem e economias com trabalho híbrido."
Testes: Extraindo informações de toda a conversa.

O conjunto de dados

Criamos uma empresa fictícia de fabricação de eletrônicos com 450 funcionários. O conjunto de dados inclui:

Dados de emissões personalizados para Avaliação do Ciclo de Vida (ACV) de um estudo fictício da McKinsey de US$ 2,3 milhões.
847 fornecedores com pontuações EcoVadis e cronogramas de metas baseadas na ciência.
Métricas operacionais (efeitos do trabalho híbrido, despesas com conferências, licenciamento de software)
Três instalações: Austin (180 funcionários), Denver (150), Portland (120)
Orçamento de sustentabilidade de US$ 3,2 milhões distribuído em cinco categorias.

O conjunto de dados é internamente consistente, mas não está disponível publicamente. É complexo o suficiente para exigir síntese em diversas áreas de negócios e específico o bastante para que os modelos não possam simplesmente buscar respostas online; eles precisam, de fato, memorizá-las.

Medição de sucesso

Para um desempenho perfeito, é necessário:

Relembrando todos os fatores personalizados (não padrões da indústria: o plástico reciclado emite 1,2 kg CO₂e/kg em nosso conjunto de dados, e não 0,6-0,9 como padrão da indústria).
Realização de todos os testes de interferência sem degradação.
Sintetizar cenários complexos usando detalhes específicos de uma conversa completa.

Métricas de avaliação

1. Métricas de memória

Precisão do fator: Utiliza um valor personalizado de 1,2 kg CO₂e/kg em comparação com os 0,6-0,9 da indústria.
Cronograma de retenção: Quando a memória falha?
Resiliência à interferência: desempenho após perguntas que distraem.

2. Qualidade do raciocínio

Síntese: Integração de informações de diferentes partes da conversa
Precisão do cálculo: Fatores corretos lembrados nas equações
Manutenção do contexto: Rastreamento de fornecedores, cronogramas e custos.

3. Detecção de alucinações

Fabricação de números: inventa números versus recorda números reais.
Calibração de confiança: Confiança totalmente errada versus incerteza totalmente correta
Recurso genérico: Detalhes da conversa versus clichês de negócios

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Memória de IA: como funciona

A memória da IA refere-se aos mecanismos pelos quais os modelos retêm, recuperam e aplicam informações ao longo de uma conversa ou entre sessões separadas. Ela é o principal fator determinante para que um modelo consiga manter uma informação da mensagem 3 até a mensagem 30 sem perdê-la ou distorcê-la, e para que consiga referenciar uma preferência do usuário de uma sessão ocorrida semanas atrás.

A comunidade de pesquisa distingue quatro tipos de memória com base na localização do armazenamento, persistência, caminho de escrita e método de acesso. ⁷

A memória paramétrica é o conhecimento codificado nos pesos do modelo durante o pré-treinamento e o ajuste fino. Ela está sempre disponível sem necessidade de recuperação, mas é estática; não pode ser atualizada sem um novo treinamento. Além disso, é predominantemente sintática: um estudo publicado na Nature Communications em janeiro de 2026 descobriu que os Modelos de Aprendizagem de Longo Prazo (LLMs) memorizam os dados de treinamento reunindo fragmentos de sequências semelhantes, em vez de armazenar fatos como unidades discretas, o que significa que a recuperação paramétrica é menos confiável para números precisos do que parece. ⁸

A memória contextual (de curto prazo) é o conteúdo mantido na janela de contexto ativa durante uma sessão. Ela abrange as trocas recentes, os parâmetros declarados e o histórico da conversa até o limite da janela. Assim que a janela fica cheia, o conteúdo mais antigo é descartado ou compactado. Um estudo de janeiro de 2026 sobre Janelas de Contexto Máximas Efetivas constatou que a maioria dos modelos apresenta desempenho muito abaixo dos limites anunciados na prática, com alguns sofrendo degradação significativa de 1.000 tokens e quase todos ficando aquém do máximo arquitetônico em mais de 99% em condições reais de uso. ⁹

A memória externa (aumentada por recuperação) armazena dados em bancos de dados vetoriais ou armazenamentos estruturados fora do modelo. O modelo consulta esses bancos de dados no momento da inferência e incorpora o conteúdo recuperado à janela de contexto. Isso evita o problema do comprimento do contexto e permite que o armazenamento de memória seja atualizado sem a necessidade de novo treinamento. A pesquisa da Mem0 no benchmark LOCOMO constatou que a memória aumentada por recuperação alcançou uma precisão de resposta 26% maior do que o recurso de memória nativa do modelo (66,9% vs. 52,9%), além de reduzir a latência de recuperação p95 em 91% e o consumo de tokens em 90% em comparação com os métodos de contexto completo. ¹⁰

A memória procedural e episódica abrange o conhecimento específico da tarefa e o histórico de interação entre sessões — o que foi solicitado ao modelo, como as tarefas anteriores foram concluídas e quais preferências ou restrições foram declaradas pelo usuário ao longo do tempo. Este é o tipo menos padronizado dos quatro e geralmente é implementado por meio de frameworks de agentes que mantêm registros estruturados ou grafos de conhecimento entre as sessões.

Memória nativa versus memória aumentada por recuperação

A memória nativa amplia a janela de contexto para reter mais histórico da conversa. O custo da inferência cresce quadraticamente com o comprimento do contexto sob atenção padrão e linearmente sob variantes mais eficientes. Ele se degrada quando a capacidade é atingida, descartando conteúdo em vez de resumi-lo, a menos que uma etapa de compressão explícita seja adicionada.

A memória aumentada por recuperação (RAG, na sigla em inglês) armazena dados de longo prazo externamente e recupera registros relevantes no momento da consulta. Ela escala independentemente da arquitetura do modelo e permite a recuperação seletiva, em vez de manter todo o conteúdo anterior na janela ativa. A desvantagem é a latência de recuperação e o risco de perder contexto que não foi indexado ou foi indexado de forma imprecisa.

Sistemas híbridos combinam ambas as camadas: contexto nativo para a sessão atual e recuperação de dados históricos. A abordagem TTT-E2E de Stanford (janeiro de 2026) propõe um terceiro caminho, comprimindo o contexto diretamente nos pesos do modelo no momento da inferência por meio da predição do próximo token, alcançando latência de inferência constante, independentemente do comprimento do contexto, enquanto mantém a precisão comparável à atenção completa. Os pesquisadores sugerem que TTT-E2E e RAG funcionam como camadas complementares: TTT-E2E para compreensão contextual ampla e RAG para recuperação factual precisa. ¹¹

Perguntas frequentes

A memória da IA refere-se à capacidade dos sistemas de inteligência artificial de armazenar, recuperar e utilizar informações relevantes de interações passadas, usando tanto a memória de curto prazo (dentro de uma única sessão) quanto a memória de longo prazo (por meio de armazenamento de dados externo). Ao contrário da memória humana (que se baseia em redes neurais moldadas por experiências passadas), os sistemas de memória da IA usam mecanismos de recuperação estruturados e conhecimento acumulado para manter o contexto e recordar detalhes específicos de forma consistente.

Os modelos modernos de IA integram dados históricos e preferências do usuário para possibilitar conversas contextuais, ao mesmo tempo que aplicam protocolos robustos de armazenamento de dados, criptografia e controle do usuário para garantir transparência. Considerações éticas e mecanismos de consentimento claros permitem que os usuários visualizem, modifiquem ou excluam dados históricos armazenados, assegurando interações personalizadas sem comprometer a privacidade.

Ao reconhecer padrões em interações recentes e recorrer a experiências passadas, os modelos de IA podem personalizar respostas e fornecer informações relevantes, assemelhando-se a um assistente pessoal de IA natural. Essa abordagem de aprendizado adaptativo, combinada com o uso eficiente de tokens e mecanismos de recuperação, permite que as aplicações de IA ofereçam insights mais precisos, eficientes em termos de energia e impactantes para tarefas específicas.

Leitura complementar

Links de referência

10.

11.

Şevval Alper

Pesquisador de IA

Şevval é analista da AIMultiple, especializada em ferramentas de codificação de IA, agentes de IA e tecnologias quânticas.

Ver perfil completo

Revisado tecnicamente por

Berk Kalelioğlu

Pesquisador de IA

Siga-nos Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

A seguir, leia

Agentes de IAMai 20

Memória de IA: Os modelos de IA mais populares com a melhor memória

Resultados do teste de memória de IA

Por que modelos grandes têm problemas com a memória?

Como otimizar o equilíbrio entre inteligência, frequência de alucinações e memória?