Memoria IA: i modelli IA più popolari con la migliore memoria

con

aggiornato il Mag 26, 2026

I modelli più sofisticati spesso hanno una memoria peggiore. Abbiamo testato 26 modelli linguistici di grandi dimensioni in una conversazione aziendale di 32 messaggi per determinare quali effettivamente conservano le informazioni.

Risultati del benchmark di memoria AI

Loading Chart

Abbiamo testato 26 modelli linguistici di grandi dimensioni molto diffusi attraverso una conversazione aziendale simulata di 32 messaggi con 43 domande. Il nostro benchmark ha valutato tre metriche chiave: ritenzione della memoria, qualità del ragionamento e rilevamento delle allucinazioni utilizzando un complesso dataset fittizio con fattori di emissione personalizzati e 847 record di fornitori. Abbiamo incluso test di interferenza e controlli di impulso durante la conversazione per misurare la capacità dei modelli di ricordare e applicare informazioni specifiche in interazioni prolungate.

Per i dettagli sulle domande e le metriche utilizzate, consultare la metodologia .

GPT-5 esclusione: GPT-5 ha restituito output vuoti in prossimità dei limiti di contesto. Ridurre le dimensioni del batch per aggirare questo problema avrebbe invalidato i confronti con altri modelli.

Risultati riguardanti la memoria dell'IA

Nei 26 modelli testati sono emersi due schemi ricorrenti. I modelli di ragionamento ottengono punteggi inferiori nella ritenzione della memoria rispetto ai modelli standard di dimensioni equivalenti. I modelli più piccoli superano quelli più grandi nei compiti di memoria. Un articolo dell'ACL del 2025 sulla separazione tra memoria e ragionamento nei modelli lineari logici (LLM) fornisce una base formale per questo compromesso: l'addestramento ottimizzato per il ragionamento riduce la capacità del modello di conservare informazioni fattuali specifiche. ¹

Perché i modelli di grandi dimensioni hanno problemi di memoria?

I modelli più grandi generano risposte più lunghe, che includono contesto e precisazioni non richiesti. Questo consuma più velocemente lo spazio della finestra di contesto, anche quando la finestra stessa è più ampia, lasciando meno spazio per il contenuto della conversazione precedente. I modelli più piccoli producono risposte più mirate, risparmiando spazio ed estendendo il raggio di richiamo del modello.

Esiste anche una limitazione strutturale: i modelli Transformer codificano la conoscenza in matrici di pesi statiche. L'aggiornamento di questi pesi per apprendere nuove informazioni interrompe gli schemi appresi in precedenza, un fenomeno chiamato oblio catastrofico.

Un recente studio pubblicato su Nature Communications aggiunge un ulteriore elemento di complessità: i modelli lineari di apprendimento (LLM) memorizzano i dati di addestramento non solo attraverso la ripetizione esatta, ma anche assemblando frammenti di informazioni provenienti da duplicati approssimativi, un processo che gli autori definiscono "memoria a mosaico". La memorizzazione è prevalentemente sintattica piuttosto che semantica, con implicazioni sul modo in cui la conoscenza codificata con pesi si degrada durante l'aggiornamento. ²

Approcci architettonici che affrontano questi limiti

Quattro linee di ricerca, pubblicate tra la fine del 2025 e l'inizio del 2026, si concentrano sui vincoli di memoria sopra menzionati:

Google Titans + MIRAS introduce un modulo di memoria neurale a lungo termine che apprende a dare priorità all'archiviazione utilizzando una "metrica di sorpresa"; le informazioni inattese hanno maggiori probabilità di essere conservate, rispecchiando la tendenza della memoria umana verso gli eventi anomali. Il framework MIRAS fornisce un modello teorico che unifica Titans con architetture derivate (Moneta, Yaad, Memora), ognuna delle quali esplora diverse regole di conservazione e aggiornamento della memoria. ³
Google L'apprendimento annidato tratta un modello non come un singolo processo di ottimizzazione, ma come una gerarchia di sottoprocessi annidati che si aggiornano a frequenze diverse. La sua architettura di prova, Hope, implementa un sistema di memoria continuo con banchi di memoria veloci, medi e lenti. Hope ha superato i transformer standard e Mamba2 nei compiti di modellazione del linguaggio, ragionamento di senso comune e ricerca dell'ago nel pagliaio in contesti lunghi. ⁴
DeepSeek Engram introduce un modulo di memoria condizionale che separa il recupero di pattern statici dal ragionamento dinamico. DeepSeek ha scoperto che la suddivisione ottimale della capacità è del 75% per il ragionamento dinamico e del 25% per la memoria statica. Una tabella di embedding da 100 B parametri può essere scaricata sulla DRAM dell'host con un overhead di inferenza inferiore al 3%. I benchmark di ragionamento complessi sono migliorati dal 70% al 74% di accuratezza nei test tra cui Big-Bench Hard, ARC-Challenge e MMLU. ⁵
Stanford/NVIDIA TTT-E2E riformula la modellazione del linguaggio a contesto lungo come un problema di apprendimento continuo. Invece di memorizzare i token in un archivio KV, il modello comprime il contesto nei propri pesi tramite la previsione del token successivo durante l'inferenza. Con 128.000 token, TTT-E2E è 2,7 volte più veloce dell'attenzione completa su NVIDIA H100; con 2 milioni di token, è 35 volte più veloce, pur eguagliando l'accuratezza dell'attenzione completa. La latenza di inferenza rimane costante indipendentemente dalla lunghezza del contesto, una proprietà precedentemente osservata solo nelle RNN. ⁶

Come ottimizzare il rapporto tra intelligenza, frequenza delle allucinazioni e memoria?

I nostri benchmark per le allucinazioni e per la memoria basati sull'IA non coincidono perfettamente. Se desideri un modello che non abbia allucinazioni E che ricordi bene, cerca il punto ottimale in questo grafico, nell'angolo in alto a destra.

metodologia di benchmark per la memoria AI

Tipologie di domande (43 in totale, distribuite su 32 messaggi)

Semplice domanda: "Qual è la nostra percentuale di plastica riciclata?"
Test: ritenzione pura

Memoria + calcolo: "Calcola le emissioni per 18.500 kg di plastica riciclata."
Test: Verificare se il modello applica correttamente le informazioni memorizzate.

Interferenza di memoria: tra la conferma di un fatto e la sua successiva richiesta vengono inserite domande non correlate.
Test: resilienza alla pressione cognitiva

Sintesi della conversazione incrociata: "Crea un modello di ROI triennale che combini la tariffazione del carbonio, i vantaggi della migrazione al cloud e i risparmi derivanti dal lavoro ibrido."
Test: Estrazione di informazioni dall'intera conversazione

Il set di dati

Abbiamo creato un'azienda fittizia di produzione di componenti elettronici con 450 dipendenti. Il set di dati include:

Dati personalizzati sulle emissioni derivanti da una valutazione del ciclo di vita (LCA) basata su uno studio fittizio di McKinsey da 2,3 milioni di dollari.
847 fornitori con punteggi EcoVadis e tempistiche basate su obiettivi scientifici
Indicatori operativi (effetti del lavoro ibrido, spese per conferenze, licenze software)
Tre sedi: Austin (180 dipendenti), Denver (150), Portland (120)
Budget di 3,2 milioni di dollari per la sostenibilità, suddiviso in cinque categorie.

Il dataset è internamente coerente ma non è disponibile pubblicamente. È sufficientemente complesso da richiedere una sintesi tra diverse aree aziendali e sufficientemente specifico da impedire ai modelli di cercare semplicemente le risposte online; devono effettivamente ricordarle.

Misurazione del successo

Una prestazione perfetta richiede:

Ricordando tutti i fattori personalizzati (non gli standard di settore: la plastica riciclata ha un'emissione di CO₂e di 1,2 kg nel nostro set di dati, non di 0,6-0,9 come indicato dal settore)
Gestione di tutti i test di interferenza senza degrado
Sintetizzare scenari complessi utilizzando dettagli specifici tratti dall'intera conversazione

Metriche di valutazione

1. Metriche della memoria

Precisione del fattore: utilizza 1,2 kg CO₂e/kg personalizzati rispetto allo standard industriale di 0,6-0,9
Cronologia di conservazione: quando la memoria inizia a cedere?
Resistenza alle interferenze: prestazioni dopo domande che distraggono

2. Qualità del ragionamento

Sintesi: Integrazione di informazioni provenienti da diverse parti della conversazione
Precisione del calcolo: fattori richiamati correttamente nelle equazioni
Gestione del contesto: monitoraggio di fornitori, tempistiche e costi

3. Rilevamento delle allucinazioni

Falsificazione dei numeri: inventa cifre anziché ricordare quelle reali.
Calibrazione della fiducia: Errato con certezza vs. corretto con incertezza
Ripiego generico: specificità della conversazione vs. cliché aziendali

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Memoria dell'IA: come funziona

La memoria dell'IA si riferisce ai meccanismi con cui i modelli conservano, recuperano e applicano le informazioni nel corso di una conversazione o tra sessioni separate. È il fattore determinante per stabilire se un modello può riportare un'informazione dal messaggio 3 al messaggio 30 senza perderla o distorcerla, e se può fare riferimento a una preferenza dell'utente risalente a una sessione avvenuta settimane prima.

La comunità scientifica distingue quattro tipi di memoria in base alla posizione di archiviazione, alla persistenza, al percorso di scrittura e al metodo di accesso. ⁷

La memoria parametrica è la conoscenza codificata nei pesi del modello durante il pre-addestramento e la messa a punto. È sempre disponibile senza bisogno di recuperarla, ma è statica; non può essere aggiornata senza un nuovo addestramento. È inoltre prevalentemente sintattica: uno studio pubblicato su Nature Communications nel gennaio 2026 ha scoperto che i modelli lineari latenti (LLM) memorizzano i dati di addestramento assemblando frammenti da sequenze simili piuttosto che immagazzinando i fatti come unità discrete, il che significa che il richiamo parametrico è meno affidabile per i dati precisi di quanto sembri. ⁸

La memoria contestuale (a breve termine) è il contenuto mantenuto nella finestra di contesto attiva durante una sessione. Comprende gli scambi recenti, i parametri dichiarati e la cronologia della conversazione fino al limite della finestra. Una volta che la finestra si riempie, il contenuto più vecchio viene eliminato o compresso. Uno studio del gennaio 2026 sulle finestre di contesto effettive massime ha rilevato che la maggior parte dei modelli, nella pratica, offre prestazioni ben al di sotto dei limiti dichiarati, con alcuni modelli che subiscono un degrado significativo di 1.000 token e quasi tutti che non raggiungono il loro massimo architetturale di oltre il 99% in condizioni di utilizzo reali. ⁹

La memoria esterna (con recupero potenziato) memorizza i dati in database vettoriali o archivi strutturati al di fuori del modello. Il modello interroga questi archivi in fase di inferenza e incorpora il contenuto recuperato nella finestra di contesto. Ciò evita il problema della lunghezza del contesto e consente di aggiornare l'archivio in memoria senza dover riaddestrare il modello. La ricerca di Mem0 sul benchmark LOCOMO ha rilevato che la memoria con recupero potenziato ha raggiunto un'accuratezza di risposta superiore del 26% rispetto alla funzionalità di memoria nativa di OpenAI (66,9% contro 52,9%), riducendo al contempo la latenza di recupero p95 del 91% e il consumo di token del 90% rispetto ai metodi full-context. ¹⁰

La memoria procedurale ed episodica comprende le conoscenze specifiche del compito e la cronologia delle interazioni tra sessioni: cosa è stato chiesto al modello di fare, come sono stati completati i compiti precedenti e quali preferenze o vincoli sono stati espressi dall'utente nel tempo. Questo è il tipo meno standardizzato dei quattro e viene tipicamente implementato tramite framework di agenti che mantengono registri strutturati o grafi di conoscenza tra le sessioni.

Memoria nativa vs. memoria potenziata dal recupero

La memoria nativa estende la finestra di contesto per conservare una cronologia di conversazione più ampia. Il costo dell'inferenza cresce quadraticamente con la lunghezza del contesto con l'attenzione standard e linearmente con varianti più efficienti. Le prestazioni peggiorano quando viene raggiunta la capacità massima, eliminando il contenuto anziché riassumerlo, a meno che non venga aggiunto un passaggio di compressione esplicito.

La memoria aumentata per il recupero (RAG) memorizza i dati a lungo termine esternamente e recupera i record pertinenti al momento della query. È scalabile indipendentemente dall'architettura del modello e consente un recupero selettivo anziché mantenere tutto il contenuto precedente nella finestra attiva. Il compromesso è rappresentato dalla latenza di recupero e dal rischio di perdere il contesto non indicizzato o indicizzato in modo impreciso.

I sistemi ibridi combinano entrambi i livelli: il contesto nativo per la sessione corrente e il recupero per i dati storici. L'approccio TTT-E2E di Stanford (gennaio 2026) propone una terza via che comprime il contesto direttamente nei pesi del modello al momento dell'inferenza tramite la previsione del token successivo, ottenendo una latenza di inferenza costante indipendentemente dalla lunghezza del contesto, pur mantenendo un'accuratezza paragonabile all'attenzione completa. I ricercatori suggeriscono che TTT-E2E e RAG funzionino come livelli complementari: TTT-E2E per una comprensione contestuale ampia, RAG per un recupero fattuale preciso. ¹¹

FAQ

La memoria dell'IA si riferisce alla capacità dei sistemi di intelligenza artificiale di archiviare, recuperare e utilizzare informazioni rilevanti derivanti da interazioni passate, avvalendosi sia della memoria a breve termine (all'interno di una singola sessione) sia della memoria a lungo termine (tramite archiviazione dati esterna). A differenza della memoria umana (che si basa su reti neurali plasmate da esperienze passate), i sistemi di memoria dell'IA utilizzano meccanismi di recupero strutturati e conoscenze accumulate per mantenere il contesto e richiamare dettagli specifici in modo coerente.

I moderni modelli di intelligenza artificiale integrano dati storici e preferenze dell'utente per consentire conversazioni contestualizzate, garantendo al contempo rigorosi protocolli di archiviazione dei dati, crittografia e controllo da parte dell'utente per la massima trasparenza. Considerazioni etiche e chiari meccanismi di consenso permettono agli utenti di visualizzare, modificare o eliminare i dati memorizzati in passato, assicurando interazioni personalizzate senza compromettere la privacy.

Riconoscendo gli schemi nelle interazioni recenti e attingendo alle esperienze passate, i modelli di intelligenza artificiale possono personalizzare le risposte e fornire informazioni pertinenti, offrendo un'esperienza simile a quella di un assistente virtuale personale e naturale. Questo approccio di apprendimento adattivo, combinato con un utilizzo efficiente dei token e meccanismi di recupero, consente alle applicazioni di intelligenza artificiale di fornire insight più accurati, efficienti dal punto di vista energetico e di maggiore impatto per compiti specifici.

Per approfondire

Collegamenti di riferimento

10.

11.

Şevval Alper

Ricercatore di intelligenza artificiale

Segui

Şevval è un analista di settore di AIMultiple specializzato in strumenti di programmazione per l'IA, agenti di IA e tecnologie quantistiche.

Visualizza il profilo completo

Revisionato tecnicamente da

Berk Kalelioğlu

Ricercatore di intelligenza artificiale

Segui Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Prossimo da leggere

Agenti di intelligenza artificialeMag 20

Memoria IA: i modelli IA più popolari con la migliore memoria

Risultati del benchmark di memoria AI

Perché i modelli di grandi dimensioni hanno problemi di memoria?

Come ottimizzare il rapporto tra intelligenza, frequenza delle allucinazioni e memoria?