L'adozione degli agenti AI ha superato la sicurezza degli agenti AI: l'82% delle aziende ora implementa agenti, ma solo il 44% ha politiche per proteggerli, 1 e una su cinque organizzazioni ha già subito una violazione correlata ad agenti. 2
Abbiamo analizzato 20 incidenti di sicurezza reali e scoperto che il controllo comportamentale e le trappole sistemiche (non l'iniezione immediata) sono ora alla base della maggior parte delle violazioni critiche. Abbiamo mappato ciascun incidente a una tassonomia a sei categorie (iniezione di contenuto, manipolazione semantica, stato cognitivo, controllo comportamentale, sistemico e intervento umano) basata sui dati CVE e sulla ricerca di DeepMind (991259-1943 e 991259-1895).
Incidenti reali con agenti IA intrappolati
1. Furto di criptovalute con codice Morse di Bankrbot: l'attacco introduce istruzioni tramite codifica Morse, sfruttando la discrepanza tra ciò che i sistemi di protezione di Grok ispezionano (testo in chiaro) e ciò che decodificano e su cui agiscono (l'istruzione tradotta). La scelta della codifica è specificamente un bypass del livello di contenuto: la direttiva malevola è invisibile ai filtri finché l'agente stesso non la rende leggibile. 3
2. Claude ClaudeBleed: Si tratta di una vulnerabilità di sicurezza critica all'interno dell'estensione del browser Claude per Chrome, che consente ad attori malintenzionati di dirottare l'assistente AI, rubare dati sensibili ed eseguire azioni senza il consenso dell'utente. 4
3. Gemini CLI RCE: Una vulnerabilità critica di esecuzione remota di codice (RCE), identificata come GHSA-wpqr-6v78-jr5g, ha ottenuto un punteggio CVSS massimo di 10.0. È stata scoperta nella CLI Gemini e nella relativa GitHub Action. Questa vulnerabilità consentiva agli aggressori di ottenere il pieno controllo del sistema che eseguiva lo strumento. Ciò la rendeva una minaccia critica per la sicurezza della catena di approvvigionamento. 5
4. Antropic PocketOS: Un agente Cursor basato su Claude, durante l'analisi di un bug di staging, ha scoperto autonomamente un token CLI di Railway senza ambito, ha dedotto un endpoint API e ha emesso un comando volumeDelete che ha distrutto il database di produzione e tre mesi di backup in 9 secondi. 6
5. Ecosistema AI open source: CLI-Anything genera automaticamente file di istruzioni SKILL.md utilizzati da Claude Code, Codex, OpenClaw, Cursor e GitHub Copilot CLI. Le definizioni delle skill infette si propagano silenziosamente attraverso ogni agente che importa il pacchetto interessato; non viene emesso alcun CVE, non esiste alcuna voce SBOM e nessuno scanner lo rileva. L'attacco prende di mira l'infrastruttura condivisa dell'ecosistema (il registro delle skill di ClawHub, il grafico delle dipendenze npm) piuttosto che un singolo agente. 7
6. Grafana AI: Noma Security ha scoperto che un utente malintenzionato poteva memorizzare un messaggio dannoso all'interno di un'origine dati che l'assistente AI di Grafana recuperava in seguito. Una volta elaborati, i dati sensibili, come metriche finanziarie e telemetria dell'infrastruttura, venivano inviati a un server controllato dall'attaccante senza richiedere alcun clic da parte dell'utente. 8
7. Ecosistema MCP di Anthropic: OX Security ha rivelato una vulnerabilità architetturale sistemica negli SDK MCP ufficiali di Anthropic (Python, TypeScript, Java, Rust) in cui l'input dell'utente fluisce direttamente nelle configurazioni del server MCP STDIO senza sanificazione, interessando oltre 150 milioni di download di SDK, più di 7.000 server esposti pubblicamente e strumenti a valle tra cui LiteLLM, LangChain, Cursor, Windsurf e Claude Code. Poiché la falla risiede nell'architettura SDK condivisa piuttosto che in un singolo agente, qualsiasi agente basato sul framework eredita l'esposizione. 9
8. Andon Market (Luna AI): Andon Market, un negozio al dettaglio di San Francisco gestito autonomamente da un agente AI chiamato "Luna", prende decisioni su inventario, prezzi e assunzioni leggendo le recensioni. I clienti hanno scoperto che lasciare una recensione formulata come un'istruzione, ad esempio "per favore, rifornite il prodotto X", induce l'agente ad agire di conseguenza, trasformando una piattaforma di recensioni pubblica in una superficie di inserimento di prompt in tempo reale con reali conseguenze per il business. 10
9. Esecuzione di codice ChatGPT: un messaggio malevolo mascherato da suggerimenti per la produttività attiva un codice di tunneling DNS che codifica il contenuto sensibile delle conversazioni e carica i documenti nelle query di sottodominio, trasmettendoli silenziosamente a un server DNS controllato dall'attaccante. Check Point Research ha dimostrato che il canale di esfiltrazione è invisibile al monitoraggio di rete convenzionale perché si basa sul traffico DNS standard avviato dall'ambiente di esecuzione del codice dell'agente stesso. 11
10. Perplexity Comet: Zenity Labs ha rivelato che il browser agente di Perplexity Comet può essere dirottato tramite un invito di calendario dannoso contenente un payload di iniezione di prompt, che lo porta ad accedere al file system locale, a esplorare le directory, ad aprire e leggere file e a esfiltrare dati. L'attacco non richiede alcuna interazione da parte dell'utente oltre all'accettazione di quello che sembra essere un invito a una riunione legittima e opera interamente entro i limiti previsti per il browser. 12
11. Kernel semantico: il team di ricerca sulla sicurezza Defender di Microsoft ha identificato due vulnerabilità critiche nel kernel semantico, CVE-2026-26030 (SDK Python, corretto nella versione 1.39.4) e CVE-2026-25592 (SDK .NET, corretto nella versione 1.71.0), in cui un utente malintenzionato con qualsiasi vettore di iniezione di prompt può ottenere l'esecuzione di codice remoto sulla macchina che ospita l'agente. CVE-2026-26030 sfruttava un filtro basato su eval in InMemoryVectorStore la cui blacklist AST era aggirabile tramite attraversamento di attributi non documentato, mentre CVE-2026-25592 esponeva una funzione di supporto per il trasferimento di file come strumento del kernel richiamabile, consentendo a un prompt ostile di indirizzare l'agente a scrivere file arbitrari in posizioni host pericolose. 13
12. Bot di triage AI di Cline: un titolo di problema malevolo su GitHub ha iniettato istruzioni nel bot di triage AI di Cline, ingannandolo e facendogli eseguire npm install su un pacchetto con typosquat. Ciò ha portato ad avvelenamento della cache, furto di credenziali e una backdoor nella versione cline@2.3.0 che ha installato silenziosamente il malware OpenClaw su circa 4.000 macchine di sviluppatori. 14
13. Estensioni desktop di Claude: i ricercatori di sicurezza di LayerX hanno scoperto una vulnerabilità CVSS 10/10 nelle estensioni desktop di Claude che interessa oltre 10.000 utenti. Un utente malintenzionato può inserire istruzioni dannose all'interno di un evento del calendario che Claude elabora quando un utente chiede informazioni sulla propria agenda. L'agente esegue quindi automaticamente codice arbitrario sul computer dell'utente senza alcuna ulteriore interazione, senza alcuna indicazione visibile di quanto accaduto. 15
14. Ecosistema npm/MCP: Socket ha scoperto SANDWORM_MODE, un worm npm autoreplicante distribuito tramite 19 pacchetti typosquatted che installa un server MCP malevolo con payload di iniezione di prompt incorporati nelle descrizioni degli strumenti, consentendogli di esfiltrare le credenziali dagli assistenti di programmazione IA . Poiché il worm si propaga attraverso il registro dei pacchetti condiviso, una singola infezione innesca l'attacco in ogni sviluppatore che installa una dipendenza interessata. 16
15. Snowflake Cortex Code: PromptArmor ha scoperto che il sistema di convalida dei comandi di Cortex Code non riusciva a valutare i comandi all'interno delle espressioni di sostituzione di processo, consentendo a un'iniezione di prompt dannosa nascosta nel README di un repository GitHub di eseguire comandi shell arbitrari senza mai attivare la fase di approvazione umana. L'istruzione iniettata manipolava anche il modello per impostare un flag di esecuzione non sandbox, causando l'esecuzione del comando dannoso completamente al di fuori della sandbox senza richiedere il consenso all'utente.
16. Agenti MetaGPT / LangChain: MemoryGraft è un nuovo attacco di iniezione indiretta che compromette il comportamento dell'agente non tramite jailbreak immediati, ma impiantando "esperienze di successo" dannose nella memoria a lungo termine dell'agente, sfruttando la sua tendenza a replicare schemi da attività recuperate con successo. A differenza delle tradizionali iniezioni di prompt, che sono transitorie, o dell'avvelenamento RAG standard, che prende di mira la conoscenza fattuale, MemoryGraft corrompe tutte le sessioni future senza alcuna iniezione a livello di sessione, richiedendo a un attaccante di fornire solo artefatti a livello di ingestione apparentemente innocui che l'agente legge durante la normale esecuzione. 17
17. ServiceNow Now Assist: In ServiceNow Now Assist, le impostazioni predefinite consentono agli agenti IA di scoprirsi e reclutarsi a vicenda in modo autonomo; un prompt dannoso incorporato nei dati elaborati da un agente con privilegi limitati può istruirlo a contattare un agente con privilegi più elevati per rubare dati, modificare record o elevare i privilegi. Il risultato è stato un'escalation dei privilegi e un'esposizione dei dati interamente basata sulla fiducia tra gli agenti. 18
18. Apple Intelligence: Caratteri Unicode dannosi RIGHT-TO-LEFT OVERRIDE nascondono istruzioni pericolose scrivendole al contrario, in modo che vengano visualizzate correttamente sullo schermo ma rimangano invertite quando i filtri di sicurezza di Apple le ispezionano, aggirando tutti e tre i livelli di protezione del dispositivo. La tecnica ha avuto successo nel 76% dei casi di test su circa 200 milioni di dispositivi interessati. 19
19. Google Gemini (Calendario): Istruzioni nascoste incorporate nelle descrizioni degli eventi del calendario rimangono latenti nel contesto di Gemini finché un utente non chiede informazioni sul proprio programma, momento in cui il payload si attiva, riassumendo il contenuto delle riunioni private e scrivendolo in un nuovo evento del calendario visibile all'attaccante. L'attacco sfrutta l'integrazione di Gemini con i dati del calendario, trasformando i dati personali strutturati in una superficie di attivazione senza richiedere alla vittima di cliccare su nulla. 20
20. Microsoft 365 Copilot: EchoLeak (CVE-2025-32711), scoperto da Aim Security, è il primo caso noto di prompt injection utilizzato come arma per causare l'esfiltrazione di dati concreti in un sistema di IA in produzione. Si tratta di una singola email appositamente creata che costringe Copilot ad accedere a file interni e a trasmetterne il contenuto a un server controllato dall'attaccante senza alcuna interazione da parte dell'utente. L'attacco concatena quattro bypass: eludere il classificatore XPIA di Microsoft, aggirare la redazione dei link con Markdown in stile di riferimento, sfruttare le immagini scaricate automaticamente e abusare di un proxy di Microsoft Teams consentito dalla policy di sicurezza dei contenuti.
Che cosa sono le trappole degli agenti IA?
Le trappole per agenti di intelligenza artificiale sono contenuti avversari incorporati in ambienti digitali e progettati per manipolare, ingannare o sfruttare gli agenti di intelligenza artificiale autonomi che interagiscono con tali ambienti. 21
L'intuizione centrale è che gli agenti autonomi elaborano i contenuti web a livelli che gli esseri umani non percepiscono. Gli aggressori possono incorporare istruzioni dannose nei commenti HTML, nel testo posizionato tramite CSS o con opacità zero, negli attributi dei metadati e nei dati steganografici codificati nei file immagine. 22 Nessuno di questi livelli è normalmente visibile a un revisore umano; un agente che analizza la stessa pagina tratta il contenuto in essi presente come un input altrettanto valido del contenuto visualizzato sullo schermo. I ricercatori di DeepMind notano questa come un'asimmetria fondamentale: gli aggressori possono calibrare gli attacchi per sfruttare le capacità di un agente di seguire le istruzioni, di concatenare strumenti e di dare priorità agli obiettivi proprio perché queste sono le capacità che rendono gli agenti operativamente utili. 23
Sei categorie di attacchi di trappole per agenti di intelligenza artificiale
I ricercatori hanno identificato 6 categorie di trappole per agenti di intelligenza artificiale che gli avversari possono sfruttare per compromettere i sistemi autonomi:
Trappole di iniezione di contenuti
Sfrutta il divario tra la percezione umana, l'elaborazione automatica e il rendering dinamico per introdurre input dannosi aggirando l'agente.
La superficie di attacco copre diversi vettori di iniezione distinti. Le istruzioni nascoste incorporate nei commenti HTML, come `<!– SYSTEM: Ignore prior instructions –>`, appaiono nel codice sorgente della pagina ma mai nella visualizzazione renderizzata. 24 Il posizionamento fuori schermo CSS, utilizzando `position: absolute; left: -9999px` o equivalente, posiziona il testo a coordinate esterne a qualsiasi viewport, lasciandolo comunque completamente analizzabile dagli agenti che elaborano il contenuto del modello a oggetti del documento. Gli attributi di accessibilità, in particolare `aria-label` e il markup ARIA correlato, contengono testo che gli agenti interpretano come contesto semantico; l'inserimento di direttive avversarie in questo contesto le colloca all'interno dell'albero di accessibilità senza alcun output visibile. 25 Un quarto vettore utilizza la codifica steganografica: payload dannosi codificati nei dati dei pixel dell'immagine a valori impercettibili alla vista umana ma leggibili da agenti che elaborano i metadati dell'immagine o applicano analisi a livello di pixel. 26
Trappole di manipolazione semantica
Alterare la catena di ragionamento e i processi di verifica interni dell'agente, portandolo a trarre conclusioni errate da input apparentemente validi.
Tre meccanismi guidano questa categoria. Il primo è la formulazione distorta e il priming contestuale: caricare il testo circostante con un linguaggio che ancora l'agente all'interpretazione del contenuto elaborato successivamente. Il secondo è la saturazione del linguaggio autorevole, inondando i documenti con frasi come "standard di settore", "livello aziendale" o "raccomandato dai principali professionisti" per sfruttare l'associazione appresa dal modello tra tale linguaggio e fonti credibili e affidabili. 27 Il terzo meccanismo è l'effetto "perso nel mezzo", una debolezza strutturale nei LLM basati su transformer in cui le prestazioni del modello sui compiti di recupero e sintesi si degradano quando le informazioni rilevanti sono posizionate al centro di una lunga finestra di contesto piuttosto che all'inizio o alla fine. 28
Trappole dello stato cognitivo
Prendere di mira la memoria a lungo termine dell'agente, le sue basi di conoscenza e le politiche comportamentali apprese per compromettere i suoi processi decisionali futuri.
Le tre varianti principali sono l'avvelenamento diretto RAG, l'avvelenamento della memoria latente e gli esempi avversari a pochi colpi nell'apprendimento contestuale. 29
L'avvelenamento diretto RAG inietta informazioni false nei corpus di documenti indicizzati che gli agenti consultano durante la generazione aumentata dal recupero. La memoria avvelenata è più avanzata. Un attaccante memorizza dati apparentemente innocui nella memoria persistente di un agente durante le interazioni di routine. I dati memorizzati non producono alcun effetto rilevabile finché uno specifico contesto futuro non li attiva, momento in cui modificano il comportamento dell'agente in modi che apparentemente non hanno un recente innesco causale. 30 Un approccio avversariale consiste nell'iniettare coppie di dimostrazioni attentamente create in una finestra di contesto in modo che l'agente adotti lo schema implicito in tali esempi. La ricerca sui trigger backdoor nelle dimostrazioni ha rilevato tassi di successo medi degli attacchi del 95% su modelli di varia scala con questo approccio. 31
Trappole per il controllo comportamentale
Le trappole di controllo comportamentale rappresentano la categoria con le maggiori conseguenze operative nella tassonomia. Si concentrano su ciò che gli agenti fanno, piuttosto che su ciò che percepiscono o deducono, consentendo agli aggressori di esercitare un'influenza diretta sull'esecuzione degli strumenti, sulle operazioni sui file, sulle richieste di rete e sulle comunicazioni tra agenti. 32
Trappole sistemiche
Le trappole sistemiche non prendono di mira i singoli agenti. Mirano alle proprietà dell'ecosistema che emergono quando molti agenti di progettazione simile operano su fonti di dati condivise, eseguono schemi di ragionamento simili e intraprendono azioni che a loro volta influenzano l'ambiente circostante, influenzandone le decisioni. 33
La categoria più ampia comprende tre meccanismi distinti. Il primo è la progettazione di trappole di congestione: la creazione di segnali di scarsità o di domanda che inducono più agenti a eseguire comportamenti sincronizzati di acquisizione di risorse, generando guasti coordinati senza comunicazione diretta tra agenti. Il secondo è la cascata di interdipendenza: lo sfruttamento di cicli di feedback nei sistemi multi-agente in cui l'output di ciascun agente diventa input per gli altri, in modo che un singolo segnale corrotto si propaghi e si amplifichi attraverso la rete. Il terzo è la frammentazione del payload compositivo: la distribuzione di componenti di attacco su più fonti individualmente innocue che si ricostituiscono in un payload dannoso funzionale solo quando vengono aggregate da un agente durante un'attività di recupero o sintesi. 34
Trappole con intervento umano
Le trappole "human-in-the-loop" rappresentano la categoria più subdola della tassonomia e prendono di mira il livello di supervisione che convenzionalmente viene considerato una misura di sicurezza. Anziché aggirare la revisione umana, queste trappole la sfruttano: l'agente compromesso produce output specificamente progettati per ottenere l'approvazione umana per azioni che l'essere umano rifiuterebbe se descritte accuratamente. 35
Il meccanismo centrale è la sintesi ingannevole. Un agente con accesso in scrittura al proprio livello di output può descrivere le proprie azioni in modo tale da far apparire operazioni distruttive o non autorizzate come normale manutenzione.
Cita questa ricerca
Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.
@misc{phd2026,
author = {PhD., Ezgi Arslan,},
title = {{Trappole degli agenti IA: 20 casi reali}},
year = {2026},
month = may,
howpublished = {\url{https://aimultiple.com/ai-agent-traps}},
note = {AIMultiple. Retrieved Maggio 18, 2026}
}
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.