L'adozione degli agenti AI ha superato la sicurezza degli agenti AI: l'82% delle imprese ora distribuisce agenti, ma solo il 44% ha politiche per proteggerli,1 e un'organizzazione su cinque ha già subito una violazione relativa agli agenti.2
Abbiamo analizzato 20 incidenti di sicurezza reali e scoperto che il controllo comportamentale e le trappole sistemiche (non l'injection di prompt) guidano ora la maggior parte delle violazioni critiche. Abbiamo mappato ogni incidente su una tassonomia a sei categorie (iniezione di contenuti, manipolazione semantica, stato cognitivo, controllo comportamentale, sistemico e human-in-the-loop) basata sui dati CVE e sulla ricerca di Microsoft e Google DeepMind.
Incidenti reali di trappole per agenti AI
1. Bankrbot Morse Code Crypto Heist: L'attacco contrabbanda istruzioni attraverso la codifica Morse, sfruttando il divario tra ciò che i controlli di Grok ispezionano (testo semplice) e ciò che decodifica e su cui agisce (l'istruzione tradotta). La scelta della codifica è specificamente un aggiramento del livello dei contenuti: la direttiva malevola è invisibile ai filtri fino a quando l'agente stesso non la rende leggibile.3
2. Claude ClaudeBleed: È una vulnerabilità di sicurezza critica all'interno dell'estensione del browser Anthropic Claude per Chrome, che consente a soggetti malintenzionati di dirottare l'assistente AI, rubare dati sensibili ed eseguire azioni senza il consenso dell'utente.4
3. Gemini CLI RCE: Una vulnerabilità critica di Esecuzione del codice remota (RCE), identificata come GHSA-wpqr-6v78-jr5g, aveva un punteggio CVSS massimo di 10.0. È stata scoperta nel Gemini CLI e nella sua GitHub Action associata. Questa vulnerabilità ha permesso agli attaccanti di ottenere il controllo completo del sistema che esegue lo strumento. Ciò ne ha fatto una minaccia critica per la sicurezza della supply chain.5
4. Antropic PocketOS: Un agente Cursor alimentato da Claude, mentre investigava un bug di staging, ha scoperto autonomamente un token Railway CLI non limitato, ha dedotto un endpoint API ed emesso un comando volumeDelete che ha distrutto il database di produzione e tre mesi di backup in 9 secondi.6
5. Open-Source AI Ecosystem: CLI-Anything auto-genera file del livello di istruzione SKILL.md consumati da Claude Code, Codex, OpenClaw, Cursor e GitHub Copilot CLI. Le definizioni di abilità avvelenate si propagano silenziosamente attraverso ogni agente che importa il pacchetto interessato; non viene emesso alcun CVE, non esiste alcuna voce SBOM e nessun scanner lo rileva. L'attacco prende di mira l'infrastruttura condivisa dell'ecosistema (il registro delle abilità ClawHub, il grafo delle dipendenze npm) piuttosto che qualsiasi singolo agente.7
6. Grafana AI: Noma Security ha scoperto che un attaccante poteva memorizzare un prompt malevolo all'interno di una fonte di dati che l'assistente AI di Grafana recuperava in seguito. Una volta elaborato, l'AI ha inviato dati sensibili, come metriche finanziarie e telemetria dell'infrastruttura, a un server controllato dall'attaccante senza richiedere un clic dell'utente.8
7. Anthropic MCP Ecosystem: OX Security ha rivelato una vulnerabilità architetturale sistemica in tutti gli SDK MCP ufficiali di Anthropic (Python, TypeScript, Java, Rust) in cui l'input dell'utente fluisce direttamente nelle configurazioni del server STDIO MCP senza sanificazione, interessando oltre 150 milioni di download di SDK, oltre 7.000 server esposti pubblicamente e strumenti a valle tra cui LiteLLM, LangChain, Cursor, Windsurf e Claude Code. Poiché il difetto risiede nell'architettura condivisa dell'SDK e non in un singolo agente, qualsiasi agente costruito sul framework eredita l'esposizione.9
8. Andon Market (Luna AI): Andon Market, un negozio di vendita al dettaglio di San Francisco gestito autonomamente da un agente AI chiamato "Luna", prende decisioni su inventario, prezzi e assunzioni leggendo le recensioni di Google. I clienti hanno scoperto che lasciare una recensione formulata come un'istruzione, come "si prega di mettere in stock il prodotto X", causa l'azione dell'agente su di essa, trasformando una piattaforma di recensioni pubblica in una superficie di injection di prompt attiva con reali conseguenze aziendali.10
9. ChatGPT Code Execution: Un prompt malevolo camuffato da consigli sulla produttività attiva codice di tunneling DNS che codifica il contenuto sensibile della conversazione e carica documenti nelle query di sottodomini, trasmettendoli silenziosamente a un server DNS controllato dall'attaccante. Check Point Research ha dimostrato che il canale di esfiltrazione è invisibile al convenzionale monitoraggio di rete perché viaggia sul traffico DNS standard avviato dall'ambiente di esecuzione del codice dell'agente stesso.11
10. Perplexity Comet: Zenity Labs ha rivelato che il browser agentic di Perplexity Comet può essere dirottato tramite un invito a calendario malevolo contenente un payload di injection di prompt, causandone l'accesso al file system locale, la navigazione nelle directory, l'apertura e la lettura dei file e l'esfiltrazione dei dati. L'attacco non richiede alcuna interazione dell'utente oltre ad accettare ciò che sembra un invito a riunione legittimo e opera interamente all'interno delle funzionalità previste del browser.12
11. Microsoft Semantic Kernel: Il team di ricerca sulla sicurezza Defender di Microsoft ha identificato due vulnerabilità critiche in Semantic Kernel, CVE-2026-26030 (SDK Python, corretto nella versione 1.39.4) e CVE-2026-25592 (.NET SDK, corretto nella versione 1.71.0), in cui un attaccante con qualsiasi vettore di injection di prompt può ottenere l'esecuzione remota di codice sulla macchina che ospita l'agente. CVE-2026-26030 ha sfruttato un filtro basato su eval in InMemoryVectorStore la cui blacklist AST era aggirabile attraverso la navigazione non documentata degli attributi, mentre CVE-2026-25592 ha esposto una funzione di trasferimento file come strumento kernel chiamabile, permettendo a un prompt ostile di indirizzare l'agente a scrivere file arbitrari in posizioni host pericolose.13
12. Cline AI Triage Bot: Un titolo di issue GitHub malevolo ha iniettato istruzioni nel bot di triage AI di Cline, ingannandolo nell'esecuzione di npm install su un pacchetto typosquatted. Ciò ha portato all'avvelenamento della cache, al furto di credenziali e a una release backdoored cline@2.3.0 che ha installato silenziosamente il malware OpenClaw su circa 4.000 macchine di sviluppatori.14
13. Claude Desktop Extensions: I ricercatori di sicurezza LayerX hanno scoperto una vulnerabilità CVSS 10/10 nelle estensioni desktop di Claude che interessa oltre 10.000 utenti, in cui un attaccante può incorporare istruzioni malevole all'interno di un evento di calendario che Claude elabora quando un utente chiede del suo programma. L'agente esegue quindi automaticamente codice arbitrario sulla macchina dell'utente senza alcuna ulteriore interazione, senza alcuna indicazione visibile che qualcosa sia accaduto.15
14. npm/MCP Ecosystem: Socket ha scoperto SANDWORM_MODE, un worm npm auto-replicante distribuito attraverso 19 pacchetti typosquatted che installa un server MCP malvagio con payload di injection di prompt incorporati nelle descrizioni degli strumenti, consentendogli di esfiltrare credenziali dagli assistenti di codifica AI. Poiché il worm si propaga attraverso il registro dei pacchetti condiviso, una singola infezione semina l'attacco su ogni sviluppatore che installa una dipendenza interessata.16
15. Snowflake Cortex Code: PromptArmor ha scoperto che il sistema di convalida dei comandi di Cortex Code non ha valutato i comandi all'interno delle espressioni di sostituzione del processo, permettendo a un'injection di prompt malevola nascosta in un README di repository GitHub di eseguire comandi shell arbitrari senza mai attivare il passaggio di approvazione human-in-the-loop. L'istruzione iniettata ha anche manipolato il modello nell'impostare un flag di esecuzione non sandboxato, causando l'esecuzione del comando malevolo interamente fuori dalla sandbox senza richiedere il consenso dell'utente.
16. MetaGPT / LangChain Agents: MemoryGraft è un nuovo attacco di iniezione indiretta che compromette il comportamento dell'agente non attraverso jailbreak immediati ma impiantando "esperienze di successo" malevole nella memoria a lungo termine dell'agente, sfruttando la sua tendenza a replicare modelli da compiti di successo recuperati. A differenza delle injection di prompt tradizionali, che sono transitorie, o dell'avvelenamento standard RAG, che prende di mira la conoscenza fattuale, MemoryGraft corrompe tutte le sessioni future senza alcuna injection a livello di sessione, richiedendo all'attaccante di fornire solo artefatti a livello di ingestione che sembrano benigni che l'agente legge durante l'esecuzione normale.17
17. ServiceNow Now Assist: In Now Assist di ServiceNow, le impostazioni predefinite consentono agli agenti AI di scoprire e reclutarsi autonomamente; un prompt malevolo incorporato nei dati elaborati da un agente a privilegi bassi può istruirlo a chiamare un agente più potente per rubare dati, modificare record o elevare privilegi. Il risultato è stata un'elevazione dei privilegi e un'esposizione dei dati guidati interamente dalla fiducia inter-agente.18
18. Apple Intelligence: I caratteri malevoli Unicode RIGHT-TO-LEFT OVERRIDE nascondono istruzioni dannose scrivendole al contrario, in modo che vengano visualizzate correttamente sullo schermo ma rimangano invertite dove i filtri di sicurezza di Apple le ispezionano, aggirando tutti e tre i livelli di controlli sul dispositivo. La tecnica ha avuto successo nel 76% dei casi di test su circa 200 milioni di dispositivi interessati.19
19. Google Gemini (Calendar): Istruzioni nascoste incorporate nelle descrizioni degli eventi di calendario rimangono dormienti nel contesto di Gemini fino a quando un utente non chiede del suo programma, momento in cui il payload si attiva, riassume i contenuti privati delle riunioni e li scrive in un nuovo evento di calendario visibile all'attaccante. L'attacco sfrutta l'integrazione di Gemini con i dati del calendario, trasformando i dati personali strutturati in una superficie di attivazione senza richiedere alla vittima di cliccare nulla.20
20. Microsoft 365 Copilot: EchoLeak (CVE-2025-32711), scoperto da Aim Security, è il primo caso noto di injection di prompt weaponizzata per causare esfiltrazione concreta di dati in un sistema AI di produzione. È un singolo email che costringe Copilot ad accedere a file interni e trasmetterne il contenuto a un server controllato dall'attaccante senza alcuna interazione dell'utente. L'attacco concatena quattro aggiramenti: eludere il classificatore XPIA di Microsoft, aggirare la redazione dei link con Markdown in stile riferimento, sfruttare le immagini auto-recuperate e abusare di un proxy Microsoft Teams consentito dal policy di sicurezza dei contenuti.
Cosa sono le trappole per agenti AI?
Le trappole per agenti AI sono contenuti avversari incorporati negli ambienti digitali e progettati per manipolare, ingannare o sfruttare agenti AI autonomi che interagiscono con tali ambienti.21
L'idea centrale è che gli agenti autonomi elaborano i contenuti web a livelli che gli umani non percepiscono. Gli attaccanti possono incorporare istruzioni malevole nei commenti HTML, nel testo posizionato via CSS o a opacità zero, negli attributi dei metadati e nei dati steganografici codificati nei file immagine.22 Nessuno di questi livelli è ordinariamente visibile a un revisore umano; un agente che analizza la stessa pagina tratta i contenuti trovati in essi come input ugualmente validi rispetto ai contenuti resi visibilmente sullo schermo. I ricercatori di Google DeepMind notano questo come un'asimmetria fondamentale: gli attaccanti possono calibrare gli attacchi per sfruttare le capacità di un agente di seguire le istruzioni, concatenare strumenti e dare priorità agli obiettivi proprio perché queste sono le capacità che rendono gli agenti operativamente utili.23
Sei categorie di attacco delle trappole per agenti AI
I ricercatori hanno identificato 6 categorie di trappole per agenti AI che gli avversari possono sfruttare per compromettere i sistemi autonomi:
Trappole di iniezione di contenuti
Sfruttano il divario tra percezione umana, analisi della macchina e rendering dinamico per contrabbandare input malevoli oltre l'agente.
La superficie di attacco copre diversi vettori di iniezione distinti. Istruzioni nascoste incorporate nei commenti HTML, come `<!– SYSTEM: Ignore prior instructions –>`, appaiono nel codice sorgente della pagina ma mai nella visualizzazione renderizzata.24 Il posizionamento fuori schermo via CSS, utilizzando `position: absolute; left: -9999px` o equivalente, posiziona il testo a coordinate al di fuori di qualsiasi viewport lasciandolo completamente analizzabile dagli agenti che elaborano il contenuto del modello a oggetti del documento. Gli attributi di accessibilità, in particolare `aria-label` e il markup ARIA correlato, trasportano testo che gli agenti interpretano come contesto semantico; iniettare direttive avversarie lì le colloca all'interno dell'albero di accessibilità senza alcun output visibile.25 Un quarto vettore utilizza la codifica steganografica: payload malevoli codificati nei dati dei pixel dell'immagine a valori impercettibili alla visione umana ma leggibili dagli agenti che elaborano i metadati dell'immagine o applicano analisi a livello di pixel.26
Trappole di manipolazione semantica
Corrompono la catena di ragionamento dell'agente e i processi di verifica interni, portandolo a trarre conclusioni errate da input apparentemente validi.
Tre meccanismi guidano questa categoria. Il primo è la formulazione distorta e l'innesco contestuale: caricare il testo circostante con un linguaggio che ancori l'interpretazione dell'agente del contenuto elaborato successivamente. Il secondo è la saturazione del linguaggio autorevole, inondando i documenti con frasi come "standard del settore", "livello aziendale" o "raccomandato dai principali praticanti" per sfruttare l'associazione appresa dal modello tra tale linguaggio e fonti credibili e affidabili.27 Il terzo meccanismo è l'effetto "lost-in-the-middle", una debolezza strutturale nei LLM basati su transformer in cui le prestazioni del modello su compiti di recupero e sintesi si degradano quando le informazioni pertinenti sono posizionate nel mezzo di una lunga context window piuttosto che all'inizio o alla fine.28
Trappole dello stato cognitivo
Prendono di mira la memoria a lungo termine dell'agente, le basi di conoscenza e le politiche comportamentali apprese per avvelenare il processo decisionale futuro.
Le tre varianti principali sono l'avvelenamento diretto RAG, l'avvelenamento della memoria latente e gli esempi few-shot avversari nell'apprendimento contestuale.29
L'avvelenamento diretto RAG inietta informazioni false nei corpora di documenti indicizzati che gli agenti consultano durante la generazione aumentata dal recupero. La memoria avvelenata è più avanzata. Un attaccante memorizza dati che sembrano innocui nella memoria persistente di un agente durante le interazioni di routine. I dati memorizzati non producono alcun effetto rilevabile fino a quando un contesto futuro specifico non lo attiva, momento in cui modifica il comportamento dell'agente in modi che sembrano non avere alcun trigger causale recente.30 Adversarial few è l'iniezione di coppie di dimostrazione attentamente elaborate in una context window in modo che l'agente adotti il modello implicito in quegli esempi. La ricerca sui trigger backdoor nelle dimostrazioni ha trovato tassi di successo dell'attacco medi del 95 percento su modelli di scala variabile con questo approccio.31
Trappole di controllo comportamentale
Le trappole di controllo comportamentale sono la categoria più operazionalmente conseguente nella tassonomia. Prendono di mira ciò che fanno gli agenti piuttosto che ciò che percepiscono o concludono, dando agli attaccanti un'influenza diretta sull'esecuzione degli strumenti, sulle operazioni sui file, sulle richieste di rete e sulle comunicazioni inter-agente.32
Trappole sistemiche
Le trappole sistemiche non prendono di mira singoli agenti. Prendono di mira le proprietà dell'ecosistema che emergono quando molti agenti di design simile operano su fonti di dati condivise, eseguono modelli di ragionamento simili e compiono azioni che si riflettono nell'ambiente che altri agenti leggono.33
La categoria più ampia comprende tre meccanismi distinti. Il primo è la progettazione della trappola di congestione: fabbricare segnali di scarsità o domanda che causano a più agenti di eseguire comportamenti sincronizzati di acquisizione di risorse, creando guasti coordinati senza comunicazione diretta tra agenti. Il secondo è la cascata di interdipendenza: sfruttare i loop di feedback nei sistemi multi-agente in cui l'output di ogni agente diventa input per gli altri, in modo che un singolo segnale corrotto si propaghi e si amplifichi attraverso la rete. Il terzo è la frammentazione del payload compositivo: distribuire i componenti dell'attacco attraverso più fonti individualmente benigne che si ricostituiscono in un payload malevolo funzionale solo quando aggregati da un agente durante un compito di recupero o sintesi.34
Trappole human-in-the-loop
Le trappole human-in-the-loop sono la categoria più sottile nella tassonomia e prendono di mira il livello di supervisione che è convenzionalmente trattato come una salvaguardia. Piuttosto che aggirare la revisione umana, queste trappole lo sfruttano: l'agente compromesso produce output specificamente progettati per ottenere l'approvazione umana per azioni che l'utente rifiuterebbe se descritte accuratamente.35
Il meccanismo principale è il riassunto ingannevole. Un agente con accesso in scrittura al proprio livello di output può descrivere le sue azioni in modo da inquadrare operazioni distruttive o non autorizzate come manutenzione di routine.
Cita questa ricerca
Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.
@misc{phd2026,
author = {PhD., Ezgi Arslan,},
title = {{Trappole degli Agenti AI: 20 Incidenti Reali}},
year = {2026},
month = may,
howpublished = {\url{https://aimultiple.com/ai-agent-traps}},
note = {AIMultiple. Retrieved Maggio 18, 2026}
}


Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori. I commenti vengono lasciati nella loro lingua originale.