Serviços
Contate-nos
Nenhum resultado encontrado.

Armadilhas de agentes de IA: 20 incidentes da vida real

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
atualizado em Mai 18, 2026

A adoção de agentes de IA superou a segurança desses agentes: 82% das empresas já implementam agentes, mas apenas 44% possuem políticas para protegê-los. 1 em cada cinco organizações já sofreu uma violação de segurança relacionada a agentes. 2

Analisamos 20 incidentes de segurança reais e descobrimos que o controle comportamental e as armadilhas sistêmicas (e não a injeção imediata) são agora os principais responsáveis pelas violações críticas. Mapeamos cada incidente para uma taxonomia de seis categorias (injeção de conteúdo, manipulação semântica, estado cognitivo, controle comportamental, sistêmica e interação humana) com base em dados do CVE e em pesquisas da DeepMind.

Loading Chart

Incidentes reais envolvendo agentes de IA que causam armadilhas

1. Roubo de Criptografia em Código Morse do Bankrbot: O ataque contrabandeia instruções por meio de codificação Morse, explorando a lacuna entre o que os mecanismos de segurança do Grok inspecionam (texto simples) e o que ele decodifica e processa (a instrução traduzida). A escolha da codificação visa especificamente contornar a camada de conteúdo: a diretiva maliciosa permanece invisível aos filtros até que o próprio agente a torne legível. 3

2. Claude ClaudeBleed: Trata-se de uma vulnerabilidade de segurança crítica na extensão Claude para o navegador Chrome (Anthropic), que permite que agentes maliciosos sequestrem o assistente de IA, roubem dados confidenciais e realizem ações sem o consentimento do usuário. 4

3. Gemini CLI RCE: Uma vulnerabilidade crítica de Execução Remota de Código (RCE), identificada como GHSA-wpqr-6v78-jr5g, tinha uma pontuação CVSS máxima de 10,0. Foi descoberta na CLI Gemini e na sua Ação do GitHub associada. Esta vulnerabilidade permitia que atacantes obtivessem controle total sobre o sistema que executava a ferramenta. Isso a tornou uma ameaça crítica à segurança da cadeia de suprimentos. 5

4. Antropic PocketOS: Um agente Cursor, com tecnologia Claude, enquanto investigava um bug em ambiente de teste, descobriu autonomamente um token da CLI Railway sem escopo, inferiu um endpoint de API e emitiu um comando volumeDelete que destruiu o banco de dados de produção e três meses de backups em 9 segundos. 6

5. Ecossistema de IA de código aberto: CLI-Anything gera automaticamente arquivos de camada de instruções SKILL.md consumidos pelo Claude Code, Codex, OpenClaw, Cursor e GitHub Copilot CLI. Definições de habilidades envenenadas se propagam silenciosamente por todos os agentes que importam o pacote afetado; nenhum CVE é emitido, nenhuma entrada SBOM existe e nenhum scanner detecta o ataque. O ataque tem como alvo a infraestrutura compartilhada do ecossistema (o registro de habilidades do ClawHub, o gráfico de dependências do npm) em vez de qualquer agente individual. 7

6. Grafana AI: A Noma Security descobriu que um atacante poderia armazenar um prompt malicioso dentro de uma fonte de dados que o assistente de IA do Grafana recuperava posteriormente. Uma vez processados, os dados sensíveis, como métricas financeiras e telemetria de infraestrutura, eram enviados para um servidor controlado pelo atacante sem exigir um clique do usuário. 8

7. Ecossistema MCP: A OX Security divulgou uma vulnerabilidade arquitetônica sistêmica nos SDKs oficiais do MCP (Python, TypeScript, Java, Rust) da Anthropic, onde a entrada do usuário flui diretamente para as configurações do servidor MCP STDIO sem sanitização, afetando mais de 150 milhões de downloads de SDKs, mais de 7.000 servidores expostos publicamente e ferramentas derivadas, incluindo LiteLLM, LangChain, Cursor, Windsurf e Claude Code. Como a falha está na arquitetura compartilhada do SDK, e não em um agente específico, qualquer agente construído sobre a estrutura herda a exposição. 9

8. Andon Market (Luna AI): A Andon Market, uma loja de varejo de São Francisco administrada de forma autônoma por um agente de IA chamado "Luna", toma decisões sobre estoque, preços e contratações com base na leitura de avaliações. Os clientes descobriram que deixar uma avaliação formulada como uma instrução, como "por favor, reabasteçam o produto X", faz com que o agente aja de acordo com ela, transformando uma plataforma de avaliações pública em uma superfície de injeção de sugestões em tempo real com consequências comerciais reais. 10

9. Execução de código ChatGPT: Uma mensagem maliciosa disfarçada de dicas de produtividade aciona um código de tunelamento DNS que codifica o conteúdo sensível da conversa e carrega documentos em consultas de subdomínio, transmitindo-os silenciosamente para um servidor DNS controlado pelo atacante. A Check Point Research demonstrou que o canal de exfiltração é invisível para o monitoramento de rede convencional porque utiliza o tráfego DNS padrão iniciado pelo próprio ambiente de execução de código do agente. 11

10. Perplexity Comet: A Zenity Labs revelou que o navegador agente do Perplexity Comet pode ser sequestrado por meio de um convite malicioso de calendário contendo um payload de injeção de prompt, permitindo o acesso ao sistema de arquivos local, a navegação em diretórios, a abertura e leitura de arquivos e a exfiltração de dados. O ataque não requer nenhuma interação do usuário além de aceitar o que parece ser um convite legítimo para uma reunião e opera inteiramente dentro das capacidades pretendidas do navegador. 12

11. Kernel Semântico Microsoft: A Equipe de Pesquisa de Segurança do Defender Microsoft identificou duas vulnerabilidades críticas no Kernel Semântico, CVE-2026-26030 (SDK Python, corrigido na versão 1.39.4) e CVE-2026-25592 (SDK .NET, corrigido na versão 1.71.0), onde um atacante com qualquer vetor de injeção de prompt pode obter execução remota de código na máquina que hospeda o agente. A CVE-2026-26030 explorou um filtro baseado em eval no InMemoryVectorStore, cuja lista de bloqueio AST era contornável por meio de travessia de atributos não documentada, enquanto a CVE-2026-25592 expôs uma função auxiliar de transferência de arquivos como uma ferramenta de kernel chamável, permitindo que um prompt malicioso direcionasse o agente para gravar arquivos arbitrários em locais perigosos do host. 13

12. Bot de Triagem de IA da Cline: Um título malicioso de uma issue no GitHub injetou instruções no bot de triagem de IA da Cline, enganando-o para executar o comando `npm install` em um pacote com erro de digitação. Isso levou ao envenenamento do cache, roubo de credenciais e a uma versão cline@2.3.0 com backdoor que instalou silenciosamente o malware OpenClaw em aproximadamente 4.000 máquinas de desenvolvedores. 14

13. Claude Desktop Extensions: Pesquisadores de segurança da LayerX descobriram uma vulnerabilidade CVSS 10/10 no Claude Desktop Extensions, afetando mais de 10.000 usuários. Nela, um atacante pode inserir instruções maliciosas em um evento de calendário processado pelo Claude quando um usuário consulta sua agenda. O agente então executa automaticamente um código arbitrário no computador do usuário, sem qualquer interação adicional e sem qualquer indicação visível de que algo tenha ocorrido. 15

14. Ecossistema npm/MCP: Socket descobriu o SANDWORM_MODE, um worm npm autorreplicante distribuído por meio de 19 pacotes com erros de digitação que instala um servidor MCP malicioso com payloads de injeção de prompts incorporados nas descrições das ferramentas, permitindo a exfiltração de credenciais de assistentes de codificação de IA . Como o worm se propaga pelo registro de pacotes compartilhado, uma única infecção dissemina o ataque para todos os desenvolvedores que instalam uma dependência afetada. 16

15. Snowflake Cortex Code: A PromptArmor descobriu que o sistema de validação de comandos do Cortex Code falhou ao avaliar comandos dentro de expressões de substituição de processos, permitindo que uma injeção maliciosa de prompt, oculta no arquivo README de um repositório do GitHub, executasse comandos arbitrários do shell sem jamais acionar a etapa de aprovação humana. A instrução injetada também manipulou o modelo para definir um sinalizador de execução não-sandbox, fazendo com que o comando malicioso fosse executado completamente fora do sandbox, sem solicitar o consentimento do usuário.

16. MetaGPT / LangChain Agentes: MemoryGraft é um novo ataque de injeção indireta que compromete o comportamento do agente não por meio de jailbreaks imediatos, mas implantando "experiências bem-sucedidas" maliciosas na memória de longo prazo do agente, explorando sua tendência a replicar padrões de tarefas bem-sucedidas recuperadas. Ao contrário das injeções de prompt tradicionais, que são transitórias, ou do envenenamento padrão de RAG, que visa o conhecimento factual, o MemoryGraft corrompe todas as sessões futuras sem qualquer injeção em nível de sessão, exigindo que um atacante forneça apenas artefatos de nível de ingestão aparentemente benignos que o agente lê durante a execução normal. 17

17. ServiceNow Now Assist: No ServiceNow Now Assist, as configurações padrão permitem que os agentes de IA se descubram e recrutem uns aos outros de forma autônoma; um aviso malicioso inserido em dados processados por um agente com privilégios limitados pode instruí-lo a acionar um agente com mais privilégios para roubar dados, modificar registros ou escalar privilégios. O resultado foi a escalada de privilégios e a exposição de dados impulsionadas inteiramente pela confiança entre os agentes. 18

18. Apple Intelligence: Caracteres Unicode maliciosos de SOBREPOSIÇÃO DA DIREITA PARA A ESQUERDA ocultam instruções prejudiciais, escrevendo-as ao contrário. Dessa forma, elas são exibidas corretamente na tela, mas permanecem invertidas onde os filtros de segurança da Apple as inspecionam, burlando todas as três camadas de proteção do dispositivo. A técnica foi bem-sucedida em 76% dos casos de teste em aproximadamente 200 milhões de dispositivos afetados. 19

19. Google Gemini (Calendário): Instruções ocultas, incorporadas nas descrições de eventos do calendário, permanecem inativas no contexto de Gemini até que um usuário consulte sua agenda. Nesse momento, o payload é ativado, resumindo o conteúdo de reuniões privadas e gravando-o em um novo evento do calendário visível para o atacante. O ataque explora a integração de Gemini com os dados do calendário, transformando dados pessoais estruturados em uma superfície de ativação sem exigir que a vítima clique em nada. 20

20. Microsoft 365 Copilot: EchoLeak (CVE-2025-32711), descoberto pela Aim Security, é o primeiro caso conhecido de injeção de prompt usada como arma para causar exfiltração de dados concreta em um sistema de IA em produção. Trata-se de um e- mail cuidadosamente elaborado que força o Copilot a acessar arquivos internos e transmitir seu conteúdo para um servidor controlado pelo atacante sem qualquer interação do usuário. O ataque encadeia quatro métodos de evasão: burla do classificador XPIA do Microsoft, contorna a redação de links com Markdown no estilo de referência, explora imagens buscadas automaticamente e abusa de um proxy do Teams do Microsoft permitido pela política de segurança de conteúdo.

O que são armadilhas para agentes de IA?

Armadilhas para agentes de IA são conteúdos adversários incorporados em ambientes digitais e projetados para manipular, enganar ou explorar agentes de IA autônomos que interagem com esses ambientes. 21

A principal ideia é que agentes autônomos processam conteúdo da web em camadas que os humanos não percebem. Os atacantes podem incorporar instruções maliciosas em comentários HTML, texto com posicionamento CSS ou opacidade zero, atributos de metadados e dados esteganográficos codificados em arquivos de imagem. 22 Nenhuma dessas camadas é normalmente visível para um revisor humano; um agente que analisa a mesma página trata o conteúdo encontrado nelas como entrada igualmente válida ao conteúdo renderizado visivelmente na tela. Os pesquisadores da DeepMind observam isso como uma assimetria fundamental: os atacantes podem calibrar ataques para explorar as capacidades de um agente de seguir instruções, encadear ferramentas e priorizar objetivos, precisamente porque essas são as capacidades que tornam os agentes operacionalmente úteis. 23

Seis categorias de ataques de armadilhas de agentes de IA

Pesquisadores identificaram 6 categorias de armadilhas em agentes de IA que adversários podem explorar para comprometer sistemas autônomos:

Armadilhas de injeção de conteúdo

Explore a lacuna entre a percepção humana, a análise sintática da máquina e a renderização dinâmica para introduzir entradas maliciosas sem o conhecimento do agente.

A superfície de ataque abrange vários vetores de injeção distintos. Instruções ocultas incorporadas em comentários HTML, como `<!– SYSTEM: Ignore prior instructions –>`, aparecem no código-fonte da página, mas nunca na visualização renderizada. 24 O posicionamento fora da tela em CSS, usando `position: absolute; left: -9999px` ou equivalente, coloca o texto em coordenadas fora de qualquer área visível, mantendo-o totalmente analisável por agentes que processam o conteúdo do modelo de objeto de documento (DOM). Os atributos de acessibilidade, especificamente `aria-label` e a marcação ARIA relacionada, carregam texto que os agentes interpretam como contexto semântico; injetar diretivas adversárias nesses atributos os coloca dentro da árvore de acessibilidade sem qualquer saída visível. 25 Um quarto vetor utiliza codificação esteganográfica: cargas maliciosas codificadas em dados de pixels da imagem em valores imperceptíveis à visão humana, mas legíveis por agentes que processam metadados da imagem ou aplicam análise em nível de pixel. 26

Armadilhas de manipulação semântica

Corromper a cadeia de raciocínio e os processos internos de verificação do agente, levando-o a tirar conclusões errôneas a partir de entradas aparentemente válidas.

Três mecanismos impulsionam essa categoria. O primeiro é a formulação tendenciosa e o priming contextual: carregar o texto circundante com uma linguagem que ancora a interpretação do agente sobre o conteúdo processado posteriormente. O segundo é a saturação com linguagem autoritativa, inundando os documentos com frases como "padrão da indústria", "nível empresarial" ou "recomendado por profissionais líderes" para explorar a associação aprendida pelo modelo entre essa linguagem e fontes confiáveis e fidedignas. 27 O terceiro mecanismo é o efeito de perda no meio, uma fraqueza estrutural em LLMs baseados em transformers, onde o desempenho do modelo em tarefas de recuperação e síntese se degrada quando informações relevantes são posicionadas no meio de uma longa janela de contexto , em vez de no início ou no fim. 28

Armadilhas do estado cognitivo

O objetivo é atingir a memória de longo prazo do agente, suas bases de conhecimento e políticas comportamentais aprendidas para influenciar negativamente suas decisões futuras.

As três variantes principais são o envenenamento direto por RAG, o envenenamento da memória latente e os exemplos adversários de poucos exemplos na aprendizagem contextual. 29

O envenenamento direto RAG injeta informações falsas em corpora de documentos indexados que os agentes consultam durante a geração aumentada por recuperação. A memória envenenada é mais sofisticada. Um atacante armazena dados aparentemente inócuos na memória persistente de um agente durante interações rotineiras. Os dados armazenados não produzem nenhum efeito detectável até que um contexto futuro específico os ative, momento em que modificam o comportamento do agente de maneiras que aparentemente não têm nenhum gatilho causal recente. 30 Uma tática adversária consiste em injetar pares de demonstração cuidadosamente elaborados em uma janela de contexto para que o agente adote o padrão implícito nesses exemplos. Pesquisas sobre gatilhos de backdoor em demonstrações encontraram taxas médias de sucesso de ataque de 95% em modelos de diferentes escalas sob essa abordagem. 31

Armadilhas de controle comportamental

As armadilhas de controle comportamental são a categoria de maior impacto operacional na taxonomia. Elas visam o que os agentes fazem, em vez do que percebem ou concluem, dando aos atacantes influência direta sobre a execução de ferramentas, operações com arquivos, solicitações de rede e comunicações entre agentes. 32

Armadilhas sistêmicas

As armadilhas sistêmicas não visam agentes individuais. Elas visam as propriedades do ecossistema que emergem quando muitos agentes de design semelhante operam em fontes de dados compartilhadas, executam padrões de raciocínio semelhantes e tomam ações que retroalimentam o ambiente, as quais outros agentes interpretam. 33

A categoria mais ampla engloba três mecanismos distintos. O primeiro é o projeto de armadilhas de congestionamento: fabricar sinais de escassez ou demanda que levam múltiplos agentes a executar comportamentos sincronizados de aquisição de recursos, criando falhas coordenadas sem comunicação direta entre os agentes. O segundo é a cascata de interdependência: explorar ciclos de feedback em sistemas multiagentes onde a saída de cada agente se torna entrada para os outros, de modo que um único sinal corrompido se propaga e se amplifica pela rede. O terceiro é a fragmentação composicional da carga útil: distribuir componentes de ataque por múltiplas fontes individualmente benignas que se reconstituem em uma carga útil maliciosa funcional somente quando agregadas por um agente durante uma tarefa de recuperação ou síntese. 34

Armadilhas com intervenção humana

As armadilhas de interação humana são a categoria mais sutil na taxonomia e visam a camada de supervisão que convencionalmente é tratada como uma salvaguarda. Em vez de contornar a revisão humana, essas armadilhas a exploram: o agente comprometido produz resultados especificamente projetados para obter a aprovação humana para ações que o humano rejeitaria se fossem descritas com precisão. 35

O mecanismo central é a sumarização enganosa. Um agente com acesso de escrita à sua própria camada de saída pode descrever suas ações de forma a enquadrar operações destrutivas ou não autorizadas como manutenção de rotina.

Cite esta pesquisa

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Ezgi Arslan, PhD. (2026) - "Armadilhas de agentes de IA: 20 incidentes da vida real". Publicado on-line em AIMultiple.com. Acessado em Maio 18, 2026, em: https://aimultiple.com/ai-agent-traps [Recurso on-line]

PhD., E. A. (2026, Maio 18). Armadilhas de agentes de IA: 20 incidentes da vida real. AIMultiple. https://aimultiple.com/ai-agent-traps

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Armadilhas de agentes de IA: 20 incidentes da vida real}},
  year   = {2026},
  month  = may,
  howpublished    = {\url{https://aimultiple.com/ai-agent-traps}},
  note   = {AIMultiple. Retrieved Maio 18, 2026}
}

Links de referência

1.
https://www.sailpoint.com/press-releases/sailpoint-ai-agent-adoption-report
2.
https://www.prnewswire.com/news-releases/the-state-of-ai-agent-security-73-of-cisos-fear-ai-agent-risks-but-only-30-are-ready-302607386.html
3.
The Grok Morse Code Heist: When Prompt Injection Meets Excessive Agency | NeuralTrust
NeuralTrust
4.
Vulnerability in Claude Extension for Chrome Exposes AI Agent to Takeover - SecurityWeek
SecurityWeek
5.
Google Fixes CVSS 10 Gemini CLI CI RCE and Cursor Flaws Enable Code Execution
6.
‘It took nine seconds’: Claude AI agent deletes company’s entire database - Yahoo News Canada
Yahoo News Canada
7.
CLI-Anything Exposes Security Risks in Open-Source AI Ecosystems | Welcome.AI
Welcome.AI
8.
GrafanaGhost: The Phantom Stealing Your Data - Noma Security
Noma Security
9.
Critical Anthropic’s MCP Vulnerability Enables Remote Code Execution Attacks | Cryptika Cybersecurity
Cryptika Cybersecurity
10.
Prompt Injection - The critical vulnerability lurking beneath the AI hype
11.
OpenAI Patches ChatGPT Data Exfiltration Flaw and Codex GitHub Token Vulnerability
12.
PerplexedBrowser: Perplexity’s Agent Browser Can Leak Your PC&#x27;s Local Files
Zenity Labs
13.
How Prompt Injection Attacks Compromise AI Agents in 2026
Atlan
14.
Cline CLI 2.3.0 Supply Chain Attack Installed OpenClaw on Developer Systems
15.
10K Claude Desktop Users Exposed by Zero-Click Vulnerability | eSecurity Planet
eSecurityPlanet
16.
SANDWORM_MODE: npm Supply Chain Attack Targeting AI Development Tools | Hive Pro
Hive Pro
17.
https://arxiv.org/pdf/2512.16962
18.
Second-order prompt injection can turn AI into a malicious insider | TechRadar
TechRadar
19.
On-device Apple Intelligence vulnerable to prompt injection
AppleInsider
20.
Hackers Hijacked Google’s Gemini AI With a Poisoned Calendar Invite to Take Over a Smart Home | WIRED
WIRED
21.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438
22.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
23.
https://www.securityweek.com/google-deepmind-researchers-map-web-attacks-against-ai-agents/
24.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
25.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
26.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
27.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
28.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
29.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
30.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
31.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
32.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
33.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
34.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
35.
https://openclawai.io/blog/google-deepmind-ai-agent-traps-six-attack-categories
Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Analista do setor
Ezgi possui doutorado em Administração de Empresas com especialização em finanças e atua como Analista de Mercado na AIMultiple. Ela lidera pesquisas e insights na interseção entre tecnologia e negócios, com experiência que abrange sustentabilidade, pesquisas e análise de sentimentos, aplicações de agentes de IA em finanças, otimização de mecanismos de resposta, gerenciamento de firewalls e tecnologias de compras.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450