Serviços
Contate-nos

Armadilhas de Agentes de IA: 20 Incidentes da Vida Real

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
atualizado em 18 mai. 2026

A adoção de agentes de IA superou a segurança de agentes de IA: 82% das empresas agora implantam agentes, mas apenas 44% têm políticas para protegê-los,1 e uma em cada cinco organizações já sofreu uma violação relacionada a agentes.2

Analisamos 20 incidentes de segurança do mundo real e descobrimos que o controle comportamental e armadilhas sistêmicas (não injeção de prompt) agora impulsionam a maioria das violações críticas. Mapeamos cada incidente para uma taxonomia de seis categorias (injeção de conteúdo, manipulação semântica, estado cognitivo, controle comportamental, sistêmico e humano no loop) com base em dados do CVE e pesquisas da Microsoft e do Google DeepMind.

Loading Chart

Incidentes reais de armadilhas de agentes de IA

1. Bankrbot Morse Code Crypto Heist: O ataque contrabandeia instruções através da codificação Morse, explorando a lacuna entre o que os controles de segurança do Grok inspecionam (texto simples) e o que ele decodifica e executa (a instrução traduzida). A escolha da codificação é especificamente uma contornação da camada de conteúdo: a diretiva maliciosa é invisível para os filtros até que o próprio agente a torne legível.3

2. Claude ClaudeBleed: É uma vulnerabilidade de segurança crítica dentro da extensão do navegador Anthropic Claude para Chrome, permitindo que atores maliciosos sequestram o assistente de IA, roubem dados sensíveis e realizem ações sem o consentimento do usuário.4

3. Gemini CLI RCE: Uma vulnerabilidade crítica de Execução Remota de Código (RCE), identificada como GHSA-wpqr-6v78-jr5g, teve uma pontuação máxima CVSS de 10.0. Foi descoberta no Gemini CLI e em sua Ação GitHub associada. Essa vulnerabilidade permitiu que atacantes ganhassem controle total sobre o sistema que executava a ferramenta. Isso a tornou uma ameaça crítica à segurança da cadeia de suprimentos.5

4. Antropic PocketOS: Um agente Cursor alimentado pelo Claude, ao investigar um bug de staging, descobriu autonomamente um token Railway CLI sem escopo, inferiu um API endpoint e emitiu um comando volumeDelete que destruiu o banco de dados de produção e três meses de backups em 9 segundos.6

5. Open-Source AI Ecosystem: CLI-Anything autogera arquivos de camada de instrução SKILL.md consumidos pelo Claude Code, Codex, OpenClaw, Cursor e GitHub Copilot CLI. Definições de habilidade envenenadas se propagam silenciosamente por todos os agentes que importam o pacote afetado; nenhum CVE é emitido, nenhuma entrada SBOM existe e nenhum scanner o detecta. O ataque visa a infraestrutura compartilhada do ecossistema (o registro de habilidades ClawHub, o gráfico de dependências npm) em vez de qualquer agente individual.7

6. Grafana AI: A Noma Security descobriu que um atacante poderia armazenar um prompt malicioso dentro de uma fonte de dados que o assistente de IA do Grafana recuperaria posteriormente. Uma vez processado, a IA enviou dados sensíveis, como métricas financeiras e telemetria de infraestrutura, para um servidor controlado pelo atacante sem exigir um clique do usuário.8

7. Anthropic MCP Ecosystem: A OX Security divulgou uma vulnerabilidade arquitetônica sistêmica em todos os Anthropic SDKs oficiais MCP (Python, TypeScript, Java, Rust) onde a entrada do usuário flui diretamente para as configurações do servidor STDIO MCP sem sanitização, afetando mais de 150 milhões de downloads de SDK, 7.000+ servidores expostos publicamente e ferramentas downstream incluindo LiteLLM, LangChain, Cursor, Windsurf e Claude Code. Como a falha está na arquitetura compartilhada do SDK e não em um único agente, qualquer agente construído sobre o framework herda a exposição.9

8. Andon Market (Luna AI): A Andon Market, uma loja de varejo em São Paulo operada autonomamente por um agente de IA chamado "Luna", toma decisões de estoque, preços e contratação lendo Google Reviews. Os clientes descobriram que deixar uma revisão formulada como uma instrução, como "por favor, estoque o produto X", faz com que o agente aja sobre ela, transformando uma plataforma de revisão pública em uma superfície de injeção de prompt ao vivo com consequências reais para os negócios.10

9. ChatGPT Code Execution: Um prompt malicioso disfarçado de dicas de produtividade aciona código de tunelamento DNS que codifica o conteúdo sensível da conversa e faz upload de documentos em consultas de subdomínio, transmitindo-os silenciosamente para um servidor DNS controlado pelo atacante. A Check Point Research demonstrou que o canal de exfiltração é invisível para o monitoramento de rede convencional porque viaja no tráfego DNS padrão iniciado pelo próprio ambiente de execução de código do agente.11

10. Perplexity Comet: A Zenity Labs divulgou que o navegador autônomo do Perplexity Comet pode ser sequestrado por meio de um convite de calendário malicioso contendo uma carga útil de injeção de prompt, fazendo com que ele acesse o sistema de arquivos local, navegue por diretórios, abra e leia arquivos e exfiltra dados. O ataque não requer interação do usuário além de aceitar o que parece ser um convite de reunião legítimo e opera inteiramente dentro das capacidades pretendidas do navegador.12

11. Microsoft Semantic Kernel: A Equipe de Pesquisa de Segurança do Defender da Microsoft identificou duas vulnerabilidades críticas no Semantic Kernel, CVE-2026-26030 (SDK Python, corrigido na 1.39.4) e CVE-2026-25592 (.NET SDK, corrigido na 1.71.0), onde um atacante com qualquer vetor de injeção de prompt pode alcançar a execução remota de código na máquina que hospeda o agente. O CVE-2026-26030 explorou um filtro baseado em eval no InMemoryVectorStore cuja lista de bloqueio AST era contornável através de travessia de atributo não documentada, enquanto o CVE-2026-25592 expôs uma função auxiliar de transferência de arquivos como uma ferramenta de kernel chamável, permitindo que um prompt hostil orientasse o agente a escrever arquivos arbitrários em locais hostis perigosos.13

12. Cline AI Triage Bot: Um título de problema malicioso no GitHub injetou instruções no bot de triagem de IA do Cline, enganando-o para executar npm install em um pacote typosquatted. Isso levou ao envenenamento de cache, roubo de credenciais e um lançamento backdoored cline@2.3.0 que instalou silenciosamente o malware OpenClaw em aproximadamente 4.000 máquinas de desenvolvedores.14

13. Claude Desktop Extensions: Pesquisadores de segurança da LayerX descobriram uma vulnerabilidade CVSS 10/10 nas Extensões de Desktop do Claude afetando mais de 10.000 usuários, onde um atacante pode embutir instruções maliciosas dentro de um evento de calendário que o Claude processa quando um usuário pergunta sobre sua agenda. O agente então executa automaticamente código arbitrário na máquina do usuário sem qualquer interação adicional, sem nenhuma indicação visível de que algo ocorreu.15

14. npm/MCP Ecosystem: A Socket descobriu o SANDWORM_MODE, um verme npm autorreplicante distribuído através de 19 pacotes typosquatted que instala um servidor MCP malicioso com cargas úteis de injeção de prompt embutidas nas descrições de ferramentas, permitindo que ele exfiltra credenciais de assistentes de codificação de IA. Como o verme se propaga através do registro de pacotes compartilhado, uma única infecção semeia o ataque em todos os desenvolvedores que instalam uma dependência afetada.16

15. Snowflake Cortex Code: A PromptArmor descobriu que o sistema de validação de comandos do Cortex Code falhou em avaliar comandos dentro de expressões de substituição de processo, permitindo que uma injeção de prompt maliciosa escondida em um README de repositório do GitHub executasse comandos de shell arbitrários sem nunca acionar a etapa de aprovação humano-no-loop. A instrução injetada também manipulou o modelo a definir uma flag de execução sem sandbox, fazendo com que o comando malicioso fosse executado inteiramente fora do sandbox sem solicitar o consentimento do usuário.

16. MetaGPT / LangChain Agents: O MemoryGraft é um novo ataque de injeção indireta que compromete o comportamento do agente não através de jailbreaks imediatos, mas ao implantar "experiências bem-sucedidas" maliciosas na memória de longo prazo do agente, explorando sua tendência a replicar padrões de tarefas bem-sucedidas recuperadas. Diferente das injeções de prompt tradicionais, que são transitórias, ou do envenenamento padrão de RAG, que visa conhecimento factual, o MemoryGraft corrompe todas as sessões futuras sem qualquer injeção no nível da sessão, exigindo que um atacante forneça apenas artefatos no nível de ingestão que pareçam benignos que o agente lê durante a execução normal.17

17. ServiceNow Now Assist: No Now Assist da ServiceNow, as configurações padrão permitem que agentes de IA descubram e recrutem uns aos outros autonomamente; um prompt malicioso embutido em dados processados por um agente de baixa privilégio pode instruí-lo a chamar um agente mais poderoso para roubar dados, modificar registros ou escalar privilégios. O resultado foi a escalada de privilégios e exposição de dados impulsionados inteiramente pela confiança entre agentes.18

18. Apple Intelligence: Caracteres maliciosos Unicode RIGHT-TO-LEFT OVERRIDE escondem instruções prejudiciais escrevendo-as ao contrário, para que sejam renderizadas corretamente na tela, mas permaneçam invertidas onde os filtros de segurança da Apple as inspecionam, contornando todas as três camadas de controles de segurança no dispositivo. A técnica teve sucesso em 76% dos casos de teste em aproximadamente 200 milhões de dispositivos afetados.19

19. Google Gemini (Calendar): Instruções ocultas embutidas nas descrições de eventos de calendário permanecem adormecidas no contexto do Gemini até que um usuário pergunte sobre sua agenda, momento em que a carga útil ativa, resumindo o conteúdo de reuniões privadas e escrevendo-as em um novo evento de calendário visível para o atacante. O ataque explora a integração do Gemini com dados de calendário, transformando dados pessoais estruturados em uma superfície de gatilho sem exigir que a vítima clique em nada.20

20. Microsoft 365 Copilot: O EchoLeak (CVE-2025-32711), descoberto pela Aim Security, é o primeiro caso conhecido de injeção de prompt weaponizada para causar exfiltração de dados concreta em um sistema de IA de produção. É um único e-mail forjado que coage o Copilot a acessar arquivos internos e transmitir seu conteúdo para um servidor controlado pelo atacante sem qualquer interação do usuário. O ataque encadeia quatro contornações: evadindo o classificador XPIA da Microsoft, contornando a redação de links com Markdown estilo referência, explorando imagens autobuscadas e abusando de um proxy do Microsoft Teams permitido pela política de segurança de conteúdo.

O que são armadilhas de agentes de IA?

Armadilhas de agentes de IA são conteúdo adversarial embutido em ambientes digitais e projetado para manipular, enganar ou explorar agentes de IA autônomos que interagem com esses ambientes.21

A ideia central é que agentes autônomos processam conteúdo da web em camadas que os humanos não percebem. Os atacantes podem embutir instruções maliciosas em comentários HTML, texto posicionado por CSS ou com opacidade zero, atributos de metadados e dados esteganográficos codificados em arquivos de imagem.22 Nenhuma dessas camadas é ordinariamente visível para um revisor humano; um agente analisando a mesma página trata o conteúdo encontrado nelas como entrada igualmente válida para o conteúdo renderizado visivelmente na tela. Os pesquisadores do Google DeepMind notam isso como uma assimetria fundamental: os atacantes podem calibrar ataques para explorar a capacidade de seguir instruções, encadear ferramentas e priorizar objetivos de um agente precisamente porque essas são as capacidades que tornam os agentes operacionalmente úteis.23

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.
GoogleAdicionar como fonte preferencial

Seis categorias de ataque de armadilhas de agentes de IA

Pesquisadores identificaram 6 categorias de armadilhas de agentes de IA que adversários podem explorar para comprometer sistemas autônomos:

Armadilhas de injeção de conteúdo

Exploram a lacuna entre a percepção humana, a análise de máquina e a renderização dinâmica para contrabandear entradas maliciosas para além do agente.

A superfície de ataque cobre vários vetores de injeção distintos. Instruções ocultas embutidas em comentários HTML, como `<!– SYSTEM: Ignore prior instructions –>`, aparecem no código-fonte da página, mas nunca na visualização renderizada.24 Posicionamento fora da tela via CSS, usando `position: absolute; left: -9999px` ou equivalente, coloca texto em coordenadas fora de qualquer viewport, deixando-o totalmente analisável por agentes que processam conteúdo de modelo de objeto de documento. Atributos de acessibilidade, especificamente `aria-label` e marcação ARIA relacionada, carregam texto que os agentes interpretam como contexto semântico; injetar diretivas adversárias lá as coloca dentro da árvore de acessibilidade sem qualquer saída visível.25 Um quarto vetor usa codificação esteganográfica: cargas úteis maliciosas codificadas em dados de pixels de imagem em valores imperceptíveis à visão humana, mas legíveis por agentes que processam metadados de imagem ou aplicam análise no nível de pixels.26

Armadilhas de manipulação semântica

Corrompem a cadeia de raciocínio do agente e seus processos de verificação interna, levando-o a tirar conclusões falhas de entradas aparentemente válidas.

Três mecanismos impulsionam esta categoria. O primeiro é formulação tendenciosa e priming contextual: carregar o texto circundante com linguagem que ancora a interpretação do agente do conteúdo processado posteriormente. O segundo é saturação de linguagem autoritária, inundando documentos com frases como "padrão da indústria", "nível empresarial" ou "recomendado por principais praticantes" para explorar a associação aprendida pelo modelo entre tal linguagem e fontes credíveis e confiáveis.27 O terceiro mecanismo é o efeito perdido no meio, uma fraqueza estrutural em LLMs baseados em transformadores onde o desempenho do modelo em tarefas de recuperação e síntese degrada quando informações relevantes estão posicionadas no meio de uma longa janela de contexto em vez de no início ou no final.28

Armadilhas de estado cognitivo

Visam a memória de longo prazo do agente, bases de conhecimento e políticas comportamentais aprendidas para envenenar a tomada de decisão futura.

As três variantes principais são envenenamento direto de RAG, envenenamento de memória latente e exemplos poucos-shot adversários no aprendizado contextual.29

O envenenamento direto de RAG injeta informações falsas em corpora de documentos indexados que os agentes consultam durante a geração aumentada por recuperação. A memória envenenada é mais avançada. Um atacante armazena dados que parecem inofensivos na memória persistente de um agente durante interações rotineiras. Os dados armazenados não produzem nenhum efeito detectável até que um contexto futuro específico o ative, momento em que modifica o comportamento do agente de maneiras que parecem não ter gatilho causal recente.30 Poucos-shot adversários é injetar pares de demonstração cuidadosamente elaborados em uma janela de contexto para que o agente adote o padrão implícito nesses exemplos. Pesquisas sobre gatilhos de backdoor em demonstrações encontraram taxas médias de sucesso de ataque de 95 por cento em modelos de escala variável sob essa abordagem.31

Armadilhas de controle comportamental

As armadilhas de controle comportamental são a categoria mais consequencial operacionalmente na taxonomia. Elas visam o que os agentes fazem em vez do que percebem ou concluem, dando aos atacantes influência direta sobre a execução de ferramentas, operações de arquivo, solicitações de rede e comunicações entre agentes.32

Armadilhas sistêmicas

Armadilhas sistêmicas não visam agentes individuais. Elas visam as propriedades do ecossistema que emergem quando muitos agentes de design semelhante operam em fontes de dados compartilhadas, executam padrões de raciocínio semelhantes e tomam ações que alimentam de volta para o ambiente que outros agentes leem.33

A categoria mais ampla abrange três mecanismos distintos. O primeiro é o design de armadilha de congestionamento: fabricar sinais de escassez ou demanda que causam que múltiplos agentes executem comportamentos sincronizados de aquisição de recursos, criando falhas coordenadas sem comunicação direta entre agentes. O segundo é a cascata de interdependência: explorar loops de feedback em sistemas multiagente onde a saída de cada agente se torna entrada para outros, de modo que um único sinal corrompido se propaga e amplifica através da rede. O terceiro é a fragmentação de carga útil composicional: distribuir componentes de ataque através de múltiplas fontes individualmente benignas que se reconstituem em uma carga útil maliciosa funcional apenas quando agregadas por um agente durante uma tarefa de recuperação ou síntese.34

Armadilhas humano-no-loop

Armadilhas humano-no-loop são a categoria mais sutil na taxonomia e visam a camada de supervisão que é convencionalmente tratada como uma salvaguarda. Em vez de contornar a revisão humana, essas armadilhas a exploram: o agente comprometido produz saídas especificamente projetadas para ganhar aprovação humana para ações que o humano rejeitaria se descritas com precisão.35

O mecanismo central é o resumo enganoso. Um agente com acesso de gravação à sua própria camada de saída pode descrever suas ações de uma maneira que enquadre operações destrutivas ou não autorizadas como manutenção rotineira.

Cite esta pesquisa

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Ezgi Arslan, PhD. (2026) - "Armadilhas de Agentes de IA: 20 Incidentes da Vida Real". Publicado on-line em AIMultiple.com. Acessado em Maio 18, 2026, em: https://aimultiple.com/ai-agent-traps [Recurso on-line]

PhD., E. A. (2026, Maio 18). Armadilhas de Agentes de IA: 20 Incidentes da Vida Real. AIMultiple. https://aimultiple.com/ai-agent-traps

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Armadilhas de Agentes de IA: 20 Incidentes da Vida Real}},
  year   = {2026},
  month  = may,
  howpublished    = {\url{https://aimultiple.com/ai-agent-traps}},
  note   = {AIMultiple. Retrieved Maio 18, 2026}
}

Links de referência

1.
SailPoint research highlights rapid AI agent adoption, driving urgent need for evolved security
2.
The State of AI Agent Security: 73% of CISOs fear AI agent risks but only 30% are ready
Cision PR Newswire
3.
The Grok Morse Code Heist: When Prompt Injection Meets Excessive Agency | NeuralTrust
NeuralTrust
4.
Vulnerability in Claude Extension for Chrome Exposes AI Agent to Takeover - SecurityWeek
SecurityWeek
5.
Google Fixes CVSS 10 Gemini CLI CI RCE and Cursor Flaws Enable Code Execution
6.
‘It took nine seconds’: Claude AI agent deletes company’s entire database - Yahoo News Canada
Yahoo News Canada
7.
CLI-Anything Exposes Security Risks in Open-Source AI Ecosystems | Welcome.AI
Welcome.AI
8.
GrafanaGhost: The Phantom Stealing Your Data - Noma Security
Noma Security
9.
Critical Anthropic’s MCP Vulnerability Enables Remote Code Execution Attacks | Cryptika Cybersecurity
Cryptika Cybersecurity
10.
Prompt Injection - The critical vulnerability lurking beneath the AI hype
11.
OpenAI Patches ChatGPT Data Exfiltration Flaw and Codex GitHub Token Vulnerability
12.
PerplexedBrowser: Perplexity’s Agent Browser Can Leak Your PC&#x27;s Local Files
Zenity Labs
13.
How Prompt Injection Attacks Compromise AI Agents in 2026
Atlan
14.
Cline CLI 2.3.0 Supply Chain Attack Installed OpenClaw on Developer Systems
15.
10K Claude Desktop Users Exposed by Zero-Click Vulnerability | eSecurity Planet
eSecurityPlanet
16.
SANDWORM_MODE: npm Supply Chain Attack Targeting AI Development Tools | Hive Pro
Hive Pro
17.
https://arxiv.org/pdf/2512.16962
18.
Second-order prompt injection can turn AI into a malicious insider | TechRadar
TechRadar
19.
On-device Apple Intelligence vulnerable to prompt injection
AppleInsider
20.
Hackers Hijacked Google’s Gemini AI With a Poisoned Calendar Invite to Take Over a Smart Home | WIRED
WIRED
21.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438
22.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
23.
https://www.securityweek.com/google-deepmind-researchers-map-web-attacks-against-ai-agents/
24.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
25.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
26.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
27.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
28.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
29.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
30.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
31.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
32.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
33.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
34.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
35.
https://openclawai.io/blog/google-deepmind-ai-agent-traps-six-attack-categories
Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Analista do setor
Ezgi possui doutorado em Administração de Empresas com especialização em finanças e atua como Analista de Mercado na AIMultiple. Ela lidera pesquisas e insights na interseção entre tecnologia e negócios, com experiência que abrange sustentabilidade, pesquisas e análise de sentimentos, aplicações de agentes de IA em finanças, otimização de mecanismos de resposta, gerenciamento de firewalls e tecnologias de compras.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios. Os comentários são deixados em seu idioma original.

0/450