Análisis

Trampas de Agentes de IA: 20 Incidentes de la Vida Real

actualizado el 18 de may. de 2026

La adopción de agentes de IA ha superado a la seguridad de los agentes de IA: el 82% de las empresas ahora despliegan agentes, pero solo el 44% tiene políticas para asegurarlos,¹ y una de cada cinco organizaciones ya ha experimentado una violación relacionada con agentes.²

Analizamos 20 incidentes de seguridad del mundo real y descubrimos que el control de comportamiento y las trampas sistémicas (no la inyección de prompts) ahora impulsan la mayoría de las violaciones críticas. Mapeamos cada incidente a una taxonomía de seis categorías (inyección de contenido, manipulación semántica, estado cognitivo, control de comportamiento, sistémica y humano en el bucle) basada en datos de CVE e investigaciones de Microsoft y Google DeepMind.

Loading Chart

Incidentes reales de trampas de agentes de IA

Agente	Tipo de trampa	Fecha de divulgación
Bankrbot	Inyección de contenido	Mayo 2026
PocketOS	Control de comportamiento	Abr 2026
Grafana AI	Inyección de contenido	Abr 2026
Anthropic MCP Ecosystem	Sistémica	Abr 2026
Luna AI	Inyección de contenido	Abr 2026
Claude ClaudeBleed	Control de comportamiento	Mar 2026
Open-Source AI Ecosystem	Sistémica	Mar 2026
Gemini CLI RCE	Control de comportamiento	Mar 2026
ChatGPT Code Execution	Control de comportamiento	Mar 2026
Perplexity Comet	Control de comportamiento	Mar 2026

1. Bankrbot Morse Code Crypto Heist: El ataque contrabandea instrucciones a través de la codificación Morse, explotando la brecha entre lo que los controles de Grok inspeccionan (texto plano) y lo que decodifica y actúa (la instrucción traducida). La elección de la codificación es específicamente una evasión de la capa de contenido: la directiva maliciosa es invisible para los filtros hasta que el agente mismo la hace legible.³

2. Claude ClaudeBleed: Es una vulnerabilidad de seguridad crítica dentro de la extensión del navegador Anthropic Claude para Chrome, que permite a actores maliciosos secuestrar al asistente de IA, robar datos sensibles y realizar acciones sin el consentimiento del usuario.⁴

3. Gemini CLI RCE: Una vulnerabilidad crítica de Ejecución Remota de Código (RCE), identificada como GHSA-wpqr-6v78-jr5g, tuvo una puntuación máxima de CVSS de 10.0. Se descubrió en el CLI de Gemini y su acción de GitHub asociada. Esta vulnerabilidad permitió a los atacantes obtener el control total sobre el sistema que ejecuta la herramienta. Esto la convirtió en una amenaza crítica para la seguridad de la cadena de suministro.⁵

4. Antropic PocketOS: Un agente Cursor impulsado por Claude, mientras investigaba un error de staging, descubrió autónomamente un token de Railway CLI sin alcance, inferió un API endpoint y emitió un comando volumeDelete que destruyó la base de datos de producción y tres meses de copias de seguridad en 9 segundos.⁶

5. Open-Source AI Ecosystem: CLI-Anything genera automáticamente archivos de capa de instrucción SKILL.md consumidos por Claude Code, Codex, OpenClaw, Cursor y GitHub Copilot CLI. Las definiciones de habilidades envenenadas se propagan silenciosamente a través de cada agente que importa el paquete afectado; no se emite ningún CVE, no existe ninguna entrada SBOM y ningún escáner lo detecta. El ataque apunta a la infraestructura compartida del ecosistema (el registro de habilidades ClawHub, el gráfico de dependencias de npm) en lugar de a cualquier agente individual.⁷

6. Grafana AI: Noma Security descubrió que un atacante podía almacenar un prompt malicioso dentro de una fuente de datos que el asistente de IA de Grafana recuperaba más tarde. Una vez procesado, la IA enviaba datos sensibles, como métricas financieras y telemetría de infraestructura, a un servidor controlado por el atacante sin requerir un clic del usuario.⁸

7. Anthropic MCP Ecosystem: OX Security reveló una vulnerabilidad arquitectónica sistémica en los SDK oficiales de Anthropic MCP (Python, TypeScript, Java, Rust) donde la entrada del usuario fluye directamente a las configuraciones del servidor STDIO MCP sin sanitización, afectando a más de 150 millones de descargas de SDK, más de 7.000 servidores expuestos públicamente y herramientas posteriores como LiteLLM, LangChain, Cursor, Windsurf y Claude Code. Dado que el defecto está en la arquitectura compartida del SDK y no en ningún agente individual, cualquier agente construido sobre el framework hereda la exposición.⁹

8. Andon Market (Luna AI): Andon Market, una tienda minorista de San Francisco gestionada autónomamente por un agente de IA llamado "Luna", toma decisiones de inventario, precios y contratación leyendo Google Reviews. Los clientes descubrieron que dejar una reseña redactada como una instrucción, como "por favor, stockea el producto X", hace que el agente actúe sobre ella, convirtiendo una plataforma de reseñas pública en una superficie de inyección de prompts en vivo con consecuencias comerciales reales.¹⁰

9. ChatGPT Code Execution: Un prompt malicioso disfrazado de consejos de productividad desencadena código de túnel DNS que codifica el contenido sensible de la conversación y carga documentos en consultas de subdominios, transmitiéndolos silenciosamente a un servidor DNS controlado por el atacante. Check Point Research demostró que el canal de exfiltración es invisible para el monitoreo de red convencional porque viaja sobre el tráfico DNS estándar iniciado por el entorno de ejecución de código del propio agente.¹¹

Muestra cómo una trampa de agente de IA, causada por OpenAI Codex, afecta a los usuarios

10. Perplexity Comet: Zenity Labs reveló que el navegador agéntico de Perplexity Comet puede ser secuestrado a través de una invitación de calendario maliciosa que contiene una carga útil de inyección de prompts, lo que le permite acceder al sistema de archivos local, navegar por directorios, abrir y leer archivos y exfiltrar datos. El ataque no requiere ninguna interacción del usuario más allá de aceptar lo que parece ser una invitación de reunión legítima, y opera completamente dentro de las capacidades previstas del navegador.¹²

11. Microsoft Semantic Kernel: El equipo de investigación de seguridad de Defender de Microsoft identificó dos vulnerabilidades críticas en Semantic Kernel, CVE-2026-26030 (SDK de Python, parcheado en 1.39.4) y CVE-2026-25592 (SDK de .NET, parcheado en 1.71.0), donde un atacante con cualquier vector de inyección de prompts puede lograr la ejecución remota de código en la máquina que aloja el agente. CVE-2026-26030 explotó un filtro basado en eval en InMemoryVectorStore cuya lista de bloqueo AST era evadible a través de la navegación de atributos no documentada, mientras que CVE-2026-25592 expuso una función auxiliar de transferencia de archivos como una herramienta de kernel llamable, permitiendo que un prompt hostil dirija al agente a escribir archivos arbitrarios en ubicaciones hostiles peligrosas.¹³

12. Cline AI Triage Bot: Un título de problema de GitHub malicioso inyectó instrucciones en el bot de triaje de IA de Cline, engañándolo para que ejecutara npm install en un paquete con tipografía engañosa. Esto llevó al envenenamiento de la caché, al robo de credenciales y a una versión backdooreada de cline@2.3.0 que instaló silenciosamente el malware OpenClaw en aproximadamente 4.000 máquinas de desarrolladores.¹⁴

13. Claude Desktop Extensions: Los investigadores de seguridad de LayerX descubrieron una vulnerabilidad CVSS 10/10 en las Extensiones de Escritorio de Claude que afectó a más de 10.000 usuarios, donde un atacante puede incrustar instrucciones maliciosas dentro de un evento de calendario que Claude procesa cuando un usuario pregunta sobre su horario. El agente luego ejecuta automáticamente código arbitrario en la máquina del usuario sin ninguna interacción adicional, sin ninguna indicación visible de que algo haya ocurrido.¹⁵

14. npm/MCP Ecosystem: Socket descubrió SANDWORM_MODE, un gusano de npm autorreplicante distribuido a través de 19 paquetes con tipografía engañosa que instala un servidor MCP rogue con cargas útiles de inyección de prompts incrustadas en las descripciones de las herramientas, permitiéndole exfiltrar credenciales de asistentes de codificación de IA. Dado que el gusano se propaga a través del registro de paquetes compartido, una sola infección siembra el ataque en cada desarrollador que instala una dependencia afectada.¹⁶

15. Snowflake Cortex Code: PromptArmor descubrió que el sistema de validación de comandos de Cortex Code no evaluó los comandos dentro de las expresiones de sustitución de procesos, permitiendo que una inyección de prompt maliciosa oculta en un README de repositorio de GitHub ejecutara comandos de shell arbitrarios sin nunca desencadenar el paso de aprobación de humano en el bucle. La instrucción inyectada también manipuló al modelo para establecer una bandera de ejecución sin sandbox, haciendo que el comando malicioso se ejecutara completamente fuera del sandbox sin solicitar el consentimiento del usuario.

16. MetaGPT / LangChain Agents: MemoryGraft es un nuevo ataque de inyección indirecta que compromete el comportamiento del agente no a través de jailbreaks inmediatos, sino implantando "experiencias exitosas" maliciosas en la memoria a largo plazo del agente, explotando su tendencia a replicar patrones de tareas exitosas recuperadas. A diferencia de las inyecciones de prompts tradicionales, que son transitorias, o el envenenamiento estándar de RAG, que apunta al conocimiento fáctico, MemoryGraft corrompe todas las sesiones futuras sin ninguna inyección a nivel de sesión, requiriendo que un atacante proporcione solo artefactos de nivel de ingestión que parecen benignos que el agente lee durante la ejecución normal.¹⁷

Vista general de los ataques MemoryGraph, como una trampa de agente de IA

17. ServiceNow Now Assist: En Now Assist de ServiceNow, la configuración predeterminada permite que los agentes de IA se descubran y recluten entre sí de forma autónoma; un prompt malicioso incrustado en los datos procesados por un agente de baja privilegio puede instruirlo a llamar a un agente más poderoso para robar datos, modificar registros o escalar privilegios. El resultado fue una escalada de privilegios y exposición de datos impulsada enteramente por la confianza entre agentes.¹⁸

18. Apple Intelligence: Los caracteres maliciosos de Unicode RIGHT-TO-LEFT OVERRIDE ocultan instrucciones dañinas escribiéndolas al revés, por lo que se renderizan correctamente en la pantalla pero permanecen invertidas donde los filtros de seguridad de Apple las inspeccionan, eludiendo las tres capas de controles en el dispositivo. La técnica tuvo éxito en el 76% de los casos de prueba en aproximadamente 200 millones de dispositivos afectados.¹⁹

19. Google Gemini (Calendar): Las instrucciones ocultas incrustadas en las descripciones de eventos de calendario permanecen latentes en el contexto de Gemini hasta que un usuario pregunta sobre su horario, momento en el que la carga útil se activa, resumiendo el contenido de reuniones privadas y escribiéndolas en un nuevo evento de calendario visible para el atacante. El ataque explota la integración de Gemini con los datos del calendario, convirtiendo los datos personales estructurados en una superficie de activación sin requerir que la víctima haga clic en nada.²⁰

20. Microsoft 365 Copilot: EchoLeak (CVE-2025-32711), descubierto por Aim Security, es el primer caso conocido de inyección de prompts weaponizada para causar exfiltración de datos concreta en un sistema de IA de producción. Es un solo correo electrónico forzado que coacciona a Copilot para que acceda a archivos internos y transmita su contenido a un servidor controlado por el atacante sin ninguna interacción del usuario. El ataque encadena cuatro elusiones: evadir el clasificador XPIA de Microsoft, eludir la redacción de enlaces con Markdown de estilo de referencia, explotar imágenes obtenidas automáticamente y abusar de un proxy de Microsoft Teams permitido por la política de seguridad de contenido.

Exfiltración sin clics a través de EchoLeak, una trampa de agente de IA

¿Qué son las trampas de agentes de IA?

Las trampas de agentes de IA son contenido adversario incrustado en entornos digitales y diseñado para manipular, engañar o explotar agentes de IA autónomos que interactúan con esos entornos.²¹

La idea central es que los agentes autónomos procesan el contenido web en capas que los humanos no perciben. Los atacantes pueden incrustar instrucciones maliciosas en comentarios HTML, texto posicionado por CSS o de opacidad cero, atributos de metadatos y datos esteganográficos codificados en archivos de imagen.²² Ninguna de estas capas es ordinariamente visible para un revisor humano; un agente que analiza la misma página trata el contenido encontrado en ellas como entrada igualmente válida al contenido renderizado visible en la pantalla. Los investigadores de Google DeepMind notan esto como una asimetría fundamental: los atacantes pueden calibrar ataques para explotar las capacidades de seguimiento de instrucciones, encadenamiento de herramientas y priorización de objetivos de un agente precisamente porque esas son las capacidades que hacen que los agentes sean operativamente útiles.²³

article.automate_process_description

article.automate_process_button

Seis categorías de ataque de trampas de agentes de IA

Los investigadores han identificado 6 categorías de trampas de agentes de IA que los adversarios pueden explotar para comprometer sistemas autónomos:

Trampas de inyección de contenido

Explotan la brecha entre la percepción humana, el análisis de máquinas y el renderizado dinámico para contrabandear entradas maliciosas más allá del agente.

La superficie de ataque cubre varios vectores de inyección distintos. Las instrucciones ocultas incrustadas en comentarios HTML, como `<!– SYSTEM: Ignore prior instructions –>`, aparecen en el código fuente de la página pero nunca en la vista renderizada.²⁴ El posicionamiento fuera de pantalla con CSS, usando `position: absolute; left: -9999px` o equivalente, coloca texto en coordenadas fuera de cualquier ventana de visualización mientras lo deja completamente analizable por agentes que procesan contenido del modelo de objeto de documento. Los atributos de accesibilidad, específicamente `aria-label` y el marcado ARIA relacionado, llevan texto que los agentes interpretan como contexto semántico; inyectar directivas adversarias allí las coloca dentro del árbol de accesibilidad sin ninguna salida visible.²⁵ Un cuarto vector usa codificación esteganográfica: cargas útiles maliciosas codificadas en datos de píxeles de imagen en valores imperceptibles para la visión humana pero legibles por agentes que procesan metadatos de imagen o aplican análisis a nivel de píxel.²⁶

Trampas de manipulación semántica

Corrompen la cadena de razonamiento del agente y sus procesos de verificación interna, llevándolo a sacar conclusiones defectuosas de entradas aparentemente válidas.

Tres mecanismos impulsan esta categoría. El primero es el lenguaje sesgado y el condicionamiento contextual: cargar el texto circundante con lenguaje que ancla la interpretación del agente del contenido procesado posteriormente. El segundo es la saturación de lenguaje autoritario, inundando documentos con frases como "estándar de la industria", "nivel empresarial" o "recomendado por practicantes líderes" para explotar la asociación aprendida del modelo entre dicho lenguaje y fuentes creíbles y confiables.²⁷ El tercer mecanismo es el efecto perdido en el medio, una debilidad estructural en LLMs basados en transformadores donde el rendimiento del modelo en tareas de recuperación y síntesis se degrada cuando la información relevante está posicionada en el medio de una ventana de contexto larga en lugar de al principio o al final.²⁸

Trampas de estado cognitivo

Apuntan a la memoria a largo plazo del agente, las bases de conocimiento y las políticas de comportamiento aprendidas para envenenar la toma de decisiones futura.

Las tres variantes principales son el envenenamiento directo de RAG, el envenenamiento de memoria latente y los ejemplos pocos-shot adversarios en el aprendizaje contextual.²⁹

El envenenamiento directo de RAG inyecta información falsa en los corpus de documentos indexados que los agentes consultan durante la generación aumentada por recuperación. La memoria envenenada es más avanzada. Un atacante almacena datos que parecen inofensivos en la memoria persistente de un agente durante interacciones rutinarias. Los datos almacenados no producen ningún efecto detectable hasta que un contexto futuro específico lo activa, momento en el que modifica el comportamiento del agente de maneras que parecen no tener ningún desencadenante causal reciente.³⁰ Los pocos-shot adversarios consisten en inyectar pares de demostración cuidadosamente elaborados en una ventana de contexto para que el agente adopte el patrón implícito en esos ejemplos. La investigación sobre desencadenantes de puerta trasera en demostraciones encontró tasas de éxito promedio de ataque del 95 por ciento en modelos de escala variable bajo este enfoque.³¹

Trampas de control de comportamiento

Las trampas de control de comportamiento son la categoría más operacionalmente consecuente en la taxonomía. Apuntan a lo que hacen los agentes en lugar de lo que perciben o concluyen, dando a los atacantes influencia directa sobre la ejecución de herramientas, operaciones de archivos, solicitudes de red y comunicaciones entre agentes.³²

Trampas sistémicas

Las trampas sistémicas no apuntan a agentes individuales. Apuntan a las propiedades del ecosistema que emergen cuando muchos agentes de diseño similar operan en fuentes de datos compartidas, ejecutan patrones de razonamiento similares y toman acciones que retroalimentan el entorno que otros agentes leen.³³

La categoría más amplia abarca tres mecanismos distintos. El primero es el diseño de trampas de congestión: fabricar señales de escasez o demanda que hacen que múltiples agentes ejecuten comportamientos sincronizados de adquisición de recursos, creando fallos coordinados sin comunicación directa entre agentes. El segundo es la cascada de interdependencia: explotar bucles de retroalimentación en sistemas multiagente donde la salida de cada agente se convierte en entrada para otros, por lo que una sola señal corrupta se propaga y amplifica a través de la red. El tercero es la fragmentación de carga útil composicional: distribuir componentes de ataque a través de múltiples fuentes individualmente benignas que se reconstituyen en una carga útil maliciosa funcional solo cuando se agregan por un agente durante una tarea de recuperación o síntesis.³⁴

Trampas de humano en el bucle

Las trampas de humano en el bucle son la categoría más sutil en la taxonomía y apuntan a la capa de supervisión que convencionalmente se trata como una salvaguarda. En lugar de eludir la revisión humana, estas trampas la explotan: el agente comprometido produce salidas diseñadas específicamente para ganar la aprobación humana para acciones que el humano rechazaría si se describieran con precisión.³⁵

El mecanismo central es el resumen engañoso. Un agente con acceso de escritura a su propia capa de salida puede describir sus acciones de una manera que enmarca operaciones destructivas o no autorizadas como mantenimiento rutinario.

Cita esta investigación

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Ezgi Arslan, PhD. (2026) - "Trampas de Agentes de IA: 20 Incidentes de la Vida Real". Publicado en línea en AIMultiple.com. Recuperado el 18 de Mayo de 2026, de: https://aimultiple.com/ai-agent-traps [Recurso en línea]

PhD., E. A. (2026, 18 de Mayo). Trampas de Agentes de IA: 20 Incidentes de la Vida Real. AIMultiple. https://aimultiple.com/ai-agent-traps

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Trampas de Agentes de IA: 20 Incidentes de la Vida Real}},
  year   = {2026},
  month  = may,
  howpublished    = {\url{https://aimultiple.com/ai-agent-traps}},
  note   = {AIMultiple. Recuperado el 18 de Mayo de 2026}
}

Enlaces de referencia

SailPoint research highlights rapid AI agent adoption, driving urgent need for evolved security

The State of AI Agent Security: 73% of CISOs fear AI agent risks but only 30% are ready

Cision PR Newswire

The Grok Morse Code Heist: When Prompt Injection Meets Excessive Agency | NeuralTrust

NeuralTrust

Vulnerability in Claude Extension for Chrome Exposes AI Agent to Takeover - SecurityWeek

SecurityWeek

Google Fixes CVSS 10 Gemini CLI CI RCE and Cursor Flaws Enable Code Execution

‘It took nine seconds’: Claude AI agent deletes company’s entire database - Yahoo News Canada

The Independent

CLI-Anything Exposes Security Risks in Open-Source AI Ecosystems | Welcome.AI

Welcome.AI

GrafanaGhost: The Phantom Stealing Your Data - Noma Security

Noma Security

Critical Anthropic’s MCP Vulnerability Enables Remote Code Execution Attacks | Cryptika Cybersecurity

Cryptika Cybersecurity

10.

Prompt Injection - The critical vulnerability lurking beneath the AI hype

11.

OpenAI Patches ChatGPT Data Exfiltration Flaw and Codex GitHub Token Vulnerability

12.

PerplexedBrowser: Perplexity’s Agent Browser Can Leak Your PC's Local Files

Zenity Labs

13.

How Prompt Injection Attacks Compromise AI Agents in 2026

Atlan

14.

Cline CLI 2.3.0 Supply Chain Attack Installed OpenClaw on Developer Systems

15.

10K Claude Desktop Users Exposed by Zero-Click Vulnerability | eSecurity Planet

eSecurityPlanet

16.

SANDWORM_MODE: npm Supply Chain Attack Targeting AI Development Tools | Hive Pro

Hive Pro

17.

https://arxiv.org/pdf/2512.16962

18.

Second-order prompt injection can turn AI into a malicious insider | TechRadar

TechRadar

19.

On-device Apple Intelligence vulnerable to prompt injection

AppleInsider

20.

Hackers Hijacked Google’s Gemini AI With a Poisoned Calendar Invite to Take Over a Smart Home | WIRED

WIRED

21.

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438

22.

https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/

23.

https://www.securityweek.com/google-deepmind-researchers-map-web-attacks-against-ai-agents/

24.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

25.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

26.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

27.

https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/

28.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

29.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

30.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

31.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

32.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

33.

https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/

34.

https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/

35.

https://openclawai.io/blog/google-deepmind-ai-agent-traps-six-attack-categories

Ezgi Arslan, PhD.

Analista de la industria

Ezgi es doctora en Administración de Empresas con especialización en finanzas y trabaja como analista de la industria en AIMultiple. Impulsa la investigación y el análisis en la intersección de la tecnología y los negocios, con experiencia en sostenibilidad, análisis de encuestas y sentimientos, aplicaciones de agentes de IA en finanzas, optimización de motores de búsqueda, gestión de cortafuegos y tecnologías de adquisiciones.

Ver perfil completo