Servicios
Contáctanos
No se encontraron resultados.

Trampas de agentes de IA: 20 incidentes de la vida real

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
actualizado el May 18, 2026

La adopción de agentes de IA ha superado la seguridad de los agentes de IA: el 82% de las empresas implementan agentes, pero solo el 44% tienen políticas para protegerlos. 1 de cada cinco organizaciones ya ha sufrido una brecha de seguridad relacionada con sus agentes. 2

Analizamos 20 incidentes de seguridad reales y descubrimos que el control del comportamiento y las trampas sistémicas (no la inyección inmediata) son ahora la causa principal de las brechas críticas. Asignamos cada incidente a una taxonomía de seis categorías (inyección de contenido, manipulación semántica, estado cognitivo, control del comportamiento, sistémica y con intervención humana) basada en datos de CVE e investigaciones de DeepMind (Microsoft y Google).

Loading Chart

Incidentes reales de trampas para agentes de IA

1. Robo criptográfico mediante código Morse de Bankrbot: El ataque introduce instrucciones mediante codificación Morse, aprovechando la discrepancia entre lo que los mecanismos de seguridad de Grok inspeccionan (texto plano) y lo que decodifica y procesa (la instrucción traducida). La elección de la codificación permite eludir la capa de contenido: la directiva maliciosa es invisible para los filtros hasta que el propio agente la hace legible. 3

2. Claude ClaudeBleed: Es una vulnerabilidad de seguridad crítica dentro de la extensión del navegador Claude para Chrome Anthropic, que permite a actores maliciosos secuestrar el asistente de IA, robar datos confidenciales y realizar acciones sin el consentimiento del usuario. 4

3. Vulnerabilidad de ejecución remota de código (RCE) en la CLI (Gemini): Se identificó una vulnerabilidad crítica de ejecución remota de código (RCE, por sus siglas en inglés), denominada GHSA-wpqr-6v78-jr5g, con una puntuación CVSS máxima de 10.0. Esta vulnerabilidad se descubrió en la CLI (Gemini) y su acción de GitHub asociada. Permitía a los atacantes obtener el control total del sistema que ejecutaba la herramienta, lo que la convertía en una grave amenaza para la seguridad de la cadena de suministro. 5

4. Antropic PocketOS: Un agente Cursor, impulsado por Claude, mientras investigaba un error en el entorno de pruebas, descubrió de forma autónoma un token de la CLI de Railway sin alcance, dedujo un punto final de la API y emitió un comando volumeDelete que destruyó la base de datos de producción y tres meses de copias de seguridad en 9 segundos. 6

5. Ecosistema de IA de código abierto: CLI-Anything genera automáticamente archivos de capa de instrucciones SKILL.md que son utilizados por Claude Code, Codex, OpenClaw, Cursor y GitHub Copilot CLI. Las definiciones de habilidades infectadas se propagan silenciosamente a través de todos los agentes que importan el paquete afectado; no se emite ninguna CVE, no existe ninguna entrada en SBOM y ningún escáner lo detecta. El ataque se dirige a la infraestructura compartida del ecosistema (el registro de habilidades de ClawHub, el gráfico de dependencias de npm) en lugar de a cualquier agente individual. 7

6. IA de Grafana: Noma Security descubrió que un atacante podía almacenar un mensaje malicioso dentro de una fuente de datos que el asistente de IA de Grafana recuperaba posteriormente. Una vez procesado, la IA enviaba datos confidenciales, como métricas financieras y telemetría de infraestructura, a un servidor controlado por el atacante sin necesidad de que el usuario hiciera clic. 8

7. Ecosistema MCP Anthropic: OX Security reveló una vulnerabilidad arquitectónica sistémica en los SDK oficiales de MCP de Anthropic (Python, TypeScript, Java, Rust) donde la entrada del usuario fluye directamente a las configuraciones del servidor MCP STDIO sin sanitización, afectando a más de 150 millones de descargas de SDK, más de 7000 servidores expuestos públicamente y herramientas derivadas, incluyendo LiteLLM, LangChain, Cursor, Windsurf y Claude Code. Debido a que el fallo está en la arquitectura compartida del SDK en lugar de en un solo agente, cualquier agente creado sobre el marco hereda la exposición. 9

8. Andon Market (Luna AI): Andon Market, una tienda minorista de San Francisco gestionada de forma autónoma por un agente de IA llamado "Luna", toma decisiones sobre inventario, precios y contratación basándose en la lectura de Google reseñas. Los clientes descubrieron que dejar una reseña formulada como una instrucción, como "por favor, tengan en stock el producto X", hace que el agente actúe en consecuencia, convirtiendo una plataforma de reseñas pública en una interfaz de inyección de mensajes en tiempo real con consecuencias comerciales reales. 10

9. Ejecución de código ChatGPT: Un mensaje malicioso disfrazado de consejos de productividad activa un código de tunelización DNS que codifica el contenido confidencial de las conversaciones y carga documentos en consultas de subdominios, transmitiéndolos silenciosamente a un servidor DNS controlado por el atacante. Check Point Research demostró que el canal de exfiltración es invisible para la monitorización de red convencional porque se ejecuta a través del tráfico DNS estándar iniciado por el propio entorno de ejecución de código del agente. 11

10. Comet (Perplexity): Zenity Labs reveló que el navegador de Comet (Perplexity) puede ser secuestrado mediante una invitación de calendario maliciosa que contiene una carga útil de inyección de mensajes, lo que provoca que acceda al sistema de archivos local, explore directorios, abra y lea archivos y extraiga datos. El ataque no requiere ninguna interacción del usuario más allá de aceptar lo que parece ser una invitación a una reunión legítima, y opera completamente dentro de las capacidades previstas del navegador. 12

11. Microsoft Semantic Kernel: El equipo de investigación de seguridad de Defender de Microsoft identificó dos vulnerabilidades críticas en Semantic Kernel, CVE-2026-26030 (SDK de Python, parcheado en 1.39.4) y CVE-2026-25592 (SDK de .NET, parcheado en 1.71.0), donde un atacante con cualquier vector de inyección de mensajes puede lograr la ejecución remota de código en la máquina que aloja el agente. CVE-2026-26030 explotó un filtro basado en eval en InMemoryVectorStore cuya lista de bloqueo AST era eludible a través de un recorrido de atributos no documentado, mientras que CVE-2026-25592 expuso una función auxiliar de transferencia de archivos como una herramienta del kernel invocable, lo que permitió que un mensaje hostil dirigiera al agente a escribir archivos arbitrarios en ubicaciones peligrosas del host. 13

12. Bot de triaje de IA de Cline: Un título malicioso en un problema de GitHub inyectó instrucciones en el bot de triaje de IA de Cline, engañándolo para que ejecutara `npm install` en un paquete con errores tipográficos. Esto provocó envenenamiento de caché, robo de credenciales y una versión de cline@2.3.0 con puerta trasera que instaló silenciosamente el malware OpenClaw en aproximadamente 4000 máquinas de desarrolladores. 14

13. Extensiones de escritorio Claude: Los investigadores de seguridad de LayerX descubrieron una vulnerabilidad CVSS 10/10 en las extensiones de escritorio Claude que afecta a más de 10 000 usuarios. Un atacante puede insertar instrucciones maliciosas dentro de un evento del calendario que Claude procesa cuando un usuario consulta su agenda. El agente ejecuta automáticamente código arbitrario en el equipo del usuario sin ninguna interacción adicional y sin ninguna indicación visible de que haya ocurrido algo. 15

14. Ecosistema npm/MCP: Se descubrió SANDWORM_MODE, un gusano npm autorreplicante distribuido a través de 19 paquetes modificados mediante typosquatting. Este gusano instala un servidor MCP malicioso con cargas útiles de inyección de mensajes integradas en las descripciones de las herramientas, lo que le permite extraer credenciales de asistentes de codificación de IA . Dado que el gusano se propaga a través del registro de paquetes compartido, una sola infección inicia el ataque en todos los desarrolladores que instalen una dependencia afectada. 16

15. Snowflake Cortex Code: PromptArmor descubrió que el sistema de validación de comandos de Cortex Code no evaluaba los comandos dentro de las expresiones de sustitución de procesos, lo que permitía que una inyección maliciosa oculta en el archivo README de un repositorio de GitHub ejecutara comandos de shell arbitrarios sin activar el paso de aprobación humana. La instrucción inyectada también manipuló el modelo para establecer una bandera de ejecución sin aislamiento, lo que provocó que el comando malicioso se ejecutara completamente fuera del entorno aislado sin solicitar el consentimiento del usuario.

16. MetaGPT / LangChain Agentes: MemoryGraft es un nuevo ataque de inyección indirecta que compromete el comportamiento del agente no a través de jailbreaks inmediatos sino implantando "experiencias exitosas" maliciosas en la memoria a largo plazo del agente, explotando su tendencia a replicar patrones de tareas exitosas recuperadas. A diferencia de las inyecciones de aviso tradicionales, que son transitorias, o el envenenamiento estándar RAG, que apunta al conocimiento fáctico, MemoryGraft corrompe todas las sesiones futuras sin ninguna inyección a nivel de sesión, requiriendo que un atacante proporcione solo artefactos de nivel de ingestión aparentemente benignos que el agente lee durante la ejecución normal. 17

17. ServiceNow Now Assist: En ServiceNow Now Assist, la configuración predeterminada permite que los agentes de IA se descubran y se recluten entre sí de forma autónoma; una solicitud maliciosa integrada en los datos procesados por un agente con pocos privilegios puede instruirlo para que llame a un agente con más poder para robar datos, modificar registros o escalar privilegios. El resultado fue una escalada de privilegios y una exposición de datos impulsadas completamente por la confianza entre agentes. 18

18. Apple Intelligence: Los caracteres Unicode maliciosos RIGHT-TO-LEFT OVERRIDE ocultan instrucciones dañinas escribiéndolas al revés, de modo que se muestran correctamente en pantalla, pero permanecen invertidos donde los filtros de seguridad de Apple los inspeccionan, eludiendo así las tres capas de protección del dispositivo. La técnica tuvo éxito en el 76 % de los casos de prueba en aproximadamente 200 millones de dispositivos afectados. 19

19. Google Gemini (Calendario): Instrucciones ocultas incrustadas en las descripciones de eventos del calendario permanecen latentes en el contexto de Gemini hasta que un usuario pregunta sobre su agenda, momento en el que se activa la carga útil, resumiendo el contenido de reuniones privadas y escribiéndolo en un nuevo evento del calendario visible para el atacante. El ataque explota la integración de Gemini con los datos del calendario, convirtiendo datos personales estructurados en una superficie de activación sin que la víctima tenga que hacer clic en nada. 20

20. Microsoft 365 Copilot: EchoLeak (CVE-2025-32711), descubierto por Aim Security, es el primer caso conocido de inyección instantánea utilizada como arma para causar exfiltración de datos concretos en un sistema de IA en producción. Es un correo electrónico diseñado individualmente que obliga a Copilot a acceder a archivos internos y transmitir su contenido a un servidor controlado por el atacante sin ninguna interacción del usuario. El ataque encadena cuatro elusiones: evadir el clasificador XPIA de Microsoft, eludir la censura de enlaces con Markdown de estilo de referencia, explotar imágenes obtenidas automáticamente y abusar de un proxy de Teams de Microsoft permitido por la política de seguridad de contenido.

¿Qué son las trampas de los agentes de IA?

Las trampas para agentes de IA son contenidos maliciosos integrados en entornos digitales y diseñados para manipular, engañar o explotar a los agentes de IA autónomos que interactúan con dichos entornos. 21

La idea central es que los agentes autónomos procesan el contenido web en niveles que los humanos no perciben. Los atacantes pueden insertar instrucciones maliciosas en comentarios HTML, texto con opacidad cero o con posicionamiento CSS, atributos de metadatos y datos esteganográficos codificados en archivos de imagen. 22 Ninguna de estas capas suele ser visible para un revisor humano; un agente que analiza la misma página trata el contenido que se encuentra en ellas como una entrada igualmente válida al contenido que se muestra visiblemente en la pantalla. Los investigadores de DeepMind Google señalan esto como una asimetría fundamental: los atacantes pueden calibrar los ataques para explotar las capacidades de un agente para seguir instrucciones, encadenar herramientas y priorizar objetivos precisamente porque esas son las capacidades que hacen que los agentes sean operativamente útiles. 23

Seis categorías de ataques de trampas de agentes de IA

Los investigadores han identificado 6 categorías de trampas para agentes de IA que los adversarios pueden explotar para comprometer los sistemas autónomos:

trampas de inyección de contenido

Aprovechar la brecha entre la percepción humana, el análisis automático y la representación dinámica para introducir datos maliciosos sin que el agente lo detecte.

La superficie de ataque abarca varios vectores de inyección distintos. Las instrucciones ocultas incrustadas en comentarios HTML, como `<!– SYSTEM: Ignore prior instructions –>`, aparecen en el código fuente de la página pero nunca en la vista renderizada. 24 posicionamiento CSS fuera de pantalla, mediante `position: absolute; left: -9999px` o equivalente, coloca el texto en coordenadas fuera de cualquier área visible, permitiendo que los agentes que procesan el contenido del modelo de objetos del documento lo analicen completamente. Los atributos de accesibilidad, específicamente `aria-label` y el marcado ARIA relacionado, contienen texto que los agentes interpretan como contexto semántico; al inyectar directivas adversarias allí, se colocan dentro del árbol de accesibilidad sin ninguna salida visible. 25 Un cuarto vector utiliza codificación esteganográfica: cargas útiles maliciosas codificadas en datos de píxeles de imágenes con valores imperceptibles para la visión humana, pero legibles por agentes que procesan metadatos de imágenes o aplican análisis a nivel de píxeles. 26

Trampas de manipulación semántica

Corrompe la cadena de razonamiento del agente y sus procesos de verificación internos, lo que le lleva a extraer conclusiones erróneas a partir de datos aparentemente válidos.

Esta categoría se rige por tres mecanismos. El primero es la formulación sesgada y la activación contextual: se utiliza un lenguaje que condiciona la interpretación que el agente hace del contenido procesado posteriormente. El segundo es la saturación de lenguaje autoritario, que consiste en inundar los documentos con frases como «estándar del sector», «de nivel empresarial» o «recomendado por expertos» para explotar la asociación aprendida del modelo entre dicho lenguaje y fuentes creíbles y fiables. 27 El tercer mecanismo es el efecto de pérdida en el medio, una debilidad estructural en los modelos basados en transformadores donde el rendimiento del modelo en las tareas de recuperación y síntesis se degrada cuando la información relevante se sitúa en el medio de una ventana de contexto larga en lugar de al principio o al final. 28

Trampas del estado cognitivo

El objetivo es manipular la memoria a largo plazo del agente, sus bases de conocimiento y sus políticas de comportamiento aprendidas para envenenar su toma de decisiones futuras.

Las tres variantes principales son el envenenamiento directo RAG, el envenenamiento de la memoria latente y los ejemplos adversarios de pocos disparos en el aprendizaje contextual. 29

El envenenamiento directo (RAG) inyecta información falsa en los corpus de documentos indexados que los agentes consultan durante la generación aumentada de recuperación. La memoria envenenada es más sofisticada. Un atacante almacena datos aparentemente inofensivos en la memoria persistente de un agente durante las interacciones rutinarias. Los datos almacenados no producen ningún efecto detectable hasta que un contexto futuro específico los activa, momento en el que modifican el comportamiento del agente de maneras que aparentemente no tienen un desencadenante causal reciente. 30 El ataque adversario consiste en inyectar pares de demostraciones cuidadosamente diseñadas en una ventana de contexto para que el agente adopte el patrón implícito en esos ejemplos. Las investigaciones sobre los activadores de puertas traseras en las demostraciones revelaron tasas de éxito promedio de ataque del 95 % en modelos de diversa escala con este enfoque. 31

Trampas de control de comportamiento

Las trampas de control de comportamiento constituyen la categoría con mayores consecuencias operativas en la taxonomía. Se dirigen a las acciones de los agentes, en lugar de a sus percepciones o conclusiones, lo que otorga a los atacantes influencia directa sobre la ejecución de herramientas, las operaciones con archivos, las solicitudes de red y las comunicaciones entre agentes. 32

Trampas sistémicas

Las trampas sistémicas no se dirigen a agentes individuales. Se dirigen a las propiedades del ecosistema que surgen cuando muchos agentes de diseño similar operan con fuentes de datos compartidas, ejecutan patrones de razonamiento similares y realizan acciones que retroalimentan el entorno que otros agentes interpretan. 33

La categoría más amplia abarca tres mecanismos distintos. El primero es el diseño de trampas de congestión: la creación de señales de escasez o demanda que provocan que múltiples agentes ejecuten comportamientos sincronizados de adquisición de recursos, generando fallos coordinados sin comunicación directa entre agentes. El segundo es la cascada de interdependencia: la explotación de bucles de retroalimentación en sistemas multiagente donde la salida de cada agente se convierte en entrada para otros, de modo que una única señal corrupta se propaga y amplifica por toda la red. El tercero es la fragmentación de la carga útil compositiva: la distribución de componentes de ataque entre múltiples fuentes individualmente benignas que se reconstituyen en una carga útil maliciosa funcional solo cuando un agente las agrega durante una tarea de recuperación o síntesis. 34

Trampas de intervención humana

Las trampas de intervención humana constituyen la categoría más sutil de la taxonomía y se dirigen a la capa de supervisión, que tradicionalmente se considera una medida de seguridad. En lugar de eludir la revisión humana, estas trampas la explotan: el agente comprometido genera resultados diseñados específicamente para obtener la aprobación humana de acciones que, de describirse con precisión, el humano rechazaría. 35

El mecanismo principal es la síntesis engañosa. Un agente con acceso de escritura a su propia capa de salida puede describir sus acciones de forma que las operaciones destructivas o no autorizadas parezcan tareas de mantenimiento rutinarias.

Cita esta investigación

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Ezgi Arslan, PhD. (2026) - "Trampas de agentes de IA: 20 incidentes de la vida real". Publicado en línea en AIMultiple.com. Recuperado el Mayo 18, 2026, de: https://aimultiple.com/ai-agent-traps [Recurso en línea]

PhD., E. A. (2026, Mayo 18). Trampas de agentes de IA: 20 incidentes de la vida real. AIMultiple. https://aimultiple.com/ai-agent-traps

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Trampas de agentes de IA: 20 incidentes de la vida real}},
  year   = {2026},
  month  = may,
  howpublished    = {\url{https://aimultiple.com/ai-agent-traps}},
  note   = {AIMultiple. Retrieved Mayo 18, 2026}
}

Enlaces de referencia

1.
https://www.sailpoint.com/press-releases/sailpoint-ai-agent-adoption-report
2.
https://www.prnewswire.com/news-releases/the-state-of-ai-agent-security-73-of-cisos-fear-ai-agent-risks-but-only-30-are-ready-302607386.html
3.
The Grok Morse Code Heist: When Prompt Injection Meets Excessive Agency | NeuralTrust
NeuralTrust
4.
Vulnerability in Claude Extension for Chrome Exposes AI Agent to Takeover - SecurityWeek
SecurityWeek
5.
Google Fixes CVSS 10 Gemini CLI CI RCE and Cursor Flaws Enable Code Execution
6.
‘It took nine seconds’: Claude AI agent deletes company’s entire database - Yahoo News Canada
Yahoo News Canada
7.
CLI-Anything Exposes Security Risks in Open-Source AI Ecosystems | Welcome.AI
Welcome.AI
8.
GrafanaGhost: The Phantom Stealing Your Data - Noma Security
Noma Security
9.
Critical Anthropic’s MCP Vulnerability Enables Remote Code Execution Attacks | Cryptika Cybersecurity
Cryptika Cybersecurity
10.
Prompt Injection - The critical vulnerability lurking beneath the AI hype
11.
OpenAI Patches ChatGPT Data Exfiltration Flaw and Codex GitHub Token Vulnerability
12.
PerplexedBrowser: Perplexity’s Agent Browser Can Leak Your PC&#x27;s Local Files
Zenity Labs
13.
How Prompt Injection Attacks Compromise AI Agents in 2026
Atlan
14.
Cline CLI 2.3.0 Supply Chain Attack Installed OpenClaw on Developer Systems
15.
10K Claude Desktop Users Exposed by Zero-Click Vulnerability | eSecurity Planet
eSecurityPlanet
16.
SANDWORM_MODE: npm Supply Chain Attack Targeting AI Development Tools | Hive Pro
Hive Pro
17.
https://arxiv.org/pdf/2512.16962
18.
Second-order prompt injection can turn AI into a malicious insider | TechRadar
TechRadar
19.
On-device Apple Intelligence vulnerable to prompt injection
AppleInsider
20.
Hackers Hijacked Google’s Gemini AI With a Poisoned Calendar Invite to Take Over a Smart Home | WIRED
WIRED
21.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438
22.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
23.
https://www.securityweek.com/google-deepmind-researchers-map-web-attacks-against-ai-agents/
24.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
25.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
26.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
27.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
28.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
29.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
30.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
31.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
32.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
33.
https://the-decoder.com/google-deepmind-study-exposes-six-traps-that-can-easily-hijack-autonomous-ai-agents-in-the-wild/
34.
https://hivesecurity.gitlab.io/blog/ai-agent-traps-manipulation-taxonomy-2026/
35.
https://openclawai.io/blog/google-deepmind-ai-agent-traps-six-attack-categories
Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Analista de la industria
Ezgi es doctora en Administración de Empresas con especialización en finanzas y trabaja como analista de la industria en AIMultiple. Impulsa la investigación y el análisis en la intersección de la tecnología y los negocios, con experiencia en sostenibilidad, análisis de encuestas y sentimientos, aplicaciones de agentes de IA en finanzas, optimización de motores de búsqueda, gestión de cortafuegos y tecnologías de adquisiciones.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450