Does my existing EDR or SIEM cover AI agent threats?

EDRs detect malware and endpoint anomalies. They don't inspect what an AI agent does with a compromised OAuth token, whether a model was backdoored before deployment, or whether a prompt embedded in a document redirected the agent's behavior. The tooling gap is real.

My organization already uses CrowdStrike or SentinelOne. Do I still need an AI-SPM tool?

Depends on what you're doing with AI. If you're deploying agents that connect to SaaS platforms, process external content, or use third-party models, then yes, Charlotte AI and Purple AI secure the SOC; they don't govern the agents themselves. If you're only using AI internally within those platforms, the existing coverage may be sufficient.

Is prompt injection actually a serious threat in production, or still mostly a research problem?

As of April 2026, it's a production threat. Google and Forcepoint separately published evidence of indirect prompt injection payloads embedded in public web content at scale static sites, and blogs seeded with instructions targeting AI agents. Ten confirmed live payloads were catalogued in the same reporting period.

Agente de IA

Seguridad de los agentes de IA: Las 8 principales herramientas y amenazas para 2026

Sena Sezer

actualizado el May 1, 2026

Vea nuestra normas éticas

En la práctica, la seguridad de los agentes de IA implica dos cosas diferentes: restringir el acceso a los agentes autónomos que su organización ha implementado y utilizar agentes de IA para ejecutar operaciones de seguridad más rápidamente que los analistas humanos.

Analizamos ocho plataformas de ambas categorías, los vectores de ataque que las hacen necesarias y los plazos de cumplimiento que ahora están impulsando el debate.

Herramientas y plataformas de seguridad para agentes de IA

El mercado se divide en dos categorías.

Categoría 1: Protección de agentes de IA (AI-SPM y protección en tiempo de ejecución): Se centra en proteger los agentes de IA que ha implementado: escanear los modelos antes de la implementación, controlar a qué pueden acceder los agentes y bloquear ataques como la inyección de comandos en tiempo de ejecución.
Categoría 2: Agentes de IA que realizan operaciones de seguridad (SOC con agentes) : Implementa agentes de IA para realizar operaciones de seguridad de forma autónoma, reemplazando o complementando a los analistas humanos en los flujos de trabajo del SOC.

*Azure Solo registros de ML, no se incluyen modelos de terceros ni autohospedados.

Gobernanza de la identidad del agente: supervisión de tokens OAuth, gobernanza de identidades no humanas (NHI) y aplicación del principio de mínimo privilegio para los agentes desplegados.
Seguridad MCP : monitorización nativa de las conexiones del servidor del Protocolo de Contexto de Modelo (MCP).
Red Teaming con agentes: simulación de ataque con múltiples turnos y agentes, distinta del red teaming estándar de LLM.

1. Herramientas de gestión de la postura de seguridad de la IA (AI-SPM)

Palo Alto Networks Prisma AIRS

Prisma AIRS (AI Runtime Security) es la única plataforma en esta comparativa que afirma ofrecer una cobertura integral del ciclo de vida de la IA con agentes, desde el escaneo del modelo previo a la implementación hasta la aplicación de políticas en tiempo de ejecución, como un producto distinto de Prisma Cloud, la oferta CNAPP de la compañía. ¹

La puerta de enlace del agente de IA (un plano de control central que aplica controles de acceso basados en la identidad para agentes autónomos durante la ejecución en tiempo real), la seguridad de los artefactos del agente (escaneo de la arquitectura antes de la implementación) y el Red Teaming de IA integrado para sistemas multiagente. ² La plataforma integró la detección de vulnerabilidades de serialización ModelScan de Protect AI tras la adquisición por parte de Palo Alto Networks en julio de 2025. La seguridad de endpoints basada en agentes de Koi está pendiente de integración completa y seguirá siendo una implementación independiente a partir del segundo trimestre de 2026. ³

Ventajas:

El análisis de modelos de IA previo a la implementación detecta manipulaciones de modelos, scripts maliciosos y ataques de deserialización.
La función integrada de Red Teaming con IA permite simular ataques en múltiples turnos y realizar pruebas de sistemas multiagente.
Las medidas de seguridad en tiempo de ejecución impiden la manipulación de las indicaciones y la exposición de datos durante las interacciones con agentes en tiempo real. ⁴

Desventajas:

Los precios no se publican; se requieren contratos empresariales.
La integración de los puntos finales de Koi está en curso; los agentes que se ejecutan localmente fuera de los perímetros de la nube y SaaS requieren una implementación por separado hasta que finalice.

Wiz AI-SPM

El principal elemento diferenciador de Wiz AI-SPM es Wiz Security Graph, que correlaciona los riesgos de la IA con el contexto de la infraestructura en la nube subyacente. ⁵ Mientras que la mayoría de las herramientas AI-SPM informan sobre los riesgos de la IA de forma aislada, Security Graph muestra que un modelo vulnerable se está ejecutando en una VPC de producción con un contexto de salida a Internet que cambia la prioridad de remediación.

La plataforma incluye Mika AI para consultas de riesgo en lenguaje natural ("¿qué LLM están accediendo a las bases de datos de producción?"), Wiz Blue Agent para la investigación automatizada de amenazas y Wiz Defend para la protección en tiempo de ejecución contra la inyección de comandos y el comportamiento de agentes maliciosos. ⁶ Shadow AI discovery opera sin agentes, escaneando los repositorios de modelos Hugging Face en busca de código malicioso y datos de entrenamiento para la exposición de PII.

Ventajas:

Genera una lista de materiales de IA (AI-BOM) que abarca los modelos, los marcos de trabajo y las dependencias que impulsan cada sistema de IA. ⁷
Descubre cargas de trabajo de IA ocultas y servicios de IA no gestionados sin necesidad de implementar agentes. ⁸
La correlación entre el código y la nube vincula los riesgos de la IA a nivel de aplicación con la configuración de la infraestructura, lo que permite mitigarlos.

Desventajas:

La gestión nativa de la postura de seguridad de SaaS (SSPM) no está incluida; la cobertura de SaaS requiere una herramienta complementaria.
La adquisición pendiente de Salesforce introduce incertidumbre en la hoja de ruta para entornos que no son Salesforce.

Seguridad Obsidiana

Los agentes de IA empresariales operan dentro de Microsoft 365, Workspace y docenas de otras plataformas SaaS, acumulando tokens OAuth y moviendo datos a volúmenes que ningún usuario humano manejaría. Obsidian Security está diseñado específicamente para este entorno.

Según los datos de investigación de Obsidian, el 90 % de los agentes empresariales tienen permisos excesivos, los agentes mueven 16 veces más datos que los usuarios humanos y el 53 % de los agentes de IA acceden a información confidencial. ⁹ La plataforma detecta agentes con permisos excesivos, identifica la vulneración de tokens, rastrea el movimiento de datos entre aplicaciones y expone implementaciones de IA en la sombra conectadas a cuentas SaaS corporativas sin visibilidad por parte del departamento de TI.

Ventajas:

La gestión de la postura de seguridad de SaaS (SSPM) proporciona vistas actualizadas continuamente de las configuraciones incorrectas y las deficiencias de cumplimiento en las aplicaciones SaaS.
Detecta la inyección de mensajes de IA y la fuga de datos dentro de las aplicaciones SaaS de GenAI, incluidas Copilot y Agentforce.[
La gobernanza de la identidad no humana abarca las aplicaciones conectadas, los tokens OAuth y las cuentas de servicio con parámetros de comportamiento establecidos. ¹⁰

Desventajas:

La cobertura se centra en el SaaS; las organizaciones que ejecutan agentes de IA en infraestructuras propias o nativas de la nube necesitan una herramienta independiente para obtener visibilidad de la capa de infraestructura.
Los precios no se publican.

Microsoft Defender para la nube

Microsoft El módulo de seguridad de IA de Defender for Cloud amplía la plataforma CSPM existente con detección de amenazas específica de IA; no se requiere implementación adicional para las organizaciones que ya utilizan Defender for Cloud. ¹¹ Los equipos que administran Azure agentes de AI Foundry, Copilot Studio o Azure OpenAI implementaciones obtienen detección de amenazas y administración de postura dentro de la misma consola.

El precio es uno de los pocos datos que se publican en esta categoría: 0,0008 dólares por cada 1.000 tokens escaneados al mes, con los agentes de Foundry incluidos sin coste adicional y una prueba gratuita de 30 días con un límite de 75.000 millones de tokens. ¹²

El módulo se integra con Azure AI Content Safety Prompt Shields para la detección de jailbreak y enruta alertas de fuga de datos, robo de credenciales y comportamiento anómalo del agente a Microsoft Sentinel. ¹³ En marzo de 2026, Microsoft lanzó Agent 365, un plano de control unificado para administrar y proteger agentes en todo el entorno Microsoft a $15 por usuario por mes. ¹⁴

Ventajas:

No se requiere infraestructura adicional para las organizaciones nativas de Azure que ya utilizan Defender para Cloud CSPM.
La tarificación transparente basada en tokens permite estimar los costes antes de la implementación.
La integración de Prompt Shields gestiona de forma nativa la detección de jailbreak e inyección de prompts. ¹⁵

Desventajas:

Los análisis de seguridad de los modelos de IA solo se realizan dentro de los registros y espacios de trabajo de aprendizaje automático Azure, no en registros de modelos de terceros o autohospedados. ¹⁶
Valor limitado para organizaciones que ejecutan agentes de IA principalmente fuera de Azure

Capa oculta MLDR

Las herramientas de seguridad de IA se centran en el comportamiento del agente, el acceso a los datos y la inyección de mensajes. HiddenLayer Machine Learning Detection and Response (MLDR) opera una capa más profunda: el modelo.

MLDR supervisa los modelos en producción para detectar ataques de evasión de ataques adversarios que manipulan las entradas para provocar una clasificación errónea, ataques de inversión de modelos que reconstruyen los datos de entrenamiento a partir de las salidas del modelo y ataques de inferencia de pertenencia que determinan si aparecieron datos específicos en el entrenamiento. ¹⁷ Se ejecuta sin necesidad de agentes, sin requerir acceso a los datos de entrenamiento ni a los pesos del modelo, lo que lo hace compatible con modelos propietarios o de terceros.

El análisis de la cadena de suministro abarca los repositorios de modelos antes de su implementación, detectando puertas traseras incrustadas en archivos de modelos serializados que la clase de ataque cataloga MITRE ATLAS como AML.T0010 (ML Supply Chain Compromise). ¹⁸ El módulo de simulación de ataques de IA pone a prueba continuamente a los modelos implementados mediante equipos rojos a medida que cambian las versiones y los entornos. ¹⁹

Ventajas:

Detecta ataques de evasión, inversión de modelos e inferencia de pertenencia en tiempo real sin necesidad de acceder a los datos de entrenamiento.
El análisis de la cadena de suministro previo al despliegue identifica vulnerabilidades de serialización y puertas traseras en los archivos del modelo.
Las medidas de seguridad de la IA garantizan el cumplimiento de las políticas en tiempo de ejecución, incluida la inyección inmediata y la prevención de fugas de datos. ²⁰

Desventajas:

No proporciona gestión de la postura de seguridad SaaS ni gobernanza de identidad no humana.
Los precios no se publican.

Guardia Lakera

Lakera Guard se sitúa entre su aplicación GenAI y el LLM, interceptando cada solicitud antes de que llegue al modelo y cada respuesta antes de que regrese al usuario. ²¹ Su base de datos de inteligencia sobre amenazas se nutre de más de 80 millones de avisos recopilados a través del desafío público de equipos rojos Gandalf, lo que proporciona al motor de detección acceso a patrones de ataque que los equipos rojos internos de las empresas rara vez encuentran. ²²

La plataforma cubre los 10 principales riesgos de OWASP LLM y opera con una latencia inferior al milisegundo mediante un diseño basado en API, lo cual es importante para las aplicaciones orientadas al cliente, donde la latencia de detección se suma directamente al tiempo de respuesta del usuario. ²³ Existe una versión gratuita disponible en platform.lakera.ai, que permite acceder a la integración y las pruebas iniciales sin necesidad de un proceso de venta.

Contexto de la investigación de abril de 2026: Google y Forcepoint confirmaron por separado que las cargas útiles de inyección de avisos indirectos ahora están activamente incrustadas en el contenido web público a gran escala, esperando que los agentes de IA las procesen. ²⁴ La detección de inyección indirecta de Lakera cubre esta clase de ataques, incluidas las cargas útiles obtenidas de URL externas que el agente consulta durante la ejecución de la tarea.

Ventajas:

Se ofrece una versión gratuita para desarrollo y pruebas iniciales sin necesidad de la intervención de un proveedor.
La detección de inyección indirecta de mensajes abarca instrucciones maliciosas incrustadas en documentos y obtenidas a través de la web.
Pruebas de penetración con IA, gestión de vulnerabilidades basada en riesgos y simulaciones de ataques directos e indirectos. ²⁵

Desventajas:

No realiza análisis de archivos de modelos de IA previos al despliegue ni detección de puertas traseras.
Su enfoque en el tiempo de ejecución implica que no puede evaluar los riesgos de la infraestructura ni de la postura sobre el SaaS.

2. Plataformas SOC agenciales

CrowdStrike Falcon

Charlotte AI funciona como una capa autónoma de investigación y respuesta dentro de la plataforma CrowdStrike Falcon, combinando EDR, XDR , SIEM y SOAR bajo una interfaz de lenguaje natural conversacional. ²⁶ Cuando se activa una alerta, Charlotte AI recopila evidencia, correlaciona la telemetría en todos los puntos finales e identidades, presenta un veredicto con su justificación y luego espera la aprobación del analista antes de ejecutar las acciones de contención.

Ese proceso de aprobación es una decisión arquitectónica deliberada. Agentic SOAR de CrowdStrike combina la automatización mediante scripts con el razonamiento de la IA, con niveles de autonomía configurables: ejecución supervisada para acciones de alto impacto y ejecución autónoma para la contención de bajo riesgo. ²⁷ La plataforma utiliza el aprendizaje por refuerzo a partir de la retroalimentación de los analistas, lo que mejora la precisión de las decisiones a medida que acumula conocimiento institucional específico del entorno de cada cliente.

CrowdStrike posee la certificación ISO 42001 de gobernanza de IA, siendo el único producto en esta comparativa con una validación independiente por parte de terceros de sus controles de gobernanza de IA. ²⁸ En RSAC 2026, la compañía anunció Shadow AI Discovery, que se extiende a través de puntos finales, SaaS y entornos en la nube, identificando más de 1800 aplicaciones de IA que se ejecutan en dispositivos empresariales en toda su base de clientes. ²⁹

Ventajas:

La certificación ISO 42001 de gobernanza de la IA proporciona una validación por parte de terceros de los controles de gestión de la IA. ³⁰
La búsqueda de amenazas mediante lenguaje natural convierte las preguntas de los analistas en consultas estructuradas en todo el lago de datos de Falcon.
Los niveles de autonomía configurables permiten a las organizaciones controlar qué acciones requieren aprobación humana. ³¹

Desventajas:

Charlotte AI no funciona como una barrera de protección o un cortafuegos para aplicaciones GenAI de terceros; su objetivo es la detección de amenazas a la infraestructura, no la seguridad de los modelos de IA.
El precio inicial es de 8,99 dólares por dispositivo al mes, lo que supone una mejora significativa para grandes flotas de dispositivos. ³²

IA púrpura de SentinelOne

Purple AI está integrada en Singularity XDR en lugar de venderse como un producto independiente, lo que significa que los analistas interactúan con ella a través de la misma interfaz que utilizan para cualquier otra investigación. ³³ Un analista pregunta "¿Cuál es la causa raíz de esta alerta?" en lenguaje natural; Purple AI consulta los datos subyacentes, correlaciona la telemetría en los puntos finales, la nube y los sistemas de identidad, y devuelve una respuesta con evidencia de origen adjunta.

Este modelo de integración contrasta con las herramientas de investigación de IA que requieren exportar datos a un sistema independiente. Purple AI tiene acceso al repositorio completo de datos de Singularity y utiliza el autoaprendizaje a partir de datos de incidentes anteriores para mejorar la precisión de la correlación con el tiempo. ³⁴ La plataforma incluye un sistema backend nativo de IA-SIEM para la ingesta a gran escala, y Singularity Hyperautomation gestiona la automatización del flujo de trabajo en toda la cadena de respuesta. ³⁵ ³⁶

Ventajas:

La búsqueda de amenazas mediante lenguaje natural traduce preguntas en inglés sencillo en consultas optimizadas en todo el lago de datos de la empresa.
La correlación entre dominios abarca puntos finales, activos en la nube e identidad en un único flujo de trabajo de investigación.
El sistema backend nativo de IA-SIEM evita las penalizaciones de precios por ingesta a gran escala. ³⁷

Desventajas:

No inspecciona ni bloquea las indicaciones en las aplicaciones GenAI implementadas por el cliente; se centra en la infraestructura y la telemetría de los puntos finales.
Precios personalizados para empresas únicamente; no hay lista de precios pública disponible.

Características comunes en las plataformas de seguridad de agentes de IA

A pesar de abarcar diferentes capas de la arquitectura, las ocho plataformas incluidas en esta comparación ofrecen cinco capacidades básicas que las organizaciones pueden esperar de cualquier proveedor empresarial de esta categoría.

Los mapas de descubrimiento de activos de IA y aprendizaje automático, que incluyen modelos desplegados, agentes, herramientas conectadas y fuentes de datos, son un requisito indispensable para cualquier programa de seguridad. Sin un inventario actualizado, los equipos no pueden evaluar la exposición ni aplicar las políticas.
La detección de anomalías de comportamiento supervisa las cargas de trabajo de la IA en busca de desviaciones de los parámetros establecidos. El mecanismo varía (aprendizaje automático no supervisado en Darktrace, umbrales estadísticos en otros casos), pero el resultado es el mismo: alertas cuando un agente realiza alguna acción inesperada, como consultar bases de datos a las que no ha accedido antes, realizar llamadas a API inusuales o procesar volúmenes de datos fuera de los rangos normales.
La integración con plataformas SIEM y SOAR permite incorporar los hallazgos a los flujos de trabajo de seguridad existentes mediante API documentadas. Las organizaciones deben verificar si los proveedores admiten la integración bidireccional (envío de alertas a SIEM y recepción de información adicional) o si solo permiten el reenvío de registros de lectura.
El registro de auditoría para el cumplimiento normativo captura eventos de seguridad, acciones de agentes y decisiones de acceso en formatos consultables. Los requisitos del artículo 9 de la Ley de IA de la UE para sistemas de IA de alto riesgo y los criterios de servicios de confianza SOC 2 exigen esta capacidad para las organizaciones incluidas en su ámbito de aplicación a partir de agosto de 2026. ³⁸
Los flujos de trabajo de alertas y notificaciones muestran las amenazas detectadas a través de paneles de control, correo electrónico, Slack o la integración con sistemas de gestión de incidencias, de modo que los equipos de seguridad reciben información útil en lugar de simples registros sin procesar.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

amenazas a la seguridad de los agentes de IA

Los agentes de IA introducen superficies de ataque que los controles de seguridad tradicionales no están diseñados para abordar. Un EDR basado en firmas detecta malware. Sin embargo, no puede detectar un agente que recibió instrucciones legítimas de un documento malicioso que se le pidió que resumiera y luego utilizó sus propias credenciales legítimas para extraer datos. Las siguientes amenazas explican por qué se requieren herramientas especializadas.

1. Inyección rápida y desbloqueo

La inyección de comandos inserta instrucciones maliciosas en el contenido que procesan los agentes (páginas web, correos electrónicos, archivos PDF adjuntos y resultados de herramientas), lo que provoca que el agente ejecute comandos que el operador nunca autorizó. OWASP clasifica la inyección de comandos como la principal vulnerabilidad en su Top 10 de LLM, presente en más del 73 % de las implementaciones de IA en producción evaluadas durante las auditorías de seguridad. ³⁹

La amenaza ya no es teórica. En abril de 2026, Google y Forcepoint publicaron de forma independiente pruebas de cargas útiles de inyección indirecta integradas a gran escala en sitios web estáticos de contenido web público, blogs y secciones de comentarios, a la espera de que los agentes de IA las recuperen y procesen. Durante el mismo período de investigación, se catalogaron ⁴⁰ cargas útiles activas confirmadas que tenían como objetivo a agentes de IA con objetivos que incluían fraude financiero, destrucción de datos y robo de claves API. ⁴¹

La Unidad 42 descubrió que el 85,2% de los intentos de inyección en el mundo real utilizan técnicas de ingeniería social en lugar de simples anulaciones de comandos, incluidos métodos de ocultación como caracteres Unicode de ancho cero y cargas útiles codificadas en base64. ⁴² Un metaanálisis de 78 estudios publicado en enero de 2026 encontró que las tasas de éxito de los ataques adaptativos contra las defensas de última generación superan el 85%. ⁴³

En 2025, se descubrió que Microsoft 365 Copilot era vulnerable a CVE-2025-32711 (EchoLeak), una vulnerabilidad de inyección de mensajes sin clics que permitía la exfiltración remota de datos a través de correos electrónicos manipulados sin interacción del usuario. ⁴⁴ El Protocolo de Contexto de Modelo (MCP) permite una clase de ataque relacionada: el envenenamiento de herramientas, donde las instrucciones maliciosas incrustadas en los metadatos de la herramienta instruyen a los agentes para que reenvíen datos confidenciales a puntos finales controlados por el atacante. ⁴⁵

2. Compromiso del token y robo de credenciales

Los agentes de IA se autentican en servicios externos mediante tokens OAuth y claves API. Estas credenciales otorgan al agente los mismos permisos que la identidad que representan, y un atacante que las obtenga hereda esos permisos sin activar la autenticación multifactor (MFA), ya que el token en sí mismo es el artefacto de autenticación.

La brecha de seguridad de Salesloft/Drift de agosto de 2025 demuestra el riesgo en cascada. Los atacantes comprometieron una integración de agente de chat de terceros y extrajeron tokens de actualización de OAuth, luego usaron esos tokens para suplantar la aplicación Drift en más de 700 entornos de clientes durante diez días, accediendo a datos, cuentas de Workspace y credenciales en la nube sin activar alertas de autenticación. ⁴⁶ La detección falló porque las consultas OAuth se originaron desde una identidad de aplicación preaprobada idéntica al tráfico legítimo en los registros de autenticación estándar. ⁴⁷

Una investigación publicada a principios de 2026 por la UC Santa Barbara y Fuzzland refuerza esta idea a nivel de infraestructura. Los investigadores adquirieron 28 enrutadores API LLM de pago y recopilaron 400 gratuitos; 9 de ellos inyectaban activamente código malicioso en las respuestas de los modelos. Un honeypot configurado con una clave filtrada OpenAI resultó en la quema de 100 millones de tokens GPT y el secuestro de 401 sesiones, 401 de las cuales ya se ejecutaban en "modo YOLO" sin controles de aprobación humana. ⁴⁸ Ningún proveedor de API LLM impone integridad criptográfica en la ruta de respuesta, lo que significa que un enrutador malicioso puede inyectar instrucciones en las respuestas del modelo y el agente las ejecutará como llamadas legítimas a herramientas.

3. Exceso de permisos y escalada de privilegios

El noventa por ciento de los agentes empresariales tienen permisos excesivos. ⁴⁹ Esto sucede por razones estructurales: las plataformas SaaS establecen por defecto ámbitos OAuth amplios durante la autorización de agentes, los agentes heredan permisos de empleados que se marcharon y cuyas cuentas nunca se limpiaron, y los permisos se acumulan sin revisión a medida que se amplían los agentes para que manejen nuevas tareas.

OWASP sitúa la excesiva capacidad de acción de los agentes entre los tres principales riesgos de seguridad de la IA con capacidad de acción para 2026, definiéndola como la capacidad de los agentes para ir más allá de lo que requieren las tareas. ⁵⁰ La consecuencia del ataque es la escalada de privilegios semánticos: un agente instruido para realizar una tarea legítima adquiere acceso de forma autónoma fuera del alcance previsto a través de cadenas de decisiones autónomas, sin que ningún paso individual active una alerta de seguridad.

El análisis de Okta confirma que los agentes de IA deben ser tratados como usuarios privilegiados sujetos a los mismos controles de acceso, políticas de rotación y registros de auditoría que se aplican a los administradores humanos, y señala que la mayoría de las organizaciones actualmente carecen de esos controles para identidades no humanas. Actualmente, ⁵¹ empresas gestionan una proporción media de 82:1 entre identidades de máquina y humanas, y la proliferación de agentes supera el ritmo de la infraestructura de gobernanza. ⁵²

4. IA en la sombra e implementaciones de agentes no autorizados

Cuando una unidad de negocio conecta Salesforce Agentforce al Google Workspace de la empresa sin la intervención del departamento de TI, el resultado es un agente con acceso a datos SaaS de producción, sin revisión de seguridad, sin registro de acceso y sin forma de revocar credenciales rápidamente si el agente se comporta de forma inesperada. El 87 % de las organizaciones tienen Microsoft Copilot habilitado, lo que convierte la detección de agentes en la sombra en una necesidad casi universal en lugar de un caso excepcional. ⁵³

Las filtraciones de datos mediante IA encubierta cuestan una media de 670.000 dólares más que las filtraciones estándar (4,63 millones de dólares frente a 3,96 millones de dólares), debido al retraso en la detección que se produce cuando los agentes operan fuera de los entornos monitorizados. ⁵⁴ El sesenta y tres por ciento de los empleados que utilizan herramientas de IA pegan datos confidenciales de la empresa en cuentas personales de chatbot, lo que crea violaciones de residencia de datos de las que los equipos de cumplimiento a menudo no son conscientes hasta que una brecha las saca a la luz. ⁵⁵

IDC prevé que el 60% de los fallos de la IA en 2026 se deberán a deficiencias en la gobernanza, en lugar de a problemas de rendimiento del modelo, un enfoque que traslada la responsabilidad de los proveedores de IA a las organizaciones que implementan agentes sin los controles adecuados. ⁵⁶

5. Ataques a la cadena de suministro mediante IA y manipulación de modelos

Las empresas que obtienen modelos de Hugging Face, utilizan paquetes PyPI para marcos de aprendizaje automático o conectan agentes a servidores MCP de terceros heredan las vulnerabilidades existentes en la fuente original. MITRE ATLAS cataloga estas técnicas bajo AML.T0010 (Compromiso de la cadena de suministro de aprendizaje automático), documentando puertas traseras en archivos de modelos serializados, datos de entrenamiento manipulados inyectados en conjuntos de datos públicos y dependencias maliciosas en paquetes de marcos de aprendizaje automático.

En febrero de 2026, la campaña ClawHavoc envenenó sistemáticamente el mercado de habilidades de OpenClaw, convirtiéndose en el primer registro de agentes de IA atacado a gran escala. Se subieron más de 1100 habilidades maliciosas haciéndose pasar por herramientas de productividad y desarrollo, y varias de ellas se convirtieron en algunos de los paquetes más descargados de la plataforma antes de ser detectadas. IBM X-Force confirmó más de 21 000 instancias expuestas. ⁵⁷ Una auditoría simultánea reveló que el 43% de los servidores MCP disponibles públicamente contienen vulnerabilidades de ejecución de comandos y el 36,7% están expuestos a ataques de falsificación de solicitudes del lado del servidor. ⁵⁸

Los ataques de envenenamiento de memoria inyectan instrucciones maliciosas en los almacenes de memoria de los agentes, creando vulnerabilidades persistentes que se activan días o semanas después de la infección inicial. Las investigaciones demostraron tasas de éxito de inyección superiores al 95 % contra agentes de producción mediante interacción de solo consulta. ⁵⁹ En los sistemas multiagente, un solo agente comprometido envenenó el 87% de la toma de decisiones posterior en un plazo de cuatro horas. ⁶⁰

Marcos de cumplimiento y gobernanza para la seguridad de los agentes de IA

Las implementaciones de agentes de IA empresariales se enfrentan a requisitos de cumplimiento superpuestos derivados de normas internacionales, regulaciones sectoriales y legislación regional, que ahora están pasando de ser directrices voluntarias a mandatos de obligado cumplimiento.

La norma ISO/IEC 42001 , publicada en diciembre de 2023, especifica los requisitos para los Sistemas de Gestión de la Inteligencia Artificial (AIMS) con 38 controles distintos que abarcan la evaluación de riesgos, la transparencia y la mejora continua. ⁶¹ La certificación es voluntaria, pero cumple con varios requisitos de gestión de calidad de la Ley de IA de la UE. ⁶² Entre las plataformas de esta comparación, CrowdStrike Charlotte AI cuenta con la certificación ISO 42001, siendo el único producto con esta validación específica de auditoría independiente. ⁶³
El Marco de Gestión de Riesgos de IA del NIST (AI RMF 1.0) organiza la gobernanza de la IA en funciones de GOBERNAR, MAPEAR, MEDIR y GESTIONAR. ⁶⁴ En febrero de 2026, el Centro de Estándares e Innovación de IA (CAISI) del NIST lanzó formalmente la Iniciativa de Estándares de Agentes de IA, el primer programa del gobierno de EE. UU. dedicado al desarrollo de estándares voluntarios específicamente para la seguridad de la IA con agentes. ⁶⁵ Está previsto para el cuarto trimestre de 2026 un perfil de interoperabilidad de agentes de IA con controles específicos para la autenticación de la identidad del agente, el principio de mínimo privilegio y la prevención de la inyección de mensajes. ⁶⁶ El 7 de abril de 2026, el NIST publicó además una nota conceptual para un perfil RMF de IA sobre IA confiable en infraestructura crítica, lo que indica que la IA con agentes en sectores regulados es una prioridad. ⁶⁷
La aplicación de la Ley de IA de la UE a los requisitos de los sistemas de IA de alto riesgo comienza el 2 de agosto de 2026. ⁶⁸ Las organizaciones que utilizan agentes de IA en finanzas, recursos humanos, atención médica o infraestructura crítica deben cumplir con los requisitos de evaluación de conformidad, con sanciones que alcanzan los 35 millones de euros o el 7 % de la facturación anual global por infracciones. ⁶⁹ La Ley exige que los sistemas de IA de alto riesgo mantengan documentación técnica, permitan la supervisión externa, implementen una supervisión humana estructurada con puntos de intervención e incluyan mecanismos de revocación que puedan detener rápidamente el funcionamiento del agente. Los requisitos de transparencia del artículo ⁷⁰ , incluido el marcado legible por máquina para el contenido generado por IA, también entrarán en vigor en agosto de 2026. La Oficina de IA de la UE aún no ha publicado directrices detalladas específicas para los sistemas basados en agentes, lo que genera incertidumbre en materia de cumplimiento que las organizaciones deben resolver mediante su propia interpretación de los principios generales de la Ley. ⁷¹
El informe OWASP Top 10 para aplicaciones agenciales 2026 , publicado en diciembre de 2025, proporciona la primera taxonomía de riesgos de seguridad revisada por pares a nivel mundial para sistemas de IA autónomos, desarrollada con la colaboración de más de 100 investigadores de seguridad. ⁷² Las diez categorías de riesgo (ASI01 a ASI10) abarcan el secuestro de objetivos de agentes, el uso indebido y la explotación de herramientas, el abuso de confianza delegada y las vulnerabilidades de la cadena de suministro de agentes, entre otras. AWS, Microsoft, NVIDIA y GoDaddy han hecho referencia o implementado directrices del marco en producción. Las organizaciones sujetas a la Ley de IA de la UE encontrarán cada vez más que se requiere la cobertura de las 10 principales vulnerabilidades de agentes de OWASP en las evaluaciones de seguridad de los proveedores.
SOC 2 aplica los agentes de IA como organizaciones de subservicios bajo los Criterios de Servicios de Confianza, lo que requiere claves API con alcance definido, límites de transacciones y registros de auditoría completos de las decisiones de los agentes. El artículo ⁷³ del RGPD otorga a las personas derechos en relación con las decisiones exclusivamente automatizadas con efectos jurídicos, exigiendo una participación humana significativa y mecanismos de impugnación para los agentes que toman decisiones con consecuencias. ⁷⁴

Preguntas frecuentes

Los EDR detectan malware y anomalías en los puntos finales. No inspeccionan qué hace un agente de IA con un token OAuth comprometido, si un modelo fue infectado con una puerta trasera antes de su implementación, o si una solicitud integrada en un documento redirigió el comportamiento del agente. La falta de herramientas es real.

Depende de cómo uses la IA. Si implementas agentes que se conectan a plataformas SaaS, procesan contenido externo o utilizan modelos de terceros, entonces sí, Charlotte AI y Purple AI protegen el SOC; no gestionan los agentes en sí. Si solo usas la IA internamente dentro de esas plataformas, la cobertura existente podría ser suficiente.

A partir de abril de 2026, representa una amenaza para la producción. Google y Forcepoint publicaron por separado evidencia de cargas útiles de inyección indirecta integradas en contenido web público a gran escala en sitios estáticos y blogs con instrucciones dirigidas a agentes de IA. Se catalogaron diez cargas útiles activas confirmadas durante el mismo período de informe.