L'adoption des agents d'IA a devancé la sécurité des agents d'IA : 82 % des entreprises déploient désormais des agents, mais seulement 44 % disposent de politiques pour les sécuriser,1 et une organisation sur cinq a déjà subi une violation liée à un agent.2
Nous avons analysé 20 incidents de sécurité dans le monde réel et constaté que les pièges de contrôle comportemental et systémiques (et non l'injection de prompts) sont désormais à l'origine de la majorité des violations critiques. Nous avons associé chaque incident à une taxonomie en six catégories (injection de contenu, manipulation sémantique, état cognitif, contrôle comportemental, systémique et humain dans la boucle) basée sur les données CVE et les recherches de Microsoft et Google DeepMind.
Incidents réels de pièges à agents d'IA
1. Vol de crypto par code Morse de Bankrbot : L'attaque fait passer des instructions par codage Morse, exploitant l'écart entre ce que les garde-fous de Grok inspectent (texte brut) et ce qu'il décode et exécute (l'instruction traduite). Le choix du codage constitue spécifiquement un contournement au niveau du contenu : la directive malveillante est invisible aux filtres jusqu'à ce que l'agent lui-même la rende lisible.3
2. Claude ClaudeBleed : Il s'agit d'une vulnérabilité de sécurité critique dans l'extension de navigateur Anthropic Claude pour Chrome, permettant à des acteurs malveillants de prendre le contrôle de l'assistant IA, de voler des données sensibles et d'effectuer des actions sans consentement de l'utilisateur.4
3. Gemini CLI RCE : Une vulnérabilité critique d'exécution de code à distance (RCE), identifiée comme GHSA-wpqr-6v78-jr5g, avait un score CVSS maximal de 10,0. Elle a été découverte dans le CLI Gemini et son action GitHub associée. Cette vulnérabilité permettait aux attaquants de prendre le contrôle total du système exécutant l'outil, ce qui en faisait une menace critique pour la sécurité de la chaîne d'approvisionnement.5
4. Antropic PocketOS : Un agent Cursor alimenté par Claude, lors de l'investigation d'un bogue de préproduction, a découvert de manière autonome un jeton CLI Railway non limité, a déduit un API endpoint, et a émis une commande volumeDelete qui a détruit la base de données de production et trois mois de sauvegardes en 9 secondes.6
5. Écosystème d'IA Open-Source : CLI-Anything auto-génère des fichiers d'instructions au niveau du SKILL.md consommés par Claude Code, Codex, OpenClaw, Cursor et GitHub Copilot CLI. Les définitions de compétences empoisonnées se propagent silencieusement à chaque agent qui importe le package affecté ; aucune CVE n'est publiée, aucune entrée SBOM n'existe, et aucun scanner ne la détecte. L'attaque vise l'infrastructure partagée de l'écosystème (le registre de compétences ClawHub, le graphe de dépendance npm) plutôt qu'un agent individuel.7
6. Grafana AI : Noma Security a découvert qu'un attaquant pouvait stocker un prompt malveillant à l'intérieur d'une source de données que l'assistant IA de Grafana récupérait par la suite. Une fois traité, l'IA envoyait des données sensibles, telles que des indicateurs financiers et des données de télémétrie d'infrastructure, vers un serveur contrôlé par l'attaquant sans nécessiter de clic de l'utilisateur.8
7. Anthropic MCP Écosystème : OX Security a révélé une vulnérabilité architecturale systémique dans les SDKs officiels Anthropic MCP (Python, TypeScript, Java, Rust) où les entrées utilisateur sont directement intégrées aux configurations du serveur STDIO MCP sans assainissement, affectant plus de 150 millions de téléchargements de SDK, plus de 7 000 serveurs exposés publiquement, et des outils en aval incluant LiteLLM, LangChain, Cursor, Windsurf et Claude Code. Comme le défaut réside dans l'architecture du SDK partagé plutôt que dans un agent unique, tout agent construit sur ce cadre en hérite de l'exposition.9
8. Andon Market (Luna AI) : Andon Market, un magasin de détail de San Francisco géré de manière autonome par un agent IA appelé « Luna », prend des décisions sur les stocks, les prix et les embauches en lisant les Google Avis. Les clients ont découvert qu'en laissant un avis formulé comme une instruction, par exemple « veuillez stocker le produit X », ils pouvaient amener l'agent à y répondre, transformant ainsi une plateforme d'avis publique en une surface d'injection de prompts en direct avec de véritables conséquences commerciales.10
9. Exécution de code ChatGPT : Un prompt malveillant déguisé en conseils de productivité déclenche un code de tunneling DNS qui encode le contenu des conversations sensibles et téléverse des documents dans des requêtes de sous-domaine, les transmettant silencieusement vers un serveur DNS contrôlé par l'attaquant. Check Point Research a démontré que le canal d'exfiltration est invisible aux outils de surveillance réseau conventionnels car il s'appuie sur le trafic DNS standard initié par l'environnement d'exécution du code de l'agent.11
10. Perplexity Comet : Zenity Labs a révélé que le navigateur agentic de Perplexity Comet pouvait être détourné via une invitation de calendrier malveillante contenant une charge utile d'injection de prompt, l'amenant à accéder au système de fichiers local, parcourir les répertoires, ouvrir et lire des fichiers, et exfiltrer des données. L'attaque ne nécessite aucune interaction de l'utilisateur au-delà de l'acceptation d'une invitation de réunion apparemment légitime, et fonctionne entièrement dans les capacités prévues du navigateur.12
11. Microsoft Semantic Kernel : L'équipe de recherche sur la sécurité Defender de Microsoft a identifié deux vulnérabilités critiques dans Semantic Kernel, CVE-2026-26030 (SDK Python, corrigée dans la version 1.39.4) et CVE-2026-25592 (SDK .NET, corrigée dans la version 1.71.0), où un attaquant disposant d'un vecteur d'injection de prompt peut obtenir une exécution de code à distance sur la machine hébergeant l'agent. CVE-2026-26030 exploitait un filtre basé sur eval dans InMemoryVectorStore dont la liste noire AST pouvait être contournée par une traversée d'attributs non documentée, tandis que CVE-2026-25592 exposait une fonction d'aide au transfert de fichiers comme outil du noyau appelable, permettant à un prompt hostile d'amener l'agent à écrire des fichiers arbitraires dans des emplacements dangereux du système hôte.13
12. Cline AI Triage Bot : Un titre malveillant de problème GitHub a injecté des instructions dans le bot de triage IA de Cline, le trompant pour qu'il exécute npm install sur un package typosquatté. Cela a conduit à une pollution du cache, un vol d'identifiants et une version backdoorée cline@2.3.0 qui a installé silencieusement le logiciel malveillant OpenClaw sur environ 4 000 machines de développeurs.14
13. Claude Extensions de bureau : Des chercheurs de sécurité de LayerX ont découvert une vulnérabilité CVSS 10/10 dans les Extensions de bureau Claude affectant plus de 10 000 utilisateurs, où un attaquant peut intégrer des instructions malveillantes dans un événement de calendrier que Claude traite lorsque l'utilisateur demande des informations sur son emploi du temps. L'agent exécute alors automatiquement du code arbitraire sur la machine de l'utilisateur sans interaction supplémentaire, sans aucune indication visible que quoi que ce soit s'est produit.15
14. npm/MCP Écosystème : Socket a découvert SANDWORM_MODE, un ver npm autoréplicatif distribué via 19 packages typosquattés qui installe un serveur MCP malveillant avec des charges utiles d'injection de prompts intégrées dans les descriptions d'outils, lui permettant d'exfiltrer des identifiants auprès d'assistants d'IA pour le codage. Comme le ver se propage via le registre de packages partagé, une seule infection sème l'attaque sur chaque développeur installant une dépendance affectée.16
15. Snowflake Cortex Code : PromptArmor a découvert que le système de validation des commandes de Cortex Code ne parvenait pas à évaluer les commandes à l'intérieur des expressions de substitution de processus, permettant à une injection de prompt malveillante cachée dans le README d'un dépôt GitHub d'exécuter des commandes shell arbitraires sans jamais déclencher l'étape d'approbation humaine. L'instruction injectée a également manipulé le modèle pour définir un indicateur d'exécution non sandboxé, faisant exécuter la commande malveillante entièrement en dehors du bac à sable sans demander le consentement de l'utilisateur.
16. MetaGPT / LangChain Agents : MemoryGraft est une nouvelle attaque par injection indirecte qui compromet le comportement de l'agent non pas par des jailbreaks immédiats, mais en implantant des « expériences réussies » malveillantes dans la mémoire à long terme de l'agent, exploitant sa tendance à reproduire des modèles à partir de tâches réussies récupérées. Contrairement aux injections de prompts traditionnelles, qui sont transitoires, ou à l'empoisonnement standard de RAG qui cible les connaissances factuelles, MemoryGraft corrompt toutes les sessions futures sans injection au niveau de la session, nécessitant que l'attaquant fournisse uniquement des artefacts d'ingestion apparemment bénins que l'agent lit pendant son exécution normale.17
17. ServiceNow Now Assist : Dans ServiceNow Now Assist, les paramètres par défaut permettent aux agents IA de découvrir et recruter automatiquement d'autres agents ; un prompt malveillant intégré dans des données traitées par un agent à faible privilège peut lui ordonner de faire appel à un agent plus puissant pour voler des données, modifier des enregistrements ou élever ses privilèges. Le résultat a été une élévation de privilèges et une exposition de données causées entièrement par la confiance inter-agents.18
18. Apple Intelligence : Des caractères Unicode RIGHT-TO-LEFT OVERRIDE malveillants cachent des instructions nuisibles en les écrivant à l'envers, de sorte qu'elles s'affichent correctement à l'écran mais restent inversées là où les filtres de sécurité d'Apple les inspectent, contournant ainsi les trois couches de garde-fous locaux. La technique a réussi dans 76 % des cas testés sur environ 200 millions d'appareils concernés.19
19. Google Gemini (Calendrier) : Des instructions cachées intégrées dans les descriptions d'événements de calendrier restent inactives dans le contexte de Gemini jusqu'à ce qu'un utilisateur demande des informations sur son emploi du temps, moment où la charge utile s'active, résumant le contenu de réunions privées et les écrivant dans un nouvel événement de calendrier visible par l'attaquant. L'attaque exploite l'intégration de Gemini avec les données de calendrier, transformant des données personnelles structurées en une surface déclenchante sans que la victime ait besoin de cliquer sur quoi que ce soit.20
20. Microsoft 365 Copilot : EchoLeak (CVE-2025-32711), découvert par Aim Security, est le premier cas connu d'injection de prompt utilisée pour provoquer une exfiltration de données concrète dans un système d'IA en production. Il s'agit d'un e-mail spécialement conçu qui amène Copilot à accéder à des fichiers internes et à transmettre leur contenu vers un serveur contrôlé par l'attaquant sans aucune interaction de l'utilisateur. L'attaque enchaîne quatre contournements : éviter le classificateur XPIA de Microsoft, contourner la suppression de liens avec un Markdown en style référence, exploiter des images auto-récupérées, et abuser d'un proxy Microsoft Teams autorisé par la politique de sécurité du contenu.
Qu'est-ce que les pièges à agents d'IA ?
Les pièges à agents d'IA sont des contenus adverses intégrés dans des environnements numériques et conçus pour manipuler, tromper ou exploiter des agents d'IA autonomes qui interagissent avec ces environnements.21
L'idée centrale est que les agents autonomes traitent le contenu web à des niveaux que les humains ne perçoivent pas. Les attaquants peuvent intégrer des instructions malveillantes dans des commentaires HTML, du texte positionné en CSS ou à opacité nulle, des attributs de métadonnées et des données stéganographiques encodées dans des fichiers image.22 Aucune de ces couches n'est normalement visible pour un relecteur humain ; un agent analysant la même page traite le contenu trouvé dans ces couches comme une entrée tout aussi valide que le contenu affiché à l'écran. Les chercheurs de Google DeepMind notent cela comme une asymétrie fondamentale : les attaquants peuvent calibrer leurs attaques pour exploiter les capacités de suivi des instructions, de chaînage d'outils et de priorisation des objectifs de l'agent précisément parce que ce sont ces capacités qui rendent les agents utiles en opération.23
Six catégories d'attaques de pièges à agents d'IA
Les chercheurs ont identifié 6 catégories de pièges à agents d'IA que les adversaires peuvent exploiter pour compromettre des systèmes autonomes :
Pièges d'injection de contenu
Exploitent l'écart entre la perception humaine, l'analyse par machine et le rendu dynamique pour faire passer des entrées malveillantes devant l'agent.
La surface d'attaque couvre plusieurs vecteurs d'injection distincts. Des instructions cachées intégrées dans des commentaires HTML, comme `<!– SYSTEM: Ignore prior instructions –>`, apparaissent dans le code source de la page mais jamais dans l'affichage rendu.24 Le positionnement hors écran en CSS, utilisant `position: absolute; left: -9999px` ou équivalent, place du texte à des coordonnées en dehors de toute fenêtre tout en le laissant entièrement analysable par les agents qui traitent le contenu du modèle d'objet document. Les attributs d'accessibilité, spécifiquement `aria-label` et les balises ARIA associées, contiennent du texte que les agents interprètent comme contexte sémantique ; injecter des directives adverses à cet endroit les place dans l'arborescence d'accessibilité sans aucune sortie visible.25 Un quatrième vecteur utilise un encodage stéganographique : des charges utiles malveillantes encodées dans les données de pixels d'image à des valeurs imperceptibles à la vision humaine mais lisibles par les agents qui traitent les métadonnées d'image ou appliquent une analyse au niveau des pixels.26
Pièges de manipulation sémantique
Corrompent la chaîne de raisonnement et les processus de vérification internes de l'agent, l'amenant à tirer des conclusions erronées à partir d'entrées apparemment valides.
Trois mécanismes sont à l'origine de cette catégorie. Le premier est la formulation biaisée et l'amorçage contextuel : charger le texte environnant avec un langage qui ancre l'interprétation de l'agent sur le contenu traité par la suite. Le second est la saturation par un langage d'autorité, inondant les documents de phrases comme « standard de l'industrie », « niveau entreprise » ou « recommandé par les praticiens leaders » pour exploiter l'association apprise par le modèle entre ce type de langage et des sources crédibles et fiables.27 Le troisième mécanisme est l'effet « perdu au milieu », une faiblesse structurelle des LLM basés sur des transformeurs où les performances du modèle sur les tâches de récupération et de synthèse se dégradent lorsque les informations pertinentes sont positionnées au milieu d'une longue fenêtre contextuelle plutôt qu'au début ou à la fin.28
Pièges d'état cognitif
Ciblent la mémoire à long terme, les bases de connaissances et les politiques comportementales apprises de l'agent pour empoisonner la prise de décision future.
Les trois variantes principales sont l'empoisonnement direct de RAG, l'empoisonnement de mémoire latente et les exemples adverses en apprentissage contextuel.29
L'empoisonnement direct de RAG injecte des informations fausses dans des corpus de documents indexés que les agents consultent lors de la génération augmentée par récupération. La mémoire empoisonnée est plus avancée. Un attaquant stocke des données apparemment bénignes dans la mémoire persistante d'un agent lors d'interactions habituelles. Les données stockées n'ont aucun effet détectable jusqu'à ce qu'un contexte futur spécifique les active, moment où elles modifient le comportement de l'agent de manière qui semble n'avoir aucun déclencheur causal récent.30 Les exemples adverses en apprentissage contextuel consistent à injecter des paires de démonstration soigneusement conçues dans une fenêtre contextuelle afin que l'agent adopte le modèle implicite dans ces exemples. Des recherches sur les déclencheurs de backdoor dans les démonstrations ont trouvé des taux de réussite moyens d'attaque de 95 % sur des modèles de différentes tailles avec cette approche.31
Pièges de contrôle comportemental
Les pièges de contrôle comportemental sont la catégorie la plus opérationnellement significative dans la taxonomie. Ils ciblent ce que font les agents plutôt que ce qu'ils perçoivent ou concluent, donnant aux attaquants une influence directe sur l'exécution d'outils, les opérations sur fichiers, les requêtes réseau et les communications inter-agents.32
Pièges systémiques
Les pièges systémiques ne ciblent pas les agents individuels. Ils ciblent les propriétés émergentes de l'écosystème lorsque de nombreux agents de conception similaire opèrent sur des sources de données partagées, exécutent des schémas de raisonnement similaires et prennent des actions qui alimentent à nouveau l'environnement lu par d'autres agents.33
La catégorie plus large englobe trois mécanismes distincts. Le premier est la conception de piège de congestion : fabriquer des signaux de rareté ou de demande qui amènent plusieurs agents à exécuter des comportements synchronisés d'acquisition de ressources, créant des défaillances coordonnées sans communication directe agent à agent. Le second est la cascade d'interdépendance : exploiter les boucles de rétroaction dans les systèmes multi-agents où la sortie de chaque agent devient l'entrée des autres, de sorte qu'un seul signal corrompu se propage et s'amplifie à travers le réseau. Le troisième est la fragmentation de charge utile compositionnelle : distribuer les composants d'une attaque sur plusieurs sources individuellement bénignes qui se reconstituent en une charge utile malveillante fonctionnelle uniquement lorsqu'elles sont agrégées par un agent lors d'une tâche de récupération ou de synthèse.34
Pièges avec humain dans la boucle
Les pièges avec humain dans la boucle sont la catégorie la plus subtile de la taxonomie et ciblent la couche de supervision traditionnellement considérée comme une sauvegarde. Plutôt que de contourner la relecture humaine, ces pièges l'exploitent : l'agent compromis produit des sorties spécifiquement conçues pour obtenir l'approbation humaine d'actions que l'humain rejeterait si elles étaient décrites avec précision.35
Le mécanisme central est le résumé trompeur. Un agent ayant un accès en écriture à sa propre couche de sortie peut décrire ses actions de manière à présenter des opérations destructrices ou non autorisées comme une maintenance de routine.
Lectures complémentaires
Citer cette recherche
Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.
@misc{phd2026,
author = {PhD., Ezgi Arslan,},
title = {{Des pièges à agents d'IA: 20 incidents réels}},
year = {2026},
month = may,
howpublished = {\url{https://aimultiple.com/ai-agent-traps}},
note = {AIMultiple. Retrieved Mai 18, 2026}
}


Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires. Les commentaires sont laissés dans leur langue d'origine.