Modèles de langage à grande échelle en cybersécurité ['26]

mis à jour le Fév 5, 2026

Nous avons évalué 7 grands modèles de langage dans 9 domaines de cybersécurité à l'aide de SecBench, un banc d'essai à grande échelle et multiformat pour les tâches de sécurité.

Nous avons testé chaque modèle sur 44 823 questions à choix multiples (QCM) et 3 087 questions à réponse courte (QRC), couvrant des domaines tels que la sécurité des données, la gestion des identités et des accès, la sécurité du réseau, la gestion des vulnérabilités et la sécurité du cloud.

Masters en droit spécialisés en cybersécurité

Modèle	date de sortie	Type de modèle	Formation axée sur
SecLLM	2024	Variante du code LLaMA	– Exemples de code non sécurisé – Extraits de code liés à des CVE – Exploiter les modèles
LLM4Cyber	2024	LLM général optimisé	– MITRE ATT&CK – CVE – Flux de renseignements sur les menaces (CTI)
LlamaGuard	2024	LLaMA conforme aux normes de sécurité	– Messages du filtre de sécurité – Application des politiques d'entrée/sortie – Gestion des réponses conflictuelles
SecGPT	2023	Master en droit de style GPT	– Texte sur la cybersécurité – Rapports CVE
Cybersécurité-BERT	2023	BERT (encodeur uniquement)	– Rapports sur les logiciels malveillants – Descriptions des vulnérabilités – Documentation technique de sécurité

Masters en droit généralistes en cybersécurité

Ces grands modèles de langage ne sont pas entraînés uniquement sur des données de cybersécurité, mais peuvent néanmoins obtenir de bons résultats dans ce domaine lorsqu'ils sont correctement sollicités ou évalués sur des benchmarks comme SecBench.

Exemples :

GPT-4 / GPT-4o
DeepSeek-V3
Mistral
Qwen2 / Yi / LLaMA-3-Instruction
Hunyuan-Turbo

Évaluation comparative des performances des LLM dans les différents domaines de la cybersécurité

Ce test de performance évalue 7 modèles de langages (LLM) généraux , incluant des modèles propriétaires (par exemple, GPT-4) et des modèles open source (par exemple, DeepSeek, Mistral). Il couvre 9 sous-domaines de la cybersécurité , notamment :

Sécurité des données
Gestion des identités et des accès
Sécurité des applications
Sécurité du réseau
Normes de sécurité (et autres)

Les domaines de l'axe des x sont triés en fonction des performances LLM, les domaines ayant obtenu les scores les plus faibles étant placés à gauche et ceux ayant obtenu les scores les plus élevés à droite.

Évaluation comparative des QCM (questions à choix multiples) :

Questions à réponse courte (QRC) :

Source : Conception de SecBench ¹ Voir la méthodologie de référence.

Le rôle des LLM en cybersécurité

Les grands modèles de langage (LLM) sont utilisés dans les opérations de cybersécurité pour extraire des informations exploitables à partir de sources non structurées telles que les rapports de renseignements sur les menaces, les journaux d'incidents, les bases de données CVE et les TTP des attaquants.

Les LLM automatisent des tâches clés, notamment la classification des menaces, la synthèse des alertes et la corrélation des indicateurs de compromission (IOC).

Une fois affinés grâce aux données de cybersécurité, les grands modèles de langage peuvent détecter les anomalies dans les journaux, analyser les courriels d'hameçonnage, hiérarchiser les vulnérabilités et associer les menaces à des cadres comme MITRE ATT&CK.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Applications des grands modèles de langage en cybersécurité

Renseignements sur les menaces

Copilote pour l'analyse contextuelle des menaces : les outils basés sur LLM comme CyLens assistent les analystes de sécurité tout au long du processus de renseignement sur les menaces en analysant des rapports de menaces exhaustifs grâce à des pipelines NLP modulaires et des filtres de corrélation d'entités. ²

Renseignements proactifs sur les menaces en temps réel : les systèmes intègrent des LLM avec des cadres de génération augmentée par récupération (RAG) pour ingérer des flux CTI continus (par exemple, CVE) dans des bases de données vectorielles (comme Milvus), permettant une détection automatisée, une notation et un raisonnement contextuel à jour. ³

Extraction d'indicateurs de menaces clés (CTI) à partir de forums : les modèles linguistiques logiques (LLM) analysent des données non structurées provenant de forums de cybercriminalité pour extraire des indicateurs de menaces clés à l'aide de simples invites. ⁴

Détection des vulnérabilités

Enrichissement des descriptions de vulnérabilités : les LLM tels que CVE-LLM enrichissent les descriptions de vulnérabilités à l’aide d’ontologies de domaine, permettant un tri automatisé et l’intégration du score CVSS dans les systèmes de gestion de la sécurité existants. ⁵

Détection des vulnérabilités du système de fichiers Android : examine comment les LLM peuvent détecter les vulnérabilités d’accès au système de fichiers dans les applications Android, notamment l’abus d’autorisations et le stockage non sécurisé. ⁶

Réglage fin RL pour la détection des vulnérabilités : Applique l'apprentissage par renforcement (RL) pour régler finement les LLM (LLaMA 3B/8B, Qwen 2.5B) pour une précision améliorée dans l'identification des vulnérabilités logicielles. ⁷

Anomaly détection et analyse des journaux

Détection sémantique des anomalies dans les journaux : des frameworks comme LogLLM utilisent des encodeurs/décodeurs LLM pour analyser et classer les entrées de journal, améliorant ainsi la détection des anomalies au-delà de la simple correspondance de modèles. ⁸

Analyse des journaux avec de grands modèles de langage : l’analyse automatisée des LLM convertit les journaux non structurés en formats structurés via des approches basées sur des invites et des réglages précis. ⁹

Équipe rouge / Prévention des attaques assistée par LLM

Tests d'intrusion et correction pilotés par LLM (penheal) : automatise les tests d'intrusion à l'aide d'un pipeline en deux étapes ; identification des faiblesses de sécurité, puis génération d'actions de correction à l'aide d'une configuration LLM personnalisée. ¹⁰

Agent d'équipe rouge sur site pour la sécurité interne (hackphyr) : Déploie localement un agent 7B LLM finement réglé pour effectuer des tâches d'équipe rouge telles que la simulation de mouvement latéral, la collecte d'identifiants et l'analyse des vulnérabilités dans les réseaux. ¹¹

Méthodologie de référence

SecBench est un banc d'essai multidimensionnel à grande échelle permettant d'évaluer les LLM en cybersécurité à travers différentes tâches, domaines, langages et formats.

Dimensions d'évaluation

1. Raisonnement à plusieurs niveaux :

Rétention des connaissances (RC) : Questions qui testent les connaissances factuelles ou les définitions. Celles-ci sont plus simples.
Raisonnement logique (RL) : questions qui exigent une inférence et une compréhension plus approfondie. Plus complexes, elles testent la capacité du modèle à raisonner en fonction du contexte.

2. Multi-format :

QCM (Questions à choix multiples) : Format traditionnel où le modèle sélectionne parmi des réponses prédéfinies. 44 823 questions au total.
Questions à réponse courte (QRC) : Format ouvert exigeant du modèle qu’il formule sa réponse afin d’évaluer son raisonnement, sa clarté et sa résistance aux hallucinations. 3 087 questions au total.

3. Multilingue :

SecBench comprend des questions en chinois et en anglais .

4. Multi-domaine :

Les questions couvrent 9 domaines de cybersécurité (D1–D9) , notamment : la gestion de la sécurité, la sécurité des données, la sécurité du réseau, la sécurité des applications, la sécurité du cloud, et plus encore.

Évaluation

Les QCM sont notés en vérifiant si le modèle sélectionne la ou les bonnes réponses.

Les SAQ sont notés à l'aide d'un mini « agent de notation » GPT-4o , qui compare la réponse du modèle à la vérité terrain et attribue un score basé sur la précision et l'exhaustivité.

Évaluation des performances du LLM : Par exemple, la sécurité réseau (D3) est évaluée en regroupant les questions pertinentes de son ensemble de données de QCM de 44 823 questions.

La précision est mesurée en fonction des performances de chaque modèle, et plus précisément sur les questions relevant du domaine D3. Le score en pourcentage d'un modèle pour D3 reflète la proportion de questions de sécurité réseau auxquelles il a répondu correctement.

Liens de référence

https://arxiv.org/pdf/2412.20787

[2502.20791] CyLens: Towards Reinventing Cyber Threat Intelligence in the Paradigm of Agentic Large Language Models

[2504.00428] LLM-Assisted Proactive Threat Intelligence for Automated Reasoning

https://arxiv.org/pdf/2408.03354

https://arxiv.org/pdf/2502.15932

https://arxiv.org/pdf/2407.11279

https://arxiv.org/pdf/2505.02079

https://arxiv.org/pdf/2411.08561

https://arxiv.org/pdf/2504.04877

10.

https://arxiv.org/pdf/2407.13267

11.

https://arxiv.org/pdf/2407.08991

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Modèles de langage à grande échelle en cybersécurité ['26]

Masters en droit spécialisés en cybersécurité

Masters en droit généralistes en cybersécurité

Évaluation comparative des performances des LLM dans les différents domaines de la cybersécurité

Le rôle des LLM en cybersécurité

Applications des grands modèles de langage en cybersécurité

Renseignements sur les menaces

Détection des vulnérabilités

Anomaly détection et analyse des journaux

Équipe rouge / Prévention des attaques assistée par LLM

Méthodologie de référence

Dimensions d'évaluation

Évaluation

Liens de référence

Soyez le premier à commenter

À lire ensuite

LCM : De la tokenisation LLM à la représentation au niveau conceptuel

Les meilleurs LLM pour les fenêtres de contexte étendues en 2026

Simulation d'audience : les LLM peuvent-ils prédire le comportement humain ?

Comparatif de 38 LLM en finance : Claude Opus 4.6, Gemini 3.1 Pro et plus

Analyse comparative des reçus OCR avec LLM

Master en droit en ligne vs Master en droit local : exemples et avantages