Benchmark

Modelli Linguistici di Grande Dimensione nella Cybersecurity

aggiornato il 5 giu. 2026

Abbiamo valutato 7 modelli linguistici di grande dimensione in 9 ambiti della cybersecurity utilizzando SecBench, un benchmark su larga scala e multi-formato per attività di sicurezza.

Abbiamo testato ogni modello su 44.823 domande a scelta multipla (MCQ) e 3.087 domande a risposta breve (SAQ), coprendo aree come la sicurezza dei dati, la gestione dell'identità e degli accessi, la sicurezza di rete, la gestione delle vulnerabilità e la sicurezza cloud.

Modelli LLM specializzati per la cybersecurity

Modello	Data di rilascio	Tipo di modello	Focus dell'addestramento
SecLLM	2024	Variante di Code LLaMA	– Campioni di codice insicuro – Frammenti di codice collegati a CVE – Pattern di exploit
LLM4Cyber	2024	LLM generico fine-tuned	– MITRE ATT&CK – CVE – Feed di intelligence sulle minacce (CTI)
LlamaGuard	2024	LLaMA allineato alla sicurezza	– Prompt di filtri di sicurezza – Applicazione delle policy di input/output – Gestione di prompt avversari
SecGPT	2023	LLM in stile GPT	– Testo sulla cybersecurity – Rapporti CVE
Cybersecurity-BERT	2023	BERT (solo encoder)	– Rapporti sui malware – Descrizioni delle vulnerabilità – Documentazione tecnica sulla sicurezza

LLM generici per la cybersecurity

Questi modelli linguistici di grande dimensione non sono addestrati esclusivamente su dati di cybersecurity, ma possono comunque performare bene nel dominio se sollecitati correttamente o valutati su benchmark come SecBench.

Esempi:

GPT-4 / GPT-4o
DeepSeek-V3
Mistral
Qwen2 / Yi / LLaMA-3-Instruct
Hunyuan-Turbo

Valutazione delle prestazioni degli LLM in vari ambiti della cybersecurity

Questo benchmark valuta 7 LLM generici, inclusi modelli proprietari (es. GPT-4) e open-source (es. DeepSeek, Mistral). Il benchmark copre 9 sottocampi della cybersecurity, tra cui:

Sicurezza dei dati
Gestione dell'identità e degli accessi
Sicurezza delle applicazioni
Sicurezza di rete
Standard di sicurezza (e altri)

I domini sull'asse x sono ordinati in base alle prestazioni degli LLM, con i domini a punteggio più basso posizionati a sinistra e quelli a punteggio più alto a destra.

Valutazione tramite MCQ (Domande a scelta multipla):

SAQ (Domande a risposta breve):

Sorgente: Design di SecBench¹ Consulta la metodologia del benchmark.

Lascia che il nostro team automatizzi uno dei tuoi processi aziendali con agenti IA, gratuitamente.

Automatizza un processo

Il ruolo degli LLM nella cybersecurity

I modelli linguistici di grande dimensione (LLM) sono utilizzati nelle operazioni di cybersecurity per estrarre informazioni fruibili da fonti non strutturate come rapporti di intelligence sulle minacce, log degli incidenti, database CVE e TTP degli attaccanti.

Gli LLM automatizzano attività chiave, inclusa la classificazione delle minacce, il riassunto degli avvisi e la correlazione degli indicatori di compromissione (IOC).

Quando fine-tuned su dati di cybersecurity, i modelli linguistici di grande dimensione possono rilevare anomalie nei log, analizzare email di phishing, dare priorità alle vulnerabilità e mappare le minacce su framework come MITRE ATT&CK.

Applicazioni dei modelli linguistici di grande dimensione nella cybersecurity

Intelligence sulle minacce

Co-pilot per l'analisi contestuale delle minacce: Strumenti basati su LLM come CyLens supportano gli analisti di sicurezza durante l'intelligence sulle minacce analizzando estesi rapporti sulle minacce con pipeline NLP modulari e filtri di correlazione delle entità.²

Intelligence sulle minacce proattiva in tempo reale: i sistemi integrano LLM con framework di generazione aumentata dal recupero (RAG) per ingerire feed CTI continui (es. CVE) in database vettoriali (come Milvus), consentendo rilevamento, punteggio e ragionamento contestuale automatizzati e aggiornati.³

Estrazione di CTI basata su forum: Gli LLM analizzano dati non strutturati da forum di cybercriminalità per estrarre indicatori chiave delle minacce utilizzando prompt semplici.⁴

Rilevamento delle vulnerabilità

Arricchimento delle descrizioni delle vulnerabilità: Gli LLM come CVE-LLM arricchiscono le descrizioni delle vulnerabilità utilizzando ontologie di dominio, consentendo la triage automatizzata e l'integrazione del punteggio CVSS all'interno dei sistemi esistenti di gestione della sicurezza.⁵

Rilevamento delle vulnerabilità del filesystem Android: Indaga come gli LLM possono rilevare vulnerabilità di accesso al filesystem nelle app Android, inclusi abusi di permessi e archiviazione insicura.⁶

Fine-tuning RL per il rilevamento delle vulnerabilità: Applica l'apprendimento per rinforzo (RL) per fine-tune LLM (LLaMA 3B/8B, Qwen 2.5B) per migliorare l'accuratezza nell'identificare le vulnerabilità software.⁷

Rilevamento delle anomalie e analisi dei log

Rilevamento semantico delle anomalie nei log: Framework come LogLLM utilizzano encoder/decoder LLM per analizzare e classificare le voci dei log, migliorando il rilevamento delle anomalie oltre il semplice matching di pattern.⁸

Analisi dei log con modelli linguistici di grande dimensione: L'analisi automatizzata degli LLM converte log non strutturati in formati strutturati tramite approcci basati su prompt e fine-tuned.⁹

Red teaming / Prevenzione degli attacchi assistita da LLM

Pentesting e rimedio guidati da LLM (penheal): Automatizza i test di penetrazione utilizzando una pipeline a due stadi; prima identificando le debolezze di sicurezza, poi generando azioni di rimedio utilizzando una configurazione LLM personalizzata.¹⁰

Agente red team on-prem per la sicurezza interna (hackphyr): Distribuisce localmente un agente LLM fine-tuned da 7B per eseguire attività di red-team come simulazione di movimento laterale, raccolta di credenziali e scansione delle vulnerabilità nelle reti.¹¹

Non perderti i nostri benchmark e approfondimenti basati sui dati. Il pulsante apre Google; selezionare AIMultiple conferma che desideri vedere AIMultiple più spesso nei risultati di ricerca di Google.

Aggiungi come fonte preferita

Metodologia del benchmark

SecBench è un benchmark su larga scala e multidimensionale per valutare gli LLM nella cybersecurity attraverso diversi compiti, domini, lingue e formati.

Dimensionidi valutazione

1. Ragionamento multilivello:

Ritenzione della conoscenza (KR): Domande che testano la conoscenza fattuale o le definizioni. Queste sono più dirette.
Ragionamento logico (LR): Domande che richiedono inferenza e una comprensione più profonda. Queste sono più impegnative e testano la capacità del modello di ragionare in base al contesto.

2. Multi-formato:

MCQ (Domande a scelta multipla): Formato tradizionale in cui il modello seleziona tra risposte predefinite. Totale di 44.823 domande.
SAQ (Domande a risposta breve): Formato aperto che richiede al modello di generare la propria risposta per valutare il ragionamento, la chiarezza e la resistenza all'allucinazione. Totale di 3.087 domande.

3. Multi-lingua:

SecBench include domande sia in cinese che in inglese.

4. Multi-dominio:

Le domande coprono 9 domini della cybersecurity (D1–D9), tra cui: gestione della sicurezza, sicurezza dei dati, sicurezza di rete, sicurezza delle applicazioni, sicurezza cloud e altro.

Valutazione

I MCQ sono valutati verificando se il modello seleziona la scelta corretta.

I SAQ sono valutati utilizzando un GPT-4o mini "agente di valutazione", che confronta la risposta del modello con la verità fondamentale e assegna un punteggio in base all'accuratezza e alla completezza.

Valutazione delle prestazioni degli LLM: Ad esempio, la Sicurezza di rete (D3) è valutata raggruppando le domande pertinenti dal suo dataset di 44.823 MCQ.

L'accuratezza è misurata in base alle prestazioni di ogni modello, specificamente sulle domande etichettate sotto il dominio D3. La percentuale di punteggio di un modello per D3 riflette la proporzione di domande sulla sicurezza di rete a cui ha risposto correttamente.

Cita questa ricerca

Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.

Cem Dilmegani (2026) - "Modelli Linguistici di Grande Dimensione nella Cybersecurity". Pubblicato online su AIMultiple.com. Consultato il 5 Giugno 2026, da: https://aimultiple.com/llms-in-cybersecurity [Risorsa online]

Dilmegani, C. (2026, 5 Giugno). Modelli Linguistici di Grande Dimensione nella Cybersecurity. AIMultiple. https://aimultiple.com/llms-in-cybersecurity

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Modelli Linguistici di Grande Dimensione nella Cybersecurity}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/llms-in-cybersecurity}},
  note   = {AIMultiple. Consultato il 5 Giugno 2026}
}

Collegamenti di riferimento

https://arxiv.org/pdf/2412.20787

[2502.20791] CyLens: Towards Reinventing Cyber Threat Intelligence in the Paradigm of Agentic Large Language Models

[2504.00428] LLM-Assisted Proactive Threat Intelligence for Automated Reasoning

https://arxiv.org/pdf/2408.03354

https://arxiv.org/pdf/2502.15932

https://arxiv.org/pdf/2407.11279

https://arxiv.org/pdf/2505.02079

https://arxiv.org/pdf/2411.08561

https://arxiv.org/pdf/2504.04877

10.

https://arxiv.org/pdf/2407.13267

11.

https://arxiv.org/pdf/2407.08991

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo