Abbiamo valutato 7 modelli linguistici di grandi dimensioni in 9 domini di sicurezza informatica utilizzando SecBench, un benchmark su larga scala e multiformato per attività di sicurezza.
Abbiamo testato ciascun modello su 44.823 domande a risposta multipla (MCQ) e 3.087 domande a risposta breve (SAQ), riguardanti aree quali sicurezza dei dati, gestione delle identità e degli accessi, sicurezza di rete, gestione delle vulnerabilità e sicurezza del cloud.
Master in Leadership di Livello inferiore (LLM) specializzati in sicurezza informatica.
Modello | Data di rilascio | Tipo di modello | Focus della formazione |
|---|---|---|---|
SecLLM | 2024 | Variante del codice LLaMA | – Esempi di codice non sicuri – Frammenti di codice collegati a CVE – Schemi di sfruttamento |
LLM4Cyber | 2024 | LLM generale finemente sintonizzato | – MITRE ATT&CK – CVE – Feed di intelligence sulle minacce (CTI) |
LlamaGuard | 2024 | LLaMA allineato alla sicurezza | – Richieste del filtro di sicurezza – Applicazione delle politiche di input/output – Gestione dei prompt avversari |
SecGPT | 2023 | LLM in stile GPT | – Testo sulla sicurezza informatica – Rapporti CVE |
Sicurezza informatica-BERT | 2023 | BERT (solo codificatore) | – Segnalazioni di malware – Descrizione delle vulnerabilità – Documentazione tecnica sulla sicurezza |
LLM di uso generale per la sicurezza informatica
Questi modelli linguistici di grandi dimensioni non sono addestrati esclusivamente su dati di sicurezza informatica, ma possono comunque ottenere buoni risultati in questo ambito se opportunamente sollecitati o valutati su benchmark come SecBench.
Esempi:
- GPT-4 / GPT-4o
- DeepSeek-V3
- Maestrale
- Qwen2 / Yi / LLaMA-3-Instruct
- Hunyuan-Turbo
Confronto delle prestazioni di LLM nei diversi ambiti della sicurezza informatica.
Questo benchmark valuta 7 modelli LLM generali , inclusi sia modelli proprietari (ad esempio, GPT-4) che modelli open-source (ad esempio, DeepSeek, Mistral). Il benchmark copre 9 sottocampi della sicurezza informatica , tra cui:
- Sicurezza dei dati
- Gestione delle identità e degli accessi
- Sicurezza delle applicazioni
- Sicurezza di rete
- Standard di sicurezza (e altri)
I domini sull'asse x sono ordinati in base alle prestazioni LLM, con i domini con punteggio inferiore posizionati a sinistra e quelli con punteggio superiore a destra.
Valutazione comparativa dei quiz a risposta multipla (MCQ):
Domande a risposta breve (SAQ):
Fonte: progetto SecBench 1 Vedere la metodologia di riferimento.
Il ruolo dei LLM nella sicurezza informatica
I modelli linguistici di grandi dimensioni (LLM) vengono utilizzati nelle operazioni di sicurezza informatica per estrarre informazioni utili da fonti non strutturate come report di intelligence sulle minacce, registri degli incidenti, database CVE e tattiche, tecniche e procedure (TTP) degli aggressori.
I sistemi LLM automatizzano attività chiave, tra cui la classificazione delle minacce, la sintesi degli avvisi e la correlazione degli indicatori di compromissione (IOC).
Se ottimizzati sui dati di sicurezza informatica, i modelli linguistici di grandi dimensioni possono rilevare anomalie nei log, analizzare le email di phishing, dare priorità alle vulnerabilità e mappare le minacce su framework come MITRE ATT&CK.
Applicazioni di modelli linguistici di grandi dimensioni nella sicurezza informatica.
Intelligence sulle minacce
Copilota per l'analisi contestuale delle minacce: strumenti basati su LLM come CyLens supportano gli analisti della sicurezza in tutto il processo di threat intelligence, analizzando report dettagliati sulle minacce con pipeline NLP modulari e filtri di correlazione delle entità. 2
Intelligence proattiva sulle minacce in tempo reale: i sistemi integrano i LLM con framework di generazione aumentata per il recupero (RAG) per acquisire flussi continui di CTI (ad esempio, CVE) in database vettoriali (come Milvus), consentendo il rilevamento, la valutazione e il ragionamento contestuale automatizzati e aggiornati. 3
Estrazione di CTI basata sui forum: gli LLM analizzano dati non strutturati provenienti dai forum sulla criminalità informatica per estrarre indicatori chiave di minaccia utilizzando semplici prompt. 4
Rilevamento delle vulnerabilità
Arricchimento della descrizione delle vulnerabilità: i modelli LLM come CVE-LLM arricchiscono le descrizioni delle vulnerabilità utilizzando ontologie di dominio, consentendo l'integrazione automatizzata del triage e del punteggio CVSS all'interno dei sistemi di gestione della sicurezza esistenti. 5
Rilevamento delle vulnerabilità del filesystem Android: analizza come i LLM (Load Lifecycle Management) possono rilevare le vulnerabilità di accesso al filesystem nelle app Android, tra cui l'abuso di autorizzazioni e l'archiviazione non sicura. 6
Ottimizzazione dell'apprendimento per rinforzo per il rilevamento delle vulnerabilità: applica l'apprendimento per rinforzo (RL) per ottimizzare i modelli LLM (LLaMA 3B/8B, Qwen 2.5B) al fine di migliorare la precisione nell'identificazione delle vulnerabilità del software. 7
Anomaly rilevamento e analisi dei log
Rilevamento semantico delle anomalie nei log: framework come LogLLM utilizzano codificatori/decodificatori LLM per analizzare e classificare le voci di log, migliorando il rilevamento delle anomalie rispetto al semplice riconoscimento di pattern. 8
Analisi dei log con modelli linguistici di grandi dimensioni: l'analisi automatizzata dei modelli linguistici di grandi dimensioni converte i log non strutturati in formati strutturati tramite approcci basati su prompt e ottimizzati. 9
Prevenzione degli attacchi tramite red teaming e LLM
Test di penetrazione e correzione basati su LLM (penheal): automatizza i test di penetrazione utilizzando una pipeline a due fasi; prima identifica le vulnerabilità di sicurezza, poi genera azioni correttive utilizzando una configurazione LLM personalizzata. 10
Agente Red Team on-premise per la sicurezza interna (Hackphyr): distribuisce localmente un agente 7B LLM ottimizzato per eseguire attività di Red Team come la simulazione di movimenti laterali, la raccolta di credenziali e la scansione delle vulnerabilità nelle reti. 11
Metodologia di benchmarking
SecBench è un benchmark multidimensionale su larga scala per la valutazione dei modelli di apprendimento basati su linguaggi (LLM) nel campo della sicurezza informatica, che copre diverse attività, domini, lingue e formati.
Dimensioni di valutazione
1. Ragionamento multilivello:
- Ritenzione delle conoscenze (KR): Domande che verificano la conoscenza di fatti o definizioni. Queste sono più semplici.
- Ragionamento logico (RL): domande che richiedono inferenza e una comprensione più approfondita. Sono più impegnative e mettono alla prova la capacità del modello di ragionare in base al contesto.
2. Multiformato:
- Domande a risposta multipla (MCQ): formato tradizionale in cui il modello seleziona le risposte da una serie predefinita. Totale di 44.823 domande.
- Domande a risposta breve (SAQ): formato aperto che richiede al modello di generare la propria risposta per valutare il ragionamento, la chiarezza e la resistenza alle allucinazioni. Totale di 3.087 domande.
3. Multilingue:
SecBench include domande sia in cinese che in inglese .
4. Multidominio:
Le domande riguardano 9 ambiti della sicurezza informatica (D1–D9) , tra cui: gestione della sicurezza, sicurezza dei dati, sicurezza di rete, sicurezza delle applicazioni, sicurezza del cloud e altro ancora.
Valutazione
I quesiti a risposta multipla vengono valutati verificando se il modello seleziona la/le risposta/e corretta/e.
I questionari a risposta breve (SAQ) vengono valutati utilizzando un mini "agente di valutazione" GPT-4o , che confronta la risposta del modello con la verità di base e assegna un punteggio in base all'accuratezza e alla completezza.
Valutazione delle prestazioni LLM: ad esempio, la sicurezza di rete (D3) viene valutata raggruppando le domande pertinenti dal suo set di dati di 44.823 domande a risposta multipla.
L'accuratezza viene misurata in base alle prestazioni di ciascun modello, in particolare per quanto riguarda le domande etichettate nel dominio D3. Il punteggio percentuale di un modello per D3 riflette la proporzione di domande sulla sicurezza di rete a cui ha risposto correttamente.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.