Wir evaluierten 7 große Sprachmodelle in 9 Cybersicherheitsdomänen mithilfe von SecBench, einem umfangreichen und multiformatigen Benchmark für Sicherheitsaufgaben.
Wir testeten jedes Modell anhand von 44.823 Multiple-Choice-Fragen (MCQs) und 3.087 Kurzantwortfragen (SAQs), die Bereiche wie Datensicherheit, Identitäts- und Zugriffsmanagement, Netzwerksicherheit, Schwachstellenmanagement und Cloud-Sicherheit abdeckten.
Spezialisierte LLM-Studiengänge im Bereich Cybersicherheit
Modell | Veröffentlichungsdatum | Modelltyp | Trainingsschwerpunkt |
|---|---|---|---|
SecLLM | 2024 | Code LLaMA-Variante | – Unsichere Codebeispiele – Code-Snippets mit CVE-Verknüpfung – Ausnutzen von Mustern |
LLM4Cyber | 2024 | Feinabgestimmter allgemeiner LLM | – MITRE ATT&CK – CVE – Threat Intelligence Feeds (CTI) |
LamaGuard | 2024 | Sicherheitsorientiertes LLaMA | – Sicherheitsfilter-Eingaben – Durchsetzung der Input-/Output-Richtlinie – Umgang mit gegnerischen Aufforderungen |
SecGPT | 2023 | GPT-Style LLM | – Text zur Cybersicherheit – CVE-Berichte |
Cybersicherheit-BERT | 2023 | BERT (nur Encoder) | – Malware-Berichte – Schwachstellenbeschreibungen – Technische Sicherheitsdokumentation |
Allgemeine LLM-Studiengänge für Cybersicherheit
Diese großen Sprachmodelle werden nicht ausschließlich mit Cybersicherheitsdaten trainiert, können aber dennoch in diesem Bereich gute Ergebnisse erzielen, wenn sie richtig angesprochen oder anhand von Benchmarks wie SecBench evaluiert werden.
Beispiele:
- GPT-4 / GPT-4o
- DeepSeek-V3
- Mistral
- Qwen2 / Yi / LLaMA-3-Instruct
- Hunyuan-Turbo
Benchmarking der LLM-Leistung in verschiedenen Bereichen der Cybersicherheit
Dieser Benchmark bewertet sieben allgemeine LLMs , darunter sowohl proprietäre (z. B. GPT-4) als auch Open-Source-Modelle (z. B. DeepSeek, Mistral). Der Benchmark umfasst neun Teilbereiche der Cybersicherheit , darunter:
- Datensicherheit
- Identitäts- und Zugriffsmanagement
- Anwendungssicherheit
- Netzwerksicherheit
- Sicherheitsstandards (und andere)
Die Domänen auf der x-Achse sind nach der LLM-Leistung sortiert, wobei Domänen mit niedrigerer Punktzahl eher links und solche mit höherer Punktzahl eher rechts angeordnet sind.
Benchmarking von Multiple-Choice-Fragen (MCQs):
SAQs (Kurzantwortfragen):
Quelle: SecBench-Design 1 Siehe Benchmark-Methodik.
Die Rolle von LLMs in der Cybersicherheit
Große Sprachmodelle (LLMs) werden in der Cybersicherheitsbranche eingesetzt, um aus unstrukturierten Quellen wie Bedrohungsanalysen, Vorfallprotokollen, CVE-Datenbanken und Taktiken, Techniken und Verfahren (TTPs) von Angreifern verwertbare Erkenntnisse zu gewinnen.
LLMs automatisieren wichtige Aufgaben, darunter die Bedrohungsklassifizierung, die Zusammenfassung von Warnmeldungen und die Korrelation von Indikatoren für eine Kompromittierung (IOCs).
Durch die Feinabstimmung anhand von Cybersicherheitsdaten können große Sprachmodelle Anomalien in Protokollen erkennen, Phishing-E-Mails analysieren, Schwachstellen priorisieren und Bedrohungen Frameworks wie MITRE ATT&CK zuordnen.
Anwendungen großer Sprachmodelle in der Cybersicherheit
Bedrohungsanalyse
Co-Pilot für die kontextbezogene Bedrohungsanalyse: LLM-gestützte Tools wie CyLens unterstützen Sicherheitsanalysten bei der gesamten Bedrohungsanalyse, indem sie umfangreiche Bedrohungsberichte mit modularen NLP-Pipelines und Entitätskorrelationsfiltern analysieren. 2
Echtzeit-proaktive Bedrohungsanalyse: Systeme integrieren LLMs mit Retrieval-Augmented-Generation-Frameworks (RAG), um kontinuierliche CTI-Feeds (z. B. CVE) in Vektordatenbanken (wie Milvus) einzuspeisen und so eine stets aktuelle automatisierte Erkennung, Bewertung und kontextbezogene Schlussfolgerung zu ermöglichen. 3
Forumbasierte CTI-Extraktion: LLMs analysieren unstrukturierte Daten aus Cyberkriminalitätsforen, um mithilfe einfacher Eingabeaufforderungen wichtige Bedrohungsindikatoren zu extrahieren. 4
Schwachstellenerkennung
Anreicherung der Schwachstellenbeschreibung: LLMs wie CVE‐LLM reichern Schwachstellenbeschreibungen mithilfe von Domänenontologien an und ermöglichen so die Integration einer automatisierten Triage und CVSS-Bewertung in bestehende Sicherheitsmanagementsysteme. 5
Erkennung von Schwachstellen im Android-Dateisystem: Untersucht, wie LLMs Schwachstellen beim Dateisystemzugriff in Android-Apps erkennen können, einschließlich Berechtigungsmissbrauch und unsicherer Speicherung. 6
RL-Feinabstimmung zur Erkennung von Sicherheitslücken: Wendet Reinforcement Learning (RL) an, um LLMs (LLaMA 3B/8B, Qwen 2.5B) für eine verbesserte Genauigkeit bei der Identifizierung von Software-Sicherheitslücken feinabzustimmen. 7
Anomaly Erkennung & Protokollanalyse
Semantische Log-Anomalieerkennung: Frameworks wie LogLLM verwenden LLM-Encoder/Decoder, um Logeinträge zu analysieren und zu klassifizieren und so die Anomalieerkennung über das Mustervergleichen hinaus zu verbessern. 8
Log-Parsing mit großen Sprachmodellen: Automatisiertes LLM-Parsing wandelt unstrukturierte Logs mittels promptbasierter und feinabgestimmter Ansätze in strukturierte Formate um. 9
Red Teaming / LLM-gestützte Angriffsabwehr
LLM-gesteuertes Pentesting und Remediation (penheal): Automatisiert Penetrationstests mithilfe einer zweistufigen Pipeline; zuerst werden Sicherheitslücken identifiziert, dann werden mithilfe eines benutzerdefinierten LLM-Setups Remediation-Maßnahmen generiert. 10
On-Prem Red Team Agent für interne Sicherheit (Hackphyr): Setzt einen feinabgestimmten 7B LLM-Agenten lokal ein, um Red-Team-Aufgaben wie die Simulation lateraler Bewegungen, das Sammeln von Anmeldeinformationen und das Scannen von Schwachstellen in Netzwerken durchzuführen. 11
Benchmark-Methodik
SecBench ist ein groß angelegter, multidimensionaler Benchmark zur Bewertung von LLMs im Bereich Cybersicherheit über verschiedene Aufgaben, Domänen, Sprachen und Formate hinweg.
Bewertungsdimensionen
1. Mehrstufiges Denken:
- Wissensbewahrung (KR): Fragen, die Faktenwissen oder Definitionen prüfen. Diese sind unkomplizierter.
- Logisches Denken (LR): Fragen, die Schlussfolgerungen und ein tieferes Verständnis erfordern. Diese sind anspruchsvoller und testen die Fähigkeit des Modells, kontextbezogen zu argumentieren.
2. Mehrere Formate:
- Multiple-Choice-Fragen (MCQs): Traditionelles Format, bei dem das System aus vordefinierten Antworten auswählt. Insgesamt 44.823 Fragen.
- Kurzantwortfragen (SAQs): Offenes Format, das vom Modell eine eigene Antwort erfordert, um logisches Denken, Klarheit und Halluzinationsresistenz zu bewerten. Insgesamt 3.087 Fragen.
3. Mehrsprachigkeit:
SecBench enthält Fragen in Chinesisch und Englisch .
4. Multidomänen:
Die Fragen umfassen neun Bereiche der Cybersicherheit (D1–D9) , darunter: Sicherheitsmanagement, Datensicherheit, Netzwerksicherheit, Anwendungssicherheit, Cloud-Sicherheit und mehr.
Auswertung
Die MCQs werden bewertet, indem überprüft wird, ob das Modell die richtige(n) Antwort(en) auswählt.
SAQs werden mithilfe eines GPT-4o Mini- „Bewertungsagenten“ bewertet, der die Antwort des Modells mit der tatsächlichen Antwort vergleicht und eine Punktzahl basierend auf Genauigkeit und Vollständigkeit vergibt.
Leistungsbewertung des LLM: Beispielsweise wird die Netzwerksicherheit (D3) bewertet, indem relevante Fragen aus dem 44.823 Fragen umfassenden MCQ-Datensatz gruppiert werden.
Die Genauigkeit wird anhand der Leistung jedes Modells gemessen, insbesondere bei Fragen aus dem D3-Bereich. Der prozentuale Wert eines Modells für D3 spiegelt den Anteil der korrekt beantworteten Fragen zur Netzwerksicherheit wider.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.