Große Sprachmodelle in der Cybersicherheit in 2026

aktualisiert am Feb 5, 2026

Wir evaluierten 7 große Sprachmodelle in 9 Cybersicherheitsdomänen mithilfe von SecBench, einem umfangreichen und multiformatigen Benchmark für Sicherheitsaufgaben.

Wir testeten jedes Modell anhand von 44.823 Multiple-Choice-Fragen (MCQs) und 3.087 Kurzantwortfragen (SAQs), die Bereiche wie Datensicherheit, Identitäts- und Zugriffsmanagement, Netzwerksicherheit, Schwachstellenmanagement und Cloud-Sicherheit abdeckten.

Spezialisierte LLM-Studiengänge im Bereich Cybersicherheit

Modell	Veröffentlichungsdatum	Modelltyp	Trainingsschwerpunkt
SecLLM	2024	Code LLaMA-Variante	– Unsichere Codebeispiele – Code-Snippets mit CVE-Verknüpfung – Ausnutzen von Mustern
LLM4Cyber	2024	Feinabgestimmter allgemeiner LLM	– MITRE ATT&CK – CVE – Threat Intelligence Feeds (CTI)
LamaGuard	2024	Sicherheitsorientiertes LLaMA	– Sicherheitsfilter-Eingaben – Durchsetzung der Input-/Output-Richtlinie – Umgang mit gegnerischen Aufforderungen
SecGPT	2023	GPT-Style LLM	– Text zur Cybersicherheit – CVE-Berichte
Cybersicherheit-BERT	2023	BERT (nur Encoder)	– Malware-Berichte – Schwachstellenbeschreibungen – Technische Sicherheitsdokumentation

Allgemeine LLM-Studiengänge für Cybersicherheit

Diese großen Sprachmodelle werden nicht ausschließlich mit Cybersicherheitsdaten trainiert, können aber dennoch in diesem Bereich gute Ergebnisse erzielen, wenn sie richtig angesprochen oder anhand von Benchmarks wie SecBench evaluiert werden.

Beispiele:

GPT-4 / GPT-4o
DeepSeek-V3
Mistral
Qwen2 / Yi / LLaMA-3-Instruct
Hunyuan-Turbo

Benchmarking der LLM-Leistung in verschiedenen Bereichen der Cybersicherheit

Dieser Benchmark bewertet sieben allgemeine LLMs , darunter sowohl proprietäre (z. B. GPT-4) als auch Open-Source-Modelle (z. B. DeepSeek, Mistral). Der Benchmark umfasst neun Teilbereiche der Cybersicherheit , darunter:

Datensicherheit
Identitäts- und Zugriffsmanagement
Anwendungssicherheit
Netzwerksicherheit
Sicherheitsstandards (und andere)

Die Domänen auf der x-Achse sind nach der LLM-Leistung sortiert, wobei Domänen mit niedrigerer Punktzahl eher links und solche mit höherer Punktzahl eher rechts angeordnet sind.

Benchmarking von Multiple-Choice-Fragen (MCQs):

SAQs (Kurzantwortfragen):

Quelle: SecBench-Design ¹ Siehe Benchmark-Methodik.

Die Rolle von LLMs in der Cybersicherheit

Große Sprachmodelle (LLMs) werden in der Cybersicherheitsbranche eingesetzt, um aus unstrukturierten Quellen wie Bedrohungsanalysen, Vorfallprotokollen, CVE-Datenbanken und Taktiken, Techniken und Verfahren (TTPs) von Angreifern verwertbare Erkenntnisse zu gewinnen.

LLMs automatisieren wichtige Aufgaben, darunter die Bedrohungsklassifizierung, die Zusammenfassung von Warnmeldungen und die Korrelation von Indikatoren für eine Kompromittierung (IOCs).

Durch die Feinabstimmung anhand von Cybersicherheitsdaten können große Sprachmodelle Anomalien in Protokollen erkennen, Phishing-E-Mails analysieren, Schwachstellen priorisieren und Bedrohungen Frameworks wie MITRE ATT&CK zuordnen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Anwendungen großer Sprachmodelle in der Cybersicherheit

Bedrohungsanalyse

Co-Pilot für die kontextbezogene Bedrohungsanalyse: LLM-gestützte Tools wie CyLens unterstützen Sicherheitsanalysten bei der gesamten Bedrohungsanalyse, indem sie umfangreiche Bedrohungsberichte mit modularen NLP-Pipelines und Entitätskorrelationsfiltern analysieren. ²

Echtzeit-proaktive Bedrohungsanalyse: Systeme integrieren LLMs mit Retrieval-Augmented-Generation-Frameworks (RAG), um kontinuierliche CTI-Feeds (z. B. CVE) in Vektordatenbanken (wie Milvus) einzuspeisen und so eine stets aktuelle automatisierte Erkennung, Bewertung und kontextbezogene Schlussfolgerung zu ermöglichen. ³

Forumbasierte CTI-Extraktion: LLMs analysieren unstrukturierte Daten aus Cyberkriminalitätsforen, um mithilfe einfacher Eingabeaufforderungen wichtige Bedrohungsindikatoren zu extrahieren. ⁴

Schwachstellenerkennung

Anreicherung der Schwachstellenbeschreibung: LLMs wie CVE‐LLM reichern Schwachstellenbeschreibungen mithilfe von Domänenontologien an und ermöglichen so die Integration einer automatisierten Triage und CVSS-Bewertung in bestehende Sicherheitsmanagementsysteme. ⁵

Erkennung von Schwachstellen im Android-Dateisystem: Untersucht, wie LLMs Schwachstellen beim Dateisystemzugriff in Android-Apps erkennen können, einschließlich Berechtigungsmissbrauch und unsicherer Speicherung. ⁶

RL-Feinabstimmung zur Erkennung von Sicherheitslücken: Wendet Reinforcement Learning (RL) an, um LLMs (LLaMA 3B/8B, Qwen 2.5B) für eine verbesserte Genauigkeit bei der Identifizierung von Software-Sicherheitslücken feinabzustimmen. ⁷

Anomaly Erkennung & Protokollanalyse

Semantische Log-Anomalieerkennung: Frameworks wie LogLLM verwenden LLM-Encoder/Decoder, um Logeinträge zu analysieren und zu klassifizieren und so die Anomalieerkennung über das Mustervergleichen hinaus zu verbessern. ⁸

Log-Parsing mit großen Sprachmodellen: Automatisiertes LLM-Parsing wandelt unstrukturierte Logs mittels promptbasierter und feinabgestimmter Ansätze in strukturierte Formate um. ⁹

Red Teaming / LLM-gestützte Angriffsabwehr

LLM-gesteuertes Pentesting und Remediation (penheal): Automatisiert Penetrationstests mithilfe einer zweistufigen Pipeline; zuerst werden Sicherheitslücken identifiziert, dann werden mithilfe eines benutzerdefinierten LLM-Setups Remediation-Maßnahmen generiert. ¹⁰

On-Prem Red Team Agent für interne Sicherheit (Hackphyr): Setzt einen feinabgestimmten 7B LLM-Agenten lokal ein, um Red-Team-Aufgaben wie die Simulation lateraler Bewegungen, das Sammeln von Anmeldeinformationen und das Scannen von Schwachstellen in Netzwerken durchzuführen. ¹¹

Benchmark-Methodik

SecBench ist ein groß angelegter, multidimensionaler Benchmark zur Bewertung von LLMs im Bereich Cybersicherheit über verschiedene Aufgaben, Domänen, Sprachen und Formate hinweg.

Bewertungsdimensionen

1. Mehrstufiges Denken:

Wissensbewahrung (KR): Fragen, die Faktenwissen oder Definitionen prüfen. Diese sind unkomplizierter.
Logisches Denken (LR): Fragen, die Schlussfolgerungen und ein tieferes Verständnis erfordern. Diese sind anspruchsvoller und testen die Fähigkeit des Modells, kontextbezogen zu argumentieren.

2. Mehrere Formate:

Multiple-Choice-Fragen (MCQs): Traditionelles Format, bei dem das System aus vordefinierten Antworten auswählt. Insgesamt 44.823 Fragen.
Kurzantwortfragen (SAQs): Offenes Format, das vom Modell eine eigene Antwort erfordert, um logisches Denken, Klarheit und Halluzinationsresistenz zu bewerten. Insgesamt 3.087 Fragen.

3. Mehrsprachigkeit:

SecBench enthält Fragen in Chinesisch und Englisch .

4. Multidomänen:

Die Fragen umfassen neun Bereiche der Cybersicherheit (D1–D9) , darunter: Sicherheitsmanagement, Datensicherheit, Netzwerksicherheit, Anwendungssicherheit, Cloud-Sicherheit und mehr.

Auswertung

Die MCQs werden bewertet, indem überprüft wird, ob das Modell die richtige(n) Antwort(en) auswählt.

SAQs werden mithilfe eines GPT-4o Mini- „Bewertungsagenten“ bewertet, der die Antwort des Modells mit der tatsächlichen Antwort vergleicht und eine Punktzahl basierend auf Genauigkeit und Vollständigkeit vergibt.

Leistungsbewertung des LLM: Beispielsweise wird die Netzwerksicherheit (D3) bewertet, indem relevante Fragen aus dem 44.823 Fragen umfassenden MCQ-Datensatz gruppiert werden.

Die Genauigkeit wird anhand der Leistung jedes Modells gemessen, insbesondere bei Fragen aus dem D3-Bereich. Der prozentuale Wert eines Modells für D3 spiegelt den Anteil der korrekt beantworteten Fragen zur Netzwerksicherheit wider.

Referenzlinks

https://arxiv.org/pdf/2412.20787

[2502.20791] CyLens: Towards Reinventing Cyber Threat Intelligence in the Paradigm of Agentic Large Language Models

[2504.00428] LLM-Assisted Proactive Threat Intelligence for Automated Reasoning

https://arxiv.org/pdf/2408.03354

https://arxiv.org/pdf/2502.15932

https://arxiv.org/pdf/2407.11279

https://arxiv.org/pdf/2505.02079

https://arxiv.org/pdf/2411.08561

https://arxiv.org/pdf/2504.04877

10.

https://arxiv.org/pdf/2407.13267

11.

https://arxiv.org/pdf/2407.08991

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen