Kıyaslama

Siber Güvenlikte Büyük Dil Modelleri

Güncellenme tarihi: 5 Haz 2026

SecBench kullanarak 9 siber güvenlik alanında 7 büyük dil modeli değerlendirdik; SecBench, güvenlik görevleri için büyük ölçekli ve çok formatlı bir benchmark'tır.

Her modeli veri güvenliği, kimlik ve erişim yönetimi, ağ güvenliği, zafiyet yönetimi ve bulut güvenliği gibi alanları kapsayan 44.823 çoktan seçmeli soruda (MCQ) ve 3.087 kısa cevaplı soruda (SAQ) test ettik.

Uzmanlaşmış siber güvenlik LLM'leri

Model	Yayın tarihi	Model Türü	Eğitim odağı
SecLLM	2024	Code LLaMA varyantı	– Güvensiz kod örnekleri – CVE'ye bağlı kod parçacıkları – Sömürü kalıpları
LLM4Cyber	2024	İnce ayar yapılmış genel LLM	– MITRE ATT&CK – CVE – Tehdit istihbarat beslemeleri (CTI)
LlamaGuard	2024	Güvenlik uyumlu LLaMA	– Güvenlik filtresi istemleri – Girdi/çıktı politika uygulaması – Karşıt prompt'lar işleme
SecGPT	2023	GPT tarzı LLM	– Siber güvenlik metni – CVE raporları
Cybersecurity-BERT	2023	BERT (sadece kodlayıcı)	– Zararlı yazılım raporları – Zafiyet açıklamaları – Teknik güvenlik dokümantasyonu

Siber güvenlik için genel amaçlı LLM'ler

Bu büyük dil modelleri yalnızca siber güvenlik verileriyle eğitilmemiştir ancak doğru istemlendiğinde veya SecBench gibi benchmark'larda değerlendirildiğinde alanda yine de iyi performans gösterebilirler.

Örnekler:

GPT-4 / GPT-4o
DeepSeek-V3
Mistral
Qwen2 / Yi / LLaMA-3-Instruct
Hunyuan-Turbo

Siber güvenlik alanlarında LLM performansının benchmark'lanması

Bu benchmark, özel (örn. GPT-4) ve açık kaynaklı modelleri (örn. DeepSeek, Mistral) içeren 7 genel LLM'i değerlendirir. Benchmark, şunları içeren 9 siber güvenlik alt alanına yayılır:

Veri Güvenliği
Kimlik ve Erişim Yönetimi
Uygulama Güvenliği
Ağ Güvenliği
Güvenlik Standartları (ve diğerleri)

X-ekseni alanları LLM performansına göre sıralanmıştır; daha düşük puanlı alanlar sola, daha yüksek puanlı olanlar sağa yerleştirilmiştir.

MCQ'lar (Çoktan Seçmeli Sorular) benchmark'laması:

SAQ'lar (Kısa Cevaplı Sorular):

Kaynak: SecBench tasarımı¹ Benchmark metodolojisine bakın.

Ekibimiz, iş süreçlerinizden birini yapay zeka ajanlarıyla ücretsiz olarak otomatikleştirsin.

Bir süreci otomatikleştir

Siber güvenlikte LLM'lerin rolü

Büyük dil modelleri (LLM'ler), tehdit istihbarat raporları, olay günlükleri, CVE veritabanları ve saldırgan TTP'leri gibi yapılandırılmamış kaynaklardan uygulanabilir içgörüler çıkarmak için siber güvenlik operasyonlarında kullanılır.

LLM'ler, tehdit sınıflandırması, uyarı özetleme ve tehlike göstergelerinin (IOCs) korelasyonu dahil olmak üzere temel görevleri otomatikleştirir.

Siber güvenlik verileri üzerinde ince ayar yapıldığında, büyük dil modelleri günlüklerde anormallikleri tespit edebilir, kimlik avı e-postalarını analiz edebilir, zafiyetleri önceliklendirebilir ve tehditleri MITRE ATT&CK gibi çerçevelere eşleyebilir.

Siber güvenlikte büyük dil modellerinin uygulamaları

Tehdit istihbaratı

Bağlamsal tehdit analizi için Co-pilot: LLM tabanlı araçlar olan CyLens, modüler NLP pipeline'ları ve varlık korelasyon filtreleriyle kapsamlı tehdit raporlarını analiz ederek tehdit istihbaratı boyunca güvenlik analistlerini destekler.²

Gerçek zamanlı proaktif tehdit istihbaratı: Sistemler, sürekli CTI beslemelerini (örn. CVE) vektör veritabanlarına (Milvus gibi) almak için LLM'leri retrieval-augmented generation (RAG) çerçeveleriyle entegre eder; bu da güncel otomatik tespit, skorlama ve bağlamsal akıl yürütmeyi mümkün kılar.³

Forum tabanlı CTI çıkarma: LLM'ler, basit prompt'lar kullanarak siber suç forumlarından yapılandırılmamış verileri analiz ederek temel tehdit göstergelerini çıkarır.⁴

Zafiyet tespiti

Zafiyet açıklama zenginleştirme: CVE-LLM gibi LLM'ler, alan ontolojilerini kullanarak zafiyet açıklamalarını zenginleştirir; bu da mevcut güvenlik yönetim sistemleri içinde otomatik triaj ve CVSS skorlama entegrasyonunu mümkün kılar.⁵

Android dosya sistemi zafiyet tespiti: LLM'lerin Android uygulamalarında dosya sistemi erişimi zafiyetlerini, yetki kötüye kullanımı ve güvensiz depolama dahil olmak üzere nasıl tespit edebileceğini inceler.⁶

Zafiyet tespiti için RL ince ayarı: Yazılım zafiyetlerini tespit etmede doğruluğu artırmak için LLM'leri (LLaMA 3B/8B, Qwen 2.5B) ince ayar yapmak üzere pekiştirmeli öğrenme (RL) uygular.⁷

Anomali tespiti ve günlük analizi

Yarısal günlük anomali tespiti: LogLLM gibi çerçeveler, günlük girdilerini ayrıştırmak ve sınıflandırmak için LLM kodlayıcılarını/kod çözücülerini kullanır; bu, desen eşleştirmesinin ötesinde anomali tespitini iyileştirir.⁸

Büyük dil modelleri ile günlük ayrıştırma: Otomatik LLM ayrıştırma, yapılandırılmamış günlükleri prompt'lar tabanlı ve ince ayar yapılmış yaklaşımlar aracılığıyla yapılandırılmış formatlara dönüştürür.⁹

Kırmızı takım / LLM destekli saldırı önleme

LLM tabanlı penetrasyon testi ve iyileştirme (penheal): İki aşamalı bir pipeline kullanarak penetrasyon testini otomatikleştirir; önce güvenlik zayıflıklarını tespit eder, ardından özel bir LLM kurulumu kullanarak iyileştirme eylemleri oluşturur.¹⁰

İç güvenlik için yerel kırmızı takım ajanı (hackphyr): Ağlarda yan hareket simülasyonu, kimlik bilgisi toplama ve zafiyet taraması gibi kırmızı takım görevlerini yerine getirmek için yerel olarak ince ayar yapılmış 7B LLM ajanı dağıtır.¹¹

Google Arama'da daha fazla kıyaslamamızı ve veri odaklı içgörülerimizi görün.

Tercih edilen kaynak olarak ekle

Benchmark metodolojisi

SecBench, farklı görevler, alanlar, diller ve formatlarda siber güvenlikte LLM'leri değerlendirmek için büyük ölçekli, çok boyutlu bir benchmark'tır.

Değerlendirme boyutları

1. Çok seviyeli akıl yürütme:

Bilgi Saklama (KR): Gerçek bilgiyi veya tanımları test eden sorular. Bunlar daha doğrudandır.
Lojik akıl yürütme (LR): Çıkarım ve daha derin anlayış gerektiren sorular. Bunlar daha zordur ve modelin bağlama dayalı akıl yürütme yeteneğini test eder.

2. Çok formatlı:

MCQ'lar (Çoktan Seçmeli Sorular): Modelin önceden tanımlanmış cevaplardan seçtiği geleneksel format. Toplam 44.823 soru.
SAQ'lar (Kısa Cevaplı Sorular): Modelin akıl yürütme, netlik ve halüsinasyon direncini değerlendirmek için cevabını oluşturmasını gerektiren açık uçlu format. Toplam 3.087 soru.

3. Çok Dilli:

SecBench, hem Çince hem de İngilizce sorular içerir.

4. Çok Alanlı:

Sorular güvenlik yönetimi, veri güvenliği, ağ güvenliği, uygulama güvenliği, bulut güvenliği ve daha fazlası dahil olmak üzere 9 siber güvenlik alanına (D1–D9) yayılır.

Değerlendirme

MCQ'lar, modelin doğru seçeneği/seçenekleri seçip seçmediğini kontrol ederek notlandırılır.

SAQ'lar, modelin cevabını gerçek doğrulukla karşılaştıran ve doğruluk ve eksiksizliğe dayalı bir skor atayan bir GPT-4o mini “notlandırma ajanı” kullanılarak notlandırılır.

LLM performans değerlendirmesi: Örneğin, Ağ Güvenliği (D3), 44.823 soruluk MCQ veri setinden ilgili soruları gruplandırarak değerlendirilir.

Doğruluk, her modelin performansı, özellikle D3 alanında etiketlenmiş sorulara göre ölçülür. D3 için modelin yüzde skoru, doğru cevapladığı ağ güvenliği sorularının oranını yansıtır.

Bu araştırmayı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Cem Dilmegani (2026) - "Siber Güvenlikte Büyük Dil Modelleri". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 5 Haziran 2026, kaynak: https://aimultiple.com/llms-in-cybersecurity [Çevrimiçi Kaynak]

Dilmegani, C. (2026, 5 Haziran). Siber Güvenlikte Büyük Dil Modelleri. AIMultiple. https://aimultiple.com/llms-in-cybersecurity

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Siber Güvenlikte Büyük Dil Modelleri}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/llms-in-cybersecurity}},
  note   = {AIMultiple. Erişim tarihi: 5 Haziran 2026}
}

Referans Linkleri

https://arxiv.org/pdf/2412.20787

[2502.20791] CyLens: Towards Reinventing Cyber Threat Intelligence in the Paradigm of Agentic Large Language Models

[2504.00428] LLM-Assisted Proactive Threat Intelligence for Automated Reasoning

https://arxiv.org/pdf/2408.03354

https://arxiv.org/pdf/2502.15932

https://arxiv.org/pdf/2407.11279

https://arxiv.org/pdf/2505.02079

https://arxiv.org/pdf/2411.08561

https://arxiv.org/pdf/2504.04877

10.

https://arxiv.org/pdf/2407.13267

11.

https://arxiv.org/pdf/2407.08991

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle