Güvenlik görevleri için geniş ölçekli ve çok formatlı bir kıyaslama aracı olan SecBench'i kullanarak 9 siber güvenlik alanında 7 büyük dil modelini değerlendirdik.
Her bir modeli, veri güvenliği, kimlik ve erişim yönetimi, ağ güvenliği, güvenlik açığı yönetimi ve bulut güvenliği gibi alanları kapsayan 44.823 çoktan seçmeli soru (MCQ) ve 3.087 kısa cevaplı soru (SAQ) üzerinde test ettik.
Siber güvenlik alanında uzmanlaşmış Hukuk Yüksek Lisansları (LLM)
Model | Yayın tarihi | Model Tipi | Eğitim odağı |
|---|---|---|---|
SecLLM | 2024 | Kod LLaMA varyantı | – Güvenlik açığı bulunan kod örnekleri – CVE bağlantılı kod parçacıkları – İstismar kalıpları |
LLM4Cyber | 2024 | İnce ayarlı genel LLM | – MITRE ATT&CK – CVE – Tehdit istihbaratı akışları (CTI) |
LlamaGuard | 2024 | Güvenlik odaklı LLaMA | – Güvenlik filtresi uyarıları – Girdi/çıktı politikası uygulaması – Düşmanca istemlerin ele alınması |
SecGPT | 2023 | GPT tarzı LLM | – Siber güvenlik metni – CVE raporları |
Siber Güvenlik-BERT | 2023 | BERT (yalnızca kodlayıcı) | – Kötü amaçlı yazılım raporları – Güvenlik açığı açıklamaları – Teknik güvenlik dokümantasyonu |
Siber güvenlik alanında genel amaçlı Hukuk Yüksek Lisansları (LLM)
Bu büyük dil modelleri yalnızca siber güvenlik verileri üzerinde eğitilmemiştir, ancak doğru şekilde yönlendirildiğinde veya SecBench gibi kıyaslama testlerinde değerlendirildiğinde bu alanda da iyi performans gösterebilirler.
Örnekler:
- GPT-4 / GPT-4o
- DeepSeek-V3
- Mistral
- Qwen2 / Yi / LLaMA-3-Instruct
- Hunyuan-Turbo
Siber güvenlik alanlarında LLM performansının karşılaştırılması
Bu kıyaslama, hem tescilli (örneğin, GPT-4) hem de açık kaynaklı modeller (örneğin, DeepSeek, Mistral) dahil olmak üzere 7 genel LLM'yi değerlendirir. Kıyaslama, aşağıdakiler dahil olmak üzere 9 siber güvenlik alt alanını kapsar:
- Veri Güvenliği
- Kimlik ve Erişim Yönetimi
- Uygulama Güvenliği
- Ağ Güvenliği
- Güvenlik Standartları (ve diğerleri)
X eksenindeki alanlar LLM performansına göre sıralanmıştır; düşük puanlı alanlar sola, yüksek puanlı alanlar ise sağa yerleştirilmiştir.
Çoktan Seçmeli Sorular (MCQ) kıyaslaması:
Kısa Cevaplı Sorular (SAQ'lar):
Kaynak: SecBench tasarımı 1 Karşılaştırma metodolojisine bakınız.
Siber güvenlikte Hukuk Yüksek Lisanslarının (LLM) rolü
Büyük dil modelleri (LLM'ler), siber güvenlik operasyonlarında tehdit istihbarat raporları, olay kayıtları, CVE veritabanları ve saldırgan TTP'leri gibi yapılandırılmamış kaynaklardan eyleme geçirilebilir bilgiler elde etmek için kullanılır.
LLM'ler, tehdit sınıflandırması, uyarı özetleme ve ihlal göstergelerinin (IOC'ler) ilişkilendirilmesi de dahil olmak üzere temel görevleri otomatikleştirir.
Siber güvenlik verileri üzerinde ince ayar yapıldığında, büyük dil modelleri günlüklerdeki anormallikleri tespit edebilir, kimlik avı e-postalarını analiz edebilir, güvenlik açıklarını önceliklendirebilir ve tehditleri MITRE ATT&CK gibi çerçevelere eşleştirebilir.
Siber güvenlikte büyük dil modellerinin uygulamaları
Tehdit istihbaratı
Bağlamsal tehdit analizi için yardımcı pilot: CyLens gibi LLM destekli araçlar, modüler NLP işlem hatları ve varlık korelasyon filtreleri kullanarak kapsamlı tehdit raporlarını analiz ederek güvenlik analistlerini tehdit istihbaratı boyunca destekler. 2
Gerçek zamanlı proaktif tehdit istihbaratı: Sistemler, sürekli CTI akışlarını (örneğin, CVE) vektör veritabanlarına (Milvus gibi) aktarmak için LLM'leri geri alma destekli üretim (RAG) çerçeveleriyle entegre eder ve böylece güncel otomatik tespit, puanlama ve bağlamsal akıl yürütme olanağı sağlar. 3
Forum tabanlı CTI çıkarımı: LLM'ler, basit komutlar kullanarak siber suç forumlarından gelen yapılandırılmamış verileri analiz ederek temel tehdit göstergelerini çıkarır. 4
Güvenlik açığı tespiti
Güvenlik açığı açıklaması zenginleştirme: CVE-LLM gibi LLM'ler, alan ontolojilerini kullanarak güvenlik açığı açıklamalarını zenginleştirir ve mevcut güvenlik yönetim sistemlerine otomatik önceliklendirme ve CVSS puanlama entegrasyonunu sağlar. 5
Android dosya sistemi güvenlik açığı tespiti: LLM'lerin Android uygulamalarındaki dosya sistemi erişim güvenlik açıklarını, izin suistimalini ve güvensiz depolamayı nasıl tespit edebileceğini inceler. 6
Güvenlik açığı tespiti için takviyeli öğrenme ile ince ayar: Yazılım güvenlik açıklarını belirlemede doğruluğu artırmak için LLM'leri (LLaMA 3B/8B, Qwen 2.5B) ince ayar yapmak üzere takviyeli öğrenme (RL) uygular. 7
Anomaly algılama ve günlük analizi
Semantik günlük anormallik tespiti: LogLLM gibi çerçeveler, günlük girdilerini ayrıştırmak ve sınıflandırmak için LLM kodlayıcılarını/kod çözücülerini kullanır ve anormallik tespitini kalıp eşleştirmenin ötesine taşır. 8
Büyük dil modelleriyle günlük ayrıştırma: Otomatik LLM ayrıştırma, istem tabanlı ve ince ayarlı yaklaşımlar aracılığıyla yapılandırılmamış günlükleri yapılandırılmış biçimlere dönüştürür. 9
Kırmızı ekip çalışması / LLM destekli saldırı önleme
LLM tabanlı sızma testi ve iyileştirme (penheal): İki aşamalı bir süreç kullanarak sızma testini otomatikleştirir; önce güvenlik açıklarını belirler, ardından özel bir LLM kurulumu kullanarak iyileştirme eylemleri oluşturur. 10
Dahili güvenlik için şirket içi kırmızı ekip ajanı (hackphyr): Ağlarda yanal hareket simülasyonu, kimlik bilgisi toplama ve güvenlik açığı taraması gibi kırmızı ekip görevlerini gerçekleştirmek için yerel olarak ince ayarlı bir 7B LLM ajanı dağıtır. 11
Kıyaslama metodolojisi
SecBench, siber güvenlik alanındaki dil öğrenme modellerini (LLM) farklı görevler, alanlar, diller ve formatlar genelinde değerlendirmek için kullanılan büyük ölçekli, çok boyutlu bir kıyaslama aracıdır.
Değerlendirme boyutları
1. Çok düzeyli akıl yürütme:
- Bilgi Saklama (KR): Olgusal bilgiyi veya tanımları test eden sorular. Bunlar daha basit sorulardır.
- Mantıksal akıl yürütme (LR): Çıkarım ve daha derin bir anlayış gerektiren sorular. Bunlar daha zorlayıcıdır ve modelin bağlama dayalı olarak akıl yürütme yeteneğini test eder.
2. Çoklu format:
- Çoktan Seçmeli Sorular (MCQ): Modelin önceden tanımlanmış cevaplar arasından seçim yaptığı geleneksel format. Toplam 44.823 soru.
- Kısa Cevaplı Sorular (SAQ): Akıl yürütme, açıklık ve yanılsamaya karşı direnci değerlendirmek için modelin yanıtını üretmesini gerektiren açık uçlu format. Toplam 3.087 soru.
3. Çok Dilli:
SecBench, hem Çince hem de İngilizce sorular içermektedir.
4. Çok Alanlı:
Sorular, güvenlik yönetimi, veri güvenliği, ağ güvenliği, uygulama güvenliği, bulut güvenliği ve daha fazlasını içeren 9 siber güvenlik alanını (D1-D9) kapsamaktadır.
Değerlendirme
Çoktan seçmeli sorular, modelin doğru seçeneği/seçenekleri seçip seçmediği kontrol edilerek değerlendirilir.
SAQ'lar , modelin yanıtını gerçek değerle karşılaştıran ve doğruluk ve eksiksizliğe dayalı olarak bir puan atayan bir mini "değerlendirme ajanı" kullanılarak derecelendirilir.
LLM performans değerlendirmesi: Örneğin, Ağ Güvenliği (D3), 44.823 soruluk çoktan seçmeli soru veri setinden ilgili soruların gruplandırılmasıyla değerlendirilir.
Doğruluk, her modelin performansına, özellikle de D3 alanı altında etiketlenen sorulara göre ölçülür. Bir modelin D3 için yüzde puanı, ağ güvenliği sorularının ne kadarını doğru yanıtladığını yansıtır.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.