Modelos de Linguagem de Grande Porte em Segurança Cibernética

atualizado em Fev 5, 2026

Avaliamos 7 grandes modelos de linguagem em 9 domínios de cibersegurança usando o SecBench, um benchmark de grande escala e multiformato para tarefas de segurança.

Testamos cada modelo em 44.823 questões de múltipla escolha (MCQs) e 3.087 questões de resposta curta (SAQs), abrangendo áreas como segurança de dados, gerenciamento de identidade e acesso, segurança de rede, gerenciamento de vulnerabilidades e segurança na nuvem.

Mestrados em Direito (LLM) especializados em cibersegurança

Modelo	Data de lançamento	Tipo de modelo	Foco do treinamento
SecLLM	2024	Variante do código LLaMA	– Exemplos de código inseguros – Trechos de código vinculados a CVE – Padrões de exploração
LLM4Cyber	2024	Mestrado em Direito geral refinado	– MITRE ATT&CK – CVE – Fontes de inteligência de ameaças (CTI)
LhamaGuard	2024	LLaMA alinhado com a segurança	– Avisos sobre o filtro de segurança – Aplicação da política de entrada/saída – Tratamento de prompts adversários
SecGPT	2023	LLM no estilo GPT	– Texto sobre cibersegurança – Relatórios CVE
Cibersegurança-BERT	2023	BERT (somente codificador)	– Relatórios de malware – Descrições de vulnerabilidades – Documentação técnica de segurança

Mestrados em Direito (LLM) de propósito geral para cibersegurança

Esses grandes modelos de linguagem não são treinados exclusivamente com dados de segurança cibernética, mas ainda podem ter um bom desempenho no domínio quando solicitados corretamente ou avaliados em benchmarks como o SecBench.

Exemplos:

GPT-4 / GPT-4o
DeepSeek-V3
Mistral
Qwen2 / Yi / LLaMA-3-Instrução
Hunyuan-Turbo

Análise comparativa do desempenho do LLM em diferentes domínios de cibersegurança

Este benchmark avalia 7 LLMs gerais , incluindo modelos proprietários (por exemplo, GPT-4) e de código aberto (por exemplo, DeepSeek, Mistral). O benchmark abrange 9 subáreas de cibersegurança , incluindo:

Segurança de dados
Gestão de Identidade e Acesso
Segurança de aplicativos
Segurança de rede
Padrões de segurança (e outros)

Os domínios do eixo x são classificados de acordo com o desempenho no LLM, com os domínios de pontuação mais baixa posicionados à esquerda e os de pontuação mais alta à direita.

Avaliação comparativa de questões de múltipla escolha (MCQs):

Questões de Resposta Curta (SAQs):

Fonte: Projeto SecBench ¹ Consulte a metodologia de referência.

O papel dos mestrados em direito (LLMs) na cibersegurança.

Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) são usados em operações de cibersegurança para extrair informações úteis de fontes não estruturadas, como relatórios de inteligência de ameaças, registros de incidentes, bancos de dados CVE e TTPs (Táticas, Técnicas e Procedimentos) de invasores.

Os LLMs automatizam tarefas essenciais, incluindo a classificação de ameaças, o resumo de alertas e a correlação de indicadores de comprometimento (IOCs).

Quando ajustados com base em dados de segurança cibernética, grandes modelos de linguagem podem detectar anomalias em registros, analisar e-mails de phishing, priorizar vulnerabilidades e mapear ameaças para estruturas como o MITRE ATT&CK.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Aplicações de grandes modelos de linguagem em cibersegurança

Inteligência de ameaças

Copiloto para análise contextual de ameaças: ferramentas baseadas em LLM, como o CyLens, auxiliam analistas de segurança em todo o processo de inteligência de ameaças, analisando extensos relatórios de ameaças com pipelines de PNL modulares e filtros de correlação de entidades. ²

Inteligência proativa de ameaças em tempo real: os sistemas integram LLMs com estruturas de geração aumentada por recuperação (RAG) para ingerir feeds contínuos de CTI (por exemplo, CVE) em bancos de dados de vetores (como o Milvus), permitindo detecção automatizada atualizada, pontuação e raciocínio contextual. ³

Extração de CTI baseada em fóruns: as LLMs analisam dados não estruturados de fóruns de crimes cibernéticos para extrair indicadores-chave de ameaças usando instruções simples. ⁴

Detecção de vulnerabilidades

Enriquecimento da descrição de vulnerabilidades: LLMs como o CVE-LLM enriquecem as descrições de vulnerabilidades usando ontologias de domínio, permitindo a triagem automatizada e a integração da pontuação CVSS em sistemas de gerenciamento de segurança existentes. ⁵

Detecção de vulnerabilidades no sistema de arquivos do Android: Investiga como os LLMs podem detectar vulnerabilidades de acesso ao sistema de arquivos em aplicativos Android, incluindo abuso de permissões e armazenamento inseguro. ⁶

Ajuste fino por RL para detecção de vulnerabilidades: Aplica aprendizado por reforço (RL) para ajustar modelos LLM (LLaMA 3B/8B, Qwen 2.5B) para maior precisão na identificação de vulnerabilidades de software. ⁷

Anomaly detecção e análise de logs

Detecção semântica de anomalias em logs: Frameworks como o LogLLM utilizam codificadores/decodificadores LLM para analisar e classificar entradas de log, aprimorando a detecção de anomalias além da simples correspondência de padrões. ⁸

Análise de logs com grandes modelos de linguagem: A análise automatizada de LLM converte logs não estruturados em formatos estruturados por meio de abordagens baseadas em prompts e ajustadas com precisão. ⁹

Red teaming / Prevenção de ataques assistida por LLM

Testes de penetração e remediação orientados por LLM (penheal): Automatiza testes de penetração usando um pipeline de duas etapas; primeiro identifica vulnerabilidades de segurança e, em seguida, gera ações de remediação usando uma configuração LLM personalizada. ¹⁰

Agente on-prem de equipe vermelha para segurança interna (hackphyr): Implanta localmente um agente 7B LLM otimizado para executar tarefas de equipe vermelha, como simulação de movimento lateral, coleta de credenciais e varredura de vulnerabilidades em redes. ¹¹

Metodologia de referência

O SecBench é um benchmark multidimensional de grande escala para avaliar modelos de aprendizado de máquina (LLMs) em cibersegurança em diferentes tarefas, domínios, linguagens e formatos.

Dimensões de avaliação

1. Raciocínio multinível:

Retenção de Conhecimento (RC): Questões que testam conhecimento factual ou definições. Estas são mais diretas.
Raciocínio lógico (RL): Questões que exigem inferência e compreensão mais profunda. Essas questões são mais desafiadoras e testam a capacidade do modelo de raciocinar com base no contexto.

2. Multiformato:

Questões de múltipla escolha: Formato tradicional em que o modelo seleciona entre respostas predefinidas. Total de 44.823 questões.
Questões de Resposta Curta (SAQs): Formato aberto que exige que o modelo gere sua resposta para avaliar o raciocínio, a clareza e a resistência a alucinações. Total de 3.087 questões.

3. Multilíngue:

O SecBench inclui perguntas em chinês e inglês .

4. Multidomínio:

As perguntas abrangem 9 domínios de cibersegurança (D1–D9) , incluindo: gestão de segurança, segurança de dados, segurança de redes, segurança de aplicações, segurança na nuvem e muito mais.

Avaliação

As questões de múltipla escolha são avaliadas verificando se o modelo seleciona a(s) opção(ões) correta(s).

Os SAQs são classificados usando um mini “agente de classificação” GPT-4o , que compara a resposta do modelo com a verdade fundamental e atribui uma pontuação com base na precisão e na completude.

Avaliação de desempenho do LLM: Por exemplo, Segurança de Redes (D3) é avaliada agrupando questões relevantes de seu conjunto de dados de múltipla escolha com 44.823 questões.

A precisão é medida com base no desempenho de cada modelo, especificamente nas questões classificadas no domínio D3. A pontuação percentual de um modelo para D3 reflete a proporção de questões de segurança de rede que ele respondeu corretamente.

Links de referência

https://arxiv.org/pdf/2412.20787

[2502.20791] CyLens: Towards Reinventing Cyber Threat Intelligence in the Paradigm of Agentic Large Language Models

[2504.00428] LLM-Assisted Proactive Threat Intelligence for Automated Reasoning

https://arxiv.org/pdf/2408.03354

https://arxiv.org/pdf/2502.15932

https://arxiv.org/pdf/2407.11279

https://arxiv.org/pdf/2505.02079

https://arxiv.org/pdf/2411.08561

https://arxiv.org/pdf/2504.04877

10.

https://arxiv.org/pdf/2407.13267

11.

https://arxiv.org/pdf/2407.08991

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo