Contate-nos
Nenhum resultado encontrado.

Modelos de Linguagem de Grande Porte em Segurança Cibernética

Cem Dilmegani
Cem Dilmegani
atualizado em Fev 5, 2026
Veja o nosso normas éticas

Avaliamos 7 grandes modelos de linguagem em 9 domínios de cibersegurança usando o SecBench, um benchmark de grande escala e multiformato para tarefas de segurança.

Testamos cada modelo em 44.823 questões de múltipla escolha (MCQs) e 3.087 questões de resposta curta (SAQs), abrangendo áreas como segurança de dados, gerenciamento de identidade e acesso, segurança de rede, gerenciamento de vulnerabilidades e segurança na nuvem.

Mestrados em Direito (LLM) especializados em cibersegurança

Modelo
Data de lançamento
Tipo de modelo
Foco do treinamento
SecLLM
2024
Variante do código LLaMA
– Exemplos de código inseguros
– Trechos de código vinculados a CVE
– Padrões de exploração
LLM4Cyber
2024
Mestrado em Direito geral refinado
– MITRE ATT&CK
– CVE
– Fontes de inteligência de ameaças (CTI)
LhamaGuard
2024
LLaMA alinhado com a segurança
– Avisos sobre o filtro de segurança
– Aplicação da política de entrada/saída
– Tratamento de prompts adversários
SecGPT
2023
LLM no estilo GPT
– Texto sobre cibersegurança
– Relatórios CVE
Cibersegurança-BERT
2023
BERT (somente codificador)
– Relatórios de malware
– Descrições de vulnerabilidades
– Documentação técnica de segurança

Mestrados em Direito (LLM) de propósito geral para cibersegurança

Esses grandes modelos de linguagem não são treinados exclusivamente com dados de segurança cibernética, mas ainda podem ter um bom desempenho no domínio quando solicitados corretamente ou avaliados em benchmarks como o SecBench.

Exemplos:

Análise comparativa do desempenho do LLM em diferentes domínios de cibersegurança

Este benchmark avalia 7 LLMs gerais , incluindo modelos proprietários (por exemplo, GPT-4) e de código aberto (por exemplo, DeepSeek, Mistral). O benchmark abrange 9 subáreas de cibersegurança , incluindo:

  • Segurança de dados
  • Gestão de Identidade e Acesso
  • Segurança de aplicativos
  • Segurança de rede
  • Padrões de segurança (e outros)

Os domínios do eixo x são classificados de acordo com o desempenho no LLM, com os domínios de pontuação mais baixa posicionados à esquerda e os de pontuação mais alta à direita.

Avaliação comparativa de questões de múltipla escolha (MCQs):

Questões de Resposta Curta (SAQs):

Fonte: Projeto SecBench 1 Consulte a metodologia de referência.

O papel dos mestrados em direito (LLMs) na cibersegurança.

Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) são usados em operações de cibersegurança para extrair informações úteis de fontes não estruturadas, como relatórios de inteligência de ameaças, registros de incidentes, bancos de dados CVE e TTPs (Táticas, Técnicas e Procedimentos) de invasores.

Os LLMs automatizam tarefas essenciais, incluindo a classificação de ameaças, o resumo de alertas e a correlação de indicadores de comprometimento (IOCs).

Quando ajustados com base em dados de segurança cibernética, grandes modelos de linguagem podem detectar anomalias em registros, analisar e-mails de phishing, priorizar vulnerabilidades e mapear ameaças para estruturas como o MITRE ATT&CK.

Aplicações de grandes modelos de linguagem em cibersegurança

Inteligência de ameaças

Copiloto para análise contextual de ameaças: ferramentas baseadas em LLM, como o CyLens, auxiliam analistas de segurança em todo o processo de inteligência de ameaças, analisando extensos relatórios de ameaças com pipelines de PNL modulares e filtros de correlação de entidades. 2

Inteligência proativa de ameaças em tempo real: os sistemas integram LLMs com estruturas de geração aumentada por recuperação (RAG) para ingerir feeds contínuos de CTI (por exemplo, CVE) em bancos de dados de vetores (como o Milvus), permitindo detecção automatizada atualizada, pontuação e raciocínio contextual. 3

Extração de CTI baseada em fóruns: as LLMs analisam dados não estruturados de fóruns de crimes cibernéticos para extrair indicadores-chave de ameaças usando instruções simples. 4

Detecção de vulnerabilidades

Enriquecimento da descrição de vulnerabilidades: LLMs como o CVE-LLM enriquecem as descrições de vulnerabilidades usando ontologias de domínio, permitindo a triagem automatizada e a integração da pontuação CVSS em sistemas de gerenciamento de segurança existentes. 5

Detecção de vulnerabilidades no sistema de arquivos do Android: Investiga como os LLMs podem detectar vulnerabilidades de acesso ao sistema de arquivos em aplicativos Android, incluindo abuso de permissões e armazenamento inseguro. 6

Ajuste fino por RL para detecção de vulnerabilidades: Aplica aprendizado por reforço (RL) para ajustar modelos LLM (LLaMA 3B/8B, Qwen 2.5B) para maior precisão na identificação de vulnerabilidades de software. 7

Anomaly detecção e análise de logs

Detecção semântica de anomalias em logs: Frameworks como o LogLLM utilizam codificadores/decodificadores LLM para analisar e classificar entradas de log, aprimorando a detecção de anomalias além da simples correspondência de padrões. 8

Análise de logs com grandes modelos de linguagem: A análise automatizada de LLM converte logs não estruturados em formatos estruturados por meio de abordagens baseadas em prompts e ajustadas com precisão. 9

Red teaming / Prevenção de ataques assistida por LLM

Testes de penetração e remediação orientados por LLM (penheal): Automatiza testes de penetração usando um pipeline de duas etapas; primeiro identifica vulnerabilidades de segurança e, em seguida, gera ações de remediação usando uma configuração LLM personalizada. 10

Agente on-prem de equipe vermelha para segurança interna (hackphyr): Implanta localmente um agente 7B LLM otimizado para executar tarefas de equipe vermelha, como simulação de movimento lateral, coleta de credenciais e varredura de vulnerabilidades em redes. 11

Metodologia de referência

O SecBench é um benchmark multidimensional de grande escala para avaliar modelos de aprendizado de máquina (LLMs) em cibersegurança em diferentes tarefas, domínios, linguagens e formatos.

Dimensões de avaliação

1. Raciocínio multinível:

  • Retenção de Conhecimento (RC): Questões que testam conhecimento factual ou definições. Estas são mais diretas.
  • Raciocínio lógico (RL): Questões que exigem inferência e compreensão mais profunda. Essas questões são mais desafiadoras e testam a capacidade do modelo de raciocinar com base no contexto.

2. Multiformato:

  • Questões de múltipla escolha: Formato tradicional em que o modelo seleciona entre respostas predefinidas. Total de 44.823 questões.
  • Questões de Resposta Curta (SAQs): Formato aberto que exige que o modelo gere sua resposta para avaliar o raciocínio, a clareza e a resistência a alucinações. Total de 3.087 questões.

3. Multilíngue:

O SecBench inclui perguntas em chinês e inglês .

4. Multidomínio:

As perguntas abrangem 9 domínios de cibersegurança (D1–D9) , incluindo: gestão de segurança, segurança de dados, segurança de redes, segurança de aplicações, segurança na nuvem e muito mais.

Avaliação

As questões de múltipla escolha são avaliadas verificando se o modelo seleciona a(s) opção(ões) correta(s).

Os SAQs são classificados usando um mini “agente de classificação” GPT-4o , que compara a resposta do modelo com a verdade fundamental e atribui uma pontuação com base na precisão e na completude.

Avaliação de desempenho do LLM: Por exemplo, Segurança de Redes (D3) é avaliada agrupando questões relevantes de seu conjunto de dados de múltipla escolha com 44.823 questões.

A precisão é medida com base no desempenho de cada modelo, especificamente nas questões classificadas no domínio D3. A pontuação percentual de um modelo para D3 reflete a proporção de questões de segurança de rede que ele respondeu corretamente.

Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450