Contáctanos
No se encontraron resultados.

Grandes modelos de lenguaje en ciberseguridad in 2026

Cem Dilmegani
Cem Dilmegani
actualizado el Feb 5, 2026
Vea nuestra normas éticas

Evaluamos 7 modelos de lenguaje de gran tamaño en 9 dominios de ciberseguridad utilizando SecBench, una herramienta de evaluación comparativa a gran escala y multiformato para tareas de seguridad.

Probamos cada modelo con 44.823 preguntas de opción múltiple (MCQ) y 3.087 preguntas de respuesta corta (SAQ), que abarcan áreas como la seguridad de los datos, la gestión de identidades y accesos, la seguridad de la red, la gestión de vulnerabilidades y la seguridad en la nube.

Másteres en Derecho (LLM) especializados en ciberseguridad

Modelo
Fecha de lanzamiento
Tipo de modelo
Enfoque de la formación
SecLLM
2024
Variante del código LLaMA
– Ejemplos de código inseguro
– Fragmentos de código vinculados a CVE
– Explotar patrones
LLM4Cyber
2024
Máster en Derecho general perfeccionado
– MITRE ATT&CK
– CVE
– Fuentes de inteligencia sobre amenazas (CTI)
LlamaGuard
2024
LLaMA alineado con la seguridad
– Avisos del filtro de seguridad
– Aplicación de la política de entrada/salida
– Manejo de avisos adversariales
SecGPT
2023
Máster en Derecho al estilo GPT
– Texto sobre ciberseguridad
– Informes CVE
Ciberseguridad-BERT
2023
BERT (solo codificador)
– Informes sobre malware
– Descripciones de vulnerabilidades
– Documentación de seguridad técnica

Másteres en Derecho (LLM) de propósito general para la ciberseguridad

Estos modelos de lenguaje de gran tamaño no se entrenan exclusivamente con datos de ciberseguridad, pero aun así pueden funcionar bien en este ámbito cuando se les indica correctamente o se evalúan con pruebas de referencia como SecBench.

Ejemplos:

Evaluación comparativa del rendimiento de los programas de maestría en derecho (LLM) en diferentes ámbitos de la ciberseguridad.

Este benchmark evalúa 7 modelos LLM generales , incluyendo modelos tanto propietarios (por ejemplo, GPT-4) como de código abierto (por ejemplo, DeepSeek, Mistral). El benchmark abarca 9 subcampos de ciberseguridad , incluyendo:

  • Seguridad de los datos
  • Gestión de identidades y accesos
  • Seguridad de las aplicaciones
  • Seguridad de la red
  • Normas de seguridad (y otras)

Los dominios del eje x están ordenados según el rendimiento de LLM, situándose los dominios con menor puntuación hacia la izquierda y los de mayor puntuación hacia la derecha.

Evaluación comparativa de preguntas de opción múltiple (MCQ):

Preguntas de respuesta corta (SAQ):

Fuente: Diseño de SecBench 1 Véase la metodología de referencia.

El papel de los másteres en derecho (LLM) en la ciberseguridad

Los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) se utilizan en todas las operaciones de ciberseguridad para extraer información útil de fuentes no estructuradas, como informes de inteligencia sobre amenazas, registros de incidentes, bases de datos CVE y tácticas, técnicas y procedimientos (TTP, por sus siglas en inglés) de los atacantes.

Los sistemas LLM automatizan tareas clave, como la clasificación de amenazas, el resumen de alertas y la correlación de indicadores de compromiso (IOC).

Cuando se ajustan con precisión a los datos de ciberseguridad, los modelos de lenguaje complejos pueden detectar anomalías en los registros, analizar correos electrónicos de phishing, priorizar vulnerabilidades y relacionar las amenazas con marcos de trabajo como MITRE ATT&CK.

Aplicaciones de modelos de lenguaje a gran escala en ciberseguridad

Inteligencia sobre amenazas

Copiloto para el análisis contextual de amenazas: las herramientas basadas en LLM, como CyLens, ayudan a los analistas de seguridad en todo el proceso de inteligencia sobre amenazas, analizando informes exhaustivos de amenazas con pipelines de PNL modulares y filtros de correlación de entidades. 2

Inteligencia de amenazas proactiva en tiempo real: los sistemas integran modelos de lógica descriptiva (LLM) con marcos de generación aumentada por recuperación (RAG) para incorporar flujos continuos de información sobre amenazas cibernéticas (por ejemplo, CVE) en bases de datos de vectores (como Milvus), lo que permite la detección, la puntuación y el razonamiento contextual automatizados y actualizados. 3

Extracción de información sobre amenazas cibernéticas basada en foros: los modelos de lógica descriptiva (LLM) analizan datos no estructurados de foros de ciberdelincuencia para extraer indicadores clave de amenazas mediante sencillas indicaciones. 4

Detección de vulnerabilidades

Enriquecimiento de la descripción de vulnerabilidades: Las herramientas LLM, como CVE-LLM, enriquecen las descripciones de vulnerabilidades utilizando ontologías de dominio, lo que permite la clasificación automatizada y la integración de la puntuación CVSS en los sistemas de gestión de seguridad existentes. 5

Detección de vulnerabilidades del sistema de archivos de Android: Investiga cómo las herramientas de gestión de vulnerabilidades (LLM) pueden detectar vulnerabilidades de acceso al sistema de archivos en aplicaciones de Android, incluyendo el abuso de permisos y el almacenamiento inseguro. 6

Ajuste fino de RL para la detección de vulnerabilidades: Aplica el aprendizaje por refuerzo (RL) para ajustar finamente los LLM (LLaMA 3B/8B, Qwen 2.5B) para mejorar la precisión en la identificación de vulnerabilidades de software. 7

Detección y análisis de registros Anomaly

Detección semántica de anomalías en registros: Los marcos de trabajo como LogLLM utilizan codificadores/decodificadores LLM para analizar y clasificar las entradas de registro, mejorando la detección de anomalías más allá de la coincidencia de patrones. 8

Análisis de registros con modelos de lenguaje extensos: El análisis automatizado de modelos de lenguaje extensos convierte registros no estructurados en formatos estructurados mediante enfoques basados en indicaciones y ajustes precisos. 9

Equipos rojos / Prevención de ataques asistida por LLM

Penetración y remediación basadas en LLM (penheal): Automatiza las pruebas de penetración mediante un proceso de dos etapas; primero, identifica las vulnerabilidades de seguridad y, a continuación, genera acciones de remediación utilizando una configuración LLM personalizada. 10

Agente de equipo rojo local para seguridad interna (hackphyr): Implementa localmente un agente 7B LLM optimizado para realizar tareas de equipo rojo, como simulación de movimiento lateral, obtención de credenciales y escaneo de vulnerabilidades en redes. 11

Metodología de evaluación comparativa

SecBench es una herramienta de evaluación comparativa multidimensional y a gran escala para evaluar los modelos de aprendizaje lingüístico (LLM) en ciberseguridad en diferentes tareas, dominios, lenguajes y formatos.

Dimensiones de evaluación

1. Razonamiento multinivel:

  • Retención de conocimientos (RC): Preguntas que evalúan el conocimiento de hechos o definiciones. Estas son más sencillas.
  • Razonamiento lógico (RL): Preguntas que requieren inferencia y una comprensión más profunda. Estas son más desafiantes y ponen a prueba la capacidad del modelo para razonar en función del contexto.

2. Multiformato:

  • Preguntas de opción múltiple (MCQ): Formato tradicional donde el modelo selecciona entre respuestas predefinidas. Total de 44.823 preguntas.
  • Preguntas de respuesta breve (SAQ): Formato abierto que requiere que el modelo genere su respuesta para evaluar el razonamiento, la claridad y la resistencia a las alucinaciones. Un total de 3087 preguntas.

3. Multilingüe:

SecBench incluye preguntas tanto en chino como en inglés .

4. Multidominio:

Las preguntas abarcan 9 dominios de ciberseguridad (D1–D9) , entre los que se incluyen: gestión de la seguridad, seguridad de los datos, seguridad de la red, seguridad de las aplicaciones, seguridad en la nube y más.

Evaluación

Las preguntas de opción múltiple se califican comprobando si el modelo selecciona la(s) opción(es) correcta(s).

Las SAQ se califican utilizando un mini "agente de calificación" GPT-4o , que compara la respuesta del modelo con la verdad fundamental y asigna una puntuación basada en la precisión y la exhaustividad.

Evaluación del desempeño del programa LLM: Por ejemplo, la seguridad de redes (D3) se evalúa agrupando las preguntas relevantes de su conjunto de datos de 44.823 preguntas de opción múltiple.

La precisión se mide en función del rendimiento de cada modelo, específicamente en las preguntas etiquetadas dentro del dominio D3. El porcentaje de aciertos de un modelo en D3 refleja la proporción de preguntas sobre seguridad de red que respondió correctamente.

Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450