Contáctanos
No se encontraron resultados.

Las 6 mejores herramientas de código abierto para el descubrimiento de datos confidenciales.

Cem Dilmegani
Cem Dilmegani
actualizado el Mar 5, 2026
Vea nuestra normas éticas

Las siguientes herramientas se seleccionaron en función de su actividad en GitHub y se ordenaron por número de estrellas en GitHub en orden descendente. Cubren los principales casos de uso para el descubrimiento de datos sensibles: catalogación de metadatos con trazabilidad, escaneo sin agente y detección basada en API de información de identificación personal (PII), datos PCI y credenciales en reposo.

Leer más: Herramientas de detección y clasificación de datos confidenciales , software DLP .

Características administrativas

Herramienta
Panel gráfico
Basado en búsqueda
Linaje de datos
Sistema de base de datos federada
Centro de datos
Apache – Atlas
Márquez
No compartido.
OpenDLP
Bóveda de Piiano – Redescubrimiento
No compartido.
Nightfall AI: escáner de datos confidenciales

Descripción de las características:

  • Panel gráfico : permite visualizar los resultados de sus datos.
  • Funcionalidad basada en búsqueda : permite buscar activos de datos.
  • Linaje de datos : permite a los usuarios visualizar cómo se generan, transforman, transmiten y utilizan los datos en un sistema a lo largo del tiempo.
  • Sistema de base de datos federada : combina varios sistemas de bases de datos autónomas en una única base de datos federada.

Estas funcionalidades (especialmente el linaje de datos y las capacidades de búsqueda) permiten a las empresas:

  • Descubra la ubicación de su información personal (PII), datos de la industria de tarjetas de pago (PCI) , etc., almacenados en múltiples bases de datos, aplicaciones y puntos finales de usuario.
  • Cumplir con los estándares regulatorios de protección de datos y privacidad de la industria, como el Reglamento General de Protección de Datos (RGPD) y la Ley de Privacidad del Consumidor de California ( CPA ).

Características de seguridad de datos

Descripción de las características:

  • Enmascaramiento de datos : permite ocultar datos modificando sus letras y números originales, de modo que no tengan ningún valor para intrusos no autorizados, pero sigan siendo utilizables para los empleados autorizados.
  • Prevención de pérdida de datos (DLP) : detecta posibles filtraciones de datos y las previene bloqueando los datos confidenciales.

Categorías y estrellas de GitHub

Selección y clasificación de herramientas:

  • Número de reseñas: más de 10 estrellas en GitHub.
  • Lanzamiento de actualizaciones: Se lanzó al menos una actualización la semana pasada, a fecha de noviembre de 2024.
  • Clasificación: Las herramientas se ordenan según las estrellas de GitHub en orden descendente.

Centro de datos

DataHub es una plataforma unificada de código abierto para el descubrimiento, la observabilidad y la gobernanza de datos confidenciales, desarrollada por Acryl Data y LinkedIn. Acryl Data también la ofrece comercialmente como un servicio SaaS alojado en la nube.

Características principales:

  • Linaje de datos a nivel de columna : rastrea el flujo de datos desde el origen hasta el consumo a través de las diferentes plataformas.
  • Calidad de datos asistida por IA : la detección de anomalías señala automáticamente los problemas de calidad de los datos.
  • Extensibilidad : API REST, SDK de Python e integración con LangChain para la creación de agentes con acceso a los metadatos de DataHub.
  • Más de 80 conectores nativos : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake y otros.

Consideración: La arquitectura de DataHub ejecuta múltiples servicios interconectados (GMS, consumidor MCE, consumidor MAE, índice de búsqueda, almacén de grafos). Las implementaciones en producción generalmente requieren Kubernetes. La complejidad de la configuración es el problema más citado por la comunidad.

Apache – Atlas

Apache Atlas es una herramienta de código abierto para la gestión y gobernanza de metadatos, diseñada principalmente para Hadoop y ecosistemas de big data. Permite la clasificación, el seguimiento del linaje y la búsqueda en conjuntos de datos en entornos basados en Hive, HBase, Kafka, Spark, Sqoop y Storm.

Características principales

  • Clasificación dinámica: Apache Atlas permite crear clasificaciones personalizadas como PII (Información de identificación personal), EXPIRES_ON, DATA_QUALITY y SENSITIVE.
  • Tipos de datos: La plataforma proporciona tipos de metadatos predefinidos para entornos Hadoop y no Hadoop. Esto permite a los usuarios gestionar metadatos para diversas fuentes de datos, como HBase, Hive, Sqoop, Kafka y Storm.
  • Lenguaje de consulta tipo SQL (DSL): La plataforma admite un lenguaje específico de dominio (DSL) que proporciona funcionalidades de consulta similares a las de SQL para buscar entidades. Esto la hace accesible para usuarios familiarizados con SQL.
  • Integración con herramientas externas : Apache Hive, Apache Spark, Kafka y Presto, lo que la hace adaptable a entornos de big data.

Consideraciones:

  • Configurar Atlas en un entorno multi-nube es complejo, especialmente al conectar las API de AWS, Azure y Databricks. Atlas no cuenta con conectores nativos para estas plataformas; se requiere configuración adicional para registrar el linaje de AWS Redshift o Azure Synapse.
  • Los servicios de catalogación nativos de la nube (por ejemplo, AWS Glue) pueden ofrecer un seguimiento del linaje con menores costes operativos para los equipos que ya utilizan un único proveedor de nube.
  • Atlas es ideal para organizaciones que utilizan Hadoop, Spark y Hive a gran escala. Los equipos que no cuenten con una infraestructura centrada en Hadoop encontrarán que su arquitectura añade una complejidad innecesaria.

Márquez

Marquez es un catálogo de datos de código abierto para recopilar, agregar y visualizar metadatos de un ecosistema de datos. Proporciona una interfaz web y una API REST para explorar conjuntos de datos, comprender sus dependencias y realizar un seguimiento de los cambios a través de los flujos de datos.

  • Búsqueda de conjuntos de datos : Los usuarios pueden buscar fácilmente conjuntos de datos, ver sus atributos y comprender sus dependencias en todo el ecosistema de datos.
  • Visualización del linaje : El gráfico de linaje de Marquez ofrece una vista clara e interactiva de cómo se conectan y transforman los conjuntos de datos mediante flujos de trabajo. Esto es fundamental para comprender las canalizaciones de datos, detectar errores y garantizar la fiabilidad de los datos.
  • Repositorio centralizado de metadatos : Marquez agrega metadatos de diversas fuentes, consolidándolos en un único sistema para facilitar su acceso y gestión.

Ejemplo de flujo de trabajo: Para inspeccionar los metadatos de linaje, navegue a la interfaz de usuario de Marquez y busque un trabajo (por ejemplo, etl_delivery_7_days) utilizando el cuadro de búsqueda. Desde el conjunto de datos de salida del trabajo (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.)

Bóveda de Piiano – Redescubrimiento

Piiano Vault es una bóveda de privacidad para almacenar y proteger datos personales confidenciales dentro de su propio entorno en la nube. En lugar de escanear las bases de datos existentes en busca de datos confidenciales, Vault está diseñado como el repositorio principal para los campos más sensibles: números de tarjetas de crédito, números de cuentas bancarias, números de identificación nacional (SSN), nombres, correos electrónicos y números de teléfono, instalados junto con las bases de datos de sus aplicaciones existentes.

Vault se implementa en su arquitectura mediante Docker o Kubernetes (gráficos Helm disponibles). Hay SDK disponibles para Python (Django ORM), TypeScript, Java y Go. El repositorio vault-releases se actualizó por última vez en agosto de 2025.

Distinción de casos de uso: Vault no es un escáner de descubrimiento de datos. Es un sistema de almacenamiento estructurado para datos confidenciales que las organizaciones desean centralizar y proteger, no una herramienta para encontrar datos confidenciales ya dispersos en sistemas existentes.

Anochecer

Nightfall es una plataforma DLP comercial basada en IA, no una herramienta completamente de código abierto. Sus repositorios de GitHub incluyen scripts de escaneo de código abierto (Apache 2.0) que utilizan la API de Nightfall para escanear directorios, exportaciones y copias de seguridad. Para ejecutar los escaneos se requiere una clave API de Nightfall y se utiliza el motor de detección comercial de Nightfall. El plan gratuito permite hasta 100 escaneos al mes en repositorios públicos y privados.

Funcionalidades de escaneo de código abierto (nivel gratuito):

  • Analiza el historial completo de confirmaciones de repositorios públicos y privados.
  • Detecta credenciales, secretos, información personal identificable y números de tarjetas de crédito.
  • Realiza hasta 100 escaneos al mes.

Característica distintiva: Nightfall puede enviar alertas a Slack cuando se detectan infracciones y reenviar los resultados a un SIEM , una herramienta de informes o un punto final de webhook.

Ejemplo de caso de uso: Escanear una copia de seguridad Salesforce para detectar datos confidenciales en reposo. El escáner (1) envía los archivos de copia de seguridad a la API de Nightfall para su escaneo, (2) ejecuta un servidor webhook local para recibir los resultados y (3) exporta los hallazgos a un archivo CSV.

La URL anterior la proporciona Nightfall. Se trata de la URL S3 firmada temporalmente para recuperar los hallazgos confidenciales que Nightfall identificó.

Lecturas adicionales

Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo
Investigado por
Sena Sezer
Sena Sezer
Analista de la industria
Sena es analista del sector en AIMultiple. Se licenció en la Universidad de Bogazici.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450