Les 6 meilleurs outils open source de découverte de données sensibles
Les outils suivants sont sélectionnés en fonction de leur activité sur GitHub et classés par nombre d'étoiles GitHub, par ordre décroissant. Ils couvrent les principaux cas d'utilisation pour la découverte de données sensibles : catalogage des métadonnées avec traçabilité, analyse sans agent et détection, via API, des données PII, PCI et des identifiants au repos.
Lire la suite : Outils de découverte et de classification des données sensibles , logiciel DLP .
Fonctionnalités administratives
Outil | Tableau de bord graphique | Recherche basée sur | Traçabilité des données | Système de base de données fédérée |
|---|---|---|---|---|
DataHub | ✅ | ✅ | ✅ | ✅ |
Apache – Atlas | ✅ | ✅ | ✅ | ❌ |
Marquez | ✅ | ✅ | ✅ | Non partagé. |
OpenDLP | ❌ | ❌ | ❌ | ❌ |
Coffre-fort Piiano – Redécouverte | ❌ | Non partagé. | ❌ | ❌ |
Nightfall AI – Scanner de données sensibles | ✅ | ✅ | ❌ | ❌ |
Description des fonctionnalités :
- Tableau de bord graphique – permet de visualiser vos résultats de données.
- Fonctionnalité de recherche – permet de rechercher des ressources de données.
- Traçabilité des données – permet aux utilisateurs de visualiser comment les données sont générées, transformées, transmises et utilisées au sein d'un système au fil du temps.
- Système de base de données fédérée – transforme plusieurs systèmes de bases de données autonomes en une seule base de données fédérée.
Ces fonctionnalités (notamment la traçabilité des données et les capacités de recherche) permettent aux entreprises de :
- Découvrez l'emplacement de leurs informations personnelles (PII), des données de l'industrie des cartes de paiement (PCI) , etc., stockées dans plusieurs bases de données, applications et points de terminaison utilisateur.
- Se conformer aux normes réglementaires du secteur en matière de protection des données et de confidentialité telles que le Règlement général sur la protection des données (RGPD) et la loi californienne sur la protection de la vie privée des consommateurs (California Consumer Privacy Act - CCPA ).
fonctionnalités de sécurité des données
Description des fonctionnalités :
- Le masquage des données permet de dissimuler des données en modifiant leurs lettres et chiffres d'origine, de sorte qu'elles n'aient aucune valeur pour les intrus non autorisés tout en restant utilisables pour les employés autorisés.
- Prévention des pertes de données (DLP) – détecte les violations de données potentielles et les empêche en bloquant les données sensibles.
Catégories et étoiles GitHub
Sélection et tri des outils :
- Nombre d'avis : plus de 10 étoiles sur GitHub.
- Mise à jour : Au moins une mise à jour a été publiée la semaine dernière (novembre 2024).
- Tri : Les outils sont triés par nombre d’étoiles GitHub, par ordre décroissant.
DataHub
DataHub est une plateforme open source unifiée pour la découverte, l'observabilité et la gouvernance des données sensibles, développée par Acryl Data et LinkedIn. Elle est également commercialisée par Acryl Data sous forme de solution SaaS hébergée dans le cloud.
Caractéristiques principales :
- Traçabilité des données au niveau des colonnes : suit le flux de données de la source à la consommation sur l’ensemble des plateformes.
- Qualité des données assistée par l'IA : la détection d'anomalies signale automatiquement les problèmes de qualité des données.
- Extensibilité : API REST, SDK Python et intégration LangChain pour la création d'agents ayant accès aux métadonnées DataHub.
- Plus de 80 connecteurs natifs : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake, et autres.
À prendre en compte : L’architecture de DataHub exécute plusieurs services interconnectés (GMS, consommateur MCE, consommateur MAE, index de recherche, stockage de graphes). Les déploiements en production nécessitent généralement Kubernetes. La complexité de la configuration est le principal point faible mentionné par la communauté.
Apache – Atlas
Apache Atlas est un outil open source de gestion et de gouvernance des métadonnées, conçu principalement pour Hadoop et les écosystèmes Big Data. Il prend en charge la classification, le suivi de la lignée et la recherche dans les ressources de données au sein d'environnements basés sur Hive, HBase, Kafka, Spark, Sqoop et Storm.
Caractéristiques principales
- Classification dynamique : Apache Atlas permet de créer des classifications personnalisées telles que PII (Informations personnelles identifiables), EXPIRES_ON, DATA_QUALITY et SENSITIVE.
- Metatypes de données : La plateforme fournit des types de métadonnées prédéfinis pour les environnements Hadoop et non-Hadoop. Cela permet aux utilisateurs de gérer les métadonnées de plusieurs sources de données, telles que HBase, Hive, Sqoop, Kafka et Storm.
- Langage de requête de type SQL (DSL) : La plateforme prend en charge un langage dédié (DSL) offrant des fonctionnalités de requête similaires à SQL pour la recherche d’entités. Elle est ainsi accessible aux utilisateurs connaissant SQL.
- Intégration avec des outils externes : Apache Hive, Apache Spark, Kafka et Presto, ce qui le rend adaptable aux environnements de big data.
Considérations :
- Configurer Atlas dans un environnement multicloud est complexe, notamment pour assurer la liaison entre les API AWS, Azure et Databricks. Atlas ne dispose pas de connecteurs natifs pour ces plateformes ; une configuration supplémentaire est nécessaire pour enregistrer la traçabilité depuis AWS Redshift ou Azure Synapse.
- Les services de catalogage natifs du cloud (par exemple, AWS Glue) peuvent offrir un suivi de la lignée à moindre coût pour les équipes déjà engagées auprès d'un seul fournisseur de cloud.
- Atlas est particulièrement adapté aux organisations qui utilisent Hadoop, Spark et Hive à grande échelle. Les équipes ne disposant pas d'une infrastructure centrée sur Hadoop trouveront son architecture inutilement complexe.
Marquez
Marquez est un catalogue de données open source permettant de collecter, d'agréger et de visualiser les métadonnées d'un écosystème de données. Il propose une interface web et une API REST pour explorer les jeux de données, comprendre leurs dépendances et suivre les modifications apportées aux pipelines de données.
- Recherche d'ensembles de données : Les utilisateurs peuvent facilement rechercher des ensembles de données, consulter leurs attributs et comprendre leurs dépendances au sein de l'écosystème de données.
- Visualisation de la lignée : Le graphe de lignée de Marquez offre une vue claire et interactive de la manière dont les ensembles de données sont connectés et transformés par les flux de travail. Ceci est essentiel pour comprendre les pipelines de données, identifier les erreurs et garantir la fiabilité des données.
- Référentiel centralisé de métadonnées : Marquez agrège les métadonnées provenant de sources diverses et les consolide dans un système unique pour un accès et une gestion faciles.
Exemple de flux de travail : Pour examiner les métadonnées de lignage, accédez à l’interface utilisateur de Marquez et recherchez une tâche (par exemple, etl_delivery_7_days) à l’aide du champ de recherche. À partir du jeu de données de sortie de la tâche (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.),
Coffre-fort Piiano – Redécouverte
Piiano Vault est un coffre-fort numérique sécurisé pour stocker et protéger vos données personnelles sensibles au sein de votre environnement cloud. Au lieu d'analyser vos bases de données existantes à la recherche de données sensibles, Vault est conçu comme un référentiel unique pour les champs les plus sensibles : numéros de carte bancaire, numéros de compte bancaire, numéros de sécurité sociale, noms, adresses e-mail et numéros de téléphone. Il est installé en complément des bases de données de vos applications existantes.
Vault se déploie au sein de votre architecture via Docker ou Kubernetes (graphiques Helm disponibles). Des kits de développement logiciel (SDK) sont disponibles pour Python (Django ORM), TypeScript, Java et Go. Le dépôt vault-releases a été mis à jour pour la dernière fois en août 2025.
Différence de cas d'utilisation : Vault n'est pas un outil d'exploration de données. Il s'agit d'un système de stockage structuré pour les données sensibles que les organisations souhaitent centraliser et protéger, et non d'un outil permettant de trouver des données sensibles déjà dispersées dans des systèmes existants.
Tombée de la nuit
Nightfall est une plateforme DLP commerciale basée sur l'IA, et non un outil entièrement open source. Ses dépôts GitHub contiennent des scripts d'analyse open source (Apache 2.0) qui utilisent l'API de Nightfall pour analyser les répertoires, les exportations et les sauvegardes. L'exécution des analyses nécessite une clé API Nightfall et fait appel au moteur de détection commercial de Nightfall. La version gratuite permet d'effectuer jusqu'à 100 analyses par mois sur les dépôts publics et privés.
Fonctionnalités de numérisation open source (niveau gratuit) :
- Analyse l'historique complet des modifications des dépôts publics et privés.
- Détecte les identifiants, les secrets, les informations personnelles et les numéros de carte de crédit.
- Effectue jusqu'à 100 scans par mois.
Fonctionnalité distinctive : Nightfall peut envoyer des alertes à Slack lorsque des violations sont détectées et transmettre les résultats à un SIEM , un outil de reporting ou un point de terminaison webhook.
Exemple d'utilisation : analyser une sauvegarde Salesforce pour détecter les données sensibles au repos. L'analyseur (1) soumet les fichiers de sauvegarde à l'API de Nightfall pour analyse, (2) exécute un serveur webhook local pour recevoir les résultats et (3) exporte les résultats dans un fichier CSV.
L'URL ci-dessus est fournie par Nightfall. Il s'agit de l'URL S3 temporairement signée permettant de récupérer les données sensibles identifiées par Nightfall.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.