Les 6 meilleurs outils open source de découverte de données sensibles

avec

mis à jour le Mar 5, 2026

Les outils suivants sont sélectionnés en fonction de leur activité sur GitHub et classés par nombre d'étoiles GitHub, par ordre décroissant. Ils couvrent les principaux cas d'utilisation pour la découverte de données sensibles : catalogage des métadonnées avec traçabilité, analyse sans agent et détection, via API, des données PII, PCI et des identifiants au repos.

Lire la suite : Outils de découverte et de classification des données sensibles , logiciel DLP .

Fonctionnalités administratives

Outil	Tableau de bord graphique	Recherche basée sur	Traçabilité des données	Système de base de données fédérée
DataHub	✅	✅	✅	✅
Apache – Atlas	✅	✅	✅	❌
Marquez	✅	✅	✅	Non partagé.
OpenDLP	❌	❌	❌	❌
Coffre-fort Piiano – Redécouverte	❌	Non partagé.	❌	❌
Nightfall AI – Scanner de données sensibles	✅	✅	❌	❌

Description des fonctionnalités :

Tableau de bord graphique – permet de visualiser vos résultats de données.
Fonctionnalité de recherche – permet de rechercher des ressources de données.
Traçabilité des données – permet aux utilisateurs de visualiser comment les données sont générées, transformées, transmises et utilisées au sein d'un système au fil du temps.
Système de base de données fédérée – transforme plusieurs systèmes de bases de données autonomes en une seule base de données fédérée.

Ces fonctionnalités (notamment la traçabilité des données et les capacités de recherche) permettent aux entreprises de :

Découvrez l'emplacement de leurs informations personnelles (PII), des données de l'industrie des cartes de paiement (PCI) , etc., stockées dans plusieurs bases de données, applications et points de terminaison utilisateur.
Se conformer aux normes réglementaires du secteur en matière de protection des données et de confidentialité telles que le Règlement général sur la protection des données (RGPD) et la loi californienne sur la protection de la vie privée des consommateurs (California Consumer Privacy Act - CCPA ).

fonctionnalités de sécurité des données

Description des fonctionnalités :

Le masquage des données permet de dissimuler des données en modifiant leurs lettres et chiffres d'origine, de sorte qu'elles n'aient aucune valeur pour les intrus non autorisés tout en restant utilisables pour les employés autorisés.
Prévention des pertes de données (DLP) – détecte les violations de données potentielles et les empêche en bloquant les données sensibles.

Catégories et étoiles GitHub

Sélection et tri des outils :

Nombre d'avis : plus de 10 étoiles sur GitHub.
Mise à jour : Au moins une mise à jour a été publiée la semaine dernière (novembre 2024).
Tri : Les outils sont triés par nombre d’étoiles GitHub, par ordre décroissant.

DataHub

DataHub est une plateforme open source unifiée pour la découverte, l'observabilité et la gouvernance des données sensibles, développée par Acryl Data et LinkedIn. Elle est également commercialisée par Acryl Data sous forme de solution SaaS hébergée dans le cloud.

Caractéristiques principales :

Traçabilité des données au niveau des colonnes : suit le flux de données de la source à la consommation sur l’ensemble des plateformes.
Qualité des données assistée par l'IA : la détection d'anomalies signale automatiquement les problèmes de qualité des données.
Extensibilité : API REST, SDK Python et intégration LangChain pour la création d'agents ayant accès aux métadonnées DataHub.
Plus de 80 connecteurs natifs : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake, et autres.

À prendre en compte : L’architecture de DataHub exécute plusieurs services interconnectés (GMS, consommateur MCE, consommateur MAE, index de recherche, stockage de graphes). Les déploiements en production nécessitent généralement Kubernetes. La complexité de la configuration est le principal point faible mentionné par la communauté.

Apache – Atlas

Apache Atlas est un outil open source de gestion et de gouvernance des métadonnées, conçu principalement pour Hadoop et les écosystèmes Big Data. Il prend en charge la classification, le suivi de la lignée et la recherche dans les ressources de données au sein d'environnements basés sur Hive, HBase, Kafka, Spark, Sqoop et Storm.

Caractéristiques principales

Classification dynamique : Apache Atlas permet de créer des classifications personnalisées telles que PII (Informations personnelles identifiables), EXPIRES_ON, DATA_QUALITY et SENSITIVE.
Metatypes de données : La plateforme fournit des types de métadonnées prédéfinis pour les environnements Hadoop et non-Hadoop. Cela permet aux utilisateurs de gérer les métadonnées de plusieurs sources de données, telles que HBase, Hive, Sqoop, Kafka et Storm.
Langage de requête de type SQL (DSL) : La plateforme prend en charge un langage dédié (DSL) offrant des fonctionnalités de requête similaires à SQL pour la recherche d’entités. Elle est ainsi accessible aux utilisateurs connaissant SQL.
Intégration avec des outils externes : Apache Hive, Apache Spark, Kafka et Presto, ce qui le rend adaptable aux environnements de big data.

Considérations :

Configurer Atlas dans un environnement multicloud est complexe, notamment pour assurer la liaison entre les API AWS, Azure et Databricks. Atlas ne dispose pas de connecteurs natifs pour ces plateformes ; une configuration supplémentaire est nécessaire pour enregistrer la traçabilité depuis AWS Redshift ou Azure Synapse.
Les services de catalogage natifs du cloud (par exemple, AWS Glue) peuvent offrir un suivi de la lignée à moindre coût pour les équipes déjà engagées auprès d'un seul fournisseur de cloud.
Atlas est particulièrement adapté aux organisations qui utilisent Hadoop, Spark et Hive à grande échelle. Les équipes ne disposant pas d'une infrastructure centrée sur Hadoop trouveront son architecture inutilement complexe.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Marquez

Marquez est un catalogue de données open source permettant de collecter, d'agréger et de visualiser les métadonnées d'un écosystème de données. Il propose une interface web et une API REST pour explorer les jeux de données, comprendre leurs dépendances et suivre les modifications apportées aux pipelines de données.

Recherche d'ensembles de données : Les utilisateurs peuvent facilement rechercher des ensembles de données, consulter leurs attributs et comprendre leurs dépendances au sein de l'écosystème de données.
Visualisation de la lignée : Le graphe de lignée de Marquez offre une vue claire et interactive de la manière dont les ensembles de données sont connectés et transformés par les flux de travail. Ceci est essentiel pour comprendre les pipelines de données, identifier les erreurs et garantir la fiabilité des données.
Référentiel centralisé de métadonnées : Marquez agrège les métadonnées provenant de sources diverses et les consolide dans un système unique pour un accès et une gestion faciles.

Exemple de flux de travail : Pour examiner les métadonnées de lignage, accédez à l’interface utilisateur de Marquez et recherchez une tâche (par exemple, etl_delivery_7_days) à l’aide du champ de recherche. À partir du jeu de données de sortie de la tâche (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.),

Coffre-fort Piiano – Redécouverte

Piiano Vault est un coffre-fort numérique sécurisé pour stocker et protéger vos données personnelles sensibles au sein de votre environnement cloud. Au lieu d'analyser vos bases de données existantes à la recherche de données sensibles, Vault est conçu comme un référentiel unique pour les champs les plus sensibles : numéros de carte bancaire, numéros de compte bancaire, numéros de sécurité sociale, noms, adresses e-mail et numéros de téléphone. Il est installé en complément des bases de données de vos applications existantes.

Vault se déploie au sein de votre architecture via Docker ou Kubernetes (graphiques Helm disponibles). Des kits de développement logiciel (SDK) sont disponibles pour Python (Django ORM), TypeScript, Java et Go. Le dépôt vault-releases a été mis à jour pour la dernière fois en août 2025.

Différence de cas d'utilisation : Vault n'est pas un outil d'exploration de données. Il s'agit d'un système de stockage structuré pour les données sensibles que les organisations souhaitent centraliser et protéger, et non d'un outil permettant de trouver des données sensibles déjà dispersées dans des systèmes existants.

Tombée de la nuit

Nightfall est une plateforme DLP commerciale basée sur l'IA, et non un outil entièrement open source. Ses dépôts GitHub contiennent des scripts d'analyse open source (Apache 2.0) qui utilisent l'API de Nightfall pour analyser les répertoires, les exportations et les sauvegardes. L'exécution des analyses nécessite une clé API Nightfall et fait appel au moteur de détection commercial de Nightfall. La version gratuite permet d'effectuer jusqu'à 100 analyses par mois sur les dépôts publics et privés.

Fonctionnalités de numérisation open source (niveau gratuit) :

Analyse l'historique complet des modifications des dépôts publics et privés.
Détecte les identifiants, les secrets, les informations personnelles et les numéros de carte de crédit.
Effectue jusqu'à 100 scans par mois.

Fonctionnalité distinctive : Nightfall peut envoyer des alertes à Slack lorsque des violations sont détectées et transmettre les résultats à un SIEM , un outil de reporting ou un point de terminaison webhook.

Exemple d'utilisation : analyser une sauvegarde Salesforce pour détecter les données sensibles au repos. L'analyseur (1) soumet les fichiers de sauvegarde à l'API de Nightfall pour analyse, (2) exécute un serveur webhook local pour recevoir les résultats et (3) exporte les résultats dans un fichier CSV.

L'URL ci-dessus est fournie par Nightfall. Il s'agit de l'URL S3 temporairement signée permettant de récupérer les données sensibles identifiées par Nightfall.

Pour en savoir plus

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par