Sicurezza informatica Strumenti di sicurezza

I 6 migliori strumenti open source per la scoperta di dati sensibili

con

aggiornato il Mar 5, 2026

Gli strumenti seguenti sono stati selezionati in base all'attività su GitHub e ordinati in ordine decrescente in base al numero di stelle ricevute. Essi coprono i principali casi d'uso per l'individuazione di dati sensibili: catalogazione dei metadati con tracciabilità, scansione senza agenti e rilevamento basato su API di dati personali, dati PCI e credenziali a riposo.

Per saperne di più: Strumenti per l'individuazione e la classificazione di dati sensibili , software DLP .

Funzionalità amministrative

Attrezzo	Dashboard grafica	Ricerca basata	Provenienza dei dati	Sistema di database federato
DataHub	✅	✅	✅	✅
Apache – Atlante	✅	✅	✅	❌
Marquez	✅	✅	✅	Non condiviso.
OpenDLP	❌	❌	❌	❌
Piano Vault – Riscoperta	❌	Non condiviso.	❌	❌
Nightfall AI – Scanner di dati sensibili	✅	✅	❌	❌

Descrizione delle funzionalità:

Dashboard grafica : consente di visualizzare i risultati ottenuti dai dati.
Funzionalità di ricerca : consente di cercare risorse di dati.
Tracciabilità della provenienza dei dati : consente agli utenti di visualizzare come i dati vengono generati, trasformati, trasmessi e utilizzati all'interno di un sistema nel corso del tempo.
Sistema di database federato : mappa più sistemi di database autonomi in un unico database federato.

Queste funzionalità (in particolare la tracciabilità dei dati e le capacità di ricerca) consentono alle aziende di:

Scopri la posizione delle loro informazioni personali (PII), dei dati PCI (Payment Card Industry) , ecc., archiviati in più database, app e dispositivi utente.
Rispettare gli standard normativi di settore in materia di protezione dei dati e privacy, come il Regolamento generale sulla protezione dei dati (GDPR) e il California Consumer Privacy Act ( CCPA ).

Funzionalità di sicurezza dei dati

Descrizione delle funzionalità:

Mascheramento dei dati : consente di nascondere i dati modificandone le lettere e i numeri originali, in modo che non abbiano alcun valore per gli intrusi non autorizzati, pur rimanendo utilizzabili dai dipendenti autorizzati.
Prevenzione della perdita di dati (DLP) : rileva potenziali violazioni dei dati e le previene bloccando i dati sensibili.

Categorie e stelle di GitHub

Selezione e smistamento degli strumenti:

Numero di recensioni: oltre 10 stelle su GitHub.
Rilascio dell'aggiornamento: almeno un aggiornamento è stato rilasciato la scorsa settimana, a novembre 2024.
Ordinamento: Gli strumenti sono ordinati in base al numero di stelle su GitHub, in ordine decrescente.

DataHub

DataHub è una piattaforma unificata open-source per la scoperta, l'osservabilità e la governance di dati sensibili, sviluppata da Acryl Data e LinkedIn. Acryl Data la offre anche commercialmente come servizio SaaS in cloud.

Caratteristiche principali:

Tracciamento del flusso di dati a livello di colonna : traccia il flusso di dati dalla sorgente al consumo attraverso le diverse piattaforme.
Qualità dei dati assistita dall'intelligenza artificiale : il rilevamento delle anomalie segnala automaticamente i problemi di qualità dei dati.
Estensibilità : API REST, SDK Python e integrazione con LangChain per la creazione di agenti con accesso ai metadati di DataHub.
Oltre 80 connettori nativi : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake e altri.

Considerazioni: l'architettura di DataHub esegue molteplici servizi interconnessi (GMS, consumer MCE, consumer MAE, indice di ricerca, archivio a grafo). Le implementazioni in produzione in genere richiedono Kubernetes. La complessità della configurazione è il problema più frequentemente segnalato dalla community.

Apache – Atlante

Apache Atlas è uno strumento open-source per la gestione e la governance dei metadati, progettato principalmente per gli ecosistemi Hadoop e big data. Supporta la classificazione, il tracciamento della provenienza e la ricerca tra le risorse di dati in ambienti basati su Hive, HBase, Kafka, Spark, Sqoop e Storm.

Caratteristiche principali

Classificazione dinamica: Apache Atlas consente di creare classificazioni personalizzate come PII (Informazioni di identificazione personale), EXPIRES_ON, DATA_QUALITY e SENSITIVE.
Tipi di dati: La piattaforma fornisce tipi di metadati predefiniti per ambienti Hadoop e non Hadoop. Ciò consente agli utenti di gestire i metadati per diverse origini dati, come HBase, Hive, Sqoop, Kafka e Storm.
Linguaggio di interrogazione simile a SQL (DSL): la piattaforma supporta un linguaggio specifico di dominio (DSL) che fornisce funzionalità di interrogazione simili a SQL per la ricerca di entità. Ciò la rende accessibile agli utenti che hanno familiarità con SQL.
Integrazione con strumenti esterni : Apache Hive, Apache Spark, Kafka e Presto, che lo rendono adattabile ad ambienti big data.

Considerazioni:

Configurare Atlas in un ambiente multi-cloud è complesso, soprattutto quando si tratta di integrare le API di AWS, Azure e Databricks. Atlas non dispone di connettori nativi per queste piattaforme; è necessaria una configurazione aggiuntiva per registrare la provenienza dei dati da AWS Redshift o Azure Synapse.
I servizi di catalogazione nativi del cloud (ad esempio, AWS Glue) possono offrire un tracciamento della provenienza dei dati con un overhead inferiore per i team che si affidano già a un singolo provider di servizi cloud.
Atlas è la soluzione ideale per le organizzazioni che utilizzano Hadoop, Spark e Hive su larga scala. I team che non dispongono di uno stack incentrato su Hadoop troveranno la sua architettura eccessivamente complessa.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Marquez

Marquez è un catalogo di dati open-source per la raccolta, l'aggregazione e la visualizzazione dei metadati provenienti da un ecosistema di dati. Offre un'interfaccia utente web e un'API REST per esplorare i dataset, comprenderne le dipendenze e tracciare le modifiche lungo le pipeline di dati.

Ricerca di set di dati : gli utenti possono facilmente cercare set di dati, visualizzarne gli attributi e comprenderne le dipendenze all'interno dell'ecosistema dei dati.
Visualizzazione della provenienza dei dati : il grafico di provenienza dei dati in Marquez offre una visione chiara e interattiva di come i set di dati vengono connessi e trasformati attraverso i flussi di lavoro. Questo è fondamentale per comprendere le pipeline di dati, tracciare gli errori e garantire l'affidabilità dei dati.
Archivio centralizzato di metadati : Marquez aggrega i metadati provenienti da diverse fonti, consolidandoli in un unico sistema per un facile accesso e gestione.

Esempio di flusso di lavoro: per ispezionare i metadati di derivazione, accedere all'interfaccia utente di Marquez e cercare un lavoro (ad esempio, etl_delivery_7_days) utilizzando la casella di ricerca. Dal dataset di output del lavoro (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.

Piano Vault – Riscoperta

Pianio Vault è una soluzione di archiviazione sicura per i dati personali sensibili, progettata per proteggere e archiviare informazioni riservate all'interno del proprio ambiente cloud. Anziché scansionare i database esistenti alla ricerca di dati sensibili, Vault funge da archivio centralizzato per i campi più importanti, quali numeri di carta di credito, numeri di conto corrente bancario, codici fiscali, nomi, indirizzi email e numeri di telefono, installati insieme ai database delle applicazioni già in uso.

Vault viene distribuito all'interno della tua architettura tramite Docker o Kubernetes (sono disponibili i chart Helm). Sono disponibili SDK per Python (Django ORM), TypeScript, Java e Go. Il repository vault-releases è stato aggiornato l'ultima volta nell'agosto 2025.

Distinzione tra casi d'uso: Vault non è uno scanner per la scoperta di dati. È un sistema di archiviazione strutturato per dati sensibili che le organizzazioni desiderano centralizzare e proteggere, non uno strumento per trovare dati sensibili già dispersi nei sistemi esistenti.

Crepuscolo

Nightfall è una piattaforma DLP commerciale basata sull'intelligenza artificiale, non uno strumento completamente open source. I suoi repository GitHub includono script di scansione open source (Apache 2.0) che utilizzano l'API di Nightfall per analizzare directory, file esportati e backup. L'esecuzione delle scansioni richiede una chiave API di Nightfall e richiama il motore di rilevamento commerciale di Nightfall. Il piano gratuito consente fino a 100 scansioni al mese su repository pubblici e privati.

Funzionalità di scansione open-source (livello gratuito):

Analizza l'intera cronologia dei commit dei repository pubblici e privati.
Rileva credenziali, segreti, dati personali e numeri di carte di credito.
Esegue fino a 100 scansioni al mese.

Caratteristica distintiva: Nightfall può inviare avvisi a Slack quando vengono rilevate violazioni e inoltrare i risultati a un SIEM , a uno strumento di reporting o a un endpoint webhook.

Esempio di caso d'uso: Scansiona un backup Salesforce per rilevare dati sensibili a riposo. Lo scanner (1) invia i file di backup all'API di Nightfall per la scansione, (2) esegue un server webhook locale per ricevere i risultati e (3) esporta i risultati in un file CSV.

L'URL sopra riportato è fornito da Nightfall. Si tratta dell'URL S3 temporaneamente firmato per recuperare i risultati sensibili identificati da Nightfall.

Per approfondire

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da