Gli strumenti seguenti sono stati selezionati in base all'attività su GitHub e ordinati in ordine decrescente in base al numero di stelle ricevute. Essi coprono i principali casi d'uso per l'individuazione di dati sensibili: catalogazione dei metadati con tracciabilità, scansione senza agenti e rilevamento basato su API di dati personali, dati PCI e credenziali a riposo.
Per saperne di più: Strumenti per l'individuazione e la classificazione di dati sensibili , software DLP .
Funzionalità amministrative
Attrezzo | Dashboard grafica | Ricerca basata | Provenienza dei dati | Sistema di database federato |
|---|---|---|---|---|
DataHub | ✅ | ✅ | ✅ | ✅ |
Apache – Atlante | ✅ | ✅ | ✅ | ❌ |
Marquez | ✅ | ✅ | ✅ | Non condiviso. |
OpenDLP | ❌ | ❌ | ❌ | ❌ |
Piano Vault – Riscoperta | ❌ | Non condiviso. | ❌ | ❌ |
Nightfall AI – Scanner di dati sensibili | ✅ | ✅ | ❌ | ❌ |
Descrizione delle funzionalità:
- Dashboard grafica : consente di visualizzare i risultati ottenuti dai dati.
- Funzionalità di ricerca : consente di cercare risorse di dati.
- Tracciabilità della provenienza dei dati : consente agli utenti di visualizzare come i dati vengono generati, trasformati, trasmessi e utilizzati all'interno di un sistema nel corso del tempo.
- Sistema di database federato : mappa più sistemi di database autonomi in un unico database federato.
Queste funzionalità (in particolare la tracciabilità dei dati e le capacità di ricerca) consentono alle aziende di:
- Scopri la posizione delle loro informazioni personali (PII), dei dati PCI (Payment Card Industry) , ecc., archiviati in più database, app e dispositivi utente.
- Rispettare gli standard normativi di settore in materia di protezione dei dati e privacy, come il Regolamento generale sulla protezione dei dati (GDPR) e il California Consumer Privacy Act ( CCPA ).
Funzionalità di sicurezza dei dati
Descrizione delle funzionalità:
- Mascheramento dei dati : consente di nascondere i dati modificandone le lettere e i numeri originali, in modo che non abbiano alcun valore per gli intrusi non autorizzati, pur rimanendo utilizzabili dai dipendenti autorizzati.
- Prevenzione della perdita di dati (DLP) : rileva potenziali violazioni dei dati e le previene bloccando i dati sensibili.
Categorie e stelle di GitHub
Selezione e smistamento degli strumenti:
- Numero di recensioni: oltre 10 stelle su GitHub.
- Rilascio dell'aggiornamento: almeno un aggiornamento è stato rilasciato la scorsa settimana, a novembre 2024.
- Ordinamento: Gli strumenti sono ordinati in base al numero di stelle su GitHub, in ordine decrescente.
DataHub
DataHub è una piattaforma unificata open-source per la scoperta, l'osservabilità e la governance di dati sensibili, sviluppata da Acryl Data e LinkedIn. Acryl Data la offre anche commercialmente come servizio SaaS in cloud.
Caratteristiche principali:
- Tracciamento del flusso di dati a livello di colonna : traccia il flusso di dati dalla sorgente al consumo attraverso le diverse piattaforme.
- Qualità dei dati assistita dall'intelligenza artificiale : il rilevamento delle anomalie segnala automaticamente i problemi di qualità dei dati.
- Estensibilità : API REST, SDK Python e integrazione con LangChain per la creazione di agenti con accesso ai metadati di DataHub.
- Oltre 80 connettori nativi : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake e altri.
Considerazioni: l'architettura di DataHub esegue molteplici servizi interconnessi (GMS, consumer MCE, consumer MAE, indice di ricerca, archivio a grafo). Le implementazioni in produzione in genere richiedono Kubernetes. La complessità della configurazione è il problema più frequentemente segnalato dalla community.
Apache – Atlante
Apache Atlas è uno strumento open-source per la gestione e la governance dei metadati, progettato principalmente per gli ecosistemi Hadoop e big data. Supporta la classificazione, il tracciamento della provenienza e la ricerca tra le risorse di dati in ambienti basati su Hive, HBase, Kafka, Spark, Sqoop e Storm.
Caratteristiche principali
- Classificazione dinamica: Apache Atlas consente di creare classificazioni personalizzate come PII (Informazioni di identificazione personale), EXPIRES_ON, DATA_QUALITY e SENSITIVE.
- Tipi di dati: La piattaforma fornisce tipi di metadati predefiniti per ambienti Hadoop e non Hadoop. Ciò consente agli utenti di gestire i metadati per diverse origini dati, come HBase, Hive, Sqoop, Kafka e Storm.
- Linguaggio di interrogazione simile a SQL (DSL): la piattaforma supporta un linguaggio specifico di dominio (DSL) che fornisce funzionalità di interrogazione simili a SQL per la ricerca di entità. Ciò la rende accessibile agli utenti che hanno familiarità con SQL.
- Integrazione con strumenti esterni : Apache Hive, Apache Spark, Kafka e Presto, che lo rendono adattabile ad ambienti big data.
Considerazioni:
- Configurare Atlas in un ambiente multi-cloud è complesso, soprattutto quando si tratta di integrare le API di AWS, Azure e Databricks. Atlas non dispone di connettori nativi per queste piattaforme; è necessaria una configurazione aggiuntiva per registrare la provenienza dei dati da AWS Redshift o Azure Synapse.
- I servizi di catalogazione nativi del cloud (ad esempio, AWS Glue) possono offrire un tracciamento della provenienza dei dati con un overhead inferiore per i team che si affidano già a un singolo provider di servizi cloud.
- Atlas è la soluzione ideale per le organizzazioni che utilizzano Hadoop, Spark e Hive su larga scala. I team che non dispongono di uno stack incentrato su Hadoop troveranno la sua architettura eccessivamente complessa.
Marquez
Marquez è un catalogo di dati open-source per la raccolta, l'aggregazione e la visualizzazione dei metadati provenienti da un ecosistema di dati. Offre un'interfaccia utente web e un'API REST per esplorare i dataset, comprenderne le dipendenze e tracciare le modifiche lungo le pipeline di dati.
- Ricerca di set di dati : gli utenti possono facilmente cercare set di dati, visualizzarne gli attributi e comprenderne le dipendenze all'interno dell'ecosistema dei dati.
- Visualizzazione della provenienza dei dati : il grafico di provenienza dei dati in Marquez offre una visione chiara e interattiva di come i set di dati vengono connessi e trasformati attraverso i flussi di lavoro. Questo è fondamentale per comprendere le pipeline di dati, tracciare gli errori e garantire l'affidabilità dei dati.
- Archivio centralizzato di metadati : Marquez aggrega i metadati provenienti da diverse fonti, consolidandoli in un unico sistema per un facile accesso e gestione.
Esempio di flusso di lavoro: per ispezionare i metadati di derivazione, accedere all'interfaccia utente di Marquez e cercare un lavoro (ad esempio, etl_delivery_7_days) utilizzando la casella di ricerca. Dal dataset di output del lavoro (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.
Piano Vault – Riscoperta
Pianio Vault è una soluzione di archiviazione sicura per i dati personali sensibili, progettata per proteggere e archiviare informazioni riservate all'interno del proprio ambiente cloud. Anziché scansionare i database esistenti alla ricerca di dati sensibili, Vault funge da archivio centralizzato per i campi più importanti, quali numeri di carta di credito, numeri di conto corrente bancario, codici fiscali, nomi, indirizzi email e numeri di telefono, installati insieme ai database delle applicazioni già in uso.
Vault viene distribuito all'interno della tua architettura tramite Docker o Kubernetes (sono disponibili i chart Helm). Sono disponibili SDK per Python (Django ORM), TypeScript, Java e Go. Il repository vault-releases è stato aggiornato l'ultima volta nell'agosto 2025.
Distinzione tra casi d'uso: Vault non è uno scanner per la scoperta di dati. È un sistema di archiviazione strutturato per dati sensibili che le organizzazioni desiderano centralizzare e proteggere, non uno strumento per trovare dati sensibili già dispersi nei sistemi esistenti.
Crepuscolo
Nightfall è una piattaforma DLP commerciale basata sull'intelligenza artificiale, non uno strumento completamente open source. I suoi repository GitHub includono script di scansione open source (Apache 2.0) che utilizzano l'API di Nightfall per analizzare directory, file esportati e backup. L'esecuzione delle scansioni richiede una chiave API di Nightfall e richiama il motore di rilevamento commerciale di Nightfall. Il piano gratuito consente fino a 100 scansioni al mese su repository pubblici e privati.
Funzionalità di scansione open-source (livello gratuito):
- Analizza l'intera cronologia dei commit dei repository pubblici e privati.
- Rileva credenziali, segreti, dati personali e numeri di carte di credito.
- Esegue fino a 100 scansioni al mese.
Caratteristica distintiva: Nightfall può inviare avvisi a Slack quando vengono rilevate violazioni e inoltrare i risultati a un SIEM , a uno strumento di reporting o a un endpoint webhook.
Esempio di caso d'uso: Scansiona un backup Salesforce per rilevare dati sensibili a riposo. Lo scanner (1) invia i file di backup all'API di Nightfall per la scansione, (2) esegue un server webhook locale per ricevere i risultati e (3) esporta i risultati in un file CSV.
L'URL sopra riportato è fornito da Nightfall. Si tratta dell'URL S3 temporaneamente firmato per recuperare i risultati sensibili identificati da Nightfall.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.