Die folgenden Tools wurden anhand ihrer GitHub-Aktivität ausgewählt und nach der Anzahl ihrer GitHub-Sterne in absteigender Reihenfolge sortiert. Sie decken die wichtigsten Anwendungsfälle für die Ermittlung sensibler Daten ab: Metadatenkatalogisierung mit Herkunftsnachverfolgung, agentenloses Scannen und API-basierte Erkennung von personenbezogenen Daten (PII), PCI-Daten und ruhenden Anmeldeinformationen.
Weiterlesen: Tools zur Erkennung und Klassifizierung sensibler Daten , DLP-Software .
Administrative Funktionen
Werkzeug | Grafisches Dashboard | Suchbasiert | Datenherkunft | föderiertes Datenbanksystem |
|---|---|---|---|---|
DataHub | ✅ | ✅ | ✅ | ✅ |
Apache – Atlas | ✅ | ✅ | ✅ | ❌ |
Marquez | ✅ | ✅ | ✅ | Nicht geteilt. |
OpenDLP | ❌ | ❌ | ❌ | ❌ |
Piiano-Tresor – Wiederentdeckung | ❌ | Nicht geteilt. | ❌ | ❌ |
Nightfall AI – Scanner für sensible Daten | ✅ | ✅ | ❌ | ❌ |
Funktionsbeschreibungen:
- Grafisches Dashboard – ermöglicht die Visualisierung Ihrer Datenergebnisse.
- Suchbasierte Funktionalität – ermöglicht die Suche nach Datenbeständen.
- Datenherkunft – ermöglicht es Benutzern, zu visualisieren, wie Daten im Laufe der Zeit in einem System erzeugt, transformiert, übertragen und verwendet werden.
- Föderiertes Datenbanksystem – bildet mehrere autonome Datenbanksysteme zu einer einzigen föderierten Datenbank ab.
Diese Funktionalitäten (insbesondere Datenherkunfts- und Suchfunktionen) ermöglichen es Unternehmen:
- Ermitteln Sie den Speicherort ihrer persönlichen Daten (PII), PCI-Daten (Payment Card Industry Data Security Standard) usw., die in verschiedenen Datenbanken, Apps und Benutzerendpunkten gespeichert sind.
- Einhaltung der branchenspezifischen regulatorischen Datenschutz- und Privatsphärestandards wie der Datenschutz-Grundverordnung (DSGVO) und des California Consumer Privacy Act ( CCPA ).
Datensicherheitsfunktionen
Funktionsbeschreibungen:
- Datenmaskierung – ermöglicht das Verbergen von Daten durch Modifizierung ihrer ursprünglichen Buchstaben und Zahlen, sodass sie für unbefugte Eindringlinge wertlos sind, während sie für autorisierte Mitarbeiter weiterhin nutzbar bleiben.
- Data Loss Prevention (DLP) – erkennt potenzielle Datenschutzverletzungen und verhindert diese durch die Sperrung sensibler Daten.
Kategorien und GitHub-Sterne
Werkzeugauswahl und -sortierung:
- Anzahl der Bewertungen: 10+ GitHub-Sterne.
- Aktualisierung: Mindestens eine Aktualisierung wurde letzte Woche (Stand: November 2024) veröffentlicht.
- Sortierung: Die Tools sind nach GitHub-Sternen in absteigender Reihenfolge sortiert.
DataHub
DataHub ist eine Open-Source-Plattform für die Ermittlung, Überwachung und Verwaltung sensibler Daten, die von Acryl Data und LinkedIn entwickelt wurde. Sie wird von Acryl Data auch kommerziell als Cloud-basierte SaaS-Lösung angeboten.
Hauptmerkmale:
- Datenherkunft auf Spaltenebene : Verfolgt den Datenfluss von der Quelle bis zum Verbrauch über verschiedene Plattformen hinweg.
- KI-gestützte Datenqualität : Anomalieerkennung kennzeichnet Datenqualitätsprobleme automatisch.
- Erweiterbarkeit : REST-APIs, Python SDK und LangChain-Integration zum Erstellen von Agenten mit Zugriff auf DataHub-Metadaten.
- Mehr als 80 native Konnektoren : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake und andere.
Zu beachten ist: Die Architektur von DataHub umfasst mehrere miteinander verbundene Dienste (GMS, MCE-Consumer, MAE-Consumer, Suchindex, Graphspeicher). Für Produktionsumgebungen ist typischerweise Kubernetes erforderlich. Die Komplexität der Einrichtung wird in der Community am häufigsten als Problem genannt.
Apache – Atlas
Apache Atlas ist ein Open-Source-Tool für Metadatenmanagement und -governance, das primär für Hadoop- und Big-Data-Ökosysteme entwickelt wurde. Es unterstützt Klassifizierung, Herkunftsverfolgung und Suche in Datenbeständen in Umgebungen, die auf Hive, HBase, Kafka, Spark, Sqoop und Storm basieren.
Hauptmerkmale
- Dynamische Klassifizierung: Apache Atlas ermöglicht die Erstellung benutzerdefinierter Klassifizierungen wie PII (Personally Identifiable Information), EXPIRES_ON, DATA_QUALITY und SENSITIVE.
- MetaDatentypen: Die Plattform bietet vordefinierte Metadatentypen für Hadoop- und Nicht-Hadoop-Umgebungen. Dies ermöglicht Benutzern die Verwaltung von Metadaten für verschiedene Datenquellen wie HBase, Hive, Sqoop, Kafka und Storm.
- SQL-ähnliche Abfragesprache (DSL): Die Plattform unterstützt eine domänenspezifische Sprache (DSL), die SQL-ähnliche Abfragefunktionen zur Suche nach Entitäten bietet. Dadurch ist sie auch für Benutzer mit SQL-Kenntnissen zugänglich.
- Integration mit externen Tools wie Apache Hive, Apache Spark, Kafka und Presto, wodurch es sich an Big-Data-Umgebungen anpassen lässt.
Überlegungen:
- Die Konfiguration von Atlas in einer Multi-Cloud-Umgebung ist komplex, insbesondere bei der Anbindung von AWS-, Redshift- und Synapse-APIs. Atlas verfügt über keine nativen Konnektoren für diese Plattformen; zusätzliche Konfigurationen sind erforderlich, um die Datenherkunft von AWS Redshift oder Synapse zu erfassen.
- Cloud-native Katalogisierungsdienste (z. B. AWS Glue) bieten möglicherweise eine kostengünstigere Nachverfolgung der Datenherkunft für Teams, die bereits an einen einzigen Cloud-Anbieter gebunden sind.
- Atlas eignet sich am besten für Organisationen, die Hadoop, Spark und Hive in großem Umfang einsetzen. Teams ohne eine Hadoop-zentrierte Infrastruktur werden die Architektur als unnötig komplex empfinden.
Marquez
Marquez ist ein Open-Source-Datenkatalog zum Sammeln, Aggregieren und Visualisieren von Metadaten aus einem Datenökosystem. Er bietet eine Web-Oberfläche und eine REST-API zum Durchsuchen von Datensätzen, zum Verstehen ihrer Abhängigkeiten und zum Nachverfolgen von Änderungen in Datenpipelines.
- Datensätze durchsuchen : Benutzer können auf einfache Weise nach Datensätzen suchen, deren Attribute anzeigen und deren Abhängigkeiten innerhalb des Datenökosystems verstehen.
- Datenherkunft visualisieren : Der Herkunftsgraph in Marquez bietet eine klare, interaktive Ansicht, wie Datensätze durch Workflows verbunden und transformiert werden. Dies ist entscheidend für das Verständnis von Datenpipelines, die Fehlerverfolgung und die Sicherstellung der Datenzuverlässigkeit.
- Zentrales Metadaten-Repository : Marquez aggregiert Metadaten aus verschiedenen Quellen und konsolidiert sie in einem einzigen System für einfachen Zugriff und einfache Verwaltung.
Beispielhafter Arbeitsablauf: Um die Herkunftsmetadaten zu überprüfen, navigieren Sie zur Marquez-Benutzeroberfläche und suchen Sie mithilfe des Suchfelds nach einem Job (z. B. etl_delivery_7_days). Aus dem Ausgabedatensatz des Jobs (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.)
Piiano-Tresor – Wiederentdeckung
Piiano Vault ist ein datenschutzfreundlicher Datenspeicher zum sicheren Speichern und Sichern sensibler personenbezogener Daten in Ihrer eigenen Cloud-Umgebung. Anstatt bestehende Datenbanken nach sensiblen Daten zu durchsuchen, dient Vault als zentraler Speicherort für die sensibelsten Felder wie Kreditkartennummern, Bankkontonummern, Sozialversicherungsnummern, Namen, E-Mail-Adressen und Telefonnummern und wird parallel zu Ihren bestehenden Anwendungsdatenbanken installiert.
Vault wird über Docker oder Kubernetes in Ihre Architektur integriert (Helm-Charts verfügbar). SDKs sind für Python (Django ORM), TypeScript, Java und Go erhältlich. Das Repository „vault-releases“ wurde zuletzt im August 2025 aktualisiert.
Anwendungsfallunterscheidung: Vault ist kein Datensuchscanner. Es handelt sich um ein strukturiertes Speichersystem für sensible Daten, die Unternehmen zentralisieren und schützen möchten, nicht um ein Werkzeug zum Auffinden sensibler Daten, die bereits über bestehende Systeme verstreut sind.
Einbruch der Dunkelheit
Nightfall ist eine kommerzielle, KI-basierte DLP-Plattform und kein vollständig quelloffenes Tool. Die GitHub-Repositories enthalten Open-Source-Scanner-Skripte (Apache 2.0), die die Nightfall-API zum Scannen von Verzeichnissen, Exporten und Backups nutzen. Für die Durchführung von Scans ist ein Nightfall-API-Schlüssel erforderlich; dabei wird die kommerzielle Erkennungs-Engine von Nightfall aufgerufen. Die kostenlose Version erlaubt bis zu 100 Scans pro Monat für öffentliche und private Repositories.
Open-Source-Scannerfunktionen (kostenlose Version):
- Durchsucht die vollständige Commit-Historie öffentlicher und privater Repositories.
- Erkennt Anmeldeinformationen, Geheimnisse, personenbezogene Daten und Kreditkartennummern.
- Führt bis zu 100 Scans pro Monat durch.
Besonderes Merkmal: Nightfall kann Benachrichtigungen an Slack senden, wenn Verstöße erkannt werden, und Ergebnisse an ein SIEM-System , ein Reporting-Tool oder einen Webhook-Endpunkt übertragen.
Anwendungsbeispiel: Scannen eines Backups (Salesforce) zur Erkennung sensibler ruhender Daten. Der Scanner (1) übermittelt Backup-Dateien zur Analyse an die Nightfall-API, (2) startet einen lokalen Webhook-Server zum Empfangen der Ergebnisse und (3) exportiert die Ergebnisse in eine CSV-Datei.
Die oben genannte URL wird von Nightfall bereitgestellt. Es handelt sich um die temporär signierte S3-URL zum Abrufen der von Nightfall identifizierten sensiblen Daten.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.