Die 6 besten Open-Source-Tools zur Ermittlung sensibler Daten

mit

aktualisiert am Mär 5, 2026

Die folgenden Tools wurden anhand ihrer GitHub-Aktivität ausgewählt und nach der Anzahl ihrer GitHub-Sterne in absteigender Reihenfolge sortiert. Sie decken die wichtigsten Anwendungsfälle für die Ermittlung sensibler Daten ab: Metadatenkatalogisierung mit Herkunftsnachverfolgung, agentenloses Scannen und API-basierte Erkennung von personenbezogenen Daten (PII), PCI-Daten und ruhenden Anmeldeinformationen.

Weiterlesen: Tools zur Erkennung und Klassifizierung sensibler Daten , DLP-Software .

Administrative Funktionen

Werkzeug	Grafisches Dashboard	Suchbasiert	Datenherkunft	föderiertes Datenbanksystem
DataHub	✅	✅	✅	✅
Apache – Atlas	✅	✅	✅	❌
Marquez	✅	✅	✅	Nicht geteilt.
OpenDLP	❌	❌	❌	❌
Piiano-Tresor – Wiederentdeckung	❌	Nicht geteilt.	❌	❌
Nightfall AI – Scanner für sensible Daten	✅	✅	❌	❌

Funktionsbeschreibungen:

Grafisches Dashboard – ermöglicht die Visualisierung Ihrer Datenergebnisse.
Suchbasierte Funktionalität – ermöglicht die Suche nach Datenbeständen.
Datenherkunft – ermöglicht es Benutzern, zu visualisieren, wie Daten im Laufe der Zeit in einem System erzeugt, transformiert, übertragen und verwendet werden.
Föderiertes Datenbanksystem – bildet mehrere autonome Datenbanksysteme zu einer einzigen föderierten Datenbank ab.

Diese Funktionalitäten (insbesondere Datenherkunfts- und Suchfunktionen) ermöglichen es Unternehmen:

Ermitteln Sie den Speicherort ihrer persönlichen Daten (PII), PCI-Daten (Payment Card Industry Data Security Standard) usw., die in verschiedenen Datenbanken, Apps und Benutzerendpunkten gespeichert sind.
Einhaltung der branchenspezifischen regulatorischen Datenschutz- und Privatsphärestandards wie der Datenschutz-Grundverordnung (DSGVO) und des California Consumer Privacy Act ( CCPA ).

Datensicherheitsfunktionen

Funktionsbeschreibungen:

Datenmaskierung – ermöglicht das Verbergen von Daten durch Modifizierung ihrer ursprünglichen Buchstaben und Zahlen, sodass sie für unbefugte Eindringlinge wertlos sind, während sie für autorisierte Mitarbeiter weiterhin nutzbar bleiben.
Data Loss Prevention (DLP) – erkennt potenzielle Datenschutzverletzungen und verhindert diese durch die Sperrung sensibler Daten.

Kategorien und GitHub-Sterne

Werkzeugauswahl und -sortierung:

Anzahl der Bewertungen: 10+ GitHub-Sterne.
Aktualisierung: Mindestens eine Aktualisierung wurde letzte Woche (Stand: November 2024) veröffentlicht.
Sortierung: Die Tools sind nach GitHub-Sternen in absteigender Reihenfolge sortiert.

DataHub

DataHub ist eine Open-Source-Plattform für die Ermittlung, Überwachung und Verwaltung sensibler Daten, die von Acryl Data und LinkedIn entwickelt wurde. Sie wird von Acryl Data auch kommerziell als Cloud-basierte SaaS-Lösung angeboten.

Hauptmerkmale:

Datenherkunft auf Spaltenebene : Verfolgt den Datenfluss von der Quelle bis zum Verbrauch über verschiedene Plattformen hinweg.
KI-gestützte Datenqualität : Anomalieerkennung kennzeichnet Datenqualitätsprobleme automatisch.
Erweiterbarkeit : REST-APIs, Python SDK und LangChain-Integration zum Erstellen von Agenten mit Zugriff auf DataHub-Metadaten.
Mehr als 80 native Konnektoren : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake und andere.

Zu beachten ist: Die Architektur von DataHub umfasst mehrere miteinander verbundene Dienste (GMS, MCE-Consumer, MAE-Consumer, Suchindex, Graphspeicher). Für Produktionsumgebungen ist typischerweise Kubernetes erforderlich. Die Komplexität der Einrichtung wird in der Community am häufigsten als Problem genannt.

Apache – Atlas

Apache Atlas ist ein Open-Source-Tool für Metadatenmanagement und -governance, das primär für Hadoop- und Big-Data-Ökosysteme entwickelt wurde. Es unterstützt Klassifizierung, Herkunftsverfolgung und Suche in Datenbeständen in Umgebungen, die auf Hive, HBase, Kafka, Spark, Sqoop und Storm basieren.

Hauptmerkmale

Dynamische Klassifizierung: Apache Atlas ermöglicht die Erstellung benutzerdefinierter Klassifizierungen wie PII (Personally Identifiable Information), EXPIRES_ON, DATA_QUALITY und SENSITIVE.
MetaDatentypen: Die Plattform bietet vordefinierte Metadatentypen für Hadoop- und Nicht-Hadoop-Umgebungen. Dies ermöglicht Benutzern die Verwaltung von Metadaten für verschiedene Datenquellen wie HBase, Hive, Sqoop, Kafka und Storm.
SQL-ähnliche Abfragesprache (DSL): Die Plattform unterstützt eine domänenspezifische Sprache (DSL), die SQL-ähnliche Abfragefunktionen zur Suche nach Entitäten bietet. Dadurch ist sie auch für Benutzer mit SQL-Kenntnissen zugänglich.
Integration mit externen Tools wie Apache Hive, Apache Spark, Kafka und Presto, wodurch es sich an Big-Data-Umgebungen anpassen lässt.

Überlegungen:

Die Konfiguration von Atlas in einer Multi-Cloud-Umgebung ist komplex, insbesondere bei der Anbindung von AWS-, Redshift- und Synapse-APIs. Atlas verfügt über keine nativen Konnektoren für diese Plattformen; zusätzliche Konfigurationen sind erforderlich, um die Datenherkunft von AWS Redshift oder Synapse zu erfassen.
Cloud-native Katalogisierungsdienste (z. B. AWS Glue) bieten möglicherweise eine kostengünstigere Nachverfolgung der Datenherkunft für Teams, die bereits an einen einzigen Cloud-Anbieter gebunden sind.
Atlas eignet sich am besten für Organisationen, die Hadoop, Spark und Hive in großem Umfang einsetzen. Teams ohne eine Hadoop-zentrierte Infrastruktur werden die Architektur als unnötig komplex empfinden.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Marquez

Marquez ist ein Open-Source-Datenkatalog zum Sammeln, Aggregieren und Visualisieren von Metadaten aus einem Datenökosystem. Er bietet eine Web-Oberfläche und eine REST-API zum Durchsuchen von Datensätzen, zum Verstehen ihrer Abhängigkeiten und zum Nachverfolgen von Änderungen in Datenpipelines.

Datensätze durchsuchen : Benutzer können auf einfache Weise nach Datensätzen suchen, deren Attribute anzeigen und deren Abhängigkeiten innerhalb des Datenökosystems verstehen.
Datenherkunft visualisieren : Der Herkunftsgraph in Marquez bietet eine klare, interaktive Ansicht, wie Datensätze durch Workflows verbunden und transformiert werden. Dies ist entscheidend für das Verständnis von Datenpipelines, die Fehlerverfolgung und die Sicherstellung der Datenzuverlässigkeit.
Zentrales Metadaten-Repository : Marquez aggregiert Metadaten aus verschiedenen Quellen und konsolidiert sie in einem einzigen System für einfachen Zugriff und einfache Verwaltung.

Beispielhafter Arbeitsablauf: Um die Herkunftsmetadaten zu überprüfen, navigieren Sie zur Marquez-Benutzeroberfläche und suchen Sie mithilfe des Suchfelds nach einem Job (z. B. etl_delivery_7_days). Aus dem Ausgabedatensatz des Jobs (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.)

Piiano-Tresor – Wiederentdeckung

Piiano Vault ist ein datenschutzfreundlicher Datenspeicher zum sicheren Speichern und Sichern sensibler personenbezogener Daten in Ihrer eigenen Cloud-Umgebung. Anstatt bestehende Datenbanken nach sensiblen Daten zu durchsuchen, dient Vault als zentraler Speicherort für die sensibelsten Felder wie Kreditkartennummern, Bankkontonummern, Sozialversicherungsnummern, Namen, E-Mail-Adressen und Telefonnummern und wird parallel zu Ihren bestehenden Anwendungsdatenbanken installiert.

Vault wird über Docker oder Kubernetes in Ihre Architektur integriert (Helm-Charts verfügbar). SDKs sind für Python (Django ORM), TypeScript, Java und Go erhältlich. Das Repository „vault-releases“ wurde zuletzt im August 2025 aktualisiert.

Anwendungsfallunterscheidung: Vault ist kein Datensuchscanner. Es handelt sich um ein strukturiertes Speichersystem für sensible Daten, die Unternehmen zentralisieren und schützen möchten, nicht um ein Werkzeug zum Auffinden sensibler Daten, die bereits über bestehende Systeme verstreut sind.

Einbruch der Dunkelheit

Nightfall ist eine kommerzielle, KI-basierte DLP-Plattform und kein vollständig quelloffenes Tool. Die GitHub-Repositories enthalten Open-Source-Scanner-Skripte (Apache 2.0), die die Nightfall-API zum Scannen von Verzeichnissen, Exporten und Backups nutzen. Für die Durchführung von Scans ist ein Nightfall-API-Schlüssel erforderlich; dabei wird die kommerzielle Erkennungs-Engine von Nightfall aufgerufen. Die kostenlose Version erlaubt bis zu 100 Scans pro Monat für öffentliche und private Repositories.

Open-Source-Scannerfunktionen (kostenlose Version):

Durchsucht die vollständige Commit-Historie öffentlicher und privater Repositories.
Erkennt Anmeldeinformationen, Geheimnisse, personenbezogene Daten und Kreditkartennummern.
Führt bis zu 100 Scans pro Monat durch.

Besonderes Merkmal: Nightfall kann Benachrichtigungen an Slack senden, wenn Verstöße erkannt werden, und Ergebnisse an ein SIEM-System , ein Reporting-Tool oder einen Webhook-Endpunkt übertragen.

Anwendungsbeispiel: Scannen eines Backups (Salesforce) zur Erkennung sensibler ruhender Daten. Der Scanner (1) übermittelt Backup-Dateien zur Analyse an die Nightfall-API, (2) startet einen lokalen Webhook-Server zum Empfangen der Ergebnisse und (3) exportiert die Ergebnisse in eine CSV-Datei.

Die oben genannte URL wird von Nightfall bereitgestellt. Es handelt sich um die temporär signierte S3-URL zum Abrufen der von Nightfall identifizierten sensiblen Daten.

Weiterführende Literatur

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von

Sena Sezer

Branchenanalyst

Folgen auf

Sena ist Branchenanalystin bei AIMultiple. Sie hat ihren Bachelor-Abschluss an der Bogazici-Universität erworben.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

LAPPENApr 26

Die 6 besten Open-Source-Tools zur Ermittlung sensibler Daten

Administrative Funktionen

Datensicherheitsfunktionen

Kategorien und GitHub-Sterne

DataHub

Apache – Atlas

Hauptmerkmale

Marquez

Piiano-Tresor – Wiederentdeckung

Einbruch der Dunkelheit

Weiterführende Literatur

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Open Source Embedding Models Benchmark für RAG

Vergleich von 10 Open-Source-MFA-Tools

Die besten Open-Source-UEBA-Tools und kommerzielle Alternativen

Die 5 besten Open-Source-Komponenten von ZTNA

Die 8 besten Open-Source-RBAC-Tools im Jahr 2026

Analyse der 3 besten Open-Source-Firewall-Management-Tools