Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Die 6 besten Open-Source-Tools zur Ermittlung sensibler Daten

Cem Dilmegani
Cem Dilmegani
aktualisiert am Mär 5, 2026
Siehe unsere ethischen Normen

Die folgenden Tools wurden anhand ihrer GitHub-Aktivität ausgewählt und nach der Anzahl ihrer GitHub-Sterne in absteigender Reihenfolge sortiert. Sie decken die wichtigsten Anwendungsfälle für die Ermittlung sensibler Daten ab: Metadatenkatalogisierung mit Herkunftsnachverfolgung, agentenloses Scannen und API-basierte Erkennung von personenbezogenen Daten (PII), PCI-Daten und ruhenden Anmeldeinformationen.

Weiterlesen: Tools zur Erkennung und Klassifizierung sensibler Daten , DLP-Software .

Administrative Funktionen

Werkzeug
Grafisches Dashboard
Suchbasiert
Datenherkunft
föderiertes Datenbanksystem
DataHub
Apache – Atlas
Marquez
Nicht geteilt.
OpenDLP
Piiano-Tresor – Wiederentdeckung
Nicht geteilt.
Nightfall AI – Scanner für sensible Daten

Funktionsbeschreibungen:

  • Grafisches Dashboard – ermöglicht die Visualisierung Ihrer Datenergebnisse.
  • Suchbasierte Funktionalität – ermöglicht die Suche nach Datenbeständen.
  • Datenherkunft – ermöglicht es Benutzern, zu visualisieren, wie Daten im Laufe der Zeit in einem System erzeugt, transformiert, übertragen und verwendet werden.
  • Föderiertes Datenbanksystem – bildet mehrere autonome Datenbanksysteme zu einer einzigen föderierten Datenbank ab.

Diese Funktionalitäten (insbesondere Datenherkunfts- und Suchfunktionen) ermöglichen es Unternehmen:

  • Ermitteln Sie den Speicherort ihrer persönlichen Daten (PII), PCI-Daten (Payment Card Industry Data Security Standard) usw., die in verschiedenen Datenbanken, Apps und Benutzerendpunkten gespeichert sind.
  • Einhaltung der branchenspezifischen regulatorischen Datenschutz- und Privatsphärestandards wie der Datenschutz-Grundverordnung (DSGVO) und des California Consumer Privacy Act ( CCPA ).

Datensicherheitsfunktionen

Funktionsbeschreibungen:

  • Datenmaskierung – ermöglicht das Verbergen von Daten durch Modifizierung ihrer ursprünglichen Buchstaben und Zahlen, sodass sie für unbefugte Eindringlinge wertlos sind, während sie für autorisierte Mitarbeiter weiterhin nutzbar bleiben.
  • Data Loss Prevention (DLP) – erkennt potenzielle Datenschutzverletzungen und verhindert diese durch die Sperrung sensibler Daten.

Kategorien und GitHub-Sterne

Werkzeugauswahl und -sortierung:

  • Anzahl der Bewertungen: 10+ GitHub-Sterne.
  • Aktualisierung: Mindestens eine Aktualisierung wurde letzte Woche (Stand: November 2024) veröffentlicht.
  • Sortierung: Die Tools sind nach GitHub-Sternen in absteigender Reihenfolge sortiert.

DataHub

DataHub ist eine Open-Source-Plattform für die Ermittlung, Überwachung und Verwaltung sensibler Daten, die von Acryl Data und LinkedIn entwickelt wurde. Sie wird von Acryl Data auch kommerziell als Cloud-basierte SaaS-Lösung angeboten.

Hauptmerkmale:

  • Datenherkunft auf Spaltenebene : Verfolgt den Datenfluss von der Quelle bis zum Verbrauch über verschiedene Plattformen hinweg.
  • KI-gestützte Datenqualität : Anomalieerkennung kennzeichnet Datenqualitätsprobleme automatisch.
  • Erweiterbarkeit : REST-APIs, Python SDK und LangChain-Integration zum Erstellen von Agenten mit Zugriff auf DataHub-Metadaten.
  • Mehr als 80 native Konnektoren : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake und andere.

Zu beachten ist: Die Architektur von DataHub umfasst mehrere miteinander verbundene Dienste (GMS, MCE-Consumer, MAE-Consumer, Suchindex, Graphspeicher). Für Produktionsumgebungen ist typischerweise Kubernetes erforderlich. Die Komplexität der Einrichtung wird in der Community am häufigsten als Problem genannt.

Apache – Atlas

Apache Atlas ist ein Open-Source-Tool für Metadatenmanagement und -governance, das primär für Hadoop- und Big-Data-Ökosysteme entwickelt wurde. Es unterstützt Klassifizierung, Herkunftsverfolgung und Suche in Datenbeständen in Umgebungen, die auf Hive, HBase, Kafka, Spark, Sqoop und Storm basieren.

Hauptmerkmale

  • Dynamische Klassifizierung: Apache Atlas ermöglicht die Erstellung benutzerdefinierter Klassifizierungen wie PII (Personally Identifiable Information), EXPIRES_ON, DATA_QUALITY und SENSITIVE.
  • MetaDatentypen: Die Plattform bietet vordefinierte Metadatentypen für Hadoop- und Nicht-Hadoop-Umgebungen. Dies ermöglicht Benutzern die Verwaltung von Metadaten für verschiedene Datenquellen wie HBase, Hive, Sqoop, Kafka und Storm.
  • SQL-ähnliche Abfragesprache (DSL): Die Plattform unterstützt eine domänenspezifische Sprache (DSL), die SQL-ähnliche Abfragefunktionen zur Suche nach Entitäten bietet. Dadurch ist sie auch für Benutzer mit SQL-Kenntnissen zugänglich.
  • Integration mit externen Tools wie Apache Hive, Apache Spark, Kafka und Presto, wodurch es sich an Big-Data-Umgebungen anpassen lässt.

Überlegungen:

  • Die Konfiguration von Atlas in einer Multi-Cloud-Umgebung ist komplex, insbesondere bei der Anbindung von AWS-, Redshift- und Synapse-APIs. Atlas verfügt über keine nativen Konnektoren für diese Plattformen; zusätzliche Konfigurationen sind erforderlich, um die Datenherkunft von AWS Redshift oder Synapse zu erfassen.
  • Cloud-native Katalogisierungsdienste (z. B. AWS Glue) bieten möglicherweise eine kostengünstigere Nachverfolgung der Datenherkunft für Teams, die bereits an einen einzigen Cloud-Anbieter gebunden sind.
  • Atlas eignet sich am besten für Organisationen, die Hadoop, Spark und Hive in großem Umfang einsetzen. Teams ohne eine Hadoop-zentrierte Infrastruktur werden die Architektur als unnötig komplex empfinden.

Marquez

Marquez ist ein Open-Source-Datenkatalog zum Sammeln, Aggregieren und Visualisieren von Metadaten aus einem Datenökosystem. Er bietet eine Web-Oberfläche und eine REST-API zum Durchsuchen von Datensätzen, zum Verstehen ihrer Abhängigkeiten und zum Nachverfolgen von Änderungen in Datenpipelines.

  • Datensätze durchsuchen : Benutzer können auf einfache Weise nach Datensätzen suchen, deren Attribute anzeigen und deren Abhängigkeiten innerhalb des Datenökosystems verstehen.
  • Datenherkunft visualisieren : Der Herkunftsgraph in Marquez bietet eine klare, interaktive Ansicht, wie Datensätze durch Workflows verbunden und transformiert werden. Dies ist entscheidend für das Verständnis von Datenpipelines, die Fehlerverfolgung und die Sicherstellung der Datenzuverlässigkeit.
  • Zentrales Metadaten-Repository : Marquez aggregiert Metadaten aus verschiedenen Quellen und konsolidiert sie in einem einzigen System für einfachen Zugriff und einfache Verwaltung.

Beispielhafter Arbeitsablauf: Um die Herkunftsmetadaten zu überprüfen, navigieren Sie zur Marquez-Benutzeroberfläche und suchen Sie mithilfe des Suchfelds nach einem Job (z. B. etl_delivery_7_days). Aus dem Ausgabedatensatz des Jobs (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.)

Piiano-Tresor – Wiederentdeckung

Piiano Vault ist ein datenschutzfreundlicher Datenspeicher zum sicheren Speichern und Sichern sensibler personenbezogener Daten in Ihrer eigenen Cloud-Umgebung. Anstatt bestehende Datenbanken nach sensiblen Daten zu durchsuchen, dient Vault als zentraler Speicherort für die sensibelsten Felder wie Kreditkartennummern, Bankkontonummern, Sozialversicherungsnummern, Namen, E-Mail-Adressen und Telefonnummern und wird parallel zu Ihren bestehenden Anwendungsdatenbanken installiert.

Vault wird über Docker oder Kubernetes in Ihre Architektur integriert (Helm-Charts verfügbar). SDKs sind für Python (Django ORM), TypeScript, Java und Go erhältlich. Das Repository „vault-releases“ wurde zuletzt im August 2025 aktualisiert.

Anwendungsfallunterscheidung: Vault ist kein Datensuchscanner. Es handelt sich um ein strukturiertes Speichersystem für sensible Daten, die Unternehmen zentralisieren und schützen möchten, nicht um ein Werkzeug zum Auffinden sensibler Daten, die bereits über bestehende Systeme verstreut sind.

Einbruch der Dunkelheit

Nightfall ist eine kommerzielle, KI-basierte DLP-Plattform und kein vollständig quelloffenes Tool. Die GitHub-Repositories enthalten Open-Source-Scanner-Skripte (Apache 2.0), die die Nightfall-API zum Scannen von Verzeichnissen, Exporten und Backups nutzen. Für die Durchführung von Scans ist ein Nightfall-API-Schlüssel erforderlich; dabei wird die kommerzielle Erkennungs-Engine von Nightfall aufgerufen. Die kostenlose Version erlaubt bis zu 100 Scans pro Monat für öffentliche und private Repositories.

Open-Source-Scannerfunktionen (kostenlose Version):

  • Durchsucht die vollständige Commit-Historie öffentlicher und privater Repositories.
  • Erkennt Anmeldeinformationen, Geheimnisse, personenbezogene Daten und Kreditkartennummern.
  • Führt bis zu 100 Scans pro Monat durch.

Besonderes Merkmal: Nightfall kann Benachrichtigungen an Slack senden, wenn Verstöße erkannt werden, und Ergebnisse an ein SIEM-System , ein Reporting-Tool oder einen Webhook-Endpunkt übertragen.

Anwendungsbeispiel: Scannen eines Backups (Salesforce) zur Erkennung sensibler ruhender Daten. Der Scanner (1) übermittelt Backup-Dateien zur Analyse an die Nightfall-API, (2) startet einen lokalen Webhook-Server zum Empfangen der Ergebnisse und (3) exportiert die Ergebnisse in eine CSV-Datei.

Die oben genannte URL wird von Nightfall bereitgestellt. Es handelt sich um die temporär signierte S3-URL zum Abrufen der von Nightfall identifizierten sensiblen Daten.

Weiterführende Literatur

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen
Recherchiert von
Sena Sezer
Sena Sezer
Branchenanalyst
Sena ist Branchenanalystin bei AIMultiple. Sie hat ihren Bachelor-Abschluss an der Bogazici-Universität erworben.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450