Aşağıdaki araçlar GitHub etkinliğine göre seçilmiş ve GitHub yıldız sayısına göre azalan sırada sıralanmıştır. Hassas veri keşfi için başlıca kullanım durumlarını kapsarlar: soy ağacı ile meta veri kataloglama, aracı gerektirmeyen tarama ve API tabanlı olarak kişisel tanımlayıcı bilgilerin (PII), PCI verilerinin ve bekleme halindeki kimlik bilgilerinin tespiti.
Daha fazla bilgi için: Hassas veri keşfi ve sınıflandırma araçları , DLP yazılımı .
Yönetimsel özellikler
Alet | Grafiksel kontrol paneli | Arama tabanlı | Veri soy ağacı | Federasyon veritabanı sistemi |
|---|---|---|---|---|
Veri Merkezi | ✅ | ✅ | ✅ | ✅ |
Apache – Atlas | ✅ | ✅ | ✅ | ❌ |
Marquez | ✅ | ✅ | ✅ | Paylaşılmadı. |
OpenDLP | ❌ | ❌ | ❌ | ❌ |
Piiano Kasası – Yeniden Keşif | ❌ | Paylaşılmadı. | ❌ | ❌ |
Nightfall AI – Hassas veri tarayıcısı | ✅ | ✅ | ❌ | ❌ |
Özellik açıklamaları:
- Grafiksel gösterge paneli – veri bulgularınızı görselleştirmenizi sağlar.
- Arama tabanlı işlevsellik – veri varlıklarını aramayı sağlar.
- Veri soy ağacı – kullanıcıların verilerin bir sistem genelinde zaman içinde nasıl üretildiğini, dönüştürüldüğünü, iletildiğini ve kullanıldığını görselleştirmesine olanak tanır.
- Birleşik veritabanı sistemi – birden fazla bağımsız veritabanı sistemini tek bir birleşik veritabanına eşler.
Bu işlevler (özellikle veri soy ağacı ve arama yetenekleri) işletmelere şunları sağlar:
- Kişisel bilgilerinin (PII), ödeme kartı sektörü verilerinin (PCI) vb. birden fazla veritabanında, uygulamada ve kullanıcı uç noktasında depolandığı yerleri ortaya çıkarın.
- Genel Veri Koruma Yönetmeliği (GDPR) ve Kaliforniya Tüketici Gizliliği Yasası ( CCPA ) gibi sektörel düzenleyici veri koruma ve gizlilik standartlarına uyun.
Veri güvenliği özellikleri
Özellik açıklamaları:
- Veri maskeleme – verilerin orijinal harf ve rakamlarını değiştirerek gizlenmesini sağlar; böylece yetkisiz kişiler için hiçbir değeri kalmazken, yetkili çalışanlar için kullanılabilir durumda kalır.
- Veri kaybı önleme (DLP) – potansiyel veri ihlallerini tespit eder ve hassas verileri bloke ederek bunların önlenmesini sağlar.
Kategoriler ve GitHub yıldızları
Alet seçimi ve sıralaması:
- İnceleme sayısı: 10+ GitHub yıldızı.
- Güncelleme yayınlandı: Kasım 2024 itibarıyla geçen hafta en az bir güncelleme yayınlandı.
- Sıralama: Araçlar GitHub yıldız sayısına göre azalan sırada sıralanmıştır.
Veri Merkezi
DataHub, Acryl Data ve LinkedIn tarafından geliştirilen, hassas verilerin keşfi, gözlemlenebilirliği ve yönetimi için açık kaynaklı, birleşik bir platformdur. Ayrıca Acryl Data tarafından bulut tabanlı bir SaaS çözümü olarak ticari olarak da sunulmaktadır.
Başlıca özellikler:
- Sütun düzeyinde veri soy ağacı : Veri akışını kaynaktan tüketime kadar platformlar genelinde izler.
- Yapay zeka destekli veri kalitesi : Anormallik tespiti, veri kalitesi sorunlarını otomatik olarak işaretler.
- Genişletilebilirlik : DataHub meta verilerine erişim sağlayan aracılar oluşturmak için REST API'leri, Python SDK ve LangChain entegrasyonu.
- 80'den fazla yerel bağlantı : Snowflake, BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake ve diğerleri.
Dikkate alınması gerekenler: DataHub'ın mimarisi, birbirine bağlı birden fazla hizmeti (GMS, MCE tüketicisi, MAE tüketicisi, arama dizini, grafik deposu) çalıştırır. Üretim ortamlarında genellikle Kubernetes gereklidir. Kurulum karmaşıklığı, toplulukta en sık dile getirilen sorun noktasıdır.
Apache – Atlas
Apache Atlas, öncelikle Hadoop ve büyük veri ekosistemleri için tasarlanmış, meta veri yönetimi ve denetimi için açık kaynaklı bir araçtır. Hive, HBase, Kafka, Spark, Sqoop ve Storm üzerine kurulu ortamlarda veri varlıkları arasında sınıflandırma, soy ağacı takibi ve arama işlemlerini destekler.
Başlıca özellikler
- Dinamik sınıflandırma: Apache Atlas, PII (Kişisel Tanımlanabilir Bilgiler), SÜRESİ DOLMA TARİHİ, VERİ KALİTESİ ve HASSAS gibi özel sınıflandırmalar oluşturmaya olanak tanır.
- Metaveri tipleri: Platform, Hadoop ve Hadoop dışı ortamlar için önceden tanımlanmış meta veri tipleri sağlar. Bu, kullanıcıların HBase, Hive, Sqoop, Kafka ve Storm gibi çeşitli veri kaynakları için meta verileri yönetmesine olanak tanır.
- SQL benzeri sorgu dili (DSL): Platform, varlıkları aramak için SQL benzeri sorgu işlevselliği sağlayan alana özgü bir dili (DSL) destekler. Bu, SQL'e aşina olan kullanıcılar için erişilebilir olmasını sağlar.
- Apache Hive, Apache Spark, Kafka ve Presto gibi harici araçlarla entegrasyon , onu büyük veri ortamlarına uyarlanabilir hale getiriyor.
Dikkate alınması gerekenler:
- Çoklu bulut ortamında Atlas'ı yapılandırmak, özellikle AWS, Azure ve Databricks API'leri arasında köprü kurarken karmaşıktır. Atlas'ın bu platformlar için yerel bağlantı noktaları bulunmamaktadır; AWS Redshift veya Azure Synapse'den veri akışını kaydetmek için ek yapılandırma gereklidir.
- Bulut tabanlı kataloglama hizmetleri (örneğin, AWS Glue), halihazırda tek bir bulut sağlayıcısına bağlı olan ekipler için daha düşük maliyetli soy ağacı takibi sunabilir.
- Atlas, Hadoop, Spark ve Hive'ı büyük ölçekte kullanan kuruluşlar için en uygun çözümdür. Hadoop merkezli bir altyapıya sahip olmayan ekipler, mimarisinin gereksiz karmaşıklık getirdiğini görecektir.
Marquez
Marquez, bir veri ekosisteminden meta verileri toplamak, birleştirmek ve görselleştirmek için kullanılan açık kaynaklı bir veri kataloğudur. Veri kümelerine göz atmak, bağımlılıklarını anlamak ve veri işlem hatları aracılığıyla değişiklikleri izlemek için bir Web arayüzü ve REST API sağlar.
- Veri kümelerinde arama : Kullanıcılar veri kümelerini kolayca arayabilir, özelliklerini görüntüleyebilir ve veri ekosistemi genelindeki bağımlılıklarını anlayabilirler.
- Soy ağacını görselleştirin : Marquez'deki soy ağacı grafiği, veri kümelerinin iş akışları aracılığıyla nasıl bağlandığını ve dönüştürüldüğünü net ve etkileşimli bir şekilde gösterir. Bu, veri işlem hatlarını anlamak, hataları izlemek ve veri güvenilirliğini sağlamak için çok önemlidir.
- Merkezi meta veri deposu : Marquez, çeşitli kaynaklardan gelen meta verileri bir araya getirerek kolay erişim ve yönetim için tek bir sistemde birleştirir.
Örnek iş akışı: Soy ağacı meta verilerini incelemek için Marquez kullanıcı arayüzüne gidin ve arama kutusunu kullanarak bir iş arayın (örneğin, etl_delivery_7_days). İşin çıktı veri kümesinden (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.)
Piiano Kasası – Yeniden Keşif
Piiano Vault, kendi bulut ortamınızda hassas kişisel verileri depolamak ve güvence altına almak için kullanılan bir gizlilik kasasıdır. Mevcut veritabanlarını hassas veriler için taramak yerine, Vault, kredi kartı numaraları, banka hesap numaraları, ulusal kimlik numaraları (SSN), adlar, e-postalar ve telefon numaraları gibi en hassas alanlar için yetkili bir depolama alanı olarak tasarlanmıştır ve mevcut uygulama veritabanlarınızın yanına kurulur.
Vault, mimarinize Docker veya Kubernetes (Helm grafikleri mevcut) aracılığıyla dağıtılır. Python (Django ORM), TypeScript, Java ve Go için SDK'lar mevcuttur. vault-releases deposu en son Ağustos 2025'te güncellenmiştir.
Kullanım senaryosu ayrımı: Vault bir veri keşif tarayıcısı değildir. Kuruluşların merkezileştirmek ve korumak istediği hassas veriler için yapılandırılmış bir depolama sistemidir; mevcut sistemlere dağılmış hassas verileri bulmak için bir araç değildir.
Gece çöker
Nightfall, tamamen açık kaynaklı bir araç değil, ticari bir yapay zeka tabanlı DLP platformudur. GitHub depoları, Nightfall'ın API'sini kullanarak dizinleri, dışa aktarımları ve yedeklemeleri tarayan açık kaynaklı tarayıcı komut dosyaları (Apache 2.0) içerir. Tarama işlemleri Nightfall API anahtarı gerektirir ve Nightfall'ın ticari tespit motorunu çağırır. Ücretsiz sürüm, genel ve özel depolarda ayda 100'e kadar tarama yapılmasına izin verir.
Açık kaynak kodlu tarayıcı özellikleri (ücretsiz sürüm):
- Herkese açık ve özel depoların tüm commit geçmişini tarar.
- Kimlik bilgilerini, gizli bilgileri, kişisel verileri ve kredi kartı numaralarını tespit eder.
- Ayda 100 adede kadar tarama işlemi gerçekleştirir.
Ayırt edici özellik: Nightfall, ihlaller tespit edildiğinde Slack'e uyarı gönderebilir ve sonuçları bir SIEM , raporlama aracı veya webhook uç noktasına iletebilir.
Örnek kullanım senaryosu: Hassas verilerin depolandığı yerde tespit edilmesi için bir Salesforce yedeğini tarayın. Tarayıcı (1) yedekleme dosyalarını tarama için Nightfall'ın API'sine gönderir, (2) sonuçları almak için yerel bir webhook sunucusu çalıştırır ve (3) bulguları bir CSV dosyasına aktarır.
Yukarıdaki URL, Nightfall tarafından sağlanmıştır. Bu, Nightfall'ın tespit ettiği hassas bulguları almak için kullanılan geçici olarak imzalanmış S3 URL'sidir.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.