As 6 principais ferramentas de código aberto para descoberta de dados sensíveis
As ferramentas a seguir foram selecionadas com base na atividade no GitHub e classificadas por número de estrelas no GitHub em ordem decrescente. Elas abrangem os principais casos de uso para descoberta de dados sensíveis: catalogação de metadados com linhagem, varredura sem agente e detecção baseada em API de informações pessoais identificáveis (PII), dados PCI e credenciais em repouso.
Saiba mais: Ferramentas de descoberta e classificação de dados sensíveis , software DLP .
Recursos administrativos
Ferramenta | Painel gráfico | Baseado em pesquisa | Linhagem de dados | Sistema de banco de dados federado |
|---|---|---|---|---|
DataHub | ✅ | ✅ | ✅ | ✅ |
Apache – Atlas | ✅ | ✅ | ✅ | ❌ |
Márquez | ✅ | ✅ | ✅ | Não compartilhado. |
OpenDLP | ❌ | ❌ | ❌ | ❌ |
Cofre Piiano – Redescoberta | ❌ | Não compartilhado. | ❌ | ❌ |
Nightfall AI – Scanner de dados sensíveis | ✅ | ✅ | ❌ | ❌ |
Descrição das funcionalidades:
- Painel gráfico – permite visualizar os resultados dos seus dados.
- Funcionalidade baseada em pesquisa – permite pesquisar ativos de dados.
- Linhagem de dados – permite aos usuários visualizar como os dados são gerados, transformados, transmitidos e usados em um sistema ao longo do tempo.
- Sistema de banco de dados federado – mapeia múltiplos sistemas de banco de dados autônomos em um único banco de dados federado.
Essas funcionalidades (especialmente a linhagem de dados e os recursos de pesquisa) permitem que as empresas:
- Descubra a localização das informações pessoais identificáveis (PII), dados do setor de cartões de pagamento (PCI) , etc., armazenadas em vários bancos de dados, aplicativos e dispositivos do usuário.
- Cumprir as normas regulamentares do setor em matéria de proteção de dados e privacidade, como o Regulamento Geral de Proteção de Dados (RGPD) e a Lei de Privacidade do Consumidor da Califórnia ( CCPPA ).
Recursos de segurança de dados
Descrição das funcionalidades:
- Mascaramento de dados – permite ocultar dados modificando suas letras e números originais, de forma que não tenham valor para invasores não autorizados, mas permaneçam utilizáveis para funcionários autorizados.
- Prevenção contra perda de dados (DLP) – detecta possíveis violações de dados e as previne bloqueando dados sensíveis.
Categorias e estrelas do GitHub
Seleção e classificação de ferramentas:
- Número de avaliações: mais de 10 estrelas no GitHub.
- Lançamento de atualização: Pelo menos uma atualização foi lançada na semana passada, em novembro de 2024.
- Classificação: As ferramentas são classificadas por estrelas do GitHub em ordem decrescente.
DataHub
O DataHub é uma plataforma unificada de código aberto para descoberta, observabilidade e governança de dados sensíveis, desenvolvida pela Acryl Data e pelo LinkedIn. A Acryl Data também o oferece comercialmente como um produto SaaS hospedado na nuvem.
Principais características:
- Rastreamento de dados em nível de coluna : rastreia o fluxo de dados da origem ao consumo em todas as plataformas.
- Qualidade de dados assistida por IA : a detecção de anomalias sinaliza automaticamente problemas de qualidade de dados.
- Extensibilidade : APIs REST, SDK Python e integração com LangChain para a criação de agentes com acesso aos metadados do DataHub.
- Mais de 80 conectores nativos : BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake e outros.
Consideração: A arquitetura do DataHub executa vários serviços interconectados (GMS, consumidor MCE, consumidor MAE, índice de pesquisa, armazenamento de grafos). Implantações em produção normalmente exigem Kubernetes. A complexidade de configuração é o problema mais frequentemente citado pela comunidade.
Apache – Atlas
O Apache Atlas é uma ferramenta de código aberto para gerenciamento e governança de metadados, projetada principalmente para ecossistemas Hadoop e de big data. Ele oferece suporte à classificação, rastreamento de linhagem e busca em ativos de dados em ambientes baseados em Hive, HBase, Kafka, Spark, Sqoop e Storm.
Principais características
- Classificação dinâmica: o Apache Atlas permite a criação de classificações personalizadas, como PII (Informações de Identificação Pessoal), EXPIRA_EM, QUALIDADE_DOS_DADOS e SENSÍVEL.
- Tipos de dados Meta: A plataforma fornece tipos de metadados predefinidos para ambientes Hadoop e não Hadoop. Isso permite que os usuários gerenciem metadados para diversas fontes de dados, como HBase, Hive, Sqoop, Kafka e Storm.
- Linguagem de consulta semelhante a SQL (DSL): A plataforma suporta uma linguagem específica de domínio (DSL) que fornece funcionalidades de consulta semelhantes a SQL para pesquisar entidades. Isso a torna acessível para usuários familiarizados com SQL.
- Integração com ferramentas externas : Apache Hive, Apache Spark, Kafka e Presto, tornando-o adaptável a ambientes de big data.
Considerações:
- Configurar o Atlas em um ambiente multicloud é complexo, principalmente ao integrar APIs da AWS, Azure e Databricks. O Atlas não possui conectores nativos para essas plataformas; configurações adicionais são necessárias para registrar a linhagem do AWS Redshift ou do Azure Synapse.
- Serviços de catalogação nativos da nuvem (por exemplo, AWS Glue) podem oferecer rastreamento de linhagem com menor sobrecarga para equipes já comprometidas com um único provedor de nuvem.
- O Atlas é mais adequado para organizações que executam Hadoop, Spark e Hive em grande escala. Equipes sem uma infraestrutura centrada em Hadoop acharão sua arquitetura desnecessária e complexa.
Márquez
Marquez é um catálogo de dados de código aberto para coletar, agregar e visualizar metadados de um ecossistema de dados. Ele fornece uma interface web e uma API REST para navegar por conjuntos de dados, entender suas dependências e rastrear alterações em fluxos de dados.
- Pesquisa de conjuntos de dados : Os usuários podem pesquisar facilmente conjuntos de dados, visualizar seus atributos e compreender suas dependências em todo o ecossistema de dados.
- Visualize a linhagem : O gráfico de linhagem no Marquez oferece uma visão clara e interativa de como os conjuntos de dados são conectados e transformados por meio de fluxos de trabalho. Isso é crucial para entender os pipelines de dados, rastrear erros e garantir a confiabilidade dos dados.
- Repositório centralizado de metadados : O Marquez agrega metadados de diversas fontes, consolidando-os em um único sistema para facilitar o acesso e o gerenciamento.
Fluxo de trabalho de exemplo: Para inspecionar os metadados de linhagem, navegue até a interface do usuário do Marquez e pesquise um trabalho (por exemplo, etl_delivery_7_days) usando a caixa de pesquisa. A partir do conjunto de dados de saída do trabalho (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.
Cofre Piiano – Redescoberta
O Piiano Vault é um cofre de privacidade para armazenar e proteger dados pessoais sensíveis em seu próprio ambiente de nuvem. Em vez de vasculhar bancos de dados existentes em busca de dados sensíveis, o Vault foi projetado como o repositório oficial para os campos mais sensíveis, como números de cartão de crédito, números de contas bancárias, documentos de identidade (CPF), nomes, e-mails e números de telefone, instalado junto com os bancos de dados de seus aplicativos existentes.
O Vault é implantado em sua arquitetura via Docker ou Kubernetes (com gráficos Helm disponíveis). SDKs estão disponíveis para Python (Django ORM), TypeScript, Java e Go. O repositório vault-releases foi atualizado pela última vez em agosto de 2025.
Diferenciação de casos de uso: O Vault não é um scanner de descoberta de dados. É um sistema de armazenamento estruturado para dados sensíveis que as organizações desejam centralizar e proteger, e não uma ferramenta para encontrar dados sensíveis já dispersos em sistemas existentes.
Anoitecer
O Nightfall é uma plataforma DLP comercial com inteligência artificial nativa, não sendo uma ferramenta totalmente de código aberto. Seus repositórios no GitHub incluem scripts de varredura de código aberto (Apache 2.0) que utilizam a API do Nightfall para escanear diretórios, exportações e backups. A execução das varreduras requer uma chave de API do Nightfall e utiliza o mecanismo de detecção comercial da plataforma. O plano gratuito permite até 100 varreduras por mês em repositórios públicos e privados.
Funcionalidades do scanner de código aberto (nível gratuito):
- Analisa todo o histórico de commits de repositórios públicos e privados.
- Detecta credenciais, segredos, informações pessoais identificáveis e números de cartão de crédito.
- Realiza até 100 digitalizações por mês.
Recurso diferenciado: o Nightfall pode enviar alertas para o Slack quando violações são detectadas e enviar os resultados para um SIEM , ferramenta de relatórios ou endpoint de webhook.
Exemplo de caso de uso: Analisar um backup Salesforce para detectar dados sensíveis em repouso. O scanner (1) envia arquivos de backup para a API do Nightfall para análise, (2) executa um servidor webhook local para receber os resultados e (3) exporta as descobertas para um arquivo CSV.
O URL acima foi fornecido pelo Nightfall. Trata-se do URL S3 com assinatura temporária para recuperar as informações confidenciais identificadas pelo Nightfall.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.