Segurança cibernética Ferramentas de segurança

As 6 principais ferramentas de código aberto para descoberta de dados sensíveis

com

atualizado em Mar 5, 2026

As ferramentas a seguir foram selecionadas com base na atividade no GitHub e classificadas por número de estrelas no GitHub em ordem decrescente. Elas abrangem os principais casos de uso para descoberta de dados sensíveis: catalogação de metadados com linhagem, varredura sem agente e detecção baseada em API de informações pessoais identificáveis (PII), dados PCI e credenciais em repouso.

Saiba mais: Ferramentas de descoberta e classificação de dados sensíveis , software DLP .

Recursos administrativos

Ferramenta	Painel gráfico	Baseado em pesquisa	Linhagem de dados	Sistema de banco de dados federado
DataHub	✅	✅	✅	✅
Apache – Atlas	✅	✅	✅	❌
Márquez	✅	✅	✅	Não compartilhado.
OpenDLP	❌	❌	❌	❌
Cofre Piiano – Redescoberta	❌	Não compartilhado.	❌	❌
Nightfall AI – Scanner de dados sensíveis	✅	✅	❌	❌

Descrição das funcionalidades:

Painel gráfico – permite visualizar os resultados dos seus dados.
Funcionalidade baseada em pesquisa – permite pesquisar ativos de dados.
Linhagem de dados – permite aos usuários visualizar como os dados são gerados, transformados, transmitidos e usados em um sistema ao longo do tempo.
Sistema de banco de dados federado – mapeia múltiplos sistemas de banco de dados autônomos em um único banco de dados federado.

Essas funcionalidades (especialmente a linhagem de dados e os recursos de pesquisa) permitem que as empresas:

Descubra a localização das informações pessoais identificáveis (PII), dados do setor de cartões de pagamento (PCI) , etc., armazenadas em vários bancos de dados, aplicativos e dispositivos do usuário.
Cumprir as normas regulamentares do setor em matéria de proteção de dados e privacidade, como o Regulamento Geral de Proteção de Dados (RGPD) e a Lei de Privacidade do Consumidor da Califórnia ( CCPPA ).

Recursos de segurança de dados

Descrição das funcionalidades:

Mascaramento de dados – permite ocultar dados modificando suas letras e números originais, de forma que não tenham valor para invasores não autorizados, mas permaneçam utilizáveis para funcionários autorizados.
Prevenção contra perda de dados (DLP) – detecta possíveis violações de dados e as previne bloqueando dados sensíveis.

Categorias e estrelas do GitHub

Seleção e classificação de ferramentas:

Número de avaliações: mais de 10 estrelas no GitHub.
Lançamento de atualização: Pelo menos uma atualização foi lançada na semana passada, em novembro de 2024.
Classificação: As ferramentas são classificadas por estrelas do GitHub em ordem decrescente.

DataHub

O DataHub é uma plataforma unificada de código aberto para descoberta, observabilidade e governança de dados sensíveis, desenvolvida pela Acryl Data e pelo LinkedIn. A Acryl Data também o oferece comercialmente como um produto SaaS hospedado na nuvem.

Principais características:

Rastreamento de dados em nível de coluna : rastreia o fluxo de dados da origem ao consumo em todas as plataformas.
Qualidade de dados assistida por IA : a detecção de anomalias sinaliza automaticamente problemas de qualidade de dados.
Extensibilidade : APIs REST, SDK Python e integração com LangChain para a criação de agentes com acesso aos metadados do DataHub.
Mais de 80 conectores nativos : BigQuery, Redshift, Hive, Athena, Postgres, MySQL, SQL Server, Trino, Looker, Power BI, Tableau, Okta, LDAP, S3, Delta Lake e outros.

Consideração: A arquitetura do DataHub executa vários serviços interconectados (GMS, consumidor MCE, consumidor MAE, índice de pesquisa, armazenamento de grafos). Implantações em produção normalmente exigem Kubernetes. A complexidade de configuração é o problema mais frequentemente citado pela comunidade.

Apache – Atlas

O Apache Atlas é uma ferramenta de código aberto para gerenciamento e governança de metadados, projetada principalmente para ecossistemas Hadoop e de big data. Ele oferece suporte à classificação, rastreamento de linhagem e busca em ativos de dados em ambientes baseados em Hive, HBase, Kafka, Spark, Sqoop e Storm.

Principais características

Classificação dinâmica: o Apache Atlas permite a criação de classificações personalizadas, como PII (Informações de Identificação Pessoal), EXPIRA_EM, QUALIDADE_DOS_DADOS e SENSÍVEL.
Tipos de dados Meta: A plataforma fornece tipos de metadados predefinidos para ambientes Hadoop e não Hadoop. Isso permite que os usuários gerenciem metadados para diversas fontes de dados, como HBase, Hive, Sqoop, Kafka e Storm.
Linguagem de consulta semelhante a SQL (DSL): A plataforma suporta uma linguagem específica de domínio (DSL) que fornece funcionalidades de consulta semelhantes a SQL para pesquisar entidades. Isso a torna acessível para usuários familiarizados com SQL.
Integração com ferramentas externas : Apache Hive, Apache Spark, Kafka e Presto, tornando-o adaptável a ambientes de big data.

Considerações:

Configurar o Atlas em um ambiente multicloud é complexo, principalmente ao integrar APIs da AWS, Azure e Databricks. O Atlas não possui conectores nativos para essas plataformas; configurações adicionais são necessárias para registrar a linhagem do AWS Redshift ou do Azure Synapse.
Serviços de catalogação nativos da nuvem (por exemplo, AWS Glue) podem oferecer rastreamento de linhagem com menor sobrecarga para equipes já comprometidas com um único provedor de nuvem.
O Atlas é mais adequado para organizações que executam Hadoop, Spark e Hive em grande escala. Equipes sem uma infraestrutura centrada em Hadoop acharão sua arquitetura desnecessária e complexa.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Márquez

Marquez é um catálogo de dados de código aberto para coletar, agregar e visualizar metadados de um ecossistema de dados. Ele fornece uma interface web e uma API REST para navegar por conjuntos de dados, entender suas dependências e rastrear alterações em fluxos de dados.

Pesquisa de conjuntos de dados : Os usuários podem pesquisar facilmente conjuntos de dados, visualizar seus atributos e compreender suas dependências em todo o ecossistema de dados.
Visualize a linhagem : O gráfico de linhagem no Marquez oferece uma visão clara e interativa de como os conjuntos de dados são conectados e transformados por meio de fluxos de trabalho. Isso é crucial para entender os pipelines de dados, rastrear erros e garantir a confiabilidade dos dados.
Repositório centralizado de metadados : O Marquez agrega metadados de diversas fontes, consolidando-os em um único sistema para facilitar o acesso e o gerenciamento.

Fluxo de trabalho de exemplo: Para inspecionar os metadados de linhagem, navegue até a interface do usuário do Marquez e pesquise um trabalho (por exemplo, etl_delivery_7_days) usando a caixa de pesquisa. A partir do conjunto de dados de saída do trabalho (public.delivery_7_daysYou can view the dataset name, schema, description, and upstream inputs.

Cofre Piiano – Redescoberta

O Piiano Vault é um cofre de privacidade para armazenar e proteger dados pessoais sensíveis em seu próprio ambiente de nuvem. Em vez de vasculhar bancos de dados existentes em busca de dados sensíveis, o Vault foi projetado como o repositório oficial para os campos mais sensíveis, como números de cartão de crédito, números de contas bancárias, documentos de identidade (CPF), nomes, e-mails e números de telefone, instalado junto com os bancos de dados de seus aplicativos existentes.

O Vault é implantado em sua arquitetura via Docker ou Kubernetes (com gráficos Helm disponíveis). SDKs estão disponíveis para Python (Django ORM), TypeScript, Java e Go. O repositório vault-releases foi atualizado pela última vez em agosto de 2025.

Diferenciação de casos de uso: O Vault não é um scanner de descoberta de dados. É um sistema de armazenamento estruturado para dados sensíveis que as organizações desejam centralizar e proteger, e não uma ferramenta para encontrar dados sensíveis já dispersos em sistemas existentes.

Anoitecer

O Nightfall é uma plataforma DLP comercial com inteligência artificial nativa, não sendo uma ferramenta totalmente de código aberto. Seus repositórios no GitHub incluem scripts de varredura de código aberto (Apache 2.0) que utilizam a API do Nightfall para escanear diretórios, exportações e backups. A execução das varreduras requer uma chave de API do Nightfall e utiliza o mecanismo de detecção comercial da plataforma. O plano gratuito permite até 100 varreduras por mês em repositórios públicos e privados.

Funcionalidades do scanner de código aberto (nível gratuito):

Analisa todo o histórico de commits de repositórios públicos e privados.
Detecta credenciais, segredos, informações pessoais identificáveis e números de cartão de crédito.
Realiza até 100 digitalizações por mês.

Recurso diferenciado: o Nightfall pode enviar alertas para o Slack quando violações são detectadas e enviar os resultados para um SIEM , ferramenta de relatórios ou endpoint de webhook.

Exemplo de caso de uso: Analisar um backup Salesforce para detectar dados sensíveis em repouso. O scanner (1) envia arquivos de backup para a API do Nightfall para análise, (2) executa um servidor webhook local para receber os resultados e (3) exporta as descobertas para um arquivo CSV.

O URL acima foi fornecido pelo Nightfall. Trata-se do URL S3 com assinatura temporária para recuperar as informações confidenciais identificadas pelo Nightfall.

Leitura complementar

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por