Benchmark

Benchmark de Coleta Ética e em Conformidade de Dados da Web

atualizado em 21 jun. 2026

À medida que as empresas escalam suas operações de coleta de dados da web, os executivos de conformidade, dados e risco avaliam cada vez mais os riscos legais, éticos e reputacionais associados.

Avaliamos por benchmark 5 serviços líderes de coleta de dados da web em 3 dimensões e testamos cada serviço com mais de 20 cenários potencialmente antiéticos.

Nosso trabalho ajuda você a avaliar a posição ética de suas práticas de coleta de dados e compreender as possíveis consequências de abordagens antiéticas. Também fornecemos diretrizes para a coleta ética de dados da web e avaliamos os serviços de coleta de dados da web sob a perspectiva de ética e conformidade:

Avaliação dos serviços de coleta de dados da web

Avaliamos os principais serviços de coleta de dados da web (também chamados de provedores de dados da web ou infraestrutura de dados da web) usando nossa lista de verificação de dados da web éticos. Essas pontuações representam níveis de maturidade, sendo 5 o nível mais alto:

Provedores	Resumo	Uso ético pelos clientes	Fornecimento ético	Certificação externa	Cobertura de seguro compartilhada**
Bright Data	Nível 5	Nível 5	Nível 5	Segurança de dados, processamento de PII. Fontes de IP na lista de permissões. Práticas éticas avaliadas.	✅
Zyte	Nível 1	Nível 1	Nível 1	Segurança de dados	✅
Apify	Nível 1	Nível 1	Nível 1	Segurança de dados	✅
Nimble	Nível 1	Nível 1	Nível 0	Segurança de dados	❌

* Estes são códigos para os nomes dos fornecedores. Esses fornecedores não quiseram ser referenciados neste relatório e estão listados no final da lista até que resolvamos esta questão.

** ✅ indica que a empresa optou por compartilhar seus certificados de seguro com o AIMultiple. ❌ indica que a empresa decidiu não compartilhar seus certificados de seguro conosco e, portanto, não pudemos validar sua cobertura de seguro. A cobertura de seguro é a única categoria em que dependemos da participação das empresas de serviços de dados da web para avaliá-las.

Ordenado pela pontuação de resumo.

Modelo de pontuação para dados da web éticos

Abaixo, descrevemos como essas pontuações são derivadas. Você também pode ver a justificativa para selecionar essas dimensões de pontuação.

Nas 2 primeiras categorias, identificamos 5 competências, e as empresas receberam pontuações com base no número de competências que atenderam. O Nível 5 representa a maior maturidade observada no mercado, refletindo as melhores práticas atuais, e não a perfeição.

Capacidades para uso ético pelos clientes

Processos eficazes para uso ético: Avaliamos a capacidade de cada provedor de prevenir o uso antiético de seus serviços de proxy residencial por meio de cenários de teste controlados. Se alguma de nossas solicitações for bloqueada pelo provedor, esse item é alcançado.
Processos aprimorados para uso ético: Semelhante a "processos eficazes para uso ético". No entanto, esta capacidade indica que o provedor de serviços bloqueou mais de uma de nossas tentativas de usar seus serviços para casos de uso antiéticos.
Processos de melhores práticas para uso ético: Semelhante a "processos eficazes para uso ético". No entanto, esta capacidade indica que o provedor de serviços bloqueou a maioria de nossas tentativas de usar seus serviços para casos de uso antiéticos.
Base de gestão de abusos: Publicação de política de gestão de abusos e um método para denunciar abusos
Gestão de abusos responsiva: Medimos como as empresas responderam a múltiplos relatos de abuso. Mesmo que não houvesse uma linha direta para denunciar abusos, usamos os e-mails listados pela empresa para entrar em contato com sua equipe. Se não recebemos nenhuma resposta ao nosso relato dentro de uma semana, a empresa é considerada não responsiva.

Capacidades para fornecimento ético

O fornecimento ético envolve a aquisição de endereços IP de maneira ética. Nossa análise de mercado identificou os seguintes níveis de transparência em relação ao fornecimento ético de IPs:

Nível 1: Política de fornecimento de IP publicada.
Nível 2: Divulgou pelo menos uma fonte (por exemplo, um aplicativo móvel) para IPs que fornece IPs de maneira ética. A fonte divulgada deve ter no total pelo menos 10k avaliações em plataformas de terceiros, incluindo Google, Apple, lojas de aplicativos da Amazon e Trustpilot.
Nível 3: Igual ao Nível 2, mas com 100k avaliações
Nível 4: Igual ao Nível 3, mas com 1M avaliações
Nível 5: Igual ao Nível 4, mas com 10M avaliações

As avaliações são um indicador da popularidade dos aplicativos e são um sinal importante para esta avaliação. Os serviços de coleta de dados da web precisam trabalhar com aplicativos populares para conseguir atender às necessidades de IP de seus clientes.

Para qualificação, os aplicativos divulgados devem seguir estas melhores práticas. Não verificaremos isso para cada aplicativo divulgado, mas verificaremos para alguns selecionados aleatoriamente:

Consentimento informado:
- Os usuários precisam optar por participar antes de compartilhar sua conexão de internet. A tela de aceitação deve descrever:
  - O provedor
  - O serviço
  - Como seu IP será usado
- Os usuários devem poder acessar informações detalhadas sobre
  - Como sua conexão de internet será usada
  - Política de privacidade
Valor: Os usuários devem receber algum valor do aplicativo (por exemplo, pagamento, capacidade de pular anúncios ou alguma outra funcionalidade)
Privacidade: Coleta de dados do usuário limitada e transparente.

Para redes de proxy residencial, os compradores também devem verificar se o consentimento é específico, informado, revogável e separado de permissões de aplicativo não relacionadas. Eles devem perguntar se os usuários podem facilmente cancelar a participação, se o uso de largura de banda é limitado, se menores são excluídos e se o provedor audita aplicativos ou SDKs que fornecem IPs residenciais.

Certificação externa

Avaliamos a certificação externa com base no fato de as empresas terem adquirido estes certificados relevantes para segurança e conformidade de nível empresarial.

Certificação de PII: Capacidade demonstrada de gerenciar PII por meio da aquisição da ISO 27018
Certificação de segurança de dados: Práticas de segurança de dados demonstradas por meio da aquisição de um destes certificados: SOC 2 ou ISO/IEC 27001
Fonte de IP na lista de permissões: Provedores de certificação externa como a McAfee certificam:
- Aplicativos de 3rd parties específicos que fornecem IPs
- SDK que coleta IPs de aplicativos de 3rd parties
Práticas éticas avaliadas: Um projeto de garantia ISAE 3000 pode ser concluído para avaliar as práticas internas de conformidade e ética.

Seguro

Solicitamos aos fornecedores que nos fornecessem estes documentos de seguro:

Certificado de seguro de responsabilidade civil profissional fornecendo cobertura para responsabilidades dos fornecedores em caso de problemas no serviço
Certificado de seguro cibernético fornecendo cobertura para responsabilidades dos fornecedores em caso de problemas relacionados à segurança da informação.

Pontuação de resumo

Esta pontuação é a soma de todas as pontuações dividida por 3. As pontuações são:

0 a 5 para capacidades de uso ético pelos clientes
0 a 5 para capacidades de fornecimento ético
0 a 3 para certificação externa
0 a 2 para seguros

Principais serviços de coleta de dados da web

O AIMultiple selecionou os 7 maiores serviços de coleta de dados da web em termos de funcionários no LinkedIn. Escolhemos essa métrica por ser pública e por estar correlacionada com as receitas e a prontidão empresarial da empresa. Métricas melhores, como receitas ou o número de funcionários na folha de pagamento, não estão publicamente disponíveis para essas empresas privadas.

Todas as empresas selecionadas têm mais de 100 funcionários conectados às suas páginas de perfil do LinkedIn em abril de 2025. Atualmente, 5 dos 7 selecionados são exibidos nesta página e as 2 empresas restantes optaram por não ser incluídas no relatório.

Produtos de coleta de dados da web em foco

Essas empresas fornecem uma variedade de produtos, incluindo proxies, APIs de raspagem de dados e datasets. Embora todos os produtos possam ser examinados de uma perspectiva ética, inicialmente focamos no produto que fornece o mais alto nível de flexibilidade e alimenta a maioria dos outros produtos: proxies residenciais.

Os produtos de coleta de dados da web podem ser considerados como uma hierarquia onde os proxies formam a camada central sobre a qual todos os outros serviços são construídos. Isso ocorre porque os proxies permitem que as máquinas acessem a internet por meio de diferentes destinos, permitindo um conjunto diversificado e amplo de conexões de internet cruciais para a coleta de dados. Portanto, os proxies são o produto de coleta de dados da web mais capaz, podendo ser usado para realizar funções que não seriam possíveis com datasets ou APIs de raspagem de dados.

Entre os proxies, os proxies residenciais são o produto mais difícil para os sites identificarem como um proxy. Por exemplo, outros proxies, como proxies de datacenter, são fáceis de identificar devido à sua localização. Portanto, os proxies residenciais alimentam a maioria dos outros produtos de dados da web, como as APIs de raspagem de dados.

Verifique: Sua coleta de dados da web está em conformidade e é ética?

Seu negócio provavelmente está utilizando dados da web. No entanto, o setor enfrenta uma regulamentação limitada, tornando importante escolher um provedor ético e em conformidade. Para isso, preparamos uma estrutura holística para considerar diferentes aspectos da coleta de dados da web, incluindo fornecimento ético, uso ético e certificação externa.

Dados da web são um ativo operacional comum

Como empresa, seu negócio depende parcialmente de dados da web devido aos seus numerosos casos de uso, como:

Precificação dinâmica para varejo e e-commerce
Dados alternativos em tempo real para fundos de investimento
Processo KYC em bancos comerciais
Treinamento ou ajuste fino de modelos de IA
Inferência de IA ou RAG
Pesquisa de mercado

Com a IA, os dados da web agora são mais importantes

Embora a coleta de dados da web seja tão antiga quanto a web, sua importância aumentou drasticamente após o surgimento dos modelos de IA generativa. Os construtores desses modelos, como OpenAI e Anthropic, começaram sem parcerias de conteúdo significativas e usaram principalmente dados online para construir seus modelos iniciais, o que levou ao surgimento da indústria de IA de trilhões de dólares.

Supervisão regulatória limitada

Embora a regulamentação da IA esteja sob os spotlight, o setor de coleta de dados permanece majoritariamente não regulamentado na maioria dos países. Atividades online claramente ilegais estão bem definidas. No entanto, há requisitos regulatórios limitados para que os participantes do setor previnam proativamente o uso indevido de seus serviços pelos usuários.

Cabe às próprias plataformas estabelecer melhores práticas e padrões de conformidade para garantir a coleta ética de dados e o uso ético de proxies. Portanto, sua escolha de fornecedor é mais importante na coleta de dados em comparação com setores fortemente regulamentados, como o bancário, onde cada provedor de serviços é obrigado a cumprir inúmeras regulamentações.

A postura ética de seus fornecedores faz parte da reputação de sua empresa

Independentemente de você coletar ou consumir os dados, você é responsável pelo processo de aquisição deles.

A responsabilidade das empresas por atividades ilegais em sua cadeia de fornecimento depende da jurisdição. Por exemplo, na Alemanha, as empresas são responsáveis por realizar atividades de KYS e gestão de riscos para identificar e prevenir danos causados por sua cadeia de fornecimento. Mesmo quando as empresas não são responsáveis por danos causados por sua cadeia de fornecimento, elas podem sofrer riscos reputacionais.

Qual é o custo da coleta de dados antiética e não conforme?

Risco reputacional

Se tornar público que uma empresa está utilizando um serviço de coleta de dados da web que se envolve em comportamentos antiéticos ou ações que colocam em risco sua segurança de dados, isso pode levar a danos reputacionais significativos, como perda de negócios, rotatividade de clientes, rotatividade de talentos e perda de confiança dos investidores.

Exemplos reais de fornecedores empresariais que levaram à perda de reputação:

A Nike sofreu danos reputacionais inúmeras vezes devido às práticas trabalhistas antiéticas de seus fornecedores.¹
Muitas empresas como a EY perderam a confiança de seus clientes quando foram afetadas pela violação do software de transferência gerenciada de arquivos MOVEit. ²

Risco legal

A perda de reputação, especialmente a que leva à indignação pública, é tipicamente seguida por ações judiciais dos clientes da empresa ou de outras partes interessadas que foram prejudicadas pelas práticas antiéticas.

Exemplo real: A Starbucks é uma das marcas recentes a ser processada por adquirir insumos de empresas com práticas antiéticas.³

Deixe nossa equipe automatizar um dos seus processos de negócio com agentes de IA, gratuitamente.

Automatizar um processo

Lista de verificação de dados da web éticos

Os dados da web empresariais precisam atender a 3 requisitos para serem éticos:

Uso ético pelos clientes

Como parte de seus processos de Conheça Seu Fornecedor, as empresas evitam usar serviços que possibilitam atividades antiéticas. O uso de tais serviços expõe os negócios a danos reputacionais.

Exemplo do mundo real: Em casos em que um provedor foi documentado permitindo que sua plataforma fosse usada em atividades antiéticas, inúmeras empresas se distanciaram do provedor até que ele melhorasse suas práticas.⁴

Como isso se relaciona com os dados da web: Os dados da web são coletados por meio de diferentes endereços IP. Esses endereços podem ser usados para se envolver em diferentes atividades ilegais, como ataques DDOS para impedir a entrega de serviços digitais, coleta não autorizada de dados não públicos ou fraude de anúncios. Atores mal-intencionados precisam de IPs para impulsionar suas ações, e os provedores de infraestrutura de dados da web/proxy são os maiores fornecedores de IPs para usuários de varejo.

Fornecimento ético

Serviços usados para fins éticos podem causar ações antiéticas e prejudiciais durante sua produção. Por exemplo, marcas como Nike e Nestlé sofreram danos reputacionais e enfrentaram ações judiciais devido ao uso de trabalho infantil por seus contratados.

Como isso se relaciona com os dados da web:

As empresas precisam acessar um grande número de fontes diversas de largura de banda para coleta rápida e global de dados. Isso requer o uso de proxies residenciais: Embora a coleta de dados públicos seja legal sob muitas condições,⁵ os sites também podem optar por bloquear alguns de seus visitantes. Por exemplo, eles podem bloquear os crawlers de seus concorrentes. Nesses casos, as empresas precisam contar com um grande número de conexões de usuários de varejo ou outras 3rd parties para coletar dados da web.

Os provedores de proxy coletam milhões de conexões de internet de várias fontes e as fornecem a empresas que usam endereços IP para acessar essas conexões. Alguns desses IPs são originários de dispositivos de usuários residenciais. A coleta dessas conexões pode ser legal ou ilegal:

Legal: Práticas legalmente em conformidade envolvem a obtenção de consentimento informado do usuário, o fornecimento de compensação e a oferta de mecanismos de cancelamento de acordo com as regulamentações locais. O provedor de dados da web deve
- Informar os usuários sobre como sua largura de banda seria usada
- Obter seu consentimento digitalmente
- Compensá-los em troca
- Permitir que cancelem a qualquer momento
Ilegal: Atores mal-intencionados podem obter acesso aos dispositivos dos usuários e usar sua conexão de internet sem permissão ou compensação. Isso pode acontecer por meio de aplicativos maliciosos, dispositivos comprometidos, instalações mascaradas, aceitação automática e outros métodos que podem colocar o proprietário do dispositivo em risco.

Empresas que usam proxies obtidos ilegalmente podem inadvertidamente pagar a atores mal-intencionados pelo acesso não autorizado a dispositivos.

Exemplos reais:

Provedores de proxy residencial listados no mercado de ações foram documentados compartilhando sua infraestrutura com SDKs que usam conexões de dispositivos sem o consentimento do usuário.⁶⁷
Roteadores e dispositivos IoT foram comprometidos para operações de botnet e vendidos como proxies residenciais.⁸ ⁹
Certos provedores de proxy promovem seus serviços em fóruns frequentados por atores mal-intencionados. Esses IPs provavelmente são obtidos ilegalmente.¹⁰
Aplicativos de VPN na Google Play Store também foram usados para adquirir IPs residenciais sem o consentimento do usuário.¹¹

Embora essas operações tenham sido encerradas, é provável que atores mal-intencionados ainda estejam acessando IPs residenciais sem consentimento por meio de botnets e aplicativos comprometidos ou maliciosos.

Certificação externa

Compradores empresariais precisam de soluções seguras e prontas para empresas. Identificamos os ingredientes para uma organização de dados da web madura que pode ser documentada por meio de certificação externa:

Segurança de dados

A falta de segurança de dados nos sistemas de um fornecedor pode corroer a vantagem competitiva de uma empresa ou levar à perda de dados e tempo de inatividade do sistema. A perda de funcionalidade do sistema pode corroer a confiança e levar à desvalorização de uma empresa.

Intrusão no sistema

Os serviços de coleta de dados não são tão profundamente integrados aos sistemas de uma empresa quanto os serviços digitais principais (por exemplo, um sistema de registro como CRM). Portanto, suas credenciais de segurança não são tão minuciosamente revisadas quanto as credenciais de um sistema central como um sistema de registro. No entanto, a segurança de dados é crítica para os clientes de serviços de coleta de dados, uma vez que esses serviços:

São às vezes integrados a sistemas mais centrais, como motores de precificação.
Podem infectar sistemas empresariais mesmo quando não estão integrados a tais sistemas. Usar um serviço de coleta de dados envolve receber dados desse serviço. Mesmo algumas das formas mais seguras de transferência de dados incluem riscos.

A intrusão no sistema também pode levar os atacantes a visar os dispositivos que fornecem IPs residenciais a um serviço de proxy. Isso pode resultar em danos reputacionais aos clientes desse serviço de proxy.

Exemplo real de vulnerabilidade em um provedor de proxy residencial:

Os operadores da botnet Kimwolf compraram serviços de proxy do provedor de proxy residencial IPIDEA. Usando comandos maliciosos, eles infectaram as redes internas dos dispositivos que forneciam IPs ao IPIDEA. Essas redes foram então escaneadas e outros dispositivos vulneráveis nessas redes locais também foram infectados.

Estima-se que o Kimwolf tenha se espalhado para mais de 2 milhões de dispositivos com esse método. Os dados coletados pelos clientes do IPIDEA também fluíram por essas redes infectadas.¹²

Perda de dados

Sem segurança de dados, atores mal-intencionados podem obter acesso aos dados coletados pelas empresas para identificar suas atividades e estratégias, levando à perda de vantagem competitiva ou oportunidades de negócios.

Exemplo real:

Embora os dados da web sejam públicos, as empresas podem usar dados da web de maneiras inovadoras para obter vantagem competitiva. Por exemplo, os investidores gastam até 10% de seu orçamento de dados de mercado em dados alternativos¹³, mas raramente divulgam suas estratégias, pois acreditam que isso pode ajudá-los a obter uma vantagem em comparação com seus concorrentes. Um vazamento de dados pode levar à exposição de suas estratégias e, portanto, à replicação por seus concorrentes.

Gestão de PII

Os dados da web incluem dados privados protegidos por login ou PII que podem ser acidentalmente ou propositalmente divulgados em sites públicos. Se os serviços de coleta de dados da web não conseguirem gerenciar corretamente as PII, esses dados podem ser adquiridos por atores mal-intencionados. Isso pode levar a danos reputacionais para o serviço de coleta de dados da web e seus clientes.

Segurança de aplicações

Aplicações ou programas intermediários, como SDKs que fornecem os IPs dos serviços de coleta de dados da web, podem ser colocados na lista de permissões por provedores de certificação externa, como a McAfee. Isso aumenta a confiança da empresa nas práticas de fornecimento ético do serviço de coleta de dados da web.

Cobertura de seguro

As empresas normalmente exigem estes seguros de qualquer provedor digital:

Seguro de responsabilidade civil profissional
Certificado de seguro cibernético

Benchmark detalhado: Avaliação de provedores de infraestrutura de dados da web

Benchmark: Uso ético pelos clientes

Aqui, buscamos responder à pergunta: A empresa garante que o uso de sua solução seja ético e esteja em conformidade com as leis e regulamentações aplicáveis? Resumo de nossas descobertas:

Fornecedor	Uso ético pelos clientes	Processos eficazes	Processos aprimorados	Processos de melhores práticas	Base de gestão de abusos	Gestão de abusos responsiva
Bright Data	Nível 5	✅	✅	✅	✅	✅
Apify	Nível 1	❌	❌	❌	N/A*	✅
Nimble	Nível 1	❌	❌	❌	❌	✅
Zyte	Nível 1	❌	❌	❌	N/A*	✅

* Não aplicável: Como a Zyte e a Apify compram proxies de seus fornecedores e não os coletam diretamente de usuários residenciais, eles não seriam contatados pelos proprietários de sites em relação a abusos e, portanto, não precisam criar um formulário de contato para sites.

Primeiro, revisamos as políticas:

Revisão da política de uso aceitável

Todos os fornecedores proíbem atividades ilegais e fornecem exemplos como ataques DoS, mensagens em massa não solicitadas, falsificação de identidade ou spoofing.

Além disso, alguns fornecedores também destacam que proíbem atividades que provavelmente são ilegais. Abaixo, listamos as atividades proibidas com base nas políticas de uso aceitável e seus adendos (por exemplo, adendo de processamento de dados) para cada fornecedor.

Buscamos termos que proibiriam atividades que provavelmente são ilegais e podem ser identificadas com base na atividade do usuário. Por exemplo, uma parcela significativa de usuários que usam proxies para responder a pesquisas pagas poderia estar usando proxies para enganar os provedores de pesquisa sobre sua localização real. Portanto, essa atividade provavelmente é ilegal e pode ser identificada com base na atividade do usuário (ou seja, quando um usuário faz login em um site de pesquisa paga).

Atividade proibida	Bright Data	Apify	Zyte	Nimble
Raspagem de dados não autorizada	✅	✅	✅	✅
Sites prejudiciais	✅	✅	❌	✅
Revenda sem permissão	✅	✅	✅	✅
Fraude de anúncios	✅	✅	✅	❌
Sites para adultos	✅	✅	✅	❌
Criação e gestão de contas	✅	❌	❌	❌
Compra automatizada de ingressos	✅	❌	✅	❌
Publicação em classificados e marketplaces	✅	✅	❌	❌
Sites governamentais	✅	❌	✅	❌
Pesquisas pagas	✅	✅	❌	❌

Embora identificar claramente as atividades proibidas seja benéfico, não é um requisito e não impacta nossas pontuações. As empresas podem optar por mencionar que não permitem atividades ilegais em vez de mencionar cada possível instância de atividades ilegais.

Mencionar uma atividade como proibida não significa que tais atividades serão revisadas ou bloqueadas. Nossas pontuações dependem de como essas políticas são implementadas, conforme descrito abaixo:

Processos para uso ético

Embora algumas categorias descritas nas políticas de uso aceitável sejam bastante amplas (por exemplo, raspagem ou acesso não autorizado de dados), outras são específicas o suficiente para serem convertidas em ações preventivas (por exemplo, bloqueio de acesso) que os serviços de coleta de dados podem implementar para usuários que não concluíram seu processo KYC.

Com base nesses usos proibidos específicos, preparamos uma extensa lista de usos que provavelmente são usos ilegais de proxies. Para cada caso de uso, identificamos cenários incluindo domínios da web relevantes e ações. Por exemplo, no cenário de engajamento artificial em mídias sociais, tentamos fazer login em uma rede social usando um proxy para curtir uma publicação existente.

Em seguida, para testar se as empresas permitem o uso antiético pelos clientes, criamos uma conta no serviço de cada provedor usando um endereço de e-mail não AIMultiple. Não concluímos um processo KYC com essa conta e passamos a usar os serviços para entender o que usuários anônimos podem realizar com cada serviço. O KYC é uma etapa crucial durante a qual o usuário envia dados para validar a entidade legal que representa. Isso vincula a atividade do usuário a uma entidade legal:

Que pode ser responsabilizada.
Cuja justificativa para ações online (por exemplo, usar proxies para fazer login em sites governamentais) pode ser examinada. Por exemplo, após entender seu caso de uso, um pesquisador ou agência governamental pode ser autorizado a fazer login em um site governamental usando um proxy.

Esperávamos que esses casos de uso acionassem um processo KYC, mas na maioria dos fornecedores, isso não aconteceu. Uma marca de verificação indica que a solicitação foi bloqueada para usuários que ainda não concluíram o processo KYC:

Categoria	Domínio	Bright Data	Apify	Nimble	Zyte
Fraude de anúncios	google.com	✅	❌	❌	❌
Fraude de anúncios	bing.com	✅	❌	❌	❌
Conteúdo adulto	Pode ser fornecido mediante solicitação	✅	❌	❌	❌
Conteúdo adulto	Pode ser fornecido mediante solicitação	✅	❌	❌	❌
Engajamento social artificial	facebook.com	✅	❌	❌	❌
Engajamento social artificial	instagram.com	✅	❌	❌	❌
Compra automatizada de ingressos	viagogo.com	✅	❌	❌	❌
Compra automatizada de ingressos	ticketmaster.com	✅	❌	❌	❌
Classificados	craigslist.com	✅	❌	❌	❌
Classificados	gumtree.com	✅	❌	❌	❌

Para maior clareza, as empresas de serviços de coleta de dados não têm obrigação legal de bloquear esses sites e alguns desses cenários podem fazer parte de um uso legal. Por exemplo, um pesquisador pode querer utilizar proxies para executar um experimento controlado de mídia social. No entanto, dado o potencial de abuso nesses cenários, esperávamos que os serviços de coleta de dados os bloqueassem para usuários que não concluíram o processo KYC.

Como as marcas comunicam os domínios que bloqueiam

A Bright Data lista categorias de domínios restritos em sua política de uso aceitável.

Respeito às preferências dos sites em relação à coleta automatizada de dados

O que é robots.txt?

robots.txt é um nome de arquivo para implementar o Protocolo de Exclusão de Robôs. Este protocolo é usado por sites para indicar partes do site que o proprietário do site prefere que os bots não visitem. A adesão ao robots.txt é voluntária.

Prós e contras de aderir ao robots.txt

➕ Respeita as preferências do site.

➖ Pode não ser atualizado recentemente e, portanto, estar desatualizado.

➖ Normalmente envolve termos que indicam que o proprietário do site prefere que certas seções públicas do site não sejam acessadas por bots.

O robots.txt também pode fornecer acesso desigual aos bots. Por exemplo, os proprietários de sites podem indicar que preferem que os bots dos mecanismos de resposta não visitem certas URLs que os bots dos mecanismos de busca visitam.

O robots.txt não é um documento legal e pode solicitar o bloqueio do acesso de bots a páginas que são legalmente:

permitidas para serem raspadas (por exemplo, dados públicos) ou
não permitidas para serem raspadas (por exemplo, dados protegidos por login onde os Termos de Serviço do proprietário do site proíbem a raspagem de tais dados).

Os provedores de serviços de coleta de dados da web podem solicitar que os usuários de proxy residencial concluam um processo KYC e comprovem que têm um caso de uso legal e ético antes que esses usuários possam desconsiderar o robots.txt.

Para testes, enviamos solicitações para páginas em subpastas cujo bloqueio é solicitado pelo robots.txt. Os domínios que usamos foram aimultiple.com e 5 domínios da web entre os 100 domínios da web mais visitados. Apenas a Bright Data bloqueou essas solicitações:

URL	Bright Data	Nimble	Zyte	Apify
https://edition.cnn.com/terms0	✅	❌	❌	❌
https://www.bbc.com/search	✅	❌	❌	❌
https://www.samsung.com/us/business/search/	✅	❌	❌	❌
https://www.imdb.com/registration/signin	✅	❌	❌	❌
https://www.etsy.com/cart	✅	❌	❌	❌

Exemplo da CNN

O robots.txt da CNN bloqueia a pasta /terms¹⁴. Para teste, navegamos até essa pasta com proxies residenciais e recebemos mensagens 200 com os dados da página de todos os provedores, exceto a Bright Data. A resposta da Bright Data é: "Residential Failed (bad_endpoint): Requested site is not available for immediate residential (no KYC) access mode in accordance with robots.txt. To get full residential access for targeting this site, fill in the KYC form: https://brightdata.com/cp/kyc".

Gestão de abusos

Descrevemos uma metodologia para avaliar as práticas de gestão de abusos dos fornecedores e coletamos dados para atender aos nossos critérios de avaliação:

Fornecedor	Nível	E-mail dedicado para denúncias	Formulário web para denúncias
Bright Data	Base e responsiva	✅	✅
Apify	Responsiva	❌	❌
Zyte	Responsiva	N/A*	N/A*
Nimble	Responsiva	❌	❌

* Não aplicável: A Zyte compra proxies de outros provedores de proxy e, portanto, quando o serviço da Zyte é usado para abuso, os proprietários de sites entrariam em contato com seus provedores de proxy em vez da Zyte.

Embora todos os fornecedores ofereçam meios para que 3rd parties ou seus clientes os contatem, ter estes itens é importante para a resolução de problemas:

Política pública de abuso
Um endereço de e-mail dedicado para denunciar abuso
Um método de contato alternativo (por exemplo, formulário web ou interface de mensagens) que permita que os denunciantes entrem em contato com a empresa. Isso é útil, pois os e-mails podem ser filtrados e podem não chegar à caixa de entrada.
Capacidade de resposta às mensagens

3 provedores no benchmark (Bright Data) forneceram um e-mail para denunciar abuso. Todos esses provedores também descreveram suas políticas neste domínio.

Esperamos que todos os outros provedores façam o mesmo e que isso se torne uma prática generalizada do setor no curto prazo.

Por fim, avaliamos a capacidade de resposta da gestão de abusos enviando relatos de abuso por e-mail de domínios de terceiros (ou seja, não AIMultiple) e medindo os tempos de resposta. Se não encontramos um endereço de e-mail para abuso, enviamos para o formulário de contato geral. Testamos isso por meio de 3 lotes de e-mails enviados em:

Sexta-feira, 2 de maio de 2025, de:
- Um serviço de venda de ingressos com ~30k de tráfego mensal
- Um escritório de advocacia com ~1k de tráfego mensal
17 de maio de 2025 do serviço de venda de ingressos.
24 de maio de 2025 de uma agência de mídia social com tráfego online limitado.

Os primeiros e-mails enviados em 2 de maio de 2025 foram enviados para empresas que forneceram e-mails dedicados. Posteriormente, expandimos nossa lista e incluímos endereços de e-mail mais gerais listados nas seções de contato de todos os serviços de coleta de dados da web avaliados. Se uma empresa respondeu aos nossos e-mails, paramos de enviar mais e-mails.

Em nossos e-mails, mencionamos que nossos sites receberam tráfego suspeito de bots via proxies e pedimos seu apoio na identificação da origem dos proxies. Conseguimos que todas as equipes de conformidade, exceto uma, nos respondessem. Quase todas as respostas foram recebidas no mesmo dia.

Transparência de uso

Os proprietários de sites que fornecem dados da web e os serviços de coleta de dados da web historicamente não tiveram troca de dados sobre as atividades de coleta de dados. Para limitar as atividades de crawling, os proprietários de sites podiam:

Entrar em contato com os serviços de coleta de dados da web para denunciar abuso
Trabalhar com provedores de gestão de bots como a Cloudflare para tornar o crawling mais desafiador.

Agora, existem iniciativas para uma troca de dados mais estruturada entre essas partes. A Bright Data lançou o Bright Data Webmaster Console para que os webmasters monitorem as atividades de crawling em seus sites. Mais transparência provavelmente melhorará as práticas de coleta de dados da web.

Nossa experiência com o Webmaster Console

Nos inscrevemos verificando a propriedade do nosso domínio e adicionando um arquivo collectors.txt no domínio.

Agora temos acesso à atividade de bots da Bright Data em nosso site:

Benchmark: Fornecimento ético

Fornecedor	Fornecimento ético	Abordagem de fornecimento explicada	Nº de aplicativos divulgados publicamente que fornecem IPs	Total de avaliações em plataformas de 3rd parties
Bright Data	Nível 5	✅	120	14.617.919*
Zyte	Nível 1	✅	❌	❌
Apify	❌	❌	❌	❌
Nimble	❌	❌	❌	❌

* Avaliações nestas plataformas de 3rd parties foram incluídas: Amazon Appstore, App Store, Google Play Store, Trustpilot. Para conveniência, este valor foi calculado para 5 aplicativos principais da Bright Data, não para todos os 120 aplicativos apresentados em seu site.

Transparência de parceiros

A largura de banda necessária para as empresas de infraestrutura de dados da web pode ser fornecida de maneira ética, oferecendo benefícios (por exemplo, pagamentos, recursos como a capacidade de pular anúncios) em troca do consentimento para compartilhar a conexão de internet de alguém. No entanto, também é possível obter acesso não autorizado aos sistemas de usuários de varejo e vender suas conexões.

Os provedores de infraestrutura de dados da web podem formular políticas e processos, executar auditorias externas e publicar sua abordagem e conclusões de auditoria para criar transparência sobre como adquirem suas conexões de internet. Isso pode fomentar a confiança no fornecimento ético de seu serviço.

Criamos uma estrutura para transparência do lado do fornecimento em dados da web e avaliamos os fornecedores usando essa estrutura. Aplicamos essa estrutura independentemente de um serviço de coleta de dados da web adquirir IPs residenciais por conta própria ou por meio de outros proxies. Nosso objetivo é trazer transparência para toda a cadeia de fornecimento de IPs, uma vez que práticas antiéticas podem se originar em qualquer ponto da cadeia de fornecimento.

Aqui você pode encontrar nossos resultados detalhados:

Bright Data

A Bright Data é classificada como Nível 5, pois publica

Sua abordagem de fornecimento e como os desenvolvedores de aplicativos podem trabalhar com eles por meio de seu SDK¹⁵ ¹⁶
Detalhes sobre 120 fornecedores foram compartilhados publicamente. Pudemos verificar as avaliações desses fornecedores em plataformas de 3rd parties para estimar sua popularidade. ¹⁷

Revisão de aplicativos selecionados

A Bright Data compartilha 120 aplicativos em seu site. Aplicativos como o Bright VPN são certificados por 3rd parties em sua divulgação e UX.¹⁸ Também baixamos esses aplicativos para vê-los com mais detalhes:

Bright VPN
EarnApp
Sling Kong

Formulário de aceitação com obrigação de não coletar dados de identificação pessoal: Formulário de consentimento com explicação clara do

Bright VPN:

Earn App:

Sling Kong:

O usuário recebe a oferta durante o jogo:

Aceitação:

Informações adicionais durante a aceitação:

Cancelamento:

Valor fornecido pelos aplicativos:

Bright VPN: Serviço de VPN gratuito
EarnApp: Pagamentos
Sling Kong: Moeda virtual do jogo

Outros

Embora a maioria dos provedores esteja ciente da ética no web scraping e tenha publicado sobre o tema (por exemplo, ¹⁹, não identificamos seus compromissos específicos nesta frente, exceto pela Zyte.²⁰

Esperamos que isso mude e que a maioria dos provedores alcance pelo menos o Nível 1 no curto prazo.

Certificação externa

Fornecedor	Certificação externa	Certificação de Segurança de Dados	Certificação de PII	Fonte de IP na Lista de Permissões	Práticas éticas avaliadas
Bright Data	Segurança de dados, processamento de PII. Fontes de IP na lista de permissões. Práticas éticas avaliadas.	✅	✅	✅	✅
Apify	Certificada para segurança de dados	✅	❌	❌	❌
Nimble	Certificada para segurança de dados	✅	❌	❌	❌
Zyte	Certificada para segurança de dados	✅	❌	❌	❌

* Indica que a empresa alcançou todas as certificações externas nesta categoria

É crucial que os fornecedores tenham os sistemas, pessoal e processos adequados para proteger os dados dos clientes e proteger os aplicativos que fornecem seus IPs. Veja nossa metodologia de medição de certificação externa para entender a lógica por trás de nossa pontuação.

Todos os fornecedores afirmam publicamente estar em conformidade com ambos os regulamentos de privacidade de dados. Portanto, isso não foi incluído na pontuação.

Como medimos as maturidades organizacionais

Com base nas capacidades que identificamos neste domínio, verificamos a existência desses certificados em cada provedor usando suas declarações públicas:

Certificação de segurança de dados e certificação de PII: ²¹²²²³²⁴
Fonte de IP na lista de permissões: ²⁵
Práticas éticas avaliadas: ²⁶

Alguns provedores que não possuem certificados ISO 27018 alegaram que deveriam ser considerados certificados, pois usam provedores de serviços em nuvem que possuem certificados ISO 27018. A opinião do nosso consultor de cibersegurança foi que, embora isso facilitasse a aquisição do certificado, eles ainda precisariam ter suas políticas e controles certificados para adquirir o certificado.

Cobertura de seguro

3 empresas de coleta de dados da web compartilharam seus certificados de seguro. Não publicamos os certificados, mas revisamos os documentos para garantir que

cobriam essas 2 categorias de seguro
O limite de seguro em cada categoria é de pelo menos vários milhões em US$.

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.

Adicionar como fonte preferencial

Avisos e recomendações para os próximos passos

Todos os provedores neste benchmark, exceto a Nimble, são clientes do AIMultiple. Como sempre, seguimos nossos compromissos éticos durante esta pesquisa.

Concluímos uma revisão exaustiva da coleta ética de dados da web e, embora estejamos satisfeitos com o escopo deste benchmark, adoraríamos aumentar sua participação. Agradecemos a estas empresas por compartilharem sua cobertura de seguro: Apify, Bright Data, Zyte.

Estamos aguardando respostas da Nimble. Atualizaremos o relatório assim que tivermos mais atualizações deles. 2 fornecedores optaram por não participar desta iteração do benchmark. Estamos sempre atualizando este relatório se alguma dessas 7 empresas sugerir mudanças baseadas em fatos, justas para todos os fornecedores e que ajudem as empresas a tomar melhores decisões.

A NetNut estava entre as empresas que avaliamos quando publicamos este relatório pela primeira vez em 2025. Eles tiveram a pontuação mais baixa possível (Nível 0) em nosso mergulho profundo de fornecimento ético, onde examinamos as fontes de IPs desses provedores. A NetNut foi fechada em 2026, pois o FBI identificou seus vínculos com botnets.²⁷ Esperamos que isso seja um incentivo para que todos os fornecedores sejam transparentes sobre seu fornecimento.

Este é o primeiro relatório a focar em dados da web éticos, de acordo com nossa pesquisa. Esperamos que essa transparência possa ajudar o setor de dados da web a encontrar soluções criativas para seus desafios. Essas soluções precisarão equilibrar os interesses dos coletores de dados da web, usuários de automação web, proprietários de sites e usuários residenciais que fornecem seus IPs para o setor.

Limitações da metodologia

Este benchmark mede indicadores observáveis de maturidade, incluindo controles de uso pelo cliente, transparência no fornecimento de IP, certificações externas e compartilhamento de seguros. No entanto, a pontuação não determina completamente se um provedor está em conformidade legal em cada caso de uso do cliente.

Portanto, uma pontuação alta no benchmark deve ser tratada como um insumo para a due diligence de aquisição, não como uma garantia de legalidade ou uso ético.

Referências

Cite esta pesquisa

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Cem Dilmegani (2026) - "Benchmark de Coleta Ética e em Conformidade de Dados da Web". Publicado on-line em AIMultiple.com. Acessado em 21 Junho 2026, em: https://aimultiple.com/web-scraping-ethics [Recurso on-line]

Dilmegani, C. (2026, 21 Junho). Benchmark de Coleta Ética e em Conformidade de Dados da Web. AIMultiple. https://aimultiple.com/web-scraping-ethics

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Benchmark de Coleta Ética e em Conformidade de Dados da Web}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/web-scraping-ethics}},
  note   = {AIMultiple. Acessado em 21 Junho 2026}
}

Links de referência

Workers Fainted at Nike Clothing Factory Despite a Vow to Reform — ProPublica

ProPublica

2023 MOVEit data breach - Wikipedia

Contributors to Wikimedia projects

https://www.courthousenews.com/wp-content/uploads/2024/01/starbucks-labor-rights-violations-suit.pdf

Verifying Device

The Times

Court Rules in Favor of Bright Data in Meta v. Bright Data Case - Bright Data

Bright Data

Popa: From Sourcing to Distribution | Synthient

Synthient

‘Popa’ Botnet Linked to Publicly-Traded Israeli Firm – Krebs on Security

https://media.defense.gov/2024/Sep/18/2003547016/-1/-1/0/CSA-PRC-LINKED-ACTORS-BOTNET.PDF

Internet Crime Complaint Center (IC3) | Home Internet Connected Devices Facilitate Criminal Activity

10.

A Look at the Residential Proxy Market | Intel 471

Website

11.

Satori Threat Intelligence Alert: PROXYLIB and LumiApps Transform Mobile Devices into Proxy Nodes - HUMAN Security

HUMAN Security

12.

Kimwolf Botnet Lurking in Corporate, Govt. Networks – Krebs on Security

https://edition.cnn.com/robots.txt

15.

Ethically Sourcing Residential Proxies | Bright Data

Bright Data

16.

homepage - Bright SDK

Bright SDK

17.

How Bright Data Obtains Its Residential IPs - Bright Data

Bright Data

18.

Bright VPN Compliance with guidelines - Google Sheets

19.

What is ethical scraping and how do you do it?

Apify Blog

20.

Web Scraping Data Compliance | Zyte

21.

https://brightdata.com/trustcenter/data-security-overview-protection-measures

22.

Security | Platform | Apify Documentation

23.

Nimble Trust Center | Security, Compliance & Reliability

24.

Trust Center | Zyte

25.

Bright SDK Compliance with Guidelines - Google Sheets

26.

pwc-report - Bright Data

Bright Data

27.

FBI Seizes NetNut Proxy Platform, Popa Botnet – Krebs on Security

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios. Os comentários são deixados em seu idioma original.

Avaliação dos serviços de coleta de dados da web

Verifique: Sua coleta de dados da web está em conformidade e é ética?

Qual é o custo da coleta de dados antiética e não conforme?

Lista de verificação de dados da web éticos

Benchmark detalhado: Avaliação de provedores de infraestrutura de dados da web

Avisos e recomendações para os próximos passos

Referências

Cite esta pesquisa

Seguimos normas éticas & nosso processo para objetividade. Os clientes da AIMultiple em Extração De Dados Da Web incluem Bright Data, Apify, Zyte.

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.

Adicionar como fonte preferencial

A seguir, leia

Configurações de proxy

Análise

17 Jul

Benchmark de Coleta Ética e em Conformidade de Dados da Web

Avaliação dos serviços de coleta de dados da web

Modelo de pontuação para dados da web éticos

Capacidades para uso ético pelos clientes

Capacidades para fornecimento ético

Certificação externa

Seguro

Pontuação de resumo

Principais serviços de coleta de dados da web

Produtos de coleta de dados da web em foco

Verifique: Sua coleta de dados da web está em conformidade e é ética?

Dados da web são um ativo operacional comum

Com a IA, os dados da web agora são mais importantes

Supervisão regulatória limitada

A postura ética de seus fornecedores faz parte da reputação de sua empresa

Qual é o custo da coleta de dados antiética e não conforme?

Risco reputacional

Risco legal

Lista de verificação de dados da web éticos

Uso ético pelos clientes

Fornecimento ético

Certificação externa

Segurança de dados

Intrusão no sistema

Perda de dados

Gestão de PII

Segurança de aplicações

Cobertura de seguro

Benchmark detalhado: Avaliação de provedores de infraestrutura de dados da web

Benchmark: Uso ético pelos clientes

Revisão da política de uso aceitável

Processos para uso ético

Como as marcas comunicam os domínios que bloqueiam

Respeito às preferências dos sites em relação à coleta automatizada de dados

Exemplo da CNN

Gestão de abusos

Transparência de uso

Nossa experiência com o Webmaster Console

Benchmark: Fornecimento ético

Transparência de parceiros

Bright Data

Outros

Certificação externa

Conformidade com GDPR e CCPA

Como medimos as maturidades organizacionais

Cobertura de seguro

Avisos e recomendações para os próximos passos

Limitações da metodologia

Referências

Cite esta pesquisa

Link com atribuiçãoHTML, para posts de blog, artigos do LinkedIn e newsletters. Recomendado.

APA 7ª ediçãoPara artigos acadêmicos e relatórios de analistas no estilo APA 7ª.

BibTeXPara documentos LaTeX e gerenciadores de referências acadêmicas.

Links de referência

Seja o primeiro a comentar

A seguir, leia

Como Configurar as Definições do Servidor Proxy no Android

Queda do NetNut: O que os compradores precisam saber

Melhores Proxies para Motores de Busca: Benchmark

Principais Servidores Proxy do Spotify e Configurações de Proxy

Melhores Proxies do Japão: Taxa de Sucesso e Tempo de Resposta

Melhores Conjuntos de Dados do YouTube: Bright Data, Oxylabs & Grepsr