Contate-nos
Nenhum resultado encontrado.

Benchmark de dados web éticos e em conformidade

Cem Dilmegani
Cem Dilmegani
atualizado em Jan 27, 2026
Veja o nosso normas éticas

À medida que as empresas expandem suas operações de dados na web, os executivos de conformidade, dados e riscos avaliam cada vez mais os riscos éticos, de reputação e legais associados.

Avaliamos 5 dos principais serviços de coleta de dados da web em 3 dimensões e testamos cada serviço com mais de 20 cenários potencialmente antiéticos.

Nosso trabalho ajuda você a avaliar a postura ética de suas práticas de coleta de dados e a compreender as possíveis consequências de abordagens antiéticas . Também fornecemos diretrizes para a coleta ética de dados na web e avaliamos serviços de coleta de dados na web sob uma perspectiva ética e de conformidade.

Avaliação dos serviços de coleta de dados na web

Avaliamos os principais serviços de coleta de dados da web (também chamados de provedores de dados da web ou infraestrutura de dados da web) usando nossa lista de verificação ética de dados da web . Essas pontuações representam níveis de maturidade, sendo 5 o nível mais alto:

Fornecedores
Resumo
Uso ético por clientes
Ético fornecer
Certificação externa
Cobertura de seguro compartilhado**
Bright Data
Nível 5
Nível 5
Nível 5
Segurança de dados, processamento de informações pessoais identificáveis. Fontes de IP em lista de permissões. Práticas éticas avaliadas.
Apify
Nível 1
Nível 1
Nível 1
Segurança de dados
Zyte
Nível 1
Nível 1
Nível 1
Segurança de dados
NetNut
Nível 1
Nível 1
Nível 0
Segurança de dados
A definir
Nimble
Nível 1
Nível 1
Nível 0
Segurança de dados

* Estes são códigos para nomes de fornecedores. Esses fornecedores não quiseram ser mencionados neste relatório e estão listados no final da lista até que resolvamos esse problema.

** ✅ indica que a empresa optou por compartilhar seus certificados de seguro com a AIMultiple. ❌ indica que a empresa decidiu não compartilhar seus certificados de seguro conosco e, portanto, não pudemos validar sua cobertura de seguro. A cobertura de seguro é a única categoria em que contamos com a participação de empresas de serviços de dados da web para avaliá-las.

Ordenado por pontuação resumida.

Modelo de pontuação para dados éticos na web

A seguir, descrevemos como essas pontuações são obtidas. Você também pode ver a justificativa para a seleção dessas dimensões de pontuação .

Nas duas primeiras categorias, identificamos 5 competências, e as empresas receberam pontuações com base no número de competências que demonstraram. O nível 5 representa o maior grau de maturidade observado no mercado, refletindo as melhores práticas atuais, e não a perfeição.

Capacidades para uso ético por parte dos clientes

  • Processos eficazes para uso ético: Avaliamos a capacidade de cada provedor de prevenir o uso antiético de seus serviços de proxy residencial por meio de cenários de teste controlados. Se alguma de nossas solicitações for bloqueada pelo provedor, isso significa que a prevenção foi alcançada.
  • Processos aprimorados para uso ético: Semelhante a “processos eficazes para uso ético”. No entanto, essa capacidade indica que o provedor de serviços bloqueou mais de uma de nossas tentativas de usar seus serviços para casos de uso antiéticos.
  • Melhores práticas para uso ético: Semelhante a “processos eficazes para uso ético”. No entanto, essa funcionalidade indica que o provedor de serviços bloqueou a maioria das nossas tentativas de usar seus serviços para fins antiéticos.
  • Fundação de Gestão de Abusos : Publicação da política de gestão de abusos e um método para denunciar abusos.
  • Gestão eficaz de abusos : Avaliamos a resposta das empresas a múltiplas denúncias de abuso. Mesmo quando não havia um canal direto para denúncias, utilizamos os endereços de e-mail fornecidos pela empresa para contatar sua equipe. Se não recebêssemos nenhuma resposta à nossa denúncia em até uma semana, considerávamos a empresa como não responsiva.

Capacidades para fornecimento ético

O fornecimento ético envolve a aquisição de endereços IP de forma ética. Nossa análise de mercado identificou os seguintes níveis de transparência em relação ao fornecimento ético de IP:

  • Nível 1 : Política de atribuição de propriedade intelectual publicada.
  • Nível 2: Divulgou pelo menos uma fonte (por exemplo, um aplicativo móvel) de propriedade intelectual que a fornece de forma ética. A fonte divulgada deve ter, no total, pelo menos 10 mil avaliações em plataformas de terceiros, incluindo App Store, App Store da Apple, App Store da Amazon e Trustpilot.
  • Nível 3: Igual ao Nível 3, mas com 100 mil avaliações.
  • Nível 4: Igual ao Nível 3, mas com 1 milhão de avaliações.
  • Nível 5: Igual ao Nível 4, mas com 10 milhões de avaliações.

As avaliações são um indicador da popularidade dos aplicativos e um sinal importante para essa avaliação. Os serviços de coleta de dados da web precisam funcionar com aplicativos populares para atender às necessidades de propriedade intelectual de seus clientes.

Para serem elegíveis, os aplicativos divulgados devem seguir estas boas práticas. Não verificaremos isso para todos os aplicativos divulgados, mas sim para alguns selecionados aleatoriamente:

  • Consentimento informado:
    • Os usuários precisam optar por participar antes de compartilhar sua conexão de internet. A tela de adesão deve descrever:
      • O fornecedor
      • O serviço
      • Como a propriedade intelectual deles será usada
    • Os usuários devem ter acesso a informações detalhadas sobre
      • Como a conexão de internet deles será usada
      • Política de Privacidade
  • Valor: Os usuários devem receber algum valor do aplicativo (por exemplo, pagamento, possibilidade de pular anúncios ou alguma outra funcionalidade).
  • Privacidade: Coleta de dados do usuário limitada e transparente.

Certificação externa

Avaliamos a certificação externa com base no fato de as empresas terem obtido certificados relevantes para segurança e conformidade de nível empresarial.

  • Certificação PII: Capacidade comprovada de gerenciar informações pessoais identificáveis ​​(PII) por meio da obtenção da certificação ISO 27018.
  • Certificação de segurança de dados: Práticas comprovadas de segurança de dados por meio da obtenção de uma das seguintes certificações: SOC 2 ou ISO/IEC 27001.
  • Fonte de IP na lista de permissões: Provedores de certificação externos, como a McAfee, certificam:
    • Aplicativos específicos de terceiros que fornecem IPs
    • SDK que coleta IPs de aplicativos de terceiros
  • Práticas éticas avaliadas : Um projeto de garantia ISAE 3000 pode ser concluído para avaliar as práticas internas de conformidade e ética.

Seguro

Solicitamos aos fornecedores que nos fornecessem os seguintes documentos de seguro:

  • Certificado de seguro de responsabilidade civil profissional que ofereça cobertura para as responsabilidades dos fornecedores em caso de problemas na prestação do serviço.
  • Certificado de seguro cibernético que oferece cobertura para as responsabilidades dos fornecedores em caso de problemas relacionados à segurança da informação.

Pontuação resumida

Essa pontuação é a soma de todas as pontuações dividida por 3. As pontuações são:

  • De 0 a 5 para capacidades de uso ético por parte dos clientes.
  • De 0 a 5 para capacidades de fornecimento ético
  • 0 a 3 para certificação externa
  • 0 a 2 para seguros

Serviços líderes em coleta de dados na web

A AIMultiple selecionou os 7 maiores serviços de coleta de dados da web em termos de número de funcionários no LinkedIn. Escolhemos essa métrica por ser pública e por estar correlacionada com a receita e a capacidade de adaptação da empresa ao mercado corporativo. Métricas mais relevantes, como receita ou número de funcionários na folha de pagamento, não estão disponíveis publicamente para essas empresas privadas.

Todas as empresas selecionadas tinham mais de 100 funcionários conectados aos seus perfis do LinkedIn em abril de 2025. Atualmente, 5 das 7 empresas selecionadas estão exibidas nesta página, e as 2 restantes optaram por não serem incluídas no relatório.

Produtos de coleta de dados da Web em foco

Essas empresas oferecem uma gama de produtos, incluindo proxies, APIs de extração de dados e conjuntos de dados. Embora todos os produtos possam ser analisados ​​sob uma perspectiva ética, inicialmente nos concentramos no produto que oferece o maior nível de flexibilidade e que alimenta a maioria dos outros produtos: proxies residenciais.

Os produtos de coleta de dados da web podem ser considerados como uma hierarquia onde os proxies formam a camada central sobre a qual todos os outros serviços são construídos. Isso ocorre porque os proxies permitem que as máquinas acessem a internet por meio de diferentes destinos, possibilitando um conjunto diversificado e amplo de conexões de internet, cruciais para a coleta de dados. Portanto, os proxies são o produto de coleta de dados da web mais capaz, podendo ser usados ​​para executar funções que não seriam possíveis com conjuntos de dados ou APIs de extração de dados.

Dentre os proxies, os proxies residenciais são os mais difíceis de serem identificados como tal pelos sites. Por exemplo, outros proxies, como os de data center, são fáceis de identificar devido à sua localização. Portanto, os proxies residenciais são a base da maioria dos outros produtos de dados da web, como APIs de extração de dados.

Verifique: Sua coleta de dados na web está em conformidade com as normas éticas e em conformidade com os padrões?

Sua empresa provavelmente utiliza dados da web. No entanto, o setor enfrenta regulamentação limitada, o que torna essencial a escolha de um fornecedor ético e em conformidade com as normas. Para isso, elaboramos uma estrutura abrangente que considera diferentes aspectos da coleta de dados da web, incluindo a obtenção ética de dados, o uso ético de dados e a certificação externa.

Os dados da web são um ativo operacional comum.

Como empresa, seu negócio depende parcialmente de dados da web devido aos seus inúmeros casos de uso, como:

  • Precificação dinâmica para varejo e comércio eletrônico
  • Dados alternativos em tempo real para fundos de investimento
  • Processo KYC (Conheça Seu Cliente) em bancos comerciais
  • Treinamento ou ajuste fino do modelo de IA
  • Inferência de IA ou RAG
  • Pesquisa de mercado

Com a IA, os dados da web tornaram-se ainda mais importantes.

Embora a coleta de dados na web seja tão antiga quanto a própria web, sua importância aumentou drasticamente após o surgimento dos modelos generativos de IA. Os criadores desses modelos, como OpenAI e Anthropic, começaram sem parcerias significativas de conteúdo e usaram principalmente dados online para construir seus modelos iniciais, o que levou ao surgimento da indústria de IA, que movimenta trilhões de dólares.

Supervisão regulatória limitada

Embora a regulamentação da IA ​​esteja em foco, o setor de coleta de dados permanece amplamente desregulamentado na maioria dos países. Atividades ilegais online são claramente definidas. No entanto, existem poucos requisitos regulatórios para que os participantes do setor previnam proativamente o uso indevido de seus serviços pelos usuários.

Cabe às próprias plataformas definir as melhores práticas e os padrões de conformidade para garantir a coleta ética de dados e o uso de proxies. Portanto, a escolha do fornecedor é mais importante na coleta de dados em comparação com setores altamente regulamentados, como o bancário, onde todos os provedores de serviços são obrigados a cumprir inúmeras normas.

A postura ética dos seus fornecedores faz parte da reputação da sua empresa.

Independentemente de você coletar ou consumir os dados, você é responsável pelo processo de aquisição.

A responsabilidade das empresas por atividades ilícitas em sua cadeia de suprimentos varia de acordo com a jurisdição. Por exemplo, na Alemanha, as empresas são responsáveis ​​por realizar atividades de KYC (Conheça Seu Cliente) e gestão de riscos para identificar e prevenir danos causados ​​por sua cadeia de suprimentos. Mesmo quando as empresas não são responsabilizadas por danos causados ​​por sua cadeia de suprimentos, elas podem sofrer riscos à sua reputação.

Qual é o custo da coleta de dados antiética e em desacordo com as normas?

Risco reputacional

Se vier a público que uma empresa está utilizando um serviço de coleta de dados online que se envolve em comportamentos antiéticos ou ações que colocam em risco a segurança de seus dados, isso pode levar a danos significativos à reputação, como perda de negócios, perda de clientes, perda de talentos e perda da confiança dos investidores.

Exemplos reais de fornecedores empresariais que levaram à perda de reputação:

  • A Nike sofreu danos à sua reputação diversas vezes devido às práticas trabalhistas antiéticas de seus fornecedores. 1
  • Muitas empresas, como a EY, perderam a confiança de seus clientes quando foram afetadas pela violação de segurança do software de transferência gerenciada de arquivos MOVEit. 2

A perda de reputação, especialmente aquela que leva à indignação pública, é normalmente seguida por processos judiciais movidos por clientes da empresa ou outras partes interessadas que foram prejudicadas pelas práticas antiéticas.

Exemplo da vida real: a Starbucks é uma das marcas recentes a ser processada por comprar de empresas com práticas antiéticas. 3

Lista de verificação de dados éticos na web

Os dados web empresariais precisam atender a 3 requisitos para serem considerados éticos:

Uso ético por parte dos clientes

Como parte de seus processos de Conheça Seu Fornecedor (KYF), as empresas evitam usar serviços que facilitem atividades antiéticas. O uso desses serviços expõe as empresas a danos à sua reputação.

Exemplo prático: Em casos nos quais um fornecedor foi flagrado permitindo que sua plataforma fosse usada em atividades antiéticas, diversas empresas se distanciaram dele até que suas práticas fossem aprimoradas. 4

Como isso se relaciona com dados da web: Os dados da web são coletados por meio de diferentes endereços IP. Esses endereços podem ser usados ​​para diversas atividades ilegais, como ataques DDoS para impedir a entrega de serviços digitais, coleta não autorizada de dados não públicos ou fraude publicitária. Os criminosos precisam de IPs para executar suas ações, e os provedores de infraestrutura/proxy de dados da web são os maiores fornecedores de IPs para usuários comuns.

Fornecimento ético

Serviços utilizados para fins éticos podem causar ações antiéticas e prejudiciais durante sua produção. Por exemplo, marcas como Nike e Nestlé sofreram danos à reputação e enfrentaram processos judiciais devido ao uso de trabalho infantil por parte de seus contratados.

Como isso se relaciona com dados da web:

As empresas precisam acessar um grande número de fontes de largura de banda diversificadas para coleta de dados rápida e global. Isso requer o uso de proxies residenciais: embora a coleta de dados públicos seja legal em muitas circunstâncias, 5 sites também podem optar por bloquear alguns de seus visitantes. Por exemplo, podem bloquear os rastreadores de seus concorrentes. Nesses casos, as empresas precisam contar com um grande número de conexões de usuários comuns ou de terceiros para coletar dados da web.

Os provedores de proxy coletam milhões de conexões de internet de diversas fontes e as fornecem a empresas que utilizam endereços IP para acessar essas conexões. Alguns desses IPs se originam de dispositivos de usuários residenciais. A coleta dessas conexões pode ser legal ou ilegal.

  • Aspectos legais: As práticas em conformidade com a lei envolvem a obtenção do consentimento informado do usuário, o fornecimento de compensação e a oferta de mecanismos de exclusão, de acordo com as regulamentações locais. O provedor de dados da web deve
    • Informe os usuários sobre como sua largura de banda será utilizada.
    • Obtenha o consentimento deles digitalmente
    • Recompense-os em troca.
    • Permita que eles cancelem a inscrição a qualquer momento.
  • Ilegal: Criminosos podem obter acesso aos dispositivos dos usuários e usar sua conexão de internet sem permissão ou compensação. Isso pode acontecer por meio de aplicativos maliciosos, dispositivos comprometidos, instalações disfarçadas, adesão automática e outros métodos que podem colocar o proprietário do dispositivo em risco.

Empresas que utilizam proxies obtidos ilegalmente podem, inadvertidamente, pagar a criminosos por acesso não autorizado a dispositivos.

Exemplos da vida real:

  • Roteadores e dispositivos IoT foram comprometidos para operações de botnets e vendidos como proxies residenciais. 6 7
  • Alguns provedores de proxy promovem seus serviços em fóruns frequentados por pessoas mal-intencionadas. É provável que esses endereços IP tenham sido obtidos ilegalmente. 8
  • Aplicativos de VPN na Play Store também foram usados ​​para obter IPs residenciais sem o consentimento do usuário. 9

Embora essas operações tenham sido encerradas, é provável que agentes mal-intencionados ainda estejam acessando endereços IP residenciais sem consentimento por meio de botnets e aplicativos comprometidos ou maliciosos.

Certificação externa

Compradores corporativos precisam de soluções seguras e prontas para o ambiente empresarial. Identificamos os ingredientes para uma organização de dados web madura, que podem ser documentados por meio de certificação externa:

Segurança de dados

A falta de segurança de dados nos sistemas dos fornecedores pode corroer a vantagem competitiva de uma empresa ou levar à perda de dados e à indisponibilidade do sistema. A perda de funcionalidade do sistema pode minar a confiança e levar à desvalorização da empresa.

Intrusão no sistema

Os serviços de coleta de dados não são tão profundamente integrados aos sistemas de uma empresa quanto os serviços digitais essenciais (por exemplo, um sistema de registro como o CRM). Portanto, suas credenciais de segurança não são revisadas com o mesmo rigor que as credenciais de um sistema essencial como um sistema de registro. No entanto, a segurança de dados é fundamental para os clientes de serviços de coleta de dados, visto que esses serviços:

  • Às vezes, são integrados a sistemas mais centrais, como mecanismos de precificação.
  • Podem infectar sistemas empresariais mesmo quando não estão integrados a esses sistemas. O uso de um serviço de coleta de dados envolve o recebimento de dados desse serviço. Mesmo algumas das formas mais seguras de transferência de dados apresentam riscos.

A intrusão no sistema também pode levar os atacantes a visar os dispositivos que fornecem IPs residenciais para serviços de proxy. Isso pode resultar em danos à reputação dos clientes desses serviços de proxy.

Exemplo real de vulnerabilidade em um provedor de proxy residencial :

Os operadores da botnet Kimwolf compraram serviços de proxy do provedor de proxy residencial IPIDEA. Usando comandos maliciosos, eles infectaram as redes internas dos dispositivos que forneciam IPs para a IPIDEA. Essas redes foram então escaneadas e outros dispositivos vulneráveis ​​nessas redes locais também foram infectados.

Estima-se que Kimwolf tenha se espalhado para mais de 2 milhões de dispositivos com esse método. Os dados coletados pelos clientes da IPIDEA também trafegaram por essas redes infectadas. 10

Perda de dados

Sem segurança de dados, agentes mal-intencionados podem obter acesso aos dados coletados pelas empresas para identificar suas atividades e estratégias, levando à perda de vantagem competitiva ou oportunidades de negócios.

Exemplo da vida real:

Embora os dados da web sejam públicos, as empresas podem utilizá-los de maneiras inovadoras para obter vantagem competitiva. Por exemplo, os investidores chegam a gastar até 10% do seu orçamento para dados de mercado em dados alternativos. 11 , mas raramente divulgam suas estratégias, pois acreditam que isso pode lhes dar vantagem sobre os concorrentes. Um vazamento de dados pode levar à exposição de suas estratégias e, consequentemente, à sua replicação pelos concorrentes.

Gestão de informações pessoais identificáveis

Os dados da web incluem dados privados protegidos por login ou informações pessoais identificáveis ​​(PII) que podem ser divulgadas acidentalmente ou propositalmente em sites públicos. Se os serviços de coleta de dados da web não gerenciarem as PII corretamente, esses dados podem ser obtidos por pessoas mal-intencionadas. Isso pode causar danos à reputação do serviço de coleta de dados da web e de seus clientes.

Segurança do aplicativo

Aplicações ou programas intermediários, como SDKs, que utilizam os IPs dos serviços de coleta de dados da web podem ser incluídos em listas de permissão por provedores de certificação externos, como a McAfee. Isso aumenta a confiança da empresa nas práticas éticas de fornecimento do serviço de coleta de dados da web.

Cobertura de seguro

As empresas geralmente exigem esses seguros de quaisquer fornecedores digitais:

  • Seguro de responsabilidade profissional
  • certificado de seguro cibernético

Análise comparativa detalhada: Avaliação de fornecedores de infraestrutura de dados web

Critério de avaliação: Uso ético por parte dos clientes

Nosso objetivo aqui é responder à seguinte pergunta: a empresa garante que o uso de sua solução seja ético e esteja em conformidade com as leis e regulamentações aplicáveis? Resumo de nossas conclusões:

* Não aplicável: Como Zyte e Apify compram proxies de seus fornecedores e não os coletam diretamente de usuários residenciais, eles não seriam contatados por proprietários de sites em relação a abusos e, portanto, não precisam criar um formulário de contato para sites.

Primeiro, analisamos as políticas:

Revisão da política de uso aceitável

Todos os fornecedores proíbem atividades ilegais e fornecem exemplos como ataques de negação de serviço (DoS), envio de mensagens em massa não solicitadas, falsificação de identidade ou spoofing.

Além disso, alguns fornecedores também destacam que proíbem atividades que provavelmente são ilegais. Abaixo, listamos as atividades proibidas com base nas políticas de uso aceitável e seus adendos (por exemplo, adendo de processamento de dados) de cada fornecedor.

Buscamos termos que proibissem atividades provavelmente ilegais e identificáveis ​​com base na atividade do usuário. Por exemplo, uma parcela significativa de usuários que utilizam proxies para participar de pesquisas remuneradas pode estar usando esses proxies para enganar os provedores de pesquisa sobre sua localização real. Portanto, essa atividade provavelmente é ilegal e pode ser identificada com base na atividade do usuário (ou seja, quando um usuário acessa um site de pesquisa remunerada).

Embora identificar claramente as atividades proibidas seja benéfico, não é um requisito e não afeta nossa pontuação. As empresas podem optar por mencionar que não permitem atividades ilegais, em vez de listar todas as possíveis atividades ilegais.

Mencionar uma atividade como proibida não significa que ela será revisada ou bloqueada. Nossas pontuações dependem de como essas políticas são implementadas, conforme descrito abaixo:

Processos para uso ético

Embora algumas categorias descritas nas políticas de uso aceitável sejam bastante amplas (por exemplo, extração ou acesso não autorizado a dados), outras são específicas o suficiente para serem convertidas em ações preventivas (por exemplo, bloqueio de acesso) que os serviços de coleta de dados podem implementar para usuários que não concluíram o processo de KYC (Conheça Seu Cliente).

Com base nesses usos proibidos específicos, elaboramos uma extensa lista de usos que provavelmente constituem usos ilegais de proxies. Para cada caso de uso, identificamos cenários incluindo domínios da web e ações relevantes. Por exemplo, no cenário de engajamento artificial em mídias sociais, tentamos acessar uma rede social usando um proxy para curtir uma publicação existente.

Em seguida, para testar se as empresas permitem o uso antiético por parte dos clientes, criamos uma conta em cada serviço de um provedor usando um endereço de e-mail que não pertencia à AIMultiple. Não concluímos o processo KYC com essa conta e prosseguimos usando os serviços para entender o que usuários anônimos podem realizar com cada serviço. O KYC é uma etapa crucial na qual o usuário envia dados para validar a entidade legal que representa. Isso vincula a atividade do usuário a uma entidade legal.

  • Isso pode ser responsabilizado.
  • A justificativa para ações online (como o uso de proxies para acessar sites governamentais) pode ser examinada. Por exemplo, após compreender o caso de uso, um pesquisador ou órgão governamental pode ser autorizado a acessar um site governamental utilizando um proxy.

Esperávamos que esses casos de uso acionassem um processo KYC, mas na maioria dos fornecedores isso não aconteceu. Uma marca de seleção indica que a solicitação foi bloqueada para usuários que ainda não concluíram o processo KYC.

Para maior clareza, as empresas de serviços de coleta de dados não têm obrigação legal de bloquear esses sites, e alguns desses cenários podem fazer parte do uso legal. Por exemplo, um pesquisador pode querer usar proxies para realizar um experimento controlado em mídias sociais. No entanto, dado o potencial de abuso nesses cenários, esperávamos que os serviços de coleta de dados os bloqueassem para usuários que não concluíram o processo KYC (Conheça Seu Cliente).

Como as marcas comunicam os domínios que bloqueiam.
  • Bright Data lista categorias de domínio restritas em sua política de uso aceitável.
Respeitar as preferências dos sites em relação à coleta automatizada de dados.

O que é o arquivo robots.txt?

robots.txt é um arquivo utilizado para implementar o Protocolo de Exclusão de Robôs (Robots Exclusion Protocol). Esse protocolo é usado por sites para indicar as partes do site que o proprietário prefere que os robôs não acessem. A adesão ao robots.txt é voluntária.

Prós e contras de seguir o robots.txt

➕ Respeita as preferências do site.

➖ Pode não ter sido atualizado recentemente e, portanto, estar desatualizado.

➖ Normalmente envolve termos que indicam que o proprietário do site prefere que certas seções públicas do site não sejam acessadas por bots.

O arquivo robots.txt também pode proporcionar acesso desigual aos bots. Por exemplo, os proprietários de sites podem indicar que não preferem que os bots de mecanismos de busca acessem determinados URLs que os bots de mecanismos de pesquisa acessam.

O arquivo robots.txt não é um documento legal e pode solicitar o bloqueio do acesso de bots a páginas que são legalmente permitidas:

  • permitido ser extraído (por exemplo, dados públicos) ou
  • Não é permitido extrair dados (por exemplo, dados protegidos por login, onde os termos de uso do proprietário do site proíbem a extração desses dados).

Os provedores de serviços de coleta de dados da Web podem solicitar que os usuários de proxy residencial concluam um processo KYC e comprovem que possuem uma justificativa legal e ética para o uso do serviço antes que possam ignorar o arquivo robots.txt.

Para fins de teste, enviamos solicitações para páginas em subpastas que devem ser bloqueadas pelo arquivo robots.txt. Os domínios utilizados foram aimultiple.com e 5 domínios entre os 100 mais visitados. Apenas o domínio Bright Data bloqueou essas solicitações.

Exemplo de CNN

O arquivo robots.txt da CNN bloqueia a pasta /terms. 12 Para testes, navegamos até essa pasta com proxies residenciais e recebemos 200 mensagens com os dados da página de todos os provedores, exceto Bright Data. A resposta de Bright Data é: “ Residencial falhou (bad_endpoint): O site solicitado não está disponível para acesso residencial imediato (sem KYC) de acordo com o robots.txt. Para obter acesso residencial completo para direcionar este site, preencha o formulário KYC: https://brightdata.com/cp/kyc .

gestão de abusos

Elaboramos uma metodologia para avaliar as práticas de gestão de abusos dos fornecedores e coletamos dados para atender aos nossos critérios de avaliação:

* Não aplicável: Zyte compra proxies de outros provedores de proxy e, portanto, quando o serviço de Zyte é usado indevidamente, os proprietários de sites entrariam em contato com seus provedores de proxy em vez de com Zyte.

Embora todos os fornecedores disponibilizem meios para que terceiros ou seus clientes entrem em contato com eles, ter esses canais é importante para a resolução de problemas:

  • Política de abuso público
  • Um endereço de e-mail específico para denunciar abusos.
  • Um método de contato alternativo (por exemplo, formulário online ou interface de mensagens) que permita aos jornalistas entrar em contato com a empresa. Isso é útil, pois os e-mails podem ser filtrados e não chegar à caixa de entrada.
  • Capacidade de resposta às mensagens

Três provedores no benchmark (Bright Data) forneceram um e-mail para denúncia de abusos. Todos esses provedores também descreveram suas políticas nesse domínio.

Esperamos que todos os outros fornecedores façam o mesmo e que isso se torne uma prática generalizada no setor em curto prazo.

Por fim, avaliamos a capacidade de resposta do gerenciamento de abusos enviando denúncias de abuso por e-mail a partir de domínios de terceiros (ou seja, não pertencentes à AIMultiple) e medindo os tempos de resposta. Caso não encontrássemos um endereço de e-mail específico para denúncias de abuso, enviávamos a denúncia pelo formulário de contato geral. Testamos isso com três lotes de e-mails enviados em:

  • Sexta-feira, 2 de maio de 2025, de:
    • Um serviço de venda de ingressos com aproximadamente 30 mil visitantes mensais.
    • Um escritório de advocacia com aproximadamente 1.000 visitas mensais em
  • 17 de maio de 2025, a partir do serviço de venda de ingressos.
  • 24 de maio de 2025, de uma agência de mídias sociais com tráfego online limitado.

Os primeiros e-mails enviados em 2 de maio de 2025 foram direcionados a empresas que forneceram endereços de e-mail dedicados. Posteriormente, expandimos nossa lista e incluímos endereços de e-mail mais genéricos, presentes nas seções de contato de todos os serviços de coleta de dados web avaliados. Se uma empresa respondesse aos nossos e-mails, interrompíamos o envio de novas mensagens para ela.

Em nossos e-mails, mencionamos que nossos sites estavam recebendo tráfego suspeito de bots via proxies e solicitamos o apoio das equipes de compliance para identificar a origem desses proxies. Conseguimos que todas as equipes de compliance, exceto uma, respondessem. Quase todas as respostas foram recebidas no mesmo dia.

Transparência de uso

Historicamente, os proprietários de sites que fornecem dados e serviços de coleta de dados da web não trocavam informações sobre suas atividades de coleta. Para limitar as atividades de rastreamento, os proprietários de sites poderiam:

  • Contate os serviços de coleta de dados da web para denunciar abusos.
  • Trabalhe com provedores de gerenciamento de bots como Cloudflare para tornar a indexação mais desafiadora.

Agora, existem iniciativas para uma troca de dados mais estruturada entre essas partes. O Console do Webmaster (ou Console do Webmaster) foi lançado para que os webmasters monitorem as atividades de rastreamento em seus sites. É provável que mais transparência melhore as práticas de coleta de dados na web.

Nossa experiência com o console do webmaster

Nos cadastramos verificando a propriedade do nosso domínio e adicionando um arquivo collectors.txt ao domínio.

Agora temos acesso à atividade do bot Bright Data em nosso site:

Critério de avaliação: Fornecimento ético

* Foram incluídas avaliações em plataformas de terceiros: Amazon Appstore, App Store, Play Store e Trustpilot. Para maior conveniência, este valor foi calculado para 5 aplicativos principais da empresa, e não para todos os 120 aplicativos apresentados em seu site.

Transparência dos parceiros

A largura de banda exigida pelas empresas de infraestrutura de dados da web pode ser fornecida de forma ética, oferecendo benefícios (como pagamentos ou recursos que permitem pular anúncios) em troca do consentimento para o compartilhamento da conexão de internet. No entanto, também é possível obter acesso não autorizado aos sistemas de usuários comuns e vender suas conexões.

Os provedores de infraestrutura de dados web podem formular políticas e processos, realizar auditorias externas e publicar sua abordagem e resultados de auditoria para criar transparência sobre como adquirem suas conexões de internet. Isso pode fomentar a confiança no fornecimento ético de seus serviços.

Criamos uma estrutura para a transparência do lado da oferta em dados da web e classificamos os fornecedores usando essa estrutura. Aplicamos essa estrutura independentemente de um serviço de coleta de dados da web ter adquirido IPs residenciais diretamente ou por meio de outros intermediários. Nosso objetivo é trazer transparência a toda a cadeia de suprimentos de IPs, visto que práticas antiéticas podem ter origem em qualquer ponto dessa cadeia.

Aqui você encontra nossos resultados detalhados:

Bright Data

Bright Data é classificado como Nível 5, pois publica

  • A abordagem de fornecimento deles e como os desenvolvedores de aplicativos podem trabalhar com eles por meio do SDK. 13 14
  • Os detalhes de 120 fornecedores foram compartilhados publicamente. Pudemos verificar as avaliações desses fornecedores em plataformas de terceiros para estimar sua popularidade. 15

Análise de aplicativos selecionados

Bright Data compartilha 120 aplicativos em seu site. Aplicativos como o Bright VPN são certificados por terceiros em relação à transparência e à experiência do usuário. 16 Também baixamos esses aplicativos para analisá-los com mais detalhes:

  • Bright VPN
  • Aplicativo EarnApp
  • Estilingue Kong

Formulário de adesão com obrigação de não coletar dados pessoais identificáveis: Formulário de consentimento com explicação clara da Bright VPN:

Aplicativo para ganhar dinheiro:

Sling Kong:

  • O usuário visualiza a oferta durante o jogo:
  • Optar por participar:
  • Informações adicionais durante a adesão:
  • Excluir:

Valor proporcionado pelos aplicativos:

  • Bright VPN: Serviço VPN gratuito
  • EarnApp: Pagamentos
  • Sling Kong: Moeda virtual do jogo
Outros

Embora a maioria dos fornecedores esteja ciente das questões éticas envolvidas na extração de dados da web e tenha publicado sobre o assunto (por exemplo, 17 , não identificamos seus compromissos específicos nesta frente, exceto por Zyte. 18

Esperamos que isso mude e que a maioria dos provedores passe para pelo menos o Nível 1 em curto prazo.

Certificação externa

* Indica que a empresa obteve todas as certificações externas nesta categoria.

É crucial que os fornecedores tenham os sistemas, o pessoal e os processos adequados para proteger os dados dos clientes e garantir a segurança dos aplicativos que fornecem sua propriedade intelectual. Consulte nossa metodologia de certificação externa para entender a lógica por trás da nossa pontuação.

Conformidade com o RGPD e a CCPA

Todos os fornecedores afirmam publicamente estar em conformidade com ambas as regulamentações de privacidade de dados. Portanto, esse aspecto não foi incluído na pontuação.

Como medimos a maturidade organizacional

Com base nas funcionalidades que identificamos neste domínio , verificamos a existência desses certificados em cada provedor, utilizando suas declarações públicas:

  • Certificação de segurança de dados e certificação de informações pessoais identificáveis ​​(PII): 19 20 21 22 23
  • Fonte IP adicionada à lista de permissões: 24
  • Práticas éticas avaliadas: 25

Alguns provedores que não possuem certificação ISO 27018 alegaram que deveriam ser considerados certificados por utilizarem provedores de serviços em nuvem que possuem essa certificação. A opinião do nosso consultor de cibersegurança foi de que, embora isso facilitasse a obtenção da certificação, eles ainda precisariam ter suas políticas e controles certificados para, então, obtê-la.

Cobertura de seguro

Três empresas de coleta de dados da web compartilharam seus certificados de seguro. Não publicamos certificados, mas revisamos os documentos para garantir que...

  • Eles abrangiam essas duas categorias de seguro.
  • O limite do seguro em cada categoria é, no mínimo, da ordem de milhões de dólares americanos.

Avisos legais e recomendações para os próximos passos

Todos os fornecedores neste benchmark, exceto Nimble, são clientes da AIMultiple. Como sempre, seguimos nossos compromissos éticos durante esta pesquisa.

Concluímos uma revisão exaustiva da coleta ética de dados na web e, embora estejamos satisfeitos com o escopo deste parâmetro, gostaríamos de aumentar a participação. Agradecemos a estas empresas por compartilharem sua cobertura de seguro: Apify, Bright Data, Zyte.

Estamos aguardando respostas da NetNut, Nimble. Atualizaremos o relatório assim que tivermos mais informações deles. Dois fornecedores optaram por não participar desta edição do benchmark. Continuamos atualizando este relatório caso alguma dessas 7 empresas sugira alterações baseadas em fatos, justas para todos os fornecedores e que ajudem as empresas a tomar decisões mais acertadas.

Este é o primeiro relatório a abordar a ética dos dados na web, de acordo com nossa pesquisa. Esperamos que essa transparência possa ajudar o setor de dados da web a encontrar soluções criativas para seus desafios. Essas soluções precisarão equilibrar os interesses dos coletores de dados da web, dos usuários de automação da web, dos proprietários de sites e dos usuários residenciais que fornecem seus endereços IP para o setor.

Referências

Links de referência

1.
Workers Fainted at Nike Clothing Factory Despite a Vow to Reform — ProPublica
ProPublica
2.
2023 MOVEit data breach - Wikipedia
Contributors to Wikimedia projects
3.
https://www.courthousenews.com/wp-content/uploads/2024/01/starbucks-labor-rights-violations-suit.pdf
4.
Google faces questions over videos on YouTube
The Times
5.
Court Rules in Favor of Bright Data in Meta v. Bright Data Case - Bright Data
Bright Data
6.
https://media.defense.gov/2024/Sep/18/2003547016/-1/-1/0/CSA-PRC-LINKED-ACTORS-BOTNET.PDF
7.
Internet Crime Complaint Center (IC3) | Home Internet Connected Devices Facilitate Criminal Activity
8.
A Look at the Residential Proxy Market | Intel 471
Website
9.
Satori Threat Intelligence Alert: PROXYLIB and LumiApps Transform Mobile Devices into Proxy Nodes - HUMAN Security
HUMAN Security
10.
Kimwolf Botnet Lurking in Corporate, Govt. Networks – Krebs on Security
11.
Subscribe to read
Financial Times
12.
https://edition.cnn.com/robots.txt
13.
Ethically Sourcing Residential Proxies | Bright Data
Bright Data
14.
homepage - Bright SDK
Bright SDK
15.
How Bright Data Obtains Its Residential IPs - Bright Data
Bright Data
16.
Bright VPN Compliance with guidelines - Google Sheets
17.
What is ethical scraping and how do you do it?
Apify Blog
18.
Web Scraping Data Compliance | Zyte
19.
Page not found - Bright Data
Bright Data
20.
Security | Platform | Apify Documentation
21.
https://netnut.com/wp-content/uploads/2024/01/NetNut-ISO.pdf
22.
Nimble Trust Center | Security, Compliance & Reliability
23.
Trust Center | Zyte
24.
Bright SDK Compliance with Guidelines - Google Sheets
25.
pwc-report - Bright Data
Bright Data
Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450