Se você trabalha com web scraping , provavelmente já percebeu os benefícios que isso trouxe para o seu negócio. No entanto, a partir de 2026, o cenário jurídico mudou drasticamente.
Embora os casos históricos se concentrassem no acesso não autorizado, novos processos judiciais históricos envolvendo treinamento de IA e burla técnica estão redefinindo os limites do que é permitido.
Veja abaixo os processos judiciais mais recentes sobre web scraping (incluindo os casos Reddit v. Perplexity e NYT v. OpenAI) e o panorama jurídico atual por país.
Aviso : Nosso trabalho tem caráter meramente informativo e não constitui aconselhamento jurídico; consulte um advogado para obter orientações específicas.
A extração de dados da web é legal?
A extração de dados da web é legal se você coletar dados disponíveis publicamente na internet. No entanto, a legalidade da extração de dados da web depende de como, o que e por que você está extraindo esses dados.
Em 2026, as diretrizes da Comissão Europeia esclareceram as regras para a coleta de dados para treinamento de IA na Europa. Os desenvolvedores agora são obrigados a respeitar as opções de exclusão (opt-out) legíveis por máquina. 1
Publicar resumos de dados de treinamento aumenta o risco de processos judiciais relacionados à coleta não divulgada de dados. As empresas também precisam manter um Registro de Rastreabilidade que registre se cada URL coletada foi verificada quanto a problemas de direitos autorais e dados pessoais.
A extração de dados da web pode ser legal quando você:
- Priorize a extração de dados sem login: Extraia dados publicamente disponíveis de páginas da web acessíveis sem login, assinatura ou pagamento.
- Evite burlar as regras técnicas : Respeite os termos de serviço do site, o arquivo robots.txt e as leis de direitos autorais.
- Alinhe-se com as políticas de uso comercial: Certifique-se de que sua intenção de coleta de dados (por exemplo, indexação de pesquisa versus treinamento de modelo de IA) esteja alinhada com as políticas de uso comercial do site. Casos como Reddit v. Anthropic estão definindo novos limites para o "Uso Justo" quando os dados são explicitamente coletados para o desenvolvimento de IA.
- Respeite as leis globais de privacidade : Não colete dados pessoais ou sensíveis, como nomes ou informações de contato, de maneira que viole as leis de privacidade, incluindo o Regulamento Geral de Proteção de Dados (RGPD) e a Lei de Privacidade do Consumidor da Califórnia (CCPA).
Para mais informações sobre coleta ética de dados, confira nosso guia de referência para dados web éticos e em conformidade com as normas.
Atualizações legais mais recentes sobre web scraping
Embora a extração de dados da web possa ser legal, as empresas não desejam ser alvo dessa prática. Se essas plataformas puderem comprovar que a extração de dados por bots prejudica sua infraestrutura ou operações, essa atividade poderá ser considerada ilegal pelo tribunal.
Aqui, compilamos os processos judiciais mais significativos em que o tribunal decidiu a favor do site que teve o conteúdo copiado; esses casos, principalmente dos EUA.
Reddit vs. Perplexity IA e serviços de raspagem de dados
Tribunal: Tribunal Distrital dos EUA para o Distrito Sul de Nova York
Cronologia: outubro de 2025 – presente (caso ativo)
O Reddit processou o mecanismo de busca de IA Perplexity AI e três grandes provedores de raspagem/proxy ( SerpApi, Oxylabs, AWMProxy ) por coleta de dados em escala industrial e por burlar barreiras técnicas. 2
Conflito:
O Reddit alega que os réus se envolveram em um esquema semelhante a um assalto a banco para roubar conteúdo protegido por direitos autorais. Em vez de firmar contratos de licenciamento (como OpenAI e Google), Perplexity usou ferramentas especializadas de extração de dados para burlar as defesas do Reddit.
Argumentos jurídicos :
- Extração indireta via Google: Os réus contornaram os bloqueios do próprio Reddit extraindo conteúdo do Reddit diretamente dos resultados de pesquisa (SERPs) de Google .
- Violações da DMCA: Ao contrário de casos anteriores de "dados públicos" (como o da hiQ), o Reddit está invocando a Seção 1201 da Lei de Direitos Autorais do Milênio Digital (DMCA) . Eles argumentam que os réus não apenas "acessaram" os dados, mas também burlaram propositalmente as "medidas tecnológicas" (limites de taxa, captchas e SearchGuard).
- Recusa de licença: o Reddit destaca que, enquanto outros gigantes da IA pagam pelo acesso aos dados, o Perplexity aumentou seu volume de coleta de dados em 40 vezes após receber uma notificação extrajudicial, optando por "contornar a cooperação".
Situação atual:
Até o final de 2025, o caso estava em andamento e nenhuma decisão final havia sido emitida.
Reddit vs. Anthropic
Tribunal: Tribunal Superior da Califórnia em São Francisco
Cronograma: Final de 2025 – Presente (Litígio em andamento)
O Reddit processou a startup de IA Anthropic , acusando-a de usar ilegalmente dados de seus 100 milhões de usuários diários para treinar seus sistemas de IA. 3
Ao contrário de Google e OpenAI, que possuem contratos de licenciamento pagos com o Reddit, Anthropic supostamente se recusou a firmar um acordo. A equipe jurídica do Reddit argumenta que, sem um acordo formal, não há mecanismos de proteção para garantir a privacidade do usuário.
Situação atual:
Até o final de 2025 , não houve nenhuma decisão judicial definitiva. O caso encontra-se atualmente na fase de instrução pré-processual. O requerente Anthropic solicitou o arquivamento de partes do processo, alegando que os dados factuais não são protegidos por direitos autorais.
Caso LinkedIn vs. hiQ Labs
Tribunal: Tribunal Distrital dos EUA / Tribunal de Apelações do Nono Circuito
Cronograma: 2017–2022
O LinkedIn processou a hiQ Labs, uma empresa de análise de dados, por coletar informações de perfis públicos para realizar uma análise de habilidades profissionais. 4 Vários tribunais, incluindo o Supremo Tribunal, analisaram o caso:
- Inicialmente, o tribunal deu razão à hiQ, decidindo que a coleta de dados públicos não viola a Lei de Fraude e Abuso de Computadores (CFAA). 5
- Em 2022, o Nono Circuito reafirmou isso, declarando que acessar dados disponíveis publicamente sem autorização não constitui "acesso não autorizado" sob a CFAA.
O tribunal decidiu que as ações do LinkedIn para bloquear o hiQ foram legais. Apesar das considerações da CFAA (Lei de Fraude e Abuso de Computadores), violar os termos de serviço de um site pode resultar em consequências legais. As violações do contrato de usuário do LinkedIn por parte do hiQ desempenharam um papel significativo na sentença final.
Meta vs Bright Data
Tribunal: Tribunal Distrital dos EUA para o Distrito Norte da Califórnia
Cronograma: 2023–2024
Tipo de caso: Ação cível envolvendo quebra de contrato e extração não autorizada de dados.
Em janeiro de 2023, a empresa Meta iniciou um processo contra a empresa Bright Data, alegando que esta havia extraído dados ilegalmente das plataformas Facebook e Instagram da Meta. Curiosamente, a empresa Bright Data contestou as alegações da empresa Meta sobre seus direitos de extração de dados, levando ambas as partes ao tribunal.
O tribunal decidiu a favor de Bright Data, considerando que as provas eram insuficientes para demonstrar que Bright Data havia extraído dados não públicos ou acessado dados enquanto estava conectado a contas de usuário. Em fevereiro de 2024, Meta decidiu desistir das demais acusações contra Bright Data. 6
O Facebook/Instagram proíbe toda e qualquer coleta automatizada de dados?
Se você leu os termos de uso do Instagram , provavelmente viu a cláusula que afirma que "a extração de dados por meios automatizados é proibida".
No entanto, a realidade jurídica é mais complexa. No caso histórico Meta v. Bright Data (2024) , o tribunal decidiu que, se você estiver coletando dados públicos enquanto estiver desconectado , os termos de Meta não se aplicam necessariamente, porque você nunca assinou um contrato ao fazer login.
Muitos sites incluem um aviso nos termos do Facebook, alertando para a proibição da coleta automatizada de dados e da extração de dados da web. No entanto, como demonstrado em recentes atualizações legais sobre extração de dados da web, os tribunais estão cada vez mais distinguindo entre dados protegidos por login e dados disponíveis na internet aberta.
X Corp., anteriormente Twitter vs Bright Data
Tribunal: Tribunal Distrital dos EUA para o Distrito Norte da Califórnia
Cronograma: 2023 – em andamento
Tipo de caso: Acesso não autorizado a dados, de acordo com as leis de fraude informática e violações de propriedade intelectual.
Em julho de 2023, a X Corp. entrou com um processo contra Bright Data, alegando que Bright Data violou seus termos de serviço ao coletar e vender grandes quantidades de dados da plataforma X. 7 A ação judicial na Califórnia dizia respeito ao acesso de Bright Data a dados públicos no Twitter.
O caso foi arquivado, e o juiz decidiu que a X não conseguiu alegar de forma plausível que Bright Data havia violado seu contrato de usuário. O tribunal entendeu que os termos de serviço não poderiam impedir a extração de dados, uma vez que a X Corp não era proprietária do conteúdo e, portanto, não podia exercer seus direitos autorais.
A posse do conteúdo do usuário invalidaria a proteção de isenção de responsabilidade da X Corp, que permite que empresas de mídia social se distancie de violações de direitos autorais e outros crimes cometidos por seus usuários. Portanto, os tribunais decidiram novamente a favor da parte que coletou dados públicos de uma rede social.
Caso eBay vs. Bidder's Edge
Tribunal: Tribunal Distrital dos Estados Unidos para o Distrito Norte da Califórnia
Cronologia: 1999–2000
Tipo de processo: Ação civil por invasão de propriedade móvel, na qual o eBay acusou a Bidder's Edge de extrair dados ilegalmente de seu site usando bots automatizados de coleta de dados.
O Bidder's Edge (BE), um site de comparação de preços online, utilizou ferramentas de web scraping para agregar anúncios de leilões de diversas plataformas, incluindo o eBay, sem autorização. 8 O eBay alegou que os bots automatizados da BE causaram uso não autorizado de seus sistemas.
A ordem judicial impedia a Bidger's Edge de extrair conteúdo do eBay novamente. O principal argumento que sustentou a vitória do eBay foi que a Bidger's Edge estava sobrecarregando seu sistema e que outros que seguissem seus passos poderiam causar ainda mais danos ao sistema do eBay.
Caso Facebook vs. Power Ventures
Tribunal: Tribunal Distrital dos EUA para o Distrito Norte da Califórnia
Posteriormente, recorreu ao Tribunal de Apelações dos EUA para o Nono Circuito.
Cronologia: 2008–2017
Tipo de caso: Ação civil sob a Lei de Fraude e Abuso de Computadores (CFAA) e a lei anti-invasão da Califórnia, na qual o Facebook alega acesso não autorizado à sua plataforma.
Em 2009, o Facebook processou a Power Ventures por extrair conteúdo de sites carregados por seus usuários. Este conjunto de exemplos refere-se a um caso em que a extração de dados da web foi avaliada sob a perspectiva da propriedade intelectual. O tribunal decidiu a favor do Facebook e impôs uma multa à Power Ventures. 9
Regulamentações mais recentes sobre web scraping por país
Estados Unidos
Situação legal: A extração de dados disponíveis publicamente na internet é geralmente considerada legal.
Nos Estados Unidos, não existem leis federais contra a extração de dados da web, desde que os dados extraídos sejam de domínio público e a atividade não prejudique o site em questão. Há, no entanto, uma lei específica de 2016 que proíbe a compra excessiva de ingressos de uma só vez por meio de bots, visando impedir a formação de mercados negros. 10
União Europeia e Reino Unido
Situação jurídica: Na UE e no Reino Unido, a extração de conteúdo público, não pessoal e sem direitos autorais da web é geralmente legal, mas a extração de dados pessoais sem uma base legal é proibida pelo RGPD (Regulamento Geral sobre a Proteção de Dados).
A UE aprovou recentemente a Lei dos Serviços Digitais, que visa integrar todos os países da UE no Mercado Único Digital, partilhando as mesmas regulamentações. De acordo com os artigos 3.º e 4.º deste regulamento, a “reprodução de conteúdo publicamente disponível” não é ilegal. 11 12
Esta regulamentação aborda o tema sob a perspectiva da propriedade intelectual e, obviamente, consideraria qualquer extração de dados da web que envolva dados pessoais ilegal sob o GDPR. Fora isso, a situação é semelhante à dos EUA nos mercados da UE e no Reino Unido.
Dicas e cuidados a serem tomados na extração de dados da web de forma legal e ética.
Do ponto de vista legal, uma questão que as empresas devem se fazer é se suas práticas de extração de dados prejudicam o site de origem. Se a atividade de extração de dados:
- É demasiado intenso, o que pode interromper os serviços do site que está sendo acessado.
- Os dados extraídos são usados para duplicar a atividade ou o serviço desse site, mesmo que não existam regulamentações a respeito.
O site teria motivos para entrar com um processo contra o programa que extraiu os dados.
Do ponto de vista ético, considerando que a extração de dados da web já possui diversas aplicações e fornecedores profissionais no mercado, não há problema algum em utilizá-la para fins comerciais. Existem boas práticas técnicas de extração de dados da web que podem reduzir a carga de tráfego no site extraído, tais como:
- Utilizar as APIs do site em vez de web scraping, quando disponíveis.
- Integração de web scrapers com servidores proxy .
- Utilizando navegadores sem interface gráfica.
Desde que você encontre um serviço de web scraping confiável ou se certifique de que seus recursos técnicos levem isso em consideração, você pode defender a prática de web scraping como ética para os fins do seu negócio.
Dos:
- Extraia apenas os dados necessários , definindo o caso de uso exato e personalizando sua tecnologia de rastreamento da web de acordo. Isso minimizará o risco de sobrecarregar o site com tráfego indesejado.
- Leia sempre os termos de uso do site rastreado . Além dos termos de uso comerciais, os sites também possuem um arquivo robots.txt que especifica as permissões para o conteúdo do site. Sua solução de rastreamento da web ou especialistas técnicos devem ajudá-lo a cumprir essas permissões.
- Seja transparente sobre suas práticas de web scraping e esteja preparado para explicar o processo, garantindo aos outros que sua abordagem é legal e ética.
O que não fazer:
- Não sobrecarregue o site copiado com muita frequência e com muitas requisições. Isso também aumentará a probabilidade de o site copiado bloquear seu rastreador.
- Não colete informações de identificação pessoal ou, se o arquivo robots.txt permitir a coleta, certifique-se de mascarar os dados para minimizar a exposição durante o processamento.
- Não divulgue os dados coletados ao público. Certifique-se de armazená-los com segurança, assim como os dados da sua empresa. Nunca se sabe para que fins eles podem ser usados caso vazem.
Patrocinado
Ao firmar parceria com um provedor de serviços de web scraping, certifique-se de aproveitar sua expertise técnica e experiência jurídica. Por exemplo, a empresa Bright Data dedica um responsável pela conformidade aos seus clientes para garantir que eles não tenham dúvidas sobre os processos legais de web scraping ao longo do processo.
Organizações para a Extração Ética de Dados da Web
As principais empresas de infraestrutura de dados da web formaram associações para alinhar o setor e as partes interessadas em relação ao uso ético da extração de dados da web (web scraping). Essas associações são:
- Aliança para a Coleta Responsável de Dados, que inclui Bright Data e Common Crawl, entre outras partes interessadas.
- Iniciativa de Coleta Ética de Dados na Web (EWDCI) , que inclui Oxylabs, NetNut, ProxyEmpire, Zyte, entre outros.
E se os termos de serviço de um site proibirem a extração de dados?
Se os termos de serviço (TdS) de um site proibirem explicitamente a extração, o acesso ou a coleta de dados desse site por meios automatizados, fazê-lo pode constituir uma violação desses termos.
Por exemplo, nos Estados Unidos, o acesso não autorizado a um sistema de computador pode ser considerado um crime federal, de acordo com a Lei de Fraude e Abuso de Computadores (CFAA). Você pode entrar em contato com o proprietário do site para solicitar permissão ou usar APIs oficiais para acessar os dados.
Comentários 1
Compartilhe suas ideias
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.
Thank you for the great and well-written articles. Can you write an article explaining the limits and/ or usefulness of using a website’s APIs rather than web scraping, when available. Instagram & TikTok website APIs for example are limited to what type of data can be extracted. My understanding is that not everything can be scrapped using their websites API. Looking forward to your response. Thank you.