Realizamos um teste comparativo para avaliar o desempenho dos principais provedores de scraper LLM, como Bright Data, Oxylabs e Apify, com modelos como ChatGPT, Gemini, Perplexity e Google AI Mode.
Para garantir resultados confiáveis, realizamos 1.000 testes por provedor, com cada pergunta repetida 10 vezes para assegurar a consistência. O provedor com melhor desempenho está detalhado abaixo.
Suporte a múltiplos modelos em todos os fornecedores de scrapers LLM
Resultados de benchmark de web scraping do LLM
- Bright Data emergiu como o líder de mercado incontestável, ocupando consistentemente o quadrante " Mais Atrativo " em todos os modos testados. Ofereceu os metadados mais completos (até 25 campos) e foi o único provedor a manter um desempenho de alta confiabilidade usando o Gemini.
- Os provedores Oxylabs e Apify demonstraram pontos fortes específicos, mas careceram de consistência universal. Ao mesmo tempo, o provedor Apify apresentou alto desempenho no modo ChatGPT, mas teve dificuldades com a profundidade dos metadados, e ambos os provedores ficaram abaixo do limite de 90% de sucesso em ambientes específicos de IA focados em busca.
Os provedores ausentes em gráficos específicos (por exemplo, Oxylabs no modo ChatGPT ou Apify no modo IA Google) foram omitidos porque suas taxas de sucesso não atingiram o limite mínimo de confiabilidade de 90% exigido para este parâmetro de referência.
6 melhores fornecedores de web scraping para mestrado em direito
O modelo Bright Data demonstrou o desempenho mais robusto entre todos os modelos testados, mantendo consistentemente uma taxa de sucesso próxima a 100%. Ele superou significativamente os concorrentes em termos de riqueza de metadados, capturando até 25 campos no modo ChatGPT.
Notavelmente, Bright Data foi o único provedor a atingir com sucesso o limite de 90% de sucesso para o modelo Gemini , estabelecendo-se como a opção mais versátil para raspagem baseada em prompts de múltiplos LLMs.
Bright Data oferece uma variedade de modelos pré-construídos para plataformas de IA.
- Raspador de texto do ChatGPT: Envia solicitações para a interface do ChatGPT e coleta respostas .
- Pesquisa Perplexity (por solicitação): Reúne citações e listas de fontes de Perplexity, um mecanismo de busca com inteligência artificial.
- Google Gemini e Claude (coletados por URL) : O Scraping Browser de Bright Data automatiza o acesso a essas plataformas, que possuem fortes proteções anti-bot.
- Conjuntos de dados de treinamento de IA: Bright Data fornece conjuntos de dados prontos de conteúdo gerado por IA, permitindo que as empresas ajustem seus modelos sem precisar coletar dados.
O modelo Oxylabs demonstrou alta confiabilidade nos modos de IA Google e Perplexity , alcançando taxas de sucesso acima de 94% em uma ampla gama de campos de metadados disponíveis. No entanto, foi excluído da análise do modo ChatGPT , pois seu desempenho ficou abaixo do limite mínimo de sucesso de 90%. Seu ponto forte reside na extração de dados estruturados por meio de modelos de IA centrados em busca.
Oxylabs oferece ferramentas de extração de dados da web para Perplexity, ChatGPT e Google Modo de IA (SGE) . A ferramenta de extração de dados do ChatGPT permite enviar solicitações ao ChatGPT, coletar automaticamente respostas e metadados estruturados e selecionar o país de origem para cada solicitação. A renderização em JavaScript está sempre habilitada para o ChatGPT.
O Scraper do ChatGPT suporta prompts de até 4.000 caracteres. Para entradas mais longas, divida seu texto em seções menores e envie-as como solicitações separadas. O Scraper Perplexity usa renderização JavaScript para todas as solicitações por padrão. Solicitações em lote não são suportadas nem para o Perplexity nem para o ChatGPT.
Decodo oferece ferramentas de extração de dados para ChatGPT, Perplexity e o Modo IA de Google, com ênfase particular na extração de respostas de busca geradas por IA de Google. A ferramenta de extração de dados do ChatGPT inclui uma opção "Busca na Web" que permite aos usuários coletar dados de navegação em tempo real diretamente na interface.
A API suporta múltiplos formatos de resposta em uma única solicitação, incluindo HTML bruto, JSON analisado, Markdown, XHR e capturas de tela em PNG, proporcionando aos desenvolvedores maior flexibilidade.
A Decodo oferece preços competitivos, com o plano “23K req” disponível por US$ 29 por mês, o que equivale a aproximadamente US$ 1,25 por 1.000 requisições. Além do preço acessível em comparação com provedores maiores, o serviço inclui recursos como renderização em JavaScript e segmentação por geolocalização.
SerpApi oferece uma API de Modo de IA Google que permite aos usuários extrair resultados da página do Modo de IA Google e suporta consultas contextuais subsequentes. Ao usar o token subsequent_request_token em cada resposta, os usuários podem iniciar novas solicitações e comparar o conteúdo e o layout da IA em computadores, tablets e dispositivos móveis.
O provedor oferece um plano gratuito para testar seu scraper, incluindo 250 buscas por mês.
O scraper LLM de Apify manteve uma alta taxa de sucesso (aproximadamente 99%) no modo ChatGPT , embora tenha capturado uma gama mais limitada de campos de metadados (em média 4) em comparação com seus pares.
Devido às taxas de sucesso ficarem abaixo da meta de 90%, o componente Apify foi excluído dos gráficos de desempenho para os modos Google AI e Perplexity , sugerindo um foco mais especializado em tarefas padrão baseadas no ChatGPT.
Você fornece um esquema JSON padrão ou um formato similar, como o Pydantic. O Ator garante que o LLM processe o HTML bruto e o mapeie para os campos especificados. O scraper LLM do Apify oferece uma vantagem técnica sobre bibliotecas auto-hospedadas por meio de seu sistema proxy Apify integrado, que inclui serviços como Bright Data e Oxylabs.
Para reduzir os custos do LLM, Apify remove tags desnecessárias como <script>, <style>, <svg> e <iframe>, juntamente com elementos de navegação e metadados ocultos.
A API ChatGPT da ScrapingBee permite que os usuários obtenham respostas geradas por IA, integrando GPT-4 com buscas na web em tempo real em uma única chamada de API. Se uma solicitação falhar, o serviço tenta novamente automaticamente por até 30 segundos. Cada solicitação bem-sucedida consome 15 créditos.
A API fornece dados estruturados em formatos Markdown ou JSON e incorpora citações de fontes em `results_markdown` ou em tags HTML específicas. Essa integração permite que os usuários acessem simultaneamente conteúdo da web e recursos de modelagem de linguagem, eliminando a necessidade de ferramentas separadas de extração de dados e IA.
Metodologia
Cada fornecedor foi testado com 100 perguntas exclusivas, cada uma executada 10 vezes, totalizando 1.000 testes por fornecedor. Todas as perguntas eram questões técnicas abertas na área de IA e aprendizado de máquina, exigindo respostas do tamanho de um parágrafo.
A cada provedor foi atribuído um tempo limite de dez minutos por solicitação. Se uma requisição atingisse um limite de taxa (HTTP 429), aguardávamos dez minutos antes de tentar novamente. Uma pausa de dois segundos entre as requisições ajudava a evitar limites de taxa e garantia uma avaliação comparativa eficiente.
Validação bem-sucedida:
Cada pergunta incluía 5 palavras-chave seletoras representando conceitos centrais esperados em respostas relevantes. Por exemplo, a pergunta “Quais são as principais diferenças entre os sistemas RAG tradicionais e os sistemas RAG agentivos?” usava as palavras-chave: RAG, diferença, agentivo, recuperação e tradicional.
Essas palavras-chave constituíram a base da nossa validação de dados. Verificamos a presença delas no texto da resposta para avaliar a precisão. Se nenhuma palavra-chave aparecesse, a resposta era marcada como extraída incorretamente. Para citações não vazias, verificamos se havia pelo menos uma URL válida com formatação HTTP ou HTTPS adequada. As respostas foram classificadas como válidas se passassem em todas as verificações, como avisos se falhassem devido a conteúdo vazio ou citações ausentes e como erros se apresentassem problemas técnicos, como falhas de análise sintática.
Envio realizado com sucesso:
Medimos a porcentagem de solicitações de API aceitas pelo provedor de coleta de dados. Uma solicitação foi considerada bem-sucedida se retornasse um código de status HTTP 200 ou 201 e incluísse um identificador de tarefa válido ou uma resposta imediata. Essa métrica refletia a confiabilidade da infraestrutura do provedor antes do início da coleta de dados.
Execução bem-sucedida:
Medimos a proporção de solicitações aceitas que concluíram a tarefa de extração de dados e retornaram informações.
Monitoramos essas três taxas de sucesso ao longo de todo o processo para identificar pontos de falha em cada etapa. Para a análise final, relatamos a taxa de sucesso da validação, pois ela mede o desempenho de ponta a ponta, desde a chamada da API até o conteúdo semanticamente relevante e com citações verificadas. Embora um provedor possa atingir 100% de sucesso no envio e na execução, o sucesso da validação determina se os dados coletados são utilizáveis em aplicações de produção.
Tempo de execução:
A duração necessária para receber uma resposta completa. Para provedores assíncronos, como Bright Data e Apify, isso incluía o período de sondagem desde o envio da tarefa até a sua conclusão. Para provedores síncronos, como Oxylabs, era o tempo total decorrido para a solicitação.
Para manter um alto padrão de qualidade de dados, apenas provedores com uma taxa de sucesso acima de 90% foram representados nos gráficos comparativos. Consequentemente, Oxylabs (modo ChatGPT) e Apify (modo IA Google) foram excluídos, pois seu desempenho ficou abaixo desse patamar. Vale ressaltar também que Bright Data foi o único provedor a utilizar o Gemini para extração de dados baseada em prompts neste teste.
Metadados disponíveis:
Contabilizamos o número de campos de dados estruturados retornados juntamente com o texto bruto, incluindo citações, links, texto da resposta, localização, versão do modelo e outros.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.