Dados Extração de dados da web Ferramentas de raspagem

Web Scraping do ChatGPT: Tutorial e Aplicações

atualizado em Mar 10, 2026

O ChatGPT é uma maneira fácil de aplicar IA à extração de dados da web , poupando os desenvolvedores do trabalho manual de análise sintática que exige atualizações constantes. O uso de Modelos de Aprendizado de Máquina (LLMs) está se tornando uma das melhores práticas de extração de dados da web.

Veja abaixo como o ChatGPT é usado em web scraping, incluindo vários casos de uso em que a combinação de web scraping e ChatGPT pode facilitar a coleta de dados:

Como extrair dados de sites usando o ChatGPT

Neste tutorial, usaremos os fluxos de trabalho de pesquisa e codificação conectados à web do ChatGPT. Além da análise manual de HTML, os desenvolvedores agora podem usar ferramentas integradas de pesquisa na web, entrada de arquivos e pesquisa avançada para analisar páginas e gerar lógica de extração.

1. Carregar o arquivo HTML:

O fluxo de trabalho manual de salvar HTML localmente e carregá-lo funciona, mas não é mais a única opção nativa. A API de Respostas (OpenAI) agora oferece suporte à pesquisa na web, ao processamento mais abrangente de entrada de arquivos e a fluxos de trabalho de pesquisa avançada que podem combinar resultados da web, arquivos carregados e fontes de dados conectadas.

Escolha o site de destino do qual deseja extrair dados. Pressione Ctrl + S (ou Cmd + S no macOS) para salvar a página como HTML. Se desejar automatizar o salvamento do arquivo HTML, você pode usar o seguinte exemplo de comando. Isso fará com que o ChatGPT gere o código Python necessário para salvar o arquivo HTML a partir da URL fornecida.

Exemplo de mensagem para o ChatGPT:

"Por favor, forneça um script em Python que automatize o processo de salvar uma página HTML da seguinte URL: https://www.walmart.com/browse/electronics/gaming-mouse/3944_1089430_132959_1008621_4842284_9144425. O script deve enviar uma requisição GET para a página, recuperar o conteúdo HTML e salvá-lo em um arquivo chamado walmart_gaming_mouse.html ."

2. Inspecionando a estrutura do HTML:

Depois de salvar o arquivo HTML da página de destino, arraste e solte-o no ChatGPT.

Páginas que renderizam conteúdo com JavaScript podem exigir mais do que uma simples inspeção de HTML estático. Nesses casos, os desenvolvedores devem verificar se o arquivo salvo contém os elementos desejados ou se um fluxo de trabalho baseado na web ou em navegador é necessário antes de gerar os seletores.

Exemplo de mensagem para o ChatGPT:

"Forneça um script em Python que automatize a inspeção da estrutura HTML do arquivo walmart_gaming_mouse.html para identificar as tags e classes HTML corretas que contêm o nome, o preço e o link do produto. O script deve carregar o arquivo HTML salvo, encontrar os elementos que contêm os nomes, preços e links dos produtos e imprimir os nomes das tags, classes e o conteúdo de texto relevantes."

Exemplo de script Python para automatizar a inspeção:

3. Analisando dados do HTML:

Exemplo de mensagem para o ChatGPT:

"Por favor, forneça um script em Python que automatize a análise do arquivo HTML walmart_gaming_mouse.html para extrair detalhes do produto, como nome, preço e link. O script deve analisar o HTML, extrair os detalhes necessários para cada mouse gamer na página e armazená-los em um formato estruturado, como um arquivo CSV."

Script em Python para analisar os dados:

Para páginas estáticas, salvar o arquivo HTML ainda é uma abordagem prática. Para fluxos de trabalho mais dinâmicos, as equipes também podem usar pesquisas online ou recuperação baseada em API para inspecionar o conteúdo da página atual, comparar várias fontes e gerar lógica de extração sem depender exclusivamente de um arquivo salvo manualmente.

4. Armazenar ou exibir os dados:

Exemplo de mensagem para o ChatGPT:

"Por favor, forneça um script em Python que armazene os detalhes do produto extraídos do arquivo walmart_gaming_mouse.html em um formato estruturado, como CSV. O script deve extrair o nome do produto, o preço e o link, e salvá-los em um arquivo CSV chamado gaming_mouse_products.csv. Além disso, o script deve exibir uma mensagem de confirmação assim que os dados forem salvos."

Script em Python para armazenar ou exibir os dados:

Utilizando o ChatGPT como uma ferramenta XPath

O ChatGPT pode ajudar você a extrair elementos específicos da página de destino usando expressões XPath. Ao perguntar ao ChatGPT como utilizar XPath para extrair dados, você precisa:

Primeiro, inspecione a estrutura HTML.
Lidar com situações extremas, incluindo dados ausentes ou conteúdo gerado por JavaScript.
Para lidar com pequenas diferenças no HTML, use expressões XPath flexíveis.

O XPath continua sendo útil para os fluxos de trabalho de extração de dados atuais, mas interfaces de agentes nativas do navegador estão começando a surgir como uma alternativa para alguns sites.

Por exemplo, o Chrome introduziu o WebMCP em versão prévia no início de 2026 para permitir que os sites exponham ferramentas estruturadas a agentes de IA, reduzindo assim a dependência de tentativas frágeis de adivinhação do DOM para casos de uso suportados.

Incitar :

Como posso usar XPath para extrair todos os nomes de produtos, preços e links deste arquivo HTML?

Resposta do ChatGPT:

Aplicações do ChatGPT em web scraping

1. Integre o ChatGPT aos fluxos de trabalho de extração de dados.

MCP significa Model Context Protocol (Protocolo de Contexto de Modelo). É uma forma padronizada para que sistemas de IA se conectem a ferramentas e fontes de dados externas, incluindo sistemas web e corporativos, de maneira mais estruturada.

Os MCPs de web scraping , como os fornecidos por Bright Data, atuam como intermediários que lidam com a renderização de conteúdo dinâmico, rotação de IP e mecanismos de bypass anti-bot, permitindo que o ChatGPT acesse e processe dados da web em larga escala sem o tratamento direto de solicitações HTTP.

Nos fluxos de trabalho atuais do OpenAI, a pesquisa aprofundada pode usar busca na web, servidores MCP remotos e recuperação baseada em arquivos em conjunto. O OpenAI também atualizou a pesquisa aprofundada em 2026 com controles de busca em sites confiáveis, conexões de aplicativos/MCP e acompanhamento de progresso em tempo real, tornando-a mais adequada para tarefas de pesquisa e extração monitoradas do que fluxos de trabalho que utilizam apenas prompts.

Você pode integrar esses MCPs ao ChatGPT configurando-os por meio de agentes do VSCode, como o GitHub Copilot, ou utilizando bibliotecas como o mcp-use, possibilitando fluxos de trabalho de extração de dados da web contínuos e escaláveis. ¹

2. Pesquisa na web e investigação aprofundada para extração monitorada

O ChatGPT não se limita mais a gerar código de extração de dados a partir de entradas estáticas. O conjunto de ferramentas atual do OpenAI inclui pesquisa na web integrada para recuperação de dados atualizados, entradas de arquivos para trabalhar com material de origem salvo e modelos de pesquisa avançada que podem combinar resultados da web, arquivos e fontes remotas do MCP em um único fluxo de trabalho.

Isso é especialmente útil quando você precisa de citações, comparação entre múltiplas fontes ou resultados de pesquisa rastreáveis antes de escrever o código de extração.

3. Gerar código para extrair dados de sites

Para fluxos de trabalho de desenvolvedores, a recuperação de documentos da web é feita principalmente por meio da API de Respostas, onde a pesquisa na web pode ser habilitada como uma ferramenta. As atualizações de 2026 expandiram o suporte à entrada de arquivos e adicionaram recursos de ambiente hospedado que facilitam o processamento de documentos e dados recuperados antes da extração.

Lembre-se de que as estruturas e designs dos sites podem mudar, o que pode afetar os elementos e atributos HTML que você está tentando extrair. Nesse cenário, seu código pode não funcionar corretamente ou não extrair os dados desejados. É necessário monitorar e atualizar seu código de extração de dados regularmente.

Por exemplo, você pode usar o prompt abaixo para extrair dados da descrição do produto:

Muitos sites utilizam controles anti-automação , limites de taxa e renderização dinâmica para restringir a coleta de dados em larga escala. Antes de realizar a extração de dados, as equipes devem revisar os termos do site, as políticas de robôs e os requisitos legais aplicáveis, e então escolher uma abordagem que corresponda às restrições técnicas e de conformidade do site de destino.

Os proxies residenciais eos desbloqueadores da web são altamente eficazes para contornar defesas anti-bot rigorosas. Ao contrário dos proxies de data center, os proxies residenciais usam endereços IP fornecidos por provedores de serviços de internet (ISPs) reais, o que os torna mais aparentados.

Patrocinado

Você pode integrar uma tecnologia de desbloqueio ao seu rastreador web para aprimorar seus projetos de web scraping. O Web Unlocker de Bright Data permite que empresas coletem dados de fontes da web de forma ética e legal, contornando medidas anti-scraping.

1.1 Forneça instruções em Python para web scraping

O ChatGPT oferece instruções passo a passo para extrair dados de fontes da web em várias linguagens de programação. Neste exemplo, usaremos a biblioteca requests para obter o conteúdo de uma página da web e o Beautiful Soup para analisar e recuperar os dados desejados.

O ChatGPT fornece o comando para instalar as bibliotecas necessárias. Você pode executar o seguinte código em Python para instalar as bibliotecas.

Você pode usar o código Python gerado pelo ChatGPT para importar requests e Beautiful Soup.

A biblioteca requests permite que você busque o conteúdo da página web de destino. Você pode usar a biblioteca requests para enviar requisições HTTP para esse servidor de destino e processar as respostas. Para buscar o conteúdo da página do produto, digite o seguinte comando no terminal, substituindo “https://example.com/product-page” pela URL da página web de destino:

Após obter o conteúdo de uma página da web, você precisa analisar os dados obtidos para extrair as informações desejadas. Para analisar os dados obtidos usando a biblioteca Beautiful Soup:

Se você realizar a extração de dados de um site de comércio eletrônico para obter informações sobre produtos, como títulos, deverá inspecionar a página do produto para localizar as tags e os atributos necessários correspondentes aos dados.

Para salvar ou imprimir os dados extraídos, digite o código gerado pelo ChatGPT:

2. Limpar os dados extraídos

Após a extração dos dados, é essencial limpar o texto para remover elementos irrelevantes e stopwords como "o", "e", etc. O ChatGPT pode fornecer orientações e sugestões sobre como limpar e formatar os dados coletados.

Imagine que você coletou uma grande quantidade de dados e os importou para o Excel. No entanto, você percebe que os dados estão desorganizados e confusos. Por exemplo, os nomes completos estão na coluna B e você deseja separar os nomes e sobrenomes em duas colunas diferentes. Você pode solicitar ao ChatGPT uma fórmula para separar os nomes e sobrenomes.

A fórmula gerada pelo ChatGPT para extrair o primeiro nome:

A fórmula gerada pelo ChatGPT para extrair o sobrenome:

Patrocinado

O OxyCopilot é um recurso da API de web scraping fornecido por Oxylabs, que permite aos usuários extrair informações relevantes com base em formatação orientada a prompts e filtrar dados indesejados. No exemplo abaixo, usamos o OxyCopilot para otimizar os resultados da API, recuperando apenas os quatro campos de dados principais: preço, nome, classificação e avaliação. Detalhes desnecessários, como conteúdo, meta tags e códigos de status, foram excluídos da saída, facilitando o processamento dos dados.

3. Processar os dados extraídos

3.1 Realizar análise de sentimento

O ChatGPT pode realizar análises de sentimento em dados coletados para gerar insights interpretáveis a partir de dados textuais não estruturados. Suponha que você tenha coletado menções da sua marca em uma plataforma de mídia social para analisar o crescimento do seu público. Depois de obter e limpar os dados coletados, você pode instruir o ChatGPT a analisar os dados textuais e classificá-los como negativos, neutros ou positivos (Figura 4).

Figura 4: Demonstração do processo de análise e rotulagem de um documento de texto de exemplo.

Aqui está um exemplo de como você pode instruir o ChatGPT a realizar uma análise de sentimentos:

“Analise o sentimento do texto: 'A duração da bateria também é longa'.”

Resposta do ChatGPT à nossa consulta:

Note que a precisão da análise de sentimentos pode variar dependendo de diferentes fatores, como a complexidade do texto e erros contextuais.

3.2 Categorizar o conteúdo extraído

O ChatGPT pode ajudar a categorizar dados coletados em categorias predefinidas. Você pode definir as categorias nas quais deseja classificar o conteúdo. Aqui está um exemplo de categorização de conteúdo usando o ChatGPT:

Por exemplo, queremos categorizar o seguinte conteúdo:

A seguir, apresentamos o resultado da categorização dos dados extraídos com o ChatGPT:

Links de referência

GitHub - mcp-use/mcp-use: mcp-use is the easiest way to interact with mcp servers with custom agents

Gulbahar Karatas

Analista do setor

Gülbahar é analista da AIMultiple, especializada em coleta de dados da web, aplicações de dados da web e segurança de aplicações.

Ver perfil completo

Comentários 1

Compartilhe suas ideias

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

JayLi

Sep 04, 2023 at 06:28

It's almost useless. If you are a good coder, you can easily write this code. I think the better way to extract dynamic or difficult html content, script send html content to chatgpt by api and chatgpt need to return the answer of key content. If this way work, it will be useful. Thanks.