Contate-nos
Nenhum resultado encontrado.

Extrair dados do Twitter (X.com) com Python

Cem Dilmegani
Cem Dilmegani
atualizado em Fev 11, 2026
Veja o nosso normas éticas

Plataformas sociais modernas, como o X.com, empregam defesas rigorosas contra a extração de dados , incluindo CAPTCHA, limites de taxa e bloqueio de IP. Essas medidas de segurança tornam a criação de um programa de extração de dados personalizado do zero difícil e propensa a interrupções frequentes.

Por isso, este guia utiliza a API de extração de dados do Twitter, que permite a extração confiável e em conformidade com as normas dos dados do Twitter, gerenciandoa rotação de proxies e a coleta ética de dados.

Criar um extrator de perfis do Twitter (perfis públicos, sem API)

Você pode reutilizar o mesmo fluxo de 4 etapas para extrair dados de perfis públicos , como biografia, número de seguidores, frequência de postagens e status de verificação, sem a API oficial.

Como adaptar seu pipeline :

  1. Descubra URLs de perfil com Google:
    site:x.com inurl:/status/ (para posts) → mudar para
    Para coletar páginas de perfil, utilize o comando `site:x.com -inurl:/status “palavra-chave_do_perfil”` ou pesquise `site:x.com “@handle”`.
  2. Colete com uma ferramenta paga ou seu script headless e mantenha o atraso de 2 segundos Google.
  3. Realizar pesquisa a cada 10 segundos (com limite de 15 minutos) e baixar o NDJSON.
  4. Exporte em CSV. Utilize campos como user_posted, name, followers, posts_count, is_verified, profile_image_link, biography, user_id.

O que você recebe :
Um conjunto de dados limpo para classificar criadores por pontuação de influência = engajamento normalizado × log10(seguidores). Isso responde à pergunta "quem observar" em fluxos de trabalho de web scraping do Twitter e alimenta listas de contato para seus painéis de controle de scraping do Twitter.

Como extrair dados do Twitter usando Python

Passo 1: Configure seu ambiente para extração de dados do Twitter.

Antes de começar a extrair dados do Twitter, você precisará preparar seu ambiente Python.

Nesta etapa, você importará as bibliotecas necessárias , adicionará suas credenciais de API (usamos a API de raspagem do Twitter Bright Data ) , configurará um proxy e definirá seus parâmetros de pesquisa.

Você está preparando seu espaço de trabalho para que seu script Python de extração de dados do Twitter possa ser executado sem problemas e se conectar ao servidor de extração.

  • Importe as bibliotecas que você usará para solicitações, análise de dados e salvamento de resultados.
  • Adicione suas credenciais e você encontrará o token da API e o ID do conjunto de dados no seu painel de controle.
  • Configure um proxy para rotear seu tráfego com segurança e evitar bloqueios de IP ao coletar conteúdo do Twitter.
  • Defina sua palavra-chave e limite. Neste exemplo, você está rastreando “agente de IA otimizando” e coletando cinco postagens, mas você pode aumentar o NUM_POSTS para expandir o escopo da sua coleta de dados do Twitter.

Etapa 2: Encontre os URLs das postagens X para extrair dados.

Nesta etapa, você usará a pesquisa Google para coletar links públicos de postagens (tweets) do Twitter que correspondam à sua palavra-chave. Este truque simples permite extrair dados do Twitter sem acesso à API, consultando apenas URLs do Twitter.

Este script constrói uma consulta Google, como 'site:x.com OR site:twitter.com <palavra-chave>', para retornar apenas postagens do X/Twitter. Ele extrai URLs de tweets, os limpa, converte links antigos do twitter.com para x.com e remove duplicatas.

Um atraso de 2 segundos é incluído entre as solicitações para respeitar os servidores de Google enquanto se coletam URLs exclusivos suficientes para o seu fluxo de trabalho de extração de dados do Twitter.

Etapa 3: Acionar a coleta de dados do Twitter

Envie os URLs coletados para o programa de extração de dados.

Após coletarmos todos os URLs das postagens X, precisamos enviá-los para o web scraper para extração de dados. Esta seção faz uma requisição POST para o endpoint de gatilho de Bright Data com nosso token de autenticação e ID do conjunto de dados. Este é o mesmo método que muitos pipelines de web scraping do Twitter utilizam para gerenciar a coleta de dados externos.

Os URLs são formatados como uma lista de objetos JSON, com cada objeto contendo um único URL de postagem. Quando a API recebe essa solicitação com sucesso, ela retorna um ID de snapshot, que serve como referência para essa tarefa de coleta de dados específica.

Se a chamada à API falhar por qualquer motivo, o script será encerrado com uma mensagem de erro. Esta etapa constitui a base da extração de dados do Twitter, uma abordagem escalável e compatível para qualquer pessoa que esteja aprendendo a extrair dados do Twitter de forma segura e eficiente sem depender da API oficial.

Passo 4: Insira o código completo e salve os dados extraídos do X.com.

A seção final aguarda a conclusão do processo de extração de dados do Twitter e, em seguida, recupera os resultados para o seu fluxo de trabalho de extração de dados do Twitter. Como a extração pode levar tempo, seu script verifica o status do snapshot a cada 10 segundos, com um tempo limite de 15 minutos . Quando o status se torna "pronto" ou "concluído", ele baixa o conjunto de dados por meio da URL fornecida.

A resposta chega em formato NDJSON , então cada linha é analisada e convertida em um dicionário Python. Após a coleta de todos os dados, o script imprime a URL, a descrição e as métricas de engajamento (curtidas, visualizações, compartilhamentos, respostas e hashtags) de cada postagem. Por fim, tudo é organizado em um DataFrame do pandas e exportado para CSV para geração de relatórios ou modelagem.

Os blocos try/except garantem que os campos numéricos sejam convertidos com segurança (lidando com formatos inesperados), o que torna essa abordagem confiável para fluxos de trabalho de extração de dados do Twitter e tutoriais sobre como extrair dados do Twitter sem a API oficial.

Análise comparativa: Desempenho e confiabilidade (ferramenta paga vs. ferramenta de código aberto)

Se você leva a sério a extração de dados do Twitter em grande escala , meça a taxa de transferência, a taxa de sucesso e o tempo de manutenção.

Executamos três configurações com os mesmos tópicos:

  1. Uma ferramenta paga ( provedor de raspagem gerenciada )
  2. SN-Scraper (código aberto)
  3. Um script personalizado para navegador sem interface gráfica. Cada um coletava postagens públicas, analisava o engajamento e salvava os dados em um arquivo CSV.

O que observamos:

  • Taxa de transferência (tweets/min): scrapers pagos do Twitter > navegador sem interface gráfica > SN-Scraper.
  • Taxa de sucesso: A ferramenta paga lidou com as alterações de layout/autenticação de forma mais consistente.
  • Tempo de engenharia: as opções de código aberto foram as que mais precisaram de correções após alterações no site.

Conclusão : Para pesquisas pontuais, o código aberto é uma ótima opção. Para coleta contínua de dados do Twitter, ferramentas pagas de web scraping podem reduzir falhas e custos ocultos, especialmente quando você precisa coletar dados do Twitter continuamente ou sobre diversos tópicos.

Melhores práticas para extração de dados do Twitter

Os seguintes pontos estabilizam suas execuções de Python para extração de dados do Twitter e reduzem os bloqueios.

  • Ritmo: Mantenha um atraso de 2 segundos na descoberta de Google e aumente gradualmente a duração do tempo limite (10→20→40s) nos tempos limite subsequentes .
  • Rotacionar identidades: Use IPs/agentes de usuário rotativos (geralmente uma ferramenta paga automatiza isso) para extrair dados do Twitter em grande escala.
  • Limitar a concorrência: Iniciar com 3 a 5 trabalhadores; aumentar somente se a taxa de erros permanecer baixa.
  • Cache e desduplicação: Não busque novamente a mesma postagem; armazene os IDs e o registro de data e hora da última visualização.
  • Distribua os horários: Distribua as corridas ao longo do dia.

A melhor maneira de obter dados do Twitter

  • Precisa de sucesso previsível e baixa manutenção?
    • Escolha uma ferramenta paga. Ela é a mais robusta para coleta contínua de dados do Twitter e monitoramento de múltiplos tópicos.
  • Precisa de acesso estruturado e controlado?
    • Se o orçamento e os limites forem aceitáveis, a API oficial é a opção mais simples.
  • Só explorando? Orçamento apertado?
  • Possui requisitos específicos (logins, sequenciamento, ações dinâmicas)?
    • Crie um sistema headless DIY com higiene de proxy robusta e observabilidade.

Use essa comparação para escolher a opção que melhor se adapta ao seu orçamento, prazos e tolerância ao risco para a extração de tweets.

Agregador do Twitter (agendamento + painéis de controle)

Uma vez que seu scraper do Twitter em Python esteja funcionando, você pode facilmente evoluí-lo para um agregador do Twitter que coleta e visualiza continuamente postagens públicas do X.com sobre tópicos, hashtags ou influenciadores específicos. Um agregador é simplesmente um sistema automatizado que:

  • Coleta publicações de múltiplas fontes ou palavras-chave.
  • Limpa e armazena os dados regularmente (a cada hora ou diariamente).
  • Exibe informações em um painel para análise rápida.

Seu tutorial de 4 etapas já executa todas as funções principais: descoberta, extração e exportação, o que o torna uma base adequada para um agregador automatizado.

Como construir seu agregador do Twitter

  1. Agende execuções regulares: Use um cron job ou um agendador de fluxo de trabalho para executar seu script automaticamente (por exemplo, a cada hora). Alterne entre uma lista de tópicos ou hashtags a cada execução.
  2. Remova duplicatas e adicione novos dados: após cada execução, verifique se há duplicatas usando a URL ou o ID e adicione apenas as postagens mais recentes ao seu arquivo CSV ou banco de dados. Organize os resultados por dia (/data/x_posts/AAAA-MM-DD/) para facilitar a consulta posterior.
  3. Transformação para dashboards: Carregue seus arquivos CSV no Data Studio , Tableau ou notebooks Python para visualizar:
    • Volume de postagens por hora/dia
    • Principais autores ou hashtags
    • Tendências de engajamento (curtidas, visualizações, compartilhamentos)

Use padrões de consulta como um localizador do Twitter (pessoas e publicações)

Sua etapa de descoberta pode fazer mais do que encontrar publicações. Ela pode ajudar você a encontrar pessoas, influenciadores e contas importantes no X.com usando os operadores de busca Google. Isso faz com que seu scraper também funcione como um localizador do Twitter, tanto para perfis de usuários quanto para tweets relacionados a tópicos.

O que é um localizador do Twitter?

Um localizador do Twitter é um fluxo de trabalho de busca que identifica:

  • Pessoas ou perfis com base no cargo, biografia ou palavras-chave do setor.
  • Tweets ou publicações com base em tópicos, hashtags ou períodos de tempo específicos.

Você ainda dependerá do operador site:x.com de Google para descobrir páginas públicas que correspondam às suas palavras-chave, sem precisar da API do Twitter.

Padrões de consulta para encontrar perfis:

Esses padrões ajudam você a coletar páginas de autores (não tweets). Insira esses URLs no seu scraper para extrair campos como user_posted, name, followers, is_verified e biography. Para localizar perfis , tente:

Isso transforma seu projeto em um extrator de perfis do Twitter simples e direto, ideal para descoberta de influenciadores, recrutamento ou pesquisa de mercado.

Padrões de consulta para encontrar publicações:

Para focar em tweets ou posts , use:

Essas técnicas melhoram tanto a abrangência (exibindo tweets mais relevantes) quanto a precisão (reduzindo o número de resultados irrelevantes). Ao aplicar esses truques de consulta, seu scraper se torna um localizador preciso do Twitter.

Solucione problemas de pré-visualizações ausentes com um depurador do Twitter (dicas de metadados)

Quem usa o depurador do Twitter geralmente quer corrigir pré-visualizações de links (Twitter Cards/Open Graph). Embora não seja scraping , é algo relacionado e útil.

  • Certifique-se de que as páginas de destino incluam os seguintes atributos: og:title, og:description, og:image e os metadados corretos do twitter:card.
  • Verifique se as imagens são HTTPS, acessíveis e estão dentro dos limites de tamanho.
  • Compartilhe novamente após a atualização dos metadados.

Embora a extração de dados públicos seja geralmente protegida pela CFAA (Lei de Fraude e Abuso de Computadores) nos EUA, a empresa X introduziu uma enorme medida dissuasora contratual.

A partir de 2026, os Termos de Serviço do X estipulam que qualquer pessoa que "solicitar, visualizar ou acessar" mais de 1.000.000 de publicações em um período de 24 horas por meios automatizados sem permissão estará sujeita a uma multa de US$ 15.000. 1

Isso torna financeiramente arriscado para pesquisadores e empresas realizarem coleta de dados em larga escala.

Atualizações técnicas e tendências para web scraping no Twitter em 2026

Extração de dados nativa por IA (integração com MCP)

Uma das principais tendências para 2026 é a migração de ferramentas de programação tradicionais, como Python e BeautifulSoup, para o Protocolo de Contexto de Modelo (MCP). Em vez de escrever e atualizar scripts, os usuários solicitam os dados de que precisam, e a ferramenta MCP cuida da extração, limpeza e formatação.

Mude para o navegador completo.

Navegadores básicos sem interface gráfica, como o Puppeteer ou o Selenium, são rapidamente detectados pelo avançado sistema de identificação TLS do X. Como resultado, as principais empresas utilizam navegadores furtivos e o Playwright com plugins que executam sessões completas do navegador.

Essas ferramentas copiam ações humanas, como mover o mouse aleatoriamente e alterar o tempo, para contornar os sistemas anti-bot de aprendizado de máquina de X.

Perguntas frequentes

Sim. Sua saída inclui campos de mídia (por exemplo, fotos, vídeos, external_*). Salve esses URLs e baixe-os posteriormente, se necessário. Para maior escalabilidade, armazene apenas os links, juntamente com os metadados (tamanho e tipo), para reduzir os custos de armazenamento.

Use proxies residenciais ou de provedores de internet rotativos. Eles oferecem uma reputação melhor do que os pools básicos de datacenters e reduzem os bloqueios temporários. Se você usar uma ferramenta paga, a rotação de alta qualidade geralmente está incluída, o que é útil para tarefas de coleta de dados do Twitter de longa duração.

API oficial: de primeira mão, documentada, estruturada; governança mais transparente, mas paga/com acesso restrito e, às vezes, limitada.

API de raspagem de dados do Twitter / API de raspagem do Twitter: um serviço que orquestra navegadores e proxies para extrair dados públicos de páginas; mais flexível, mas depende do layout do site e dos controles anti-bot.

Se o seu foco for mídia, o mesmo fluxo se transforma em um extrator de mídia do Twitter que captura links de imagens/vídeos em grande escala. Como adaptar seu pipeline:

* Mantenha a etapa 2 de descoberta de palavras-chave, mas direcione as consultas para posts com muito conteúdo multimídia: “tópico” (foto OU vídeo) site:x.com. Nos resultados, leia fotos, vídeos, URLs de imagens externas e URLs de vídeos externos.

* Armazene URLs, não arquivos binários . O download de mídia pode ser uma segunda tarefa com taxa limitada (fila paralela, checksum, novas tentativas).

Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo

Comentários 1

Compartilhe suas ideias

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450
Jones
Jones
Sep 20, 2023 at 12:10

You cannot access tweets for free using the API. Twitter (X) charges developers at minimum $100/month to use the API to access tweets. The free developer option is limited to posting only, which is not what you'd want to scrape Twitter for anyway.

Cem Dilmegani
Cem Dilmegani
Nov 01, 2023 at 17:31

Indeed, we updated that section, thank you for the heads up!