Benchmark

Raspador Crunchbase (Python): Tutorial & Benchmark

atualizado em 13 mar. 2026

O Crunchbase é protegido pelo sistema anti-bot de nível empresarial do Cloudflare, que bloqueia a maioria dos raspadores automatizados. Até mesmo ferramentas avançadas como o Selenium frequentemente retornam erros 403 ou páginas intermináveis de “Aguarde um momento…”.

Aprenda a raspar o Crunchbase com Python: configurando seu ambiente, usando um web unlocker para contornar restrições e extraindo dados dos resultados de pesquisa e páginas de empresas do Crunchbase.

Resultado do benchmark de API de raspador Crunchbase

O gráfico mostra a taxa de sucesso diária das APIs de raspador Crunchbase:

Loading Chart

Para detalhes sobre como essas métricas são coletadas, consulte a metodologia completa do benchmark de raspagem do Crunchbase metodologia.

Como raspar o Crunchbase com Python

Neste tutorial de raspagem em Python, mostraremos como coletar dados do Crunchbase, incluindo nomes de empresas, descrições, sites, sedes, contagens de funcionários, rodadas de financiamento e métricas de crescimento.

Usamos o Bright Data Web Unlocker para contornar desafios anti-bot e manter acesso estável.

Etapa 1: Configuração

1import requests
2from bs4 import BeautifulSoup
3import json
4import time
5from datetime import datetime
6import re
7
8# You can get these from Bright Data
9API_TOKEN = 'your_api_token_here'
10ZONE_NAME = 'your_zone_name'
11API_URL = 'https://api.provider.com/request'
12
13AI_COMPANIES = ['company-1', 'company-2', 'company-3']
14results = []

Comece instalando as bibliotecas Python necessárias para raspagem web e configurando nosso proxy de API do Crunchbase.

Os slugs de empresa são os identificadores de URL exclusivos no Crunchbase (por exemplo, se a URL da página for crunchbase.com/organization/anthropic, o slug é anthropic).

Etapa 2: Fazendo requisições através do web unlocker

1for slug in AI_COMPANIES:
2    url = f'https://www.crunchbase.com/organization/{slug}'
3
4    try:
5        response = requests.post(
6            API_URL,
7            headers={
8                'Authorization': f'Bearer {API_TOKEN}',
9                'Content-Type': 'application/json'
10            },
11            json={
12                "zone": ZONE_NAME,
13                "url": url,
14                "format": "raw",
15                "method": "GET",
16                "country": "us"
17            },
18            timeout=90
19        )
20
21        if response.status_code != 200:
22            continue

Em vez de enviar requisições diretas ao Crunchbase, usamos a API do web unlocker para contornar sistemas anti-bot e garantir resultados consistentes. Este método é ideal para raspagem em escala do Crunchbase, pois retorna respostas HTML limpas enquanto automaticamente lida com CAPTCHAs e atrasos de renderização JavaScript.

Etapa 3: Analisar conteúdo HTML

1soup = BeautifulSoup(response.text, 'html.parser')
2text = soup.get_text()

Analisamos o HTML retornado pelo Crunchbase usando BeautifulSoup, extraindo texto para extração de dados estruturados. Esta etapa é essencial para qualquer raspador Python do Crunchbase, pois nos permite localizar elementos como o nome da empresa, descrição e URL do site.

Etapa 4: Extrair o nome da empresa

1name = None
2title = soup.find('title')
3if title:
4    match = re.match(r'^([^-]+)', title.get_text())
5    if match:
6        name = match.group(1).strip()
7        if 'Crunchbase' in name:
8            name = None

Aqui, extraímos o nome da empresa da tag <title> na página do Crunchbase. O nome aparece antes do primeiro traço, e usamos regex para capturá-lo e limpá-lo. Isso garante que nosso raspador Crunchbase colete apenas nomes de empresas válidos, não títulos do sistema ou espaços reservados.

Etapa 5: Extrair descrição da empresa

1description = None
2meta = soup.find('meta', {'name': 'description'})
3if meta:
4    description = meta.get('content')

A tag meta description nos fornece um resumo padronizado da empresa. É uma excelente fonte de descrições de negócios consistentes para criar um raspador de dados de empresas ou um conjunto de dados de enriquecimento.

Etapa 6: Extrair a URL do site da empresa

1website = None
2for link in soup.find_all('a', href=True):
3    href = link.get('href', "")
4    link_text = link.get_text(strip=True)
5    if href.startswith('http') and 'crunchbase.com' not in href:
6        if any(d in link_text.lower() for d in ['.com', '.ai', '.io', '.co']):
7            website = href
8            break

Este bloco extrai a URL do site oficial da empresa do Crunchbase. Como o Crunchbase exibe domínios como texto de link visível, filtramos os links internos do Crunchbase e identificamos sites de empresas válidos.

Etapa 7: Extrair localização da sede

1headquarters = None
2hq_links = soup.find_all('a', href=re.compile(r'/search/organizations/field/organization/location_identifiers/'))
3if hq_links:
4    headquarters = hq_links[0].get_text(strip=True)

Localizamos a cidade ou país da sede direcionando links do Crunchbase que correspondem a padrões de URL de localização conhecidos. Extrair isso garante que seus dados do Crunchbase incluam metadados de localização úteis para análise regional ou segmentação de mercado.

Etapa 8: Extrair contagem de funcionários

1employees = None
2emp_links = soup.find_all('a', href=re.compile(r'/search/people/field/organization/num_employees_enum/'))
3if emp_links:
4    emp_text = emp_links[0].get_text(strip=True)
5    if emp_text and emp_text[0].isdigit():
6        employees = emp_text
7
8if not employees:
9    for span in soup.find_all('span', {'class': 'component--field-formatter'}):
10        span_text = span.get_text(strip=True)
11        if re.match(r'\d+\-\d+', span_text):
12            employees = span_text
13            break

O raspador de dados do Crunchbase tenta extrair a contagem de funcionários usando as tags estruturadas no Crunchbase. Se indisponível no formato de link, ele recorre à pesquisa em spans de texto (por exemplo, “1001–5000 funcionários”). Isso garante dados confiáveis sobre o tamanho da empresa para análise e segmentação.

Etapa 9: Extrair informações de financiamento

1funding_round = None
2funding_link = soup.find('a', href=re.compile(r'/search/funding_rounds/field/organization/last_funding_type/'))
3if funding_link:
4    funding_round = funding_link.get_text(strip=True)
5
6funding_total = None
7for span in soup.find_all('span', {'class': 'component--field-formatter'}):
8    span_text = span.get_text(strip=True)
9    if span_text.startswith('$') and any(c in span_text for c in ['M', 'B', 'K']):
10        funding_total = span_text
11        break

Esta parte do tutorial de raspagem do Crunchbase extrai informações sobre rodadas de financiamento (por exemplo, Série A, Seed, Série F) e valores totais de capital levantado.

Almejando campos de financiamento estruturados, este método permite que seu raspador Python do Crunchbase colete dados precisos de investimento em startups para análise de tendências e crescimento.

Etapa 10: Extrair pontuações de crescimento e calor

A documentação atual do Crunchbase também posiciona esses sinais como parte de uma camada preditiva mais ampla que pode incluir insights de crescimento, previsões de financiamento e outros indicadores prospectivos. Isso significa que raspar o texto da página pode não capturar mais o contexto completo agora disponível por meio de fluxos de trabalho licenciados do Crunchbase.

1growth_score = None
2match = re.search(r'Growth Score[:\s]*(\d+)', text, re.IGNORECASE)
3if match:
4    growth_score = match.group(1)
5
6heat_score = None
7match = re.search(r'Heat Score[:\s]*(\d+)', text, re.IGNORECASE)
8if match:
9    heat_score = match.group(1)

Extraímos pontuações de crescimento e calor para medir o momentum da empresa. Como o Crunchbase nem sempre fornece uma estrutura HTML consistente para esses valores, o raspador Crunchbase usa regex para detectá-los diretamente do texto.

Se você tiver acesso licenciado, as superfícies oficiais de produtos do Crunchbase ou pacotes de API podem ser uma fonte mais estável para esses sinais do que a análise de HTML.

Etapa 11: Construir resultados e salvar saída

1company = {
2    'slug': slug,
3    'url': url,
4    'name': name,
5    'description': description,
6    'website': website,
7    'headquarters': headquarters,
8    'employees': employees,
9    'funding': {
10        'total': funding_total,
11        'last_round': funding_round
12    } if funding_total or funding_round else None,
13    'growth_score': growth_score,
14    'heat_score': heat_score,
15    'scraped_at': datetime.now().isoformat()
16}
17results.append(company)
18
19except:
20    pass
21
22time.sleep(2)
23
24if results:
25    with open('crunchbase_data.json', 'w', encoding='utf-8') as f:
26        json.dump(results, f, indent=2, ensure_ascii=False)
27    print(f"✔ Saved {len(results)} companies to crunchbase_data.json")

Finalmente, estruturamos todos os dados da empresa Crunchbase, incluindo nome, descrição, financiamento, tamanho e pontuações, em um dicionário, adicionamos um pequeno atraso entre as requisições (para raspagem segura) e salvamos a saída como crunchbase_data.json.

Isso garante que seu pipeline de extração de dados Crunchbase produza resultados limpos e estruturados prontos para análise, dashboards ou integração em pipelines de dados.

Exemplo de saída

Esta saída demonstra como o raspador Python do Crunchbase estrutura e exporta dados.
Cada entrada inclui o nome, descrição, financiamento, localização, tamanho dos funcionários e pontuações de desempenho de uma empresa, tudo formatado como JSON para fácil integração em ferramentas de análise ou bancos de dados.

1[
2  {
3    "slug": "company-1",
4    "url": "https://www.crunchbase.com/organization/company-1",
5    "name": "Company One",
6    "description": "An IA research company focused on safety and alignment.",
7    "website": "https://www.companyone.com",
8    "headquarters": "San Francisco",
9    "employees": "1001-5000",
10    "funding": {
11      "total": "$7.3B",
12      "last_round": "Series F"
13    },
14    "growth_score": "98",
15    "heat_score": "98",
16    "scraped_at": "2025-10-07T12:34:56.789"
17  }
18]

Deixe nossa equipe automatizar um dos seus processos de negócio com agentes de IA, gratuitamente.

Automatizar um processo

Por que a raspagem do Crunchbase é desafiadora

Tentamos vários métodos antes de encontrar uma abordagem confiável que funcionasse para o Crunchbase. Cada método convencional falhou devido ao sistema anti-bot avançado do Cloudflare. A proteção do Crunchbase não depende de verificações simples de IP. O Cloudflare realiza impressão digital profunda do navegador, analisando dezenas de indicadores:

Padrões de handshake TLS
Comportamento de execução JavaScript
Completude da API do navegador
Impressões digitais Canvas e WebGL
Tempo de movimento do mouse e foco da janela

Mesmo se você usar proxies, o Cloudflare ainda pode identificar sua impressão digital de cliente. Proxies de raspagem regulares apenas ocultam seu IP; eles não emulam o comportamento real do navegador.

Requisições HTTP simples não funcionaram

Começamos com a biblioteca requests do Python para enviar requisições GET diretas às URLs do Crunchbase. Cada tentativa retornou 403 Forbidden. Os servidores do Crunchbase detectaram imediatamente a assinatura do bot e se recusaram a servir qualquer conteúdo.

Adicionar cabeçalhos de navegador ainda falhou

Em seguida, tentamos adicionar strings User-Agent, cabeçalhos Accept e outros metadados semelhantes a navegadores para imitar o comportamento legítimo do navegador. Testamos vários perfis e combinações, mas cada requisição foi bloqueada. O sistema do Cloudflare pegou todas elas instantaneamente.

Selenium com Chrome ficou preso no Cloudflare

Escalamos para o Selenium, pensando que automatizar um navegador Chrome real resolveria o problema. Em vez disso, encontramos a página de desafio “Aguarde um momento…” do Cloudflare toda vez. O spinner de carregamento rodou indefinidamente e, mesmo que ocasionalmente passássemos, enfrentamos CAPTCHA que não podia ser resolvido programaticamente.

Undetected ChromeDriver era instável

Em seguida, testamos o Undetected-ChromeDriver, que corrige o Selenium para fazê-lo parecer mais humano. Embora tenha funcionado brevemente, encontramos problemas de compatibilidade do navegador e desafios intermitentes do Cloudflare. Algumas páginas carregaram com sucesso, mas as próximas foram bloqueadas sem nenhum padrão claro, muito pouco confiável para uso em produção.

A solução que funciona: Web unlockers

Após testar vários métodos, descobrimos que esta era a única solução confiável para raspagem consistente e escalável do Crunchbase. Os Web Unlockers resolvem esse problema executando navegadores reais na nuvem, completos com impressão digital total, execução JavaScript e resolução de CAPTCHA. Eles:

Rotacionam IPs residenciais automaticamente
Randomizam impressões digitais de navegador
Executam renderização completa do navegador (JavaScript, cookies, conteúdo dinâmico)
Resolvem CAPTCHA e desafios do Cloudflare em tempo real

Diferente de proxies que apenas alteram sua localização de rede, os web unlockers replicam o comportamento de um usuário humano genuíno, que é o que o Cloudflare espera.

Metodologia do benchmark de raspagem do Crunchbase

Avalie o desempenho da raspagem de páginas de empresas do Crunchbase, medindo o sucesso da requisição, tempo de resposta e confiabilidade sob condições consistentes.

URLs de destino: 100 páginas de empresas do Crunchbase (crunchbase.com/organization…)
Intervalo de requisição: a cada 15 minutos
Limite de tempo limite: 60 segundos
Frequência de avaliação: diária

Cada requisição usa a mesma configuração para permitir comparação direta entre execuções.

Critérios de sucesso:

Uma requisição é considerada bem-sucedida se:

O código de status HTTP estiver entre 200 e 399, e
A resposta contiver dados válidos de empresas do Crunchbase detectados por seletores CSS predefinidos ou verificações de bytes de conteúdo.

Respostas vazias ou malformadas são marcadas como falhas.

Classificação de erros:

Tempo limite: >60s, marcado como falha
Erros de rede: registrados com detalhes
Erros de decodificação: falha de análise
Respostas vazias ou malformadas: conteúdo ausente

Coleção diária de dados:

No final do dia, os resultados são agregados para calcular o resultado final. Essas métricas quantificam a confiabilidade e o desempenho da raspagem do Crunchbase.:

Taxa de sucesso diária
Tempo médio de resposta
Distribuição de erros

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.

Adicionar como fonte preferencial

Perguntas frequentes

Raspar dados publicamente disponíveis das páginas do Crunchbase geralmente é legal se feito de forma responsável e para fins pessoais ou de pesquisa. No entanto, a raspagem automatizada de dados pode violar os Termos de Serviço do Crunchbase, especialmente para uso em grande escala ou comercial. Verifique a API oficial deles antes de realizar qualquer projeto de raspagem de dados.¹

Você pode extrair pontos de dados públicos de empresas, incluindo nome da empresa, faixa de receita, perfil da empresa, tipo de organização, tipo de empresa e e-mail de contato. Evite coletar informações pessoais ou privadas, como e-mails pessoais ou links do LinkedIn.

Você pode usar a API do Crunchbase quando:

* Você precisa coletar dados em grande escala
* Você requer atualizações frequentes (diárias ou horárias).
* Você planeja integrar dados do Crunchbase comercialmente ou revender insights.

Para análise competitiva, pesquisa de startups, geração de leads de vendas ou inteligência de negócios, dados estruturados de empresas são essenciais. Usar um raspador Crunchbase pode ajudar a automatizar a coleta e o processamento de grandes volumes de dados.

Sim, a API do Crunchbase fornece acesso estruturado a dados de empresas, financiamento e pessoas. No entanto, ela tem limitações significativas:

* Requer uma licença de dados paga ou assinatura para acesso a dados de maior volume ou completos
* As requisições por minuto ou por dia são restritas dependendo do plano que você usa
* Campos de dados como pontuação de crescimento ou pontuação de calor podem não estar disponíveis no plano gratuito.

Cite este benchmark

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Gulbahar Karatas (2026) - "Raspador Crunchbase (Python): Tutorial & Benchmark". Publicado on-line em AIMultiple.com. Acessado em 13 Março 2026, em: https://aimultiple.com/crunchbase-scraper [Recurso on-line]

Karatas, G. (2026, 13 Março). Raspador Crunchbase (Python): Tutorial & Benchmark. AIMultiple. https://aimultiple.com/crunchbase-scraper

@misc{karatas2026,
  author = {Karatas, Gulbahar},
  title  = {{Raspador Crunchbase (Python): Tutorial & Benchmark}},
  year   = {2026},
  month  = mar,
  howpublished    = {\url{https://aimultiple.com/crunchbase-scraper}},
  note   = {AIMultiple. Acessado em 13 Março 2026}
}