Benchmark

Crunchbase Scraper (Python): Tutorial e Benchmark

aggiornato il 13 mar. 2026

Crunchbase è protetto dal sistema anti-bot aziendale di Cloudflare, che blocca la maggior parte degli scraper automatizzati. Anche strumenti avanzati come Selenium spesso restituiscono errori 403 o infinite pagine con scritto “Solo un momento…”.

Impara come estrarre dati da Crunchbase con Python: configurare l'ambiente, utilizzare un sbloccatore web per aggirare le restrizioni ed estrarre dati dai risultati della ricerca di Crunchbase e dalle pagine aziendali.

Risultato del benchmark dello scraper Crunchbase API

Il grafico mostra il tasso di successo giornaliero degli scraper Crunchbase API:

Loading Chart

Per dettagli su come vengono raccolte queste metriche, consulta la metodologia completa del benchmark per lo scraping di Crunchbase metodologia.

Come estrarre dati da Crunchbase con Python

In questo tutorial di scraping con Python, mostreremo come raccogliere dati da Crunchbase, inclusi nomi delle aziende, descrizioni, siti web, sedi principali, numero di dipendenti, round di finanziamento e metriche di crescita.

Abbiamo utilizzato Bright Data Web Unlocker per aggirare le sfide anti-bot e mantenere un accesso stabile.

Passo 1: Configurazione

1import requests
2from bs4 import BeautifulSoup
3import json
4import time
5from datetime import datetime
6import re
7
8# You can get these from Bright Data
9API_TOKEN = 'your_api_token_here'
10ZONE_NAME = 'your_zone_name'
11API_URL = 'https://api.provider.com/request'
12
13AI_COMPANIES = ['company-1', 'company-2', 'company-3']
14results = []

Inizia installando le librerie Python necessarie per lo scraping web e configurando il nostro proxy per l'API di Crunchbase API.

Gli slug aziendali sono gli identificatori URL univoci su Crunchbase (ad esempio, se l'URL della pagina è crunchbase.com/organization/anthropic, lo slug è anthropic).

Passo 2: Effettuare richieste tramite sbloccatore web

1for slug in AI_COMPANIES:
2    url = f'https://www.crunchbase.com/organization/{slug}'
3
4    try:
5        response = requests.post(
6            API_URL,
7            headers={
8                'Authorization': f'Bearer {API_TOKEN}',
9                'Content-Type': 'application/json'
10            },
11            json={
12                "zone": ZONE_NAME,
13                "url": url,
14                "format": "raw",
15                "method": "GET",
16                "country": "us"
17            },
18            timeout=90
19        )
20
21        if response.status_code != 200:
22            continue

Invece di inviare richieste dirette a Crunchbase, utilizziamo l'API del web unlocker API per aggirare i sistemi anti-bot e garantire risultati costanti. Questo metodo è ideale per lo scraping su larga scala di Crunchbase, poiché restituisce risposte HTML pulite gestendo automaticamente i CAPTCHA e i ritardi nel rendering di JavaScript.

Passo 3: Analizzare il contenuto HTML

1soup = BeautifulSoup(response.text, 'html.parser')
2text = soup.get_text()

Analizziamo l'HTML restituito da Crunchbase utilizzando BeautifulSoup, estraendo il testo per l'estrazione di dati strutturati. Questo passaggio è essenziale per qualsiasi scraper Python per Crunchbase, poiché ci permette di individuare elementi come il nome dell'azienda, la descrizione e l'URL del sito web.

Passo 4: Estrarre il nome dell'azienda

1name = None
2title = soup.find('title')
3if title:
4    match = re.match(r'^([^-]+)', title.get_text())
5    if match:
6        name = match.group(1).strip()
7        if 'Crunchbase' in name:
8            name = None

Qui estraiamo il nome dell'azienda dal tag <title> della pagina Crunchbase. Il nome appare prima del primo trattino e utilizziamo le espressioni regolari per catturarlo e pulirlo. Ciò garantisce che il nostro scraper Crunchbase raccolga solo nomi di aziende validi, non titoli di sistema o segnaposto.

Passo 5: Estrarre la descrizione dell'azienda

1description = None
2meta = soup.find('meta', {'name': 'description'})
3if meta:
4    description = meta.get('content')

Il tag meta description ci fornisce un riassunto standardizzato dell'azienda. È un'ottima fonte di descrizioni aziendali coerenti per costruire uno scraper di dati aziendali o un dataset di arricchimento.

Passo 6: Estrarre l'URL del sito web dell'azienda

1website = None
2for link in soup.find_all('a', href=True):
3    href = link.get('href', "")
4    link_text = link.get_text(strip=True)
5    if href.startswith('http') and 'crunchbase.com' not in href:
6        if any(d in link_text.lower() for d in ['.com', '.ai', '.io', '.co']):
7            website = href
8            break

Questo blocco estrae l'URL del sito web ufficiale dell'azienda da Crunchbase. Poiché Crunchbase visualizza i domini come testo del link visibile, filtriamo i link interni di Crunchbase e identifichiamo i siti web validi delle aziende.

Passo 7: Estrarre la posizione della sede principale

1headquarters = None
2hq_links = soup.find_all('a', href=re.compile(r'/search/organizations/field/organization/location_identifiers/'))
3if hq_links:
4    headquarters = hq_links[0].get_text(strip=True)

Individuiamo la città o il paese della sede principale cercando i link di Crunchbase che corrispondono a modelli URL di posizione noti. Estrarre questo dato garantisce che i tuoi dati Crunchbase includano metadati di posizione utili per analisi regionali o segmentazione di mercato.

Passo 8: Estrarre il numero di dipendenti

1employees = None
2emp_links = soup.find_all('a', href=re.compile(r'/search/people/field/organization/num_employees_enum/'))
3if emp_links:
4    emp_text = emp_links[0].get_text(strip=True)
5    if emp_text and emp_text[0].isdigit():
6        employees = emp_text
7
8if not employees:
9    for span in soup.find_all('span', {'class': 'component--field-formatter'}):
10        span_text = span.get_text(strip=True)
11        if re.match(r'\d+\-\d+', span_text):
12            employees = span_text
13            break

Lo scraper dei dati Crunchbase tenta di estrarre il numero di dipendenti utilizzando i tag strutturati in Crunchbase. Se non disponibile in formato link, ricorre alla ricerca in span di testo (ad esempio, “da 1001 a 5000 dipendenti”). Ciò garantisce dati affidabili sulla dimensione dell'azienda per analisi e segmentazione.

Passo 9: Estrarre le informazioni sui finanziamenti

1funding_round = None
2funding_link = soup.find('a', href=re.compile(r'/search/funding_rounds/field/organization/last_funding_type/'))
3if funding_link:
4    funding_round = funding_link.get_text(strip=True)
5
6funding_total = None
7for span in soup.find_all('span', {'class': 'component--field-formatter'}):
8    span_text = span.get_text(strip=True)
9    if span_text.startswith('$') and any(c in span_text for c in ['M', 'B', 'K']):
10        funding_total = span_text
11        break

Questa parte del tutorial di scraping di Crunchbase estrae le informazioni sui round di finanziamento (ad esempio, Serie A, Seed, Serie F) e i valori totali raccolti.

Indirizzando campi di finanziamento strutturati, questo metodo consente al tuo scraper Python per Crunchbase di raccogliere dati accurati sugli investimenti delle startup per analisi di tendenza e crescita.

Passo 10: Estrarre i punteggi di crescita e di popolarità

La documentazione attuale di Crunchbase colloca anche questi segnali come parte di un livello predittivo più ampio che può includere informazioni sulla crescita, previsioni di finanziamento e altri indicatori futuri. Ciò significa che lo scraping del testo della pagina potrebbe non catturare più tutto il contesto ora disponibile attraverso flussi di lavoro autorizzati di Crunchbase.

1growth_score = None
2match = re.search(r'Growth Score[:\s]*(\d+)', text, re.IGNORECASE)
3if match:
4    growth_score = match.group(1)
5
6heat_score = None
7match = re.search(r'Heat Score[:\s]*(\d+)', text, re.IGNORECASE)
8if match:
9    heat_score = match.group(1)

Estraiamo i punteggi di crescita e di popolarità per misurare l'impulso dell'azienda. Poiché Crunchbase non fornisce sempre una struttura HTML coerente per questi valori, lo scraper Crunchbase utilizza le espressioni regolari per rilevarli direttamente dal testo.

Se hai accesso autorizzato, le interfacce ufficiali del prodotto Crunchbase o pacchetti API potrebbero essere una fonte più stabile per questi segnali rispetto all'analisi HTML.

Passo 11: Costruire i risultati e salvare l'output

1company = {
2    'slug': slug,
3    'url': url,
4    'name': name,
5    'description': description,
6    'website': website,
7    'headquarters': headquarters,
8    'employees': employees,
9    'funding': {
10        'total': funding_total,
11        'last_round': funding_round
12    } if funding_total or funding_round else None,
13    'growth_score': growth_score,
14    'heat_score': heat_score,
15    'scraped_at': datetime.now().isoformat()
16}
17results.append(company)
18
19except:
20    pass
21
22time.sleep(2)
23
24if results:
25    with open('crunchbase_data.json', 'w', encoding='utf-8') as f:
26        json.dump(results, f, indent=2, ensure_ascii=False)
27    print(f"✔ Saved {len(results)} companies to crunchbase_data.json")

Infine, strutturiamo tutti i dati aziendali di Crunchbase, inclusi nome, descrizione, finanziamenti, dimensioni e punteggi, in un dizionario, aggiungiamo un breve ritardo tra le richieste (per uno scraping sicuro) e salviamo l'output come crunchbase_data.json.

Ciò garantisce che la tua pipeline di estrazione dei dati di Crunchbase produca risultati puliti e strutturati pronti per l'analisi, dashboard o integrazione in pipeline di dati.

Esempio di output

Questo output dimostra come lo scraper Python per Crunchbase struttura ed esporta i dati.
Ogni voce include il nome, la descrizione, i finanziamenti, la posizione, la dimensione del personale e i punteggi di prestazione dell'azienda, tutti formattati in JSON per una facile integrazione in strumenti di analisi o database.

1[
2  {
3    "slug": "company-1",
4    "url": "https://www.crunchbase.com/organization/company-1",
5    "name": "Company One",
6    "description": "An IA research company focused on safety and alignment.",
7    "website": "https://www.companyone.com",
8    "headquarters": "San Francisco",
9    "employees": "1001-5000",
10    "funding": {
11      "total": "$7.3B",
12      "last_round": "Series F"
13    },
14    "growth_score": "98",
15    "heat_score": "98",
16    "scraped_at": "2025-10-07T12:34:56.789"
17  }
18]

Lascia che il nostro team automatizzi uno dei tuoi processi aziendali con agenti IA, gratuitamente.

Automatizza un processo

Perché lo scraping di Crunchbase è difficile

Abbiamo provato diversi metodi prima di trovare un approccio affidabile che funzionasse per Crunchbase. Ogni metodo convenzionale ha fallito a causa del sistema anti-bot avanzato di Cloudflare. La protezione di Crunchbase non si basa su semplici controlli IP. Cloudflare esegue un'impronta digitale del browser approfondita, analizzando dozzine di indicatori:

Modelli di handshake TLS
Comportamento di esecuzione di JavaScript
Completezza delle API del browser
Impronte digitali di Canvas e WebGL
Tempistica dei movimenti del mouse e focus della finestra

Anche se utilizzi proxy, Cloudflare può comunque identificare l'impronta digitale del tuo client. I normali proxy per scraping nascondono solo il tuo IP; non emulano il comportamento di un browser reale.

Le semplici richieste HTTP non hanno funzionato

Abbiamo iniziato con la libreria requests di Python per inviare semplici richieste GET agli URL di Crunchbase. Ogni tentativo ha restituito 403 Forbidden. I server di Crunchbase hanno immediatamente rilevato la firma del bot e si sono rifiutati di fornire qualsiasi contenuto.

Aggiungere intestazioni del browser ha comunque fallito

Successivamente, abbiamo provato ad aggiungere stringhe User-Agent, intestazioni Accept e altri metadati simili a quelli del browser per imitare un comportamento legittimo. Abbiamo testato diversi profili e combinazioni, ma ogni richiesta è stata bloccata. Il sistema di Cloudflare li ha rilevati tutti istantaneamente.

Selenium con Chrome si è bloccato su Cloudflare

Siamo passati a Selenium, pensando che automatizzare un vero browser Chrome avrebbe risolto il problema. Invece, abbiamo incontrato ogni volta la pagina di verifica di Cloudflare con scritto “Solo un momento…”. Lo spinner di caricamento girava all'infinito e anche se a volte riuscivamo a passare, ci trovavamo di fronte a CAPTCHA che non potevano essere risolti in modo programmato.

Undetected ChromeDriver era instabile

Abbiamo quindi testato Undetected-ChromeDriver, che modifica Selenium per farlo apparire più simile a un utente umano. Anche se ha funzionato brevemente, abbiamo riscontrato problemi di compatibilità del browser e sfide intermittenti di Cloudflare. Alcune pagine si caricavano correttamente, ma le successive venivano bloccate senza alcun modello chiaro, troppo instabile per un uso in produzione.

La soluzione funzionante: gli sbloccatori web

Dopo aver testato diversi metodi, abbiamo scoperto che questa era l'unica soluzione affidabile per uno scraping di Crunchbase coerente e scalabile. Gli sbloccatori web risolvono questo problema eseguendo veri browser nel cloud, completi di impronte digitali, esecuzione di JavaScript e risoluzione di CAPTCHA. Essi:

Ruotano automaticamente IP residenziali
Randomizzano le impronte digitali del browser
Eseguono il rendering completo del browser (JavaScript, cookie, contenuti dinamici)
Risolvono CAPTCHA e sfide di Cloudflare in tempo reale

A differenza dei proxy che cambiano solo la tua posizione di rete, gli sbloccatori web replicano il comportamento di un utente reale, che è ciò che Cloudflare si aspetta.

Metodologia del benchmark per lo scraping di Crunchbase

Valuta le prestazioni dello scraping delle pagine aziendali di Crunchbase, misurando il successo delle richieste, il tempo di risposta e l'affidabilità in condizioni costanti.

URL di destinazione: 100 pagine aziendali di Crunchbase (crunchbase.com/organization…)
Intervallo di richiesta: ogni 15 minuti
Limite di timeout: 60 secondi
Frequenza di valutazione: giornaliera

Ogni richiesta utilizza la stessa configurazione per consentire un confronto diretto tra i tentativi.

Criteri di successo:

Una richiesta è considerata riuscita se:

Il codice di stato HTTP è compreso tra 200 e 399, e
La risposta contiene dati aziendali validi di Crunchbase rilevati da selettori CSS predefiniti o controlli dei byte del contenuto.

Le risposte vuote o malformate sono contrassegnate come fallite.

Classificazione degli errori:

Timeout: >60s, contrassegnato come fallito
Errori di rete: registrati con dettagli
Errori di decodifica: errore di analisi
Risposte vuote o malformate: contenuto mancante

Raccolta dati giornaliera:

Alla fine della giornata, i risultati vengono aggregati per calcolare il risultato finale. Queste metriche quantificano l'affidabilità e le prestazioni dello scraping di Crunchbase.:

Tasso di successo giornaliero
Tempo medio di risposta
Distribuzione degli errori

Scopri altri nostri benchmark e approfondimenti basati sui dati nella Ricerca Google.

Aggiungi come fonte preferita

FAQ

Lo scraping di dati pubblicamente disponibili dalle pagine di Crunchbase è generalmente legale se fatto in modo responsabile e per scopi personali o di ricerca. Tuttavia, lo scraping automatizzato potrebbe violare i Termini di Servizio di Crunchbase, specialmente per usi su larga scala o commerciali. Controlla il loro API ufficiale prima di intraprendere qualsiasi progetto di scraping di dati.¹

Puoi estrarre punti dati aziendali pubblici, inclusi nome dell'azienda, fascia di ricavi, profilo aziendale, tipo di organizzazione, tipo di azienda e email di contatto. Evita di raccogliere informazioni personali o private, come email personali o link LinkedIn.

Puoi usare l'API di Crunchbase quando:

* Devi raccogliere dati su larga scala
* Richiedi aggiornamenti frequenti (giornalieri o orari).
* Pensi di integrare i dati di Crunchbase a livello commerciale o rivendere informazioni.

Per analisi della concorrenza, ricerca su startup, generazione di lead di vendita o business intelligence, i dati strutturati sulle aziende sono essenziali. Utilizzare uno scraper di Crunchbase può aiutare ad automatizzare la raccolta e l'elaborazione di grandi volumi di dati.

Sì, l'API di Crunchbase fornisce accesso strutturato ai dati su aziende, finanziamenti e persone. Tuttavia, ha limitazioni significative:

* Richiede una licenza dati a pagamento o un abbonamento per un accesso più ampio o completo ai dati
* Le richieste al minuto o al giorno sono limitate a seconda del piano utilizzato
* Campi dati come il punteggio di crescita o il punteggio di popolarità potrebbero non essere disponibili nel piano gratuito.

Cita questo benchmark

Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.

Gulbahar Karatas (2026) - "Crunchbase Scraper (Python): Tutorial e Benchmark". Pubblicato online su AIMultiple.com. Consultato il 13 Marzo 2026, da: https://aimultiple.com/crunchbase-scraper [Risorsa online]

Karatas, G. (2026, 13 Marzo). Crunchbase Scraper (Python): Tutorial e Benchmark. AIMultiple. https://aimultiple.com/crunchbase-scraper

@misc{karatas2026,
  author = {Karatas, Gulbahar},
  title  = {{Crunchbase Scraper (Python): Tutorial e Benchmark}},
  year   = {2026},
  month  = mar,
  howpublished    = {\url{https://aimultiple.com/crunchbase-scraper}},
  note   = {AIMultiple. Consultato il 13 Marzo 2026}
}

Collegamenti di riferimento

Welcome to Crunchbase Data

Gulbahar Karatas

Analista di settore

Segui

Gülbahar è un'analista di settore di AIMultiple focalizzata sulla raccolta di dati web, sulle applicazioni di dati web e sulla sicurezza delle applicazioni.

Visualizza il profilo completo