Contattaci
Nessun risultato trovato.

Crunchbase Scraper (Python): Tutorial e benchmark

Gulbahar Karatas
Gulbahar Karatas
aggiornato il Mar 13, 2026
Guarda il nostro norme etiche

Crunchbase è protetto dal sistema anti-bot di livello enterprise di Cloudflare, che blocca la maggior parte degli scraper automatizzati . Persino strumenti avanzati come Selenium spesso restituiscono errori 403 o infinite pagine "Un attimo...".

Impara come estrarre dati da Crunchbase con Python: configura l'ambiente, utilizza unostrumento di sblocco web per aggirare le restrizioni ed estrai i dati dai risultati di ricerca e dalle pagine aziendali di Crunchbase.

Risultato del benchmark dell'API di scraping di Crunchbase

Il grafico mostra il tasso di successo giornaliero delle API di scraping di Crunchbase:

Loading Chart

Per maggiori dettagli su come vengono raccolte queste metriche, consultare la metodologia completa di benchmarking per lo scraping di Crunchbase.

Come estrarre dati da Crunchbase con Python

In questo tutorial di scraping con Python, mostreremo come raccogliere dati da Crunchbase, inclusi nomi di aziende, descrizioni, siti web, sedi centrali, numero di dipendenti, round di finanziamento e metriche di crescita.

Abbiamo utilizzato Bright Data Web Unlocker per aggirare le sfide anti-bot e mantenere un accesso stabile.

Passaggio 1: Configurazione

Iniziate installando le librerie Python necessarie per il web scraping e configurando il nostro proxy API di Crunchbase.

Gli slug aziendali sono gli identificatori URL univoci su Crunchbase (ad esempio, se l'URL della pagina è crunchbase.com/organization/anthropic, lo slug è anthropic).

Passaggio 2: Effettuare le richieste tramite lo sbloccatore web

Anziché inviare richieste dirette a Crunchbase, utilizziamo l'API Web Unlocker per aggirare i sistemi anti-bot e garantire risultati coerenti. Questo metodo è ideale per lo scraping di Crunchbase su larga scala , in quanto restituisce risposte HTML pulite gestendo automaticamente i CAPTCHA e i ritardi di rendering JavaScript.

Passaggio 3: Analizzare il contenuto HTML

Analizziamo l'HTML restituito da Crunchbase utilizzando BeautifulSoup , estraendo il testo per l'estrazione di dati strutturati. Questo passaggio è essenziale per qualsiasi scraper di Crunchbase in Python, poiché ci permette di individuare elementi come il nome dell'azienda, la descrizione e l'URL del sito web.

Passaggio 4: estrarre il nome dell'azienda

Qui estraiamo il nome dell'azienda dal tag <title> nella pagina di Crunchbase. Il nome appare prima del primo trattino e utilizziamo le espressioni regolari per catturarlo e ripulirlo. Questo garantisce che il nostro scraper di Crunchbase raccolga solo nomi di aziende validi, non titoli di sistema o segnaposto.

Passaggio 5: Estrarre la descrizione dell'azienda

Il tag meta description ci fornisce un riepilogo standardizzato dell'azienda. È un'ottima fonte di descrizioni aziendali coerenti per la creazione di uno strumento di scraping dei dati aziendali o di un dataset di arricchimento.

Passaggio 6: estrarre l'URL del sito web aziendale

Questo blocco estrae l'URL del sito web ufficiale dell'azienda da Crunchbase. Poiché Crunchbase visualizza i domini come testo di collegamento visibile, filtriamo i link interni di Crunchbase e identifichiamo i siti web aziendali validi.

Passaggio 7: Estrarre la posizione della sede centrale

Individuiamo la città o il paese della sede centrale analizzando i link di Crunchbase che corrispondono a modelli URL di localizzazione noti. L'estrazione di queste informazioni garantisce che i dati di Crunchbase includano metadati di localizzazione utili per analisi regionali o segmentazione del mercato.

Passaggio 8: estrarre il numero dei dipendenti

Lo strumento di scraping dati di Crunchbase tenta di estrarre il numero di dipendenti utilizzando i tag strutturati presenti nella piattaforma. Se il dato non è disponibile in formato link, ricorre alla ricerca di intervalli di testo (ad esempio, "1001–5000 dipendenti"). Ciò garantisce dati affidabili sulle dimensioni aziendali per analisi e segmentazione.

Passaggio 9: Estrarre le informazioni sui finanziamenti

Questa parte del tutorial sullo scraping di Crunchbase estrae informazioni sui round di finanziamento (ad esempio, Serie A, Seed, Serie F) e il valore totale del capitale raccolto.

Prendendo di mira campi di finanziamento strutturati, questo metodo consente al tuo scraper Python per Crunchbase di raccogliere dati accurati sugli investimenti nelle startup per l'analisi delle tendenze e della crescita.

Passaggio 10: Estrarre i punteggi di crescita e calore

La documentazione attuale di Crunchbase colloca questi segnali all'interno di un livello predittivo più ampio che può includere informazioni sulla crescita, previsioni di finanziamento e altri indicatori prospettici. Ciò significa che l'estrazione del testo dalle pagine potrebbe non essere più sufficiente a cogliere il contesto completo ora disponibile tramite i flussi di lavoro Crunchbase con licenza.

Estraiamo i punteggi di crescita e di popolarità per misurare lo slancio di un'azienda. Poiché Crunchbase non sempre fornisce una struttura HTML coerente per questi valori, lo scraper di Crunchbase utilizza le espressioni regolari per rilevarli direttamente dal testo.

Se si dispone di una licenza, le interfacce di prodotto ufficiali di Crunchbase o i pacchetti API potrebbero rappresentare una fonte più stabile per questi segnali rispetto all'analisi HTML.

Passaggio 11: elabora i risultati e salva l'output

Infine, strutturiamo tutti i dati aziendali di Crunchbase , inclusi nome, descrizione, finanziamenti, dimensioni e punteggi, in un dizionario, aggiungiamo un piccolo ritardo tra le richieste (per uno scraping sicuro) e salviamo l'output come crunchbase_data.json .

Ciò garantisce che la pipeline di estrazione dati di Crunchbase produca risultati puliti e strutturati, pronti per l'analisi, la creazione di dashboard o l'integrazione in altre pipeline di dati.

Esempio di output

Questo output mostra come lo scraper Python di Crunchbase struttura ed esporta i dati.
Ogni voce include il nome dell'azienda, la descrizione , i finanziamenti , la sede , il numero di dipendenti e i punteggi di performance , il tutto formattato in JSON per una facile integrazione in strumenti di analisi o database.

Perché lo scraping di Crunchbase è una sfida

Abbiamo provato diversi metodi prima di trovare un approccio affidabile che funzionasse per Crunchbase. Ogni metodo convenzionale è fallito a causa dell'avanzato sistema anti-bot di Cloudflare. La protezione di Crunchbase non si basa su semplici controlli IP. Cloudflare esegue un'analisi approfondita del browser , esaminando decine di indicatori:

  • Modelli di handshake TLS
  • comportamento di esecuzione JavaScript
  • Completezza dell'API del browser
  • Impronte digitali di Canvas e WebGL
  • Tempistiche del movimento del mouse e messa a fuoco della finestra

Anche se utilizzi dei proxy, Cloudflare può comunque identificare l'impronta digitale del tuo client. I proxy di scraping standard nascondono solo il tuo indirizzo IP; non emulano il comportamento reale di un browser.

Le semplici richieste HTTP non hanno funzionato

Abbiamo iniziato utilizzando la libreria requests di Python per inviare semplici richieste GET agli URL di Crunchbase. Ogni tentativo ha restituito un errore 403 Forbidden . I server di Crunchbase hanno immediatamente rilevato la firma del bot e si sono rifiutati di fornire qualsiasi contenuto.

L'aggiunta delle intestazioni del browser non è comunque riuscita.

In seguito, abbiamo provato ad aggiungere stringhe User-Agent , intestazioni Accept e altri metadati simili a quelli di un browser per simulare un comportamento legittimo del browser. Abbiamo testato diversi profili e combinazioni, ma ogni richiesta è stata bloccata. Il sistema di Cloudflare le ha intercettate tutte all'istante.

Selenium con Chrome si è bloccato su Cloudflare

Abbiamo deciso di utilizzare Selenium , pensando che automatizzare un vero browser Chrome avrebbe risolto il problema. Invece, ci siamo imbattuti ogni volta nella pagina di verifica " Un attimo... " di Cloudflare. L'indicatore di caricamento continuava a girare all'infinito e, anche se occasionalmente riuscivamo a superarlo, ci trovavamo di fronte a un CAPTCHA che non potevamo risolvere programmaticamente.

ChromeDriver non rilevato era instabile

Abbiamo quindi testato Undetected-ChromeDriver , che modifica Selenium per renderlo più simile a un essere umano. Sebbene abbia funzionato per un breve periodo, abbiamo riscontrato problemi di compatibilità con i browser e sfide Cloudflare intermittenti. Alcune pagine si caricavano correttamente, ma le successive venivano bloccate senza un motivo apparente, risultando troppo inaffidabili per un utilizzo in produzione.

La soluzione funzionante: sbloccatori web

Dopo aver testato diversi metodi, abbiamo scoperto che questa era l'unica soluzione affidabile per uno scraping di Crunchbase coerente e scalabile . Web Unlockers risolve questo problema eseguendo browser reali nel cloud, completi di fingerprinting completo, esecuzione di JavaScript e risoluzione di CAPTCHA. Essi:

A differenza dei proxy che modificano solo la posizione di rete, gli sbloccatori web replicano il comportamento di un vero utente umano, che è esattamente ciò che Cloudflare si aspetta.

Metodologia di benchmark per lo scraping di Crunchbase

Valuta le prestazioni del servizio di scraping delle pagine aziendali di Crunchbase, misurando il successo delle richieste, i tempi di risposta e l'affidabilità in condizioni costanti.

  • URL di destinazione: 100 pagine aziendali di Crunchbase (crunchbase.com/organization…)
  • Intervallo di richiesta: ogni 15 minuti
  • Limite di tempo limite: 60 secondi
  • Frequenza di valutazione: giornaliera

Ogni richiesta utilizza la stessa configurazione per consentire un confronto diretto tra le esecuzioni.

Criteri di successo :

Una richiesta viene considerata andata a buon fine se:

  • Il codice di stato HTTP è compreso tra 200 e 399 , e
  • La risposta contiene dati aziendali Crunchbase validi, rilevati tramite selettori CSS predefiniti o controlli dei byte di contenuto .

Le risposte vuote o non corrette vengono contrassegnate come errori.

Classificazione degli errori :

  • Timeout: >60 secondi, contrassegnato come fallito
  • Errori di rete: registrati con i dettagli
  • Errori di decodifica: errore di analisi
  • Risposte vuote o non valide: contenuto mancante

Raccolta dati giornaliera :

A fine giornata, i risultati vengono aggregati per calcolare il risultato finale. Queste metriche quantificano l'affidabilità e le prestazioni dello scraping di Crunchbase.

  • Tasso di successo giornaliero
  • Tempo di risposta medio
  • Distribuzione degli errori

FAQ

L'estrazione di dati pubblicamente disponibili dalle pagine di Crunchbase è generalmente legale se effettuata in modo responsabile e per scopi personali o di ricerca. Tuttavia, l'estrazione automatizzata di dati potrebbe violare i Termini di servizio di Crunchbase, soprattutto per un utilizzo su larga scala o commerciale. Prima di avviare qualsiasi progetto di estrazione dati, si consiglia di consultare le API ufficiali. 1

È possibile estrarre dati aziendali pubblici, tra cui nome dell'azienda, fascia di fatturato, profilo aziendale, tipo di organizzazione, tipologia di azienda e indirizzo email di contatto. Evitare di raccogliere informazioni personali o private, come indirizzi email personali o link a LinkedIn.

È possibile utilizzare l'API di Crunchbase quando:

* È necessario raccogliere dati su larga scala
* Sono necessari aggiornamenti frequenti (quotidiani o orari).
* Hai intenzione di integrare i dati di Crunchbase a fini commerciali o di rivendere le analisi.

Per l'analisi competitiva, la ricerca di startup, la generazione di lead di vendita o la business intelligence, i dati aziendali strutturati sono essenziali. L'utilizzo di uno scraper di Crunchbase può aiutare ad automatizzare la raccolta e l'elaborazione di grandi volumi di dati.

Sì, l'API di Crunchbase fornisce un accesso strutturato ai dati relativi ad aziende, finanziamenti e persone. Tuttavia, presenta delle limitazioni significative:

* Per l'accesso a volumi di dati maggiori o alla versione completa dei dati è necessaria una licenza dati a pagamento o un abbonamento.
* Il numero di richieste al minuto o al giorno è limitato a seconda del piano tariffario utilizzato.
* Campi dati come il punteggio di crescita o il punteggio di calore potrebbero non essere disponibili nel piano gratuito.

Collegamenti di riferimento

1.
Welcome to Crunchbase Data
Gulbahar Karatas
Gulbahar Karatas
Analista di settore
Gülbahar è un analista di settore di AIMultiple specializzato nella raccolta di dati web, nelle applicazioni dei dati web e nella sicurezza delle applicazioni.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450