Benchmark

Scraper Crunchbase (Python): Tutoriel et Benchmark

mis à jour le 13 mars 2026

Crunchbase est protégé par le système anti-bot de niveau entreprise de Cloudflare, qui bloque la plupart des scraper automatisés. Même des outils avancés comme Selenium renvoient souvent des erreurs 403 ou des pages « Juste un instant… » sans fin.

Apprenez à extraire les données de Crunchbase avec Python : configuration de votre environnement, utilisation d'un web unlocker pour contourner les restrictions, et extraction des données des résultats de recherche Crunchbase et des pages d'entreprise.

Résultat du benchmark de l'API du scraper Crunchbase

Le graphique montre le taux de réussite quotidien des API du scraper Crunchbase :

Loading Chart

Pour plus de détails sur la collecte de ces métriques, consultez la méthodologie complète du benchmark d'extraction de données Crunchbase méthodologie.

Comment extraire les données de Crunchbase avec Python

Dans ce tutoriel d'extraction de données Python, nous montrerons comment collecter les données de Crunchbase, y compris les noms d'entreprise, les descriptions, les sites web, les sièges sociaux, les effectifs, les tours de financement et les métriques de croissance.

Nous avons utilisé Bright Data Web Unlocker pour contourner les défis anti-bot et maintenir un accès stable.

Étape 1 : Configuration

1import requests
2from bs4 import BeautifulSoup
3import json
4import time
5from datetime import datetime
6import re
7
8# You can get these from Bright Data
9API_TOKEN = 'your_api_token_here'
10ZONE_NAME = 'your_zone_name'
11API_URL = 'https://api.provider.com/request'
12
13AI_COMPANIES = ['company-1', 'company-2', 'company-3']
14results = []

Commencez par installer les bibliothèques Python requises pour l'extraction de données web et configurez notre API proxy Crunchbase.

Les slugs d'entreprise sont les identifiants URL uniques sur Crunchbase (par exemple, si l'URL de la page est crunchbase.com/organization/anthropic, le slug est anthropic).

Étape 2 : Envoi de requêtes via le web unlocker

1for slug in AI_COMPANIES:
2    url = f'https://www.crunchbase.com/organization/{slug}'
3
4    try:
5        response = requests.post(
6            API_URL,
7            headers={
8                'Authorization': f'Bearer {API_TOKEN}',
9                'Content-Type': 'application/json'
10            },
11            json={
12                "zone": ZONE_NAME,
13                "url": url,
14                "format": "raw",
15                "method": "GET",
16                "country": "us"
17            },
18            timeout=90
19        )
20
21        if response.status_code != 200:
22            continue

Au lieu d'envoyer des requêtes directes à Crunchbase, nous utilisons l'API du web unlocker pour contourner les systèmes anti-bot et garantir des résultats cohérents. Cette méthode est idéale pour l'extraction de données à grande échelle sur Crunchbase, car elle renvoie des réponses HTML propres tout en gérant automatiquement les CAPTCHAs et les délais de rendu JavaScript.

Étape 3 : Analyser le contenu HTML

1soup = BeautifulSoup(response.text, 'html.parser')
2text = soup.get_text()

Nous analysons le HTML renvoyé par Crunchbase en utilisant BeautifulSoup, en extrayant le texte pour l'extraction de données structurées. Cette étape est essentielle pour tout scraper Python de Crunchbase, car elle nous permet de localiser des éléments tels que le nom de l'entreprise, la description et l'URL du site web.

Étape 4 : Extraire le nom de l'entreprise

1name = None
2title = soup.find('title')
3if title:
4    match = re.match(r'^([^-]+)', title.get_text())
5    if match:
6        name = match.group(1).strip()
7        if 'Crunchbase' in name:
8            name = None

Ici, nous extrayons le nom de l'entreprise de la balise <title> sur la page Crunchbase. Le nom apparaît avant le premier tiret, et nous utilisons une expression régulière pour le capturer et le nettoyer. Cela garantit que notre scraper Crunchbase collecte uniquement des noms d'entreprise valides, et non des titres système ou des espaces réservés.

Étape 5 : Extraire la description de l'entreprise

1description = None
2meta = soup.find('meta', {'name': 'description'})
3if meta:
4    description = meta.get('content')

La balise meta description nous fournit un résumé standardisé de l'entreprise. C'est une excellente source de descriptions d'entreprise cohérentes pour créer un scraper de données d'entreprise ou un jeu de données d'enrichissement.

Étape 6 : Extraire l'URL du site web de l'entreprise

1website = None
2for link in soup.find_all('a', href=True):
3    href = link.get('href', "")
4    link_text = link.get_text(strip=True)
5    if href.startswith('http') and 'crunchbase.com' not in href:
6        if any(d in link_text.lower() for d in ['.com', '.ai', '.io', '.co']):
7            website = href
8            break

Ce bloc extrait l'URL du site web officiel de l'entreprise depuis Crunchbase. Comme Crunchbase affiche les domaines sous forme de texte de lien visible, nous filtrons les liens internes de Crunchbase et identifions les sites web d'entreprise valides.

Étape 7 : Extraire l'emplacement du siège social

1headquarters = None
2hq_links = soup.find_all('a', href=re.compile(r'/search/organizations/field/organization/location_identifiers/'))
3if hq_links:
4    headquarters = hq_links[0].get_text(strip=True)

Nous localisons la ville ou le pays du siège social en ciblant les liens Crunchbase qui correspondent aux modèles d'URL de localisation connus. L'extraction de ces informations garantit que vos données Crunchbase incluent des métadonnées de localisation utiles pour l'analyse régionale ou la segmentation de marché.

Étape 8 : Extraire le nombre d'employés

1employees = None
2emp_links = soup.find_all('a', href=re.compile(r'/search/people/field/organization/num_employees_enum/'))
3if emp_links:
4    emp_text = emp_links[0].get_text(strip=True)
5    if emp_text and emp_text[0].isdigit():
6        employees = emp_text
7
8if not employees:
9    for span in soup.find_all('span', {'class': 'component--field-formatter'}):
10        span_text = span.get_text(strip=True)
11        if re.match(r'\d+\-\d+', span_text):
12            employees = span_text
13            break

Le scraper de données Crunchbase tente d'extraire le nombre d'employés en utilisant les balises structurées de Crunchbase. Si le format de lien n'est pas disponible, il se rabat sur la recherche de spans de texte (par exemple, « 1001–5000 employés »). Cela garantit des données fiables sur la taille de l'entreprise pour l'analyse et la segmentation.

Étape 9 : Extraire les informations de financement

1funding_round = None
2funding_link = soup.find('a', href=re.compile(r'/search/funding_rounds/field/organization/last_funding_type/'))
3if funding_link:
4    funding_round = funding_link.get_text(strip=True)
5
6funding_total = None
7for span in soup.find_all('span', {'class': 'component--field-formatter'}):
8    span_text = span.get_text(strip=True)
9    if span_text.startswith('$') and any(c in span_text for c in ['M', 'B', 'K']):
10        funding_total = span_text
11        break

Cette partie du tutoriel d'extraction de données Crunchbase extrait les informations sur les tours de financement (par exemple, Série A, Seed, Série F) et les valeurs totales du capital levé.

En ciblant les champs de financement structurés, cette méthode permet à votre scraper Python de Crunchbase de collecter des données précises sur les investissements des startups pour l'analyse des tendances et de la croissance.

Étape 10 : Extraire les scores de croissance et de chaleur

La documentation actuelle de Crunchbase positionne également ces signaux comme faisant partie d'une couche prédictive plus large qui peut inclure des informations sur la croissance, des prévisions de financement et d'autres indicateurs prospectifs. Cela signifie que l'extraction du texte de la page peut ne plus capturer le contexte complet désormais disponible via les workflows Crunchbase sous licence.

1growth_score = None
2match = re.search(r'Growth Score[:\s]*(\d+)', text, re.IGNORECASE)
3if match:
4    growth_score = match.group(1)
5
6heat_score = None
7match = re.search(r'Heat Score[:\s]*(\d+)', text, re.IGNORECASE)
8if match:
9    heat_score = match.group(1)

Nous extrayons les scores de croissance et de chaleur pour mesurer l'élan de l'entreprise. Comme Crunchbase ne fournit pas toujours une structure HTML cohérente pour ces valeurs, le scraper Crunchbase utilise des expressions régulières pour les détecter directement dans le texte.

Si vous avez un accès sous licence, les surfaces de produits Crunchbase officielles ou les packages API peuvent être une source plus stable pour ces signaux que l'analyse HTML.

Étape 11 : Construire les résultats et sauvegarder la sortie

1company = {
2    'slug': slug,
3    'url': url,
4    'name': name,
5    'description': description,
6    'website': website,
7    'headquarters': headquarters,
8    'employees': employees,
9    'funding': {
10        'total': funding_total,
11        'last_round': funding_round
12    } if funding_total or funding_round else None,
13    'growth_score': growth_score,
14    'heat_score': heat_score,
15    'scraped_at': datetime.now().isoformat()
16}
17results.append(company)
18
19except:
20    pass
21
22time.sleep(2)
23
24if results:
25    with open('crunchbase_data.json', 'w', encoding='utf-8') as f:
26        json.dump(results, f, indent=2, ensure_ascii=False)
27    print(f"✔ Saved {len(results)} companies to crunchbase_data.json")

Enfin, nous structurons toutes les données d'entreprise Crunchbase, y compris le nom, la description, le financement, la taille et les scores, dans un dictionnaire, ajoutons un petit délai entre les requêtes (pour une extraction sécurisée) et sauvegardons la sortie sous forme de crunchbase_data.json.

Cela garantit que votre pipeline d'extraction de données Crunchbase produit des résultats propres et structurés prêts pour l'analyse, les tableaux de bord ou l'intégration dans des pipelines de données.

Exemple de sortie

Cette sortie montre comment le scraper Python de Crunchbase structure et exporte les données.
Chaque entrée comprend le nom, la description, le financement, l'emplacement, la taille de l'effectif et les scores de performance d'une entreprise, le tout formaté en JSON pour une intégration facile dans des outils d'analyse ou des bases de données.

1[
2  {
3    "slug": "company-1",
4    "url": "https://www.crunchbase.com/organization/company-1",
5    "name": "Company One",
6    "description": "An IA research company focused on safety and alignment.",
7    "website": "https://www.companyone.com",
8    "headquarters": "San Francisco",
9    "employees": "1001-5000",
10    "funding": {
11      "total": "$7.3B",
12      "last_round": "Series F"
13    },
14    "growth_score": "98",
15    "heat_score": "98",
16    "scraped_at": "2025-10-07T12:34:56.789"
17  }
18]

Laissez notre équipe automatiser l'un de vos processus métier avec des agents IA, gratuitement.

Automatiser un processus

Pourquoi l'extraction de données de Crunchbase est difficile

Nous avons essayé plusieurs méthodes avant de trouver une approche fiable qui fonctionne pour Crunchbase. Chaque méthode conventionnelle a échoué en raison du système anti-bot avancé de Cloudflare. La protection de Crunchbase ne repose pas sur de simples vérifications d'adresse IP. Cloudflare effectue une empreinte numérique approfondie du navigateur, analysant des dizaines d'indicateurs :

Modèles de poignée de main TLS
Comportement d'exécution JavaScript
Exhaustivité des API du navigateur
Empreintes Canvas et WebGL
Chronométrage des mouvements de la souris et focus de la fenêtre

Même si vous utilisez des proxies, Cloudflare peut toujours identifier l'empreinte numérique de votre client. Les proxies d'extraction classiques ne cachent que votre adresse IP ; ils n'émulent pas le comportement réel d'un navigateur.

Les requêtes HTTP simples n'ont pas fonctionné

Nous avons commencé avec la bibliothèque requests de Python pour envoyer des requêtes GET simples aux URL de Crunchbase. Chaque tentative a renvoyé 403 Forbidden. Les serveurs de Crunchbase ont immédiatement détecté la signature du bot et ont refusé de servir tout contenu.

L'ajout d'en-têtes de navigateur a encore échoué

Ensuite, nous avons essayé d'ajouter des chaînes User-Agent, des en-têtes Accept et d'autres métadonnées similaires à un navigateur pour imiter le comportement d'un navigateur légitime. Nous avons testé plusieurs profils et combinaisons, mais chaque requête a été bloquée. Le système de Cloudflare les a tous interceptés instantanément.

Selenium avec Chrome est resté bloqué sur Cloudflare

Nous avons escaladé vers Selenium, pensant qu'automatiser un vrai navigateur Chrome résoudrait le problème. Au lieu de cela, nous avons à chaque fois rencontré la page de défi « Juste un instant… » de Cloudflare. Le spinner de chargement tournait indéfiniment, et même si nous passions parfois, nous étions confrontés à un CAPTCHA qui ne pouvait pas être résolu programmatiquement.

Undetected ChromeDriver était instable

Nous avons ensuite testé Undetected-ChromeDriver, qui patche Selenium pour le rendre plus humain. Bien que cela ait fonctionné brièvement, nous avons rencontré des problèmes de compatibilité du navigateur et des défis Cloudflare intermittents. Certaines pages se sont chargées avec succès, mais les suivantes ont été bloquées sans aucun motif clair, trop peu fiables pour une utilisation en production.

La solution qui fonctionne : les web unlockers

Après avoir testé plusieurs méthodes, nous avons constaté que c'était la seule solution fiable pour une extraction de données Crunchbase cohérente et évolutive. Les Web Unlockers résolvent ce problème en exécutant de vrais navigateurs dans le cloud, avec une empreinte numérique complète, une exécution JavaScript et une résolution de CAPTCHA. Ils :

Faire tourner des adresses IP résidentielles automatiquement
Randomiser les empreintes numériques des navigateurs
Exécuter un rendu complet du navigateur (JavaScript, cookies, contenu dynamique)
Résoudre les défis CAPTCHA et Cloudflare en temps réel

Contrairement aux proxies qui ne changent que votre emplacement réseau, les web unlockers reproduisent le comportement d'un véritable utilisateur humain, ce que Cloudflare attend.

Méthodologie du benchmark d'extraction de données Crunchbase

Évaluez les performances de l'extraction de données des pages d'entreprise Crunchbase, en mesurant le succès des requêtes, le temps de réponse et la fiabilité dans des conditions cohérentes.

URL cibles : 100 pages d'entreprise Crunchbase (crunchbase.com/organization…)
Intervalle de requête : toutes les 15 minutes
Limite de temps : 60 secondes
Fréquence d'évaluation : quotidienne

Chaque requête utilise la même configuration pour permettre une comparaison directe entre les exécutions.

Critères de réussite :

Une requête est considérée comme réussie si :

Le code de statut HTTP est compris entre 200 et 399, et
La réponse contient des données d'entreprise Crunchbase valides détectées par des sélecteurs CSS prédéfinis ou des vérifications d'octets de contenu.

Les réponses vides ou malformées sont marquées comme échecs.

Classification des erreurs :

Dépassements de délai : >60s, marqués comme échoués
Erreurs réseau : journalisées avec détails
Erreurs de décodage : échec de l'analyse
Réponses vides ou malformées : contenu manquant

Collecte quotidienne de données :

À la fin de la journée, les résultats sont agrégés pour calculer le résultat final. Ces métriques quantifient la fiabilité et les performances de l'extraction de données Crunchbase. :

Taux de réussite quotidien
Temps de réponse moyen
Distribution des erreurs

Ne manquez pas nos benchmarks et analyses basées sur les données. Le bouton ouvre Google ; sélectionner AIMultiple confirme que vous souhaitez voir AIMultiple plus souvent dans les résultats de recherche Google.

Ajouter comme source préférée

FAQ

L'extraction de données publiquement disponibles sur les pages Crunchbase est généralement légale si elle est effectuée de manière responsable et à des fins personnelles ou de recherche. Cependant, l'extraction automatisée de données peut violer les conditions d'utilisation de Crunchbase, en particulier pour une utilisation à grande échelle ou commerciale. Consultez leur API officielle avant de mener tout projet d'extraction de données.¹

Vous pouvez extraire des points de données d'entreprise publics, notamment le nom de l'entreprise, la fourchette de revenus, le profil de l'entreprise, le type d'organisation, le type d'entreprise et l'email de contact. Évitez de collecter des informations personnelles ou privées, telles que des emails personnels ou des liens LinkedIn.

Vous pouvez utiliser l'API Crunchbase lorsque :

* Vous devez collecter des données à grande échelle
* Vous avez besoin de mises à jour fréquentes (quotidiennes ou horaires).
* Vous prévoyez d'intégrer des données Crunchbase à des fins commerciales ou de revendre des informations.

Pour l'analyse concurrentielle, la recherche sur les startups, la génération de prospects de vente ou la veille commerciale, des données d'entreprise structurées sont essentielles. L'utilisation d'un scraper Crunchbase peut aider à automatiser la collecte et le traitement de grands volumes de données.

Oui, l'API de Crunchbase offre un accès structuré aux données d'entreprise, de financement et de personnes. Cependant, elle présente des limitations importantes :

* Elle nécessite une licence de données payante ou un abonnement pour un accès à volume plus élevé ou à l'ensemble des données
* Les requêtes par minute ou par jour sont restreintes en fonction du plan que vous utilisez
* Des champs de données tels que le score de croissance ou le score de chaleur peuvent ne pas être disponibles dans le plan gratuit.

Citez ce benchmark

Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.

Gulbahar Karatas (2026) - "Scraper Crunchbase (Python): Tutoriel et Benchmark". Publié en ligne sur AIMultiple.com. Consulté le 13 Mars 2026, à : https://aimultiple.com/crunchbase-scraper [Ressource en ligne]

Karatas, G. (2026, 13 Mars). Scraper Crunchbase (Python): Tutoriel et Benchmark. AIMultiple. https://aimultiple.com/crunchbase-scraper

@misc{karatas2026,
  author = {Karatas, Gulbahar},
  title  = {{Scraper Crunchbase (Python): Tutoriel et Benchmark}},
  year   = {2026},
  month  = mar,
  howpublished    = {\url{https://aimultiple.com/crunchbase-scraper}},
  note   = {AIMultiple. Consulté le 13 Mars 2026}
}

Liens de référence

Welcome to Crunchbase Data

Gulbahar Karatas

Analyste sectorielle

Suivre

Gülbahar est une analyste sectorielle chez AIMultiple, spécialisée dans la collecte de données web, les applications des données web et la sécurité des applications.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires. Les commentaires sont laissés dans leur langue d'origine.

Résultat du benchmark de l'API du scraper Crunchbase

Comment extraire les données de Crunchbase avec Python

Pourquoi l'extraction de données de Crunchbase est difficile

Méthodologie du benchmark d'extraction de données Crunchbase

FAQ

Citez ce benchmark

Nous suivons des normes éthiques et notre processus pour garantir l'objectivité. Parmi les clients d'AIMultiple dans la catégorie Outils De Scraping figurent Bright Data.

Ajouter comme source préférée

Scraper Crunchbase (Python): Tutoriel et Benchmark

Résultat du benchmark de l'API du scraper Crunchbase

Comment extraire les données de Crunchbase avec Python

Étape 1 : Configuration

Étape 2 : Envoi de requêtes via le web unlocker

Étape 3 : Analyser le contenu HTML

Étape 4 : Extraire le nom de l'entreprise

Étape 5 : Extraire la description de l'entreprise

Étape 6 : Extraire l'URL du site web de l'entreprise

Étape 7 : Extraire l'emplacement du siège social

Étape 8 : Extraire le nombre d'employés

Étape 9 : Extraire les informations de financement

Étape 10 : Extraire les scores de croissance et de chaleur

Étape 11 : Construire les résultats et sauvegarder la sortie

Exemple de sortie

Pourquoi l'extraction de données de Crunchbase est difficile

Les requêtes HTTP simples n'ont pas fonctionné

L'ajout d'en-têtes de navigateur a encore échoué

Selenium avec Chrome est resté bloqué sur Cloudflare

Undetected ChromeDriver était instable

La solution qui fonctionne : les web unlockers

Méthodologie du benchmark d'extraction de données Crunchbase

FAQ

Citez ce benchmark

Liens de référence

Soyez le premier à commenter

À lire ensuite

Fournisseurs de proxy IPv6 comparés par tarification et performances

Meilleurs fournisseurs de datasets Indeed: APIs officielles vs vendeurs tiers

Comparatif des meilleurs proxies UK

Comment utiliser un proxy SOCKS5: Configuration pour Mac, Windows et Mobile

Top 5 des ensembles de données de réseaux sociaux

Le web scraping est-il légal ? Lois et meilleures pratiques

Scraper Crunchbase (Python): Tutoriel et Benchmark

Résultat du benchmark de l'API du scraper Crunchbase

Comment extraire les données de Crunchbase avec Python

Étape 1 : Configuration

Étape 2 : Envoi de requêtes via le web unlocker

Étape 3 : Analyser le contenu HTML

Étape 4 : Extraire le nom de l'entreprise

Étape 5 : Extraire la description de l'entreprise

Étape 6 : Extraire l'URL du site web de l'entreprise

Étape 7 : Extraire l'emplacement du siège social

Étape 8 : Extraire le nombre d'employés

Étape 9 : Extraire les informations de financement

Étape 10 : Extraire les scores de croissance et de chaleur

Étape 11 : Construire les résultats et sauvegarder la sortie

Exemple de sortie

Pourquoi l'extraction de données de Crunchbase est difficile

Les requêtes HTTP simples n'ont pas fonctionné

L'ajout d'en-têtes de navigateur a encore échoué

Selenium avec Chrome est resté bloqué sur Cloudflare

Undetected ChromeDriver était instable

La solution qui fonctionne : les web unlockers

Méthodologie du benchmark d'extraction de données Crunchbase

FAQ

L'extraction de données de Crunchbase est-elle légale ?

Quelles données Crunchbase pouvez-vous extraire ?

Quand devriez-vous utiliser une API plutôt que l'extraction de données ?

Pourquoi extraire des données de Crunchbase ?

L'API de Crunchbase présente-t-elle des limitations ?

Citez ce benchmark

Lien avec attributionHTML, pour les billets de blog, articles LinkedIn et newsletters. Recommandé.

APA 7e éditionPour les articles universitaires et rapports d'analystes selon le style APA 7e.

BibTeXPour les documents LaTeX et les gestionnaires de références académiques.

Liens de référence

Soyez le premier à commenter

À lire ensuite

Fournisseurs de proxy IPv6 comparés par tarification et performances

Meilleurs fournisseurs de datasets Indeed: APIs officielles vs vendeurs tiers

Comparatif des meilleurs proxies UK

Comment utiliser un proxy SOCKS5: Configuration pour Mac, Windows et Mobile

Top 5 des ensembles de données de réseaux sociaux

Le web scraping est-il légal ? Lois et meilleures pratiques