Benchmark

Scraper de Crunchbase (Python): Tutorial y Benchmark

actualizado el 13 de mar. de 2026

Crunchbase está protegido por el sistema antirrobots de nivel empresarial de Cloudflare, que bloquea la mayoría de los scrapers automatizados. Incluso herramientas avanzadas como Selenium a menudo devuelven errores 403 o páginas interminables de "Solo un momento…".

Aprende cómo extraer datos de Crunchbase con Python: configura tu entorno, usa un web unlocker para eludir las restricciones y extrae datos de los resultados de búsqueda de Crunchbase y las páginas de empresas.

Resultado del benchmark de la API del scraper de Crunchbase

El gráfico muestra la tasa de éxito diaria de las APIs del scraper de Crunchbase:

Loading Chart

Para obtener detalles sobre cómo se recopilan estas métricas, consulta la metodología completa del benchmark de extracción de Crunchbase metodología.

Cómo extraer datos de Crunchbase con Python

En este tutorial de extracción de datos con Python, te mostraremos cómo recopilar datos de Crunchbase, incluidos nombres de empresas, descripciones, sitios web, sedes, números de empleados, rondas de financiación y métricas de crecimiento.

Utilizamos Bright Data Web Unlocker para eludir los desafíos antirrobots y mantener un acceso estable.

Paso 1: Configuración

1import requests
2from bs4 import BeautifulSoup
3import json
4import time
5from datetime import datetime
6import re
7
8# You can get these from Bright Data
9API_TOKEN = 'your_api_token_here'
10ZONE_NAME = 'your_zone_name'
11API_URL = 'https://api.provider.com/request'
12
13AI_COMPANIES = ['company-1', 'company-2', 'company-3']
14results = []

Comienza instalando las bibliotecas de Python necesarias para la extracción de datos web y configurando nuestro proxy de la API de Crunchbase.

Los slugs de las empresas son los identificadores únicos de URL en Crunchbase (por ejemplo, si la URL de la página es crunchbase.com/organization/anthropic, el slug es anthropic).

Paso 2: Realizar solicitudes a través del web unlocker

1for slug in AI_COMPANIES:
2    url = f'https://www.crunchbase.com/organization/{slug}'
3
4    try:
5        response = requests.post(
6            API_URL,
7            headers={
8                'Authorization': f'Bearer {API_TOKEN}',
9                'Content-Type': 'application/json'
10            },
11            json={
12                "zone": ZONE_NAME,
13                "url": url,
14                "format": "raw",
15                "method": "GET",
16                "country": "us"
17            },
18            timeout=90
19        )
20
21        if response.status_code != 200:
22            continue

En lugar de enviar solicitudes directas a Crunchbase, utilizamos la API del web unlocker para eludir los sistemas antirrobots y garantizar resultados consistentes. Este método es ideal para la extracción de datos a gran escala de Crunchbase, ya que devuelve respuestas HTML limpias mientras gestiona automáticamente los CAPTCHAs y los retrasos de renderizado de JavaScript.

Paso 3: Analizar el contenido HTML

1soup = BeautifulSoup(response.text, 'html.parser')
2text = soup.get_text()

Analizamos el HTML devuelto por Crunchbase utilizando BeautifulSoup, extrayendo texto para la extracción de datos estructurados. Este paso es esencial para cualquier scraper de Crunchbase en Python, ya que nos permite localizar elementos como el nombre de la empresa, la descripción y la URL del sitio web.

Paso 4: Extraer el nombre de la empresa

1name = None
2title = soup.find('title')
3if title:
4    match = re.match(r'^([^-]+)', title.get_text())
5    if match:
6        name = match.group(1).strip()
7        if 'Crunchbase' in name:
8            name = None

Aquí, extraemos el nombre de la empresa de la etiqueta <title> en la página de Crunchbase. El nombre aparece antes del primer guion, y utilizamos regex para capturarlo y limpiarlo. Esto asegura que nuestro scraper de Crunchbase recopile solo nombres de empresas válidos, no títulos del sistema o marcadores de posición.

Paso 5: Extraer la descripción de la empresa

1description = None
2meta = soup.find('meta', {'name': 'description'})
3if meta:
4    description = meta.get('content')

La etiqueta meta description nos proporciona un resumen estandarizado de la empresa. Es una excelente fuente de descripciones comerciales consistentes para crear un scraper de datos de empresas o un conjunto de datos de enriquecimiento.

Paso 6: Extraer la URL del sitio web de la empresa

1website = None
2for link in soup.find_all('a', href=True):
3    href = link.get('href', "")
4    link_text = link.get_text(strip=True)
5    if href.startswith('http') and 'crunchbase.com' not in href:
6        if any(d in link_text.lower() for d in ['.com', '.ai', '.io', '.co']):
7            website = href
8            break

Este bloque extrae la URL oficial del sitio web de la empresa de Crunchbase. Dado que Crunchbase muestra los dominios como texto de enlace visible, filtramos los enlaces internos de Crunchbase e identificamos los sitios web válidos de las empresas.

Paso 7: Extraer la ubicación de la sede

1headquarters = None
2hq_links = soup.find_all('a', href=re.compile(r'/search/organizations/field/organization/location_identifiers/'))
3if hq_links:
4    headquarters = hq_links[0].get_text(strip=True)

Localizamos la ciudad o el país de la sede dirigiéndonos a los enlaces de Crunchbase que coinciden con patrones de URL de ubicación conocidos. Extraer esto asegura que tus datos de Crunchbase incluyan metadatos de ubicación útiles para el análisis regional o la segmentación de mercado.

Paso 8: Extraer el número de empleados

1employees = None
2emp_links = soup.find_all('a', href=re.compile(r'/search/people/field/organization/num_employees_enum/'))
3if emp_links:
4    emp_text = emp_links[0].get_text(strip=True)
5    if emp_text and emp_text[0].isdigit():
6        employees = emp_text
7
8if not employees:
9    for span in soup.find_all('span', {'class': 'component--field-formatter'}):
10        span_text = span.get_text(strip=True)
11        if re.match(r'\d+\-\d+', span_text):
12            employees = span_text
13            break

El scraper de datos de Crunchbase intenta extraer el número de empleados utilizando las etiquetas estructuradas en Crunchbase. Si no está disponible en formato de enlace, recurre a buscar fragmentos de texto (por ejemplo, "1001–5000 empleados"). Esto asegura datos fiables sobre el tamaño de la empresa para análisis y segmentación.

Paso 9: Extraer información de financiación

1funding_round = None
2funding_link = soup.find('a', href=re.compile(r'/search/funding_rounds/field/organization/last_funding_type/'))
3if funding_link:
4    funding_round = funding_link.get_text(strip=True)
5
6funding_total = None
7for span in soup.find_all('span', {'class': 'component--field-formatter'}):
8    span_text = span.get_text(strip=True)
9    if span_text.startswith('$') and any(c in span_text for c in ['M', 'B', 'K']):
10        funding_total = span_text
11        break

Esta parte del tutorial de extracción de datos de Crunchbase extrae información sobre rondas de financiación (por ejemplo, Serie A, Semilla, Serie F) y valores totales de capital recaudado.

Al dirigirse a campos de financiación estructurados, este método permite que tu scraper de Crunchbase en Python recopile datos precisos de inversión en startups para el análisis de tendencias y crecimiento.

Paso 10: Extraer puntuaciones de crecimiento y calor

La documentación actual de Crunchbase también posiciona estas señales como parte de una capa predictiva más amplia que puede incluir perspectivas de crecimiento, predicciones de financiación y otros indicadores prospectivos. Eso significa que extraer el texto de la página ya puede no capturar el contexto completo disponible ahora a través de los flujos de trabajo licenciados de Crunchbase.

1growth_score = None
2match = re.search(r'Growth Score[:\s]*(\d+)', text, re.IGNORECASE)
3if match:
4    growth_score = match.group(1)
5
6heat_score = None
7match = re.search(r'Heat Score[:\s]*(\d+)', text, re.IGNORECASE)
8if match:
9    heat_score = match.group(1)

Extraemos las puntuaciones de crecimiento y calor para medir el impulso de la empresa. Dado que Crunchbase no siempre proporciona una estructura HTML consistente para estos valores, el scraper de Crunchbase utiliza regex para detectarlos directamente del texto.

Si tienes acceso licenciado, las superficies oficiales de productos de Crunchbase o los paquetes de API pueden ser una fuente más estable para estas señales que el análisis de HTML.

Paso 11: Construir resultados y guardar la salida

1company = {
2    'slug': slug,
3    'url': url,
4    'name': name,
5    'description': description,
6    'website': website,
7    'headquarters': headquarters,
8    'employees': employees,
9    'funding': {
10        'total': funding_total,
11        'last_round': funding_round
12    } if funding_total or funding_round else None,
13    'growth_score': growth_score,
14    'heat_score': heat_score,
15    'scraped_at': datetime.now().isoformat()
16}
17results.append(company)
18
19except:
20    pass
21
22time.sleep(2)
23
24if results:
25    with open('crunchbase_data.json', 'w', encoding='utf-8') as f:
26        json.dump(results, f, indent=2, ensure_ascii=False)
27    print(f"✔ Saved {len(results)} companies to crunchbase_data.json")

Finalmente, estructuramos todos los datos de empresas de Crunchbase, incluidos nombre, descripción, financiación, tamaño y puntuaciones, en un diccionario, añadimos un pequeño retraso entre solicitudes (para una extracción segura) y guardamos la salida como crunchbase_data.json.

Esto asegura que tu pipeline de extracción de datos de Crunchbase produzca resultados limpios y estructurados listos para análisis, paneles o integración en pipelines de datos.

Ejemplo de salida

Esta salida demuestra cómo el scraper de Crunchbase en Python estructura y exporta datos.
Cada entrada incluye el nombre, la descripción, la financiación, la ubicación, el tamaño de empleados y las puntuaciones de rendimiento de una empresa, todo formateado como JSON para una fácil integración en herramientas de análisis o bases de datos.

1[
2  {
3    "slug": "company-1",
4    "url": "https://www.crunchbase.com/organization/company-1",
5    "name": "Company One",
6    "description": "An IA research company focused on safety and alignment.",
7    "website": "https://www.companyone.com",
8    "headquarters": "San Francisco",
9    "employees": "1001-5000",
10    "funding": {
11      "total": "$7.3B",
12      "last_round": "Series F"
13    },
14    "growth_score": "98",
15    "heat_score": "98",
16    "scraped_at": "2025-10-07T12:34:56.789"
17  }
18]

Deja que nuestro equipo automatice uno de tus procesos de negocio con agentes de IA, sin coste alguno.

Automatizar un proceso

Por qué la extracción de datos de Crunchbase es un desafío

Probamos múltiples métodos antes de encontrar un enfoque fiable que funcionara para Crunchbase. Cada método convencional falló debido al sistema antirrobots avanzado de Cloudflare. La protección de Crunchbase no depende de comprobaciones simples de IP. Cloudflare realiza huellas digitales profundas del navegador, analizando docenas de indicadores:

Patrones de handshake TLS
Comportamiento de ejecución de JavaScript
Completitud de la API del navegador
Huellas digitales de Canvas y WebGL
Temporización del movimiento del mouse y enfoque de la ventana

Incluso si usas proxies, Cloudflare aún puede identificar la huella digital de tu cliente. Los proxies de extracción de datos regulares solo ocultan tu IP; no emulan el comportamiento real del navegador.

Las solicitudes HTTP simples no funcionaron

Comenzamos con la biblioteca de solicitudes de Python para enviar solicitudes GET directas a las URL de Crunchbase. Cada intento devolvió 403 Prohibido. Los servidores de Crunchbase detectaron inmediatamente la firma del bot y se negaron a servir cualquier contenido.

Añadir encabezados del navegador aún falló

A continuación, intentamos añadir cadenas User-Agent, encabezados Accept y otros metadatos similares a un navegador para imitar el comportamiento legítimo del navegador. Probamos múltiples perfiles y combinaciones, pero cada solicitud fue bloqueada. El sistema de Cloudflare las atrapó a todas instantáneamente.

Selenium con Chrome se quedó atascado en Cloudflare

Escalamos a Selenium, pensando que automatizar un navegador Chrome real resolvería el problema. En su lugar, nos encontramos con la página de desafío " Solo un momento…" de Cloudflare cada vez. El spinner de carga se ejecutó indefinidamente, e incluso si ocasionalmente pasábamos, nos enfrentábamos a un CAPTCHA que no se podía resolver programáticamente.

Undetected ChromeDriver era inestable

Luego probamos Undetected-ChromeDriver, que parchea Selenium para hacerlo parecer más humano. Aunque funcionó brevemente, nos encontramos con problemas de compatibilidad del navegador y desafíos intermitentes de Cloudflare. Algunas páginas se cargaron con éxito, pero las siguientes fueron bloqueadas sin ningún patrón claro, demasiado poco fiables para uso en producción.

La solución que funciona: Web unlockers

Después de probar varios métodos, descubrimos que esta era la única solución fiable para la extracción de datos de Crunchbase consistente y escalable. Los Web Unlockers resuelven este problema ejecutando navegadores reales en la nube, completos con huellas digitales, ejecución de JavaScript y resolución de CAPTCHA. Ellos:

Rotan IPs residenciales automáticamente
Randomizan las huellas digitales del navegador
Ejecutan el renderizado completo del navegador (JavaScript, cookies, contenido dinámico)
Resuelven CAPTCHA y desafíos de Cloudflare en tiempo real

A diferencia de los proxies que solo cambian tu ubicación de red, los web unlockers replican el comportamiento de un usuario humano genuino, que es lo que Cloudflare espera.

Metodología del benchmark de extracción de datos de Crunchbase

Evalúa el rendimiento de la extracción de datos de páginas de empresas de Crunchbase, midiendo el éxito de las solicitudes, el tiempo de respuesta y la fiabilidad en condiciones consistentes.

URLs objetivo: 100 páginas de empresas de Crunchbase (crunchbase.com/organization…)
Intervalo de solicitud: cada 15 minutos
Límite de tiempo de espera: 60 segundos
Frecuencia de evaluación: diaria

Cada solicitud utiliza la misma configuración para permitir la comparación directa entre ejecuciones.

Criterios de éxito:

Una solicitud se cuenta como exitosa si:

El código de estado HTTP está entre 200 y 399, y
La respuesta contiene datos válidos de empresas de Crunchbase detectados por selectores CSS predefinidos o comprobaciones de bytes de contenido.

Las respuestas vacías o malformadas se marcan como fallidas.

Clasificación de errores:

Tiempos de espera: >60s, marcados como fallidos
Errores de red: registrados con detalles
Errores de decodificación: fallo de análisis
Respuestas vacías o malformadas: contenido faltante

Recopilación diaria de datos:

Al final del día, los resultados se agregan para calcular el resultado final. Estas métricas cuantifican la fiabilidad y el rendimiento de la extracción de datos de Crunchbase.:

Tasa de éxito diaria
Tiempo de respuesta promedio
Distribución de errores

No te pierdas nuestros análisis comparativos e insights basados en datos. El botón abre Google; seleccionar AIMultiple confirma que deseas ver AIMultiple con más frecuencia en los resultados de búsqueda de Google.

Añadir como fuente preferida

Preguntas frecuentes

Extraer datos públicamente disponibles de las páginas de Crunchbase es generalmente legal si se hace de manera responsable y para fines personales o de investigación. Sin embargo, la extracción automatizada de datos puede violar los Términos de Servicio de Crunchbase, especialmente para uso a gran escala o comercial. Consulta su API oficial antes de realizar cualquier proyecto de extracción de datos.¹

Puedes extraer puntos de datos públicos de empresas, incluido el nombre de la empresa, el rango de ingresos, el perfil de la empresa, el tipo de organización, el tipo de empresa y el correo electrónico de contacto. Evita recopilar información personal o privada, como correos electrónicos personales o enlaces de LinkedIn.

Puedes usar la API de Crunchbase cuando:

* Necesitas recopilar datos a gran escala
* Requieres actualizaciones frecuentes (diarias u horarias).
* Planeas integrar datos de Crunchbase comercialmente o revender información.

Para análisis competitivo, investigación de startups, generación de prospectos de ventas o inteligencia empresarial, los datos estructurados de empresas son esenciales. Usar un scraper de Crunchbase puede ayudar a automatizar la recopilación y el procesamiento de grandes volúmenes de datos.

Sí, la API de Crunchbase proporciona acceso estructurado a datos de empresas, financiación y personas. Sin embargo, tiene limitaciones significativas:

* Requiere una licencia de datos pagada o una suscripción para acceso a mayor volumen o datos completos
* Las solicitudes por minuto o por día están restringidas según el plan que uses
* Campos de datos como la puntuación de crecimiento o la puntuación de calor pueden no estar disponibles en el plan gratuito.

Cita este benchmark

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Gulbahar Karatas (2026) - "Scraper de Crunchbase (Python): Tutorial y Benchmark". Publicado en línea en AIMultiple.com. Recuperado el 13 de Marzo de 2026, de: https://aimultiple.com/crunchbase-scraper [Recurso en línea]

Karatas, G. (2026, 13 de Marzo). Scraper de Crunchbase (Python): Tutorial y Benchmark. AIMultiple. https://aimultiple.com/crunchbase-scraper

@misc{karatas2026,
  author = {Karatas, Gulbahar},
  title  = {{Scraper de Crunchbase (Python): Tutorial y Benchmark}},
  year   = {2026},
  month  = mar,
  howpublished    = {\url{https://aimultiple.com/crunchbase-scraper}},
  note   = {AIMultiple. Recuperado el 13 de Marzo de 2026}
}

Enlaces de referencia

Welcome to Crunchbase Data

Gulbahar Karatas

Analista de la Industria

Gülbahar es una analista de la industria de AIMultiple enfocada en la recopilación de datos web, las aplicaciones de datos web y la seguridad de aplicaciones.

Ver perfil completo