Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Crunchbase Scraper (Python): Tutorial & Benchmark

Gulbahar Karatas
Gulbahar Karatas
aktualisiert am Mär 13, 2026
Siehe unsere ethischen Normen

Crunchbase ist durch das unternehmensweite Anti-Bot-System von Cloudflare geschützt, das die meisten automatisierten Scraper blockiert. Selbst fortgeschrittene Tools wie Selenium liefern oft 403-Fehler oder endlose „Einen Moment bitte…“-Seiten.

Lerne, wie du mit Python Daten aus Crunchbase scrapen kannst: Einrichtung deiner Umgebung, Verwendung einesWeb Unlockers zum Umgehen von Beschränkungen und Extrahieren von Daten aus Crunchbase-Suchergebnissen und Unternehmensseiten.

Crunchbase Scraper API Benchmark-Ergebnis

Das Diagramm zeigt die tägliche Erfolgsquote der Crunchbase-Scraper-APIs:

Loading Chart

Einzelheiten zur Erhebung dieser Metriken finden Sie in der vollständigen Crunchbase-Scraping-Benchmark- Methodik .

Wie man Crunchbase mit Python ausliest

In diesem Python-Scraping-Tutorial zeigen wir Ihnen, wie Sie Crunchbase-Daten sammeln können, darunter Firmennamen, Beschreibungen, Websites, Hauptsitze, Mitarbeiterzahlen, Finanzierungsrunden und Wachstumskennzahlen.

Wir haben Bright Data Web Unlocker verwendet, um die Anti-Bot-Abfragen zu umgehen und einen stabilen Zugriff aufrechtzuerhalten.

Schritt 1: Konfiguration

Beginnen Sie mit der Installation der erforderlichen Python-Bibliotheken für Web-Scraping und der Konfiguration unseres Crunchbase-API-Proxys.

Firmen-Slugs sind die eindeutigen URL-Kennungen auf Crunchbase (zum Beispiel: Wenn die Seiten-URL crunchbase.com/organization/anthropic lautet, ist der Slug anthropic).

Schritt 2: Anfragen über den Web Unlocker stellen

Anstatt direkte Anfragen an Crunchbase zu senden, nutzen wir die Web Unlocker API, um Anti-Bot-Systeme zu umgehen und konsistente Ergebnisse zu gewährleisten. Diese Methode eignet sich ideal für das großflächige Scraping von Crunchbase, da sie saubere HTML-Antworten liefert und gleichzeitig CAPTCHAs und JavaScript-Rendering-Verzögerungen automatisch verarbeitet .

Schritt 3: HTML-Inhalt analysieren

Wir parsen den von Crunchbase zurückgegebenen HTML-Code mithilfe von BeautifulSoup und extrahieren den Text für die strukturierte Datenextraktion. Dieser Schritt ist für jeden Python-Crunchbase-Scraper unerlässlich, da er es uns ermöglicht, Elemente wie Firmenname, Beschreibung und Website-URL zu finden.

Schritt 4: Firmennamen extrahieren

Hier extrahieren wir den Firmennamen aus dem <title>-Tag der Crunchbase-Seite. Der Name steht vor dem ersten Bindestrich und wird mithilfe regulärer Ausdrücke erfasst und bereinigt. Dadurch wird sichergestellt, dass unser Crunchbase-Scraper nur gültige Firmennamen und keine Systemtitel oder Platzhalter erfasst.

Schritt 5: Unternehmensbeschreibung extrahieren

Das Meta-Description-Tag liefert uns eine standardisierte Unternehmenszusammenfassung. Es ist eine hervorragende Quelle für konsistente Unternehmensbeschreibungen, um einen Daten-Scraper für Unternehmensdaten oder einen Anreicherungsdatensatz zu erstellen .

Schritt 6: Die URL der Unternehmenswebsite extrahieren

Dieser Block extrahiert die offizielle Website-URL des Unternehmens aus Crunchbase. Da Crunchbase Domains als sichtbaren Linktext anzeigt, filtern wir interne Crunchbase-Links heraus und identifizieren gültige Unternehmenswebsites.

Schritt 7: Standort des Hauptsitzes extrahieren

Wir ermitteln den Hauptsitz (Stadt oder Land) anhand von Crunchbase-Links, die bekannten URL-Mustern entsprechen. Dadurch stellen wir sicher, dass Ihre Crunchbase-Daten Standortmetadaten enthalten, die für regionale Analysen oder Marktsegmentierungen nützlich sind.

Schritt 8: Mitarbeiterzahl ermitteln

Der Crunchbase-Datenscraper versucht, die Mitarbeiterzahl anhand der strukturierten Tags in Crunchbase zu extrahieren. Steht kein Link zur Verfügung, sucht er nach Textabschnitten (z. B. „1001–5000 Mitarbeiter“). Dies gewährleistet zuverlässige Unternehmensgrößendaten für Analysen und Segmentierung.

Schritt 9: Informationen zur Finanzierung extrahieren

Dieser Teil des Crunchbase-Scraping-Tutorials extrahiert Informationen zu Finanzierungsrunden (z. B. Serie A, Seed, Serie F) und den gesamten eingeworbenen Kapitalbeträgen.

Durch die gezielte Ansprache strukturierter Finanzierungsfelder ermöglicht diese Methode Ihrem Python Crunchbase Scraper, präzise Investitionsdaten von Startups für Trend- und Wachstumsanalysen zu erfassen.

Schritt 10: Wachstums- und Hitzewerte extrahieren

Die aktuelle Dokumentation von Crunchbase positioniert diese Signale als Teil einer umfassenderen Prognoseebene, die Wachstumsprognosen, Finanzierungsvorhersagen und andere zukunftsorientierte Indikatoren beinhalten kann. Das bedeutet, dass das Auslesen von Seitentexten möglicherweise nicht mehr den gesamten Kontext erfasst, der nun über lizenzierte Crunchbase-Workflows verfügbar ist.

Wir extrahieren Wachstums- und Heat-Scores, um die Dynamik eines Unternehmens zu messen. Da Crunchbase für diese Werte nicht immer eine einheitliche HTML-Struktur bereitstellt, verwendet der Crunchbase-Scraper reguläre Ausdrücke, um sie direkt aus dem Text zu extrahieren.

Wenn Sie über eine entsprechende Lizenz verfügen, sind offizielle Crunchbase-Produktoberflächen oder API-Pakete möglicherweise eine stabilere Quelle für diese Signale als das Parsen von HTML.

Schritt 11: Ergebnisse erstellen und Ausgabe speichern

Schließlich strukturieren wir alle Crunchbase-Firmendaten , einschließlich Name, Beschreibung, Finanzierung, Größe und Bewertungen, in einem Wörterbuch, fügen eine kleine Verzögerung zwischen den Anfragen ein (für sicheres Scraping) und speichern die Ausgabe als crunchbase_data.json .

Dadurch wird sichergestellt, dass Ihre Crunchbase-Datenextraktionspipeline saubere, strukturierte Ergebnisse liefert, die für Analysen, Dashboards oder die Integration in Datenpipelines geeignet sind.

Beispielausgabe

Diese Ausgabe veranschaulicht, wie der Python Crunchbase Scraper Daten strukturiert und exportiert.
Jeder Eintrag enthält den Namen des Unternehmens, eine Beschreibung , Angaben zur Finanzierung , zum Standort , zur Mitarbeiterzahl und zu den Leistungskennzahlen . Alle Daten sind im JSON-Format formatiert, um eine einfache Integration in Analysetools oder Datenbanken zu ermöglichen.

Warum das Scrapen von Crunchbase eine Herausforderung ist

Wir haben mehrere Methoden ausprobiert, bevor wir einen zuverlässigen Ansatz für Crunchbase gefunden haben. Jede herkömmliche Methode scheiterte am fortschrittlichen Anti-Bot-System von Cloudflare. Der Schutz von Crunchbase basiert nicht auf einfachen IP-Prüfungen. Cloudflare führt ein umfassendes Browser-Fingerprinting durch und analysiert Dutzende von Indikatoren.

  • TLS-Handshake-Muster
  • JavaScript-Ausführungsverhalten
  • Vollständigkeit der Browser-API
  • Canvas- und WebGL-Fingerabdrücke
  • Mausbewegungs-Timing und Fensterfokus

Selbst mit Proxys kann Cloudflare Ihren Client-Fingerabdruck identifizieren. Herkömmliche Scraping-Proxys verbergen lediglich Ihre IP-Adresse; sie simulieren nicht das tatsächliche Browserverhalten.

Einfache HTTP-Anfragen funktionierten nicht.

Wir begannen mit der Python-Bibliothek `requests`, um einfache GET-Anfragen an Crunchbase-URLs zu senden. Jeder Versuch lieferte den Fehlercode 403 Forbidden . Die Server von Crunchbase erkannten sofort die Bot-Signatur und verweigerten die Auslieferung jeglicher Inhalte.

Das Hinzufügen von Browser-Headern schlug weiterhin fehl.

Als Nächstes versuchten wir, User-Agent- Strings, Accept-Header und andere browserähnliche Metadaten hinzuzufügen, um das Verhalten eines legitimen Browsers zu simulieren. Wir testeten verschiedene Profile und Kombinationen, doch jede Anfrage wurde blockiert. Das System von Cloudflare erkannte sie alle sofort.

Selenium mit Chrome blieb bei Cloudflare hängen.

Wir griffen auf Selenium zurück, in der Annahme, die Automatisierung eines echten Chrome-Browsers würde das Problem lösen. Stattdessen landeten wir jedes Mal auf der Seite „ Einen Moment bitte… “ von Cloudflare. Der Ladekreis drehte sich endlos, und selbst wenn wir gelegentlich weiterkamen, stießen wir auf ein CAPTCHA, das sich nicht programmgesteuert lösen ließ.

Der nicht erkannte ChromeDriver war instabil.

Anschließend testeten wir Undetected-ChromeDriver , der Selenium so anpasst, dass es sich natürlicher verhält. Zwar funktionierte es kurzzeitig, doch traten Browserkompatibilitätsprobleme und sporadische Cloudflare-Fehler auf. Einige Seiten wurden zwar erfolgreich geladen, die darauffolgenden jedoch ohne erkennbares Muster blockiert – viel zu unzuverlässig für den Produktiveinsatz.

Die funktionierende Lösung: Web-Entsperrer

Nach dem Testen verschiedener Methoden erwies sich dies als die einzig zuverlässige Lösung für konsistentes und skalierbares Crunchbase-Scraping . Web Unlockers löst dieses Problem durch den Betrieb echter Browser in der Cloud, inklusive vollständigem Fingerprinting, JavaScript-Ausführung und CAPTCHA-Lösung.

  • Automatische Rotation der Wohn-IPs
  • Browser-Fingerabdrücke randomisieren
  • Vollständiges Browser-Rendering ausführen (JavaScript, Cookies, dynamische Inhalte)
  • Lösen Sie CAPTCHA- und Cloudflare-Herausforderungen in Echtzeit.

Im Gegensatz zu Proxys, die lediglich Ihren Netzwerkstandort ändern, ahmen Web-Unlocker das Verhalten eines echten menschlichen Benutzers nach, was Cloudflare erwartet.

Crunchbase-Scraping-Benchmark-Methodik

Die Leistung des Crunchbase-Firmenseiten-Scrapings wurde anhand von Benchmarks verglichen. Dabei wurden der Erfolg der Anfragen, die Antwortzeit und die Zuverlässigkeit unter einheitlichen Bedingungen gemessen.

  • Ziel-URLs: 100 Crunchbase-Unternehmensseiten (crunchbase.com/organization…)
  • Anfrageintervall: alle 15 Minuten
  • Zeitlimit: 60 Sekunden
  • Auswertungshäufigkeit: täglich

Für jede Anfrage wird die gleiche Konfiguration verwendet, um einen direkten Vergleich zwischen den Durchläufen zu ermöglichen.

Erfolgskriterien :

Eine Anfrage gilt als erfolgreich, wenn:

  • Der HTTP-Statuscode liegt zwischen 200 und 399 , und
  • Die Antwort enthält gültige Crunchbase-Firmendaten, die durch vordefinierte CSS-Selektoren oder Inhaltsbyte-Prüfungen erkannt wurden.

Leere oder fehlerhafte Antworten werden als Fehler gewertet.

Fehlerklassifizierung :

  • Zeitüberschreitung: >60 Sekunden, als fehlgeschlagen markiert
  • Netzwerkfehler: protokolliert mit Details
  • Dekodierungsfehler: Parsing-Fehler
  • Leere oder fehlerhafte Antworten: fehlender Inhalt

Tägliche Datenerfassung :

Am Ende des Tages werden die Ergebnisse zusammengeführt, um das Endergebnis zu berechnen. Diese Metriken quantifizieren die Zuverlässigkeit und Leistung des Crunchbase-Scrapings.

  • Tägliche Erfolgsrate
  • Durchschnittliche Antwortzeit
  • Fehlerverteilung

FAQs

Das Auslesen öffentlich zugänglicher Daten von Crunchbase-Seiten ist grundsätzlich legal, sofern es verantwortungsvoll und für private oder Forschungszwecke erfolgt. Automatisiertes Auslesen von Daten kann jedoch gegen die Nutzungsbedingungen von Crunchbase verstoßen, insbesondere bei großflächiger oder kommerzieller Nutzung. Prüfen Sie daher vor Beginn jeglicher Datenausleseprojekte die offizielle API von Crunchbase. 1

Sie können Datenpunkte von börsennotierten Unternehmen extrahieren, darunter Firmenname, Umsatzspanne, Firmenprofil, Organisationstyp, Unternehmensart und Kontakt-E-Mail-Adresse. Vermeiden Sie die Erfassung persönlicher oder vertraulicher Informationen wie privater E-Mail-Adressen oder LinkedIn-Profile.

Sie können die Crunchbase-API verwenden, wenn:

* Sie müssen Daten in großem Umfang sammeln.
* Sie benötigen häufige Aktualisierungen (täglich oder stündlich).
* Sie planen, Crunchbase-Daten kommerziell zu integrieren oder Erkenntnisse weiterzuverkaufen.

Für Wettbewerbsanalysen, Startup-Recherchen, die Generierung von Vertriebskontakten oder Business Intelligence sind strukturierte Unternehmensdaten unerlässlich. Mit einem Crunchbase-Scraper lässt sich das Sammeln und Verarbeiten großer Datenmengen automatisieren.

Ja, die Crunchbase-API bietet strukturierten Zugriff auf Unternehmens-, Finanzierungs- und Personendaten. Sie weist jedoch erhebliche Einschränkungen auf:

* Für den Zugriff auf größere Datenmengen oder den vollständigen Datenbestand ist eine kostenpflichtige Datenlizenz oder ein Abonnement erforderlich.
* Die Anzahl der Anfragen pro Minute oder pro Tag ist je nach gewähltem Tarif begrenzt.
* Datenfelder wie Wachstums- oder Hitzescore sind in der kostenlosen Version möglicherweise nicht verfügbar.

Gulbahar Karatas
Gulbahar Karatas
Branchenanalyst
Gülbahar ist eine KI-Branchenanalystin bei AIMultiple mit Schwerpunkt auf Webdatenerfassung, Anwendungen von Webdaten und Anwendungssicherheit.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450