ChatGPT ermöglicht es, KI auf einfache Weise in Web-Scraping zu integrieren und Entwicklern die manuelle Datenanalyse und die damit verbundenen ständigen Aktualisierungen zu ersparen. Der Einsatz von LLMs (Low-Level Models) etabliert sich als eine der besten Methoden für Web-Scraping.
Im Folgenden wird die Verwendung von ChatGPT beim Web Scraping erläutert, einschließlich verschiedener Anwendungsfälle, in denen die Kombination von Web Scraping und ChatGPT die Datenerfassung erleichtern kann:
Wie man mit ChatGPT Webseiten ausliest
In diesem Tutorial verwenden wir die aktuellen webbasierten Recherche- und Codierungs-Workflows von ChatGPT. Neben der manuellen HTML-Analyse können Entwickler nun die integrierte Websuche, Dateiimporte und detaillierte Recherchetools nutzen, um Seiten zu analysieren und Extraktionslogik zu generieren.
1. Laden Sie die HTML-Datei:
Das manuelle Speichern und Hochladen von HTML-Dateien funktioniert weiterhin, ist aber nicht mehr die einzige Option. OpenAI unterstützt nun die Websuche in der Responses API, eine erweiterte Dateiverarbeitung und komplexe Recherche-Workflows, die Web-Ergebnisse, hochgeladene Dateien und verbundene Datenquellen kombinieren können.
Wählen Sie die Website aus, von der Sie Daten extrahieren möchten. Drücken Sie Strg + S (oder Cmd + S unter macOS), um die Seite als HTML-Datei zu speichern. Um das Speichern der HTML-Datei zu automatisieren, können Sie das folgende Beispiel verwenden. Dadurch generiert ChatGPT den notwendigen Python-Code, um die HTML-Datei von der angegebenen URL zu speichern.
Beispiel einer ChatGPT-Aufforderung:
„Bitte stellen Sie ein Python-Skript bereit, das den Vorgang des Speicherns einer HTML-Seite von der folgenden URL automatisiert: https://www.walmart.com/browse/electronics/gaming-mouse/3944_1089430_132959_1008621_4842284_9144425. Das Skript soll eine GET-Anfrage an die Seite senden, den HTML-Inhalt abrufen und ihn in einer Datei namens walmart_gaming_mouse.html speichern .“
2. Überprüfung der HTML-Struktur:
Sobald Sie die HTML-Datei von der Zielseite gespeichert haben, ziehen Sie sie per Drag & Drop in ChatGPT.
Seiten, die Inhalte mit JavaScript rendern, erfordern möglicherweise mehr als eine statische HTML-Prüfung. In solchen Fällen sollten Entwickler vor der Selektorgenerierung prüfen, ob die gespeicherte Datei die Zielelemente enthält oder ob ein webbasierter oder browserbasierter Workflow erforderlich ist.
Beispiel einer ChatGPT-Aufforderung:
„Bitte stellen Sie ein Python-Skript bereit, das die HTML-Struktur der Datei walmart_gaming_mouse.html automatisiert analysiert, um die korrekten HTML-Tags und -Klassen zu identifizieren, die Produktname, Preis und Produktlink enthalten. Das Skript soll die gespeicherte HTML-Datei laden, die Elemente mit Produktnamen, Preisen und Links finden und die entsprechenden Tag-Namen, Klassen und Textinhalte ausgeben.“
Beispiel eines Python-Skripts zur automatisierten Inspektion:
3. Daten aus dem HTML-Code parsen:
Beispiel einer ChatGPT-Aufforderung:
„Bitte stellen Sie ein Python-Skript bereit, das das Parsen der HTML-Datei walmart_gaming_mouse.html automatisiert, um Produktdetails wie Produktname, Preis und Link zu extrahieren. Das Skript soll den HTML-Code analysieren, die benötigten Details für jede Gaming-Maus auf der Seite extrahieren und diese in einem strukturierten Format wie einer CSV-Datei speichern.“
Python-Skript zum Parsen der Daten:
Für statische Seiten ist das Speichern der HTML-Datei nach wie vor eine praktikable Methode. Bei dynamischeren Arbeitsabläufen können Teams auch webbasierte Recherchen oder API-basierte Abfragen nutzen, um den aktuellen Seiteninhalt zu untersuchen, mehrere Quellen zu vergleichen und Extraktionslogik zu generieren, ohne sich ausschließlich auf eine manuell gespeicherte Datei verlassen zu müssen.
4. Speichern oder Anzeigen der Daten:
Beispiel einer ChatGPT-Aufforderung:
„Bitte stellen Sie ein Python-Skript bereit, das die aus der Datei walmart_gaming_mouse.html extrahierten Produktdetails in einem strukturierten Format wie CSV speichert. Das Skript soll Produktname, Preis und Link extrahieren und in einer CSV-Datei mit dem Namen gaming_mouse_products.csv speichern. Außerdem soll das Skript nach dem Speichern der Daten eine Bestätigungsmeldung anzeigen.“
Python-Skript zum Speichern oder Anzeigen der Daten:
ChatGPT als XPath-Tool verwenden
ChatGPT kann Ihnen mithilfe von XPath-Ausdrücken dabei helfen, bestimmte Elemente von der Zielseite zu extrahieren. Wenn Sie ChatGPT fragen, wie XPath zum Extrahieren von Daten verwendet werden kann, müssen Sie Folgendes tun:
- Überprüfen Sie zuerst die HTML-Struktur.
- Behandeln Sie Sonderfälle wie fehlende Daten oder JavaScript-generierte Inhalte.
- Um kleinste Unterschiede in HTML zu berücksichtigen, verwenden Sie flexible XPath-Ausdrücke.
XPath ist nach wie vor nützlich für die heutigen Scraping-Workflows, aber browsernative Agentenschnittstellen etablieren sich zunehmend als Alternative für einige Websites.
Chrome hat beispielsweise WebMCP im Jahr 2026 als frühe Vorschauversion eingeführt, um Websites die Möglichkeit zu geben, strukturierte Tools für KI-Agenten bereitzustellen und so die Abhängigkeit von fehleranfälligen DOM-Erratungen für unterstützte Anwendungsfälle zu verringern.
Aufforderung :
„Wie kann ich XPath verwenden, um alle Produktnamen, Preise und Links aus dieser HTML-Datei zu extrahieren?“
ChatGPT-Antwort:
ChatGPT-Anwendungen im Web-Scraping
1. ChatGPT in Scraping-Workflows integrieren
MCP steht für Model Context Protocol. Es handelt sich um eine standardisierte Methode, mit der KI-Systeme auf strukturiertere Weise Verbindungen zu externen Tools und Datenquellen, einschließlich Web- und Unternehmenssystemen, herstellen können.
Web-Scraping-MCPs , wie sie beispielsweise von Bright Data bereitgestellt werden, fungieren als Vermittler, die das dynamische Rendern von Inhalten, die IP-Rotation und Anti-Bot-Bypass-Mechanismen übernehmen und es ChatGPT ermöglichen, auf große Mengen von Webdaten zuzugreifen und diese zu verarbeiten, ohne HTTP-Anfragen direkt zu bearbeiten.
In den aktuellen Workflows (OpenAI) kann die Tiefenrecherche Websuche, Remote-MCP-Server und dateibasierte Abfragen kombinieren. OpenAI hat die Tiefenrecherche im Jahr 2026 zudem um Suchfunktionen für vertrauenswürdige Websites, App-/MCP-Verbindungen und eine Live-Fortschrittsanzeige erweitert. Dadurch eignet sie sich besser für überwachte Recherche- und Extraktionsaufgaben als Workflows, die ausschließlich auf Eingabeaufforderungen basieren.
Sie können diese MCPs in ChatGPT integrieren, indem Sie sie über VSCode-Agenten wie GitHub Copilot konfigurieren oder Bibliotheken wie mcp-use nutzen. Dadurch werden nahtlose und skalierbare Workflows zur Webdatenextraktion ermöglicht. 1
2. Websuche und eingehende Recherche zur überwachten Extraktion
ChatGPT beschränkt sich nicht mehr auf die Generierung von Scraping-Code aus statischen Eingaben. Das aktuelle Toolset von OpenAI umfasst eine integrierte Websuche für aktuelle Ergebnisse, Dateieingaben für die Arbeit mit gespeichertem Quellmaterial sowie umfassende Recherchemodelle, die Web-Ergebnisse, Dateien und externe MCP-Quellen in einem einzigen Workflow kombinieren können.
Dies ist besonders nützlich, wenn Sie vor dem Schreiben des Extraktionscodes Zitate, einen Vergleich mehrerer Quellen oder nachvollziehbare Forschungsergebnisse benötigen.
3. Code zum Auslesen von Websites generieren
Für Entwickler-Workflows beschreibt OpenAI die Web-Abfrage primär über die Responses API, wo die Websuche als Werkzeug aktiviert werden kann. Die Updates von 2026 erweiterten die Unterstützung für Dateieingaben und fügten Funktionen für gehostete Umgebungen hinzu, die die Verarbeitung abgerufener Dokumente und Daten vor der Extraktion vereinfachen.
Beachten Sie, dass sich Website-Strukturen und -Designs ändern können, was Auswirkungen auf die von Ihnen verwendeten HTML-Elemente und -Attribute haben kann. In diesem Fall funktioniert Ihr Code möglicherweise nicht ordnungsgemäß oder extrahiert nicht die gewünschten Daten. Sie müssen Ihren Scraping-Code daher regelmäßig überprüfen und aktualisieren.
Beispielsweise können Sie die unten stehende Eingabeaufforderung verwenden, um Produktbeschreibungsdaten zu extrahieren:
Viele Websites nutzen Mechanismen gegen automatisiertes Web-Scraping , Ratenbegrenzungen und dynamisches Rendering, um die Erfassung großer Datenmengen einzuschränken. Vor dem Web-Scraping sollten Teams die Nutzungsbedingungen, die Richtlinien für Web-Roboter und die geltenden rechtlichen Bestimmungen der Website prüfen und anschließend eine Vorgehensweise wählen, die den technischen und rechtlichen Anforderungen der Zielwebsite entspricht.
Residential Proxys undWeb-Unblocker sind äußerst effektiv, um strenge Anti-Bot-Maßnahmen zu umgehen. Im Gegensatz zu Rechenzentrum-Proxys verwenden Residential Proxys IP-Adressen von tatsächlichen Internetdienstanbietern (ISPs) und wirken dadurch authentischer.
Gesponsert
Sie können eine Entsperrungstechnologie in Ihren Webcrawler integrieren, um Ihre Web-Scraping-Projekte zu optimieren. Der Web Unlocker von Bright Data ermöglicht es Unternehmen, Daten aus Webquellen ethisch und legal zu sammeln und gleichzeitig Anti-Scraping-Maßnahmen zu umgehen.
1.1 Bereitstellung von Python-Anweisungen für Web-Scraping
ChatGPT bietet Schritt-für-Schritt-Anleitungen zum Web-Scraping in verschiedenen Programmiersprachen. In diesem Beispiel verwenden wir die Requests-Bibliothek, um den Inhalt einer Webseite abzurufen, und Beautiful Soup, um die gewünschten Daten zu parsen und zu extrahieren.
- ChatGPT stellt den Befehl zum Installieren der benötigten Bibliotheken bereit. Sie können den folgenden Code ausführen, um die Bibliotheken in Python zu installieren.
- Sie können den von ChatGPT generierten Python-Code verwenden, um requests und Beautiful Soup zu importieren.
- Die Bibliothek `requests` ermöglicht es Ihnen, den Inhalt einer Zielwebseite abzurufen. Sie können die Bibliothek verwenden, um HTTP-Anfragen an den Zielserver zu senden und die Antworten zu verarbeiten. Um den Inhalt der Produktseite abzurufen, geben Sie folgenden Befehl im Terminal ein und ersetzen Sie dabei „https://example.com/product-page“ durch die URL der Zielwebseite:
- Nachdem der Inhalt einer Webseite abgerufen wurde, müssen die abgerufenen Daten analysiert werden, um die gewünschten Daten zu extrahieren. So analysieren Sie die abgerufenen Daten mithilfe der Beautiful Soup-Bibliothek:
Wenn Sie eine E-Commerce-Website scrapen, um Produktdaten wie Produkttitel zu extrahieren, müssen Sie die Produktseite untersuchen, um die notwendigen Tags und Attribute zu finden, die den Daten entsprechen.
- Um die gesammelten Daten zu speichern oder auszudrucken, geben Sie den von ChatGPT generierten Code ein:
2. Bereinigen der extrahierten Daten
Sobald Sie die Daten extrahiert haben, ist es wichtig, den Text zu bereinigen, um irrelevante Elemente und Stoppwörter wie „der“, „und“ usw. zu entfernen. ChatGPT kann Ihnen Anleitungen und Vorschläge zur Bereinigung und Formatierung der gesammelten Daten geben.
Angenommen, Sie haben eine große Datenmenge gesammelt und in Excel importiert. Dabei stellen Sie fest, dass die Daten unstrukturiert und unübersichtlich sind. Beispielsweise befinden sich die vollständigen Namen in Spalte B, und Sie möchten Vor- und Nachnamen in zwei separate Spalten aufteilen. Sie können ChatGPT bitten, Ihnen eine Formel zur Trennung von Vor- und Nachnamen bereitzustellen.
Die von ChatGPT generierte Formel zur Extraktion des Vornamens:
Die von ChatGPT generierte Formel zur Extraktion des Nachnamens:
Gesponsert
OxyCopilot ist eine Web-Scraping-API-Funktion von Oxylabs, mit der Nutzer relevante Informationen anhand von Eingabeaufforderungen extrahieren und unerwünschte Daten herausfiltern können. Im folgenden Beispiel haben wir OxyCopilot verwendet, um die API-Ergebnisse zu optimieren, indem wir nur die vier wichtigsten Datenfelder abgerufen haben: Preis, Name, Bewertung und Rezension. Unnötige Details wie Inhalt, Meta-Tags und Statuscodes wurden aus der Ausgabe entfernt, wodurch die Daten einfacher zu verarbeiten sind.
3. Extrahierte Daten verarbeiten
3.1 Durchführung einer Stimmungsanalyse
ChatGPT kann Stimmungsanalysen von gesammelten Daten durchführen, um aus unstrukturierten Textdaten interpretierbare Erkenntnisse zu gewinnen. Angenommen, Sie haben Social-Media-Erwähnungen Ihrer Marke von einer Social-Media-Plattform gesammelt, um Ihr Zielgruppenwachstum zu analysieren. Nachdem Sie die Daten erfasst und bereinigt haben, können Sie ChatGPT anweisen, die Textdaten zu analysieren und sie als negativ, neutral oder positiv zu kennzeichnen (Abbildung 4).
Abbildung 4: Veranschaulichung des Prozesses der Analyse und Kennzeichnung eines Beispieltextdokuments
Hier ist ein Beispiel dafür, wie Sie ChatGPT anweisen können, eine Stimmungsanalyse durchzuführen:
„Analysieren Sie die Aussage des Textes: ‚Die Akkulaufzeit ist ebenfalls lang‘.“
Antwort von ChatGPT auf unsere Anfrage:
Beachten Sie, dass die Genauigkeit der Stimmungsanalyse je nach verschiedenen Faktoren variieren kann, wie z. B. der Komplexität des Textes und kontextabhängigen Fehlern.
3.2 Kategorisierung der gesammelten Inhalte
ChatGPT kann dabei helfen, gesammelte Daten in vordefinierte Kategorien einzuordnen. Sie können die Kategorien festlegen, in die die Inhalte klassifiziert werden sollen. Hier ist ein Beispiel für die Kategorisierung von Inhalten mit ChatGPT:
Beispielsweise möchten wir die folgenden Inhalte kategorisieren:
Nachfolgend die Ausgabe der Kategorisierung der gesammelten Daten mit ChatGPT:
Kommentare 1
Teilen Sie Ihre Gedanken
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.
It's almost useless. If you are a good coder, you can easily write this code. I think the better way to extract dynamic or difficult html content, script send html content to chatgpt by api and chatgpt need to return the answer of key content. If this way work, it will be useful. Thanks.