ChatGPT est une solution simple pour intégrer l'IA au web scraping , évitant ainsi aux développeurs le travail manuel d'analyse qui exige des mises à jour constantes. L'utilisation de modèles linéaires logiques (LLM) s'impose comme une pratique de choix pour le web scraping.
Vous trouverez ci-dessous des exemples d'utilisation de ChatGPT pour le web scraping, notamment divers cas où la combinaison du web scraping et de ChatGPT peut faciliter la collecte de données :
Comment extraire des données de sites web à l'aide de ChatGPT
Dans ce tutoriel, nous utilisons les flux de travail de recherche et de codage actuels de ChatGPT, connectés au Web. Outre l'analyse HTML manuelle, les développeurs peuvent désormais utiliser la recherche Web intégrée, l'importation de fichiers et des outils de recherche approfondie pour analyser les pages et générer une logique d'extraction.
1. Charger le fichier HTML :
La méthode manuelle d'enregistrement local et de chargement du HTML fonctionne, mais n'est plus la seule option native. L'API Responses prend désormais en charge la recherche web, une gestion plus étendue des fichiers entrants et des flux de travail de recherche approfondis permettant de combiner résultats web, fichiers chargés et sources de données connectées.
Choisissez le site web cible dont vous souhaitez extraire des données. Appuyez sur Ctrl + S (ou Cmd + S sur macOS) pour enregistrer la page au format HTML. Si vous souhaitez automatiser l'enregistrement du fichier HTML, vous pouvez utiliser l'exemple d'invite suivant. ChatGPT générera alors le code Python nécessaire pour enregistrer le fichier HTML à partir de l'URL fournie.
Exemple d'invite à ChatGPT :
« Veuillez fournir un script Python qui automatise le processus d'enregistrement d'une page HTML à partir de l'URL suivante : https://www.walmart.com/browse/electronics/gaming-mouse/3944_1089430_132959_1008621_4842284_9144425. Le script doit envoyer une requête GET à la page, récupérer le contenu HTML et l'enregistrer dans un fichier nommé walmart_gaming_mouse.html . »
2. Inspection de la structure du code HTML :
Une fois que vous avez enregistré le fichier HTML depuis la page cible, faites-le glisser et déposez-le dans ChatGPT.
Les pages générant du contenu avec JavaScript peuvent nécessiter davantage qu'une simple inspection statique du code HTML. Dans ce cas, les développeurs doivent vérifier si le fichier enregistré contient les éléments cibles ou si un flux de travail basé sur le Web ou sur un navigateur est requis avant de générer les sélecteurs.
Exemple de message d'invite pour ChatGPT :
Veuillez fournir un script Python qui automatise l'inspection de la structure HTML du fichier walmart_gaming_mouse.html afin d'identifier les balises et classes HTML contenant le nom, le prix et le lien du produit. Le script doit charger le fichier HTML enregistré, trouver les éléments contenant ces informations et afficher les noms de balises, classes et contenus textuels correspondants.
Exemple de script Python pour automatiser l'inspection :
3. Analyse des données issues du code HTML :
Exemple d'invite à ChatGPT :
« Veuillez fournir un script Python qui automatise l'analyse du fichier HTML walmart_gaming_mouse.html afin d'en extraire les informations produit telles que le nom, le prix et le lien. Le script doit analyser le code HTML, extraire les informations nécessaires pour chaque souris de jeu présente sur la page et les enregistrer dans un format structuré, tel qu'un fichier CSV. »
Script Python pour l'analyse des données :
Pour les pages statiques, l'enregistrement du fichier HTML reste une solution pratique. Pour des flux de travail plus dynamiques, les équipes peuvent également recourir à la recherche en ligne ou à l'extraction de données via API afin d'analyser le contenu actuel de la page, de comparer plusieurs sources et de générer une logique d'extraction sans dépendre uniquement d'un fichier enregistré manuellement.
4. Stockage ou affichage des données :
Exemple d'invite à ChatGPT :
Veuillez fournir un script Python qui enregistre les informations produit extraites du fichier walmart_gaming_mouse.html dans un format structuré tel que CSV. Le script doit extraire le nom, le prix et le lien du produit, puis les enregistrer dans un fichier CSV nommé gaming_mouse_products.csv. De plus, le script doit afficher un message de confirmation une fois les données enregistrées.
Script Python pour stocker ou afficher les données :
Utilisation de ChatGPT comme outil XPath
ChatGPT peut vous aider à extraire des éléments spécifiques de la page cible à l'aide d'expressions XPath. Lorsque vous demandez à ChatGPT comment utiliser XPath pour extraire des données, vous devez :
- Examinez d'abord la structure HTML.
- Gérer les situations limites, notamment les données manquantes ou le contenu généré par JavaScript.
- Pour tenir compte des petites différences en HTML, utilisez des expressions XPath flexibles.
XPath reste utile pour les flux de travail de web scraping actuels, mais les interfaces d'agents natives des navigateurs commencent à émerger comme une alternative pour certains sites.
Par exemple, Chrome a introduit WebMCP en avant-première en 2026 pour permettre aux sites Web d'exposer des outils structurés aux agents d'IA, réduisant ainsi la dépendance à l'égard de la devinette fragile du DOM pour les cas d'utilisation pris en charge.
Rapide :
« Comment puis-je utiliser XPath pour extraire tous les noms de produits, les prix et les liens de ce fichier HTML ? »
Réponse de ChatGPT :
Applications ChatGPT dans le web scraping
1. Intégrer ChatGPT dans les flux de travail de web scraping
MCP signifie Model Context Protocol (Protocole de contexte de modèle). Il s'agit d'une méthode standardisée permettant aux systèmes d'IA de se connecter à des outils et sources de données externes, notamment les systèmes web et d'entreprise, de manière plus structurée.
Les MCP de Web scraping , tels que ceux fournis par Bright Data, agissent comme des intermédiaires qui gèrent le rendu de contenu dynamique, la rotation IP et les mécanismes de contournement anti-bot, permettant à ChatGPT d'accéder et de traiter des données Web à grande échelle sans gestion directe des requêtes HTTP.
Dans les flux de travail actuels (OpenAI), la recherche approfondie peut combiner la recherche Web, les serveurs MCP distants et la récupération de fichiers. (OpenAI) a également mis à jour la recherche approfondie en 2026 avec des contrôles de recherche sur des sites de confiance, des connexions application/MCP et un suivi de la progression en temps réel, la rendant plus adaptée aux tâches de recherche et d'extraction supervisées que les flux de travail basés uniquement sur des invites.
Vous pouvez intégrer ces MCP à ChatGPT en les configurant via des agents VSCode, tels que GitHub Copilot, ou en tirant parti de bibliothèques comme mcp-use, permettant des flux de travail d'extraction de données Web transparents et évolutifs. 1
2. Recherche Web et recherche approfondie pour l'extraction surveillée
ChatGPT ne se limite plus à générer du code d'extraction de données à partir d'entrées statiques. Son ensemble d'outils actuel comprend une recherche Web intégrée pour une récupération actualisée, des entrées de fichiers pour travailler avec des sources enregistrées et des modèles de recherche approfondie capables de combiner résultats Web, fichiers et sources MCP distantes au sein d'un flux de travail unique.
Ceci est particulièrement utile lorsque vous avez besoin de citations, de comparaisons multi-sources ou de résultats de recherche traçables avant d'écrire le code d'extraction.
3. Générer le code pour extraire des données des sites web
Pour les flux de travail des développeurs, la documentation OpenAI décrit la récupération de données web principalement via l'API Responses, où la recherche web peut être activée. Les mises à jour de 2026 ont étendu la prise en charge des fichiers d'entrée et ajouté des fonctionnalités d'environnement hébergé facilitant le traitement des documents et des données récupérés avant leur extraction.
N'oubliez pas que la structure et le design des sites web peuvent évoluer, ce qui peut affecter les éléments et attributs HTML que vous ciblez. Dans ce cas, votre code risque de ne pas fonctionner correctement ou d'extraire les données souhaitées. Il est donc essentiel de surveiller et de mettre à jour régulièrement votre code d'extraction de données.
Par exemple, vous pouvez utiliser l'invite ci-dessous pour extraire les données de description du produit :
De nombreux sites web utilisent des mécanismes anti-automatisation , des limitations de débit et le rendu dynamique pour restreindre la collecte massive de données. Avant toute extraction de données, les équipes doivent consulter les conditions d'utilisation du site, sa politique relative aux robots d'indexation et les exigences légales applicables, puis choisir une approche adaptée aux contraintes techniques et de conformité du site cible.
Les proxys résidentiels etles débloqueurs web sont très efficaces pour contourner les systèmes anti-bots les plus sophistiqués. Contrairement aux proxys de centres de données, les proxys résidentiels utilisent des adresses IP fournies par de véritables fournisseurs d'accès à Internet (FAI), ce qui leur confère une apparence plus authentique.
Sponsorisé
Vous pouvez intégrer une technologie de déblocage à votre robot d'exploration Web pour optimiser vos projets d'extraction de données Web. Le Web Unlocker de Bright Data permet aux entreprises de collecter des données provenant de sources Web de manière éthique et légale, tout en contournant les mesures anti-extraction.
1.1 Fournir des instructions Python pour le web scraping
ChatGPT propose des instructions détaillées pour extraire des données de sources web dans différents langages de programmation. Dans cet exemple, nous utiliserons la bibliothèque requests pour récupérer le contenu d'une page web et Beautiful Soup pour analyser et extraire les données souhaitées.
- ChatGPT fournit la commande permettant d'installer les bibliothèques requises. Vous pouvez exécuter le code suivant pour installer les bibliothèques en Python.
- Vous pouvez utiliser le code Python généré par ChatGPT pour importer requests et Beautiful Soup.
- La bibliothèque requests vous permet de récupérer le contenu de la page web cible. Vous pouvez l'utiliser pour envoyer des requêtes HTTP à ce serveur et gérer les réponses. Pour récupérer le contenu de la page produit, saisissez la commande suivante dans le terminal en remplaçant « https://example.com/product-page » par l'URL de la page web cible :
- Après avoir récupéré le contenu d'une page web, vous devez analyser les données récupérées pour en extraire les informations souhaitées. Pour analyser les données récupérées à l'aide de la bibliothèque Beautiful Soup :
Si vous utilisez le scraping sur un site web de commerce électronique pour extraire des données de produits, telles que les titres des produits, vous devez inspecter la page produit pour localiser les balises et les attributs nécessaires correspondant à ces données.
- Pour enregistrer ou imprimer les données extraites, saisissez le code généré par ChatGPT :
2. Nettoyer les données extraites
Une fois les données extraites, il est essentiel de nettoyer le texte pour supprimer les éléments non pertinents et les mots vides tels que « le », « et », etc. ChatGPT peut fournir des conseils et des suggestions sur le nettoyage et la mise en forme des données collectées.
Supposons que vous ayez collecté une grande quantité de données et que vous les ayez importées dans Excel. Cependant, vous vous apercevez que ces données sont désorganisées. Par exemple, les noms complets se trouvent dans la colonne B, et vous souhaitez séparer les prénoms et les noms de famille dans deux colonnes distinctes. Vous pouvez demander à ChatGPT de vous fournir une formule permettant de séparer les prénoms et les noms de famille.
La formule générée par ChatGPT pour extraire le prénom :
Formule générée par ChatGPT pour extraire le nom de famille :
Sponsorisé
OxyCopilot est une fonctionnalité d'API de web scraping fournie par Oxylabs, permettant d'extraire des informations pertinentes à partir d'un formatage prédéfini et de filtrer les données indésirables. Dans l'exemple ci-dessous, nous avons utilisé OxyCopilot pour optimiser les résultats de l'API en ne récupérant que les quatre champs de données clés : prix, nom, note et avis. Les détails superflus, tels que le contenu, les métadonnées et les codes d'état, ont été exclus, simplifiant ainsi le traitement des données.
3. Traitement des données extraites
3.1 Réaliser une analyse des sentiments
ChatGPT peut effectuer une analyse des sentiments sur des données extraites afin d'en extraire des informations exploitables à partir de données textuelles non structurées. Supposons que vous ayez extrait les mentions de votre marque sur une plateforme de médias sociaux pour analyser la croissance de votre audience. Une fois les données collectées et nettoyées, vous pouvez demander à ChatGPT d'analyser les données textuelles et de les qualifier de négatives, neutres ou positives (Figure 4).
Figure 4 : Démontrer le processus d'analyse et d'étiquetage d'un exemple de document texte
Voici un exemple de la manière dont vous pouvez demander à ChatGPT d'effectuer une analyse des sentiments :
« Analysez le sentiment exprimé dans le texte : « L'autonomie de la batterie est également longue. » »
Réponse de ChatGPT à notre question :
Il convient de noter que la précision de l'analyse des sentiments peut varier en fonction de différents facteurs, tels que la complexité du texte et les erreurs liées au contexte.
3.2 Catégoriser le contenu extrait
ChatGPT permet de catégoriser les données extraites selon des catégories prédéfinies. Vous pouvez définir les catégories dans lesquelles vous souhaitez classer le contenu. Voici un exemple de catégorisation de contenu avec ChatGPT :
À titre d'exemple, nous souhaitons catégoriser le contenu suivant :
Voici le résultat de la catégorisation des données extraites avec ChatGPT :
Commentaires 1
Partagez vos idées
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.
It's almost useless. If you are a good coder, you can easily write this code. I think the better way to extract dynamic or difficult html content, script send html content to chatgpt by api and chatgpt need to return the answer of key content. If this way work, it will be useful. Thanks.