Dati Estrazione di dati dal web Strumenti raschianti

Web scraping con ChatGPT: tutorial e applicazioni.

aggiornato il Mar 10, 2026

ChatGPT è un modo semplice per integrare l'intelligenza artificiale nel web scraping , risparmiando agli sviluppatori il lavoro manuale di analisi che richiede aggiornamenti costanti. L'utilizzo di LLM sta diventando una delle migliori pratiche di web scraping.

Di seguito viene illustrato l'utilizzo di ChatGPT nel web scraping, inclusi diversi casi d'uso in cui la combinazione di web scraping e ChatGPT può facilitare la raccolta dei dati:

Come estrarre dati da siti web utilizzando ChatGPT

In questo tutorial, utilizziamo i flussi di lavoro di ricerca e codifica connessi al web attualmente disponibili in ChatGPT. Oltre all'analisi manuale dell'HTML, gli sviluppatori possono ora utilizzare la ricerca web integrata, l'inserimento di file e gli strumenti di ricerca approfondita per analizzare le pagine e generare la logica di estrazione.

1. Carica il file HTML:

Il flusso di lavoro che prevede il salvataggio manuale dell'HTML in locale e il successivo caricamento funziona, ma non è più l'unica opzione disponibile. OpenAI ora supporta la ricerca web nell'API Responses, una gestione più ampia dell'input di file e flussi di lavoro di ricerca approfondita che possono combinare risultati web, file caricati e origini dati connesse.

Seleziona il sito web di destinazione da cui vuoi estrarre i dati. Premi Ctrl + S (o Cmd + S su macOS) per salvare la pagina come HTML. Se desideri automatizzare il salvataggio del file HTML, puoi utilizzare il seguente esempio di prompt. Questo comando indicherà a ChatGPT di generare il codice Python necessario per salvare il file HTML dall'URL fornito.

Esempio di richiesta a ChatGPT:

"Si prega di fornire uno script Python che automatizzi il processo di salvataggio di una pagina HTML dal seguente URL: https://www.walmart.com/browse/electronics/gaming-mouse/3944_1089430_132959_1008621_4842284_9144425. Lo script deve inviare una richiesta GET alla pagina, recuperare il contenuto HTML e salvarlo in un file denominato walmart_gaming_mouse.html ."

2. Ispezione della struttura dell'HTML:

Una volta salvato il file HTML dalla pagina di destinazione, trascinalo e rilascialo in ChatGPT.

Le pagine che visualizzano contenuti tramite JavaScript potrebbero richiedere un'analisi più approfondita rispetto a una semplice verifica statica dell'HTML. In questi casi, gli sviluppatori dovrebbero verificare se il file salvato contiene gli elementi di destinazione o se è necessario un flusso di lavoro basato sul web o sul browser prima di generare i selettori.

Esempio di richiesta per ChatGPT:

"Si prega di fornire uno script Python che automatizzi l'analisi della struttura HTML del file walmart_gaming_mouse.html per identificare i tag e le classi HTML corretti che contengono il nome del prodotto, il prezzo e il link al prodotto. Lo script dovrà caricare il file HTML salvato, trovare gli elementi che contengono i nomi dei prodotti, i prezzi e i link, e stampare i nomi dei tag, le classi e il contenuto testuale pertinenti."

Esempio di script Python per automatizzare l'ispezione:

3. Analisi dei dati dall'HTML:

Esempio di richiesta a ChatGPT:

"Si prega di fornire uno script Python che automatizzi l'analisi del file HTML walmart_gaming_mouse.html per estrarre i dettagli del prodotto, come nome, prezzo e link. Lo script dovrà analizzare l'HTML, estrarre i dettagli richiesti per ogni mouse da gioco presente nella pagina e memorizzarli in un formato strutturato, ad esempio un file CSV."

Script Python per l'analisi dei dati:

Per le pagine statiche, salvare il file HTML rimane un approccio pratico. Per flussi di lavoro più dinamici, i team possono anche utilizzare la ricerca online o il recupero basato su API per esaminare il contenuto della pagina corrente, confrontare più fonti e generare la logica di estrazione senza dover dipendere esclusivamente da un file salvato manualmente.

4. Archiviazione o visualizzazione dei dati:

Esempio di richiesta a ChatGPT:

"Si prega di fornire uno script Python che memorizzi i dettagli del prodotto estratti dal file walmart_gaming_mouse.html in un formato strutturato come CSV. Lo script dovrebbe estrarre il nome del prodotto, il prezzo e il link, e salvarli in un file CSV denominato gaming_mouse_products.csv. Inoltre, lo script dovrebbe visualizzare un messaggio di conferma una volta salvati i dati."

Script Python per memorizzare o visualizzare i dati:

Utilizzo di ChatGPT come strumento XPath

ChatGPT può aiutarti a estrarre elementi specifici dalla pagina di destinazione utilizzando espressioni XPath. Quando chiedi a ChatGPT come utilizzare XPath per estrarre dati, devi:

Innanzitutto, esamina la struttura HTML.
Gestire situazioni limite, inclusi dati mancanti o contenuti generati tramite JavaScript.
Per gestire le minime differenze nell'HTML, è consigliabile utilizzare espressioni XPath flessibili.

XPath rimane utile per i flussi di lavoro di scraping odierni, ma le interfacce native del browser stanno iniziando ad emergere come alternativa per alcuni siti.

Ad esempio, Chrome ha introdotto WebMCP in anteprima nel 2026 per consentire ai siti web di esporre strumenti strutturati agli agenti di intelligenza artificiale, riducendo così la dipendenza da fragili tentativi di indovinare il DOM per i casi d'uso supportati.

Richiesta :

"Come posso utilizzare XPath per estrarre tutti i nomi dei prodotti, i prezzi e i link da questo file HTML?"

Risposta di ChatGPT:

Applicazioni di ChatGPT nel web scraping

1. Integrare ChatGPT nei flussi di lavoro di scraping

MCP è l'acronimo di Model Context Protocol. Si tratta di un metodo standardizzato che consente ai sistemi di intelligenza artificiale di connettersi in modo più strutturato a strumenti e fonti di dati esterni, inclusi sistemi web e aziendali.

I MCP per il web scraping , come quelli forniti da Bright Data, fungono da intermediari che gestiscono il rendering dinamico dei contenuti, la rotazione degli indirizzi IP e i meccanismi di bypass anti-bot, consentendo a ChatGPT di accedere ed elaborare grandi quantità di dati web senza gestire direttamente le richieste HTTP.

Nei flussi di lavoro OpenAI attuali, la ricerca approfondita può utilizzare insieme la ricerca web, i server MCP remoti e il recupero basato su file. OpenAI ha inoltre aggiornato la ricerca approfondita nel 2026 con controlli di ricerca su siti attendibili, connessioni app/MCP e monitoraggio dei progressi in tempo reale, rendendola più adatta per attività di ricerca ed estrazione monitorate rispetto ai flussi di lavoro basati solo su prompt.

È possibile integrare questi MCP con ChatGPT configurandoli tramite agenti VS Code, come GitHub Copilot, oppure sfruttando librerie come mcp-use, consentendo flussi di lavoro di estrazione dati web fluidi e scalabili. ¹

2. Ricerca sul web e approfondimento per l'estrazione monitorata

ChatGPT non si limita più a generare codice di scraping da input statici. L'attuale set di strumenti di OpenAI include la ricerca web integrata per un recupero aggiornato, l'inserimento di file per lavorare con materiale sorgente salvato e modelli di ricerca avanzati in grado di combinare risultati web, file e fonti MCP remote all'interno di un unico flusso di lavoro.

Ciò è particolarmente utile quando sono necessarie citazioni, confronti tra più fonti o risultati di ricerca tracciabili prima di scrivere il codice di estrazione.

3. Genera il codice per lo scraping dei siti web

Per i flussi di lavoro degli sviluppatori, OpenAI documenta il recupero web principalmente tramite l'API Responses, dove la ricerca web può essere abilitata come strumento. Gli aggiornamenti del 2026 hanno ampliato il supporto per l'input di file e aggiunto funzionalità dell'ambiente ospitato che semplificano l'elaborazione dei documenti e dei dati recuperati prima dell'estrazione.

Tieni presente che la struttura e il design dei siti web possono cambiare, il che può influire sugli elementi e sugli attributi HTML che stai prendendo di mira. In tal caso, il tuo codice potrebbe non funzionare correttamente o non estrarre i dati desiderati. È necessario monitorare e aggiornare regolarmente il codice di scraping.

Ad esempio, è possibile utilizzare il prompt seguente per estrarre i dati relativi alla descrizione del prodotto:

Molti siti web utilizzano controlli anti-automazione , limiti di frequenza e rendering dinamico per limitare la raccolta di dati su larga scala. Prima di procedere con lo scraping, i team dovrebbero esaminare i termini di servizio del sito, le politiche sui robot e i requisiti legali applicabili, quindi scegliere un approccio che si adatti ai vincoli tecnici e di conformità del sito di destinazione.

I proxy residenziali egli strumenti per sbloccare il web sono molto efficaci nel superare le rigide difese anti-bot. A differenza dei proxy dei data center, i proxy residenziali utilizzano indirizzi IP forniti da veri e propri Internet Service Provider (ISP), apparendo quindi più autentici.

Sponsorizzato

È possibile integrare una tecnologia di sblocco con il proprio web crawler per migliorare i progetti di web scraping. Web Unlocker di Bright Data consente alle aziende di raccogliere dati da fonti web in modo etico e legale, aggirando le misure anti-scraping.

1.1 Fornire istruzioni Python per il web scraping

ChatGPT offre istruzioni dettagliate per l'estrazione di dati da fonti web in diversi linguaggi di programmazione. In questo esempio, utilizzeremo la libreria requests per recuperare il contenuto di una pagina web e Beautiful Soup per analizzare e recuperare i dati desiderati.

ChatGPT fornisce il comando per installare le librerie necessarie. È possibile eseguire il seguente codice per installare le librerie in Python.

È possibile utilizzare il codice Python generato da ChatGPT per importare richieste e Beautiful Soup.

La libreria requests consente di recuperare il contenuto della pagina web di destinazione. È possibile utilizzare la libreria requests per inviare richieste HTTP al server di destinazione e gestire le risposte. Per recuperare il contenuto della pagina del prodotto, digitare il seguente comando nel terminale, sostituendo "https://example.com/product-page" con l'URL della pagina web di destinazione:

Dopo aver recuperato il contenuto di una pagina web, è necessario analizzare i dati recuperati per estrarre le informazioni desiderate. Per analizzare i dati recuperati utilizzando la libreria Beautiful Soup:

Se si effettua lo scraping di un sito web di e-commerce per estrarre dati sui prodotti, come ad esempio i titoli dei prodotti, è necessario esaminare la pagina del prodotto per individuare i tag e gli attributi necessari corrispondenti ai dati.

Per salvare o stampare i dati estratti, digita il codice generato da ChatGPT:

2. Pulire i dati estratti

Una volta estratti i dati, è fondamentale ripulire il testo per rimuovere elementi irrilevanti e parole non significative come "il", "e", ecc. ChatGPT può fornire indicazioni e suggerimenti su come pulire e formattare i dati raccolti.

Supponiamo di aver raccolto una grande quantità di dati e di averli importati in Excel. Tuttavia, ci si accorge che i dati sono disorganizzati e disordinati. Ad esempio, i nomi completi si trovano nella colonna B e si desidera separare nome e cognome in due colonne diverse. È possibile richiedere a ChatGPT una formula per separare nome e cognome.

La formula generata da ChatGPT per estrarre il nome:

La formula generata da ChatGPT per estrarre il cognome:

Sponsorizzato

OxyCopilot è una funzionalità dell'API di web scraping fornita da Oxylabs, che consente agli utenti di estrarre informazioni rilevanti in base a una formattazione predefinita e di filtrare i dati indesiderati. Nell'esempio seguente, abbiamo utilizzato OxyCopilot per semplificare i risultati dell'API recuperando solo i quattro campi dati chiave: prezzo, nome, valutazione e recensione. I dettagli non necessari, come contenuto, meta tag e codici di stato, sono stati esclusi dall'output, rendendo i dati più facili da gestire.

3. Elaborare i dati estratti

3.1 Condurre un'analisi del sentiment

ChatGPT è in grado di eseguire l'analisi del sentiment sui dati estratti per generare informazioni interpretabili da dati testuali non strutturati. Supponiamo di aver estratto le menzioni del tuo marchio da una piattaforma di social media per analizzare la crescita del tuo pubblico. Dopo aver ottenuto e ripulito i dati raccolti, puoi istruire ChatGPT ad analizzare i dati testuali e a etichettarli come negativi, neutri o positivi (Figura 4).

Figura 4: Illustra il processo di analisi ed etichettatura di un documento di testo di esempio.

Ecco un esempio di come puoi istruire ChatGPT a eseguire un'analisi del sentiment:

“Analizza il sentimento espresso nel testo: 'Anche la durata della batteria è lunga'.”

La risposta di ChatGPT alla nostra richiesta:

Si noti che l'accuratezza dell'analisi del sentiment può variare a seconda di diversi fattori, come la complessità del testo e gli errori dipendenti dal contesto.

3.2 Categorizzare i contenuti estratti

ChatGPT può aiutare a categorizzare i dati estratti in categorie predefinite. È possibile definire le categorie in cui si desidera classificare il contenuto. Ecco un esempio di categorizzazione del contenuto utilizzando ChatGPT:

Ad esempio, vogliamo categorizzare i seguenti contenuti:

Di seguito è riportato l'output della categorizzazione dei dati estratti con ChatGPT:

Collegamenti di riferimento

GitHub - mcp-use/mcp-use: mcp-use is the easiest way to interact with mcp servers with custom agents

Gulbahar Karatas

Analista di settore

Segui

Gülbahar è un analista di settore di AIMultiple specializzato nella raccolta di dati web, nelle applicazioni dei dati web e nella sicurezza delle applicazioni.

Visualizza il profilo completo

Commenti 1

Condividi i tuoi pensieri

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

JayLi

Sep 04, 2023 at 06:28

It's almost useless. If you are a good coder, you can easily write this code. I think the better way to extract dynamic or difficult html content, script send html content to chatgpt by api and chatgpt need to return the answer of key content. If this way work, it will be useful. Thanks.