Abbiamo eseguito un benchmark per confrontare le prestazioni dei principali fornitori di scraper LLM come Bright Data, Oxylabs e Apify con modelli come ChatGPT, Gemini, Perplexity e Google AI Mode.
Per garantire risultati affidabili, abbiamo eseguito 1.000 test per ciascun fornitore, ripetendo ogni richiesta 10 volte per verificarne la coerenza. Il fornitore con le migliori prestazioni è indicato di seguito.
Supporto multi-modello tra i fornitori di scraper LLM
Risultati del benchmark di web scraping di LLM
- Bright Data si è affermato come leader indiscusso del mercato, occupando costantemente il quadrante " Più attraente " in ogni modalità testata. Ha fornito i metadati più completi (fino a 25 campi) ed è stato l'unico fornitore a mantenere prestazioni di elevata affidabilità utilizzando Gemini.
- Oxylabs e Apify hanno dimostrato punti di forza specifici ma sono risultati privi di coerenza universale. Allo stesso tempo, Apify ha ottenuto un elevato successo in modalità ChatGPT, ma ha incontrato difficoltà con la profondità dei metadati, ed entrambi i provider sono scesi al di sotto della soglia di successo del 90% in specifici ambienti di intelligenza artificiale incentrati sulla ricerca.
I fornitori mancanti da grafici specifici (ad esempio, Oxylabs in modalità ChatGPT o Apify in modalità AI Google) sono stati omessi perché i loro tassi di successo non raggiungevano la soglia minima di affidabilità del 90% richiesta per questo benchmark.
I 6 migliori fornitori di web scraping LLM
Bright Data ha dimostrato le prestazioni più solide tra tutti i modelli testati, mantenendo costantemente un tasso di successo vicino al 100%. Ha superato significativamente i concorrenti in termini di ricchezza dei metadati, acquisendo fino a 25 campi in modalità ChatGPT.
In particolare, Bright Data è stato l'unico fornitore a raggiungere con successo la soglia di successo del 90% per il modello Gemini , affermandosi come l'opzione più versatile per lo scraping basato su prompt multi-LLM.
Bright Data offre una varietà di modelli predefiniti per piattaforme di intelligenza artificiale.
- Scraper di ChatGPT: invia richieste all'interfaccia di ChatGPT e raccoglie le risposte .
- Perplexity ricerca (su richiesta): raccoglie citazioni ed elenchi di fonti da Perplexity, un motore di ricerca basato sull'intelligenza artificiale.
- Google Gemini e Claude (raccolti tramite URL) : lo Scraping Browser di Bright Data automatizza l'accesso a queste piattaforme, che dispongono di solide protezioni anti-bot.
- Set di dati per l'addestramento dell'IA: Bright Data fornisce set di dati pronti all'uso di contenuti generati dall'IA, consentendo alle aziende di perfezionare i propri modelli senza dover estrarre dati.
Oxylabs ha dimostrato una forte affidabilità nelle modalità Google AI e Perplexity , raggiungendo tassi di successo superiori al 94% su un'ampia gamma di campi di metadati disponibili. Tuttavia, è stato escluso dall'analisi della modalità ChatGPT poiché le sue prestazioni sono risultate inferiori alla soglia di successo obbligatoria del 90%. Il suo punto di forza risiede nell'estrazione di dati strutturati tramite modelli di intelligenza artificiale incentrati sulla ricerca.
Oxylabs offre web scraper per Perplexity, ChatGPT e Google AI Mode (SGE) . Lo scraper ChatGPT consente di inviare prompt a ChatGPT, raccogliere automaticamente risposte e metadati strutturati e selezionare il paese di origine per ogni prompt. Il rendering JavaScript è sempre abilitato per ChatGPT.
Lo scraper ChatGPT supporta prompt fino a 4.000 caratteri. Per input più lunghi, dividi il testo in sezioni più piccole e inviale come richieste separate. Lo scraper Perplexity utilizza il rendering JavaScript per tutte le richieste per impostazione predefinita. Le richieste batch non sono supportate né per Perplexity né per ChatGPT.
Decodo offre scraper per ChatGPT, Perplexity e Google AI Mode, con particolare attenzione all'estrazione delle risposte di ricerca generate dall'IA di Google. Lo scraper di ChatGPT include un interruttore "Ricerca Web" che consente agli utenti di raccogliere dati di navigazione in tempo reale direttamente nell'interfaccia.
L'API supporta diversi formati di risposta in una singola richiesta, tra cui HTML non elaborato, JSON analizzato, Markdown, XHR e screenshot PNG, offrendo agli sviluppatori maggiore flessibilità.
Decodo offre prezzi competitivi, con il piano "23K req" disponibile a 29 dollari al mese, ovvero circa 1,25 dollari ogni 1.000 richieste. Oltre alla convenienza rispetto ai fornitori più grandi, il servizio include funzionalità come il rendering JavaScript e il targeting geolocalizzato.
SerpApi offre un'API Google AI Mode che consente agli utenti di estrarre risultati dalla pagina Google AI Mode e supporta query di follow-up contestuali. Utilizzando il subsequent_request_token in ogni risposta, gli utenti possono avviare nuove richieste e confrontare contenuti e layout AI su dispositivi desktop, tablet e mobili.
Il fornitore offre un piano gratuito per testare il proprio strumento di scraping, che include 250 ricerche al mese.
Lo scraper LLM di Apify ha mantenuto un alto tasso di successo (circa il 99%) in modalità ChatGPT , sebbene abbia acquisito una gamma più limitata di campi di metadati (in media 4) rispetto ai suoi concorrenti.
A causa di tassi di successo inferiori al benchmark del 90%, Apify è stato escluso dai grafici delle prestazioni per le modalità Google AI e Perplexity , suggerendo una maggiore focalizzazione su attività standard basate su ChatGPT.
È necessario fornire uno schema JSON standard o un formato simile, come Pydantic. L'Actor garantisce che l'LLM elabori l'HTML grezzo e lo mappi ai campi specificati. Lo scraper LLM di Apify offre un vantaggio tecnico rispetto alle librerie self-hosted grazie al suo sistema Proxy integrato Apify, che include servizi come Bright Data e Oxylabs.
Per ridurre i costi di LLM, Apify rimuove i tag non necessari come <script>, <style>, <svg> e <iframe>, insieme agli elementi di navigazione e ai metadati nascosti.
L'API ChatGPT di ScrapingBee consente agli utenti di ottenere risposte generate dall'IA integrando GPT-4 con la ricerca web in tempo reale in una singola chiamata API. Se una richiesta fallisce, il servizio riprova automaticamente per un massimo di 30 secondi. Ogni richiesta andata a buon fine consuma 15 crediti.
L'API fornisce output di dati strutturati in formato Markdown o JSON e incorpora le citazioni delle fonti all'interno di results_markdown o di tag HTML specifici. Questa integrazione consente agli utenti di accedere simultaneamente ai contenuti web e alle funzionalità del modello linguistico, eliminando la necessità di strumenti di scraping e di intelligenza artificiale separati.
Metodologia
Ciascun fornitore è stato testato con 100 domande uniche, ognuna eseguita 10 volte, per un totale di 1.000 test per fornitore. Tutte le domande erano quesiti tecnici aperti nel campo dell'intelligenza artificiale e dell'apprendimento automatico, che richiedevano risposte di lunghezza pari a un paragrafo.
A ciascun fornitore è stato assegnato un timeout di dieci minuti per ogni richiesta. Se una richiesta incontrava un limite di frequenza (HTTP 429), attendevamo dieci minuti prima di riprovare. Una pausa di due secondi tra le richieste contribuiva a prevenire i limiti di frequenza e garantiva un benchmarking efficiente.
Validazione riuscita:
Ogni domanda includeva 5 parole chiave selettive che rappresentavano i concetti principali attesi nelle risposte pertinenti. Ad esempio, la domanda "Quali sono le principali differenze tra i sistemi RAG tradizionali e i sistemi RAG agentici?" utilizzava le parole chiave: RAG, differenza, agentico, recupero e tradizionale.
Queste parole chiave hanno costituito la base della nostra validazione dei dati. Abbiamo verificato la loro presenza nel testo della risposta per valutarne l'accuratezza. Se non comparivano parole chiave, la risposta veniva contrassegnata come estratta in modo errato. Per le citazioni non vuote, abbiamo verificato la presenza di almeno un URL valido con la corretta formattazione HTTP o HTTPS. Le risposte sono state classificate come valide se superavano tutti i controlli, come avvisi se non superavano i controlli a causa di contenuti vuoti o citazioni mancanti e come errori se presentavano problemi tecnici come errori di analisi.
Invio effettuato con successo:
Abbiamo misurato la percentuale di richieste API accettate dal fornitore di scraping. Una richiesta è stata considerata andata a buon fine se restituiva un codice di stato HTTP 200 o 201 e includeva un identificatore di lavoro valido o una risposta immediata. Questa metrica rifletteva l'affidabilità dell'infrastruttura del fornitore prima dell'inizio dello scraping.
Esecuzione riuscita:
Abbiamo misurato la proporzione di richieste accettate che hanno completato l'operazione di scraping e restituito i dati.
Abbiamo monitorato questi tre tassi di successo lungo tutta la pipeline per identificare i punti critici in ogni fase. Per l'analisi finale, riportiamo il tasso di successo della validazione, in quanto misura le prestazioni end-to-end dalla chiamata API al contenuto semanticamente rilevante e verificato per citazione. Sebbene un fornitore possa raggiungere il 100% di successo nell'invio e nell'esecuzione, il successo della validazione determina se i dati estratti sono utilizzabili nelle applicazioni di produzione.
Tempo di esecuzione:
La durata necessaria per ricevere una risposta completa. Per i provider asincroni come Bright Data e Apify, questo includeva il periodo di polling dall'invio del job al suo completamento. Per i provider sincroni come Oxylabs, era il tempo totale trascorso per la richiesta.
Per mantenere un elevato standard di qualità dei dati, nei grafici comparativi sono stati rappresentati solo i provider con un tasso di successo superiore al 90% . Di conseguenza, Oxylabs (modalità ChatGPT) e Apify (Google modalità AI) sono stati esclusi perché le loro prestazioni sono risultate inferiori a questo benchmark. Vale anche la pena notare che Bright Data è stato l'unico provider a utilizzare Gemini per lo scraping basato su prompt in questo test.
Metadati disponibili:
Abbiamo contato il numero di campi di dati strutturati restituiti insieme al testo grezzo, inclusi citazioni, link, testo della risposta, posizione, versione del modello e altri.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.