Per confrontare il modo in cui i fornitori di servizi di web scraping gestiscono l'estrazione delle recensioni di Amazon, abbiamo testato 5 fornitori di servizi di web scraping sullo stesso set di URL di recensioni di prodotti Amazon, per un totale di 2.500 richieste da parte di tutti i fornitori.
benchmark di scraping delle recensioni di Amazon
Per maggiori dettagli sul nostro processo di test, consultate la nostra metodologia di benchmarking .
Formato di risposta e campi di metadati disponibili per fornitore
Recensioni di Amazon: risultati di benchmark estratti
Bright Data ha ottenuto un tasso di successo del 96% su Amazon e ha restituito l'output strutturato più ricco di tutti i provider, con 29 campi JSON per recensione. È stato uno dei tre provider a restituire JSON strutturato su questo dominio e l'unico a includere campi estesi come immagini delle recensioni, dettagli delle varianti e suddivisioni delle valutazioni a livello di prodotto, oltre ai dati standard delle recensioni. Sui 348 URL in cui tutti e quattro i principali provider hanno avuto successo, Bright Data ha costantemente restituito la risposta più completa.
Oxylabs ha raggiunto un tasso di successo del 92% su Amazon con il tempo di completamento più rapido nel benchmark, pari a 4 secondi per richiesta. Ha restituito 10 campi JSON strutturati per ogni recensione. La combinazione di un alto tasso di successo e una bassa latenza lo ha reso l'opzione più efficiente su questo dominio.
Decodo ha registrato un tasso di successo dell'11% su Amazon con un tempo medio di completamento di 10 secondi sugli URL elaborati. Sebbene utilizzasse un parser Amazon dedicato con output JSON strutturato, l'API ha restituito risultati vuoti per la stragrande maggioranza degli URL. Le risposte positive provenivano principalmente dal corretto rilevamento dell'errore 404 piuttosto che dall'effettiva estrazione delle recensioni.
Zyte ha raggiunto un tasso di successo del 75% su Amazon con un tempo medio di completamento di 13 secondi. Ha restituito HTML renderizzato anziché dati strutturati, con i campi delle recensioni estratti tramite selettori CSS. Sebbene il tasso di successo fosse inferiore a quello del gruppo migliore, ha coperto la maggior parte degli URL di test senza richiedere una configurazione specifica per il dominio.
Nimble ha registrato un tasso di successo del 92% su Amazon, corrispondente a Oxylabs, con un tempo medio di completamento di 13 secondi. Ha restituito HTML renderizzato e analizzato con selettori CSS. Il risultato è stato coerente per l'intero set di URL, senza cali significativi.
metodologia di benchmarking delle recensioni di Amazon
Abbiamo testato 5 provider di web scraping su 500 URL di prodotti Amazon. Ogni provider ha ricevuto lo stesso set di URL.
Fornitori e tipologie di integrazione
Tre provider hanno restituito JSON strutturato con i campi delle recensioni analizzati: Bright Data (29 campi), Oxylabs (10 campi) e Decodo (parser dedicato ad Amazon). Nimble e Zyte hanno restituito HTML renderizzato, che abbiamo analizzato utilizzando selettori CSS per estrarre cinque campi standard delle recensioni (reviewer_name, review_text, rating, review_date, review_title).
Validazione
Ogni risposta è stata sottoposta a una convalida in tre fasi:
- Invio : era richiesto un codice di stato HTTP compreso tra 200 e 399 o 404 per superare la verifica.
- Esecuzione : Per i provider asincroni, l'attività di scraping doveva essere completata senza timeout o errori.
- Validazione : la risposta doveva contenere dati di recensione utilizzabili. Per le risposte JSON, ciò significava almeno una recensione con un review_text (stringa) o un rating (numero intero) validi. Per le risposte HTML, almeno un selettore CSS doveva corrispondere e restituire il contenuto della recensione.
Prima di procedere al benchmark completo, abbiamo inviato a ciascun fornitore una serie di URL intenzionalmente non funzionanti, pagine con errore 404 confermato e pagine attive senza recensioni. Questo ci ha permesso di mappare il modo in cui ciascun fornitore comunica questi casi limite, sia tramite codici di errore espliciti, stato HTTP o corpi di risposta vuoti. Le pagine identificate come 404 o prive di recensioni sono state considerate valide, poiché il fornitore ha elaborato correttamente la richiesta e restituito una risposta appropriata.
Abbiamo quindi applicato una verifica incrociata tra i fornitori sui risultati completi: quando un fornitore restituiva un output vuoto su un URL in cui almeno un altro fornitore estraeva i dati delle recensioni, quel risultato vuoto veniva riclassificato come errore. Questo ha permesso di distinguere gli errori di estrazione dalle pagine che non avevano recensioni da restituire.
Tempo di completamento
Il tempo di completamento è stato misurato end-to-end, dalla richiesta API iniziale alla ricezione della risposta finale. Per i provider asincroni, questo include il polling e il tempo di attesa fino a quando i risultati non sono pronti.
Set di dati
I 500 URL di prova sono stati selezionati dalle pagine prodotto di Amazon, con un numero variabile di recensioni e appartenenti a diverse categorie di prodotto. Prima del test, gli URL sono stati ripuliti per rimuovere formati non validi e duplicati.
Configurazione condivisa
Tutti i fornitori hanno ricevuto URL identici e sono stati testati nelle stesse condizioni:
- Esecuzione sequenziale: una richiesta alla volta, nessuna richiesta parallela
- Intervallo tra le richieste: 2 secondi
- Gestione del limite di richieste: attesa di 30 secondi con fino a 3 tentativi sulla porta HTTP 429
- Tempo limite per l'invio: 300 secondi
- Tempo di timeout per l'esecuzione: 600 secondi
- Ogni URL è stato testato una volta per ciascun fornitore.
Configurazioni del provider
Bright Data ha utilizzato l'API Dataset con un dataset dedicato di Amazon Reviews, restituendo JSON strutturato con 29 campi per recensione. L'API è stata interrogata tramite l'endpoint /progress/{snapshot_id} a intervalli di 1 secondo fino al completamento.
Oxylabs ha utilizzato un'API di origine Amazon dedicata (fonte: amazon) con output JSON strutturato, restituendo 10 campi per recensione.
Decodo ha utilizzato un parser Amazon dedicato (target: amazon, parse: true) con output JSON strutturato. Nonostante l'utilizzo di una configurazione specifica per il dominio, l'API ha restituito risultati vuoti per la maggior parte degli URL.
Nimbleway ha utilizzato l'API Web con render: true per il rendering JavaScript. Tutte le richieste hanno restituito HTML renderizzato e analizzato con selettori CSS.
Zyte ha utilizzato l'API Extract con browserHtml: true, restituendo HTML renderizzato in JavaScript tramite un browser headless, analizzato con selettori CSS.
FAQ
L'estrazione automatizzata delle recensioni da Amazon consiste nell'estrazione dei dati relativi alle recensioni dei clienti dalle pagine dei prodotti Amazon, inclusi il testo delle recensioni, le valutazioni, i dettagli dell'autore e le date. Viene comunemente utilizzata per l'analisi del sentiment, il monitoraggio della concorrenza, la ricerca di mercato e le analisi di mercato su larga scala.
Amazon utilizza la limitazione della frequenza delle richieste, i CAPTCHA e il fingerprinting del browser per rilevare gli accessi automatizzati. I fornitori di servizi di scraping gestiscono queste protezioni tramite proxy residenziali a rotazione, rendering headless del browser e limitazione delle richieste. Alcuni fornitori offrono API Amazon dedicate che gestiscono internamente queste protezioni, mentre altri utilizzano strumenti di sblocco generici che renderizzano la pagina e restituiscono codice HTML.
La maggior parte delle API di scraping restituisce di default tra 10 e 30 recensioni per richiesta. I provider con API Amazon dedicate, come Bright Data e Oxylabs, consentono di configurare il numero di recensioni per prodotto tramite parametri come limit_multiple_results. I provider basati su HTML restituiscono tutte le recensioni visualizzate sulla pagina, che in genere corrispondono alla prima pagina di recensioni (circa 10).
I fornitori testati in questo benchmark estraggono le recensioni dalle pagine prodotto accessibili al pubblico senza autenticazione. Le recensioni visibili solo agli utenti registrati, come alcune recensioni di Vine o contenuti specifici per gli acquisti, non sono accessibili tramite queste API.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.