Abbiamo confrontato le prestazioni di quattro provider di web scraping su Google URL della pagina prodotto Play, inviando un totale di 4.000 richieste. Per ogni richiesta, abbiamo misurato l'affidabilità con cui il provider restituiva i dati, il tempo intercorso tra l'invio e la risposta finale e il numero di campi di metadati contenuti nella risposta.
Google Eseguire il benchmark di scraping
Nei risultati finali sono stati inclusi solo i fornitori con un tasso di successo superiore al 90%.
Per maggiori dettagli sul processo di benchmarking, consultare la sezione relativa alla metodologia di benchmarking .
Quali dati puoi estrarre da Google Play
Solo Bright Data e SerpApi hanno restituito un output strutturato. I campi restituiti erano in gran parte gli stessi, con le eccezioni di badges e editors_choice (solo in SerpApi) e currency, minimum_requirements e id (solo in Bright Data).
Google Fornitori di scraping di giochi
Bright Data ha due API di scraping disponibili per Google Play:
- Google Play Store, Raccolta tramite URL (
play.google.com): individua le pagine prodotto delle app ed estrae metadati dettagliati, tra cui titolo, sviluppatore, valutazione, numero di installazioni, classificazione dei contenuti, funzionalità di monetizzazione, note sulle novità, screenshot e informazioni sulla versione. - Google Recensioni del Play Store, raccolta tramite URL (
play.google.com): recupera la cronologia delle recensioni per qualsiasi URL di app passato.
Due dataset già pronti per Google Gioca anche in diretta nel Dataset Marketplace di Bright Data:
- Google Dataset del Play Store : una raccolta predefinita di metadati delle app, come valutazioni, descrizioni, cronologia degli aggiornamenti e informazioni sullo sviluppatore. Casi d'uso comuni includono analisi delle prestazioni, ricerche di mercato e approfondimenti comportamentali.
- Google Dataset delle recensioni del Play Store : recensioni pre-raccolte associate alle app presenti nel catalogo. Tipicamente utilizzato per analisi del sentiment , monitoraggio delle recensioni e tracciamento del feedback della concorrenza.
Per il benchmark, abbiamo eseguito gli URL di Play Store di Google tramite l'API di raccolta URL di Play Store di Bright Data. La risposta è stata restituita come JSON strutturato con 26 campi di metadati per app, più di qualsiasi altro provider nel test.
Per Google Play, SerpApi offre diversi endpoint, ognuno dei quali si rivolge a una sezione diversa del negozio:
- Google API del Play Store (
engine=google_play): esegue ricerche per parole chiave nell'intero Play Store e restituisce elenchi di app classificate. - Google API di Play Giochi : filtra i risultati della ricerca specificamente per la categoria Giochi.
- Google Play Movies API : effettua lo scraping del negozio di film su Google Play.
- Google Play Books API : effettua lo scraping del negozio di libri su Google Play.
- Google Play Product API (
engine=google_play_product): dato l'product_iddi un'app, questo endpoint estrae l'intera pagina del prodotto e restituisce un JSON analizzato contenente titolo, sviluppatore, valutazione, download, valutazione dei contenuti, acquisti in-app, novità, screenshot, distribuzione delle valutazioni, recensioni e app simili.
Nel catalogo di SerpApi non sono presenti set di dati Play pre-raccolti. Ogni richiesta raggiunge l'endpoint live e restituisce dati aggiornati.
Abbiamo effettuato lo scraping delle pagine dell'app Play utilizzando l'API del prodotto Play. La risposta arriva in formato JSON analizzato, quindi non è necessario alcun parsing HTML lato client. I tempi di risposta end-to-end sono stati i più brevi del benchmark, completandosi spesso in meno di un secondo.
Nimble non offre un'API dedicata per Google Play. Per estrarre dati dalle pagine prodotto di Google Play, abbiamo inviato le richieste tramite la loro API di estrazione generica.
L'endpoint accetta qualsiasi URL insieme a un flag render: true e un driver del browser stealth (noi abbiamo usato vx10) e restituisce la pagina come HTML renderizzato.
Zyte adotta un approccio a endpoint singolo per Google Play. La stessa API Zyte gestisce ogni richiesta e il comportamento è controllato da un flag sul payload. L'impostazione browserHtml: true avvia un browser headless, esegue il JavaScript della pagina e restituisce l'HTML completamente renderizzato, che è l'unica modalità che funziona effettivamente per le pagine prodotto di Google Play.
L'alternativa, httpResponseBody: true, salta il rendering del browser e restituisce il corpo HTTP grezzo, ma in questa modalità manca la maggior parte del contenuto della pagina.
Per Google Play, abbiamo inviato richieste tramite l'API Zyte con browserHtml: true.
Come gestiscono i fornitori le recensioni degli utenti su Google Play?
Bright Data offre un set di dati separato per le recensioni di giochi Google insieme al set di dati delle pagine prodotto, strutturato specificamente per casi d'uso con molte recensioni.
L'API Play Product di SerpApi restituisce le recensioni recenti in linea con la risposta di ogni pagina prodotto e supporta la paginazione attraverso l'intera cronologia delle recensioni con il parametro all_reviews=true.
I prodotti Nimble e Zyte non hanno recensioni specifiche. Le recensioni possono comunque essere estratte dalla pagina HTML renderizzata utilizzando i selettori CSS, ma la pagina del prodotto stessa mostra solo un piccolo numero di recensioni in evidenza. Per ottenere l'elenco completo delle recensioni in questo modo è necessario caricare separatamente la sezione "Vedi tutte le recensioni", il che aggiunge ulteriori passaggi di scraping.
Google Metodologia di benchmark per lo scraping di giochi
Abbiamo confrontato le prestazioni di sei fornitori di web scraping su 1.000 URL reali di pagine prodotto di Play, per un totale di 6.000 richieste.
Una richiesta doveva soddisfare tre condizioni in sequenza per essere considerata andata a buon fine:
- Il fornitore doveva rispondere con uno stato HTTP compreso tra 200 e 399, oppure con un codice di stato 404 pulito.
- Il lavoro doveva essere completato senza scadere del tempo o commettere errori.
- La risposta doveva effettivamente contenere dati estraibili. Per gli output JSON, ciò significava che almeno uno tra
title,rating,developeronumber_of_reviewsdoveva essere popolato. Per gli output HTML, almeno uno dei selettori CSS che avevamo raccolto ed elencato prima del benchmark doveva corrispondere.
Il tempo di completamento è stato misurato con un orologio reale, dal momento in cui la richiesta è stata inviata fino alla ricezione della risposta finale. Per i provider asincroni, questo include naturalmente i ritardi di accodamento e di polling.
I 1.000 URL sono stati raccolti eseguendo ricerche per parole chiave in categorie come giochi, social, produttività, finanza, fitness e foto e video, quindi eliminando i duplicati con un fattore di product_id. Il risultato copre un'ampia gamma di livelli di popolarità e tipologie di app.
Tutti i provider operavano con le stesse limitazioni: una richiesta alla volta senza parallelismo, un intervallo di 2 secondi tra richieste consecutive, un backoff di 30 secondi sulla risposta HTTP 429 (fino a 3 tentativi), un timeout di invio di 300 secondi, un timeout di esecuzione di 600 secondi e una singola esecuzione per URL per provider.
FAQ
Play è il principale canale di distribuzione per le app Android e le sue pagine prodotto rivelano un'ampia gamma di utili segnali di mercato: classifiche delle app all'interno delle categorie, prezzi, livelli di acquisto in-app, intervalli di download precisi, frequenza di rilascio, note di rilascio, classificazione dei contenuti e sezioni "Altro da questo sviluppatore". Le aziende utilizzano questi dati per monitorare i tempi di rilascio dei concorrenti, tenere traccia dei cambiamenti di monetizzazione tra le app, creare pipeline di ricerca di parole chiave ASO, alimentare i flussi di recensioni nei modelli NLP e confrontare la crescita dei download nelle diverse regioni. La raccolta manuale è irrealistica su scala significativa.
Le pagine di gioco pubbliche di Google possono essere consultate senza autenticazione e l'estrazione di dati web pubblicamente disponibili è considerata legale in molte giurisdizioni, sebbene le regole varino. I Termini di Servizio di Google limitano l'accesso automatizzato, quindi è importante tenere conto degli aspetti pratici: rispettare i limiti di velocità del server, non aggirare alcun sistema di login o paywall, non raccogliere dati personali sui recensori oltre a quelli pubblicamente disponibili e verificare se i dati verranno ridistribuiti o venduti. Per gli usi commerciali, la scelta più sicura è quella di richiedere una consulenza legale specifica per la propria giurisdizione.
Sì, quando gli sviluppatori rispondono alle recensioni degli utenti, tali risposte fanno parte dei dati pubblici delle recensioni. I fornitori che restituiscono recensioni (dataset Recensioni di Bright Data, SerpApi con all_reviews=true) includono il testo della risposta dello sviluppatore insieme alla recensione originale, quando presente.
Sì. Play espone le pagine delle classifiche per categoria (le migliori app gratuite, le migliori app a pagamento, le migliori app con i maggiori incassi). La maggior parte dei provider di scraping può recuperare direttamente queste pagine e Play Store dispone di un parametro dedicato nella sua API per recuperarle come JSON strutturato. Questo è utile per monitorare quali app guadagnano o perdono posizioni in classifica nel tempo all'interno di una categoria.
Sì. I campi version e updated_on sono entrambi esposti sulle pagine prodotto di Google Play e restituiti da provider strutturati. L'estrazione periodica dei dati dalla pagina e il confronto dei valori è un metodo comune per rilevare le nuove versioni senza dover ricorrere ai canali ufficiali di Google.
Parzialmente. L'approccio di scraping generale funziona su qualsiasi pagina del Play Store, ma la struttura dei campi varia a seconda del tipo di store. Libri e film hanno metadati diversi (autore, durata, editore) rispetto alle app. SerpApi ha motori separati per ogni store (google_play_movies, google_play_books, google_play_games). Il dataset delle app di Bright Data è specifico per le app e necessiterebbe di un dataset diverso per gli altri tipi di store.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.