Comparaison des 4 meilleurs fournisseurs de web scraping (991259_849)
Nous avons évalué quatre fournisseurs de web scraping sur les URL des pages produits Play (Google), en envoyant un total de 4 000 requêtes. Pour chaque requête, nous avons mesuré la fiabilité des données renvoyées, le délai entre la soumission et la réponse finale, ainsi que le nombre de champs de métadonnées contenus dans la réponse.
Google Analyse comparative du scraping de jeux
Seuls les prestataires affichant un taux de réussite supérieur à 90 % ont été inclus dans les résultats finaux.
Pour plus de détails sur le processus d'analyse comparative, consultez la section relative à la méthodologie d'analyse comparative .
Quelles données pouvez-vous extraire de Google Play
Seuls Bright Data et SerpApi ont renvoyé une sortie structurée. Les champs renvoyés étaient globalement identiques, à l'exception de badges et editors_choice (uniquement dans SerpApi) et de currency, minimum_requirements et id (uniquement dans Bright Data).
Google Fournisseurs de données de jeu
Bright Data dispose de deux API de scraping disponibles pour Google Play :
- Google Play Store, Collect by URL (
play.google.com): cible les pages de produits d'applications et récupère des métadonnées détaillées, notamment le titre, le développeur, la note, le nombre d'installations, la classification du contenu, les fonctionnalités de monétisation, les notes sur les nouveautés, les captures d'écran et les informations de version. - Google Avis du Play Store, Collecte par URL (
play.google.com) : récupère l'historique des avis pour toute URL d'application transmise.
Deux jeux de données prêts à l'emploi pour Google Play sont également disponibles sur la plateforme de jeux de données de Bright Data :
- Google Jeu de données Play Store : collection prédéfinie de métadonnées d’applications telles que les notes, les descriptions, l’historique des mises à jour et les informations sur le développeur. Les cas d’utilisation courants incluent l’analyse des performances, les études de marché et l’analyse comportementale.
- Google Jeu de données « Avis sur le Play Store » : avis pré-collectés associés aux applications du catalogue. Généralement utilisé pour l’analyse des sentiments , le suivi des avis et l’étude des retours des concurrents.
Pour ce test de performance, nous avons utilisé l'API « Collect by URL » du Play Store (proposée par Google) avec les URL Play (proposées par Bright Data). La réponse obtenue était un JSON structuré contenant 26 champs de métadonnées par application, soit plus que tout autre fournisseur testé.
Pour Google Play, SerpApi propose plusieurs points de terminaison, chacun ciblant une section différente du magasin :
- Google API Play Store (
engine=google_play) : effectue des recherches par mot-clé sur l'ensemble du Play Store et renvoie des listes d'applications classées. - Google API Play Games : filtre les résultats de recherche pour ne retenir que la catégorie Jeux.
- Google API Play Movies : récupère les films du magasin sur Google Play.
- Google API Play Livres : récupère les données de la boutique de livres sur Google Play.
- Google API Play Product (
engine=google_play_product) : étant donné l’product_idd’une application, ce point de terminaison récupère l’intégralité de la page produit et renvoie un JSON analysé couvrant le titre, le développeur, la note, les téléchargements, la classification du contenu, les achats intégrés, les nouveautés, les captures d’écran, la distribution des notes, les avis et les applications similaires.
Il n'existe aucun ensemble de données Play pré-collecté dans le catalogue de Google. Chaque requête atteint le point de terminaison en direct et renvoie des données actualisées.
Nous avons extrait les pages de l'application Play Google à l'aide de l'API Play Product Google. La réponse arrive au format JSON analysé ; aucun traitement HTML n'est donc nécessaire côté client. Les temps de réponse de bout en bout étaient les plus courts de notre test, s'effectuant fréquemment en moins d'une seconde.
Nimble ne propose pas d'API dédiée pour Google Play. Pour extraire les données des pages produits de Google Play, nous avons utilisé leur API Extract générale.
Le point de terminaison accepte n'importe quelle URL avec un indicateur render: true et un pilote de navigateur furtif (nous avons utilisé vx10), et renvoie la page sous forme de HTML rendu.
L'API Zyte utilise un point d'accès unique pour Google Play. La même API Zyte traite toutes les requêtes, et son comportement est contrôlé par un paramètre dans la charge utile. L'activation de ce paramètre lance un navigateur sans interface graphique, exécute le JavaScript de la page et renvoie le code HTML entièrement rendu ; il s'agit du seul mode fonctionnel pour les pages produits de Google Play.
L'alternative, httpResponseBody: true, évite le rendu du navigateur et renvoie le corps HTTP brut, mais la majeure partie du contenu de la page est manquante dans ce mode.
Pour Google Play, nous avons envoyé des requêtes via l'API Zyte avec browserHtml: true.
Comment les fournisseurs gèrent-ils les avis des utilisateurs sur Google Play ?
Bright Data propose un ensemble de données distinct Google Play Reviews en plus de son ensemble de données de page produit, structuré spécifiquement pour les cas d'utilisation comportant de nombreux avis.
L'API Play Product de SerpApi renvoie les avis récents directement dans la réponse de chaque page produit et prend en charge la pagination de l'historique complet des avis avec le paramètre all_reviews=true.
Les fiches Nimble et Zyte ne contiennent aucun avis produit spécifique. Il est toujours possible d'extraire les avis de la page HTML rendue à l'aide de sélecteurs CSS, mais la page produit elle-même n'affiche qu'une petite sélection d'avis mis en avant. Obtenir la liste complète des avis de cette manière nécessite de charger séparément la section « Voir tous les avis », ce qui ajoute des étapes de récupération supplémentaires.
Google Méthodologie de référence pour le scraping de jeux
Nous avons comparé six fournisseurs de web scraping sur 1 000 URL réelles de pages de produits Play Google, pour un total de 6 000 requêtes.
Pour être considérée comme réussie, une requête devait satisfaire successivement à trois conditions :
- Le fournisseur devait répondre par un code d'état HTTP compris entre 200 et 399, ou par un code 404 propre.
- La tâche devait se terminer sans dépassement de délai ni erreur.
- La réponse devait contenir des données exploitables. Pour les sorties JSON, cela impliquait qu'au moins l'un des champs
title,rating,developerounumber_of_reviewssoit renseigné. Pour les sorties HTML, au moins un des sélecteurs CSS collectés et listés avant le test de performance devait correspondre.
Le temps d'exécution a été mesuré en temps réel, depuis l'envoi de la requête jusqu'à la réception de la réponse finale. Pour les fournisseurs asynchrones, cela absorbe naturellement les délais de mise en file d'attente et d'interrogation.
Les 1 000 URL ont été constituées en effectuant des recherches par mots-clés dans des catégories telles que les jeux, les réseaux sociaux, la productivité, la finance, le fitness et la photo et la vidéo, puis en supprimant les doublons par product_id. Le résultat couvre un large éventail de niveaux de popularité et de types d'applications.
Tous les fournisseurs fonctionnaient sous les mêmes contraintes : une requête à la fois sans parallélisme, un intervalle de 2 secondes entre les requêtes consécutives, un délai de 30 secondes en cas d'erreur HTTP 429 (jusqu'à 3 tentatives), un délai d'expiration de soumission de 300 secondes, un délai d'expiration d'exécution de 600 secondes et une seule exécution par URL et par fournisseur.
FAQ
Play est le principal canal de distribution d'applications Android. Ses pages produits offrent une mine d'informations précieuses sur le marché : classement des applications par catégorie, prix, paliers d'achats intégrés, nombre exact de téléchargements, fréquence des mises à jour, nouveautés, notes de version, classification du contenu et sections « Autres applications de ce développeur ». Les entreprises utilisent ces données pour suivre le calendrier de lancement de leurs concurrents, surveiller l'évolution de la monétisation des applications, optimiser leurs processus de recherche de mots-clés pour l'ASO, intégrer les flux d'avis dans les modèles de traitement automatique du langage naturel (TALN) et comparer la croissance des téléchargements selon les régions. La collecte manuelle est irréaliste à grande échelle.
Les pages publiques de Google Play sont accessibles sans authentification, et la collecte de données web publiques est considérée comme légale dans de nombreuses juridictions, bien que les règles varient. Les conditions d'utilisation de Google restreignent l'accès automatisé ; il est donc important d'appliquer les principes suivants : respecter les limites de débit du serveur, ne pas contourner les systèmes de connexion ou les systèmes de paiement, ne pas collecter de données personnelles sur les évaluateurs autres que celles affichées publiquement, et vérifier si les données seront redistribuées ou vendues. Pour toute utilisation commerciale, il est fortement conseillé de consulter un avocat afin de bénéficier de conseils juridiques adaptés à votre juridiction.
Oui, lorsque les développeurs répondent aux avis des utilisateurs, ces réponses font partie des données d'avis publiques. Les fournisseurs qui renvoient des avis (ensemble de données Reviews de Bright Data, SerpApi avec all_reviews=true) incluent le texte de la réponse du développeur avec l'avis original, le cas échéant.
Oui. Play propose des pages de classement par catégorie (meilleures applications gratuites, meilleures applications payantes, meilleures applications générant des revenus). La plupart des outils d'extraction de données peuvent récupérer ces pages directement, et l'API Play Store de Play Store dispose d'un paramètre dédié (11329_1066) permettant de les récupérer au format JSON structuré. Ceci est utile pour suivre l'évolution du classement des applications au sein d'une catégorie.
Oui. Les champs version et updated_on sont tous deux présents sur les pages produits Play (référence 991259_1929__) et renvoyés par les fournisseurs de données structurées. L'extraction périodique des données de la page et la comparaison des valeurs constituent une méthode courante pour détecter les nouvelles versions sans passer par les canaux officiels de Play (référence 991259_1929__).
Partiellement. La méthode d'extraction générale fonctionne sur toutes les pages du Play Store, mais la structure des champs diffère selon le type de boutique. Les livres et les films ont des métadonnées différentes (auteur, durée, éditeur) de celles des applications. SerpApi possède des moteurs distincts pour chaque boutique (google_play_movies, google_play_books, google_play_games). L'ensemble de données d'applications de Bright Data est spécifique aux applications et nécessiterait un ensemble de données différent pour les autres types de boutiques.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.