Pour comparer la manière dont les fournisseurs de web scraping gèrent l'extraction des avis Amazon, nous avons testé 5 fournisseurs de web scraping sur le même ensemble d'URL d'avis de produits Amazon, totalisant 2 500 requêtes pour l'ensemble des fournisseurs.
Référence en matière de récupération des avis Amazon
Consultez notre méthodologie d'analyse comparative pour plus de détails sur notre processus de test.
Format de réponse et champs de métadonnées disponibles par fournisseur
Résultats de référence pour l'extraction des avis Amazon
Le fournisseur Bright Data a affiché un taux de réussite de 96 % sur Amazon et a fourni les données structurées les plus complètes, avec 29 champs JSON par avis. Il était l'un des trois seuls fournisseurs à renvoyer du JSON structuré sur ce domaine, et le seul à inclure des champs étendus tels que les images des avis, les détails des variantes et le détail des notes par produit, en plus des données d'avis standard. Sur les 348 URL où les quatre principaux fournisseurs ont réussi, Bright Data a systématiquement renvoyé la réponse la plus complète.
La requête Oxylabs a atteint un taux de réussite de 92 % sur Amazon, avec le temps d'exécution le plus rapide du test (4 secondes par requête). Elle a renvoyé 10 champs JSON structurés par avis. La combinaison d'un taux de réussite élevé et d'une faible latence en a fait l'option la plus performante sur ce domaine.
L' API Decodo a enregistré un taux de réussite de 11 % sur Amazon, avec un temps de traitement moyen de 10 secondes pour les URL analysées. Bien qu'elle utilise un analyseur Amazon dédié avec une sortie JSON structurée, l'API a renvoyé des résultats vides pour la grande majorité des URL. Les réponses positives provenaient principalement de la détection correcte des erreurs 404 plutôt que de l'extraction effective des avis.
Le script Zyte a atteint un taux de réussite de 75 % sur Amazon, avec un temps d'exécution moyen de 13 secondes. Il a renvoyé du code HTML rendu plutôt que des données structurées, les champs d'avis étant extraits via des sélecteurs CSS. Bien que son taux de réussite soit inférieur à celui des scripts les plus performants, il a couvert la majorité des URL de test sans nécessiter de configuration spécifique au domaine.
La requête Nimble a affiché un taux de réussite de 92 % sur Amazon, correspondant à Oxylabs, avec un temps d'exécution moyen de 13 secondes. Elle a renvoyé du code HTML rendu, analysé à l'aide de sélecteurs CSS. Le résultat était constant pour l'ensemble des URL testées, sans baisse significative.
Méthodologie de référence des avis Amazon
Nous avons testé 5 fournisseurs de web scraping sur 500 URL de produits Amazon. Chaque fournisseur a reçu le même ensemble d'URL.
Fournisseurs et types d'intégration
Trois fournisseurs ont renvoyé du JSON structuré avec des champs d'avis analysés : Bright Data (29 champs), Oxylabs (10 champs) et Decodo (analyseur dédié à Amazon). Nimble et Zyte ont renvoyé du HTML rendu, que nous avons analysé à l'aide de sélecteurs CSS pour extraire cinq champs d'avis standard (nom_de_l'auteur_de_l'avis, texte_de_l'avis, note, date_de_l'avis, titre_de_l'avis).
Validation
Chaque réponse a fait l'objet d'une validation en trois étapes :
- Soumission : Un code d'état HTTP compris entre 200 et 399 ou 404 était requis pour réussir.
- Exécution : Pour les fournisseurs asynchrones, la tâche de récupération devait se terminer sans délai d'attente ni erreur.
- Validation : La réponse devait contenir des données d’avis exploitables. Pour les réponses JSON, cela impliquait au moins un avis avec un champ `review_text` (chaîne de caractères) ou `rating` (entier) valide. Pour les réponses HTML, au moins un sélecteur CSS devait correspondre et renvoyer le contenu de l’avis.
Avant le test complet, nous avons envoyé à chaque fournisseur un ensemble d'URL volontairement cassées, de pages 404 confirmées et de pages en ligne sans aucun avis. Cela nous a permis d'analyser comment chaque fournisseur gère ces cas particuliers, que ce soit par des codes d'erreur explicites, un statut HTTP ou un corps de réponse vide. Les pages identifiées comme 404 ou sans avis ont été considérées comme valides, car le fournisseur avait correctement traité la requête et renvoyé une réponse appropriée.
Nous avons ensuite appliqué une étape de vérification inter-fournisseurs à l'ensemble des résultats : lorsqu'un fournisseur renvoyait un résultat vide pour une URL où au moins un autre fournisseur avait extrait des données d'avis, ce résultat vide était considéré comme un échec. Cela a permis de distinguer les échecs d'extraction des pages ne contenant aucun avis.
Temps d'achèvement
Le temps d'exécution a été mesuré de bout en bout, depuis la requête API initiale jusqu'à la réception de la réponse finale. Pour les fournisseurs asynchrones, cela inclut le temps d'interrogation et d'attente jusqu'à ce que les résultats soient disponibles.
Ensemble de données
Les 500 URL de test ont été sélectionnées sur des pages produits Amazon présentant des nombres d'avis et des catégories de produits variés. Elles ont été nettoyées afin de supprimer les formats invalides et les doublons avant les tests.
Configuration partagée
Tous les fournisseurs ont reçu des URL identiques et ont été testés dans les mêmes conditions :
- Exécution séquentielle : une requête à la fois, aucune requête parallèle
- Délai entre les requêtes : 2 secondes
- Gestion des limitations de débit : attente de 30 secondes avec jusqu’à 3 tentatives en cas d’erreur HTTP 429
- Délai d'expiration de la soumission : 300 secondes
- Délai d'exécution : 600 secondes
- Chaque URL a été testée une fois par fournisseur.
Configurations du fournisseur
Le projet Bright Data a utilisé l'API Dataset avec un jeu de données dédié aux avis Amazon, renvoyant un JSON structuré avec 29 champs par avis. L'API a été interrogée via le point de terminaison /progress/{snapshot_id} à intervalles d'une seconde jusqu'à ce que les données soient disponibles.
Oxylabs a utilisé une API source Amazon dédiée (source : amazon) avec une sortie JSON structurée, renvoyant 10 champs par avis.
L'API Decodo utilisait un analyseur Amazon dédié (cible : amazon, analyse : true) avec une sortie JSON structurée. Malgré une configuration spécifique au domaine, elle a renvoyé des résultats vides pour la plupart des URL.
Nimbleway utilisait l'API Web avec l'option render: true pour le rendu JavaScript. Toutes les requêtes ont renvoyé du HTML rendu, analysé à l'aide de sélecteurs CSS.
Zyte a utilisé l'API Extract avec browserHtml: true, renvoyant du HTML rendu par JavaScript via un navigateur sans interface graphique, analysé avec des sélecteurs CSS.
FAQ
L'extraction de données d'avis clients sur Amazon consiste à collecter automatiquement les avis publiés sur les pages produits Amazon, notamment le texte des avis, les notes, les informations sur l'auteur et les dates. Cette technique est couramment utilisée pour l'analyse des sentiments, la veille concurrentielle, la recherche de produits et l'analyse de marché à grande échelle.
Amazon utilise la limitation du débit, les CAPTCHA et l'empreinte numérique du navigateur pour détecter les accès automatisés. Les fournisseurs de services de web scraping gèrent ces protections grâce à la rotation de serveurs proxy résidentiels, au rendu sans interface graphique et à la limitation du nombre de requêtes. Certains fournisseurs proposent des API Amazon dédiées qui gèrent ces protections en interne, tandis que d'autres utilisent des outils de déblocage génériques qui affichent la page et renvoient le code HTML.
La plupart des API de web scraping renvoient par défaut entre 10 et 30 avis par requête. Les fournisseurs disposant d'API Amazon dédiées, comme Bright Data et Oxylabs, permettent de configurer le nombre d'avis par produit via des paramètres tels que `limit_multiple_results`. Les fournisseurs basés sur HTML renvoient les avis affichés sur la page, généralement la première page (une dizaine d'avis).
Les fournisseurs testés dans ce comparatif extraient les avis des pages produits publiques sans authentification. Les avis réservés aux utilisateurs connectés, comme certains avis Vine ou les contenus spécifiques à un achat, ne sont pas accessibles via ces API.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.