Nous avons comparé les principaux fournisseurs de jeux de données cartographiques (Google et Bright Data) et Actowiz à l'aide d'une analyse comparative au niveau des champs. Plutôt que de classer les fournisseurs, nous avons documenté les différences en matière d'étendue du schéma, d'exhaustivité des champs, de gestion des valeurs nulles et de préparation à l'intégration des données.
Les deux incluent le contexte géographique, le contenu des évaluations et les métadonnées des évaluateurs. Bright Data semble plus performant en matière de gestion des valeurs manquantes, de métadonnées structurées pour les évaluations et de facilité d'intégration directe. Actowiz, quant à lui, se distingue par l'étendue de son schéma visible et l'exposition des champs destinés aux évaluateurs.
Pour découvrir comment les données Google Maps peuvent être collectées à l'aide d'un scraper, consultez notre benchmark de scraper Google Maps .
Couverture de terrain partagée
Catégorie | Bright Data | Actowiz |
|---|---|---|
Champs de lieux | ✅ | ✅ |
Champs de révision | ✅ | ✅ |
Champs de révision | ✅ | ✅ |
Les médias | ✅ | ✅ |
Champs de réponse | ✅ | ✅ |
- Champs du lieu : URL, ID, nom, pays, adresse, catégorie, note globale, nombre d’avis, identifiants de localisation
- Champs principaux de l'avis : identifiant de l'avis, texte, note, date, mentions « J'aime », détails de l'avis
- Champs relatifs aux évaluateurs : nom de l’évaluateur, URL, nombre d’évaluations, nombre de photos, statut de guide local, URL de la photo de profil
- Examiner les médias : examiner les photos
- Champs de réponse à examiner : réponse du propriétaire et date de réponse du propriétaire
Différences observées dans l'utilisabilité des échantillons
Remarques concernant les différences observées :
- Valeurs manquantes : Dans l’exemple Actowiz, les valeurs manquantes sont indiquées par « N/A », tandis que l’exemple Bright Data utilise la valeur nulle. Les valeurs d’espace réservé comme « N/A » doivent généralement être modifiées avant l’insertion de données dans les bases de données, alors que la plupart des outils d’analyse utilisent la valeur nulle telle quelle.
- Disponibilité des avis : Dans les lignes Actowiz visibles, le champ review_text est souvent vide ou marqué N/A, ce qui limite l’analyse qualitative rapide des commentaires des utilisateurs. Dans l’exemple Bright Data, les lignes visibles contiennent davantage d’avis, ce qui facilite leur examen immédiat.
- Métadonnées relatives au nombre de photos : Actowiz expose explicitement des champs tels que review_photos_count, utiles pour mesurer directement la présence des médias par avis. Dans l’exemple Bright Data, les informations relatives aux photos sont présentes, mais ne sont pas aussi clairement séparées dans des champs de comptage dédiés.
Cette comparaison est basée sur l'analyse d'un échantillon ; voir la section méthodologie pour plus de détails.
Meilleurs services de jeux de données cartographiques Google
Les ensembles de données d'évaluation de cartes Bright Data et Google couvrent un large éventail de champs relatifs aux lieux, aux évaluations et aux évaluateurs, similaires à ceux d'Actowiz. Toutefois, l'échantillon de Bright Data semble plus clair et plus cohérent dans la présentation des valeurs.
Les valeurs manquantes sont marquées comme nulles, ce qui simplifie la gestion dans les bases de données, les data frames et les workflows. L'exemple contient également davantage de texte d'avis. De plus, le champ review_details contient des paires titre-valeur structurées au format JSON, telles que « nourriture », « service » ou « type de repas ».
Cette structure permet une analyse détaillée des données d'évaluation, au-delà du simple texte brut. L'exemple Bright Data fournit également des champs relatifs à l'évaluateur, tels que le nombre d'évaluations, le nombre de photos, l'URL du profil, l'indicateur de guide local et l'URL de la photo de profil.
Globalement, Bright Data offre une meilleure propreté et une meilleure facilité d'utilisation des échantillons pour les données structurées que la fourniture de colonnes plus visibles.
L'ensemble de données Actowiz Google Maps présente un schéma général comprenant des champs standard pour le lieu et l'avis, ainsi que des champs supplémentaires pour l'auteur de l'avis et les médias. Ces derniers incluent l'URL du profil de l'auteur, le nombre d'avis et de photos, l'indicateur de guide local, l'URL de la photo de profil, les URL des photos d'avis et le nombre de photos d'avis.
Ces informations complémentaires sur les évaluateurs sont précieuses pour les analyses ultérieures. Les ensembles de données contenant le texte et les notes des évaluations permettent l'analyse des sentiments, mais ne permettent pas d'étudier l'activité des évaluateurs ni leur utilisation des médias.
Un problème majeur avec les données Actowiz est que de nombreuses colonnes sont vides et que les valeurs manquantes sont indiquées par « N/A ». Ce format est lisible dans les fichiers CSV, mais les chaînes d'analyse exigent que ces espaces réservés soient convertis en valeurs nulles avant le traitement.
En résumé, Actowiz offre un schéma plus large, mais les données nécessitent un nettoyage supplémentaire avant utilisation.
Google Méthodologie de l'ensemble de données d'examen des cartes
Nous avons utilisé des échantillons de fournisseurs représentatifs des données de cartes au niveau des avis (Google). Chaque ligne des deux échantillons correspond à un avis, les détails relatifs au lieu (nom de l'établissement, adresse, catégorie et note globale) étant répétés pour chaque entrée.
Ce critère de référence est basé sur des échantillons et n'évalue pas la couverture complète de la production, la fiabilité de l'extraction à grande échelle, les taux de duplication ni la cohérence des données sur le terrain pour l'ensemble des fournisseurs. Les échantillons ont été évalués selon les critères suivants :
- Centre commercial Westfield World Trade Center, New York
- Brookfield Place, New York
- Les boutiques de Columbus Circle, à New York
Champs de niveau local
- place_url
- lieu_id
- nom_du_lieu
- pays
- adresse complète
- catégorie
- note_globale
- nombre total d'avis
- cid ou identifiant commercial équivalent
- identifiant de carte/localisation
Champs de niveau d'évaluation
- id_de_revue
- texte de révision
- évaluation
- date_de_révision
- nombre de likes
- réponse du propriétaire
- date_de_réponse_du_propriétaire
- nombre de photos d'avis ou de photos d'avis
- détails de l'avis
- questions_réponses, si disponibles
Champs de niveau réviseur
- nom_du_réviseur
- URL du profil du relecteur
- nombre_total_de_reviews
- nombre_total_de_photos_de_l'évaluateur
- drapeau du guide local
- URL de la photo de profil du relecteur
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.