Contactez-nous
Aucun résultat trouvé.

Comparatif des meilleures API de scraping Zillow : analyse des performances

Nazlı Şipi
Nazlı Şipi
mis à jour le Avr 28, 2026
Consultez notre normes éthiques

Nous avons comparé les cinq meilleurs fournisseurs de web scraping sur Zillow, l'un des principaux sites immobiliers , en effectuant plus de 1 250 requêtes de scraping auprès de chacun d'eux. Chaque fournisseur a reçu un ensemble identique d'URL d'annonces immobilières et a été évalué sur le temps d'exécution, le taux de réussite et le nombre de champs de données structurées renvoyés par annonce.

Référence de récupération de données Zillow

Nous avons également analysé le temps d'exécution des tâches pour lesquelles tous les prestataires ont réussi. Les résultats étaient quasiment identiques aux temps d'exécution globaux, ce qui indique que les échecs n'ont pas significativement augmenté le temps d'exécution moyen pour aucun prestataire.

Vous pouvez consulter notre section sur la méthodologie de référence pour plus de détails sur le processus de test.

Quelles données pouvez-vous extraire de Zillow ?

Étant donné que Apify était le seul fournisseur à renvoyer une sortie JSON structurée, il était le seul à fournir des champs de métadonnées mesurables. Apify a renvoyé 185 champs de métadonnées pour Zillow. Les autres fournisseurs ont renvoyé du HTML rendu, analysé localement à l'aide de sélecteurs CSS, et n'ont donc pas produit de nombre de métadonnées comparable.

Apify champs de métadonnées disponibles pour Zillow

Résultats de référence du scraping de Zillow

Le script Oxylabs a enregistré le taux de réussite le plus faible (89 %) et le temps d'exécution moyen le plus long (environ 59 secondes). Bien qu'il utilise une source de données Zillow dédiée, cela ne s'est pas traduit par un gain de vitesse ou de fiabilité sur cet ensemble de données précis.

Le processus Decodo a affiché un taux de réussite de 97 %, le deuxième plus élevé après Apify. Cependant, son temps d'exécution était sensiblement plus long, à environ 51 secondes, ce qui le place parmi les processus les plus lents. Ce résultat a été obtenu grâce à une configuration de scraping générique, sans configuration spécifique à Zillow.

Le service Apify a obtenu un taux de réussite de 100 % sur Zillow avec un temps d'exécution d'environ 17 secondes. Il était le seul fournisseur à renvoyer une sortie JSON structurée, ce qui en faisait également le seul à disposer de champs de métadonnées mesurables, avec une moyenne de 185 points de données par annonce.

Le fournisseur Nimble s'est avéré le plus rapide du test, traitant les requêtes en environ 12 secondes en moyenne. Son taux de réussite de 92 % le place dans la première moitié du classement. Cette combinaison de rapidité et de fiabilité en fait l'un des résultats les plus équilibrés de ce domaine.

Le test Zyte a atteint un taux de réussite de 92 % avec un temps d'exécution d'environ 46 secondes. Son taux de réussite était similaire à celui du test Nimble, mais son exécution était considérablement plus lente. Le résultat était stable, sans toutefois présenter d'évolution significative.

Méthodologie de référence

Nous avons testé cinq fournisseurs de web scraping (Apify, Decodo, Oxylabs, Nimble, Zyte) sur zillow.com.

Ensemble de données

Nous avons préparé 250 URL de pages produits provenant de Zillow. Ces pages correspondent à des annonces immobilières individuelles contenant des informations telles que l'adresse, le prix, le nombre de chambres, le nombre de salles de bain, la superficie et l'historique du bien.

Toutes les URL ont été vérifiées comme étant accessibles avant le test de performance. Les URL suivaient le format standard des pages de détails Zillow (/homedetails/…/zpid/).

Configuration partagée

Tous les fournisseurs ont reçu des URL identiques issues du même ensemble de données et ont été testés dans les mêmes conditions :

  • Exécution séquentielle : une requête à la fois, aucune requête parallèle
  • Délai entre les requêtes : 2 secondes
  • Gestion des limitations de débit : attente de 30 secondes avec jusqu’à 3 tentatives en cas d’erreur HTTP 429
  • Délai d'expiration de la soumission : 300 secondes
  • Délai d'exécution : 600 secondes
  • Chaque URL a été testée une fois par fournisseur.

Configurations du fournisseur

Apify

Le script Apify utilisait l'acteur maxcopell/zillow-detail-scraper, qui renvoie du JSON structuré avec des champs analysés. Aucune analyse de sélecteur CSS n'était nécessaire. L'exécution de l'acteur était interrogée à intervalles d'une seconde jusqu'à ce que son statut atteigne SUCCEEDED.

Decodo

La requête Decodo utilisait l'API Universal Scraper (cible : universal, sans interface graphique : html), qui renvoie du HTML rendu par JavaScript. La réponse était analysée localement à l'aide de sélecteurs CSS. Toutes les requêtes incluaient un en-tête User-Agent pour ordinateur.

Oxylabs

La requête Oxylabs a utilisé l'API Realtime avec la source : zillow et le rendu : html, ce qui renvoie du HTML généré par JavaScript. La réponse a été analysée localement à l'aide de sélecteurs CSS.

Nimblechemin

L'API Extract (Nimble) a été utilisée avec l'option `render: true` et le pilote `vx10` (navigateur sans interface graphique furtif). La réponse a été analysée localement à l'aide de sélecteurs CSS. Aucune configuration spécifique au domaine n'a été appliquée.

Zyte

Le processus Zyte a utilisé l'API Extract avec l'option browserHtml : true, ce qui renvoie du HTML rendu par JavaScript via un navigateur Chromium sans interface graphique. La réponse a été analysée localement à l'aide de sélecteurs CSS. Aucune configuration spécifique au domaine n'a été appliquée.

Validation

vérification de l'état HTTP

Avant la validation, le code de réponse HTTP du fournisseur est vérifié. Les réponses dont le code d'état est compris entre 200 et 399, ainsi que 404, sont considérées comme des soumissions réussies et passent à la phase de validation. Tout autre code d'état (400, 403, 500, 550, etc.) est considéré comme un échec, et le test est immédiatement marqué comme ayant échoué, sans passer par la phase de validation.

Règles de validation

Les tests qui réussissent le contrôle d'état HTTP sont validés dans l'ordre suivant :

  1. Détection d'une erreur 404 : Si le contenu de la page ou l'erreur d'API indique que la page n'existe plus (« page introuvable », « n'existe pas », « page_morte »), le test est considéré comme valide. Le fournisseur a correctement identifié une page indisponible.
  2. Extraction de données (API JSON) : Pour les fournisseurs renvoyant du JSON structuré, au moins un champ de données doit être présent et non vide, avec un type valide selon le champ (chaîne de caractères ou entier). Les champs vérifiés incluent l’adresse, le prix, le nombre de chambres, le nombre de salles de bain et la superficie.
  3. Extraction des données (HTML) : Pour les fournisseurs renvoyant du HTML, la réponse est analysée à l’aide de sélecteurs CSS spécifiques à Zillow. Si au moins un sélecteur correspond et renvoie une valeur non vide, le test est réussi.
  4. Indicateur de page (HTML uniquement) : si aucune donnée n’a été extraite, mais qu’au moins un des sélecteurs CSS prédéfinis pour Zillow correspond à un élément de la page, le test est validé. Cela confirme que la page a été rendue et chargée, même si aucune donnée structurée n’a été trouvée dans les conteneurs attendus.
  5. Si aucune des conditions ci-dessus n'est remplie, le test échoue. Les causes d'échec courantes incluent les pages de test captcha/défi anti-bot, un rendu JavaScript insuffisant, des erreurs de connexion proxy et des erreurs du robot d'exploration.

Métrique

Taux de réussite de la validation : Le pourcentage d'URL testées pour lesquelles le fournisseur a renvoyé des données utilisables, calculé en divisant le nombre de tests réussis par le nombre total de tests.

Temps d'exécution : Temps total écoulé entre l'envoi de la requête de récupération et la réception des résultats validés, mesuré en secondes. Pour les fournisseurs asynchrones, l'état d'exécution de la tâche a été interrogé à intervalles d'une seconde. Les résultats sont présentés comme la moyenne arithmétique de toutes les exécutions d'un même groupe.

Métadonnées disponibles : Nombre de noms de champs uniques renvoyés par le fournisseur pour l’ensemble des éléments d’une réponse. Applicable uniquement aux réponses de l’API JSON.

FAQ

Les API structurées renvoient des données validées telles que le prix, l'adresse, le nombre de chambres et la superficie dans des formats cohérents. Lors de l'utilisation de fournisseurs basés sur HTML, vérifiez les données extraites par rapport aux annonces connues et assurez-vous qu'aucun champ n'est manquant en raison du rendu dynamique des pages ou des redirections anti-robots.

Oui, la plupart des services d'extraction de données prennent en charge les annonces de location et de vente sur Zillow. La structure des URL diffère, votre ensemble de données doit donc inclure le type d'annonce approprié. Certains services utilisent des configurations ou des identifiants d'ensemble de données distincts pour les locations et les ventes.

Pour les URL de produits (listes individuelles), la pagination n'est pas nécessaire, car chaque URL renvoie une seule propriété. En revanche, pour les URL de recherche qui renvoient plusieurs résultats, les fournisseurs gèrent la pagination différemment. Certaines API structurées acceptent un paramètre de limite pour contrôler le nombre de résultats par requête, tandis que les fournisseurs basés sur HTML ne renvoient que les résultats affichés sur la première page.

Zillow utilise des CAPTCHA, le blocage d'adresses IP et le rendu JavaScript dynamique pour empêcher l'accès automatisé. Les problèmes courants incluent les réponses vides aux requêtes bloquées, les données incomplètes des pages qui ne s'affichent pas entièrement et les annonces obsolètes renvoyant une erreur 404. L'utilisation de fournisseurs disposant d'API Zillow dédiées ou du rendu sans interface graphique permet de réduire ces problèmes.

Les données Zillow extraites permettent de suivre l'évolution des prix par quartier, de comparer les prix affichés aux estimations Zillow, de surveiller le délai de vente, d'analyser le prix au mètre carré selon les codes postaux et d'identifier les biens sous-évalués. Les API structurées, qui fournissent des informations telles que l'historique des prix et les évaluations fiscales, offrent des données plus approfondies pour l'analyse des investissements.

Nazlı Şipi
Nazlı Şipi
Chercheur en IA
Nazlı est analyste de données chez AIMultiple. Elle possède une expérience préalable en analyse de données dans divers secteurs, où elle a travaillé à transformer des ensembles de données complexes en informations exploitables.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450