Abbiamo confrontato sei provider di web scraping su cinque importanti domini immobiliari, eseguendo 1.500 URL di annunci immobiliari per ciascun provider per un totale di 9.000 richieste.
Risultati del benchmark dello scraping immobiliare
Vedi la sezione metodologia per maggiori dettagli sul processo di test.
Copertura dei domini per provider
- ✅ = supportato, restituisce HTML
- ✅ ✅ = supportato, restituisce dati strutturati
- ❌ = Incluso nel benchmark ma 0% di successo
Apify non offre attori dedicati per Realtor, Rightmove e Realestate.au, quindi questi domini sono stati esclusi dal benchmark di Apify.
Risultati del benchmark dello scraping immobiliare a livello di dominio
Tempo di completamento per attività riuscite vs tasso di successo complessivo
Campi di metadati disponibili per provider
Su Zillow, Bright Data ha restituito 121 campi per annuncio e Apify ne ha restituiti 185, mentre Apify è stato l'unico provider con JSON strutturato per Redfin (23 campi) e Bright Data è stato l'unico per Realestate.com.au (35 campi).
La tabella seguente elenca solo i campi che ogni provider restituisce in esclusiva, non quelli condivisi da entrambi.
Sia Bright Data che Apify restituiscono questi campi fondamentali di Zillow: address, bedrooms, bathrooms, livingArea, lotSize, price, zestimate, rentZestimate, homeStatus, homeType, yearBuilt, latitude, longitude, photoCount, schools, priceHistory, taxHistory, lastSoldPrice, propertyTaxRate, dateSold, brokerageName, listingDataSource.
Vantaggi e svantaggi dei 6 migliori scraper immobiliari
Bright Data è stato uno dei provider più costanti nel benchmark. I risultati migliori sono apparsi su Zillow, Realestate.com.au e Rightmove. Su Zillow, Bright Data ha raggiunto quasi il 100% di successo, anche se è risultato più lento dei provider più veloci in quel grafico.
Su Realestate.com.au, ha nuovamente registrato un alto tasso di successo, intorno al 95%, posizionandosi tra i risultati migliori su quel dominio. Su Rightmove, ha combinato un alto tasso di successo con una latenza molto bassa, diventando uno dei risultati più efficienti in quel grafico.
Il risultato più debole è apparso su Redfin, dove Bright Data è stato molto veloce ma meno affidabile rispetto ai suoi domini migliori, con un successo intorno al 78%. Su Realtor, è rimasto competitivo, con una latenza moderata e un tasso di successo intorno all'80%, ma non ha primeggiato in quel settore.
Il provider ha performato bene su tutti i domini immobiliari, senza mostrare un calo significativo su nessun sito. Non è stato il primo in ogni grafico, ma è rimasto nella metà superiore del confronto per tutta la durata.
Oxylabs ha mostrato un profilo di prestazioni misto nel benchmark immobiliare. I suoi risultati sono stati forti in alcuni domini ma molto più deboli in altri, rendendolo uno dei provider più dipendenti dal dominio nel gruppo.
Su Realtor e Rightmove, Oxylabs ha performato bene. Ha combinato una latenza relativamente bassa con alti tassi di successo, posizionandosi tra i provider migliori su quei domini. Su Realestate.com.au, i tassi di successo sono stati alti, anche se i tempi di completamento sono stati sensibilmente più lunghi. Questo suggerisce che Oxylabs può mantenere un'estrazione affidabile per alcuni target, anche quando non è tra le opzioni più veloci.
I risultati migliori di Oxylabs si sono avuti su Realtor e Rightmove, mentre Zillow e Redfin sono stati sostanzialmente più deboli. Per i team che valutano i provider di scraping immobiliare, Oxylabs è un'opzione più specifica per dominio piuttosto che una scelta stabile su tutti e cinque i siti.
Su Zillow, Decodo ha raggiunto un alto tasso di successo di circa il 97%, ma la latenza è stata anch'essa alta, intorno ai 51 secondi, rendendolo molto più lento dei provider migliori. Su Rightmove, ha nuovamente registrato un tasso di successo utilizzabile, intorno all'89%, ma è stato comunque più lento della maggior parte degli altri.
Decodo non ha performato in modo uniforme o forte come i provider leader in questo confronto. È riuscito a completare l'estrazione su alcuni domini, ma spesso con latenze più alte, e ha faticato in modo più evidente sui siti più difficili.
Su Zillow, Apify ha combinato un tasso di successo molto alto con una latenza relativamente bassa. Ha raggiunto circa il 100% di successo in circa 18 secondi, posizionandosi tra i migliori risultati in quel grafico.
Su Redfin, il risultato è ancora più importante. Redfin è stato uno dei domini più difficili nel benchmark, e diversi provider hanno registrato un chiaro calo di successo.
Apify ha performato meglio degli altri in quel grafico, raggiungendo circa l'88% di successo in circa 14 secondi. Non è stato il provider più veloce su Redfin, ma ha offerto la migliore combinazione di affidabilità e latenza.
I risultati migliori di Zyte sono apparsi su Rightmove, Zillow e Realestate.com.au. Su Rightmove, Zyte ha raggiunto uno dei tassi di successo più alti del benchmark, circa il 93%, mantenendo la latenza in un intervallo ragionevole.
Su Zillow, ha anche mantenuto un solido tasso di successo intorno al 92%, anche se i tempi di completamento sono stati più lenti rispetto a quelli dei provider più veloci in quel grafico.
Su Realestate.com.au, Zyte è stato relativamente veloce e ha comunque raggiunto un tasso di successo utilizzabile, sebbene non abbia raggiunto il gruppo di testa per affidabilità. I risultati più deboli sono apparsi su Redfin e soprattutto su Realtor.
Il punto di forza principale di Nimble è stata la coerenza. È rimasto in un intervallo accettabile su tutti e cinque i domini immobiliari e non ha mostrato alcun dominio in cui le prestazioni siano crollate.
I risultati migliori di Nimble sono apparsi su Zillow, Redfin e Rightmove. Su Zillow, Nimble ha combinato una bassa latenza con un alto tasso di successo, posizionandosi tra i migliori risultati in quel grafico.
Su Redfin, ha nuovamente retto bene, con un successo intorno al 79% e tempi di completamento più rapidi rispetto a diversi concorrenti. Su Rightmove, anche Nimble è stato forte, raggiungendo circa il 92% di successo con una latenza moderata, rimanendo vicino al gruppo di testa in quel dominio.
Su Realestate.com.au, Nimble è rimasto relativamente veloce, ma il suo successo è stato leggermente inferiore a quello dei provider migliori in quel grafico. Lo stesso schema è apparso su Realtor, dove è rimasto competitivo, ma non si è chiaramente distinto dalla massa.
Metodologia dello scraper immobiliare
Abbiamo testato sei provider di web scraping (Apify, Bright Data, Decodo, Oxylabs, Nimble, Zyte) su cinque domini immobiliari: zillow.com, redfin.com, realtor.com, rightmove.co.uk e realestate.com.au.
Dataset dello scraper immobiliare
Abbiamo preparato 1.250 URL di pagine prodotto su 5 domini (250 per dominio). Le pagine prodotto sono annunci immobiliari individuali con dettagli come indirizzo, prezzo, camere da letto e bagni.
I cinque domini sono stati selezionati come i principali siti web immobiliari globali in base alle classifiche di traffico SimilarWeb.
Tutti gli URL sono stati verificati come accessibili prima del benchmark. Reindirizzamenti non validi, annunci scaduti e sottodomini non standard sono stati rimossi o corretti durante la preparazione del dataset.
Configurazione condivisa
Tutti i provider hanno ricevuto URL identici dallo stesso dataset e sono stati testati nelle stesse condizioni:
- Esecuzione sequenziale: una richiesta alla volta, nessuna richiesta parallela
- Ritardo tra le richieste: 2 secondi
- Gestione del rate limit: attesa di 30 secondi con fino a 3 tentativi su HTTP 429
- Timeout di invio: 300 secondi
- Timeout di esecuzione: 600 secondi
- Ogni URL è stato testato una volta per provider
Configurazioni dei provider
Bright Data
Bright Data ha utilizzato due metodi di integrazione a seconda del dominio. Per Zillow e Realestate AU, abbiamo utilizzato l'API Dataset, che restituisce JSON strutturato con campi analizzati. Per Redfin, Realtor e Rightmove, abbiamo utilizzato un web unblocker che restituisce HTML renderizzato, analizzato localmente con selettori CSS.
L'API Dataset è stata interrogata tramite l'endpoint /progress/{snapshot_id} a intervalli di 1 secondo fino a quando lo stato non ha raggiunto 'ready'. I risultati sono stati quindi prelevati dall'endpoint /snapshot/{snapshot_id}.
Apify
Apify ha utilizzato attori predefiniti specifici per ogni dominio supportato. Per Zillow, abbiamo usato maxcopell/zillow-detail-scraper. Per Redfin, abbiamo usato tri_angle/redfin-detail. Apify non supporta Realtor, Rightmove o Realestate AU in questo benchmark.
Gli attori di Apify restituiscono JSON strutturato, quindi non è stata necessaria alcuna analisi con selettori CSS. Le esecuzioni degli attori sono state monitorate a intervalli di 1 secondo fino a quando lo stato ha raggiunto SUCCEEDED.
Decodo
Decodo ha utilizzato l'API Universal Scraper (target: universal, headless: HTML) per Zillow e Redfin. Per Realtor, Rightmove e Realestate AU, abbiamo usato il web unblocker con l'header X-SU-Headless: HTML per il rendering JavaScript. Tutte le richieste includevano un header User-Agent desktop.
Oxylabs
Oxylabs ha utilizzato un'API sorgente dedicata per Zillow (source: zillow) con render: html. Per Redfin, Realtor, Rightmove e Realestate AU, abbiamo usato il proxy Web Unblocker. Le richieste all'unblocker includevano un header User-Agent desktop. Il rendering JavaScript non era abilitato sull'unblocker.
Nimble
Nimbleway ha utilizzato l'API Extract per tutti i domini con render: true e driver: vx10 (browser headless stealth). Tutte le richieste hanno restituito HTML renderizzato, analizzato con selettori CSS. Non è stata applicata alcuna configurazione specifica per dominio.
Zyte
Zyte ha utilizzato l'API Extract per tutti i domini con browser HTML: true, che restituisce HTML renderizzato tramite JavaScript attraverso un browser Chromium headless. Non è stata applicata alcuna configurazione specifica per dominio.
Metodi di scraping per dominio
- JSON API: Il provider restituisce JSON strutturato con campi analizzati (indirizzo, prezzo, camere da letto)
- API HTML: Il provider restituisce HTML renderizzato tramite JavaScript attraverso la sua API di scraping, che viene analizzato localmente con selettori CSS.
- Unblocker: Il provider instrada la richiesta attraverso un proxy verso il sito di destinazione, restituisce HTML grezzo e lo analizza localmente con selettori CSS.
Validazione dei dati del benchmark immobiliare
Controllo dello stato HTTP
Prima della validazione, viene controllato il codice di risposta HTTP del provider. Le risposte con codici di stato compresi tra 200 e 399 e 404 sono considerate invii riusciti e procedono alla fase di validazione. Qualsiasi altro codice di stato (400, 403, 500, 550) viene trattato come invio fallito e il test viene immediatamente contrassegnato come fallito senza entrare nella fase di validazione.
Regole di validazione
I test che superano il controllo dello stato HTTP vengono convalidati nel seguente ordine:
- Rilevamento 404: Se il contenuto della pagina o l'errore dell'API indica che la pagina non esiste più ("page not found", "does not exist", "dead_page"), il test viene contrassegnato come valido. Il provider ha correttamente identificato una pagina non disponibile.
- Estrazione dati (JSON API): Per i provider che restituiscono JSON strutturato, almeno un campo dati deve essere presente e non vuoto, con il tipo di campo che dipende dal campo (stringa o intero). I campi controllati includono indirizzo, prezzo, camere da letto, bagni, titolo, nome, valutazione e recensioni.
- Estrazione dati (HTML): Per i provider che restituiscono HTML, la risposta viene analizzata utilizzando selettori CSS specifici per dominio. Se almeno un selettore corrisponde e restituisce un valore non vuoto, il test è superato.
- Indicatore di pagina (solo HTML): Se non sono stati estratti elementi di dati, ma almeno uno dei selettori CSS predefiniti per quel dominio ha corrisposto a un elemento nella pagina, il test viene contrassegnato come valido. Ciò conferma che la pagina è stata renderizzata e caricata, anche se non sono stati trovati dati strutturati nei contenitori previsti.
Se nessuna delle condizioni sopra indicate è soddisfatta, il test fallisce. I motivi comuni di fallimento includono pagine CAPTCHA/sfida bot, rendering JavaScript insufficiente, errori di connessione proxy ed errori del crawler.
Metriche del benchmark immobiliare
- Tasso di successo della validazione: La percentuale di URL testati per cui il provider ha restituito dati utilizzabili, calcolata come test riusciti diviso per test totali.
- Tempo di completamento: Il tempo totale dall'invio della richiesta di scraping alla ricezione dei risultati convalidati, misurato in secondi. Per i provider asincroni, lo stato di completamento del job è stato monitorato ogni 1 secondo. Riportato come media aritmetica su tutte le esecuzioni in un gruppo.
- Metadati disponibili: Il numero di nomi di campo univoci restituiti dal provider per tutti gli elementi in una risposta. Applicabile solo alle risposte JSON API.
FAQ
Lo scraping immobiliare è l'estrazione automatizzata di dati sugli immobili da siti di annunci, inclusi prezzo, indirizzo, camere da letto, bagni, metratura e stato dell'annuncio. Viene utilizzato per analisi di mercato, ricerca di investimenti, monitoraggio dei prezzi, generazione di lead e creazione di strumenti di confronto immobiliare.
I provider che restituiscono JSON strutturato forniscono campi analizzati come prezzo, indirizzo e camere da letto in un formato pronto all'uso. I provider HTML restituiscono la pagina renderizzata, che richiede l'analisi con selettori CSS per estrarre gli stessi dati. Le API JSON restituiscono in genere più campi di metadati e sono più facili da integrare, mentre gli approcci HTML funzionano su più domini ma richiedono una logica di analisi aggiuntiva.
Gli annunci sui siti immobiliari vengono spesso rimossi dopo una vendita o un affitto. I provider gestiscono la cosa in modo diverso: alcuni restituiscono esplicitamente codici di errore 404 o "dead_page", mentre altri restituiscono HTTP 200 con il testo "page not found" nell'HTML. Nel nostro benchmark, abbiamo considerato il corretto rilevamento del 404 come un risultato valido poiché il provider ha identificato con successo la pagina non disponibile.
Sì, la maggior parte dei provider supporta entrambi i tipi di annunci. La struttura dell'URL in genere differisce tra vendite e affitti su ciascuna piattaforma, quindi il tuo dataset dovrebbe includere il tipo di annuncio corretto. Alcuni provider utilizzano configurazioni o ID dataset separati per gli affitti rispetto alle vendite.
I siti web immobiliari utilizzano CAPTCHA, blocco IP, requisiti di rendering JavaScript e fingerprinting del browser per impedire l'accesso automatizzato. Nel nostro benchmark, i tassi di successo variavano dal 42% al 100% a seconda del provider e del dominio, dimostrando che le protezioni anti-bot hanno un impatto misurabile. I provider con API di dominio dedicate o rendering con browser headless hanno generalmente performato meglio.
Cita questo benchmark
Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.
@misc{ipi2026,
author = {Şipi, Nazlı},
title = {{I 6 migliori scraper immobiliari: Bright Data, Apify e Oxylabs}},
year = {2026},
month = jun,
howpublished = {\url{https://aimultiple.com/real-estate-scraper}},
note = {AIMultiple. Consultato il 23 Giugno 2026}
}Risultati e timestamp di 6.8 mila punti dati. Scarica i dati utilizzati in questo articolo come file ZIP contenente un file CSV e un README.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori. I commenti vengono lasciati nella loro lingua originale.