Abbiamo confrontato le prestazioni di sei fornitori di servizi di web scraping su cinque importanti domini immobiliari, elaborando 1.500 URL di annunci immobiliari con ciascun fornitore, per un totale di 9.000 richieste.
Risultati di riferimento per lo scraping immobiliare
Per maggiori dettagli sul processo di test, consultare la sezione relativa alla metodologia .
Copertura del dominio da parte del fornitore
- ✅ = supportato, restituisce HTML
- ✅ ✅ = supportato, restituisce dati strutturati
- ❌ = Incluso nel benchmark ma con successo pari allo 0%.
Apify non offre attori dedicati per Realtor, Rightmove e Realestate.au, pertanto questi domini sono stati esclusi dal benchmark di Apify.
Risultati del benchmark di scraping immobiliare a livello di dominio
Tempo di completamento delle attività portate a termine con successo rispetto al tasso di successo complessivo.
Campi di metadati disponibili per fornitore
Su Zillow , Bright Data ha restituito 121 campi per annuncio e Apify ne ha restituiti 185, mentre Apify è stato l'unico fornitore con JSON strutturato per Redfin (23 campi) e Bright Data è stato l'unico per Realestate.com.au (35 campi).
La tabella seguente elenca solo i campi restituiti esclusivamente da ciascun fornitore, non quelli condivisi da entrambi.
Sia Bright Data che Apify restituiscono questi campi principali di Zillow: address, bedrooms, bathrooms, livingArea, lotSize, price, zestimate, rentZestimate, homeStatus, homeType, yearBuilt, latitude, longitude, photoCount, schools, priceHistory, taxHistory, lastSoldPrice, propertyTaxRate, dateSold, brokerageName, listingDataSource.
Pro e contro dei 6 migliori scraper immobiliari
Bright Data è stato uno dei fornitori più costanti nel benchmark. I suoi risultati migliori sono apparsi su Zillow, Realestate.com.au e Rightmove. Su Zillow, Bright Data ha raggiunto un tasso di successo di circa il 100%, sebbene sia stato più lento dei fornitori più veloci in quella classifica.
Su Realestate.com.au ha registrato nuovamente un'elevata percentuale di successo, intorno al 95%, posizionandosi tra i migliori risultati su quel dominio. Su Rightmove, ha combinato un'alta percentuale di successo con una latenza molto bassa, risultando uno dei risultati più efficienti in quella classifica.
Il risultato meno convincente è apparso su Redfin, dove Bright Data è risultato molto veloce ma meno affidabile rispetto ai suoi domini più performanti, con una percentuale di successo intorno al 78%. Su Realtor, è rimasto competitivo, con una latenza moderata e una percentuale di successo intorno all'80%, ma non è riuscito a primeggiare.
Il fornitore ha ottenuto buoni risultati su tutti i domini immobiliari, senza registrare cali significativi su alcun sito. Pur non essendo al primo posto in ogni classifica, si è mantenuto costantemente nella metà superiore della classifica.
Oxylabs ha mostrato un profilo di performance eterogeneo nel benchmark immobiliare. I suoi risultati sono stati positivi in alcuni ambiti, ma molto più deboli in altri, risultando uno dei fornitori più dipendenti dal settore all'interno del set.
Su Realtor e Rightmove, Oxylabs ha ottenuto buoni risultati. Ha combinato una latenza relativamente bassa con alti tassi di successo, posizionandosi tra i provider più affidabili su questi domini. Anche su Realestate.com.au i tassi di successo sono stati elevati, sebbene i tempi di completamento siano risultati sensibilmente più lenti. Ciò suggerisce che Oxylabs può mantenere un'estrazione affidabile per alcuni target, anche quando non è tra le opzioni più veloci.
I risultati migliori sono stati ottenuti su Realtor e Rightmove, mentre Zillow e Redfin hanno registrato prestazioni nettamente inferiori. Per i team che valutano i fornitori di scraping immobiliare, Oxylabs rappresenta un'opzione più specifica per il settore piuttosto che una scelta generalmente valida su tutti e cinque i siti.
Su Zillow, Decodo ha ottenuto un'elevata percentuale di successo, pari a circa il 97%, ma anche la latenza era elevata, intorno ai 51 secondi, risultando molto più lenta rispetto ai fornitori più forti. Su Rightmove, ha registrato nuovamente una percentuale di successo accettabile, intorno all'89%, ma è risultata comunque più lenta rispetto alla maggior parte dei concorrenti.
Decodo non ha ottenuto risultati altrettanto uniformi o efficaci quanto i principali provider in questo confronto. È riuscito a completare l'estrazione su alcuni domini, ma spesso con una latenza maggiore, e ha incontrato maggiori difficoltà sui siti più complessi.
Su Zillow, Apify ha combinato un tasso di successo molto elevato con una latenza relativamente bassa. Ha raggiunto circa il 100% di successo in circa 18 secondi, il che lo ha posizionato tra i migliori risultati in quella classifica.
Su Redfin, il risultato è ancora più importante. Redfin era uno dei domini più difficili del benchmark e diversi fornitori hanno registrato un netto calo di successo su quel sito.
Apify ha ottenuto risultati migliori rispetto agli altri nella classifica, raggiungendo circa l'88% di successo in circa 14 secondi. Non è stato il provider più veloce su Redfin, ma ha offerto la migliore combinazione di affidabilità e latenza.
I risultati migliori di Zyte sono apparsi su Rightmove, Zillow e Realestate.com.au. Su Rightmove, Zyte ha raggiunto uno dei tassi di successo più alti del benchmark, pari a circa il 93%, mantenendo la latenza entro un intervallo ragionevole.
Su Zillow ha mantenuto un solido tasso di successo di circa il 92%, sebbene i tempi di completamento fossero più lenti rispetto a quelli dei fornitori più veloci presenti in quella classifica.
Su Realestate.com.au, Zyte è risultato relativamente veloce e ha comunque raggiunto un tasso di successo accettabile, pur non rientrando nel gruppo di punta per affidabilità. Risultati meno brillanti sono stati ottenuti su Redfin e soprattutto su Realtor.
Il punto di forza principale di Nimble è stata la coerenza. È rimasto entro un intervallo gestibile in tutti e cinque i settori immobiliari e non ha mostrato alcun settore in cui le prestazioni siano crollate.
I risultati migliori per Nimble sono apparsi su Zillow, Redfin e Rightmove. Su Zillow, Nimble ha combinato una bassa latenza con un alto tasso di successo, posizionandosi tra i risultati migliori in quella classifica.
Su Redfin, si è comportato di nuovo piuttosto bene, con un tasso di successo intorno al 79% e tempi di completamento più rapidi rispetto a diversi concorrenti. Anche su Rightmove, Nimble si è dimostrato efficace, raggiungendo circa il 92% di successo con una latenza moderata, rimanendo vicino al gruppo di testa in questo ambito.
Su Realestate.com.au, Nimble è rimasto relativamente veloce, ma il suo successo è stato leggermente inferiore a quello dei fornitori più forti in quella classifica. Lo stesso schema si è ripetuto su Realtor, dove è rimasto competitivo, ma non si è distinto nettamente dalla metà della concorrenza.
Metodologia di scraping immobiliare
Abbiamo testato sei provider di web scraping (Apify, Bright Data, Decodo, Oxylabs, Nimble, Zyte) su cinque domini immobiliari: zillow.com, redfin.com, realtor.com, rightmove.co.uk e realestate.com.au.
set di dati estratto da dati immobiliari
Abbiamo preparato 1.250 URL di pagine prodotto su 5 domini (250 per dominio). Le pagine prodotto sono elenchi di singole proprietà con dettagli quali indirizzo, prezzo, numero di camere da letto e bagni.
I cinque domini sono stati selezionati come i migliori siti web immobiliari a livello globale in base alle classifiche di traffico di SimilarWeb.
Tutti gli URL sono stati verificati come accessibili prima del benchmark. I reindirizzamenti non validi, gli annunci scaduti e i sottodomini non standard sono stati rimossi o corretti durante la preparazione del dataset.
Configurazione condivisa
Tutti i fornitori hanno ricevuto URL identici dallo stesso set di dati e sono stati testati nelle stesse condizioni:
- Esecuzione sequenziale: una richiesta alla volta, nessuna richiesta parallela
- Intervallo tra le richieste: 2 secondi
- Gestione del limite di richieste: attesa di 30 secondi con fino a 3 tentativi sulla porta HTTP 429
- Tempo limite per l'invio: 300 secondi
- Tempo di timeout per l'esecuzione: 600 secondi
- Ogni URL è stato testato una volta per ciascun fornitore.
Configurazioni del provider
Bright Data
Bright Data ha utilizzato due metodi di integrazione a seconda del dominio. Per Zillow e Realestate AU, abbiamo utilizzato l'API Dataset, che restituisce JSON strutturato con campi analizzati. Per Redfin, Realtor e Rightmove, abbiamo utilizzato uno strumento di sblocco web che restituisce HTML renderizzato, che abbiamo analizzato localmente con selettori CSS.
L'API del dataset è stata interrogata tramite l'endpoint /progress/{snapshot_id} a intervalli di 1 secondo fino al raggiungimento dello stato 'ready'. I risultati sono stati quindi recuperati dall'endpoint /snapshot/{snapshot_id}.
Apify
Apify ha utilizzato attori predefiniti specifici per ciascun dominio supportato. Per Zillow, abbiamo utilizzato maxcopell/zillow-detail-scraper. Per Redfin, abbiamo utilizzato tri_angle/redfin-detail. Apify non supporta Realtor, Rightmove o Realestate AU in questo benchmark.
Gli attori Apify restituiscono JSON strutturato, quindi non è stato necessario alcun parsing del selettore CSS. Le esecuzioni degli attori sono state interrogate a intervalli di 1 secondo fino a quando lo stato non ha raggiunto SUCCEEDED.
Decodo
Decodo ha utilizzato l'API Universal Scraper (target: universal, headless: HTML) per Zillow e Redfin. Per Realtor, Rightmove e Realestate AU, abbiamo utilizzato lo sblocco web con l'intestazione X-SU-Headless: HTML per il rendering JavaScript. Tutte le richieste includevano un'intestazione User-Agent desktop.
Oxylabs
Oxylabs ha utilizzato un'API sorgente dedicata per Zillow (source: zillow) con render: html. Per Redfin, Realtor, Rightmove e Realestate AU, abbiamo utilizzato il proxy Web Unblocker. Le richieste Unblocker includevano un'intestazione User-Agent per desktop. Il rendering JavaScript non era abilitato su Unblocker.
Nimble
Nimbleway ha utilizzato l'API Extract per tutti i domini con render: true e driver: vx10 (browser headless stealth). Tutte le richieste hanno restituito HTML renderizzato, che abbiamo analizzato con selettori CSS. Non è stata applicata alcuna configurazione specifica per il dominio.
Zyte
Zyte ha utilizzato l'API Extract per tutti i domini con HTML del browser: true, che restituisce HTML renderizzato in JavaScript tramite un browser Chromium headless. Non è stata applicata alcuna configurazione specifica del dominio.
Metodi di scraping per dominio
- API JSON : il fornitore restituisce un JSON strutturato con i campi analizzati (indirizzo, prezzo, numero di posti letto).
- API HTML : il provider restituisce codice HTML renderizzato tramite JavaScript attraverso la sua API di scraping, che viene analizzato localmente con i selettori CSS.
- Sbloccante : il provider instrada la richiesta tramite un proxy al sito di destinazione, restituisce HTML grezzo e lo analizza localmente con i selettori CSS.
Validazione dei dati di riferimento del settore immobiliare
Verifica dello stato HTTP
Prima della convalida, viene innanzitutto verificato il codice di risposta HTTP del provider. Le risposte con codici di stato compresi tra 200 e 399 e 404 sono considerate invii riusciti e passano alla fase di convalida. Qualsiasi altro codice di stato (400, 403, 500, 550) viene considerato un invio non riuscito e il test viene immediatamente contrassegnato come fallito senza passare alla fase di convalida.
Regole di convalida
I test che superano il controllo dello stato HTTP vengono convalidati nel seguente ordine:
- Rilevamento 404 : Se il contenuto della pagina o un errore dell'API indica che la pagina non esiste più ("pagina non trovata", "non esiste", "pagina morta"), il test viene contrassegnato come valido. Il provider ha identificato correttamente una pagina non disponibile.
- Estrazione dati (API JSON) : Per i fornitori che restituiscono JSON strutturato, deve essere presente almeno un campo dati non vuoto, con il tipo di campo che dipende dal campo stesso (stringa o intero). I campi controllati includono indirizzo, prezzo, letti, bagni, titolo, nome, valutazione e recensioni.
- Estrazione dati (HTML) : per i provider che restituiscono HTML, la risposta viene analizzata utilizzando selettori CSS specifici del dominio. Se almeno un selettore corrisponde e restituisce un valore non vuoto, il test ha esito positivo.
- Indicatore di pagina (solo HTML): se non sono stati estratti elementi di dati, ma almeno uno dei selettori CSS predefiniti per quel dominio corrisponde a un elemento della pagina, il test viene contrassegnato come valido. Ciò conferma che la pagina è stata renderizzata e caricata, anche se non sono stati trovati elementi di dati strutturati nei contenitori previsti.
Se nessuna delle condizioni sopra indicate viene soddisfatta, il test fallisce. Le cause più comuni di fallimento includono pagine di verifica CAPTCHA/bot, rendering JavaScript insufficiente, errori di connessione proxy ed errori del crawler.
parametri di riferimento del settore immobiliare
- Tasso di successo della validazione : la percentuale di URL testati in cui il fornitore ha restituito dati utilizzabili, calcolata come numero di test riusciti diviso per il numero totale di test.
- Tempo di completamento: il tempo totale, misurato in secondi, dall'invio della richiesta di scraping alla ricezione dei risultati validati. Per i provider asincroni, lo stato di completamento del job veniva verificato ogni secondo. Il valore riportato è la media aritmetica di tutte le esecuzioni di un gruppo.
- Metadati disponibili : il numero di nomi di campo univoci restituiti dal provider per tutti gli elementi in una risposta. Applicabile solo alle risposte API JSON.
FAQ
Lo scraping immobiliare è l'estrazione automatizzata di dati sugli immobili dai siti web di annunci, inclusi prezzo, indirizzo, numero di camere da letto, bagni, metratura e stato dell'annuncio. Viene utilizzato per analisi di mercato, ricerche di investimento, monitoraggio dei prezzi, generazione di contatti e creazione di strumenti di confronto immobiliare.
I provider JSON strutturati restituiscono campi di proprietà analizzati, come prezzo, indirizzo e numero di camere da letto, in un formato pronto all'uso. I provider HTML restituiscono la pagina renderizzata, che richiede l'analisi dei selettori CSS per estrarre gli stessi dati. Le API JSON in genere restituiscono più campi di metadati e sono più facili da integrare, mentre gli approcci HTML funzionano su più domini ma richiedono una logica di analisi aggiuntiva.
Gli annunci sui siti immobiliari vengono spesso rimossi dopo una vendita o un contratto di locazione. I provider gestiscono questi casi in modo diverso: alcuni restituiscono esplicitamente codici di errore 404 o "dead_page", mentre altri restituiscono un codice HTTP 200 con la dicitura "pagina non trovata" nel codice HTML. Nel nostro benchmark, abbiamo considerato valido il corretto rilevamento dell'errore 404, poiché il provider ha identificato correttamente la pagina non disponibile.
Sì, la maggior parte dei fornitori supporta entrambi i tipi di annunci. La struttura dell'URL in genere differisce tra vendite e affitti su ciascuna piattaforma, quindi il tuo set di dati dovrebbe includere il tipo di annuncio corretto. Alcuni fornitori utilizzano configurazioni o ID di set di dati separati per affitti e vendite.
I siti web immobiliari utilizzano CAPTCHA, blocco IP, requisiti di rendering JavaScript e fingerprinting del browser per impedire l'accesso automatizzato. Nel nostro benchmark, i tassi di successo variavano dal 42% al 100% a seconda del provider e del dominio, dimostrando che le protezioni anti-bot hanno un impatto misurabile. I provider con API di dominio dedicate o rendering headless del browser hanno generalmente ottenuto risultati migliori.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.