Benchmark

Benchmark etico e conforme sulla raccolta di dati web

aggiornato il 21 giu. 2026

Man mano che le aziende espandono le loro operazioni di raccolta dati dal web, i dirigenti responsabili di conformità, dati e rischi valutano sempre più i rischi etici, reputazionali e legali associati.

Abbiamo confrontato 5 servizi leader nella raccolta di dati web su 3 dimensioni e testato ciascun servizio con più di 20 scenari potenzialmente non etici.

Il nostro lavoro ti aiuta a valutare la posizione etica delle tue pratiche di raccolta dati e a comprendere le potenziali conseguenze di approcci non etici. Forniamo inoltre linee guida per una raccolta etica dei dati web e valutiamo i servizi di raccolta dati web dal punto di vista etico e della conformità:

Valutazione dei servizi di raccolta dati web

Abbiamo valutato i principali servizi di raccolta dati web (chiamati anche fornitori di dati web o infrastruttura per dati web) utilizzando la nostra lista di controllo per dati web etici. Questi punteggi rappresentano i livelli di maturità, dove 5 è il livello più alto:

Fornitori	Riepilogo	Uso etico da parte dei clienti	Approvvigionamento etico	Certificazione esterna	Copertura assicurativa condivisa**
Bright Data	Livello 5	Livello 5	Livello 5	Sicurezza dei dati, trattamento dei DPI. Fonti IP inserite nella whitelist. Pratiche etiche valutate.	✅
Zyte	Livello 1	Livello 1	Livello 1	Sicurezza dei dati	✅
Apify	Livello 1	Livello 1	Livello 1	Sicurezza dei dati	✅
Nimble	Livello 1	Livello 1	Livello 0	Sicurezza dei dati	❌

* Questi sono codici per i nomi dei fornitori. Questi fornitori non hanno voluto essere citati in questo rapporto e sono elencati in fondo alla lista fino a quando non risolveremo questo problema.

** ✅ indica che l'azienda ha scelto di condividere i propri certificati assicurativi con AIMultiple. ❌ indica che l'azienda ha deciso di non condividere con noi i propri certificati assicurativi e quindi non abbiamo potuto convalidare la loro copertura assicurativa. La copertura assicurativa è l'unica categoria in cui ci siamo basati sulla partecipazione delle società di servizi di dati web per valutarle.

Ordinati per punteggio riepilogativo.

Modello di punteggio per dati web etici

Di seguito spieghiamo come vengono derivati questi punteggi. Puoi anche vedere la logica alla base della scelta di queste dimensioni di punteggio.

Nelle prime 2 categorie, abbiamo identificato 5 competenze e le aziende hanno ricevuto punteggi in base al numero di competenze soddisfatte. Il Livello 5 rappresenta la maturità più alta osservata sul mercato, che riflette le migliori pratiche attuali piuttosto che la perfezione.

Capacità per un uso etico da parte dei clienti

Processi efficaci per un uso etico: Valutiamo la capacità di ciascun fornitore di prevenire l'uso non etico dei propri servizi proxy residenziali attraverso scenari di test controllati. Se una qualsiasi delle nostre richieste viene bloccata dal fornitore, questo obiettivo è raggiunto.
Processi migliorati per un uso etico: Simile a "processi efficaci per un uso etico". Tuttavia, questa capacità indica che il fornitore di servizi ha bloccato più di uno dei nostri tentativi di utilizzare i suoi servizi per casi d'uso non etici.
Processi di best practice per un uso etico: Simile a "processi efficaci per un uso etico". Tuttavia, questa capacità indica che il fornitore di servizi ha bloccato la maggior parte dei nostri tentativi di utilizzare i suoi servizi per casi d'uso non etici.
Fondamenta per la gestione degli abusi: Pubblicazione di una politica di gestione degli abusi e di un metodo per segnalare gli abusi
Gestione reattiva degli abusi: Abbiamo misurato come le aziende hanno risposto a più segnalazioni di abusi. Anche quando non era disponibile una hotline per la segnalazione, abbiamo utilizzato gli indirizzi email indicati dall'azienda per contattare il loro team. Se non abbiamo ricevuto alcuna risposta alla nostra segnalazione entro una settimana, l'azienda è considerata non reattiva.

Capacità per un approvvigionamento etico

L'approvvigionamento etico implica l'acquisizione di indirizzi IP in modo etico. La nostra analisi di mercato ha identificato i seguenti livelli di trasparenza riguardo all'approvvigionamento etico degli IP:

Livello 1: Politica di approvvigionamento degli IP pubblicata.
Livello 2: Divulgata almeno una fonte (ad es. un'app mobile) per gli IP che fornisce IP in modo etico. La fonte divulgata deve avere in totale almeno 10k recensioni su piattaforme di terze parti, inclusi Google, Apple, gli app store Amazon e Trustpilot.
Livello 3: Uguale al Livello 2 ma con 100k recensioni
Livello 4: Uguale al Livello 3 ma con 1M recensioni
Livello 5: Uguale al Livello 4 ma con 10M recensioni

Le recensioni sono un indicatore della popolarità delle app e sono un segnale importante per questa valutazione. I servizi di raccolta dati web devono collaborare con applicazioni popolari per poter soddisfare le esigenze di IP dei propri clienti.

Per la qualificazione, le app divulgate dovrebbero seguire queste best practice. Non lo verificheremo per ogni app divulgata, ma lo controlleremo per alcune selezionate casualmente:

Consenso informato:
- Gli utenti devono fornire il consenso (opt-in) prima di condividere la propria connessione internet. La schermata di opt-in dovrebbe indicare:
  - Il fornitore
  - Il servizio
  - Come verrà utilizzato il loro IP
- Gli utenti dovrebbero poter accedere a informazioni dettagliate su
  - Come verrà utilizzata la loro connessione internet
  - Informativa sulla privacy
Valore: Gli utenti devono ricevere un qualche valore dall'app (ad es. pagamento, possibilità di saltare la pubblicità o altre funzionalità)
Privacy: Raccolta limitata e trasparente dei dati degli utenti.

Per le reti proxy residenziali, gli acquirenti dovrebbero anche verificare se il consenso è specifico, informato, revocabile e separato da autorizzazioni non correlate dell'app. Dovrebbero chiedere se gli utenti possono facilmente annullare l'iscrizione, se l'uso della larghezza di banda è limitato, se i minori sono esclusi e se il fornitore sottopone a audit le app o gli SDK che forniscono IP residenziali.

Certificazione esterna

Abbiamo valutato la certificazione esterna in base al conseguimento da parte delle aziende di questi certificati pertinenti alla sicurezza e alla conformità di livello aziendale.

Certificazione DPI: Capacità dimostrata di gestire i DPI ottenendo la ISO 27018
Certificazione di sicurezza dei dati: Pratiche di sicurezza dei dati dimostrate ottenendo uno di questi certificati: SOC 2 o ISO/IEC 27001
Fonte IP inserita nella whitelist: Fornitori di certificazione esterna come McAfee certificano:
- App di 3rd parti specifiche che forniscono IP
- SDK che raccoglie IP da app di 3rd parti
Pratiche etiche valutate: Un progetto di assurance ISAE 3000 può essere completato per valutare le pratiche interne di conformità ed etica.

Assicurazione

Abbiamo chiesto ai fornitori di fornirci questi documenti assicurativi:

Certificato di assicurazione di responsabilità civile professionale che fornisce copertura per le responsabilità del fornitore in caso di problemi nel servizio
Certificato di assicurazione cyber che fornisce copertura per le responsabilità del fornitore in caso di problemi legati alla sicurezza delle informazioni.

Punteggio riepilogativo

Questo punteggio è la somma di tutti i punteggi divisa per 3. I punteggi sono:

da 0 a 5 per le capacità di uso etico da parte dei clienti
da 0 a 5 per le capacità di approvvigionamento etico
da 0 a 3 per la certificazione esterna
da 0 a 2 per le assicurazioni

Servizi leader nella raccolta di dati web

AIMultiple ha selezionato i 7 maggiori servizi di raccolta dati web in termini di dipendenti su LinkedIn. Abbiamo scelto questa metrica poiché è pubblica e dovrebbe essere correlata ai ricavi dell'azienda e alla sua prontezza per il livello aziendale. Metriche migliori come i ricavi o il numero effettivo di dipendenti a libro paga non sono disponibili pubblicamente per queste società private.

Tutte le aziende selezionate hanno più di 100 dipendenti collegati alle loro pagine del profilo LinkedIn ad aprile 2025. Attualmente 5 delle 7 selezionate sono visualizzate in questa pagina e le restanti 2 aziende hanno scelto di non essere incluse nel rapporto.

Prodotti di raccolta dati web sotto esame

Queste aziende forniscono una gamma di prodotti tra cui proxy, API per data scraping e dataset. Sebbene tutti i prodotti possano essere esaminati da una prospettiva etica, ci siamo inizialmente concentrati sul prodotto che offre il massimo livello di flessibilità e alimenta la maggior parte degli altri prodotti: i proxy residenziali.

I prodotti di raccolta dati web possono essere considerati come una gerarchia in cui i proxy formano il livello centrale su cui sono costruiti tutti gli altri servizi. Questo perché i proxy consentono alle macchine di accedere a Internet attraverso diverse destinazioni, permettendo un insieme ampio e diversificato di connessioni internet cruciali per la raccolta dei dati. Pertanto, i proxy sono il prodotto di raccolta dati web più potente; possono essere utilizzati per svolgere funzioni che non sarebbero possibili con dataset o API di data scraping.

Tra i proxy, i proxy residenziali sono il prodotto più difficile da identificare come proxy per i siti web. Ad esempio, altri proxy come i proxy da datacenter sono facili da identificare data la loro posizione. Pertanto, i proxy residenziali alimentano la maggior parte degli altri prodotti di dati web come le API di data scraping.

Verifica: la tua raccolta di dati web è conforme ed etica?

Molto probabilmente la tua azienda sta utilizzando dati web. Tuttavia, il settore è soggetto a una regolamentazione limitata, il che rende importante scegliere un fornitore etico e conforme. A tal fine, abbiamo preparato un quadro olistico per tenere conto di diversi aspetti della raccolta di dati web, tra cui l'approvvigionamento etico, l'uso etico e la certificazione esterna.

I dati web sono un asset operativo comune

Come azienda, il tuo business si basa in parte sui dati web a causa dei loro numerosi casi d'uso, come:

Prezzi dinamici per retail ed e-commerce
Dati alternativi in tempo reale per fondi di investimento
Processo KYC nel settore bancario commerciale
Addestramento o messa a punto di modelli di IA
Inferenza di IA o RAG
Ricerche di mercato

Con l'IA, i dati web sono ora più importanti

Sebbene la raccolta di dati web sia vecchia quanto il web, la sua importanza è aumentata drasticamente dopo l'ascesa dei modelli di IA generativa. I creatori di questi modelli, come OpenAI e Anthropic, hanno iniziato senza partnership significative sui contenuti e hanno utilizzato principalmente dati online per costruire i loro modelli iniziali, il che ha portato alla nascita dell'industria dell'IA da trilioni di dollari.

Supervisione normativa limitata

Sebbene la regolamentazione dell'IA sia sotto i riflettori, il settore della raccolta dati rimane per lo più non regolamentato nella maggior parte dei paesi. Le attività online chiaramente illegali sono ben definite. Tuttavia, ci sono requisiti normativi limitati per gli operatori del settore per prevenire proattivamente l'uso improprio dei loro servizi da parte degli utenti.

Spetta alle piattaforme stesse stabilire le migliori pratiche e gli standard di conformità per garantire una raccolta dati e un uso dei proxy etici. Pertanto, la scelta del fornitore è più importante nella raccolta dati rispetto a settori fortemente regolamentati come quello bancario, dove ogni fornitore di servizi è tenuto a rispettare numerose normative.

La posizione etica dei tuoi fornitori fa parte della reputazione della tua azienda

Indipendentemente dal fatto che tu raccolga o consumi i dati, sei responsabile del loro processo di acquisizione.

La responsabilità delle imprese per attività illecite nella loro catena di approvvigionamento dipende dalla giurisdizione. Ad esempio, in Germania, le imprese sono responsabili di svolgere attività KYS e di gestione del rischio per identificare e prevenire i danni causati dalla loro catena di approvvigionamento. Anche quando le aziende non sono responsabili per i danni causati dalla loro catena di approvvigionamento, possono subire un rischio reputazionale.

Qual è il costo di una raccolta dati non etica e non conforme?

Rischio reputazionale

Se diventa pubblico che un'impresa sta utilizzando un servizio di raccolta dati web che adotta comportamenti non etici o azioni che mettono in pericolo la sicurezza dei suoi dati, ciò può portare a danni reputazionali significativi come perdita di affari, abbandono dei clienti, fuga di talenti e perdita di fiducia degli investitori.

Esempi concreti di fornitori aziendali che hanno portato a perdite reputazionali:

Nike ha subito danni reputazionali numerose volte a causa delle pratiche di lavoro non etiche dei suoi fornitori.¹
Molte aziende come EY hanno perso la fiducia dei loro clienti quando sono state colpite dalla violazione del software di trasferimento file gestito MOVEit. ²

Rischio legale

La perdita reputazionale, specialmente quella che porta all'indignazione pubblica, è tipicamente seguita da cause legali da parte dei clienti dell'azienda o di altre parti interessate che sono state danneggiate dalle pratiche non etiche.

Esempio concreto: Starbucks è uno dei marchi più recenti ad essere stato citato in giudizio per approvvigionamento da aziende con pratiche non etiche.³

Lascia che il nostro team automatizzi uno dei tuoi processi aziendali con agenti IA, gratuitamente.

Automatizza un processo

Lista di controllo per dati web etici

I dati web aziendali devono soddisfare 3 requisiti per essere etici:

Uso etico da parte dei clienti

Nell'ambito dei processi Know Your Supplier, le aziende evitano di utilizzare servizi che consentono attività non etiche. L'uso di tali servizi espone le imprese a danni reputazionali.

Esempio concreto: In casi in cui è stato documentato che un fornitore permetteva l'uso della sua piattaforma per attività non etiche, numerose aziende hanno preso le distanze dal fornitore fino a quando non ha migliorato le sue pratiche.⁴

Come si collega questo ai dati web: I dati web vengono raccolti tramite diversi indirizzi IP. Questi indirizzi possono essere utilizzati per intraprendere diverse attività illecite come attacchi DDOS per impedire l'erogazione di servizi digitali, raccolta non autorizzata di dati non pubblici o frodi pubblicitarie. I malintenzionati hanno bisogno di IP per alimentare le loro azioni e i fornitori di infrastrutture dati web/proxy sono i maggiori fornitori di IP agli utenti al dettaglio.

Approvvigionamento etico

I servizi utilizzati per scopi etici possono causare azioni non etiche e dannose durante la loro produzione. Ad esempio, marchi come Nike e Nestlé hanno subito danni reputazionali e affrontato cause legali a causa dell'uso di lavoro minorile da parte dei loro appaltatori.

Come si collega questo ai dati web:

Le aziende hanno bisogno di accedere a un gran numero e a diverse fonti di larghezza di banda per una raccolta dati rapida e globale. Ciò richiede l'uso di proxy residenziali: Sebbene la raccolta di dati pubblici sia legale in molte condizioni, ⁵ i siti web possono anche scegliere di bloccare alcuni dei loro visitatori. Ad esempio, possono bloccare i crawler dei loro concorrenti. In tali casi, le aziende devono fare affidamento su un gran numero di connessioni da utenti al dettaglio o altre 3rd parti per raccogliere dati web.

I fornitori di proxy raccolgono milioni di connessioni internet da varie fonti e le forniscono alle aziende che utilizzano gli indirizzi IP per accedere a queste connessioni. Alcuni di questi IP provengono dai dispositivi di utenti residenziali. La raccolta di queste connessioni può essere legale o illegale:

Legale: Le pratiche legalmente conformi implicano l'ottenimento del consenso informato dell'utente, la fornitura di un compenso e l'offerta di meccanismi di opt-out in conformità con le normative locali. Il fornitore di dati web dovrebbe
- Informare gli utenti su come verrebbe utilizzata la loro larghezza di banda
- Ottenere il loro consenso digitalmente
- Compensarli in cambio
- Consentire loro di annullare l'iscrizione in qualsiasi momento
Illegale: I malintenzionati possono ottenere l'accesso ai dispositivi degli utenti e utilizzare la loro connessione internet senza permesso o compenso. Ciò può avvenire tramite app malevole, dispositivi compromessi, installazioni mascherate, opt-in automatico e altri metodi che possono mettere a rischio il proprietario del dispositivo.

Le aziende che utilizzano proxy ottenuti illegalmente possono inavvertitamente pagare malintenzionati per l'accesso non autorizzato ai dispositivi.

Esempi concreti:

Fornitori di proxy residenziali quotati in borsa sono stati documentati mentre condividevano la loro infrastruttura con SDK che utilizzano le connessioni dei dispositivi senza il consenso dell'utente.⁶⁷
Router e dispositivi IoT sono stati compromessi per operazioni di botnet e venduti come proxy residenziali.⁸ ⁹
Alcuni fornitori di proxy promuovono i loro servizi in forum frequentati da malintenzionati. È probabile che questi IP siano ottenuti illegalmente.¹⁰
Anche le app VPN sul Google Play Store sono state utilizzate per acquisire IP residenziali senza il consenso dell'utente.¹¹

Sebbene queste operazioni siano state chiuse, è probabile che i malintenzionati stiano ancora accedendo a IP residenziali senza consenso tramite botnet e applicazioni compromesse o dannose.

Certificazione esterna

Gli acquirenti aziendali hanno bisogno di soluzioni sicure e pronte per l'uso aziendale. Abbiamo identificato gli ingredienti per un'organizzazione di dati web matura che possono essere documentati tramite certificazione esterna:

Sicurezza dei dati

La mancanza di sicurezza dei dati nei sistemi di un fornitore può erodere il vantaggio competitivo di un'impresa o portare a perdita di dati e tempi di inattività del sistema. La perdita di funzionalità del sistema può minare la fiducia e portare alla svalutazione di un'impresa.

Intrusione nei sistemi

I servizi di raccolta dati non sono integrati così profondamente nei sistemi di un'impresa come i servizi digitali core (ad es. un sistema di registrazione come il CRM). Pertanto, le loro credenziali di sicurezza non vengono esaminate così a fondo come quelle di un sistema core come un sistema di registrazione. Tuttavia, la sicurezza dei dati è fondamentale per i clienti dei servizi di raccolta dati poiché questi servizi:

Sono talvolta integrati con sistemi più centrali come i motori di determinazione dei prezzi.
Possono infettare i sistemi aziendali anche quando non sono integrati con tali sistemi. L'uso di un servizio di raccolta dati implica la ricezione di dati da quel servizio. Anche alcune delle forme più sicure di trasferimento dati comportano dei rischi.

L'intrusione nei sistemi può anche portare gli aggressori a prendere di mira i dispositivi che forniscono IP residenziali a un servizio proxy. Ciò può comportare danni reputazionali per i clienti di tale servizio proxy.

Esempio concreto di vulnerabilità in un fornitore di proxy residenziali:

Gli operatori della botnet Kimwolf hanno acquistato servizi proxy dal fornitore di proxy residenziali IPIDEA. Utilizzando comandi dannosi, hanno infettato le reti interne dei dispositivi che forniscono IP a IPIDEA. Queste reti sono state poi scansionate e anche altri dispositivi vulnerabili su queste reti locali sono stati infettati.

Si stima che Kimwolf si sia diffuso a più di 2 milioni di dispositivi con questo metodo. Anche i dati raccolti dai clienti di IPIDEA sono passati attraverso queste reti infette.¹²

Perdita di dati

Senza sicurezza dei dati, i malintenzionati possono ottenere accesso ai dati raccolti dalle imprese per identificare le loro attività e strategie, portando a una perdita di vantaggio competitivo o opportunità di business.

Esempio concreto:

Sebbene i dati web siano pubblici, le aziende possono utilizzarli in modi innovativi per ottenere un vantaggio competitivo. Ad esempio, gli investitori spendono fino al 10% del loro budget per dati di mercato in dati alternativi¹³, ma raramente divulgano le loro strategie poiché credono che possa aiutarli a ottenere un vantaggio rispetto ai loro concorrenti. Una fuga di dati può portare all'esposizione delle loro strategie e quindi alla loro replica da parte dei concorrenti.

Gestione dei DPI

I dati web includono dati privati dietro login o DPI che possono essere accidentalmente o intenzionalmente divulgati su siti web pubblici. Se i servizi di raccolta dati web non riescono a gestire correttamente i DPI, tali dati possono essere acquisiti da malintenzionati. Ciò può portare a danni reputazionali per il servizio di raccolta dati web e i suoi clienti.

Sicurezza delle applicazioni

Le applicazioni o i programmi intermedi come gli SDK che forniscono gli IP dei servizi di raccolta dati web possono essere inseriti nella whitelist da fornitori di certificazione esterni come McAfee. Ciò aumenta la fiducia delle imprese nelle pratiche di approvvigionamento etico del servizio di raccolta dati web.

Copertura assicurativa

Le imprese richiedono tipicamente queste assicurazioni da qualsiasi fornitore digitale:

Assicurazione di responsabilità civile professionale
Certificato di assicurazione cyber

Benchmark dettagliato: Valutazione dei fornitori di infrastrutture per dati web

Benchmark: Uso etico da parte dei clienti

Qui miriamo a rispondere alla domanda: L'azienda garantisce che l'uso della sua soluzione sia etico e in linea con le leggi e i regolamenti applicabili? Riepilogo dei nostri risultati:

Fornitore	Uso etico da parte dei clienti	Processi efficaci	Processi migliorati	Processi di best practice	Fondamenta per la gestione degli abusi	Gestione reattiva degli abusi
Bright Data	Livello 5	✅	✅	✅	✅	✅
Apify	Livello 1	❌	❌	❌	N/D*	✅
Nimble	Livello 1	❌	❌	❌	❌	✅
Zyte	Livello 1	❌	❌	❌	N/D*	✅

* Non applicabile: Poiché Zyte e Apify acquistano proxy dai loro fornitori e non li raccolgono direttamente dagli utenti residenziali, non sarebbero contattati dai proprietari dei siti web per abusi e quindi non hanno bisogno di creare un modulo di contatto per i siti web.

In primo luogo, abbiamo esaminato le politiche:

Revisione della politica di utilizzo accettabile

Tutti i fornitori vietano attività illegali e forniscono esempi come attacchi DoS, messaggi di massa non sollecitati, impersonificazione o spoofing.

Inoltre, alcuni fornitori sottolineano anche di vietare attività che è probabile siano illegali. Di seguito, elenchiamo le attività vietate sulla base delle politiche di utilizzo accettabile e dei loro addendum (ad es. addendum sul trattamento dei dati) per ciascun fornitore.

Abbiamo cercato termini che proibissero attività che è probabile siano illegali e che possono essere identificate in base all'attività dell'utente. Ad esempio, una quota significativa di utenti che utilizzano proxy per partecipare a sondaggi retribuiti potrebbe utilizzare i proxy per fuorviare i fornitori di sondaggi sulla loro posizione effettiva. Pertanto, questa attività è sia probabile che sia illegale, sia può essere identificata in base all'attività dell'utente (cioè quando un utente accede a un sito web di sondaggi retribuiti).

Attività vietata	Bright Data	Apify	Zyte	Nimble
Data scraping non autorizzato	✅	✅	✅	✅
Siti web dannosi	✅	✅	❌	✅
Rivendita senza permesso	✅	✅	✅	✅
Frode pubblicitaria	✅	✅	✅	❌
Siti web per adulti	✅	✅	✅	❌
Creazione e gestione di account	✅	❌	❌	❌
Acquisto automatizzato di biglietti	✅	❌	✅	❌
Pubblicazione su annunci e marketplace	✅	✅	❌	❌
Siti web governativi	✅	❌	✅	❌
Sondaggi retribuiti	✅	✅	❌	❌

Sebbene identificare chiaramente le attività vietate sia vantaggioso, non è un requisito e non influisce sui nostri punteggi. Le aziende possono scegliere di menzionare che non consentono attività illegali piuttosto che menzionare ogni possibile istanza di attività illegali.

Menzionare un'attività come vietata non significa che tali attività saranno esaminate o bloccate. I nostri punteggi si basano su come queste politiche vengono implementate, come descritto di seguito:

Processi per un uso etico

Mentre alcune categorie delineate nelle politiche di utilizzo accettabile sono piuttosto ampie (ad es. data scraping non autorizzato o accesso), altre sono sufficientemente specifiche da poter essere convertite in azioni preventive (ad es. blocco dell'accesso) che i servizi di raccolta dati possono implementare per gli utenti che non hanno completato il loro processo KYC.

Sulla base di questi usi proibiti specifici, abbiamo preparato un ampio elenco di utilizzi che è probabile siano usi illegali dei proxy. Per ogni caso d'uso, abbiamo identificato scenari che includevano domini web e azioni pertinenti. Ad esempio, nello scenario per il coinvolgimento artificiale sui social media, abbiamo tentato di accedere a un social network utilizzando un proxy per mettere "mi piace" a un post esistente.

Quindi, per verificare se le aziende consentono un uso non etico da parte dei clienti, abbiamo creato un account sul servizio di ciascun fornitore utilizzando un indirizzo email non-AIMultiple. Non abbiamo completato un processo KYC con questo account e abbiamo proceduto a utilizzare i servizi per capire cosa possono ottenere gli utenti anonimi con ciascun servizio. Il KYC è un passo cruciale durante il quale l'utente invia dati per convalidare l'entità giuridica che rappresenta. Questo collega l'attività dell'utente a un'entità giuridica:

Che può essere ritenuta responsabile.
La cui motivazione per le azioni online (ad es. usare proxy per accedere a siti web governativi) può essere esaminata. Ad esempio, dopo aver compreso il loro caso d'uso, a un ricercatore o a un'agenzia governativa può essere consentito di accedere a un sito web governativo utilizzando un proxy.

Ci aspettavamo che questi casi d'uso attivassero un processo KYC, ma nella maggior parte dei fornitori ciò non è accaduto. Un segno di spunta indica che la richiesta è stata bloccata per gli utenti che non avevano ancora completato il processo KYC:

Categoria	Dominio	Bright Data	Apify	Nimble	Zyte
Frode pubblicitaria	google.com	✅	❌	❌	❌
Frode pubblicitaria	bing.com	✅	❌	❌	❌
Adulti	Fornibile su richiesta	✅	❌	❌	❌
Adulti	Fornibile su richiesta	✅	❌	❌	❌
Coinvolgimento sociale artificiale	facebook.com	✅	❌	❌	❌
Coinvolgimento sociale artificiale	instagram.com	✅	❌	❌	❌
Acquisto automatizzato di biglietti	viagogo.com	✅	❌	❌	❌
Acquisto automatizzato di biglietti	ticketmaster.com	✅	❌	❌	❌
Annunci	craigslist.com	✅	❌	❌	❌
Annunci	gumtree.com	✅	❌	❌	❌

Per chiarezza, le società di servizi di raccolta dati non hanno alcun obbligo legale di bloccare questi siti web e alcuni di questi scenari possono far parte di un uso legale. Ad esempio, un ricercatore potrebbe voler sfruttare i proxy per eseguire un esperimento controllato sui social media. Tuttavia, dato il potenziale di abuso in questi scenari, ci aspettavamo che i servizi di raccolta dati li bloccassero per gli utenti che non hanno completato il processo KYC.

Come i marchi comunicano i domini che bloccano

Bright Data elenca le categorie di domini soggetti a restrizioni nella propria politica di utilizzo accettabile.

Rispettare le preferenze dei siti web riguardo alla raccolta automatizzata dei dati

Cos'è il robots.txt?

robots.txt è un nome di file per implementare il Robots Exclusion Protocol. Questo protocollo viene utilizzato dai siti web per indicare le porzioni del sito che il proprietario preferisce non vengano visitate dai bot. L'aderenza al robots.txt è volontaria.

Pro e contro dell'aderenza al robots.txt

➕ Rispetta le preferenze del sito web.

➖ Potrebbe non essere aggiornato di recente e quindi essere obsoleto.

➖ Tipicamente include termini che indicano che il proprietario del sito web preferisce che alcune sezioni pubbliche del sito non siano accessibili dai bot.

Il robots.txt può anche fornire un accesso diseguale ai bot. Ad esempio, i proprietari di siti web possono indicare che preferiscono che i bot dei motori di risposta non visitino determinati URL che invece i bot dei motori di ricerca visitano.

Robots.txt non è un documento legale e può richiedere di bloccare l'accesso dei bot per pagine che legalmente sono:

consentite per lo scraping (ad es. dati pubblici) o
non consentite per lo scraping (ad es. dati dietro un login dove i ToC del proprietario del sito proibiscono lo scraping di tali dati).

I fornitori di servizi di raccolta dati web possono richiedere agli utenti di proxy residenziali di completare un processo KYC e dimostrare di avere un caso d'uso legale ed etico prima che questi utenti possano ignorare il robots.txt.

Per i test, abbiamo inviato richieste a pagine in sottocartelle che è richiesto vengano bloccate dal robots.txt. I domini che abbiamo utilizzato erano aimultiple.com e 5 domini web tra i primi 100 più visitati. Solo Bright Data ha bloccato queste richieste:

URL	Bright Data	Nimble	Zyte	Apify
https://edition.cnn.com/terms0	✅	❌	❌	❌
https://www.bbc.com/search	✅	❌	❌	❌
https://www.samsung.com/us/business/search/	✅	❌	❌	❌
https://www.imdb.com/registration/signin	✅	❌	❌	❌
https://www.etsy.com/cart	✅	❌	❌	❌

Esempio CNN

Il robots.txt della CNN blocca la cartella /terms¹⁴. Per i test, siamo andati a quella cartella con i proxy residenziali e abbiamo ricevuto messaggi 200 con i dati della pagina da tutti i fornitori tranne Bright Data. La risposta di Bright Data è: "Residential Failed (bad_endpoint): Requested site is not available for immediate residential (no KYC) access mode in accordance with robots.txt. To get full residential access for targeting this site, fill in the KYC form: https://brightdata.com/cp/kyc".

Gestione degli abusi

Abbiamo delineato una metodologia per valutare le pratiche di gestione degli abusi dei fornitori e raccolto dati per soddisfare i nostri criteri di valutazione:

Fornitore	Livello	Email dedicata per la segnalazione	Webform per la segnalazione
Bright Data	Fondamenta e reattivo	✅	✅
Apify	Reattivo	❌	❌
Zyte	Reattivo	N/D*	N/D*
Nimble	Reattivo	❌	❌

* Non applicabile: Zyte acquista proxy da altri fornitori di proxy e quindi quando il servizio di Zyte viene utilizzato per abusi, i proprietari dei siti web contatterebbero i suoi fornitori di proxy piuttosto che Zyte.

Sebbene tutti i fornitori forniscano mezzi per essere contattati da 3rd parti o dai loro clienti, avere questi elementi è importante per la risoluzione dei problemi:

Politica pubblica sugli abusi
Un indirizzo email dedicato per segnalare abusi
Un metodo di contatto alternativo (ad es. webform o interfaccia di messaggistica) che consenta ai segnalanti di raggiungere l'azienda. Questo è utile poiché le email possono essere filtrate e potrebbero non raggiungere la casella di posta.
Reattività ai messaggi

3 fornitori nel benchmark (Bright Data) hanno fornito un'email per segnalare abusi. Tutti questi fornitori hanno anche delineato le loro politiche in questo ambito.

Ci aspettiamo che tutti gli altri fornitori facciano lo stesso e che questa diventi una pratica diffusa nel settore a breve termine.

Infine, abbiamo valutato la reattività della gestione degli abusi inviando segnalazioni di abuso da domini di terze parti (cioè non-AIMultiple) e misurando i tempi di risposta. Se non siamo riusciti a trovare un indirizzo email per gli abusi, l'abbiamo inviato al modulo di contatto generico. Abbiamo testato questo tramite 3 lotti di email inviati il:

Venerdì 2 maggio 2025 da:
- Un servizio di vendita biglietti con traffico mensile di ~30k
- Uno studio legale con traffico mensile di ~1k
17 maggio 2025 dal servizio di vendita biglietti.
24 maggio 2025 da un'agenzia di social media con traffico online limitato.

Le prime email inviate il 2 maggio 2025 sono state inviate alle aziende che fornivano email dedicate. Successivamente, abbiamo ampliato la nostra lista e incluso indirizzi email più generici elencati nelle sezioni contatti di tutti i servizi di raccolta dati web oggetto del benchmark. Se un'azienda rispondeva alle nostre email, smettevamo di inviarle ulteriori email.

Nelle nostre email, abbiamo menzionato che i nostri siti web avevano ricevuto traffico bot sospetto tramite proxy e abbiamo chiesto il loro supporto per identificare la fonte dei proxy. Siamo riusciti a far rispondere tutti i team di conformità tranne uno. Quasi tutte le risposte sono state ricevute lo stesso giorno.

Trasparenza sull'utilizzo

Storicamente, i proprietari di siti web che forniscono dati web e i servizi di raccolta web non hanno avuto scambi di dati sulle attività di raccolta. Per limitare le attività di crawling, i proprietari di siti web potevano:

Contattare i servizi di raccolta dati web per segnalare abusi
Lavorare con fornitori di gestione dei bot come Cloudflare per rendere il crawling più difficile.

Ora, ci sono iniziative per uno scambio di dati più strutturato tra queste parti. Bright Data ha lanciato la Bright Data Webmaster Console per consentire ai webmaster di monitorare le attività di crawling sui loro siti web. Una maggiore trasparenza è suscettibile di migliorare le pratiche di raccolta dei dati web.

La nostra esperienza con la Webmaster console

Ci siamo registrati verificando la proprietà del nostro dominio e aggiungendo un file collectors.txt sul dominio.

Ora abbiamo accesso all'attività dei bot di Bright Data sul nostro sito web:

Benchmark: Approvvigionamento etico

Fornitore	Approvvigionamento etico	Approccio di approvvigionamento spiegato	# di app pubbliche divulgate che forniscono IP	Totale # di recensioni su piattaforme di 3rd parti
Bright Data	Livello 5	✅	120	14,617,919*
Zyte	Livello 1	✅	❌	❌
Apify	❌	❌	❌	❌
Nimble	❌	❌	❌	❌

* Sono state incluse le recensioni su queste piattaforme di 3rd parti: Amazon Appstore, App Store, Google Play Store, Trustpilot. Per comodità, questo valore è stato calcolato per 5 app principali di Bright Data, non per tutte le 120 app presenti sul loro sito web.

Trasparenza dei partner

La larghezza di banda richiesta dalle aziende di infrastrutture per dati web può essere fornita in modo etico offrendo benefici (ad es. pagamenti, funzionalità come la possibilità di saltare la pubblicità) in cambio del consenso a condividere la propria connessione internet. Tuttavia, è anche possibile ottenere accesso non autorizzato ai sistemi degli utenti al dettaglio e vendere le loro connessioni.

I fornitori di infrastrutture per dati web possono formulare politiche e processi, condurre audit esterni e pubblicare il loro approccio e i risultati degli audit per creare trasparenza su come acquisiscono le loro connessioni internet. Questo può favorire la fiducia nell'approvvigionamento etico del loro servizio.

Abbiamo creato un quadro per la trasparenza dal lato dell'offerta nei dati web e valutato i fornitori utilizzando questo quadro. Abbiamo applicato questo quadro indipendentemente dal fatto che un servizio di raccolta dati web acquisisca IP residenziali direttamente o tramite altri proxy. Il nostro obiettivo è portare trasparenza all'intera catena di approvvigionamento degli IP, poiché le pratiche non etiche possono originare in qualsiasi punto della catena di approvvigionamento.

Qui puoi trovare i nostri risultati dettagliati:

Bright Data

Bright Data è classificato come Livello 5 poiché pubblica

Il proprio approccio di approvvigionamento e come gli sviluppatori di app possono lavorare con loro tramite il loro SDK¹⁵ ¹⁶
Dettagli su 120 fornitori sono stati condivisi pubblicamente. Abbiamo potuto controllare le recensioni di questi fornitori su piattaforme di 3rd parti per stimare quanto siano popolari. ¹⁷

Revisione delle app selezionate

Bright Data condivide 120 app sul proprio sito web. App come Bright VPN sono certificate da 3rd parti per quanto riguarda la loro informativa e UX.¹⁸ Abbiamo anche scaricato queste app per vederle più nel dettaglio:

Bright VPN
EarnApp
Sling Kong

Modulo di opt-in con obbligo di non raccogliere dati personali identificabili: Modulo di consenso con chiara spiegazione da

Bright VPN:

Earn App:

Sling Kong:

L'utente riceve l'offerta durante il gioco:

Opt-in:

Ulteriori informazioni durante l'opt-in:

Opt-out:

Valore fornito dalle app:

Bright VPN: Servizio VPN gratuito
EarnApp: Pagamenti
Sling Kong: Valuta virtuale in-game

Altri

Sebbene la maggior parte dei fornitori sia consapevole dell'etica nel web scraping e abbia pubblicato sull'argomento (ad es. ¹⁹, non abbiamo identificato loro impegni specifici su questo fronte ad eccezione di Zyte.²⁰

Ci aspettiamo che questo cambi e che la maggior parte dei fornitori passi almeno al Livello 1 a breve termine.

Certificazione esterna

Fornitore	Certificazione esterna	Certificazione di sicurezza dei dati	Certificazione DPI	Fonte IP Whitelisted	Pratiche etiche valutate
Bright Data	Sicurezza dei dati, trattamento dei DPI. Fonti IP inserite nella whitelist. Pratiche etiche valutate.	✅	✅	✅	✅
Apify	Certificato per la sicurezza dei dati	✅	❌	❌	❌
Nimble	Certificato per la sicurezza dei dati	✅	❌	❌	❌
Zyte	Certificato per la sicurezza dei dati	✅	❌	❌	❌

* Indica che l'azienda ha ottenuto tutte le certificazioni esterne in questa categoria

È fondamentale che i fornitori dispongano dei sistemi, del personale e dei processi giusti per proteggere i dati dei clienti e mettere in sicurezza le app che forniscono i loro IP. Vedi la nostra metodologia di misurazione della certificazione esterna per capire la logica alla base del nostro punteggio.

Tutti i fornitori dichiarano pubblicamente di essere conformi a entrambe le normative sulla privacy dei dati. Pertanto, questo non è stato incluso nel punteggio.

Come abbiamo misurato le maturità organizzative

Sulla base delle capacità che abbiamo identificato in questo ambito, abbiamo verificato l'esistenza di questi certificati presso ciascun fornitore utilizzando le loro dichiarazioni pubbliche:

Certificazione di sicurezza dei dati e Certificazione DPI: ²¹²²²³²⁴
Fonte IP whitelisted: ²⁵
Pratiche etiche valutate: ²⁶

Alcuni fornitori che non possiedono certificati ISO 27018 hanno affermato che dovrebbero essere considerati certificati poiché utilizzano fornitori di servizi cloud che possiedono certificati ISO 27018. Il parere del nostro consulente di cybersecurity è stato che, sebbene questo faciliterebbe l'acquisizione del certificato, avrebbero comunque bisogno di far certificare le loro politiche e i loro controlli per ottenere il certificato.

Copertura assicurativa

3 società di raccolta dati web hanno condiviso i loro certificati assicurativi. Non pubblichiamo i certificati ma abbiamo esaminato i documenti per garantire che

coprissero queste 2 categorie assicurative
Il limite assicurativo in ciascuna categoria sia almeno nell'ordine di diversi milioni in dollari USA.

Non perderti i nostri benchmark e approfondimenti basati sui dati. Il pulsante apre Google; selezionare AIMultiple conferma che desideri vedere AIMultiple più spesso nei risultati di ricerca di Google.

Aggiungi come fonte preferita

Disclaimer e raccomandazioni per i prossimi passi

Tutti i fornitori in questo benchmark ad eccezione di Nimble sono clienti di AIMultiple. Come sempre, abbiamo seguito i nostri impegni etici durante questa ricerca.

Abbiamo completato una revisione esaustiva della raccolta etica dei dati web e, sebbene siamo soddisfatti della portata di questo benchmark, ci piacerebbe aumentarne la partecipazione. Ringraziamo queste aziende per aver condiviso la loro copertura assicurativa: Apify, Bright Data, Zyte.

Siamo in attesa di risposte da Nimble. Aggiorneremo il rapporto non appena avremo ulteriori aggiornamenti da loro. 2 fornitori hanno scelto di non partecipare a questa iterazione del benchmark. Stiamo sempre aggiornando questo rapporto se una di queste 7 aziende suggerisce modifiche che siano basate sui fatti, eque per tutti i fornitori e aiutino le imprese a prendere decisioni migliori.

NetNut era tra le aziende che abbiamo valutato quando abbiamo pubblicato per la prima volta questo rapporto nel 2025. Avevano il punteggio più basso possibile (Livello 0) nel nostro approfondimento sull'approvvigionamento etico in cui abbiamo esaminato le fonti degli IP di questi fornitori. NetNut è stata chiusa nel 2026 poiché l'FBI ha identificato i suoi legami con le botnet.²⁷ Speriamo che questo sia un incentivo per tutti i fornitori ad essere trasparenti riguardo al loro approvvigionamento.

Questo è il primo rapporto a concentrarsi sui dati web etici secondo la nostra ricerca. Speriamo che questa trasparenza possa aiutare l'industria dei dati web a trovare soluzioni creative alle sue sfide. Queste soluzioni dovranno bilanciare gli interessi dei raccoglitori di dati web, degli utenti dell'automazione web, dei proprietari di siti web e degli utenti residenziali che forniscono i loro IP all'industria.

Limitazioni della metodologia

Questo benchmark misura indicatori di maturità osservabili, inclusi i controlli sull'uso da parte dei clienti, la trasparenza dell'approvvigionamento IP, le certificazioni esterne e la condivisione delle assicurazioni. Tuttavia, il punteggio non determina completamente se un fornitore sia legalmente conforme in ogni caso d'uso del cliente.

Pertanto, un punteggio elevato nel benchmark dovrebbe essere considerato come un input per la due diligence negli acquisti, non come una garanzia di legalità o uso etico.

Riferimenti

Cita questa ricerca

Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.

Cem Dilmegani (2026) - "Benchmark etico e conforme sulla raccolta di dati web". Pubblicato online su AIMultiple.com. Consultato il 21 Giugno 2026, da: https://aimultiple.com/web-scraping-ethics [Risorsa online]

Dilmegani, C. (2026, 21 Giugno). Benchmark etico e conforme sulla raccolta di dati web. AIMultiple. https://aimultiple.com/web-scraping-ethics

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Benchmark etico e conforme sulla raccolta di dati web}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/web-scraping-ethics}},
  note   = {AIMultiple. Consultato il 21 Giugno 2026}
}

Collegamenti di riferimento

Workers Fainted at Nike Clothing Factory Despite a Vow to Reform — ProPublica

ProPublica

2023 MOVEit data breach - Wikipedia

Contributors to Wikimedia projects

https://www.courthousenews.com/wp-content/uploads/2024/01/starbucks-labor-rights-violations-suit.pdf

Verifying Device

The Times

Court Rules in Favor of Bright Data in Meta v. Bright Data Case - Bright Data

Bright Data

Popa: From Sourcing to Distribution | Synthient

Synthient

‘Popa’ Botnet Linked to Publicly-Traded Israeli Firm – Krebs on Security

https://media.defense.gov/2024/Sep/18/2003547016/-1/-1/0/CSA-PRC-LINKED-ACTORS-BOTNET.PDF

Internet Crime Complaint Center (IC3) | Home Internet Connected Devices Facilitate Criminal Activity

10.

A Look at the Residential Proxy Market | Intel 471

Website

11.

Satori Threat Intelligence Alert: PROXYLIB and LumiApps Transform Mobile Devices into Proxy Nodes - HUMAN Security

HUMAN Security

12.

Kimwolf Botnet Lurking in Corporate, Govt. Networks – Krebs on Security

https://edition.cnn.com/robots.txt

15.

Ethically Sourcing Residential Proxies | Bright Data

Bright Data

16.

homepage - Bright SDK

Bright SDK

17.

How Bright Data Obtains Its Residential IPs - Bright Data

Bright Data

18.

Bright VPN Compliance with guidelines - Google Sheets

19.

What is ethical scraping and how do you do it?

Apify Blog

20.

Web Scraping Data Compliance | Zyte

21.

https://brightdata.com/trustcenter/data-security-overview-protection-measures

22.

Security | Platform | Apify Documentation

23.

Nimble Trust Center | Security, Compliance & Reliability

24.

Trust Center | Zyte

25.

Bright SDK Compliance with Guidelines - Google Sheets

26.

pwc-report - Bright Data

Bright Data

27.

FBI Seizes NetNut Proxy Platform, Popa Botnet – Krebs on Security

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo