Con l'espansione delle operazioni sui dati web da parte delle aziende, i responsabili della conformità, dei dati e della gestione del rischio valutano sempre più i rischi etici, reputazionali e legali ad essi associati.
Abbiamo confrontato 5 servizi leader nella raccolta di dati web in base a 3 dimensioni e abbiamo testato ciascun servizio con oltre 20 scenari potenzialmente non etici.
Il nostro lavoro vi aiuta a valutare la conformità etica delle vostre pratiche di raccolta dati e a comprendere le potenziali conseguenze di approcci non etici . Forniamo inoltre linee guida per una raccolta dati web etica e valutiamo i servizi di raccolta dati web da una prospettiva etica e di conformità.
Valutazione dei servizi di raccolta dati web
Abbiamo valutato i principali servizi di raccolta dati web (noti anche come fornitori di dati web o infrastrutture di dati web) utilizzando la nostra checklist etica sui dati web . Questi punteggi rappresentano i livelli di maturità, dove 5 è il livello più alto:
Fornitori | Riepilogo | Uso etico dai clienti | Etico fornitura | Certificazione esterna | Copertura assicurativa condiviso** |
|---|---|---|---|---|---|
Bright Data | Livello 5 | Livello 5 | Livello 5 | Sicurezza dei dati, trattamento dei dati personali. Fonti IP autorizzate. Pratiche etiche valutate. | ✅ |
Apify | Livello 1 | Livello 1 | Livello 1 | Sicurezza dei dati | ✅ |
Zyte | Livello 1 | Livello 1 | Livello 1 | Sicurezza dei dati | ✅ |
NetNut | Livello 1 | Livello 1 | Livello 0 | Sicurezza dei dati | Da definire |
Nimble | Livello 1 | Livello 1 | Livello 0 | Sicurezza dei dati | ❌ |
* Questi sono codici per i nomi dei fornitori. Questi fornitori non hanno voluto essere citati in questo report e sono elencati in fondo all'elenco finché non risolveremo questo problema.
** ✅ indica che l'azienda ha scelto di condividere i propri certificati assicurativi con AIMultiple. ❌ indica che l'azienda ha deciso di non condividere i propri certificati assicurativi con noi e pertanto non abbiamo potuto convalidare la sua copertura assicurativa. La copertura assicurativa è l'unica categoria per la quale ci siamo affidati alla partecipazione di società di servizi dati web per la valutazione.
Ordinati in base al punteggio complessivo.
Modello di punteggio per i dati etici sul web
Di seguito, illustriamo come vengono calcolati questi punteggi. È inoltre possibile consultare le motivazioni alla base della scelta di queste dimensioni di punteggio .
Nelle prime due categorie, abbiamo identificato cinque competenze e le aziende hanno ricevuto un punteggio in base al numero di competenze soddisfatte. Il livello 5 rappresenta il massimo livello di maturità riscontrato sul mercato, riflettendo le migliori pratiche attuali piuttosto che la perfezione.
Funzionalità per un utilizzo etico da parte dei clienti
- Processi efficaci per un utilizzo etico: valutiamo la capacità di ciascun fornitore di prevenire l'uso non etico dei propri servizi di proxy residenziali attraverso scenari di test controllati. Se una qualsiasi delle nostre richieste viene bloccata dal fornitore, significa che l'obiettivo è stato raggiunto.
- Processi migliorati per un utilizzo etico: simile a "processi efficaci per un utilizzo etico". Tuttavia, questa funzionalità indica che il fornitore di servizi ha bloccato più di un nostro tentativo di utilizzare i suoi servizi per scopi non etici.
- Procedure ottimali per un utilizzo etico: Simili a "processi efficaci per un utilizzo etico". Tuttavia, questa funzionalità indica che il fornitore di servizi ha bloccato la maggior parte dei nostri tentativi di utilizzare i suoi servizi per scopi non etici.
- Fondazione per la gestione degli abusi : pubblicazione di una politica di gestione degli abusi e di una procedura per la segnalazione degli abusi.
- Gestione reattiva degli abusi : abbiamo misurato la risposta delle aziende a numerose segnalazioni di abusi. Anche in assenza di una linea telefonica dedicata alle segnalazioni, abbiamo utilizzato gli indirizzi email forniti dall'azienda per contattare il team. Se non ricevevamo alcuna risposta alla nostra segnalazione entro una settimana, si presumeva che l'azienda non rispondesse.
Capacità di approvvigionamento etico
La fornitura etica implica l'acquisizione di indirizzi IP in modo etico. La nostra analisi di mercato ha identificato i seguenti livelli di trasparenza in merito alla fornitura etica di IP:
- Livello 1 : Politica di approvvigionamento della proprietà intellettuale pubblicata.
- Livello 2: È stata divulgata almeno una fonte (ad esempio un'app mobile) per gli IP che li fornisce in modo etico. La fonte divulgata dovrebbe avere in totale almeno 10.000 recensioni su piattaforme di terze parti, tra cui Google, Apple, gli app store di Amazon e Trustpilot.
- Livello 3: Uguale al livello 3 ma con 100.000 recensioni
- Livello 4: Uguale al livello 3, ma con 1 milione di recensioni.
- Livello 5: Uguale al livello 4, ma con 10 milioni di recensioni.
Le recensioni sono un indicatore della popolarità delle app e rappresentano un segnale importante per questa valutazione. I servizi di raccolta dati web devono collaborare con le applicazioni più diffuse per poter soddisfare le esigenze di proprietà intellettuale dei propri clienti.
Per essere considerate idonee, le app divulgate devono rispettare queste best practice. Non verificheremo questo aspetto per tutte le app divulgate, ma solo per alcune selezionate casualmente:
- Consenso informato:
- Gli utenti devono dare il proprio consenso prima di poter condividere la propria connessione internet. La schermata di consenso dovrebbe includere le seguenti informazioni:
- Il fornitore
- Il servizio
- Come verrà utilizzato il loro indirizzo IP
- Gli utenti dovrebbero essere in grado di accedere a informazioni dettagliate su
- Come verrà utilizzata la loro connessione internet
- Politica sulla riservatezza
- Gli utenti devono dare il proprio consenso prima di poter condividere la propria connessione internet. La schermata di consenso dovrebbe includere le seguenti informazioni:
- Valore: Gli utenti devono ricevere un qualche valore dall'app (ad esempio, pagamento, possibilità di saltare gli annunci o altre funzionalità).
- Privacy: Raccolta dei dati degli utenti limitata e trasparente.
Certificazione esterna
Abbiamo valutato le certificazioni esterne in base alla pertinenza dei certificati acquisiti dalle aziende rispetto alla sicurezza e alla conformità di livello aziendale.
- Certificazione PII: Capacità dimostrata di gestire i dati personali (PII) attraverso l'ottenimento della certificazione ISO 27018.
- Certificazione di sicurezza dei dati: dimostra l'adozione di pratiche di sicurezza dei dati acquisendo una delle seguenti certificazioni: SOC 2 o ISO/IEC 27001.
- Origine IP inserita nella whitelist: i fornitori di certificazione esterni come McAfee certificano:
- Applicazioni specifiche di terze parti che forniscono indirizzi IP
- SDK che raccoglie indirizzi IP da applicazioni di terze parti
- Pratiche etiche valutate : È possibile completare un progetto di certificazione ISAE 3000 per valutare le pratiche interne di conformità ed etica.
Assicurazione
Abbiamo chiesto ai fornitori di fornirci i seguenti documenti assicurativi:
- Certificato di assicurazione di responsabilità professionale che fornisce copertura per la responsabilità dei fornitori in caso di problemi nel servizio
- Certificato di assicurazione informatica che fornisce copertura per la responsabilità dei fornitori in caso di problemi relativi alla sicurezza delle informazioni.
Punteggio riassuntivo
Questo punteggio è la somma di tutti i punteggi divisa per 3. I punteggi sono:
- Da 0 a 5 per le capacità di utilizzo etico da parte dei clienti
- Da 0 a 5 per le capacità di fornitura etica
- Da 0 a 3 per la certificazione esterna
- Da 0 a 2 per le assicurazioni
Servizi leader nella raccolta di dati web
AIMultiple ha selezionato i 7 maggiori servizi di raccolta dati web in termini di dipendenti su LinkedIn. Abbiamo scelto questo parametro perché è pubblico e dovrebbe essere correlato al fatturato e alla capacità di implementazione aziendale dell'azienda. Parametri più precisi, come il fatturato o il numero di dipendenti a libro paga, non sono disponibili pubblicamente per queste aziende private.
Tutte le aziende selezionate avevano più di 100 dipendenti collegati al proprio profilo LinkedIn nell'aprile 2025. Attualmente 5 delle 7 aziende selezionate sono visualizzate in questa pagina, mentre le restanti 2 hanno scelto di non essere incluse nel report.
Prodotti per la raccolta di dati web sotto i riflettori
Queste aziende offrono una vasta gamma di prodotti, tra cui proxy, API per l'estrazione di dati e dataset. Sebbene tutti i prodotti possano essere esaminati da una prospettiva etica, inizialmente ci siamo concentrati sul prodotto che offre il massimo livello di flessibilità e che alimenta la maggior parte degli altri prodotti: i proxy residenziali.
I prodotti per la raccolta di dati web possono essere considerati come una gerarchia in cui i proxy costituiscono il livello centrale su cui si basano tutti gli altri servizi. Questo perché i proxy consentono alle macchine di accedere a Internet attraverso destinazioni diverse, permettendo un insieme ampio e diversificato di connessioni Internet, fondamentale per la raccolta dei dati. Pertanto, i proxy sono il prodotto più potente per la raccolta di dati web e possono essere utilizzati per svolgere funzioni che non sarebbero possibili con i dataset o le API di scraping.
Tra i proxy, i proxy residenziali sono i più difficili da identificare per i siti web. Ad esempio, altri proxy, come quelli dei data center, sono facili da identificare data la loro posizione. Pertanto, i proxy residenziali alimentano la maggior parte degli altri prodotti web per la raccolta di dati, come le API di data scraping.
Verifica: la raccolta dati web è conforme alle normative e rispetta i principi etici?
È molto probabile che la tua azienda utilizzi dati web. Tuttavia, il settore è soggetto a una regolamentazione limitata, il che rende fondamentale scegliere un fornitore etico e conforme alle normative. Per questo motivo, abbiamo elaborato un quadro di riferimento olistico che prende in considerazione diversi aspetti della raccolta di dati web, tra cui l'approvvigionamento etico, l'utilizzo etico e la certificazione esterna.
I dati web sono una risorsa operativa comune
In quanto azienda, la tua attività dipende in parte dai dati web per via dei suoi numerosi casi d'uso, come ad esempio:
- Prezzi dinamici per la vendita al dettaglio e l'e-commerce
- Dati alternativi in tempo reale per i fondi di investimento
- Processo KYC nel settore bancario commerciale
- Addestramento o messa a punto del modello AI
- Inferenza AI o RAG
- Ricerca di mercato
Con l'intelligenza artificiale, i dati web sono ora più importanti
Sebbene la raccolta di dati sul web sia antica quanto il web stesso, la sua importanza è aumentata drasticamente dopo l'avvento dei modelli di intelligenza artificiale generativa. I creatori di questi modelli, come OpenAI e Anthropic, hanno iniziato senza significative collaborazioni con fornitori di contenuti e hanno utilizzato principalmente dati online per costruire i loro modelli iniziali, il che ha portato alla crescita dell'industria dell'IA, che vale mille miliardi di dollari.
Scarsa supervisione normativa
Sebbene la regolamentazione dell'IA sia sotto i riflettori, il settore della raccolta dati rimane in gran parte non regolamentato nella maggior parte dei paesi. Le attività illegali online sono chiaramente definite. Tuttavia, esistono pochi requisiti normativi che obblighino gli operatori del settore a prevenire in modo proattivo l'abuso dei loro servizi da parte degli utenti.
Spetta alle piattaforme stesse definire le migliori pratiche e gli standard di conformità per garantire una raccolta dati etica e un utilizzo corretto dei proxy. Pertanto, la scelta del fornitore è più importante nella raccolta dati rispetto a settori fortemente regolamentati come quello bancario, dove ogni fornitore di servizi è tenuto a rispettare numerose normative.
L'approccio etico dei vostri fornitori è parte integrante della reputazione della vostra azienda.
Indipendentemente dal fatto che tu raccolga o utilizzi i dati, sei responsabile del processo di acquisizione degli stessi.
La responsabilità delle imprese per le attività illecite nella loro catena di fornitura dipende dalla giurisdizione. Ad esempio, in Germania, le imprese sono responsabili dell'esecuzione di attività di KYS (Know Your Customer) e di gestione del rischio per identificare e prevenire i danni causati dalla loro catena di fornitura. Anche quando le aziende non sono responsabili dei danni causati dalla loro catena di fornitura, possono subire un rischio reputazionale.
Qual è il costo della raccolta dati non etica e non conforme alle normative?
rischio reputazionale
Se si venisse a sapere che un'azienda si avvale di un servizio di raccolta dati online che adotta comportamenti o azioni non etiche che mettono a repentaglio la sicurezza dei suoi dati, ciò potrebbe causare danni significativi alla reputazione, come la perdita di affari, la perdita di clienti, la perdita di talenti e la perdita di fiducia da parte degli investitori.
Esempi concreti di fornitori aziendali che hanno causato danni alla reputazione:
- Nike ha subito numerosi danni alla propria reputazione a causa delle pratiche lavorative non etiche dei suoi fornitori. 1
- Molte aziende, come EY, hanno perso la fiducia dei propri clienti a seguito della violazione dei dati del software MOVEit per il trasferimento gestito di file . 2
rischio legale
La perdita di reputazione, soprattutto se suscita indignazione pubblica, è in genere seguita da cause legali intentate dai clienti dell'azienda o da altri soggetti interessati che sono stati danneggiati dalle pratiche non etiche.
Esempio concreto: Starbucks è uno dei marchi recentemente citati in giudizio per essersi rifornito da aziende con pratiche non etiche. 3
Lista di controllo per i dati web etici
I dati web aziendali devono soddisfare 3 requisiti per essere considerati etici:
Uso etico da parte dei clienti
Nell'ambito delle loro procedure di "Conosci il tuo fornitore" (Know Your Supplier), le aziende evitano di utilizzare servizi che consentono attività non etiche. L'utilizzo di tali servizi espone le imprese a danni reputazionali.
Esempio concreto: nei casi in cui un fornitore è stato documentato mentre consentiva l'utilizzo della sua piattaforma per attività non etiche, numerose aziende hanno preso le distanze dal fornitore fino a quando quest'ultimo non ha migliorato le proprie pratiche. 4
Come questo si collega ai dati web: i dati web vengono raccolti tramite diversi indirizzi IP. Questi indirizzi possono essere utilizzati per svolgere diverse attività illecite, come attacchi DDoS per impedire l'erogazione di servizi digitali, la raccolta non autorizzata di dati non pubblici o frodi pubblicitarie. I malintenzionati necessitano di indirizzi IP per portare avanti le proprie azioni e i fornitori di infrastrutture/proxy per i dati web sono i maggiori fornitori di IP agli utenti finali.
Fornitura etica
I servizi utilizzati per scopi etici possono dare origine ad azioni non etiche e dannose durante la loro produzione. Ad esempio, marchi come Nike e Nestlé hanno subito danni alla reputazione e hanno dovuto affrontare cause legali a causa dell'utilizzo di lavoro minorile da parte dei loro fornitori.
Come questo si collega ai dati web:
Le aziende devono accedere a un gran numero di fonti di larghezza di banda diversificate per una raccolta dati rapida e globale. Ciò richiede l'uso di proxy residenziali: mentre la raccolta di dati pubblici è legale in molte condizioni, 5 I siti web possono anche scegliere di bloccare alcuni dei loro visitatori. Ad esempio, possono bloccare i crawler dei loro concorrenti. In questi casi, le aziende devono fare affidamento su un gran numero di connessioni da parte di utenti finali o altre terze parti per raccogliere dati web.
I fornitori di servizi proxy raccolgono milioni di connessioni internet da varie fonti e le forniscono alle aziende, che utilizzano gli indirizzi IP per accedere a queste connessioni. Alcuni di questi indirizzi IP provengono da dispositivi di utenti residenziali. La raccolta di queste connessioni può essere legale o illegale:
- Aspetti legali: le pratiche conformi alla legge implicano l'ottenimento del consenso informato dell'utente, la fornitura di un compenso e l'offerta di meccanismi di opt-out in conformità con le normative locali. Il fornitore di dati web dovrebbe
- Informare gli utenti su come verrà utilizzata la loro larghezza di banda.
- Ottieni il loro consenso in formato digitale
- Ricompensali in cambio
- Consenti loro di rinunciare in qualsiasi momento
- Illegale: Malintenzionati possono accedere ai dispositivi degli utenti e utilizzare la loro connessione internet senza autorizzazione o compenso. Ciò può avvenire tramite applicazioni malware, dispositivi compromessi, installazioni mascherate, adesione automatica e altri metodi che possono mettere a rischio il proprietario del dispositivo.
Le aziende che utilizzano proxy ottenuti illegalmente possono, involontariamente, pagare malintenzionati per l'accesso non autorizzato ai dispositivi.
Esempi concreti:
- Router e dispositivi IoT sono stati compromessi per operazioni di botnet e venduti come proxy residenziali. 6 7
- Alcuni fornitori di proxy promuovono i propri servizi in forum frequentati da malintenzionati. È probabile che questi indirizzi IP siano stati ottenuti illegalmente. 8
- Le app VPN presenti sul Play Store sono state utilizzate anche per acquisire indirizzi IP residenziali senza il consenso dell'utente. 9
Sebbene queste operazioni siano state interrotte, è probabile che malintenzionati continuino ad accedere agli indirizzi IP residenziali senza consenso tramite botnet e applicazioni compromesse o dannose.
Certificazione esterna
Gli acquirenti aziendali necessitano di soluzioni sicure e pronte per l'uso in ambito enterprise. Abbiamo individuato gli elementi essenziali per un'organizzazione dei dati web matura, documentabile tramite certificazione esterna:
Sicurezza dei dati
La mancanza di sicurezza dei dati nei sistemi dei fornitori può erodere il vantaggio competitivo di un'azienda o causare la perdita di dati e tempi di inattività del sistema. La perdita di funzionalità del sistema può minare la fiducia e portare alla svalutazione dell'azienda.
Intrusione nel sistema
I servizi di raccolta dati non sono integrati nei sistemi aziendali in modo così profondo come i servizi digitali di base (ad esempio, un sistema di registrazione come il CRM). Pertanto, le loro credenziali di sicurezza non vengono esaminate con la stessa attenzione riservata alle credenziali di un sistema centrale come un sistema di registrazione. Tuttavia, la sicurezza dei dati è fondamentale per i clienti dei servizi di raccolta dati, poiché questi servizi:
- Talvolta vengono integrati in sistemi più centralizzati, come i motori di determinazione dei prezzi.
- Possono infettare i sistemi aziendali anche quando non sono integrati con essi. L'utilizzo di un servizio di raccolta dati implica la ricezione di dati da tale servizio. Anche alcune delle forme più sicure di trasferimento dati comportano dei rischi.
L'intrusione nel sistema può anche indurre gli aggressori a prendere di mira i dispositivi che forniscono indirizzi IP residenziali a un servizio proxy. Ciò può causare danni alla reputazione dei clienti di tale servizio proxy.
Esempio concreto di vulnerabilità in un provider di proxy residenziali :
Gli operatori della botnet Kimwolf hanno acquistato servizi proxy dal fornitore di proxy residenziali IPIDEA. Utilizzando comandi malevoli, hanno infettato le reti interne dei dispositivi che fornivano indirizzi IP a IPIDEA. Queste reti sono state quindi scansionate e altri dispositivi vulnerabili presenti su queste reti locali sono stati a loro volta infettati.
Si stima che Kimwolf si sia diffuso su oltre 2 milioni di dispositivi con questo metodo. Anche i dati raccolti dai clienti di IPIDEA sono transitati attraverso queste reti infette. 10
perdita di dati
In assenza di sicurezza dei dati, malintenzionati possono accedere alle informazioni raccolte dalle aziende per identificare le proprie attività e strategie, con conseguente perdita di vantaggio competitivo o di opportunità commerciali.
Esempio concreto:
Sebbene i dati web siano pubblici, le aziende possono utilizzarli in modi innovativi per ottenere un vantaggio competitivo. Ad esempio, gli investitori spendono fino al 10% del loro budget per i dati di mercato sui dati alternativi. 11 , ma raramente rivelano le loro strategie poiché credono che ciò possa aiutarli a ottenere un vantaggio rispetto ai concorrenti. Una fuga di dati può portare alla divulgazione delle loro strategie e quindi alla loro replicazione da parte dei concorrenti.
Gestione delle informazioni personali
I dati web includono informazioni private associate all'accesso o dati personali identificativi (PII) che possono essere divulgati accidentalmente o intenzionalmente su siti web pubblici. Se i servizi di raccolta dati web non gestiscono correttamente i PII, tali dati possono essere acquisiti da malintenzionati. Ciò può causare danni alla reputazione del servizio di raccolta dati web e dei suoi clienti.
Sicurezza delle applicazioni
Le applicazioni o i programmi intermedi, come gli SDK, che acquisiscono gli indirizzi IP dei servizi di raccolta dati web, possono essere inseriti in una lista bianca da fornitori di certificazione esterni come McAfee. Ciò aumenta la fiducia delle aziende nelle pratiche di fornitura etiche del servizio di raccolta dati web.
Copertura assicurativa
Le aziende in genere richiedono queste assicurazioni a qualsiasi fornitore di servizi digitali:
- Assicurazione di responsabilità professionale
- Certificato di assicurazione informatica
Benchmark dettagliato: Valutazione dei fornitori di infrastrutture dati web
Parametro di riferimento: utilizzo etico da parte dei clienti
Il nostro obiettivo è rispondere alla seguente domanda: l'azienda garantisce che l'utilizzo della sua soluzione sia etico e conforme alle leggi e ai regolamenti applicabili? Sintesi dei nostri risultati:
* Non applicabile: Poiché Zyte e Apify acquistano proxy dai loro fornitori e non li raccolgono direttamente dagli utenti residenziali, non verrebbero contattati dai proprietari dei siti web in merito ad abusi e pertanto non hanno bisogno di creare un modulo di contatto per i siti web.
Innanzitutto, abbiamo esaminato le politiche:
Revisione della politica di utilizzo accettabile
Tutti i fornitori vietano le attività illegali e forniscono esempi come attacchi DoS, messaggi di massa non richiesti, impersonificazione o spoofing.
Inoltre, alcuni fornitori specificano di vietare anche attività potenzialmente illegali. Di seguito, elenchiamo le attività vietate in base alle politiche di utilizzo accettabile e ai relativi allegati (ad esempio, l'allegato relativo al trattamento dei dati) per ciascun fornitore.
Abbiamo cercato termini che vietassero attività potenzialmente illegali e identificabili in base all'attività dell'utente. Ad esempio, una quota significativa di utenti che utilizzano proxy per partecipare a sondaggi retribuiti potrebbe farlo per ingannare i fornitori di sondaggi sulla propria posizione reale. Pertanto, questa attività è probabilmente illegale e può essere identificata in base all'attività dell'utente (ovvero, quando un utente accede a un sito web di sondaggi retribuiti).
Sebbene identificare chiaramente le attività proibite sia vantaggioso, non è un requisito obbligatorio e non influisce sul nostro punteggio. Le aziende possono scegliere di specificare che non consentono attività illegali, anziché menzionare ogni possibile caso di attività illegali.
Indicare un'attività come proibita non significa che tale attività verrà esaminata o bloccata. I nostri punteggi dipendono da come queste politiche vengono implementate, come descritto di seguito:
Procedure per l'uso etico
Mentre alcune categorie delineate nelle politiche di utilizzo accettabile sono piuttosto ampie (ad esempio, l'estrazione o l'accesso non autorizzato ai dati), altre sono sufficientemente specifiche da poter essere convertite in azioni preventive (ad esempio, il blocco dell'accesso) che i servizi di raccolta dati possono implementare per gli utenti che non hanno completato la procedura KYC.
Sulla base di questi specifici usi proibiti, abbiamo preparato un elenco esaustivo di utilizzi che probabilmente costituiscono un uso illegale dei proxy. Per ogni caso d'uso, abbiamo identificato scenari che includono domini web e azioni pertinenti. Ad esempio, nello scenario relativo all'interazione artificiale sui social media, abbiamo tentato di accedere a un social network utilizzando un proxy per mettere "mi piace" a un post esistente.
Successivamente, per verificare se le aziende consentono un utilizzo non etico da parte dei clienti, abbiamo creato un account su ciascun servizio del fornitore utilizzando un indirizzo email diverso da AIMultiple. Non abbiamo completato la procedura KYC con questo account e abbiamo proceduto a utilizzare i servizi per capire cosa gli utenti anonimi possono ottenere con ciascun servizio. La procedura KYC è un passaggio cruciale durante il quale l'utente fornisce dati per convalidare l'entità legale che rappresenta. Questo collega l'attività dell'utente a un'entità legale:
- Di questo si può chiedere conto.
- È possibile esaminare le motivazioni alla base delle azioni online (ad esempio, l'utilizzo di proxy per accedere a siti web governativi). Ad esempio, dopo aver compreso il caso d'uso, a un ricercatore o a un ente governativo può essere consentito di accedere a un sito web governativo tramite un proxy.
Ci aspettavamo che questi casi d'uso attivassero una procedura KYC, ma nella maggior parte dei casi ciò non è avvenuto. Un segno di spunta indica che la richiesta è stata bloccata per gli utenti che non hanno ancora completato la procedura KYC:
Per chiarezza, le società di servizi di raccolta dati non hanno alcun obbligo legale di bloccare questi siti web e alcuni di questi scenari possono rientrare in un utilizzo lecito. Ad esempio, un ricercatore potrebbe voler utilizzare dei proxy per condurre un esperimento controllato sui social media. Tuttavia, dato il potenziale di abuso in questi scenari, ci aspettavamo che i servizi di raccolta dati li bloccassero per gli utenti che non avevano completato la procedura KYC.
Come i brand comunicano i domini che bloccano
- Bright Data elenca le categorie di domini soggetti a restrizioni nella propria politica di utilizzo accettabile.
Rispettare le preferenze dei siti web in merito alla raccolta automatizzata dei dati.
Cos'è robots.txt?
robots.txt è il nome di un file per l'implementazione del Robot Exclusion Protocol (PEP). Questo protocollo viene utilizzato dai siti web per indicare le sezioni del sito che il proprietario preferisce che i bot non visitino. L'adesione a robots.txt è volontaria.
Vantaggi e svantaggi dell'adesione al file robots.txt
➕ Rispetta le preferenze del sito web.
➖ Potrebbe non essere stato aggiornato di recente e quindi risultare obsoleto.
➖ In genere si tratta di termini che indicano che il proprietario del sito web preferisce che determinate sezioni pubbliche del sito non siano accessibili dai bot.
Il file Robots.txt può anche garantire un accesso non uniforme ai bot. Ad esempio, i proprietari di siti web possono indicare di non voler che i bot dei motori di risposta visitino determinati URL visitati dai bot dei motori di ricerca.
Robots.txt non è un documento legale e può richiedere il blocco dell'accesso dei bot per le pagine che sono legalmente:
- consentiti di essere estratti (ad esempio dati pubblici) o
- Non è consentito estrarre dati (ad esempio, dati associati a un login per i quali i termini di servizio del proprietario del sito web vietano l'estrazione di tali dati).
I fornitori di servizi di raccolta dati web potrebbero richiedere agli utenti di proxy residenziali di completare una procedura KYC e dimostrare di avere un caso d'uso legale ed etico prima che tali utenti possano ignorare il file robots.txt.
Per i test, abbiamo inviato richieste a pagine in sottocartelle che, secondo il file robots.txt, dovrebbero essere bloccate. I domini utilizzati erano aimultiple.com e 5 domini web tra i 100 più visitati. Solo Bright Data ha bloccato queste richieste:
Esempio di CNN
Il file robots.txt della CNN blocca la cartella /terms 12 Per i test, abbiamo navigato in quella cartella con proxy residenziali e abbiamo ricevuto 200 messaggi con i dati della pagina da tutti i provider tranne Bright Data. La risposta di Bright Data è: " Accesso residenziale non riuscito (bad_endpoint): il sito richiesto non è disponibile per la modalità di accesso residenziale immediato (senza KYC) in conformità con robots.txt. Per ottenere l'accesso residenziale completo per indirizzare questo sito, compila il modulo KYC: https://brightdata.com/cp/kyc " .
Gestione degli abusi
Abbiamo delineato una metodologia per valutare le pratiche di gestione degli abusi adottate dai fornitori e abbiamo raccolto i dati necessari per soddisfare i nostri criteri di valutazione:
* Non applicabile: Zyte acquista proxy da altri fornitori di proxy e pertanto, quando il servizio di Zyte viene utilizzato per scopi illeciti, i proprietari del sito web si rivolgeranno ai suoi fornitori di proxy anziché a Zyte.
Sebbene tutti i fornitori offrano dei modi per consentire a terzi o ai propri clienti di contattarli, disporre di tali canali è importante per la risoluzione dei problemi:
- Politica sugli abusi pubblici
- Un indirizzo email dedicato per segnalare gli abusi.
- Un metodo di contatto alternativo (ad esempio un modulo web o un'interfaccia di messaggistica) che consenta ai giornalisti di contattare l'azienda. Questo è utile perché le email possono essere filtrate e non raggiungere la casella di posta in arrivo.
- Reattività ai messaggi
3 fornitori nel benchmark (Bright Data) hanno fornito un indirizzo email per segnalare abusi. Tutti questi fornitori hanno anche descritto le proprie politiche in questo ambito.
Ci aspettiamo che tutti gli altri fornitori facciano lo stesso e che questa diventi una prassi diffusa nel settore a breve termine.
Infine, abbiamo valutato la reattività della gestione degli abusi inviando segnalazioni di abusi via e-mail da domini di terze parti (ovvero non AIMultiple) e misurando i tempi di risposta. Se non riuscivamo a trovare un indirizzo e-mail per le segnalazioni di abusi, lo inviavamo tramite il modulo di contatto generale. Abbiamo testato questa procedura tramite 3 serie di e-mail inviate a:
- Venerdì 2 maggio 2025 da:
- Un servizio di vendita di biglietti con circa 30.000 visite mensili.
- Uno studio legale con circa 1k di traffico mensile in
- 17 maggio 2025 dal servizio di vendita dei biglietti.
- 24 maggio 2025, da un'agenzia di social media con traffico online limitato.
Le prime email inviate il 2 maggio 2025 erano indirizzate ad aziende che avevano fornito indirizzi email dedicati. Successivamente, abbiamo ampliato la nostra lista includendo indirizzi email più generici, reperibili nelle sezioni contatti di tutti i servizi di raccolta dati web analizzati. Se un'azienda rispondeva alle nostre email, interrompevamo l'invio di ulteriori comunicazioni.
Nelle nostre email, abbiamo segnalato che i nostri siti web ricevevano traffico sospetto proveniente da bot tramite proxy e abbiamo chiesto il loro supporto per identificare la fonte di tali proxy. Siamo riusciti a ottenere una risposta da tutti i team di conformità tranne uno. Quasi tutte le risposte sono arrivate lo stesso giorno.
Trasparenza d'uso
I proprietari di siti web che forniscono servizi di raccolta e analisi di dati web storicamente non hanno avuto alcuno scambio di dati sulle attività di raccolta. Per limitare le attività di crawling, i proprietari di siti web potrebbero:
- Contatta i servizi di raccolta dati web per segnalare eventuali abusi.
- Collabora con fornitori di gestione dei bot come Cloudflare per rendere la scansione più difficile.
Ora sono in corso iniziative per uno scambio di dati più strutturato tra queste parti. È stata lanciata la console per webmaster, che consente ai webmaster di monitorare le attività di crawling sui propri siti web. Una maggiore trasparenza contribuirà probabilmente a migliorare le pratiche di raccolta dei dati web.
La nostra esperienza con la console Webmaster
Ci siamo registrati verificando la proprietà del nostro dominio e aggiungendo un file collectors.txt sul dominio stesso.
Ora abbiamo accesso all'attività del bot Bright Data sul nostro sito web:
Parametro di riferimento: fornitura etica
* Sono state incluse le recensioni su queste piattaforme di terze parti: Amazon Appstore, App Store, Play Store, Trustpilot. Per comodità, questo valore è stato calcolato per 5 app principali per Bright Data, non per tutte le 120 app presenti sul loro sito web.
Trasparenza dei partner
La larghezza di banda necessaria alle aziende che gestiscono infrastrutture dati web può essere fornita in modo etico offrendo vantaggi (ad esempio, pagamenti, funzionalità come la possibilità di saltare gli annunci pubblicitari) in cambio del consenso alla condivisione della connessione internet. Tuttavia, è anche possibile ottenere accesso non autorizzato ai sistemi degli utenti privati e vendere le loro connessioni.
I fornitori di infrastrutture dati web possono formulare politiche e processi, effettuare audit esterni e pubblicare il proprio approccio e i risultati degli audit per creare trasparenza sulle modalità di acquisizione delle connessioni internet. Ciò può favorire la fiducia nell'erogazione etica del servizio.
Abbiamo creato un framework per la trasparenza lato fornitore dei dati web e abbiamo valutato i fornitori utilizzando questo framework. Abbiamo applicato questo framework indipendentemente dal fatto che un servizio di raccolta dati web acquisisse direttamente gli IP residenziali o tramite altri intermediari. Il nostro obiettivo è quello di portare trasparenza all'intera catena di fornitura degli IP, poiché le pratiche non etiche possono avere origine in qualsiasi punto della catena.
Qui potete trovare i nostri risultati dettagliati:
Bright Data
Bright Data è classificato come Livello 5 poiché pubblica
- Il loro approccio all'approvvigionamento e come gli sviluppatori di app possono collaborare con loro tramite il loro SDK 13 14
- Sono stati resi pubblici i dettagli relativi a 120 fornitori. Abbiamo potuto consultare le recensioni di questi fornitori su piattaforme di terze parti per stimarne la popolarità. 15
Recensione delle app selezionate
Bright Data condivide 120 app sul proprio sito web. App come Bright VPN sono certificate da terze parti per quanto riguarda la trasparenza e l'esperienza utente. 16 Abbiamo anche scaricato queste app per vederle più nel dettaglio:
- VPN luminosa
- EarnApp
- Slingkong
Modulo di adesione con obbligo di non raccogliere dati personali identificabili: Modulo di consenso con chiara spiegazione da parte di Bright VPN:


App per guadagnare:

Sling Kong:
- L'utente riceve l'offerta durante il gioco:

- Aderisci:

- Ulteriori informazioni al momento dell'adesione:

- Decidere di uscire:


Valore aggiunto fornito dalle app:
- Bright VPN: servizio VPN gratuito
- EarnApp: Pagamenti
- Sling Kong: valuta virtuale di gioco
Altri
Sebbene la maggior parte dei fornitori sia consapevole dell'etica nello scraping web e abbia pubblicato sull'argomento (ad esempio 17 , non abbiamo identificato i loro impegni specifici su questo fronte, ad eccezione di Zyte. 18
Prevediamo che questa situazione cambierà e che la maggior parte dei fornitori passerà almeno al Livello 1 a breve termine.
Certificazione esterna
* Indica che l'azienda ha ottenuto tutte le certificazioni esterne in questa categoria
È fondamentale che i fornitori dispongano di sistemi, personale e processi adeguati per proteggere i dati dei clienti e mettere in sicurezza le applicazioni che ne condividono la proprietà intellettuale. Consulta la nostra metodologia di misurazione per la certificazione esterna per comprendere la logica alla base del nostro sistema di punteggio.
Conformità al GDPR e al CCPA
Tutti i fornitori dichiarano pubblicamente di essere conformi a entrambe le normative sulla privacy dei dati. Pertanto, questo aspetto non è stato incluso nel punteggio.
Come abbiamo misurato la maturità organizzativa
In base alle funzionalità che abbiamo identificato in questo ambito , abbiamo verificato l'esistenza di questi certificati presso ciascun fornitore utilizzando le loro dichiarazioni pubbliche:
- Certificazione di sicurezza dei dati e certificazione PII: 19 20 21 22 23
- Indirizzo IP di origine consentito: 24
- Pratiche etiche valutate: 25
Alcuni fornitori che non possiedono la certificazione ISO 27018 hanno affermato di dover essere considerati certificati in quanto utilizzano fornitori di servizi cloud che invece la possiedono. Il nostro consulente di sicurezza informatica ha ritenuto che, sebbene ciò faciliterebbe l'ottenimento della certificazione, sarebbe comunque necessario certificare le proprie politiche e i propri controlli per poterla ottenere.
Copertura assicurativa
3 società di raccolta dati web hanno condiviso i loro certificati per le assicurazioni. Non pubblichiamo certificati ma abbiamo esaminato i documenti per garantire che
- hanno coperto queste 2 categorie assicurative
- Il massimale assicurativo in ciascuna categoria è di almeno diversi milioni di dollari statunitensi.
Avvertenze e raccomandazioni per i prossimi passi
Tutti i fornitori inclusi in questo benchmark, ad eccezione di Nimble, sono clienti di AIMultiple. Come sempre, abbiamo rispettato i nostri impegni etici durante questa ricerca.
Abbiamo completato una revisione esaustiva della raccolta etica dei dati sul web e, pur essendo soddisfatti della portata di questo benchmark, ci piacerebbe aumentarne la partecipazione. Ringraziamo le seguenti aziende per aver condiviso la loro copertura assicurativa: Apify, Bright Data, Zyte.
Siamo in attesa di una risposta da NetNut, Nimble. Aggiorneremo il report non appena riceveremo ulteriori informazioni. 2 fornitori hanno scelto di non partecipare a questa edizione del benchmark. Aggiorniamo costantemente questo report qualora una qualsiasi di queste 7 aziende suggerisca modifiche basate su dati concreti, eque per tutti i fornitori e utili alle imprese per prendere decisioni migliori.
Secondo la nostra ricerca, questo è il primo report incentrato sull'etica dei dati web. Ci auguriamo che questa trasparenza possa aiutare il settore dei dati web a trovare soluzioni creative alle sue sfide. Tali soluzioni dovranno bilanciare gli interessi di chi raccoglie dati web, di chi utilizza strumenti di automazione web, dei proprietari di siti web e degli utenti privati che forniscono i propri indirizzi IP al settore.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.