À mesure que les entreprises développent leurs opérations de données Web, les responsables de la conformité, des données et des risques évaluent de plus en plus les risques éthiques, réputationnels et juridiques associés.
Nous avons comparé 5 services de collecte de données Web de premier plan selon 3 dimensions et testé chaque service avec plus de 20 scénarios potentiellement contraires à l'éthique.
Notre travail vous aide à évaluer la conformité éthique de vos pratiques de collecte de données et à comprendre les conséquences potentielles d'approches non éthiques . Nous fournissons également des lignes directrices pour une collecte de données web éthique et évaluons les services de collecte de données web du point de vue de l'éthique et de la conformité.
Évaluation des services de collecte de données Web
Nous avons évalué les principaux services de collecte de données web (également appelés fournisseurs de données web ou infrastructure de données web) à l'aide de notre grille d'évaluation éthique des données web . Ces scores représentent des niveaux de maturité, 5 étant le niveau le plus élevé.
Fournisseurs | Résumé | Utilisation éthique par les clients | Éthique fournir | Certification externe | couverture d'assurance commun** |
|---|---|---|---|---|---|
Bright Data | Niveau 5 | Niveau 5 | Niveau 5 | Sécurité des données, traitement des informations personnelles. Adresses IP autorisées. Pratiques éthiques évaluées. | ✅ |
Apify | Niveau 1 | Niveau 1 | Niveau 1 | Sécurité des données | ✅ |
Zyte | Niveau 1 | Niveau 1 | Niveau 1 | Sécurité des données | ✅ |
NetNut | Niveau 1 | Niveau 1 | Niveau 0 | Sécurité des données | À déterminer |
Nimble | Niveau 1 | Niveau 1 | Niveau 0 | Sécurité des données | ❌ |
* Il s'agit de codes pour les noms des fournisseurs. Ces fournisseurs n'ont pas souhaité être mentionnés dans ce rapport et figurent en bas de la liste jusqu'à ce que ce problème soit résolu.
** ✅ indique que l'entreprise a choisi de partager ses certificats d'assurance avec AIMultiple. ❌ indique que l'entreprise a décidé de ne pas nous communiquer ses certificats d'assurance ; nous n'avons donc pas pu valider sa couverture d'assurance. La couverture d'assurance est la seule catégorie pour laquelle nous avons fait appel à des fournisseurs de services de données web afin de l'évaluer.
Trié par score global.
Modèle de notation pour les données web éthiques
Nous expliquons ci-dessous comment ces scores sont calculés. Vous trouverez également la justification du choix de ces critères d'évaluation .
Dans les deux premières catégories, nous avons identifié cinq compétences, et les entreprises ont reçu un score en fonction du nombre de compétences qu'elles maîtrisaient. Le niveau 5 représente le plus haut degré de maturité observé sur le marché, reflétant les meilleures pratiques actuelles plutôt que la perfection.
Capacités d'utilisation éthique par les clients
- Processus efficaces pour une utilisation éthique : Nous évaluons la capacité de chaque fournisseur à prévenir toute utilisation non éthique de ses services de proxy résidentiel grâce à des scénarios de test contrôlés. Si l’une de nos requêtes est bloquée par le fournisseur, alors cet objectif est atteint.
- Amélioration des processus d'utilisation éthique : Similaire à « processus efficaces d'utilisation éthique ». Toutefois, cette capacité indique que le fournisseur de services a bloqué plusieurs de nos tentatives d'utilisation de ses services à des fins non éthiques.
- Procédures optimales pour une utilisation éthique : Similaires aux « procédures efficaces pour une utilisation éthique ». Cependant, cette fonctionnalité indique que le fournisseur de services a bloqué la plupart de nos tentatives d’utilisation de ses services à des fins non éthiques.
- Fondation pour la gestion des abus : Publication de la politique de gestion des abus et d'une méthode de signalement des abus
- Gestion réactive des signalements d'abus : Nous avons évalué la réactivité des entreprises face à de multiples signalements d'abus. Même en l'absence de ligne d'assistance téléphonique dédiée, nous avons utilisé les adresses électroniques fournies par l'entreprise pour contacter son équipe. Sans réponse à notre signalement dans un délai d'une semaine, nous avons considéré que l'entreprise n'était pas réactive.
Capacités d'approvisionnement éthique
L'approvisionnement éthique implique l'acquisition d'adresses IP de manière éthique. Notre analyse de marché a identifié les niveaux de transparence suivants concernant l'approvisionnement éthique en IP :
- Niveau 1 : Politique d'approvisionnement en propriété intellectuelle publiée.
- Niveau 2 : Divulgation d’au moins une source (par exemple, une application mobile) de propriété intellectuelle fournissant des propriétés intellectuelles de manière éthique. Cette source doit avoir au total au moins 10 000 avis sur des plateformes tierces, notamment Apple, Amazon et Trustpilot.
- Niveau 3 : Identique au niveau 3, mais avec 100 000 avis
- Niveau 4 : Identique au niveau 3, mais avec 1 million d’avis
- Niveau 5 : Identique au niveau 4, mais avec 10 millions d’avis
Les avis sont un indicateur de la popularité des applications et constituent un signal important pour cette évaluation. Les services de collecte de données web doivent collaborer avec les applications populaires afin de répondre aux besoins en adresse IP de leurs clients.
Pour être éligibles, les applications soumises doivent respecter ces bonnes pratiques. Nous ne vérifierons pas ce point pour chaque application soumise, mais pour quelques-unes sélectionnées au hasard :
- Consentement éclairé :
- Les utilisateurs doivent donner leur accord avant de partager leur connexion Internet. L'écran d'accord doit préciser :
- Le fournisseur
- Le service
- Comment leur propriété intellectuelle sera utilisée
- Les utilisateurs devraient pouvoir accéder à des informations détaillées sur
- Comment leur connexion internet sera utilisée
- Politique de confidentialité
- Les utilisateurs doivent donner leur accord avant de partager leur connexion Internet. L'écran d'accord doit préciser :
- Valeur : Les utilisateurs doivent retirer une certaine valeur de l’application (par exemple, un paiement, la possibilité de passer les publicités ou une autre fonctionnalité).
- Confidentialité : Collecte de données utilisateur limitée et transparente.
Certification externe
Nous avons évalué la certification externe en fonction de l'obtention par les entreprises de ces certificats pertinents en matière de sécurité et de conformité de niveau entreprise.
- Certification PII : Capacité démontrée à gérer les informations personnelles identifiables (PII) par l’obtention de la norme ISO 27018
- Certification en matière de sécurité des données : démonstration des pratiques de sécurité des données par l’obtention de l’une des certifications suivantes : SOC 2 ou ISO/IEC 27001
- Liste blanche des adresses IP sources : Les fournisseurs de certification externes comme McAfee certifient soit :
- Applications tierces spécifiques fournissant des adresses IP
- Kit de développement logiciel (SDK) qui collecte les adresses IP des applications tierces
- Évaluation des pratiques éthiques : Un projet d'assurance ISAE 3000 peut être réalisé pour évaluer les pratiques internes de conformité et d'éthique.
Assurance
Nous avons demandé aux fournisseurs de nous fournir ces documents d'assurance :
- Attestation d'assurance responsabilité professionnelle couvrant la responsabilité des fournisseurs en cas de problème lié au service
- Certificat d'assurance cyber couvrant la responsabilité des fournisseurs en cas de problèmes liés à la sécurité de l'information.
Score récapitulatif
Ce score correspond à la somme de tous les scores divisée par 3. Les scores sont :
- Note de 0 à 5 pour les capacités d'utilisation éthique par les clients
- De 0 à 5 pour les capacités d'approvisionnement éthique
- De 0 à 3 pour la certification externe
- 0 à 2 pour les assurances
Services de collecte de données Web de premier plan
AIMultiple a sélectionné les sept plus importants services de collecte de données web en fonction du nombre d'employés présents sur LinkedIn. Nous avons choisi cet indicateur car il est public et devrait être corrélé au chiffre d'affaires et à la maturité de l'entreprise. Des indicateurs plus pertinents, tels que le chiffre d'affaires ou le nombre d'employés, ne sont pas disponibles publiquement pour ces entreprises privées.
Toutes les entreprises sélectionnées comptent plus de 100 employés connectés à leur profil LinkedIn en avril 2025. Actuellement, 5 des 7 entreprises sélectionnées sont affichées sur cette page et les 2 entreprises restantes ont choisi de ne pas être incluses dans le rapport.
Produits de collecte de données Web en vedette
Ces entreprises proposent une gamme de produits, notamment des proxys, des API d'extraction de données et des ensembles de données. Bien que tous ces produits puissent être analysés d'un point de vue éthique, nous nous sommes initialement concentrés sur celui qui offre la plus grande flexibilité et qui est à la base de la plupart des autres produits : les proxys résidentiels.
Les outils de collecte de données web peuvent être considérés comme une hiérarchie où les proxys constituent la couche centrale sur laquelle reposent tous les autres services. En effet, les proxys permettent aux machines d'accéder à Internet via différentes destinations, offrant ainsi un large éventail de connexions, indispensables à la collecte de données. De ce fait, les proxys représentent l'outil de collecte de données web le plus performant ; ils permettent de réaliser des opérations impossibles avec des jeux de données ou des API d'extraction de données.
Parmi les proxys, les proxys résidentiels sont les plus difficiles à identifier pour les sites web. Par exemple, d'autres types de proxys, comme les proxys de centres de données, sont faciles à repérer grâce à leur localisation. C'est pourquoi la plupart des autres services de données web, tels que les API d'extraction de données, reposent sur des proxys résidentiels.
Vérifiez : votre collecte de données web est-elle conforme et éthique ?
Votre entreprise exploite très probablement des données web. Cependant, le secteur étant peu réglementé, il est essentiel de choisir un fournisseur éthique et conforme à la réglementation. C’est pourquoi nous avons élaboré un cadre global prenant en compte différents aspects de la collecte de données web, notamment l’approvisionnement éthique, l’utilisation éthique et la certification externe.
Les données Web constituent un atout opérationnel commun
En tant qu'entreprise, votre activité dépend en partie des données web en raison de leurs nombreux cas d'utilisation, tels que :
- Tarification dynamique pour le commerce de détail et le commerce électronique
- Données alternatives en temps réel pour les fonds d'investissement
- Processus KYC dans les banques commerciales
- Formation ou mise au point du modèle d'IA
- Inférence IA ou RAG
- Étude de marché
Avec l'IA, les données web sont désormais plus importantes
Bien que la collecte de données web soit aussi ancienne que le web lui-même, son importance a considérablement augmenté avec l'essor des modèles d'IA génératifs. Les concepteurs de ces modèles, tels que OpenAI et Anthropic, ont débuté sans partenariats de contenu significatifs et ont principalement utilisé des données en ligne pour construire leurs premiers modèles, ce qui a conduit à l'émergence d'une industrie de l'IA pesant plusieurs milliards de dollars.
surveillance réglementaire limitée
Bien que la réglementation de l'IA soit au centre des préoccupations, le secteur de la collecte de données reste largement non réglementé dans la plupart des pays. Les activités illégales en ligne sont clairement définies. Cependant, les exigences réglementaires imposées aux acteurs du secteur pour prévenir proactivement l'utilisation abusive de leurs services par les utilisateurs sont limitées.
Il incombe aux plateformes elles-mêmes de définir les meilleures pratiques et les normes de conformité afin de garantir une collecte de données et une utilisation des proxys éthiques. Par conséquent, le choix de votre fournisseur est plus important en matière de collecte de données que dans des secteurs fortement réglementés comme le secteur bancaire, où chaque prestataire de services est tenu de respecter de nombreuses réglementations.
L'éthique de vos fournisseurs contribue à la réputation de votre entreprise.
Que vous collectiez ou utilisiez les données, vous êtes responsable de leur processus d'acquisition.
La responsabilité des entreprises en cas d'activités illicites au sein de leur chaîne d'approvisionnement varie selon la juridiction. Par exemple, en Allemagne, les entreprises sont tenues de mettre en œuvre des procédures de connaissance du client (KYC) et de gestion des risques afin d'identifier et de prévenir les préjudices causés par leur chaîne d'approvisionnement. Même lorsqu'elles ne sont pas responsables des préjudices causés par leur chaîne d'approvisionnement, les entreprises peuvent subir un risque d'atteinte à leur réputation.
Quel est le coût d'une collecte de données contraire à l'éthique et non conforme ?
Risque de réputation
Si le public découvre qu'une entreprise utilise un service de collecte de données web qui adopte un comportement contraire à l'éthique ou des actions mettant en danger la sécurité de ses données, cela peut entraîner des dommages importants à sa réputation, tels que des pertes commerciales, une perte de clientèle, une fuite des talents et une perte de confiance des investisseurs.
Exemples concrets de pratiques de fournisseurs d'entreprises entraînant une perte de réputation :
- Nike a subi à de nombreuses reprises des atteintes à sa réputation en raison des pratiques de travail contraires à l'éthique de ses fournisseurs. 1
- De nombreuses entreprises, comme EY, ont perdu la confiance de leurs clients lorsqu'elles ont été touchées par la faille de sécurité du logiciel de transfert de fichiers géré MOVEit. 2
Risque juridique
Une atteinte à la réputation, surtout lorsqu'elle provoque l'indignation publique, est généralement suivie de poursuites judiciaires de la part des clients ou autres parties prenantes de l'entreprise qui ont été lésés par ces pratiques contraires à l'éthique.
Exemple concret : Starbucks est l’une des marques récemment poursuivies en justice pour s’être approvisionnée auprès d’entreprises aux pratiques contraires à l’éthique. 3
Liste de contrôle des données web éthiques
Pour être éthiques, les données web d'entreprise doivent satisfaire à trois exigences :
Utilisation éthique par les clients
Dans le cadre de leurs procédures de connaissance des fournisseurs, les entreprises évitent d'utiliser des services qui facilitent des activités contraires à l'éthique. Le recours à de tels services expose les entreprises à des risques d'atteinte à leur réputation.
Exemple concret : lorsqu’un fournisseur a été pris en flagrant délit d’utilisation de sa plateforme à des fins contraires à l’éthique, de nombreuses entreprises ont pris leurs distances avec lui jusqu’à ce qu’il améliore ses pratiques. 4
En quoi cela concerne les données web : les données web sont collectées via différentes adresses IP. Ces adresses peuvent être utilisées pour diverses activités illégales, telles que des attaques DDoS visant à perturber la fourniture de services numériques, la collecte non autorisée de données non publiques ou la fraude publicitaire. Les acteurs malveillants ont besoin d’adresses IP pour mener à bien leurs actions, et les fournisseurs d’infrastructure de données web/de serveurs proxy sont les principaux fournisseurs d’adresses IP aux utilisateurs finaux.
Approvisionnement éthique
Les services utilisés à des fins éthiques peuvent engendrer des pratiques contraires à l'éthique et préjudiciables lors de leur production. Par exemple, des marques comme Nike et Nestlé ont subi des atteintes à leur réputation et ont fait l'objet de poursuites judiciaires en raison du recours au travail des enfants par leurs sous-traitants.
Lien avec les données web :
Les entreprises ont besoin d'accéder à un grand nombre de sources de bande passante diversifiées pour une collecte de données rapide et mondiale. Cela nécessite l'utilisation de proxys résidentiels : bien que la collecte de données publiques soit légale dans de nombreuses conditions, 5 sites web peuvent également choisir de bloquer certains de leurs visiteurs. Par exemple, ils peuvent bloquer les robots d'exploration de leurs concurrents. Dans ce cas, les entreprises doivent s'appuyer sur un grand nombre de connexions provenant d'utilisateurs finaux ou d'autres tiers pour collecter des données web.
Les fournisseurs de proxy collectent des millions de connexions Internet provenant de diverses sources et les mettent à disposition d'entreprises qui utilisent des adresses IP pour y accéder. Certaines de ces adresses IP proviennent d'appareils d'utilisateurs résidentiels. La collecte de ces connexions peut être légale ou illégale.
- Juridique : Les pratiques conformes à la loi impliquent l’obtention du consentement éclairé de l’utilisateur, le versement d’une compensation et la mise à disposition de mécanismes de désinscription conformément à la réglementation locale. Le fournisseur de données Web doit
- Informer les utilisateurs de la manière dont leur bande passante sera utilisée
- Obtenez leur consentement numériquement
- Les indemniser en retour
- Permettez-leur de se désinscrire à tout moment.
- Illégal : des personnes mal intentionnées peuvent accéder aux appareils des utilisateurs et utiliser leur connexion Internet sans autorisation ni compensation. Cela peut se produire via des logiciels malveillants, des appareils compromis, des installations masquées, l’inscription automatique et d’autres méthodes susceptibles de mettre en danger le propriétaire de l’appareil.
Les entreprises qui utilisent des proxys obtenus illégalement peuvent, sans le savoir, rémunérer des personnes mal intentionnées pour un accès non autorisé à leurs appareils.
Exemples concrets :
- Des routeurs et des objets connectés ont été compromis pour des opérations de botnets et vendus comme proxys résidentiels. 6 7
- Certains fournisseurs de proxy font la promotion de leurs services sur des forums fréquentés par des personnes mal intentionnées. Ces adresses IP sont vraisemblablement obtenues illégalement. 8
- Des applications VPN sur le Play Store Google ont également été utilisées pour acquérir des adresses IP résidentielles sans le consentement de l'utilisateur. 9
Bien que ces opérations aient été arrêtées, il est probable que des individus mal intentionnés continuent d'accéder à des adresses IP résidentielles sans consentement via des réseaux de zombies et des applications compromises ou malveillantes.
Certification externe
Les entreprises clientes ont besoin de solutions sécurisées et adaptées à leurs besoins. Nous avons identifié les éléments constitutifs d'une organisation de données web mature, pouvant être documentée par une certification externe :
Sécurité des données
L'absence de sécurité des données dans les systèmes des fournisseurs peut nuire à l'avantage concurrentiel d'une entreprise ou entraîner des pertes de données et des interruptions de service. Une perte de fonctionnalité du système peut éroder la confiance et conduire à la dévaluation de l'entreprise.
Intrusion du système
Les services de collecte de données ne sont pas aussi profondément intégrés aux systèmes d'une entreprise que les services numériques essentiels (par exemple, un système d'information de gestion de la relation client [CRM]). Par conséquent, leurs critères de sécurité ne font pas l'objet d'un examen aussi approfondi que ceux d'un système essentiel tel qu'un CRM. Or, la sécurité des données est cruciale pour les clients des services de collecte de données, car ces services :
- Sont parfois intégrées à des systèmes plus centraux comme les moteurs de tarification.
- Peut infecter les systèmes d'entreprise même s'ils ne sont pas intégrés à ces systèmes. L'utilisation d'un service de collecte de données implique la réception de données provenant de ce service. Même les méthodes de transfert de données les plus sécurisées comportent des risques.
L'intrusion dans un système peut également inciter les attaquants à cibler les appareils fournissant des adresses IP résidentielles à un service proxy. Cela peut nuire à la réputation des clients de ce service proxy.
Exemple concret de vulnérabilité chez un fournisseur de proxy résidentiel :
Les opérateurs du botnet Kimwolf ont acheté des services de proxy auprès du fournisseur de proxy résidentiel IPIDEA. À l'aide de commandes malveillantes, ils ont infecté les réseaux internes des appareils fournissant des adresses IP à IPIDEA. Ces réseaux ont ensuite été analysés, et d'autres appareils vulnérables de ces réseaux locaux ont également été infectés.
On estime que Kimwolf s'est propagé à plus de 2 millions d'appareils grâce à cette méthode. Les données collectées par les clients d'IPIDEA ont également transité par ces réseaux infectés. 10
perte de données
Sans sécurité des données, des personnes mal intentionnées peuvent accéder aux données collectées par les entreprises afin d'identifier leurs activités et leurs stratégies, ce qui entraîne une perte d'avantage concurrentiel ou d'opportunités commerciales.
Exemple concret :
Bien que les données web soient publiques, les entreprises peuvent les utiliser de manière novatrice pour obtenir un avantage concurrentiel. Par exemple, les investisseurs consacrent jusqu'à 10 % de leur budget de données de marché aux données alternatives. 11 Cependant, ils divulguent rarement leurs stratégies car ils estiment que cela peut leur conférer un avantage concurrentiel. Une fuite de données pourrait exposer leurs stratégies et permettre à leurs concurrents de les reproduire.
Gestion des informations personnelles identifiables
Les données web comprennent des données privées protégées par identifiant ou des informations personnelles identifiables (IPI) susceptibles d'être divulguées accidentellement ou intentionnellement sur des sites web publics. Si les services de collecte de données web ne gèrent pas correctement les IPI, ces données peuvent être interceptées par des personnes malveillantes. Cela peut nuire à la réputation du service de collecte et de ses clients.
Sécurité des applications
Les applications ou programmes intermédiaires, tels que les kits de développement logiciel (SDK), qui utilisent les adresses IP des services de collecte de données Web peuvent être autorisés par des organismes de certification externes comme McAfee. Cela renforce la confiance des entreprises dans les pratiques éthiques d'approvisionnement du service de collecte de données Web.
couverture d'assurance
Les entreprises exigent généralement ces assurances de la part de tous les fournisseurs de services numériques :
- assurance responsabilité professionnelle
- certificat d'assurance cybernétique
Analyse comparative détaillée : Évaluation des fournisseurs d’infrastructure de données Web
Référence : Utilisation éthique par les clients
Notre objectif est de répondre à la question suivante : l’entreprise garantit-elle que l’utilisation de sa solution est éthique et conforme aux lois et réglementations applicables ? Résumé de nos conclusions :
* Non applicable : Étant donné que Zyte et Apify achètent des proxys auprès de leurs fournisseurs et ne les collectent pas directement auprès des utilisateurs résidentiels, ils ne seraient pas contactés par les propriétaires de sites Web concernant les abus et n'ont donc pas besoin de créer un formulaire de contact pour les sites Web.
Nous avons d'abord examiné les politiques :
Examen de la politique d'utilisation acceptable
Tous les fournisseurs interdisent les activités illégales et citent en exemple les attaques par déni de service (DoS), l'envoi massif de messages non sollicités, l'usurpation d'identité ou le spoofing.
De plus, certains fournisseurs précisent qu'ils interdisent les activités susceptibles d'être illégales. Vous trouverez ci-dessous la liste des activités interdites, établie selon les politiques d'utilisation acceptable et leurs annexes (par exemple, l'annexe relative au traitement des données) de chaque fournisseur.
Nous avons recherché des termes interdisant les activités susceptibles d'être illégales et identifiables grâce à l'activité des utilisateurs. Par exemple, une part importante des utilisateurs ayant recours à des proxys pour participer à des sondages rémunérés pourrait utiliser ces proxys pour induire en erreur les fournisseurs de sondages quant à leur véritable localisation. Par conséquent, cette activité est non seulement susceptible d'être illégale, mais également identifiable grâce à l'activité de l'utilisateur (par exemple, lorsqu'il se connecte à un site web de sondages rémunérés).
Bien qu'il soit utile d'identifier clairement les activités interdites, cela n'est pas obligatoire et n'a aucune incidence sur notre évaluation. Les entreprises peuvent choisir de mentionner qu'elles n'autorisent pas les activités illégales plutôt que de recenser tous les cas possibles d'activités illégales.
Mentionner une activité comme étant interdite ne signifie pas que cette activité sera examinée ou bloquée. Nos notes dépendent de la manière dont ces politiques sont mises en œuvre, comme indiqué ci-dessous :
Processus d'utilisation éthique
Alors que certaines catégories décrites dans les politiques d'utilisation acceptable sont assez larges (par exemple, la collecte ou l'accès non autorisé aux données), d'autres sont suffisamment spécifiques pour être converties en actions préventives (par exemple, le blocage de l'accès) que les services de collecte de données peuvent mettre en œuvre pour les utilisateurs qui n'ont pas terminé leur processus KYC.
À partir de ces utilisations interdites spécifiques, nous avons établi une liste exhaustive d'utilisations susceptibles d'être illégales des proxys. Pour chaque cas d'utilisation, nous avons identifié des scénarios incluant les domaines web et les actions pertinentes. Par exemple, dans le scénario d'interaction artificielle sur les réseaux sociaux, nous avons tenté de nous connecter à un réseau social via un proxy afin d'aimer une publication existante.
Ensuite, afin de vérifier si les entreprises autorisent une utilisation non éthique de leurs services par les clients, nous avons créé un compte auprès de chaque fournisseur en utilisant une adresse e-mail autre que celle d'AIMultiple. Nous n'avons pas effectué de procédure KYC pour ce compte et avons utilisé les services afin de comprendre ce que les utilisateurs anonymes peuvent faire avec chacun d'eux. La procédure KYC est une étape cruciale au cours de laquelle l'utilisateur fournit des données permettant de valider l'entité juridique qu'il représente. Cela permet d'associer l'activité de l'utilisateur à une entité juridique.
- Cela peut entraîner des comptes.
- Il est possible d'examiner les raisons qui motivent les actions en ligne (par exemple, l'utilisation de proxys pour se connecter à des sites web gouvernementaux). Ainsi, après avoir compris leur situation, un chercheur ou un organisme gouvernemental peut être autorisé à se connecter à un site web gouvernemental via un proxy.
Nous nous attendions à ce que ces cas d'utilisation déclenchent une procédure KYC, mais chez la plupart des fournisseurs, cela ne s'est pas produit. Une coche indique que la requête a été bloquée pour les utilisateurs n'ayant pas encore finalisé la procédure KYC.
Pour plus de clarté, les entreprises de collecte de données n'ont aucune obligation légale de bloquer ces sites web, et certains de ces scénarios peuvent relever d'une utilisation légale. Par exemple, un chercheur peut souhaiter utiliser des proxys pour mener une expérience contrôlée sur les réseaux sociaux. Toutefois, compte tenu du risque d'abus dans ces situations, nous nous attendions à ce que les services de collecte de données les bloquent pour les utilisateurs n'ayant pas finalisé la procédure KYC.
Comment les marques communiquent sur les domaines qu'elles bloquent
- Bright Data répertorie les catégories de domaines restreints dans sa politique d'utilisation acceptable.
Respecter les préférences des sites web en matière de collecte automatisée de données
Qu'est-ce que robots.txt ?
Le fichier robots.txt sert à implémenter le protocole d'exclusion des robots. Ce protocole est utilisé par les sites web pour indiquer les parties du site que le propriétaire souhaite interdire aux robots d'exploration. L'utilisation du fichier robots.txt est facultative.
Avantages et inconvénients du respect du fichier robots.txt
➕ Respecte les préférences du site web.
➖ Peut ne pas avoir été mis à jour récemment et peut donc être obsolète.
➖ Cela implique généralement des termes indiquant que le propriétaire du site Web préfère que certaines sections publiques de celui-ci ne soient pas accessibles aux robots.
Le fichier robots.txt peut également induire un accès inégal aux robots. Par exemple, les propriétaires de sites web peuvent indiquer qu'ils ne souhaitent pas que les robots des moteurs de réponse visitent certaines URL visitées par les robots des moteurs de recherche.
Le fichier robots.txt n'est pas un document légal et peut demander le blocage de l'accès des robots à des pages qui sont légalement :
- autorisés à être collectés (par exemple, données publiques) ou
- Les données dont l'extraction est interdite (par exemple, les données protégées par une connexion lorsque les conditions générales du propriétaire du site Web interdisent l'extraction de ces données).
Les fournisseurs de services de collecte de données Web peuvent demander aux utilisateurs de proxy résidentiels de compléter un processus KYC et de prouver qu'ils ont un cas d'utilisation légal et éthique avant que ces utilisateurs puissent ignorer le fichier robots.txt.
Pour les tests, nous avons envoyé des requêtes à des pages situées dans des sous-dossiers configurés pour être bloqués par le fichier robots.txt. Les domaines utilisés étaient aimultiple.com et 5 domaines web figurant parmi les 100 domaines les plus visités. Seul le domaine Bright Data a bloqué ces requêtes.
Exemple CNN
Le fichier robots.txt de CNN bloque le dossier /terms. 12 Pour les tests, nous avons accédé à ce dossier via des proxys résidentiels et reçu 200 messages contenant les données de la page de tous les fournisseurs, à l'exception de Bright Data. La réponse de Bright Data est : « Échec de l'accès résidentiel (bad_endpoint) : le site demandé n'est pas disponible pour un accès résidentiel immédiat (sans KYC) conformément au fichier robots.txt. Pour obtenir un accès résidentiel complet et cibler ce site, veuillez remplir le formulaire KYC : https://brightdata.com/cp/kyc » .
Gestion des abus
Nous avons défini une méthodologie pour évaluer les pratiques de gestion des abus des fournisseurs et collecté des données pour répondre à nos critères d'évaluation :
* Non applicable : Zyte achète des proxys auprès d'autres fournisseurs de proxys et par conséquent, lorsque le service de Zyte est utilisé à des fins abusives, les propriétaires de sites Web contacteraient ses fournisseurs de proxys plutôt que Zyte.
Bien que tous les fournisseurs offrent aux tiers ou à leurs clients des moyens de les contacter, il est important de disposer des éléments suivants pour la résolution des problèmes :
- politique relative aux abus publics
- Une adresse e-mail dédiée pour signaler les abus
- Un autre moyen de contact (par exemple, un formulaire en ligne ou une messagerie instantanée) permettant aux journalistes de joindre l'entreprise est nécessaire. Cela s'avère utile car les courriels peuvent être filtrés et ne pas parvenir à destination.
- Réactivité aux messages
Trois fournisseurs de l'étude de référence (Bright Data) ont fourni une adresse électronique pour signaler les abus. Tous ces fournisseurs ont également présenté leurs politiques dans ce domaine.
Nous nous attendons à ce que tous les autres fournisseurs fassent de même et que cela devienne une pratique courante dans le secteur à court terme.
Enfin, nous avons évalué la réactivité du système de gestion des signalements d'abus en envoyant par courriel les signalements provenant de domaines tiers (c.-à-d. autres qu'AIMultiple) et en mesurant les temps de réponse. Si nous ne trouvions pas d'adresse courriel pour signaler un abus, nous redirigeions le signalement vers le formulaire de contact général. Nous avons effectué ce test avec trois lots de courriels envoyés aux adresses suivantes :
- Vendredi 2 mai 2025 de :
- Un service de billetterie avec environ 30 000 visiteurs mensuels
- Un cabinet d'avocats avec environ 1 000 visites mensuelles sur
- Le 17 mai 2025, auprès du service de billetterie.
- 24 mai 2025, d'une agence de médias sociaux ayant un trafic en ligne limité.
Les premiers courriels, envoyés le 2 mai 2025, étaient destinés aux entreprises ayant fourni une adresse électronique dédiée. Par la suite, nous avons élargi notre liste en y incluant des adresses électroniques plus générales, figurant dans la section « Contact » de tous les services de collecte de données web de référence. Si une entreprise répondait à nos courriels, nous cessions de lui en envoyer d'autres.
Dans nos courriels, nous avons indiqué que nos sites web recevaient du trafic suspect provenant de robots via des serveurs proxy et avons sollicité leur aide pour identifier la source de ces serveurs. Nous avons obtenu une réponse de toutes les équipes de conformité, à une exception près. Presque toutes les réponses nous ont été reçues le jour même.
Transparence de l'utilisation
Les propriétaires de sites web proposant des services de collecte et d'exploration de données web n'ont historiquement procédé à aucun échange de données concernant leurs activités de collecte. Pour limiter ces activités, ils peuvent :
- Contactez les services de collecte de données Web pour signaler les abus
- Collaborez avec des fournisseurs de gestion de bots comme Cloudflare pour rendre l'exploration plus difficile.
Des initiatives visent désormais à structurer davantage les échanges de données entre ces acteurs. La console Webmaster a été lancée afin de permettre aux webmasters de suivre l'activité d'exploration de leurs sites web. Une plus grande transparence devrait améliorer les pratiques de collecte de données web.
Notre expérience avec la console Webmaster
Nous nous sommes inscrits en vérifiant la propriété de notre domaine et en ajoutant un fichier collectors.txt sur celui-ci.
Nous avons désormais accès à l'activité du bot provenant de Bright Data sur notre site web :
Référence : Approvisionnement éthique
Les avis publiés sur les plateformes tierces suivantes ont été pris en compte : Amazon Appstore, App Store, Play Store et Trustpilot. Par souci de simplicité, cette valeur a été calculée pour 5 applications majeures, et non pour l’ensemble des 120 applications présentées sur leur site web.
Transparence des partenaires
La bande passante requise par les fournisseurs d'infrastructures de données web peut être fournie de manière éthique en offrant des avantages (paiements, fonctionnalités comme la possibilité de passer les publicités) en échange du consentement au partage de la connexion internet. Cependant, il est également possible d'accéder illégalement aux systèmes des particuliers et de revendre leurs connexions.
Les fournisseurs d'infrastructures de données web peuvent élaborer des politiques et des processus, réaliser des audits externes et publier leur approche et les résultats de ces audits afin de garantir la transparence quant à la manière dont ils acquièrent leurs connexions internet. Cela peut renforcer la confiance dans l'éthique de la fourniture de leurs services.
Nous avons créé un cadre de transparence pour l'offre de données web et évalué les fournisseurs selon ce cadre. Ce cadre s'applique indépendamment du fait que le service de collecte de données web acquière les adresses IP résidentielles directement ou par l'intermédiaire d'intermédiaires. Notre objectif est de garantir la transparence de l'ensemble de la chaîne d'approvisionnement des adresses IP, car les pratiques contraires à l'éthique peuvent apparaître à n'importe quel stade de cette chaîne.
Vous trouverez ici nos résultats détaillés :
Bright Data
Bright Data est classé au niveau 5 depuis sa publication
- Leur approche en matière d'approvisionnement et la manière dont les développeurs d'applications peuvent collaborer avec eux via leur SDK 13 14
- Les informations concernant 120 fournisseurs ont été rendues publiques. Nous avons pu consulter les avis les concernant sur des plateformes tierces afin d'estimer leur popularité. 15
Avis sur une sélection d'applications
Le compte Bright Data recense 120 applications sur son site web. Des applications comme Bright VPN sont certifiées par des organismes tiers pour leur transparence et leur expérience utilisateur. 16 Nous avons également téléchargé ces applications pour les examiner plus en détail :
- VPN brillant
- EarnApp
- Sling Kong
Formulaire d'inscription avec obligation de ne pas collecter de données personnelles identifiables : Formulaire de consentement avec explications claires de Bright VPN :


Application pour gagner de l'argent :

Sling Kong :
- L'offre est présentée à l'utilisateur pendant le jeu :

- S'inscrire :

- Informations complémentaires lors de l'inscription :

- Se désengager:


Valeur apportée par les applications :
- Bright VPN : Service VPN gratuit
- EarnApp : Paiements
- Sling Kong : Monnaie virtuelle du jeu
Autres
Bien que la plupart des fournisseurs soient conscients des enjeux éthiques liés à l'extraction de données Web et aient publié des articles à ce sujet (par exemple 17 , nous n'avons pas identifié leurs engagements spécifiques sur ce front, à l'exception de Zyte. 18
Nous prévoyons que cela changera et que la plupart des fournisseurs passeront au moins au niveau 1 à court terme.
Certification externe
* Indique que l'entreprise a obtenu toutes les certifications externes dans cette catégorie
Il est essentiel que les fournisseurs disposent des systèmes, du personnel et des processus adéquats pour protéger les données de leurs clients et sécuriser les applications qui exploitent leurs propriétés intellectuelles. Consultez notre méthodologie de mesure de certification externe pour comprendre le raisonnement derrière notre système de notation.
Conformité au RGPD et au CCPA
Tous les fournisseurs affirment publiquement se conformer aux deux réglementations en matière de protection des données. Par conséquent, ce critère n'a pas été pris en compte dans l'évaluation.
Comment nous avons mesuré la maturité organisationnelle
En nous basant sur les capacités que nous avons identifiées dans ce domaine , nous avons vérifié l'existence de ces certificats auprès de chaque fournisseur en utilisant leurs déclarations publiques :
- Certification en matière de sécurité des données et certification PII : 19 20 21 22 23
- Adresse IP source autorisée : 24
- Pratiques éthiques évaluées : 25
Certains fournisseurs non certifiés ISO 27018 ont prétendu devoir l'être puisqu'ils font appel à des fournisseurs de services cloud certifiés ISO 27018. Notre conseiller en cybersécurité a estimé que, même si cela faciliterait l'obtention de la certification, leurs politiques et contrôles resteraient indispensables à cette fin.
couverture d'assurance
Trois sociétés de collecte de données web ont partagé leurs attestations d'assurance. Nous ne publions pas ces attestations, mais nous avons examiné les documents pour nous assurer que…
- ils ont couvert ces 2 catégories d'assurance
- La limite d'assurance dans chaque catégorie se chiffre au moins en millions de dollars américains.
Avertissements et recommandations pour la suite
Tous les fournisseurs de ce comparatif, à l'exception de Nimble, sont clients d'AIMultiple. Comme toujours, nous avons respecté nos engagements éthiques tout au long de cette étude.
Nous avons mené une analyse exhaustive des pratiques de collecte de données éthiques sur le Web et, bien que satisfaits de la portée de cette étude comparative, nous souhaiterions en élargir la participation. Nous remercions les entreprises suivantes pour le partage de leurs informations d'assurance : Apify, Bright Data, Zyte.
Nous attendons une réponse de NetNut (Nimble). Nous mettrons à jour ce rapport dès que nous aurons des nouvelles de leur part. Deux fournisseurs ont choisi de ne pas participer à cette édition de l'étude comparative. Nous actualisons systématiquement ce rapport si l'une de ces sept entreprises propose des modifications fondées sur des faits, équitables pour tous les fournisseurs et susceptibles d'aider les entreprises à prendre de meilleures décisions.
Ce rapport est le premier, d'après nos recherches, à aborder la question de l'éthique des données web. Nous espérons que cette transparence permettra au secteur des données web de trouver des solutions innovantes à ses défis. Ces solutions devront concilier les intérêts des collecteurs de données web, des utilisateurs de solutions d'automatisation web, des propriétaires de sites web et des particuliers qui communiquent leur adresse IP au secteur.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.