A medida que las empresas amplían sus operaciones de datos web, los ejecutivos de cumplimiento, datos y riesgos evalúan cada vez más los riesgos éticos, reputacionales y legales asociados.
Analizamos cinco servicios líderes de recopilación de datos web en tres dimensiones y probamos cada servicio con más de 20 escenarios potencialmente poco éticos.
Nuestro trabajo le ayuda a evaluar la ética de sus prácticas de recopilación de datos y a comprender las posibles consecuencias de enfoques poco éticos . También proporcionamos directrices para la recopilación ética de datos web y evaluamos los servicios de recopilación de datos web desde una perspectiva de ética y cumplimiento.
Evaluación de los servicios de recopilación de datos web
Evaluamos los principales servicios de recopilación de datos web (también llamados proveedores de datos web o infraestructura de datos web) utilizando nuestra lista de verificación ética de datos web . Estas puntuaciones representan niveles de madurez, siendo 5 el nivel más alto:
Proveedores | Resumen | Uso ético por clientes | Ético suministrar | Certificación externa | Cobertura de seguro compartido** |
|---|---|---|---|---|---|
Bright Data | Nivel 5 | Nivel 5 | Nivel 5 | Seguridad de los datos, procesamiento de información personal identificable. Fuentes de IP incluidas en la lista blanca. Prácticas éticas evaluadas. | ✅ |
Apify | Nivel 1 | Nivel 1 | Nivel 1 | seguridad de los datos | ✅ |
Zyte | Nivel 1 | Nivel 1 | Nivel 1 | seguridad de los datos | ✅ |
NetNut | Nivel 1 | Nivel 1 | Nivel 0 | seguridad de los datos | Por determinar |
Nimble | Nivel 1 | Nivel 1 | Nivel 0 | seguridad de los datos | ❌ |
* Estos son códigos para nombres de proveedores. Estos proveedores no deseaban ser mencionados en este informe y aparecen al final de la lista hasta que resolvamos este problema.
** ✅ indica que la empresa optó por compartir sus certificados de seguro con AIMultiple. ❌ indica que la empresa decidió no compartir sus certificados de seguro con nosotros y, por lo tanto, no pudimos validar su cobertura. La cobertura de seguro es la única categoría en la que nos basamos en la participación de las empresas de servicios de datos web para evaluarlas.
Ordenado por puntuación total.
Modelo de puntuación para datos web éticos
A continuación, explicamos cómo se obtienen estas puntuaciones. También podrá consultar la justificación de la selección de estas dimensiones de puntuación .
En las dos primeras categorías, identificamos cinco competencias, y las empresas recibieron puntuaciones en función del número de competencias que cumplían. El nivel 5 representa el mayor grado de madurez observado en el mercado, reflejando las mejores prácticas actuales más que la perfección.
Capacidades para un uso ético por parte de los clientes
- Procesos eficaces para un uso ético: Evaluamos la capacidad de cada proveedor para prevenir el uso indebido de sus servicios de representación residencial mediante escenarios de prueba controlados. Si alguna de nuestras solicitudes es bloqueada por el proveedor, se considera que se ha logrado este objetivo.
- Procesos mejorados para un uso ético: Similar a “procesos eficaces para un uso ético”. Sin embargo, esta capacidad indica que el proveedor de servicios bloqueó más de uno de nuestros intentos de utilizar sus servicios para casos de uso poco éticos.
- Procesos de buenas prácticas para un uso ético: Similar a “procesos eficaces para un uso ético”. Sin embargo, esta capacidad indica que el proveedor de servicios bloqueó la mayoría de nuestros intentos de utilizar sus servicios para casos de uso poco éticos.
- Fundación para la gestión del abuso : Publicación de una política de gestión del abuso y un método para denunciarlo.
- Gestión eficaz de los abusos : Evaluamos la capacidad de respuesta de las empresas ante múltiples denuncias de abuso. Incluso si no existía una línea directa para denunciar abusos, utilizamos las direcciones de correo electrónico proporcionadas por la empresa para contactar con su equipo. Si no recibíamos respuesta a nuestra denuncia en el plazo de una semana, se asumía que la empresa no respondía.
Capacidades para el suministro ético
El suministro ético implica la adquisición de direcciones IP de manera ética. Nuestro análisis de mercado identificó los siguientes niveles de transparencia con respecto al suministro ético de IP:
- Nivel 1 : Política publicada sobre el origen de la propiedad intelectual.
- Nivel 2: Se debe revelar al menos una fuente (por ejemplo, una aplicación móvil) de propiedad intelectual que la proporcione de forma ética. La fuente revelada debe tener un total de al menos 10 000 reseñas en plataformas de terceros, incluidas Google, las tiendas de aplicaciones de Apple y Amazon, y Trustpilot.
- Nivel 3: Igual que el Nivel 3 pero con 100.000 reseñas.
- Nivel 4: Igual que el Nivel 3 pero con 1 millón de reseñas.
- Nivel 5: Igual que el Nivel 4 pero con 10 millones de reseñas.
Las reseñas son un indicador de la popularidad de las aplicaciones y constituyen una señal importante para esta evaluación. Los servicios de recopilación de datos web deben trabajar con aplicaciones populares para poder satisfacer las necesidades de propiedad intelectual de sus clientes.
Para ser elegibles, las aplicaciones divulgadas deben seguir estas buenas prácticas. No lo comprobaremos en todas las aplicaciones divulgadas, sino en algunas seleccionadas al azar:
- Consentimiento informado:
- Los usuarios deben dar su consentimiento antes de compartir su conexión a Internet. La pantalla de consentimiento debe indicar lo siguiente:
- El proveedor
- El servicio
- Cómo se utilizará su propiedad intelectual
- Los usuarios deberían poder acceder a información detallada sobre
- Cómo se utilizará su conexión a Internet
- Política de privacidad
- Los usuarios deben dar su consentimiento antes de compartir su conexión a Internet. La pantalla de consentimiento debe indicar lo siguiente:
- Valor: Los usuarios deben recibir algún valor de la aplicación (por ejemplo, pago, posibilidad de saltarse anuncios u otra funcionalidad).
- Privacidad: Recopilación de datos de usuario limitada y transparente.
Certificación externa
Evaluamos la certificación externa en función de si las empresas habían obtenido estos certificados, que eran relevantes para la seguridad y el cumplimiento normativo de nivel empresarial.
- Certificación PII: Capacidad demostrada para gestionar PII mediante la obtención de la certificación ISO 27018.
- Certificación de seguridad de datos: Demostrar prácticas de seguridad de datos mediante la obtención de uno de estos certificados: SOC 2 o ISO/IEC 27001.
- Fuente IP incluida en la lista blanca: Los proveedores de certificación externos como McAfee certifican lo siguiente:
- Aplicaciones específicas de terceros que proporcionan direcciones IP.
- SDK que recopila direcciones IP de aplicaciones de terceros
- Prácticas éticas evaluadas : Se puede realizar un proyecto de aseguramiento ISAE 3000 para evaluar el cumplimiento interno y las prácticas éticas.
Seguro
Solicitamos a los proveedores que nos proporcionaran estos documentos de seguro:
- Certificado de seguro de responsabilidad profesional que cubre las responsabilidades de los proveedores en caso de problemas en el servicio.
- Certificado de seguro cibernético que cubre las responsabilidades de los proveedores en caso de problemas relacionados con la seguridad de la información.
Puntuación resumida
Esta puntuación es la suma de todas las puntuaciones dividida por 3. Las puntuaciones son:
- De 0 a 5 para capacidades de uso ético por parte de los clientes
- De 0 a 5 para capacidades de suministro ético
- De 0 a 3 para certificación externa
- De 0 a 2 para seguros
Servicios líderes de recopilación de datos web
AIMultiple seleccionó los 7 servicios de recopilación de datos web más grandes en términos de empleados en LinkedIn. Elegimos esta métrica porque es pública y debería estar correlacionada con los ingresos de la empresa y su preparación para el mercado empresarial. Métricas más relevantes, como los ingresos o el número de empleados en nómina, no están disponibles públicamente para estas empresas privadas.
Todas las empresas seleccionadas tienen más de 100 empleados conectados a sus perfiles de LinkedIn en abril de 2025. Actualmente, 5 de las 7 empresas seleccionadas se muestran en esta página, y las 2 restantes han optado por no ser incluidas en el informe.
Productos de recopilación de datos web en primer plano
Estas empresas ofrecen una variedad de productos, incluyendo proxies, API para la extracción de datos y conjuntos de datos. Si bien todos los productos pueden analizarse desde una perspectiva ética, inicialmente nos centramos en el producto que ofrece el mayor nivel de flexibilidad y que sirve de base para la mayoría de los demás productos: los proxies residenciales.
Los productos de recopilación de datos web pueden considerarse una jerarquía donde los proxies forman la capa central sobre la que se construyen todos los demás servicios. Esto se debe a que los proxies permiten que las máquinas accedan a internet a través de diferentes destinos, lo que posibilita un conjunto amplio y diverso de conexiones a internet, cruciales para la recopilación de datos. Por lo tanto, los proxies son el producto de recopilación de datos web más potente, ya que pueden utilizarse para realizar funciones que no serían posibles con conjuntos de datos o API de extracción de datos.
Entre los proxies, los proxies residenciales son los más difíciles de identificar para los sitios web. Por ejemplo, otros proxies, como los de centros de datos, son fáciles de identificar debido a su ubicación. Por lo tanto, los proxies residenciales son la base de la mayoría de los productos de datos web, como las API de extracción de datos.
Verificación: ¿La recopilación de datos en su sitio web cumple con las normativas éticas y cumple con la normativa vigente?
Es muy probable que su empresa utilice datos web. Sin embargo, el sector se enfrenta a una regulación limitada, por lo que resulta fundamental elegir un proveedor ético y que cumpla con la normativa. Para ello, hemos desarrollado un marco integral que considera los diferentes aspectos de la recopilación de datos web, incluyendo el abastecimiento ético, el uso ético y la certificación externa.
Los datos web son un activo operativo común.
Como empresa, su negocio depende en parte de los datos web debido a sus numerosos casos de uso, como por ejemplo:
- Precios dinámicos para el comercio minorista y electrónico.
- Datos alternativos en tiempo real para fondos de inversión
- Proceso KYC en la banca comercial
- Entrenamiento o ajuste del modelo de IA
- Inferencia de IA o RAG
- Investigación de mercado
Con la IA, los datos web ahora son más importantes.
Si bien la recopilación de datos web es tan antigua como la propia web, su importancia aumentó drásticamente tras el auge de los modelos de IA generativa. Los creadores de estos modelos, como OpenAI y Anthropic, comenzaron sin colaboraciones significativas en materia de contenido y utilizaron principalmente datos en línea para construir sus modelos iniciales, lo que ha dado lugar al auge de la industria de la IA, valorada en billones de dólares.
Supervisión regulatoria limitada
Si bien la regulación de la IA está en el punto de mira, la industria de la recopilación de datos permanece en gran medida sin regular en la mayoría de los países. Las actividades ilegales en línea están claramente definidas. Sin embargo, existen pocos requisitos regulatorios para que las empresas del sector prevengan de forma proactiva el uso indebido de sus servicios por parte de los usuarios.
Corresponde a las propias plataformas establecer las mejores prácticas y los estándares de cumplimiento para garantizar la recopilación ética de datos y el uso de proxy. Por lo tanto, la elección del proveedor es más importante en la recopilación de datos que en sectores altamente regulados como el bancario, donde cada proveedor de servicios debe cumplir con numerosas normativas.
La postura ética de sus proveedores forma parte de la reputación de su empresa.
Independientemente de si recopila o consume los datos, usted es responsable del proceso de adquisición.
Las responsabilidades de las empresas por actividades ilícitas en su cadena de suministro dependen de la jurisdicción. Por ejemplo, en Alemania, las empresas son responsables de llevar a cabo actividades de KYS (Conozca a su Cliente) y de gestión de riesgos para identificar y prevenir los daños causados por su cadena de suministro. Incluso cuando las empresas no son responsables de los daños causados por su cadena de suministro, pueden sufrir un riesgo reputacional.
¿Cuál es el coste de la recopilación de datos poco ética e incumplidora?
Riesgo reputacional
Si se hace público que una empresa está utilizando un servicio de recopilación de datos web que incurre en comportamientos poco éticos o acciones que ponen en peligro la seguridad de sus datos, esto puede ocasionar un daño significativo a su reputación, como la pérdida de negocios, la fuga de clientes, la pérdida de talento y la pérdida de la confianza de los inversores.
Ejemplos reales de cómo los proveedores empresariales han provocado pérdidas de reputación:
- Nike ha sufrido daños a su reputación en numerosas ocasiones debido a las prácticas laborales poco éticas de sus proveedores. 1
- Muchas empresas, como EY, perdieron la confianza de sus clientes cuando se vieron afectadas por la filtración de datos del software de transferencia de archivos gestionada MOVEit. 2
Riesgo legal
La pérdida de reputación, especialmente aquella que provoca indignación pública, suele ir seguida de demandas por parte de los clientes de la empresa u otras partes interesadas que se hayan visto perjudicadas por las prácticas poco éticas.
Ejemplo real: Starbucks es una de las marcas que recientemente ha sido demandada por abastecerse de empresas con prácticas poco éticas. 3
Lista de verificación de datos web éticos
Los datos web empresariales deben cumplir 3 requisitos para ser éticos:
Uso ético por parte de los clientes
Como parte de sus procesos de "Conozca a sus proveedores", las empresas evitan utilizar servicios que faciliten actividades poco éticas. El uso de dichos servicios expone a las empresas a un daño a su reputación.
Ejemplo real: En casos donde se documentó que un proveedor permitía que su plataforma se utilizara en actividades poco éticas, numerosas empresas se distanciaron de dicho proveedor hasta que mejoró sus prácticas. 4
Cómo se relaciona esto con los datos web: Los datos web se recopilan a través de diferentes direcciones IP. Estas direcciones pueden utilizarse para realizar diversas actividades ilícitas, como ataques DDoS para impedir la prestación de servicios digitales, la recopilación no autorizada de datos no públicos o el fraude publicitario. Los ciberdelincuentes necesitan direcciones IP para llevar a cabo sus acciones, y los proveedores de infraestructura de datos web/proxy son los principales proveedores de direcciones IP para los usuarios minoristas.
Suministro ético
Los servicios utilizados con fines éticos pueden dar lugar a acciones poco éticas y perjudiciales durante su producción. Por ejemplo, marcas como Nike y Nestlé sufrieron daños a su reputación y se enfrentaron a demandas judiciales debido al uso de mano de obra infantil por parte de sus contratistas.
Cómo se relaciona esto con los datos web:
Las empresas necesitan acceder a una gran cantidad y diversas fuentes de ancho de banda para la recopilación rápida y global de datos. Esto requiere el uso de proxies residenciales: si bien la recopilación de datos públicos es legal bajo muchas condiciones, 5 sitios web también pueden optar por bloquear a algunos de sus visitantes. Por ejemplo, pueden bloquear los rastreadores de sus competidores. En estos casos, las empresas necesitan depender de un gran número de conexiones de usuarios minoristas u otros terceros para recopilar datos web.
Los proveedores de proxy recopilan millones de conexiones a internet de diversas fuentes y las proporcionan a empresas que utilizan direcciones IP para acceder a dichas conexiones. Algunas de estas IP provienen de dispositivos de usuarios residenciales. La recopilación de estas conexiones puede ser legal o ilegal.
- Aspectos legales: Las prácticas que cumplen con la ley implican obtener el consentimiento informado del usuario, proporcionar una compensación y ofrecer mecanismos de exclusión voluntaria de acuerdo con las regulaciones locales. El proveedor de datos web debe
- Informar a los usuarios sobre cómo se utilizará su ancho de banda.
- Obtén su consentimiento digitalmente
- Compénsalos a cambio
- Permítales optar por no participar en cualquier momento.
- Ilegal: Los ciberdelincuentes pueden acceder a los dispositivos de los usuarios y usar su conexión a internet sin permiso ni compensación. Esto puede ocurrir mediante aplicaciones maliciosas, dispositivos comprometidos, instalaciones enmascaradas, activación automática y otros métodos que ponen en riesgo al propietario del dispositivo.
Las empresas que utilizan servidores proxy obtenidos ilegalmente pueden, sin darse cuenta, pagar a personas malintencionadas por el acceso no autorizado a sus dispositivos.
Ejemplos de la vida real:
- Se han comprometido routers y dispositivos IoT para operaciones de botnets y se han vendido como proxies residenciales. 6 7
- Algunos proveedores de servidores proxy promocionan sus servicios en foros frecuentados por personas malintencionadas. Es probable que estas direcciones IP se hayan obtenido ilegalmente. 8
- Las aplicaciones VPN en la Play Store (Google) también se han utilizado para adquirir direcciones IP residenciales sin el consentimiento del usuario. 9
Aunque estas operaciones han sido clausuradas, es probable que actores malintencionados sigan accediendo a direcciones IP residenciales sin consentimiento a través de botnets y aplicaciones comprometidas o maliciosas.
Certificación externa
Los compradores empresariales necesitan soluciones seguras y preparadas para la empresa. Hemos identificado los ingredientes para una organización de datos web madura que pueda documentarse mediante certificación externa:
seguridad de los datos
La falta de seguridad de los datos en los sistemas de los proveedores puede mermar la ventaja competitiva de una empresa o provocar la pérdida de datos y la interrupción del servicio. La pérdida de funcionalidad del sistema puede erosionar la confianza y llevar a la devaluación de la empresa.
Intrusión en el sistema
Los servicios de recopilación de datos no están tan profundamente integrados a los sistemas de una empresa como los servicios digitales centrales (por ejemplo, un sistema de registro como un CRM). Por lo tanto, sus credenciales de seguridad no se revisan tan exhaustivamente como las de un sistema central como un sistema de registro. Sin embargo, la seguridad de los datos es fundamental para los clientes de los servicios de recopilación de datos, ya que estos servicios:
- En ocasiones, se integran en sistemas más centrales, como los motores de fijación de precios.
- Pueden infectar sistemas empresariales incluso cuando no están integrados a ellos. El uso de un servicio de recopilación de datos implica recibir datos de dicho servicio. Incluso algunas de las formas más seguras de transferencia de datos conllevan riesgos.
La intrusión en el sistema también puede llevar a los atacantes a dirigirse a los dispositivos que proporcionan direcciones IP residenciales a los servicios de proxy. Esto puede dañar la reputación de los clientes de dichos servicios.
Ejemplo de vulnerabilidad real en un proveedor de proxy residencial :
Los operadores de la botnet Kimwolf compraron servicios de proxy al proveedor de proxies residenciales IPIDEA. Mediante comandos maliciosos, infectaron las redes internas de los dispositivos que proporcionaban direcciones IP a IPIDEA. Posteriormente, escanearon estas redes e infectaron también otros dispositivos vulnerables conectados a ellas.
Se estima que Kimwolf se propagó a más de 2 millones de dispositivos mediante este método. Los datos recopilados por los clientes de IPIDEA también circularon a través de estas redes infectadas. 10
pérdida de datos
Sin seguridad de datos, los ciberdelincuentes pueden acceder a los datos recopilados por las empresas para identificar sus actividades y estrategias, lo que conlleva una pérdida de ventaja competitiva o de oportunidades de negocio.
Ejemplo de la vida real:
Aunque los datos web son públicos, las empresas pueden utilizarlos de formas novedosas para obtener una ventaja competitiva. Por ejemplo, los inversores gastan hasta el 10 % de su presupuesto de datos de mercado en datos alternativos. 11 , pero rara vez revelan sus estrategias, ya que creen que esto les puede dar una ventaja sobre sus competidores. Una filtración de datos puede exponer sus estrategias y, por lo tanto, permitir que sus competidores las repliquen.
Gestión de información de identificación personal
Los datos web incluyen información privada protegida por credenciales de inicio de sesión o información de identificación personal (PII) que puede divulgarse accidental o intencionadamente en sitios web públicos. Si los servicios de recopilación de datos web no gestionan correctamente la PII, dicha información puede ser obtenida por personas malintencionadas. Esto puede dañar la reputación del servicio de recopilación de datos web y de sus clientes.
Seguridad de la aplicación
Las aplicaciones o programas intermedios, como los SDK, que obtienen las direcciones IP de los servicios de recopilación de datos web, pueden ser incluidos en la lista blanca por proveedores de certificación externos como McAfee. Esto aumenta la confianza de las empresas en las prácticas de suministro éticas del servicio de recopilación de datos web.
Cobertura de seguro
Las empresas suelen exigir estos seguros a cualquier proveedor digital:
- seguro de responsabilidad profesional
- certificado de seguro cibernético
Análisis comparativo detallado: Evaluación de proveedores de infraestructura de datos web
Criterio de referencia: Uso ético por parte de los clientes
Aquí pretendemos responder a la pregunta: ¿Garantiza la empresa que el uso de su solución sea ético y conforme a las leyes y regulaciones aplicables? Resumen de nuestros hallazgos:
* No aplicable: Dado que Zyte y Apify compran proxies a sus proveedores y no los recopilan directamente de usuarios residenciales, los propietarios de sitios web no se pondrían en contacto con ellos en relación con el abuso y, por lo tanto, no necesitan crear un formulario de contacto para sitios web.
Primero, revisamos las políticas:
Revisión de la política de uso aceptable
Todos los proveedores prohíben las actividades ilegales y proporcionan ejemplos como ataques DoS, envío de mensajes masivos no solicitados, suplantación de identidad o falsificación de datos.
Además, algunos proveedores también destacan que prohíben actividades que podrían ser ilegales. A continuación, enumeramos las actividades prohibidas según las políticas de uso aceptable y sus anexos (por ejemplo, el anexo de procesamiento de datos) de cada proveedor.
Buscamos términos que prohibieran actividades que probablemente sean ilegales y que puedan identificarse a partir de la actividad del usuario. Por ejemplo, una parte importante de los usuarios que utilizan proxies para participar en encuestas remuneradas podría estar usándolos para engañar a los proveedores de encuestas sobre su ubicación real. Por lo tanto, esta actividad probablemente sea ilegal y puede identificarse a partir de la actividad del usuario (es decir, cuando un usuario inicia sesión en un sitio web de encuestas remuneradas).
Si bien identificar claramente las actividades prohibidas es beneficioso, no es un requisito y no afecta nuestra puntuación. Las empresas pueden optar por mencionar que no permiten actividades ilegales en lugar de enumerar todos los casos posibles.
Mencionar una actividad como prohibida no significa que dicha actividad será revisada o bloqueada. Nuestras puntuaciones dependen de cómo se implementan estas políticas, tal como se detalla a continuación:
Procesos para un uso ético
Si bien algunas categorías descritas en las políticas de uso aceptable son bastante amplias (por ejemplo, la extracción o el acceso no autorizado a datos), otras son lo suficientemente específicas como para convertirse en acciones preventivas (por ejemplo, el bloqueo del acceso) que los servicios de recopilación de datos pueden implementar para los usuarios que no hayan completado su proceso KYC.
Basándonos en estos usos prohibidos específicos, elaboramos una extensa lista de usos que probablemente constituyan usos ilegales de proxies. Para cada caso de uso, identificamos escenarios que incluyen dominios web y acciones relevantes. Por ejemplo, en el escenario de interacción artificial en redes sociales, intentamos iniciar sesión en una red social mediante un proxy para dar "me gusta" a una publicación existente.
Luego, para comprobar si las empresas permiten un uso poco ético por parte de los clientes, creamos una cuenta en el servicio de cada proveedor utilizando una dirección de correo electrónico que no pertenecía a AIMultiple. No completamos el proceso KYC con esta cuenta y procedimos a utilizar los servicios para comprender qué pueden lograr los usuarios anónimos con cada uno de ellos. El KYC es un paso crucial durante el cual el usuario envía datos para validar la entidad legal que representa. Esto vincula la actividad del usuario con una entidad legal.
- Eso puede ser motivo de rendición de cuentas.
- Se puede analizar la justificación de las acciones en línea (por ejemplo, el uso de servidores proxy para acceder a sitios web gubernamentales). Por ejemplo, tras comprender su caso de uso, se puede autorizar a un investigador o a una agencia gubernamental a acceder a un sitio web gubernamental mediante un servidor proxy.
Esperábamos que estos casos de uso activaran un proceso KYC, pero en la mayoría de los proveedores, esto no sucedió. Una marca de verificación indica que la solicitud fue bloqueada para los usuarios que aún no completaron el proceso KYC.
Para mayor claridad, las empresas de servicios de recopilación de datos no tienen la obligación legal de bloquear estos sitios web, y algunos de estos escenarios pueden considerarse usos legales. Por ejemplo, un investigador podría utilizar servidores proxy para realizar un experimento controlado en redes sociales. Sin embargo, dado el potencial de abuso en estos casos, esperábamos que los servicios de recopilación de datos los bloquearan para los usuarios que no hubieran completado el proceso KYC (Conozca a su cliente).
Cómo las marcas comunican los dominios que bloquean
- Bright Data enumera las categorías de dominio restringidas en su política de uso aceptable.
Respetar las preferencias de los sitios web con respecto a la recopilación automatizada de datos.
¿Qué es robots.txt?
robots.txt es un archivo que implementa el Protocolo de Exclusión de Robots (ROP). Este protocolo lo utilizan los sitios web para indicar las secciones que el propietario prefiere que los bots no visiten. El uso de robots.txt es voluntario.
Ventajas y desventajas de cumplir con robots.txt
➕ Respeta las preferencias del sitio web.
➖ Puede que no se haya actualizado recientemente y, por lo tanto, esté desactualizado.
➖ Normalmente incluye términos que indican que el propietario del sitio web prefiere que ciertas secciones públicas del sitio web no sean accedidas por bots.
El archivo robots.txt también puede proporcionar un acceso desigual a los bots. Por ejemplo, los propietarios de sitios web pueden indicar que no prefieren que los bots de los motores de respuesta visiten ciertas URL que sí visitan los bots de los motores de búsqueda.
El archivo Robots.txt no es un documento legal y puede solicitar el bloqueo del acceso de bots a páginas que sean legalmente:
- que se permite extraer (por ejemplo, datos públicos) o
- No está permitido extraer datos (por ejemplo, datos protegidos por un inicio de sesión donde los términos y condiciones del propietario del sitio web prohíben la extracción de dichos datos).
Los proveedores de servicios de recopilación de datos web pueden solicitar a los usuarios de proxy residenciales que completen un proceso KYC (Conozca a su cliente) y demuestren que tienen un caso de uso legal y ético antes de que estos usuarios puedan ignorar el archivo robots.txt.
Para realizar las pruebas, enviamos solicitudes a páginas en subcarpetas que están bloqueadas por robots.txt. Los dominios que utilizamos fueron aimultiple.com y 5 dominios web entre los 100 más visitados. Solo Bright Data bloqueó estas solicitudes:
Ejemplo de CNN
El archivo robots.txt de CNN bloquea la carpeta /terms. 12 Para realizar pruebas, navegamos a esa carpeta con proxies residenciales y recibimos 200 mensajes con los datos de la página de todos los proveedores excepto Bright Data. La respuesta de Bright Data es: “ Error residencial (bad_endpoint): El sitio solicitado no está disponible para el modo de acceso residencial inmediato (sin KYC) de acuerdo con robots.txt. Para obtener acceso residencial completo para dirigirse a este sitio, complete el formulario KYC: https://brightdata.com/cp/kyc ” .
Gestión del abuso
Diseñamos una metodología para evaluar las prácticas de gestión de abusos de los proveedores y recopilamos datos para cumplir con nuestros criterios de evaluación:
* No aplicable: Zyte compra proxies de otros proveedores de proxies y, por lo tanto, cuando el servicio de Zyte se utiliza para abusos, los propietarios de sitios web se pondrían en contacto con sus proveedores de proxies en lugar de con Zyte.
Si bien todos los proveedores ofrecen medios para que terceros o sus clientes se pongan en contacto con ellos, contar con estos medios es importante para la resolución de problemas:
- Política de abuso público
- Una dirección de correo electrónico específica para denunciar abusos.
- Un método de contacto alternativo (por ejemplo, un formulario web o una interfaz de mensajería) que permita a los periodistas comunicarse con la empresa. Esto resulta útil, ya que los correos electrónicos pueden ser filtrados y no llegar a la bandeja de entrada.
- Capacidad de respuesta a los mensajes
Tres proveedores incluidos en el conjunto de datos de referencia (Bright Data) proporcionaron una dirección de correo electrónico para denunciar abusos. Todos estos proveedores también describieron sus políticas en este ámbito.
Esperamos que todos los demás proveedores hagan lo mismo y que esto se convierta en una práctica generalizada en el sector a corto plazo.
Finalmente, evaluamos la capacidad de respuesta de la gestión de abusos enviando informes de abusos desde dominios de terceros (es decir, que no son de AIMultiple) y midiendo los tiempos de respuesta. Si no pudimos encontrar una dirección de correo electrónico para denuncias de abuso, la enviamos al formulario de contacto general. Probamos esto mediante 3 lotes de correos electrónicos enviados en:
- Viernes 2 de mayo de 2025 de:
- Un servicio de venta de entradas con aproximadamente 30.000 visitas mensuales.
- Un bufete de abogados con aproximadamente 1000 visitas mensuales en
- 17 de mayo de 2025, del servicio de venta de entradas.
- 24 de mayo de 2025, de una agencia de redes sociales con tráfico online limitado.
Los primeros correos electrónicos, enviados el 2 de mayo de 2025, se dirigieron a empresas que contaban con direcciones de correo electrónico específicas. Posteriormente, ampliamos nuestra lista e incluimos direcciones de correo electrónico más generales que figuraban en las secciones de contacto de todos los servicios de recopilación de datos web analizados. Si una empresa respondía a nuestros correos, dejábamos de enviarle más mensajes.
En nuestros correos electrónicos, mencionamos que nuestros sitios web recibían tráfico sospechoso de bots a través de proxies y solicitamos su ayuda para identificar el origen de dichos proxies. Logramos que todos los equipos de cumplimiento, excepto uno, nos respondieran. Casi todas las respuestas se recibieron el mismo día.
Transparencia de uso
Históricamente, los propietarios de sitios web que ofrecen servicios de recopilación y datos web no han intercambiado información sobre sus actividades de recopilación. Para limitar las actividades de rastreo, los propietarios de sitios web podrían:
- Póngase en contacto con los servicios de recopilación de datos web para denunciar el abuso.
- Trabaja con proveedores de gestión de bots como Cloudflare para que el rastreo sea más difícil.
Ahora, existen iniciativas para un intercambio de datos más estructurado entre estas partes. Se lanzó la consola para webmasters, que permite a los administradores web supervisar las actividades de rastreo en sus sitios web. Es probable que una mayor transparencia mejore las prácticas de recopilación de datos web.
Nuestra experiencia con la consola del webmaster
Nos registramos verificando la propiedad de nuestro dominio y añadiendo un archivo collectors.txt al dominio.
Ahora tenemos acceso a la actividad del bot Bright Data en nuestro sitio web:
Referencia: Suministro ético
* Se incluyeron las reseñas de estas plataformas de terceros: Amazon Appstore, App Store, Play Store y Trustpilot. Para mayor comodidad, este valor se calculó para 5 aplicaciones principales de Play Store, no para las 120 aplicaciones que aparecen en su sitio web.
Transparencia de los socios
El ancho de banda que requieren las empresas de infraestructura de datos web puede suministrarse de forma ética ofreciendo beneficios (por ejemplo, pagos, funciones como la posibilidad de saltarse anuncios) a cambio del consentimiento para compartir la conexión a internet. Sin embargo, también es posible obtener acceso no autorizado a los sistemas de los usuarios particulares y vender sus conexiones.
Los proveedores de infraestructura de datos web pueden formular políticas y procesos, realizar auditorías externas y publicar su metodología y los resultados de dichas auditorías para generar transparencia en la forma en que obtienen sus conexiones a internet. Esto puede fomentar la confianza en la ética del suministro de su servicio.
Creamos un marco para la transparencia en la cadena de suministro de datos web y evaluamos a los proveedores utilizando este marco. Aplicamos este marco independientemente de si el servicio de recopilación de datos web adquiría direcciones IP residenciales directamente o a través de otros intermediarios. Nuestro objetivo es brindar transparencia a toda la cadena de suministro de direcciones IP, ya que las prácticas poco éticas pueden originarse en cualquier punto de la misma.
Aquí puede encontrar nuestros resultados detallados:
Bright Data
Bright Data se clasifica como Nivel 5 ya que publican
- Su enfoque de abastecimiento y cómo los desarrolladores de aplicaciones pueden trabajar con ellos a través de su SDK. 13 14
- Se compartieron públicamente los detalles de 120 proveedores. Pudimos consultar las reseñas de estos proveedores en plataformas de terceros para estimar su popularidad. 15
Análisis de aplicaciones seleccionadas
Bright Data comparte 120 aplicaciones en su sitio web. Aplicaciones como Bright VPN están certificadas por terceros en cuanto a su transparencia y experiencia de usuario. 16 También descargamos estas aplicaciones para verlas con más detalle:
- VPN brillante
- EarnApp
- Sling Kong
Formulario de aceptación con obligación de no recopilar datos de identificación personal: Formulario de consentimiento con explicación clara de Bright VPN:


Aplicación para ganar dinero:

Sling Kong:
- Al usuario se le presenta la oferta durante el juego:

- Suscribirse:

- Información adicional durante el proceso de suscripción:

- Exclusión voluntaria:


Valor proporcionado por las aplicaciones:
- Bright VPN: Servicio VPN gratuito
- EarnApp: Pagos
- Sling Kong: Moneda virtual dentro del juego
Otros
Si bien la mayoría de los proveedores son conscientes de la ética en el web scraping y han publicado sobre el tema (por ejemplo 17 , no hemos identificado sus compromisos específicos en este frente excepto Zyte. 18
Prevemos que esto cambie y que la mayoría de los proveedores pasen al menos al Nivel 1 a corto plazo.
Certificación externa
* Indica que la empresa ha obtenido todas las certificaciones externas en esta categoría.
Es fundamental que los proveedores cuenten con los sistemas, el personal y los procesos adecuados para proteger los datos de sus clientes y asegurar las aplicaciones que proporcionan sus propiedades intelectuales. Consulte nuestra metodología de medición de certificación externa para comprender la lógica detrás de nuestra puntuación.
Cumplimiento del RGPD y la CCPA
Todos los proveedores afirman públicamente cumplir con ambas normativas de privacidad de datos. Por lo tanto, este aspecto no se incluyó en la puntuación.
Cómo medimos la madurez organizacional
En función de las capacidades que identificamos en este dominio , comprobamos la existencia de estos certificados en cada proveedor utilizando sus declaraciones públicas:
- Certificación de seguridad de datos y certificación de información personal identificable (PII): 19 20 21 22 23
- IP de origen incluida en la lista blanca: 24
- Prácticas éticas evaluadas: 25
Algunos proveedores que no poseen la certificación ISO 27018 alegaron que deberían ser considerados certificados, ya que utilizan proveedores de servicios en la nube que sí la poseen. En opinión de nuestro asesor de ciberseguridad, si bien esto facilitaría la obtención de la certificación, aún necesitarían certificar sus políticas y controles para obtenerla.
Cobertura de seguro
Tres empresas de recopilación de datos web compartieron sus certificados de seguros. No publicamos certificados, pero revisamos los documentos para asegurarnos de que
- Cubrieron estas 2 categorías de seguros
- El límite de cobertura del seguro en cada categoría es de al menos varios millones de dólares estadounidenses.
Exenciones de responsabilidad y recomendaciones para los próximos pasos.
Todos los proveedores incluidos en esta comparativa, excepto Nimble, son clientes de AIMultiple. Como siempre, cumplimos con nuestros compromisos éticos durante esta investigación.
Hemos realizado una revisión exhaustiva de la recopilación ética de datos web y, si bien estamos satisfechos con el alcance de este estudio comparativo, nos gustaría ampliar su participación. Agradecemos a estas compañías por compartir su cobertura de seguro: Apify, Bright Data, Zyte.
Estamos a la espera de la respuesta de NetNut, Nimble. Actualizaremos el informe en cuanto tengamos novedades. Dos proveedores han optado por no participar en esta versión del análisis comparativo. Actualizamos este informe periódicamente si alguna de estas siete empresas propone cambios basados en datos objetivos, justos para todos los proveedores y que ayuden a las empresas a tomar mejores decisiones.
Este es el primer informe que se centra en los datos web éticos, según nuestra investigación. Esperamos que esta transparencia ayude a la industria de datos web a encontrar soluciones creativas a sus desafíos. Estas soluciones deberán equilibrar los intereses de los recolectores de datos web, los usuarios de automatización web, los propietarios de sitios web y los usuarios residenciales que proporcionan sus direcciones IP a la industria.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.