Benchmark

Referencia de datos web éticos y conformes

actualizado el 21 de jun. de 2026

A medida que las empresas escalan sus operaciones de datos web, los ejecutivos de cumplimiento, datos y riesgos evalúan cada vez más los riesgos legales, éticos y reputacionales asociados.

Comparamos 5 servicios líderes de recolección de datos web en 3 dimensiones y probamos cada servicio con más de 20 escenarios potencialmente no éticos.

Nuestro trabajo le ayuda a evaluar la posición ética de sus prácticas de recolección de datos y a comprender las posibles consecuencias de enfoques no éticos. También proporcionamos pautas para la recolección ética de datos web y evaluamos los servicios de recolección de datos web desde una perspectiva de ética y cumplimiento:

Evaluación de los servicios de recolección de datos web

Hemos evaluado los principales servicios de recolección de datos web (también llamados proveedores de datos web o infraestructura de datos web) utilizando nuestra lista de verificación de datos web éticos. Estas puntuaciones representan niveles de madurez, siendo 5 el nivel más alto:

Proveedores	Resumen	Uso ético por parte de los clientes	Suministro ético	Certificación externa	Cobertura de seguro compartida**
Bright Data	Nivel 5	Nivel 5	Nivel 5	Seguridad de datos, procesamiento de PII. Fuentes de IP en lista blanca. Prácticas éticas evaluadas.	✅
Zyte	Nivel 1	Nivel 1	Nivel 1	Seguridad de datos	✅
Apify	Nivel 1	Nivel 1	Nivel 1	Seguridad de datos	✅
Nimble	Nivel 1	Nivel 1	Nivel 0	Seguridad de datos	❌

* Estos son códigos para los nombres de los proveedores. Estos proveedores no quisieron ser referenciados en este informe y se enumeran al final de la lista hasta que resolvamos este problema.

** ✅ indica que la empresa eligió compartir sus certificados de seguro con AIMultiple. ❌ indica que la empresa decidió no compartir sus certificados de seguro con nosotros y, por lo tanto, no pudimos validar su cobertura de seguro. La cobertura de seguro es la única categoría en la que dependimos de la participación de las empresas de servicios de datos web para evaluarlas.

Ordenado por puntuación resumen.

Modelo de puntuación para datos web éticos

A continuación, describimos cómo se derivan estas puntuaciones. También puede consultar la justificación para seleccionar estas dimensiones de puntuación.

En las 2 primeras categorías, identificamos 5 competencias, y las empresas recibieron puntuaciones basadas en el número de competencias que cumplían. El nivel 5 representa la madurez más alta observada en el mercado, reflejando las mejores prácticas actuales más que la perfección.

Capacidades para un uso ético por parte de los clientes

Procesos efectivos para un uso ético: Evaluamos la capacidad de cada proveedor para prevenir el uso no ético de sus servicios de proxy residencial a través de escenarios de prueba controlados. Si alguna de nuestras solicitudes es bloqueada por el proveedor, entonces esto se logra.
Procesos mejorados para un uso ético: Similar a "procesos efectivos para un uso ético". Sin embargo, esta capacidad denota que el proveedor de servicios bloqueó más de uno de nuestros intentos de usar sus servicios para casos de uso no éticos.
Procesos de mejores prácticas para un uso ético: Similar a "procesos efectivos para un uso ético". Sin embargo, esta capacidad denota que el proveedor de servicios bloqueó la mayoría de nuestros intentos de usar sus servicios para casos de uso no éticos.
Base de gestión de abusos: Publicación de una política de gestión de abusos y un método para informar abusos
Gestión de abusos receptiva: Medimos cómo respondieron las empresas a múltiples informes de abuso. Incluso si no había una línea directa para informar abusos, utilizamos los correos electrónicos listados por la empresa para contactar a su equipo. Si no recibimos ninguna respuesta a nuestro informe en el plazo de una semana, se asume que la empresa no responde.

Capacidades para un suministro ético

El suministro ético implica adquirir direcciones IP de manera ética. Nuestro análisis de mercado identificó los siguientes niveles de transparencia en cuanto al suministro ético de IP:

Nivel 1: Política de obtención de IP publicada.
Nivel 2: Divulgó al menos una fuente (por ejemplo, una aplicación móvil) de IP que suministra IP de manera ética. La fuente divulgada debe tener en total al menos 10k reseñas en plataformas de terceros, incluyendo Google, Apple, las tiendas de aplicaciones de Amazon y Trustpilot.
Nivel 3: Igual que el Nivel 3 pero con 100k reseñas
Nivel 4: Igual que el Nivel 3 pero con 1M de reseñas
Nivel 5: Igual que el Nivel 4 pero con 10M de reseñas

Las reseñas son un indicador de la popularidad de las aplicaciones y son una señal importante para esta evaluación. Los servicios de recolección de datos web necesitan trabajar con aplicaciones populares para poder satisfacer las necesidades de IP de sus clientes.

Para la calificación, las aplicaciones divulgadas deben seguir estas mejores prácticas. No verificaremos esto para cada aplicación divulgada, sino para unas pocas seleccionadas al azar:

Consentimiento informado:
- Los usuarios deben optar por compartir su conexión a Internet antes de hacerlo. La pantalla de aceptación debe describir:
  - El proveedor
  - El servicio
  - Cómo se utilizará su IP
- Los usuarios deben poder acceder a información detallada sobre
  - Cómo se utilizará su conexión a Internet
  - Política de privacidad
Valor: Los usuarios deben recibir algún valor de la aplicación (por ejemplo, pago, capacidad de omitir anuncios u otra funcionalidad)
Privacidad: Recopilación de datos de usuario limitada y transparente.

Para las redes de proxy residenciales, los compradores también deben verificar si el consentimiento es específico, informado, revocable y está separado de los permisos de la aplicación no relacionados. Deben preguntar si los usuarios pueden optar por salir fácilmente, si el uso del ancho de banda está limitado, si se excluye a los menores y si el proveedor audita las aplicaciones o SDK que suministran IP residenciales.

Certificación externa

Evaluamos la certificación externa en función de si las empresas adquirieron estos certificados relevantes para la seguridad y el cumplimiento de nivel empresarial.

Certificación PII: Capacidad demostrada para gestionar PII mediante la obtención de ISO 27018
Certificación de seguridad de datos: Prácticas de seguridad de datos demostradas mediante la obtención de uno de estos certificados: SOC 2 o ISO/IEC 27001
Fuente de IP en lista blanca: Proveedores de certificación externos como McAfee certifican:
- Aplicaciones de 3rd parties específicas que suministran IP
- SDK que recopila IP de aplicaciones de 3rd parties
Prácticas éticas evaluadas: Se puede completar un proyecto de aseguramiento ISAE 3000 para evaluar las prácticas internas de cumplimiento y ética.

Seguro

Solicitamos a los proveedores que nos proporcionaran estos documentos de seguro:

Certificado de seguro de responsabilidad profesional que cubra las responsabilidades de los proveedores en caso de problemas en el servicio
Certificado de seguro cibernético que cubra las responsabilidades de los proveedores en caso de problemas relacionados con la seguridad de la información.

Puntuación resumen

Esta puntuación es la suma de todas las puntuaciones dividida por 3. Las puntuaciones son:

0 a 5 para capacidades de uso ético por parte de los clientes
0 a 5 para capacidades de suministro ético
0 a 3 para certificación externa
0 a 2 para seguros

Principales servicios de recolección de datos web

AIMultiple seleccionó los 7 servicios de recolección de datos web más grandes en términos de empleados en LinkedIn. Elegimos esta métrica porque es pública y debería estar correlacionada con los ingresos de la empresa y su preparación empresarial. Métricas mejores, como los ingresos o el número de empleados en nómina, no están disponibles públicamente para estas empresas privadas.

Todas las empresas seleccionadas tienen más de 100 empleados conectados a sus páginas de perfil de LinkedIn en abril de 2025. Actualmente, 5 de los 7 seleccionados se muestran en esta página y las 2 empresas restantes han optado por no ser incluidas en el informe.

Productos de recolección de datos web en foco

Estas empresas ofrecen una gama de productos que incluyen proxies, APIs de extracción de datos y datasets. Si bien todos los productos pueden examinarse desde una perspectiva ética, inicialmente nos centramos en el producto que proporciona el mayor nivel de flexibilidad y potencia la mayoría de los demás productos: los proxies residenciales.

Los productos de recolección de datos web pueden considerarse como una jerarquía donde los proxies forman la capa central sobre la que se construyen todos los demás servicios. Esto se debe a que los proxies permiten que las máquinas accedan a Internet a través de diferentes destinos, lo que permite un conjunto diverso y amplio de conexiones a Internet cruciales para la recolección de datos. Por lo tanto, los proxies son el producto de recolección de datos web más capaz, ya que se puede utilizar para llevar a cabo funciones que no serían posibles con datasets o APIs de extracción de datos.

Entre los proxies, los proxies residenciales son el producto que a los sitios web les resulta más difícil identificar como proxy. Por ejemplo, otros proxies, como los de centros de datos, son fáciles de identificar dada su ubicación. Por lo tanto, los proxies residenciales impulsan la mayoría de los demás productos de datos web, como las APIs de extracción de datos.

Verifique: ¿Es su recolección de datos web conforme y ética?

Es muy probable que su empresa esté aprovechando los datos web. Sin embargo, la industria se enfrenta a una regulación limitada, por lo que es importante elegir un proveedor ético y conforme. Para lograrlo, preparamos un marco holístico que tiene en cuenta diferentes aspectos de la recolección de datos web, incluido el abastecimiento ético, el uso ético y la certificación externa.

Los datos web son un activo operativo común

Como empresa, su negocio depende parcialmente de los datos web debido a sus numerosos casos de uso como:

Fijación dinámica de precios para retail y comercio electrónico
Datos alternativos en tiempo real para fondos de inversión
Proceso KYC en banca comercial
Entrenamiento o ajuste fino de modelos de IA
Inferencia de IA o RAG
Investigación de mercado

Con la IA, los datos web son ahora más importantes

Aunque la recolección de datos web es tan antigua como la web, su importancia aumentó drásticamente tras el auge de los modelos de IA generativa. Los constructores de estos modelos, como OpenAI y Anthropic, comenzaron sin asociaciones de contenido significativas y utilizaron principalmente datos en línea para construir sus modelos iniciales, lo que ha llevado al surgimiento de la industria de la IA de billones de dólares.

Supervisión regulatoria limitada

Aunque la regulación de la IA está bajo el spotlight, la industria de la recolección de datos permanece en gran medida sin regular en la mayoría de los países. Las actividades ilegales claras en línea están bien definidas. Sin embargo, existen requisitos regulatorios limitados para que los actores de la industria prevengan proactivamente el uso indebido de sus servicios por parte de los usuarios.

Depende de las propias plataformas establecer las mejores prácticas y estándares de cumplimiento para garantizar una recolección de datos y un uso de proxies éticos. Por lo tanto, la elección del proveedor es más importante en la recolección de datos en comparación con industrias fuertemente reguladas como la banca, donde cada proveedor de servicios debe cumplir con numerosas regulaciones.

La postura ética de sus proveedores es parte de la reputación de su empresa

Independientemente de si usted recopila o consume los datos, es responsable de su proceso de adquisición.

La responsabilidad de las empresas por actividades ilegales en su cadena de suministro depende de la jurisdicción. Por ejemplo, en Alemania, las empresas son responsables de llevar a cabo actividades de KYS y gestión de riesgos para identificar y prevenir daños causados por su cadena de suministro. Incluso cuando las empresas no son responsables de los daños causados por su cadena de suministro, pueden sufrir riesgos reputacionales.

¿Cuál es el costo de la recolección de datos no ética y no conforme?

Riesgo reputacional

Si se hace público que una empresa está utilizando un servicio de recolección de datos web que incurre en comportamientos no éticos o acciones que ponen en peligro su seguridad de datos, esto puede provocar un daño reputacional significativo, como pérdida de negocio, pérdida de clientes, pérdida de talento y pérdida de confianza de los inversores.

Ejemplos reales de pérdida de reputación debido a proveedores empresariales:

Nike ha sufrido daños reputacionales en numerosas ocasiones debido a las prácticas laborales poco éticas de sus proveedores.¹
Muchas empresas como EY perdieron la confianza de sus clientes cuando se vieron afectadas por la brecha de software de transferencia de archivos gestionada MOVEit. ²

Riesgo legal

La pérdida de reputación, especialmente la que conduce a la indignación pública, suele ir seguida de demandas de los clientes de la empresa u otras partes interesadas que se han visto perjudicadas por las prácticas poco éticas.

Ejemplo real: Starbucks es una de las marcas recientes en ser demandada por abastecerse de empresas con prácticas poco éticas.³

Deja que nuestro equipo automatice uno de tus procesos de negocio con agentes de IA, sin coste alguno.

Automatizar un proceso

Lista de verificación de datos web éticos

Los datos web empresariales deben cumplir 3 requisitos para ser éticos:

Uso ético por parte de los clientes

Como parte de sus procesos de Conozca a su Proveedor, las empresas evitan utilizar servicios que permitan actividades no éticas. El uso de dichos servicios expone a las empresas a daños reputacionales.

Ejemplo del mundo real: En casos en los que se documentó que un proveedor permitía que su plataforma se utilizara en actividades no éticas, numerosas empresas se distanciaron del proveedor hasta que mejoró sus prácticas.⁴

Cómo se relaciona esto con los datos web: Los datos web se recopilan a través de diferentes direcciones IP. Estas direcciones pueden utilizarse para participar en diferentes actividades ilegales, como ataques DDoS para impedir la prestación de servicios digitales, la recopilación no autorizada de datos no públicos o el fraude publicitario. Los actores maliciosos necesitan IP para impulsar sus acciones y los proveedores de infraestructura de datos web/proxy son los mayores proveedores de IP para usuarios minoristas.

Suministro ético

Los servicios utilizados con fines éticos pueden causar acciones no éticas y dañinas durante su producción. Por ejemplo, marcas como Nike y Nestlé sufrieron daños reputacionales y se enfrentaron a demandas debido al uso de trabajo infantil por parte de sus contratistas.

Cómo se relaciona esto con los datos web:

Las empresas necesitan acceder a un gran número y diversas fuentes de ancho de banda para una recopilación de datos rápida y global. Esto requiere el uso de proxies residenciales: si bien la recopilación de datos públicos es legal en muchas condiciones, ⁵ los sitios web también pueden optar por bloquear a algunos de sus visitantes. Por ejemplo, pueden bloquear los rastreadores de sus competidores. En tales casos, las empresas deben depender de un gran número de conexiones de usuarios minoristas u otros 3rd parties para recopilar datos web.

Los proveedores de proxy recopilan millones de conexiones a Internet de diversas fuentes y las proporcionan a las empresas que utilizan direcciones IP para acceder a estas conexiones. Algunas de estas IP provienen de dispositivos de usuarios residenciales. La recopilación de estas conexiones puede ser legal o ilegal:

Legal: Las prácticas que cumplen con la ley implican obtener el consentimiento informado del usuario, proporcionar una compensación y ofrecer mecanismos de exclusión voluntaria de acuerdo con las regulaciones locales. El proveedor de datos web debe
- Informar a los usuarios sobre cómo se utilizará su ancho de banda
- Obtener su consentimiento digitalmente
- Compensarlos a cambio
- Permitirles optar por salir en cualquier momento
Ilegal: Los actores maliciosos pueden obtener acceso a los dispositivos de los usuarios y usar su conexión a Internet sin permiso o compensación. Esto puede ocurrir a través de aplicaciones de malware, dispositivos comprometidos, instalaciones enmascaradas, aceptación automática y otros métodos que pueden poner en riesgo al propietario del dispositivo.

Las empresas que utilizan proxies obtenidos ilegalmente pueden pagar inadvertidamente a actores maliciosos por el acceso no autorizado a los dispositivos.

Ejemplos de la vida real:

Se ha documentado que proveedores de proxy residenciales que cotizan en bolsa comparten su infraestructura con SDK que utilizan conexiones de dispositivos sin el consentimiento del usuario.⁶⁷
Los routers y dispositivos IoT han sido comprometidos para operaciones de botnets y vendidos como proxies residenciales.⁸ ⁹
Ciertos proveedores de proxy promocionan sus servicios en foros frecuentados por actores maliciosos. Es probable que estas IP se hayan obtenido ilegalmente.¹⁰
Las aplicaciones VPN en Google Play Store también se han utilizado para adquirir IP residenciales sin el consentimiento del usuario.¹¹

Aunque estas operaciones han sido desmanteladas, es probable que los actores maliciosos sigan accediendo a IP residenciales sin consentimiento a través de botnets y aplicaciones comprometidas o maliciosas.

Certificación externa

Los compradores empresariales necesitan soluciones seguras y preparadas para la empresa. Identificamos los ingredientes para una organización de datos web madura que puede documentarse mediante certificación externa:

Seguridad de datos

La falta de seguridad de datos en los sistemas de un proveedor puede erosionar la ventaja competitiva de una empresa o provocar la pérdida de datos y el tiempo de inactividad del sistema. La pérdida de funcionalidad del sistema puede erosionar la confianza y llevar a la devaluación de una empresa.

Intrusión en el sistema

Los servicios de recolección de datos no están tan profundamente integrados en los sistemas de una empresa como los servicios digitales centrales (por ejemplo, un sistema de registro como CRM). Por lo tanto, sus credenciales de seguridad no se revisan tan a fondo como las credenciales de un sistema central como un sistema de registro. Sin embargo, la seguridad de los datos es fundamental para los clientes de los servicios de recolección de datos, ya que estos servicios:

A veces se integran en sistemas más centrales como los motores de fijación de precios.
Pueden infectar los sistemas empresariales incluso cuando no están integrados en dichos sistemas. El uso de un servicio de recolección de datos implica recibir datos de ese servicio. Incluso algunas de las formas más seguras de transferencia de datos incluyen riesgos.

La intrusión en el sistema también puede llevar a los atacantes a apuntar a los dispositivos que suministran IP residenciales a un servicio de proxy. Esto puede resultar en daños reputacionales para los clientes de ese servicio de proxy.

Ejemplo de vulnerabilidad en la vida real en un proveedor de proxy residencial:

Los operadores de la botnet Kimwolf compraron servicios de proxy del proveedor de proxy residencial IPIDEA. Usando comandos maliciosos, infectaron las redes internas de los dispositivos que suministraban IP a IPIDEA. Estas redes fueron luego escaneadas y otros dispositivos vulnerables en estas redes locales también fueron infectados.

Se estima que Kimwolf se ha extendido a más de 2 millones de dispositivos con este método. Los datos recopilados por los clientes de IPIDEA también fluyeron a través de estas redes infectadas.¹²

Pérdida de datos

Sin seguridad de datos, los actores maliciosos pueden obtener acceso a los datos recopilados por las empresas para identificar sus actividades y estrategias, lo que lleva a una pérdida de ventaja competitiva u oportunidades de negocio.

Ejemplo de la vida real:

Aunque los datos web son públicos, las empresas pueden usar los datos web de formas novedosas para obtener una ventaja competitiva. Por ejemplo, los inversores gastan hasta el 10% de su presupuesto de datos de mercado en datos alternativos¹³, pero rara vez divulgan sus estrategias, ya que creen que puede ayudarles a obtener una ventaja en comparación con sus competidores. Una fuga de datos puede llevar a que sus estrategias queden expuestas y, por lo tanto, sean replicadas por sus competidores.

Gestión de PII

Los datos web incluyen datos privados detrás de un inicio de sesión o PII que pueden divulgarse accidental o intencionadamente en sitios web públicos. Si los servicios de recolección de datos web no gestionan correctamente la PII, dichos datos pueden ser adquiridos por actores maliciosos. Esto puede provocar daños reputacionales para el servicio de recolección de datos web y sus clientes.

Seguridad de aplicaciones

Las aplicaciones o programas intermedios como los SDK que obtienen las IP de los servicios de recolección de datos web pueden ser incluidos en listas blancas por proveedores de certificación externos como McAfee. Esto aumenta la confianza de la empresa en las prácticas de suministro ético del servicio de recolección de datos web.

Cobertura de seguro

Las empresas suelen exigir estos seguros a cualquier proveedor digital:

Seguro de responsabilidad profesional
Certificado de seguro cibernético

Referencia detallada: Evaluación de proveedores de infraestructura de datos web

Referencia: Uso ético por parte de los clientes

Aquí pretendemos responder a la pregunta: ¿Garantiza la empresa que el uso de su solución sea ético y esté en consonancia con las leyes y regulaciones aplicables? Resumen de nuestros hallazgos:

Proveedor	Uso ético por parte de los clientes	Procesos efectivos	Procesos mejorados	Procesos de mejores prácticas	Base de gestión de abusos	Gestión de abusos receptiva
Bright Data	Nivel 5	✅	✅	✅	✅	✅
Apify	Nivel 1	❌	❌	❌	N/A*	✅
Nimble	Nivel 1	❌	❌	❌	❌	✅
Zyte	Nivel 1	❌	❌	❌	N/A*	✅

* No aplicable: Dado que Zyte y Apify compran proxies de sus proveedores y no los recopilan directamente de usuarios residenciales, los propietarios de sitios web no se pondrían en contacto con ellos por abusos y, por lo tanto, no necesitan crear un formulario de contacto para sitios web.

En primer lugar, revisamos las políticas:

Revisión de la política de uso aceptable

Todos los proveedores prohíben las actividades ilegales y proporcionan ejemplos como ataques DoS, mensajes masivos no solicitados, suplantación de identidad o spoofing.

Además, algunos proveedores también destacan que prohíben actividades que probablemente sean ilegales. A continuación, enumeramos las actividades prohibidas según las políticas de uso aceptable y sus adendas (por ejemplo, el anexo de procesamiento de datos) para cada proveedor.

Buscamos términos que prohibieran actividades que probablemente sean ilegales y que puedan identificarse en función de la actividad del usuario. Por ejemplo, una parte significativa de los usuarios que utilizan proxies para realizar encuestas pagadas podría estar utilizando proxies para engañar a los proveedores de encuestas sobre su ubicación real. Por lo tanto, esta actividad es probable que sea ilegal y puede identificarse en función de la actividad del usuario (es decir, cuando un usuario inicia sesión en un sitio web de encuestas pagadas).

Actividad prohibida	Bright Data	Apify	Zyte	Nimble
Extracción de datos no autorizada	✅	✅	✅	✅
Sitios web dañinos	✅	✅	❌	✅
Reventa sin permiso	✅	✅	✅	✅
Fraude publicitario	✅	✅	✅	❌
Sitios web para adultos	✅	✅	✅	❌
Creación y gestión de cuentas	✅	❌	❌	❌
Compra automatizada de entradas	✅	❌	✅	❌
Publicación en clasificados y mercados	✅	✅	❌	❌
Sitios web gubernamentales	✅	❌	✅	❌
Encuestas pagadas	✅	✅	❌	❌

Aunque identificar claramente las actividades prohibidas es beneficioso, no es un requisito y no afecta a nuestras puntuaciones. Las empresas pueden optar por mencionar que no permiten actividades ilegales en lugar de mencionar cada caso posible de actividades ilegales.

Mencionar una actividad como prohibida no significa que dichas actividades vayan a ser revisadas o bloqueadas. Nuestras puntuaciones se basan en cómo se implementan estas políticas, como se describe a continuación:

Procesos para un uso ético

Si bien algunas categorías descritas en las políticas de uso aceptable son bastante amplias (por ejemplo, extracción o acceso no autorizado a datos), otras son lo suficientemente específicas como para convertirse en acciones preventivas (por ejemplo, bloqueo de acceso) que los servicios de recolección de datos pueden implementar para los usuarios que no han completado su proceso KYC.

Basándonos en estos usos prohibidos específicos, preparamos una lista extensa de usos que probablemente sean usos ilegales de proxies. Para cada caso de uso, identificamos escenarios que incluían dominios web y acciones relevantes. Por ejemplo, en el escenario de participación social artificial, intentamos iniciar sesión en una red social utilizando un proxy para dar me gusta a una publicación existente.

Luego, para probar si las empresas permiten un uso no ético por parte de los clientes, creamos una cuenta en el servicio de cada proveedor utilizando una dirección de correo electrónico que no era de AIMultiple. No completamos un proceso KYC con esta cuenta y procedimos a utilizar los servicios para comprender lo que los usuarios anónimos pueden lograr con cada servicio. El KYC es un paso crucial durante el cual el usuario envía datos para validar la entidad legal que representa. Esto vincula la actividad del usuario a una entidad legal:

Que puede ser considerada responsable.
Cuya justificación para las acciones en línea (por ejemplo, usar proxies para iniciar sesión en sitios web gubernamentales) puede examinarse. Por ejemplo, después de comprender su caso de uso, se puede permitir que un investigador o una agencia gubernamental inicie sesión en un sitio web gubernamental utilizando un proxy.

Esperábamos que estos casos de uso desencadenaran un proceso KYC, pero en la mayoría de los proveedores, eso no sucedió. Una marca de verificación indica que la solicitud fue bloqueada para los usuarios que aún no habían completado el proceso KYC:

Categoría	Dominio	Bright Data	Apify	Nimble	Zyte
Fraude publicitario	google.com	✅	❌	❌	❌
Fraude publicitario	bing.com	✅	❌	❌	❌
Adultos	Se puede proporcionar bajo petición	✅	❌	❌	❌
Adultos	Se puede proporcionar bajo petición	✅	❌	❌	❌
Participación social artificial	facebook.com	✅	❌	❌	❌
Participación social artificial	instagram.com	✅	❌	❌	❌
Compra automatizada de entradas	viagogo.com	✅	❌	❌	❌
Compra automatizada de entradas	ticketmaster.com	✅	❌	❌	❌
Clasificados	craigslist.com	✅	❌	❌	❌
Clasificados	gumtree.com	✅	❌	❌	❌

Para mayor claridad, las empresas de servicios de recolección de datos no tienen ninguna obligación legal de bloquear estos sitios web y algunos de estos escenarios pueden formar parte de un uso legal. Por ejemplo, un investigador puede querer aprovechar los proxies para realizar un experimento controlado en redes sociales. Sin embargo, dado el potencial de abuso en estos escenarios, esperábamos que los servicios de recolección de datos los bloquearan para los usuarios que no han completado el proceso KYC.

Cómo comunican las marcas los dominios que bloquean

Bright Data enumera las categorías de dominios restringidos en su política de uso aceptable.

Respeto de las preferencias de los sitios web en cuanto a la recolección automatizada de datos

¿Qué es robots.txt?

robots.txt es un nombre de archivo para implementar el Protocolo de Exclusión de Robots. Este protocolo es utilizado por los sitios web para indicar las partes del sitio web que el propietario del sitio prefiere que los bots no visiten. El cumplimiento de robots.txt es voluntario.

Ventajas y desventajas de cumplir con robots.txt

➕ Respeta las preferencias del sitio web.

➖ Puede que no se haya actualizado recientemente y, por lo tanto, estar desactualizado.

➖ Normalmente incluye términos que indican que el propietario del sitio web prefiere que ciertas secciones públicas del sitio web no sean accedidas por bots.

Robots.txt también puede proporcionar un acceso desigual a los bots. Por ejemplo, los propietarios de sitios web pueden indicar que prefieren que los bots de los motores de respuestas no visiten ciertas URL que los bots de los motores de búsqueda sí visitan.

Robots.txt no es un documento legal y puede solicitar el bloqueo del acceso de bots a páginas que son legalmente:

permitidas para ser extraídas (por ejemplo, datos públicos) o
no permitidas para ser extraídas (por ejemplo, datos detrás de un inicio de sesión donde los TdC del propietario del sitio web prohíben la extracción de dichos datos).

Los proveedores de servicios de recolección de datos web pueden solicitar a los usuarios de proxies residenciales que completen un proceso KYC y demuestren que tienen un caso de uso legal y ético antes de que estos usuarios puedan ignorar robots.txt.

Para las pruebas, enviamos solicitudes a páginas en subcarpetas que se solicita que sean bloqueadas por robots.txt. Los dominios que utilizamos fueron aimultiple.com y 5 dominios web entre los 100 más visitados. Solo Bright Data bloqueó estas solicitudes:

URL	Bright Data	Nimble	Zyte	Apify
https://edition.cnn.com/terms0	✅	❌	❌	❌
https://www.bbc.com/search	✅	❌	❌	❌
https://www.samsung.com/us/business/search/	✅	❌	❌	❌
https://www.imdb.com/registration/signin	✅	❌	❌	❌
https://www.etsy.com/cart	✅	❌	❌	❌

Ejemplo de CNN

El robots.txt de CNN bloquea la carpeta /terms¹⁴. Para la prueba, navegamos a esa carpeta con proxies residenciales y recibimos 200 mensajes con los datos de la página de todos los proveedores excepto Bright Data. La respuesta de Bright Data es: “Residential Failed (bad_endpoint): Requested site is not available for immediate residential (no KYC) access mode in accordance with robots.txt. To get full residential access for targeting this site, fill in the KYC form: https://brightdata.com/cp/kyc”.

Gestión de abusos

Describimos una metodología para evaluar las prácticas de gestión de abusos de los proveedores y recopilamos datos para cumplir con nuestros criterios de evaluación:

Proveedor	Nivel	Correo electrónico dedicado para informar	Formulario web para informar
Bright Data	Fundación y receptivo	✅	✅
Apify	Receptivo	❌	❌
Zyte	Receptivo	N/A*	N/A*
Nimble	Receptivo	❌	❌

* No aplicable: Zyte compra proxies de otros proveedores de proxy y, por lo tanto, cuando el servicio de Zyte se utiliza para abusos, los propietarios de sitios web se comunicarían con sus proveedores de proxy en lugar de con Zyte.

Si bien todos los proveedores ofrecen medios para que los 3rd parties o sus clientes se comuniquen con ellos, contar con estos es importante para la resolución de problemas:

Política de abuso pública
Una dirección de correo electrónico dedicada para informar abusos
Un método de contacto alternativo (por ejemplo, formulario web o interfaz de mensajería) que permita a los denunciantes comunicarse con la empresa. Esto es útil, ya que los correos electrónicos pueden filtrarse y no llegar a la bandeja de entrada.
Capacidad de respuesta a los mensajes

3 proveedores en la referencia (Bright Data) proporcionaron un correo electrónico para informar abusos. Todos estos proveedores también describieron sus políticas en este ámbito.

Esperamos que todos los demás proveedores hagan lo mismo y que esto se convierta en una práctica generalizada en la industria a corto plazo.

Finalmente, evaluamos la capacidad de respuesta de la gestión de abusos enviando informes de abuso por correo electrónico desde dominios de terceros (es decir, que no eran de AIMultiple) y midiendo los tiempos de respuesta. Si no pudimos encontrar una dirección de correo electrónico para abusos, lo enviamos al formulario de contacto general. Probamos esto a través de 3 lotes de correos electrónicos enviados el:

Viernes 2 de mayo de 2025 desde:
- Un servicio de venta de entradas con ~30k de tráfico mensual
- Un bufete de abogados con ~1k de tráfico mensual en
17 de mayo de 2025 desde el servicio de venta de entradas.
24 de mayo de 2025 desde una agencia de redes sociales con tráfico en línea limitado.

Los primeros correos electrónicos enviados el 2 de mayo de 2025 se enviaron a empresas que proporcionaban correos electrónicos dedicados. Más tarde, ampliamos nuestra lista e incluimos más direcciones de correo electrónico generales que aparecían en las secciones de contacto de todos los servicios de recolección de datos web de referencia. Si una empresa respondía a nuestros correos electrónicos, dejábamos de enviarle más.

En nuestros correos electrónicos, mencionamos que nuestros sitios web recibieron tráfico sospechoso de bots a través de proxies y solicitamos su ayuda para identificar el origen de los proxies. Pudimos conseguir que todos los equipos de cumplimiento, excepto uno, nos respondieran. Casi todas las respuestas se recibieron el mismo día.

Transparencia de uso

Los propietarios de sitios web que proporcionan datos web y los servicios de recolección web históricamente no han tenido intercambio de datos sobre las actividades de recolección de datos. Para limitar las actividades de rastreo, los propietarios de sitios web podían:

Contactar a los servicios de recolección de datos web para informar abusos
Trabajar con proveedores de gestión de bots como Cloudflare para dificultar el rastreo.

Ahora, existen iniciativas para un intercambio de datos más estructurado entre estas partes. Bright Data lanzó la consola para webmasters de Bright Data para que los webmasters monitoreen las actividades de rastreo en sus sitios web. Es probable que una mayor transparencia mejore las prácticas de recolección de datos web.

Nuestra experiencia con la consola para webmasters

Nos registramos verificando la propiedad de nuestro dominio y agregando un archivo collectors.txt en el dominio.

Ahora tenemos acceso a la actividad de bots de Bright Data en nuestro sitio web:

Referencia: Suministro ético

Proveedor	Suministro ético	Enfoque de abastecimiento explicado	Nº de aplicaciones divulgadas públicamente que obtienen IP	Nº total de reseñas en plataformas de 3rd parties
Bright Data	Nivel 5	✅	120	14,617,919*
Zyte	Nivel 1	✅	❌	❌
Apify	❌	❌	❌	❌
Nimble	❌	❌	❌	❌

* Se incluyeron reseñas en estas plataformas de 3rd parties: Amazon Appstore, App Store, Google Play Store, Trustpilot. Para mayor comodidad, este valor se calculó para 5 aplicaciones principales de Bright Data, no para las 120 aplicaciones que aparecen en su sitio web.

Transparencia de los socios

El ancho de banda requerido por las empresas de infraestructura de datos web puede suministrarse de manera ética proporcionando beneficios (por ejemplo, pagos, funciones como la capacidad de omitir anuncios) a cambio del consentimiento para compartir la conexión a Internet. Sin embargo, también es posible obtener acceso no autorizado a los sistemas de los usuarios minoristas y vender sus conexiones.

Los proveedores de infraestructura de datos web pueden formular políticas y procesos, realizar auditorías externas y publicar su enfoque y los resultados de las auditorías para crear transparencia sobre cómo adquieren sus conexiones a Internet. Esto puede fomentar la confianza en el suministro ético de su servicio.

Creamos un marco para la transparencia del lado de la oferta en datos web y calificamos a los proveedores utilizando este marco. Aplicamos este marco independientemente de si un servicio de recolección de datos web adquiría IP residenciales por sí mismo o a través de otros proxies. Nuestro objetivo es aportar transparencia a toda la cadena de suministro de IP, ya que las prácticas poco éticas pueden originarse en cualquier punto de la cadena de suministro.

Aquí puede encontrar nuestros resultados detallados:

Bright Data

Bright Data está clasificado como Nivel 5 ya que publican

Su enfoque de abastecimiento y cómo los desarrolladores de aplicaciones pueden trabajar con ellos a través de su SDK¹⁵ ¹⁶
Se compartieron públicamente detalles sobre 120 proveedores. Pudimos comprobar las reseñas de estos proveedores en plataformas de 3rd parties para estimar su popularidad. ¹⁷

Revisión de aplicaciones seleccionadas

Bright Data comparte 120 aplicaciones en su sitio web. Aplicaciones como Bright VPN están certificadas por 3rd parties en cuanto a su divulgación y UX.¹⁸ También descargamos estas aplicaciones para verlas con más detalle:

Bright VPN
EarnApp
Sling Kong

Formulario de aceptación con la obligación de no recopilar datos de identificación personal: Formulario de consentimiento con una explicación clara de

Bright VPN:

Earn App:

Sling Kong:

Se le presenta al usuario la oferta durante el juego:

Aceptación:

Información adicional durante la aceptación:

Exclusión voluntaria:

Valor proporcionado por las aplicaciones:

Bright VPN: Servicio VPN gratuito
EarnApp: Pagos
Sling Kong: Moneda virtual del juego

Otros

Si bien la mayoría de los proveedores son conscientes de la ética en el web scraping y han publicado sobre el tema (por ejemplo, ¹⁹, no hemos identificado sus compromisos específicos en este frente excepto en el caso de Zyte.²⁰

Esperamos que esto cambie y que la mayoría de los proveedores pasen al menos al Nivel 1 a corto plazo.

Certificación externa

Proveedor	Certificación externa	Certificación de seguridad de datos	Certificación PII	Fuente de IP en lista blanca	Prácticas éticas evaluadas
Bright Data	Seguridad de datos, procesamiento de PII. Fuentes de IP en lista blanca. Prácticas éticas evaluadas.	✅	✅	✅	✅
Apify	Certificado para seguridad de datos	✅	❌	❌	❌
Nimble	Certificado para seguridad de datos	✅	❌	❌	❌
Zyte	Certificado para seguridad de datos	✅	❌	❌	❌

* Indica que la empresa obtuvo todas las certificaciones externas en esta categoría

Es crucial que los proveedores cuenten con los sistemas, el personal y los procesos adecuados para proteger los datos de los clientes y asegurar las aplicaciones que suministran sus IP. Consulte nuestra metodología de medición de la certificación externa para ver la lógica detrás de nuestra puntuación.

Todos los proveedores afirman públicamente cumplir con ambas regulaciones de privacidad de datos. Por lo tanto, esto no se incluyó en la puntuación.

Cómo medimos las madureces organizativas

Basándonos en las capacidades que identificamos en este ámbito, verificamos la existencia de estos certificados en cada proveedor utilizando sus declaraciones públicas:

Certificación de seguridad de datos y certificación PII: ²¹²²²³²⁴
Fuente de IP en lista blanca: ²⁵
Prácticas éticas evaluadas: ²⁶

Algunos proveedores que no poseen certificados ISO 27018 afirmaron que se les debería considerar certificados, ya que utilizan proveedores de servicios en la nube que sí poseen certificados ISO 27018. La opinión de nuestro asesor de ciberseguridad fue que, si bien esto facilitaría la obtención del certificado, aún necesitarían que sus políticas y controles fueran certificados para obtenerlo.

Cobertura de seguro

3 empresas de recolección de datos web compartieron sus certificados de seguro. No publicamos los certificados, pero revisamos los documentos para asegurarnos de que

cubrieran estas 2 categorías de seguro
El límite de seguro en cada categoría sea al menos de varios millones de dólares estadounidenses.

Descubre más de nuestros análisis comparativos e insights basados en datos en la Búsqueda de Google.

Añadir como fuente preferida

Descargos de responsabilidad y recomendaciones para los próximos pasos

Todos los proveedores de esta referencia, excepto Nimble, son clientes de AIMultiple. Como siempre, seguimos nuestros compromisos éticos durante esta investigación.

Hemos completado una revisión exhaustiva de la recolección ética de datos web y, si bien estamos satisfechos con el alcance de esta referencia, nos encantaría aumentar su participación. Agradecemos a estas empresas por compartir su cobertura de seguro: Apify, Bright Data, Zyte.

Estamos esperando respuestas de Nimble. Actualizaremos el informe tan pronto como tengamos más noticias de ellos. 2 proveedores han optado por no participar en esta iteración de la referencia. Siempre estamos actualizando este informe si alguna de estas 7 empresas sugiere cambios que se basen en hechos, sean justos para todos los proveedores y ayuden a las empresas a tomar mejores decisiones.

NetNut estaba entre las empresas que evaluamos cuando publicamos este informe por primera vez en 2025. Tenían la puntuación más baja posible (Nivel 0) en nuestra inmersión profunda en el suministro ético, donde examinamos las fuentes de IP de estos proveedores. NetNut fue cerrado en 2026 después de que el FBI identificara sus vínculos con botnets.²⁷ Esperamos que esto sea un incentivo para que todos los proveedores sean transparentes sobre su abastecimiento.

Este es el primer informe que se centra en los datos web éticos según nuestra investigación. Esperamos que esta transparencia pueda ayudar a la industria de los datos web a encontrar soluciones creativas a sus desafíos. Estas soluciones deberán equilibrar los intereses de los recolectores de datos web, los usuarios de automatización web, los propietarios de sitios web y los usuarios residenciales que suministran sus IP a la industria.

Limitaciones de la metodología

Esta referencia mide indicadores de madurez observables, incluidos los controles de uso del cliente, la transparencia del suministro de IP, las certificaciones externas y el intercambio de seguros. Sin embargo, la puntuación no determina completamente si un proveedor cumple con la ley en cada caso de uso del cliente.

Por lo tanto, una puntuación alta en la referencia debe tratarse como un aporte para la debida diligencia de adquisición, no como una garantía de legalidad o uso ético.

Referencias

Cita esta investigación

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Cem Dilmegani (2026) - "Referencia de datos web éticos y conformes". Publicado en línea en AIMultiple.com. Recuperado el 21 de Junio de 2026, de: https://aimultiple.com/web-scraping-ethics [Recurso en línea]

Dilmegani, C. (2026, 21 de Junio). Referencia de datos web éticos y conformes. AIMultiple. https://aimultiple.com/web-scraping-ethics

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Referencia de datos web éticos y conformes}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/web-scraping-ethics}},
  note   = {AIMultiple. Recuperado el 21 de Junio de 2026}
}

Enlaces de referencia

Workers Fainted at Nike Clothing Factory Despite a Vow to Reform — ProPublica

ProPublica

2023 MOVEit data breach - Wikipedia

Contributors to Wikimedia projects

https://www.courthousenews.com/wp-content/uploads/2024/01/starbucks-labor-rights-violations-suit.pdf

Verifying Device

The Times

Court Rules in Favor of Bright Data in Meta v. Bright Data Case - Bright Data

Bright Data

Popa: From Sourcing to Distribution | Synthient

Synthient

‘Popa’ Botnet Linked to Publicly-Traded Israeli Firm – Krebs on Security

https://media.defense.gov/2024/Sep/18/2003547016/-1/-1/0/CSA-PRC-LINKED-ACTORS-BOTNET.PDF

Internet Crime Complaint Center (IC3) | Home Internet Connected Devices Facilitate Criminal Activity

10.

A Look at the Residential Proxy Market | Intel 471

Website

11.

Satori Threat Intelligence Alert: PROXYLIB and LumiApps Transform Mobile Devices into Proxy Nodes - HUMAN Security

HUMAN Security

12.

Kimwolf Botnet Lurking in Corporate, Govt. Networks – Krebs on Security

https://edition.cnn.com/robots.txt

15.

Ethically Sourcing Residential Proxies | Bright Data

Bright Data

16.

homepage - Bright SDK

Bright SDK

17.

How Bright Data Obtains Its Residential IPs - Bright Data

Bright Data

18.

Bright VPN Compliance with guidelines - Google Sheets

19.

What is ethical scraping and how do you do it?

Apify Blog

20.

Web Scraping Data Compliance | Zyte

21.

https://brightdata.com/trustcenter/data-security-overview-protection-measures

22.

Security | Platform | Apify Documentation

23.

Nimble Trust Center | Security, Compliance & Reliability

24.

Trust Center | Zyte

25.

Bright SDK Compliance with Guidelines - Google Sheets

26.

pwc-report - Bright Data

Bright Data

27.

FBI Seizes NetNut Proxy Platform, Popa Botnet – Krebs on Security

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo