Mit der Ausweitung der Webdatenoperationen von Unternehmen bewerten Verantwortliche für Compliance, Daten und Risikomanagement zunehmend die damit verbundenen ethischen, reputationsbezogenen und rechtlichen Risiken .
Wir haben fünf führende Web-Datenerfassungsdienste anhand von drei Dimensionen verglichen und jeden Dienst mit mehr als 20 potenziell unethischen Szenarien getestet.
Unsere Arbeit unterstützt Sie bei der Bewertung der ethischen Vertretbarkeit Ihrer Datenerfassungspraktiken und beim Verständnis der potenziellen Folgen unethischer Vorgehensweisen . Wir bieten außerdem Leitlinien für die ethische Datenerfassung im Web und bewerten Weberfassungsdienste unter ethischen und Compliance-Aspekten.
Bewertung von Web-Datenerfassungsdiensten
Wir haben führende Webdatenerfassungsdienste (auch Webdatenanbieter oder Webdateninfrastruktur genannt) anhand unserer Checkliste für ethische Webdaten bewertet. Diese Bewertungen stellen Reifegrade dar, wobei 5 den höchsten Grad darstellt:
Anbieter | Zusammenfassung | Ethische Nutzung von Kunden | Ethisch liefern | Externe Zertifizierung | Versicherungsschutz geteilt** |
|---|---|---|---|---|---|
Bright Data | Stufe 5 | Stufe 5 | Stufe 5 | Datensicherheit, Verarbeitung personenbezogener Daten. IP-Quellen auf der Whitelist. Ethische Praktiken werden bewertet. | ✅ |
Apify | Stufe 1 | Stufe 1 | Stufe 1 | Datensicherheit | ✅ |
Zyte | Stufe 1 | Stufe 1 | Stufe 1 | Datensicherheit | ✅ |
NetNut | Stufe 1 | Stufe 1 | Stufe 0 | Datensicherheit | TBD |
Nimble | Stufe 1 | Stufe 1 | Stufe 0 | Datensicherheit | ❌ |
* Dies sind Codes für Lieferantennamen. Diese Lieferanten wollten in diesem Bericht nicht genannt werden und sind bis zur Klärung dieses Problems am Ende der Liste aufgeführt.
** ✅ bedeutet, dass das Unternehmen seine Versicherungszertifikate mit AIMultiple geteilt hat. ❌ bedeutet, dass das Unternehmen seine Versicherungszertifikate nicht mit uns geteilt hat und wir daher den Versicherungsschutz nicht überprüfen konnten. Der Versicherungsschutz ist die einzige Kategorie, in der wir die Teilnahme von Webdatendiensten zur Bewertung herangezogen haben.
Sortiert nach Gesamtpunktzahl.
Bewertungsmodell für ethische Webdaten
Im Folgenden erläutern wir, wie diese Punktzahlen ermittelt werden. Sie können auch die Gründe für die Auswahl dieser Bewertungsdimensionen einsehen.
In den ersten beiden Kategorien haben wir fünf Kompetenzen identifiziert. Die Unternehmen erhielten Punktzahlen basierend auf der Anzahl der von ihnen erfüllten Kompetenzen. Stufe 5 repräsentiert den höchsten Reifegrad im Markt und spiegelt aktuelle Best Practices wider, nicht Perfektion.
Möglichkeiten zur ethischen Nutzung durch Kunden
- Wirksame Prozesse für die ethische Nutzung: Wir bewerten die Fähigkeit jedes Anbieters, den unethischen Gebrauch seiner Proxy-Dienste für Privatanwender durch kontrollierte Testszenarien zu verhindern. Wenn eine unserer Anfragen vom Anbieter blockiert wird, gilt dies als erreicht.
- Verbesserte Prozesse für ethische Nutzung: Ähnlich wie „effektive Prozesse für ethische Nutzung“. Diese Funktion bedeutet jedoch, dass der Dienstanbieter mehrere unserer Versuche, seine Dienste für unethische Zwecke zu nutzen, blockiert hat.
- Bewährte Verfahren für die ethische Nutzung: Ähnlich wie „effektive Verfahren für die ethische Nutzung“. Diese Fähigkeit bedeutet jedoch, dass der Dienstanbieter die meisten unserer Versuche, seine Dienste für unethische Zwecke zu nutzen, blockiert hat.
- Stiftung zum Umgang mit Missbrauch : Veröffentlichung einer Richtlinie zum Umgang mit Missbrauch und eines Verfahrens zur Meldung von Missbrauch
- Reaktionsschnelles Missbrauchsmanagement : Wir haben untersucht, wie Unternehmen auf mehrere Missbrauchsmeldungen reagierten. Auch wenn keine Hotline für Missbrauchsmeldungen existierte, nutzten wir die vom Unternehmen angegebenen E-Mail-Adressen, um das zuständige Team zu kontaktieren. Erhielten wir innerhalb einer Woche keine Antwort auf unsere Meldung, gingen wir davon aus, dass das Unternehmen nicht reagierte.
Fähigkeiten zur ethischen Versorgung
Ethische IP-Adressbeschaffung bedeutet, IP-Adressen auf ethische Weise zu erwerben. Unsere Marktanalyse hat die folgenden Transparenzstufen hinsichtlich der ethischen IP-Adressbeschaffung ermittelt:
- Stufe 1 : Veröffentlichte Richtlinie zur IP-Quellenwahl.
- Stufe 2: Es wurde mindestens eine Quelle (z. B. eine mobile App) für geistiges Eigentum offengelegt, die dieses auf ethische Weise bereitstellt. Die offengelegte Quelle sollte insgesamt mindestens 10.000 Bewertungen auf Drittanbieterplattformen aufweisen, darunter Apple App Store, Amazon Appstore und Trustpilot.
- Stufe 3: Wie Stufe 3, jedoch mit 100.000 Bewertungen
- Stufe 4: Wie Stufe 3, jedoch mit 1 Million Bewertungen
- Stufe 5: Wie Stufe 4, jedoch mit 10 Millionen Bewertungen
Rezensionen sind ein Indikator für die Beliebtheit von Apps und ein wichtiges Signal für diese Bewertung. Web-Datenerfassungsdienste müssen mit beliebten Anwendungen zusammenarbeiten, um die IP-Anforderungen ihrer Kunden zu erfüllen.
Zur Qualifizierung sollten die offengelegten Apps diese Best Practices befolgen. Wir werden dies nicht für jede offengelegte App überprüfen, sondern nur für einige zufällig ausgewählte:
- Einverständniserklärung:
- Nutzer müssen sich aktiv anmelden, bevor sie ihre Internetverbindung freigeben dürfen. Der Anmeldebildschirm sollte Folgendes enthalten:
- Der Anbieter
- Der Service
- Wie ihre IP-Adresse verwendet wird
- Nutzer sollten auf detaillierte Informationen zugreifen können über
- Wie ihre Internetverbindung genutzt wird
- Datenschutzrichtlinie
- Nutzer müssen sich aktiv anmelden, bevor sie ihre Internetverbindung freigeben dürfen. Der Anmeldebildschirm sollte Folgendes enthalten:
- Nutzen: Die Nutzer müssen einen Nutzen aus der App ziehen (z. B. Bezahlung, Möglichkeit, Werbung zu überspringen oder andere Funktionen).
- Datenschutz: Begrenzte und transparente Erhebung von Nutzerdaten.
Externe Zertifizierung
Wir bewerteten externe Zertifizierungen danach, ob die Unternehmen diese Zertifikate erworben haben, die für Sicherheit und Compliance auf Unternehmensebene relevant sind.
- PII-Zertifizierung: Nachgewiesene Fähigkeit zum Umgang mit personenbezogenen Daten durch den Erwerb der ISO 27018-Zertifizierung
- Zertifizierung der Datensicherheit: Nachweisliche Einhaltung der Datenschutzbestimmungen durch den Erwerb eines der folgenden Zertifikate: SOC 2 oder ISO/IEC 27001
- IP-Quelle auf der Whitelist: Externe Zertifizierungsanbieter wie McAfee zertifizieren entweder:
- Bestimmte Drittanbieter-Apps, die IPs bereitstellen
- SDK zum Sammeln von IPs von Drittanbieter-Apps
- Evaluierung ethischer Praktiken : Zur Evaluierung interner Compliance- und Ethikpraktiken kann ein ISAE 3000-Assurance-Projekt durchgeführt werden.
Versicherung
Wir haben die Lieferanten gebeten, uns diese Versicherungsdokumente zur Verfügung zu stellen:
- Bescheinigung über eine Berufshaftpflichtversicherung, die den Haftungsanspruch des Anbieters im Falle von Problemen im Zusammenhang mit der Dienstleistung abdeckt.
- Cyberversicherungszertifikat, das die Haftung von Anbietern im Falle von Problemen im Zusammenhang mit der Informationssicherheit abdeckt.
Gesamtergebnis
Diese Punktzahl ergibt sich aus der Summe aller Punktzahlen geteilt durch 3. Die Punktzahlen lauten:
- 0 bis 5 für die Fähigkeit zur ethischen Nutzung durch Kunden
- 0 bis 5 für die Fähigkeit zu ethischer Versorgung
- 0 bis 3 für externe Zertifizierung
- 0 bis 2 für Versicherungen
Führende Web-Datenerfassungsdienste
AIMultiple hat die sieben größten Web-Datenerfassungsdienste hinsichtlich der Anzahl ihrer Mitarbeiter auf LinkedIn ausgewählt. Wir haben diese Kennzahl gewählt, da sie öffentlich zugänglich ist und mit den Umsätzen und der Enterprise-Reife des Unternehmens korrelieren sollte. Bessere Kennzahlen wie Umsätze oder die Anzahl der festangestellten Mitarbeiter sind für diese privaten Unternehmen nicht öffentlich verfügbar.
Alle ausgewählten Unternehmen haben im April 2025 mehr als 100 Mitarbeiter, die mit ihren LinkedIn-Profilseiten verbunden sind. Aktuell werden 5 der 7 ausgewählten Unternehmen auf dieser Seite angezeigt, die übrigen 2 Unternehmen haben sich entschieden, nicht in den Bericht aufgenommen zu werden.
Web-Datenerfassungsprodukte im Fokus
Diese Unternehmen bieten eine Reihe von Produkten an, darunter Proxys, APIs zum Daten-Scraping und Datensätze. Obwohl alle Produkte unter ethischen Gesichtspunkten betrachtet werden können, konzentrierten wir uns zunächst auf das Produkt, das die größte Flexibilität bietet und die Grundlage für die meisten anderen Produkte bildet: Residential Proxies.
Web-Datenerfassungsprodukte lassen sich als Hierarchie betrachten, in der Proxys die Kernschicht bilden, auf der alle anderen Dienste aufbauen. Proxys ermöglichen es Rechnern, über verschiedene Ziele auf das Internet zuzugreifen und somit eine Vielzahl von Internetverbindungen herzustellen, die für die Datenerfassung unerlässlich sind. Daher sind Proxys das leistungsfähigste Web-Datenerfassungsprodukt und können Funktionen ausführen, die mit Datensätzen oder Web-Scraping-APIs nicht möglich wären.
Unter den Proxys sind Residential-Proxys für Websites am schwersten als solche zu erkennen. Andere Proxys, wie beispielsweise Rechenzentrums-Proxys, sind aufgrund ihres Standorts leicht zu identifizieren. Daher basieren die meisten anderen Webdatenprodukte, wie etwa Data-Scraping-APIs, auf Residential-Proxys.
Überprüfung: Entspricht Ihre Web-Datenerfassung den gesetzlichen Bestimmungen und ethischen Grundsätzen?
Ihr Unternehmen nutzt höchstwahrscheinlich Webdaten. Da die Branche jedoch nur unzureichend reguliert ist, ist die Wahl eines ethisch und regelkonform handelnden Anbieters entscheidend. Um dies zu gewährleisten, haben wir ein umfassendes Rahmenwerk entwickelt, das verschiedene Aspekte der Webdatenerfassung berücksichtigt, darunter ethische Datenbeschaffung, ethische Datennutzung und externe Zertifizierung.
Webdaten sind ein gängiges Betriebsgut.
Als Unternehmen ist Ihr Geschäft teilweise auf Webdaten angewiesen, da diese zahlreiche Anwendungsfälle bieten, wie zum Beispiel:
- Dynamische Preisgestaltung für Einzelhandel und E-Commerce
- Alternative Echtzeitdaten für Investmentfonds
- KYC-Prozess im Geschäftsbankwesen
- KI-Modelltraining oder Feinabstimmung
- KI-Inferenz oder RAG
- Marktforschung
Mit KI sind Webdaten jetzt wichtiger
Obwohl die Erfassung von Webdaten so alt ist wie das Web selbst, hat ihre Bedeutung nach dem Aufkommen generativer KI-Modelle drastisch zugenommen. Entwickler dieser Modelle wie beispielsweise OpenAI und Anthropic begannen ohne nennenswerte Content-Partnerschaften und nutzten hauptsächlich Online-Daten für ihre ersten Modelle, was zum Aufstieg der Billionen-Dollar-KI-Industrie führte.
Begrenzte Regulierungsaufsicht
Obwohl die Regulierung von KI im Fokus steht, ist die Datenerfassungsbranche in den meisten Ländern weiterhin weitgehend unreguliert. Illegale Online-Aktivitäten sind klar definiert. Allerdings gibt es nur wenige regulatorische Anforderungen an die Akteure der Branche, um den Missbrauch ihrer Dienste durch Nutzer proaktiv zu verhindern.
Es obliegt den Plattformen selbst, Best Practices und Compliance-Standards festzulegen, um eine ethische Datenerfassung und -nutzung zu gewährleisten. Daher ist die Wahl des Anbieters bei der Datenerfassung wichtiger als in stark regulierten Branchen wie dem Bankwesen, wo jeder Dienstleister zahlreiche Vorschriften einhalten muss.
Die ethische Haltung Ihrer Lieferanten ist Teil des Rufs Ihres Unternehmens.
Unabhängig davon, ob Sie die Daten sammeln oder nutzen, sind Sie für den Datenerfassungsprozess verantwortlich.
Die Verantwortung von Unternehmen für rechtswidrige Aktivitäten in ihrer Lieferkette hängt vom jeweiligen Rechtsraum ab. In Deutschland beispielsweise sind Unternehmen verpflichtet, KYS-Maßnahmen (Know Your Customer) und Risikomanagement durchzuführen, um Schäden in ihrer Lieferkette zu erkennen und zu verhindern. Selbst wenn Unternehmen nicht für Schäden in ihrer Lieferkette verantwortlich sind, können sie Reputationsrisiken ausgesetzt sein.
Welche Kosten entstehen durch unethische und nicht regelkonforme Datenerhebung?
Reputationsrisiko
Wird bekannt, dass ein Unternehmen einen Web-Datenerfassungsdienst nutzt, der unethische Praktiken anwendet oder Handlungen vornimmt, die die Datensicherheit gefährden, kann dies zu erheblichen Reputationsschäden führen, wie etwa Geschäftsverlusten, Kundenabwanderung, Abwanderung von Fachkräften und Verlust des Vertrauens der Investoren.
Beispiele aus der Praxis, die zu Reputationsverlusten durch Zulieferer von Unternehmen geführt haben:
- Nike hat aufgrund unethischer Arbeitspraktiken seiner Zulieferer bereits mehrfach Reputationsschäden erlitten. 1
- Viele Unternehmen wie EY verloren das Vertrauen ihrer Kunden, als sie von der Sicherheitslücke bei der MOVEit -Software für verwaltete Dateiübertragung betroffen waren. 2
Rechtliches Risiko
Auf einen Reputationsverlust, insbesondere wenn er zu öffentlicher Empörung führt, folgen typischerweise Klagen von Kunden des Unternehmens oder anderen Interessengruppen, die durch die unethischen Praktiken geschädigt wurden.
Ein Beispiel aus der Praxis: Starbucks ist eine der jüngsten Marken, die wegen der Beschaffung von Waren von Unternehmen mit unethischen Geschäftspraktiken verklagt wurden. 3
Checkliste für ethische Webdaten
Unternehmenswebdaten müssen drei Anforderungen erfüllen, um ethisch vertretbar zu sein:
Ethische Nutzung durch Kunden
Im Rahmen ihrer Lieferantenprüfungsprozesse vermeiden Unternehmen die Nutzung von Diensten, die unethische Aktivitäten ermöglichen. Die Nutzung solcher Dienste birgt die Gefahr von Reputationsschäden.
Beispiel aus der Praxis: In Fällen, in denen ein Anbieter nachweislich die Nutzung seiner Plattform für unethische Aktivitäten zuließ, distanzierten sich zahlreiche Unternehmen von dem Anbieter, bis dieser seine Praktiken verbesserte. 4
Bezug zu Webdaten: Webdaten werden über verschiedene IP-Adressen erfasst. Diese Adressen können für diverse illegale Aktivitäten missbraucht werden, beispielsweise für DDoS-Angriffe, um die Bereitstellung digitaler Dienste zu verhindern, die unbefugte Erfassung nicht-öffentlicher Daten oder Anzeigenbetrug. Kriminelle benötigen IP-Adressen für ihre Aktionen, und Anbieter von Webdateninfrastruktur bzw. Proxys sind die größten Lieferanten von IP-Adressen für Endnutzer.
Ethische Versorgung
Dienstleistungen, die eigentlich ethischen Zwecken dienen, können während ihrer Durchführung zu unethischen und schädlichen Handlungen führen. So erlitten beispielsweise Marken wie Nike und Nestlé Reputationsschäden und sahen sich Klagen ausgesetzt, weil ihre Auftragnehmer Kinderarbeit einsetzten.
Wie dies mit Webdaten zusammenhängt:
Unternehmen benötigen Zugriff auf eine große Anzahl und vielfältige Bandbreitenquellen für die schnelle und globale Datenerfassung. Dies erfordert den Einsatz von Residential Proxies: Die Erfassung öffentlicher Daten ist zwar unter vielen Bedingungen legal, Websites können zudem bestimmte Besuchergruppen blockieren. Beispielsweise können sie die Crawler ihrer Konkurrenten aussperren. In solchen Fällen sind Unternehmen auf eine große Anzahl von Verbindungen von Endnutzern oder anderen Drittanbietern angewiesen 5 um Webdaten zu sammeln.
Proxy-Anbieter sammeln Millionen von Internetverbindungen aus verschiedenen Quellen und stellen sie Unternehmen zur Verfügung, die mithilfe von IP-Adressen auf diese Verbindungen zugreifen. Einige dieser IP-Adressen stammen von Endgeräten privater Nutzer. Das Sammeln dieser Verbindungen kann legal oder illegal sein.
- Rechtlich: Rechtlich konforme Praktiken umfassen die Einholung der informierten Einwilligung der Nutzer, die Zahlung einer Entschädigung und das Anbieten von Opt-out-Mechanismen gemäß den lokalen Vorschriften. Der Webdatenanbieter sollte
- Informieren Sie die Nutzer darüber, wie ihre Bandbreite genutzt wird.
- Holen Sie ihre Zustimmung digital ein.
- Entschädigen Sie sie im Gegenzug
- Ermöglichen Sie ihnen, sich jederzeit abzumelden.
- Illegal: Angreifer können sich ohne Erlaubnis oder Entschädigung Zugriff auf die Geräte der Nutzer verschaffen und deren Internetverbindung nutzen. Dies kann durch Schadsoftware, kompromittierte Geräte, getarnte Installationen, automatische Anmeldungen und andere Methoden geschehen, die den Gerätebesitzer gefährden.
Unternehmen, die illegal beschaffte Proxys verwenden, können unabsichtlich Kriminelle für den unerlaubten Zugriff auf Geräte bezahlen.
Beispiele aus dem realen Leben:
- Router und IoT-Geräte wurden für Botnetzoperationen kompromittiert und als Residential Proxies verkauft. 6 7
- Bestimmte Proxy-Anbieter bewerben ihre Dienste in Foren, die von Betrügern frequentiert werden. Diese IP-Adressen stammen höchstwahrscheinlich aus illegalen Quellen. 8
- VPN-Apps aus dem Play Store (Google) wurden auch dazu verwendet, ohne Zustimmung des Nutzers private IP-Adressen zu erlangen. 9
Obwohl diese Operationen eingestellt wurden, ist es wahrscheinlich, dass Angreifer weiterhin ohne Zustimmung auf private IP-Adressen zugreifen, und zwar über Botnetze und kompromittierte oder bösartige Anwendungen.
Externe Zertifizierung
Unternehmenskunden benötigen sichere, unternehmensgerechte Lösungen. Wir haben die Bestandteile einer ausgereiften Webdatenorganisation identifiziert, die durch externe Zertifizierung dokumentiert werden kann:
Datensicherheit
Mangelnde Datensicherheit in den Systemen von Zulieferern kann den Wettbewerbsvorteil eines Unternehmens beeinträchtigen oder zu Datenverlust und Systemausfällen führen. Der Verlust der Systemfunktionalität kann das Vertrauen untergraben und zur Abwertung eines Unternehmens beitragen.
Systemangriff
Datenerfassungsdienste sind nicht so tief in die Systeme eines Unternehmens integriert wie zentrale digitale Dienste (z. B. ein zentrales Datenerfassungssystem wie CRM). Daher werden ihre Sicherheitsmerkmale nicht so gründlich geprüft wie die eines zentralen Datenerfassungssystems. Datensicherheit ist jedoch für die Kunden von Datenerfassungsdiensten von entscheidender Bedeutung, da diese Dienste:
- Werden manchmal in zentralere Systeme wie Preisberechnungssysteme integriert.
- Kann Unternehmenssysteme infizieren, selbst wenn sie nicht in diese integriert sind. Die Nutzung eines Datenerfassungsdienstes beinhaltet den Empfang von Daten von diesem Dienst. Selbst einige der sichersten Formen der Datenübertragung bergen Risiken.
Systemangriffe können Angreifer auch dazu veranlassen, die Geräte ins Visier zu nehmen, die Proxy-Diensten private IP-Adressen bereitstellen. Dies kann dem Ruf der Kunden dieser Proxy-Dienste schaden.
Beispiel einer realen Sicherheitslücke bei einem Anbieter von Wohnwohn-Proxys :
Die Betreiber des Kimwolf-Botnetzes erwarben Proxy-Dienste vom Residential-Proxy-Anbieter IPIDEA. Mithilfe von Schadcode infizierten sie die internen Netzwerke der Geräte, die IP-Adressen an IPIDEA lieferten. Diese Netzwerke wurden anschließend gescannt, und weitere anfällige Geräte in diesen lokalen Netzwerken wurden ebenfalls infiziert.
Schätzungen zufolge hat sich Kimwolf mit dieser Methode auf mehr als 2 Millionen Geräte verbreitet. Auch die von IPIDEA-Kunden erfassten Daten flossen über diese infizierten Netzwerke. 10
Datenverlust
Ohne Datensicherheit können Angreifer Zugang zu den von Unternehmen gesammelten Daten erlangen, um deren Aktivitäten und Strategien zu ermitteln, was zu einem Verlust von Wettbewerbsvorteilen oder Geschäftsmöglichkeiten führen kann.
Beispiel aus dem realen Leben:
Obwohl Webdaten öffentlich zugänglich sind, können Unternehmen sie auf innovative Weise nutzen, um sich Wettbewerbsvorteile zu verschaffen. Beispielsweise investieren Investoren bis zu 10 % ihres Budgets für Marktdaten in alternative Datenquellen. 11 , doch sie legen ihre Strategien selten offen, da sie glauben, sich dadurch einen Wettbewerbsvorteil zu verschaffen. Ein Datenleck könnte dazu führen, dass ihre Strategien aufgedeckt und somit von ihren Konkurrenten kopiert werden.
PII-Management
Webdaten umfassen private Daten, die hinter Anmeldeinformationen verborgen sind, oder personenbezogene Daten (PII), die versehentlich oder absichtlich auf öffentlichen Websites offengelegt werden können. Wenn Webdatenerfassungsdienste personenbezogene Daten nicht ordnungsgemäß verwalten, können diese Daten in die Hände von Kriminellen gelangen. Dies kann zu Reputationsschäden für den Webdatenerfassungsdienst und seine Kunden führen.
Anwendungssicherheit
Anwendungen oder Zwischenprogramme wie SDKs, die die IP-Adressen von Webdatenerfassungsdiensten nutzen, können von externen Zertifizierungsanbietern wie McAfee auf eine Whitelist gesetzt werden. Dies stärkt das Vertrauen von Unternehmen in die ethischen Geschäftspraktiken des Webdatenerfassungsdienstes.
Versicherungsschutz
Unternehmen verlangen diese Versicherungen üblicherweise von allen digitalen Anbietern:
- Berufshaftpflichtversicherung
- Cyberversicherungszertifikat
Detaillierter Benchmark: Bewertung von Anbietern von Webdateninfrastruktur
Benchmark: Ethische Nutzung durch Kunden
Hier wollen wir die Frage beantworten: Stellt das Unternehmen sicher, dass die Nutzung seiner Lösung ethisch vertretbar und im Einklang mit geltenden Gesetzen und Vorschriften erfolgt? Zusammenfassung unserer Ergebnisse:
* Nicht zutreffend: Da Zyte und Apify Proxys von ihren Lieferanten kaufen und sie nicht direkt von privaten Nutzern einholen, würden sie von Website-Betreibern bezüglich Missbrauchs nicht kontaktiert werden und müssten daher kein Kontaktformular für Websites erstellen.
Zunächst haben wir die Richtlinien überprüft:
Überprüfung der Richtlinie zur akzeptablen Nutzung
Alle Anbieter verbieten illegale Aktivitäten und nennen Beispiele wie DoS-Angriffe, unerwünschte Massennachrichten, Identitätsdiebstahl oder Spoofing.
Darüber hinaus weisen einige Anbieter darauf hin, dass sie Aktivitäten verbieten, die wahrscheinlich illegal sind. Nachfolgend listen wir die verbotenen Aktivitäten gemäß den Nutzungsrichtlinien und deren Anhängen (z. B. dem Datenverarbeitungszusatz) der einzelnen Anbieter auf.
Wir suchten nach Begriffen, die Aktivitäten verbieten, die wahrscheinlich illegal sind und anhand der Nutzeraktivität identifiziert werden können. Beispielsweise könnte ein erheblicher Anteil der Nutzer, die Proxys für bezahlte Umfragen verwenden, diese nutzen, um die Umfrageanbieter über ihren tatsächlichen Standort zu täuschen. Daher ist diese Aktivität wahrscheinlich illegal und kann anhand der Nutzeraktivität (z. B. beim Einloggen auf einer Website für bezahlte Umfragen) identifiziert werden.
Obwohl die klare Kennzeichnung verbotener Aktivitäten hilfreich ist, ist sie keine Pflicht und hat keinen Einfluss auf unsere Bewertung. Unternehmen können beispielsweise angeben, dass sie illegale Aktivitäten nicht dulden, anstatt jeden einzelnen Fall illegaler Aktivitäten aufzulisten.
Die Nennung einer Aktivität als verboten bedeutet nicht, dass diese Aktivitäten überprüft oder blockiert werden. Unsere Bewertungen hängen davon ab, wie diese Richtlinien umgesetzt werden, wie nachfolgend beschrieben:
Prozesse für eine ethische Nutzung
Während einige der in den Richtlinien zur akzeptablen Nutzung aufgeführten Kategorien recht weit gefasst sind (z. B. unautorisiertes Daten-Scraping oder unautorisierter Zugriff), sind andere so spezifisch, dass sie in präventive Maßnahmen umgewandelt werden können (z. B. Sperrung des Zugriffs), die Datenerfassungsdienste für Benutzer umsetzen können, die ihren KYC-Prozess nicht abgeschlossen haben.
Auf Grundlage dieser spezifischen verbotenen Verwendungen erstellten wir eine umfassende Liste von Verwendungen, die wahrscheinlich illegale Proxy-Nutzungen darstellen. Für jeden Anwendungsfall identifizierten wir Szenarien mit relevanten Webdomains und Aktionen. Beispielsweise versuchten wir im Szenario der künstlichen Interaktion in sozialen Medien, uns mithilfe eines Proxys in ein soziales Netzwerk einzuloggen, um einen bestehenden Beitrag zu liken.
Um zu testen, ob Unternehmen unethische Nutzung durch Kunden zulassen, erstellten wir bei jedem Anbieter ein Konto mit einer E-Mail-Adresse, die nicht zu AIMultiple gehörte. Wir führten für dieses Konto keinen KYC-Prozess durch und nutzten die Dienste, um zu verstehen, was anonyme Nutzer mit den jeweiligen Diensten erreichen können. KYC ist ein entscheidender Schritt, bei dem der Nutzer Daten zur Bestätigung der von ihm vertretenen juristischen Person angibt. Dadurch wird die Nutzeraktivität einer juristischen Person zugeordnet.
- Das kann zur Rechenschaft gezogen werden.
- Die Gründe für Online-Aktivitäten (z. B. die Nutzung von Proxys zum Einloggen auf Regierungswebseiten) können überprüft werden. So kann beispielsweise einem Forscher oder einer Regierungsbehörde nach Klärung ihres Anwendungsfalls die Anmeldung auf einer Regierungswebseite mithilfe eines Proxys gestattet werden.
Wir erwarteten, dass diese Anwendungsfälle einen KYC-Prozess auslösen würden, doch bei den meisten Anbietern geschah dies nicht. Ein Häkchen zeigt an, dass die Anfrage für Benutzer blockiert wurde, die den KYC-Prozess noch nicht abgeschlossen haben.
Zur Klarstellung: Datenerfassungsdienste sind nicht rechtlich verpflichtet, diese Websites zu sperren, und manche dieser Szenarien können durchaus legal sein. Beispielsweise könnte ein Forscher Proxys nutzen, um ein kontrolliertes Social-Media-Experiment durchzuführen. Angesichts des Missbrauchspotenzials in diesen Szenarien erwarteten wir jedoch, dass Datenerfassungsdienste diese für Nutzer sperren, die den KYC-Prozess noch nicht abgeschlossen haben.
Wie Marken die von ihnen blockierten Domains kommunizieren
- Bright Data listet in seiner Richtlinie zur akzeptablen Nutzung eingeschränkte Domänenkategorien auf.
Die Präferenzen von Websites hinsichtlich der automatisierten Datenerfassung respektieren
Was ist robots.txt?
robots.txt ist eine Datei zur Implementierung des Robots Exclusion Protocol (ROP). Webseiten nutzen dieses Protokoll, um Bereiche ihrer Webseite zu kennzeichnen, die von Bots nicht besucht werden sollen. Die Einhaltung der robots.txt-Datei ist freiwillig.
Vor- und Nachteile der Einhaltung der robots.txt-Datei
➕ Respektiert die Website-Einstellungen.
➖ Möglicherweise nicht aktuell und daher veraltet.
➖ Es handelt sich dabei typischerweise um Formulierungen, die darauf hinweisen, dass der Website-Inhaber es vorzieht, dass bestimmte öffentliche Bereiche der Website nicht von Bots aufgerufen werden.
Die robots.txt-Datei kann auch zu ungleichem Zugriff für Bots führen. Beispielsweise können Website-Betreiber festlegen, dass Bots von Antwortdiensten bestimmte URLs nicht besuchen sollen, die von Suchmaschinen-Bots besucht werden.
Die robots.txt-Datei ist kein Rechtsdokument und kann die Blockierung des Bot-Zugriffs auf Seiten beantragen, die rechtmäßig sind:
- zum Auslesen erlaubt (z. B. öffentliche Daten) oder
- Daten, die nicht ausgelesen werden dürfen (z. B. Daten hinter einem Login, deren Nutzungsbedingungen das Auslesen solcher Daten untersagen).
Anbieter von Webdatenerfassungsdiensten können von Nutzern von Residential-Proxys verlangen, dass sie einen KYC-Prozess abschließen und nachweisen, dass sie einen rechtmäßigen und ethischen Anwendungsfall haben, bevor diese Nutzer robots.txt ignorieren können.
Zum Testen sendeten wir Anfragen an Seiten in Unterordnern, die laut robots.txt blockiert werden sollen. Wir verwendeten die Domains aimultiple.com und fünf weitere Domains aus den 100 meistbesuchten Webseiten. Nur die Domain Bright Data blockierte diese Anfragen.
CNN-Beispiel
Die robots.txt-Datei von CNN blockiert den Ordner /terms 12 Zu Testzwecken navigierten wir mit Residential-Proxys zu diesem Ordner und erhielten von allen Anbietern außer Bright Data 200-Nachrichten mit den Seitendaten. Die Antwort von Bright Data lautet: „ Residential Failed (bad_endpoint): Requested site is not available for immediate residential (no KYC) access mode according to robots.txt. To get full residential access for targeting this site, fill the KYC form: https://brightdata.com/cp/kyc “ .
Missbrauchsmanagement
Wir haben eine Methodik zur Bewertung der Missbrauchsmanagementpraktiken von Anbietern entworfen und Daten gesammelt, um unsere Bewertungskriterien zu erfüllen:
* Nicht zutreffend: Zyte kauft Proxys von anderen Proxy-Anbietern. Wenn der Dienst von Zyte missbräuchlich verwendet wird, würden sich die Website-Betreiber daher eher an die Proxy-Anbieter als an Zyte wenden.
Obwohl alle Anbieter Möglichkeiten zur Kontaktaufnahme durch Dritte oder ihre Kunden bereitstellen, sind diese für die Problemlösung wichtig:
- Politik zum Missbrauch öffentlicher Güter
- Eine spezielle E-Mail-Adresse zur Meldung von Missbrauch
- Eine alternative Kontaktmöglichkeit (z. B. Webformular oder Messenger), über die Journalisten das Unternehmen erreichen können. Dies ist hilfreich, da E-Mails gefiltert werden und möglicherweise nicht im Posteingang ankommen.
- Reaktionsfähigkeit auf Nachrichten
Drei Anbieter im Vergleichsindex (Bright Data) stellten eine E-Mail-Adresse zur Meldung von Missbrauchsfällen bereit. Alle diese Anbieter veröffentlichten außerdem ihre Richtlinien in dieser Domain.
Wir gehen davon aus, dass alle anderen Anbieter dem Beispiel folgen werden und dass sich dies kurzfristig zu einer branchenweit verbreiteten Praxis entwickeln wird.
Abschließend evaluierten wir die Reaktionsfähigkeit des Missbrauchsmanagements, indem wir Missbrauchsmeldungen von Drittanbieter-Domains (d. h. nicht von AIMultiple) per E-Mail versendeten und die Antwortzeiten maßen. Konnten wir keine E-Mail-Adresse für Missbrauchsmeldungen finden, leiteten wir die Meldung über das allgemeine Kontaktformular weiter. Wir testeten dies mit drei E-Mail-Serien, die an folgende Orte versendet wurden:
- Freitag, 2. Mai 2025 von:
- Ein Ticketverkaufsdienst mit monatlich rund 30.000 Besuchern
- Eine Anwaltskanzlei mit monatlich ca. 1000 Besuchern in
- Ab dem 17. Mai 2025 vom Ticketverkaufsdienst.
- 24. Mai 2025 von einer Social-Media-Agentur mit geringem Online-Traffic.
Die ersten E-Mails wurden am 2. Mai 2025 an Unternehmen versandt, die eine dedizierte E-Mail-Adresse angegeben hatten. Später erweiterten wir unsere Liste um allgemeinere E-Mail-Adressen, die in den Kontaktbereichen aller untersuchten Web-Datenerfassungsdienste aufgeführt waren. Sobald ein Unternehmen auf unsere E-Mails reagierte, stellten wir den Versand weiterer E-Mails ein.
In unseren E-Mails erwähnten wir, dass unsere Websites mutmaßlichen Bot-Traffic über Proxys erhielten, und baten um Unterstützung bei der Identifizierung der Proxy-Quelle. Bis auf eines antworteten uns alle Compliance-Teams. Fast alle Antworten gingen noch am selben Tag ein.
Nutzungstransparenz
Websitebetreiber, die Webdaten- und Weberfassungsdienste anbieten, haben bisher keinen Datenaustausch über ihre Datenerfassungsaktivitäten geführt. Um Crawling-Aktivitäten einzuschränken, haben Websitebetreiber folgende Möglichkeiten:
- Wenden Sie sich an Web-Datenerfassungsdienste, um Missbrauch zu melden.
- Arbeiten Sie mit Bot-Management-Anbietern wie Cloudflare zusammen, um das Crawling zu erschweren.
Es gibt nun Initiativen für einen strukturierteren Datenaustausch zwischen diesen Parteien. Die Webmaster-Konsole wurde eingeführt, damit Webmaster die Crawling-Aktivitäten ihrer Websites überwachen können. Mehr Transparenz dürfte die Praktiken der Webdatenerfassung verbessern.
Unsere Erfahrungen mit der Webmaster-Konsole
Wir haben uns angemeldet, indem wir unsere Domaininhaberschaft verifiziert und eine collectors.txt-Datei auf der Domain hinzugefügt haben.
Wir haben nun Zugriff auf die Bot-Aktivitäten von Bright Data auf unserer Website:
Benchmark: Ethische Versorgung
* Bewertungen auf folgenden Drittanbieterplattformen wurden berücksichtigt: Amazon Appstore, App Store, Google Play Store, Trustpilot. Der Einfachheit halber wurde dieser Wert für die 5 wichtigsten Apps von Google Play berechnet, nicht für alle 120 Apps, die auf der Website angeboten werden.
Partnertransparenz
Die von Unternehmen der Web-Dateninfrastruktur benötigte Bandbreite kann auf ethische Weise bereitgestellt werden, indem Vorteile (z. B. Zahlungen, Funktionen wie das Überspringen von Werbung) im Austausch für die Zustimmung zur gemeinsamen Nutzung der Internetverbindung angeboten werden. Es ist jedoch auch möglich, sich unbefugten Zugriff auf die Systeme von Endnutzern zu verschaffen und deren Verbindungen zu verkaufen.
Anbieter von Webdateninfrastrukturen können Richtlinien und Prozesse entwickeln, externe Audits durchführen und ihre Vorgehensweise sowie die Ergebnisse der Audits veröffentlichen, um Transparenz hinsichtlich ihrer Internetverbindungen zu schaffen. Dies kann das Vertrauen in die ethische Bereitstellung ihrer Dienste stärken.
Wir haben ein Rahmenwerk für Transparenz auf der Angebotsseite von Webdaten entwickelt und Anbieter anhand dieses Rahmenwerks bewertet. Wir haben dieses Rahmenwerk unabhängig davon angewendet, ob ein Webdatenerfassungsdienst Wohn-IPs selbst oder über andere Proxys bezieht. Unser Ziel ist es, Transparenz in die gesamte Lieferkette von IPs zu bringen, da unethische Praktiken an jedem Punkt dieser Lieferkette ihren Ursprung haben können.
Hier finden Sie unsere detaillierten Ergebnisse:
Bright Data
Bright Data ist als Stufe 5 eingestuft, da sie veröffentlichen
- Ihr Beschaffungsansatz und wie App-Entwickler über ihr SDK mit ihnen zusammenarbeiten können. 13 14
- Details zu 120 Lieferanten wurden öffentlich zugänglich gemacht. Wir konnten Bewertungen dieser Lieferanten auf Drittanbieterplattformen überprüfen, um deren Beliebtheit einzuschätzen. 15
Rezension ausgewählter Apps
Bright Data bietet auf seiner Website 120 Apps an. Apps wie Bright VPN sind hinsichtlich ihrer Offenlegungspflichten und Benutzerfreundlichkeit von Drittanbietern zertifiziert. 16 Wir haben diese Apps auch heruntergeladen, um sie genauer anzusehen:
- Bright VPN
- EarnApp
- Sling Kong
Opt-in-Formular mit der Verpflichtung, keine personenbezogenen Daten zu erheben: Einwilligungsformular mit klarer Erläuterung von Bright VPN:


Verdienen-App:

Sling Kong:
- Dem Nutzer wird das Angebot während des Spiels präsentiert:

- Opt-in:

- Zusätzliche Informationen während des Anmeldevorgangs:

- Opt-out:


Nutzen der Apps:
- Bright VPN: Kostenloser VPN-Dienst
- EarnApp: Zahlungen
- Sling Kong: Virtuelle In-Game-Währung
Andere
Die meisten Anbieter sind sich der ethischen Grundsätze beim Web-Scraping bewusst und haben zu diesem Thema publiziert (z. B. 17 , wir haben ihre spezifischen Verpflichtungen in diesem Bereich nicht identifiziert, außer für Zyte. 18
Wir gehen davon aus, dass sich dies ändern wird und die meisten Anbieter kurzfristig mindestens auf Stufe 1 umsteigen werden.
Externe Zertifizierung
* Kennzeichnet, dass das Unternehmen alle externen Zertifizierungen in dieser Kategorie erhalten hat.
Für Anbieter ist es unerlässlich, über die richtigen Systeme, Mitarbeiter und Prozesse zu verfügen, um Kundendaten zu schützen und die Anwendungen, die deren geistiges Eigentum bereitstellen, abzusichern. Unsere externe Zertifizierungsmethodik erläutert die Logik unserer Bewertung.
DSGVO- und CCPA-Konformität
Alle Anbieter geben öffentlich an, beide Datenschutzbestimmungen einzuhalten. Daher wurde dies bei der Bewertung nicht berücksichtigt.
Wie wir den Reifegrad von Organisationen gemessen haben
Auf Grundlage der in diesem Bereich identifizierten Fähigkeiten haben wir bei jedem Anbieter anhand seiner öffentlichen Erklärungen die Existenz dieser Zertifikate überprüft:
- Datensicherheitszertifizierung & PII-Zertifizierung: 19 20 21 22 23
- IP-Quelle auf der Whitelist: 24
- Bewertete ethische Praktiken: 25
Einige Anbieter ohne ISO-27018-Zertifikat argumentierten, sie sollten als zertifiziert gelten, da sie Cloud-Dienstleister mit ISO-27018-Zertifikat nutzen. Unser Cybersicherheitsberater vertrat die Ansicht, dass dies zwar die Zertifikatserlangung erleichtern würde, die Zertifizierung ihrer Richtlinien und Kontrollen aber dennoch erforderlich sei.
Versicherungsschutz
Drei Unternehmen, die Webdaten sammeln, haben ihre Versicherungszertifikate zur Verfügung gestellt. Wir veröffentlichen keine Zertifikate, haben die Dokumente aber geprüft, um sicherzustellen, dass
- Sie deckten diese beiden Versicherungskategorien ab.
- Die Versicherungssumme beträgt in jeder Kategorie mindestens mehrere Millionen US-Dollar.
Haftungsausschlüsse und Empfehlungen für die nächsten Schritte
Alle Anbieter in diesem Benchmark außer Nimble sind Kunden von AIMultiple. Wie immer haben wir bei dieser Studie unsere ethischen Verpflichtungen eingehalten.
Wir haben eine umfassende Überprüfung der ethischen Datenerhebung im Internet abgeschlossen und sind zwar mit dem Umfang dieses Benchmarks zufrieden, würden uns aber über eine Ausweitung der Beteiligung freuen. Wir danken den folgenden Unternehmen für die Bereitstellung ihrer Versicherungsdaten: Apify, Bright Data, Zyte.
Wir warten auf eine Antwort von NetNut (Nimble). Sobald wir weitere Informationen erhalten, aktualisieren wir den Bericht. Zwei Anbieter haben sich entschieden, an dieser Benchmark-Runde nicht teilzunehmen. Wir aktualisieren diesen Bericht regelmäßig, sobald eines der sieben Unternehmen faktenbasierte und für alle Anbieter faire Änderungsvorschläge unterbreitet, die Unternehmen bei besseren Entscheidungen unterstützen.
Dies ist nach unseren Recherchen der erste Bericht, der sich mit ethischen Webdaten befasst. Wir hoffen, dass diese Transparenz der Webdatenbranche helfen kann, kreative Lösungen für ihre Herausforderungen zu finden. Diese Lösungen müssen die Interessen von Webdatensammlern, Nutzern von Webautomatisierung, Website-Betreibern und privaten Nutzern, die ihre IP-Adressen der Branche zur Verfügung stellen, in Einklang bringen.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.