Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Benchmark für ethische und konforme Webdaten

Cem Dilmegani
Cem Dilmegani
aktualisiert am Jan 27, 2026
Siehe unsere ethischen Normen

Mit der Ausweitung der Webdatenoperationen von Unternehmen bewerten Verantwortliche für Compliance, Daten und Risikomanagement zunehmend die damit verbundenen ethischen, reputationsbezogenen und rechtlichen Risiken .

Wir haben fünf führende Web-Datenerfassungsdienste anhand von drei Dimensionen verglichen und jeden Dienst mit mehr als 20 potenziell unethischen Szenarien getestet.

Unsere Arbeit unterstützt Sie bei der Bewertung der ethischen Vertretbarkeit Ihrer Datenerfassungspraktiken und beim Verständnis der potenziellen Folgen unethischer Vorgehensweisen . Wir bieten außerdem Leitlinien für die ethische Datenerfassung im Web und bewerten Weberfassungsdienste unter ethischen und Compliance-Aspekten.

Bewertung von Web-Datenerfassungsdiensten

Wir haben führende Webdatenerfassungsdienste (auch Webdatenanbieter oder Webdateninfrastruktur genannt) anhand unserer Checkliste für ethische Webdaten bewertet. Diese Bewertungen stellen Reifegrade dar, wobei 5 den höchsten Grad darstellt:

Anbieter
Zusammenfassung
Ethische Nutzung von Kunden
Ethisch liefern
Externe Zertifizierung
Versicherungsschutz geteilt**
Bright Data
Stufe 5
Stufe 5
Stufe 5
Datensicherheit, Verarbeitung personenbezogener Daten. IP-Quellen auf der Whitelist. Ethische Praktiken werden bewertet.
Apify
Stufe 1
Stufe 1
Stufe 1
Datensicherheit
Zyte
Stufe 1
Stufe 1
Stufe 1
Datensicherheit
NetNut
Stufe 1
Stufe 1
Stufe 0
Datensicherheit
TBD
Nimble
Stufe 1
Stufe 1
Stufe 0
Datensicherheit

* Dies sind Codes für Lieferantennamen. Diese Lieferanten wollten in diesem Bericht nicht genannt werden und sind bis zur Klärung dieses Problems am Ende der Liste aufgeführt.

** ✅ bedeutet, dass das Unternehmen seine Versicherungszertifikate mit AIMultiple geteilt hat. ❌ bedeutet, dass das Unternehmen seine Versicherungszertifikate nicht mit uns geteilt hat und wir daher den Versicherungsschutz nicht überprüfen konnten. Der Versicherungsschutz ist die einzige Kategorie, in der wir die Teilnahme von Webdatendiensten zur Bewertung herangezogen haben.

Sortiert nach Gesamtpunktzahl.

Bewertungsmodell für ethische Webdaten

Im Folgenden erläutern wir, wie diese Punktzahlen ermittelt werden. Sie können auch die Gründe für die Auswahl dieser Bewertungsdimensionen einsehen.

In den ersten beiden Kategorien haben wir fünf Kompetenzen identifiziert. Die Unternehmen erhielten Punktzahlen basierend auf der Anzahl der von ihnen erfüllten Kompetenzen. Stufe 5 repräsentiert den höchsten Reifegrad im Markt und spiegelt aktuelle Best Practices wider, nicht Perfektion.

Möglichkeiten zur ethischen Nutzung durch Kunden

  • Wirksame Prozesse für die ethische Nutzung: Wir bewerten die Fähigkeit jedes Anbieters, den unethischen Gebrauch seiner Proxy-Dienste für Privatanwender durch kontrollierte Testszenarien zu verhindern. Wenn eine unserer Anfragen vom Anbieter blockiert wird, gilt dies als erreicht.
  • Verbesserte Prozesse für ethische Nutzung: Ähnlich wie „effektive Prozesse für ethische Nutzung“. Diese Funktion bedeutet jedoch, dass der Dienstanbieter mehrere unserer Versuche, seine Dienste für unethische Zwecke zu nutzen, blockiert hat.
  • Bewährte Verfahren für die ethische Nutzung: Ähnlich wie „effektive Verfahren für die ethische Nutzung“. Diese Fähigkeit bedeutet jedoch, dass der Dienstanbieter die meisten unserer Versuche, seine Dienste für unethische Zwecke zu nutzen, blockiert hat.
  • Stiftung zum Umgang mit Missbrauch : Veröffentlichung einer Richtlinie zum Umgang mit Missbrauch und eines Verfahrens zur Meldung von Missbrauch
  • Reaktionsschnelles Missbrauchsmanagement : Wir haben untersucht, wie Unternehmen auf mehrere Missbrauchsmeldungen reagierten. Auch wenn keine Hotline für Missbrauchsmeldungen existierte, nutzten wir die vom Unternehmen angegebenen E-Mail-Adressen, um das zuständige Team zu kontaktieren. Erhielten wir innerhalb einer Woche keine Antwort auf unsere Meldung, gingen wir davon aus, dass das Unternehmen nicht reagierte.

Fähigkeiten zur ethischen Versorgung

Ethische IP-Adressbeschaffung bedeutet, IP-Adressen auf ethische Weise zu erwerben. Unsere Marktanalyse hat die folgenden Transparenzstufen hinsichtlich der ethischen IP-Adressbeschaffung ermittelt:

  • Stufe 1 : Veröffentlichte Richtlinie zur IP-Quellenwahl.
  • Stufe 2: Es wurde mindestens eine Quelle (z. B. eine mobile App) für geistiges Eigentum offengelegt, die dieses auf ethische Weise bereitstellt. Die offengelegte Quelle sollte insgesamt mindestens 10.000 Bewertungen auf Drittanbieterplattformen aufweisen, darunter Apple App Store, Amazon Appstore und Trustpilot.
  • Stufe 3: Wie Stufe 3, jedoch mit 100.000 Bewertungen
  • Stufe 4: Wie Stufe 3, jedoch mit 1 Million Bewertungen
  • Stufe 5: Wie Stufe 4, jedoch mit 10 Millionen Bewertungen

Rezensionen sind ein Indikator für die Beliebtheit von Apps und ein wichtiges Signal für diese Bewertung. Web-Datenerfassungsdienste müssen mit beliebten Anwendungen zusammenarbeiten, um die IP-Anforderungen ihrer Kunden zu erfüllen.

Zur Qualifizierung sollten die offengelegten Apps diese Best Practices befolgen. Wir werden dies nicht für jede offengelegte App überprüfen, sondern nur für einige zufällig ausgewählte:

  • Einverständniserklärung:
    • Nutzer müssen sich aktiv anmelden, bevor sie ihre Internetverbindung freigeben dürfen. Der Anmeldebildschirm sollte Folgendes enthalten:
      • Der Anbieter
      • Der Service
      • Wie ihre IP-Adresse verwendet wird
    • Nutzer sollten auf detaillierte Informationen zugreifen können über
      • Wie ihre Internetverbindung genutzt wird
      • Datenschutzrichtlinie
  • Nutzen: Die Nutzer müssen einen Nutzen aus der App ziehen (z. B. Bezahlung, Möglichkeit, Werbung zu überspringen oder andere Funktionen).
  • Datenschutz: Begrenzte und transparente Erhebung von Nutzerdaten.

Externe Zertifizierung

Wir bewerteten externe Zertifizierungen danach, ob die Unternehmen diese Zertifikate erworben haben, die für Sicherheit und Compliance auf Unternehmensebene relevant sind.

  • PII-Zertifizierung: Nachgewiesene Fähigkeit zum Umgang mit personenbezogenen Daten durch den Erwerb der ISO 27018-Zertifizierung
  • Zertifizierung der Datensicherheit: Nachweisliche Einhaltung der Datenschutzbestimmungen durch den Erwerb eines der folgenden Zertifikate: SOC 2 oder ISO/IEC 27001
  • IP-Quelle auf der Whitelist: Externe Zertifizierungsanbieter wie McAfee zertifizieren entweder:
    • Bestimmte Drittanbieter-Apps, die IPs bereitstellen
    • SDK zum Sammeln von IPs von Drittanbieter-Apps
  • Evaluierung ethischer Praktiken : Zur Evaluierung interner Compliance- und Ethikpraktiken kann ein ISAE 3000-Assurance-Projekt durchgeführt werden.

Versicherung

Wir haben die Lieferanten gebeten, uns diese Versicherungsdokumente zur Verfügung zu stellen:

  • Bescheinigung über eine Berufshaftpflichtversicherung, die den Haftungsanspruch des Anbieters im Falle von Problemen im Zusammenhang mit der Dienstleistung abdeckt.
  • Cyberversicherungszertifikat, das die Haftung von Anbietern im Falle von Problemen im Zusammenhang mit der Informationssicherheit abdeckt.

Gesamtergebnis

Diese Punktzahl ergibt sich aus der Summe aller Punktzahlen geteilt durch 3. Die Punktzahlen lauten:

  • 0 bis 5 für die Fähigkeit zur ethischen Nutzung durch Kunden
  • 0 bis 5 für die Fähigkeit zu ethischer Versorgung
  • 0 bis 3 für externe Zertifizierung
  • 0 bis 2 für Versicherungen

Führende Web-Datenerfassungsdienste

AIMultiple hat die sieben größten Web-Datenerfassungsdienste hinsichtlich der Anzahl ihrer Mitarbeiter auf LinkedIn ausgewählt. Wir haben diese Kennzahl gewählt, da sie öffentlich zugänglich ist und mit den Umsätzen und der Enterprise-Reife des Unternehmens korrelieren sollte. Bessere Kennzahlen wie Umsätze oder die Anzahl der festangestellten Mitarbeiter sind für diese privaten Unternehmen nicht öffentlich verfügbar.

Alle ausgewählten Unternehmen haben im April 2025 mehr als 100 Mitarbeiter, die mit ihren LinkedIn-Profilseiten verbunden sind. Aktuell werden 5 der 7 ausgewählten Unternehmen auf dieser Seite angezeigt, die übrigen 2 Unternehmen haben sich entschieden, nicht in den Bericht aufgenommen zu werden.

Web-Datenerfassungsprodukte im Fokus

Diese Unternehmen bieten eine Reihe von Produkten an, darunter Proxys, APIs zum Daten-Scraping und Datensätze. Obwohl alle Produkte unter ethischen Gesichtspunkten betrachtet werden können, konzentrierten wir uns zunächst auf das Produkt, das die größte Flexibilität bietet und die Grundlage für die meisten anderen Produkte bildet: Residential Proxies.

Web-Datenerfassungsprodukte lassen sich als Hierarchie betrachten, in der Proxys die Kernschicht bilden, auf der alle anderen Dienste aufbauen. Proxys ermöglichen es Rechnern, über verschiedene Ziele auf das Internet zuzugreifen und somit eine Vielzahl von Internetverbindungen herzustellen, die für die Datenerfassung unerlässlich sind. Daher sind Proxys das leistungsfähigste Web-Datenerfassungsprodukt und können Funktionen ausführen, die mit Datensätzen oder Web-Scraping-APIs nicht möglich wären.

Unter den Proxys sind Residential-Proxys für Websites am schwersten als solche zu erkennen. Andere Proxys, wie beispielsweise Rechenzentrums-Proxys, sind aufgrund ihres Standorts leicht zu identifizieren. Daher basieren die meisten anderen Webdatenprodukte, wie etwa Data-Scraping-APIs, auf Residential-Proxys.

Überprüfung: Entspricht Ihre Web-Datenerfassung den gesetzlichen Bestimmungen und ethischen Grundsätzen?

Ihr Unternehmen nutzt höchstwahrscheinlich Webdaten. Da die Branche jedoch nur unzureichend reguliert ist, ist die Wahl eines ethisch und regelkonform handelnden Anbieters entscheidend. Um dies zu gewährleisten, haben wir ein umfassendes Rahmenwerk entwickelt, das verschiedene Aspekte der Webdatenerfassung berücksichtigt, darunter ethische Datenbeschaffung, ethische Datennutzung und externe Zertifizierung.

Webdaten sind ein gängiges Betriebsgut.

Als Unternehmen ist Ihr Geschäft teilweise auf Webdaten angewiesen, da diese zahlreiche Anwendungsfälle bieten, wie zum Beispiel:

  • Dynamische Preisgestaltung für Einzelhandel und E-Commerce
  • Alternative Echtzeitdaten für Investmentfonds
  • KYC-Prozess im Geschäftsbankwesen
  • KI-Modelltraining oder Feinabstimmung
  • KI-Inferenz oder RAG
  • Marktforschung

Mit KI sind Webdaten jetzt wichtiger

Obwohl die Erfassung von Webdaten so alt ist wie das Web selbst, hat ihre Bedeutung nach dem Aufkommen generativer KI-Modelle drastisch zugenommen. Entwickler dieser Modelle wie beispielsweise OpenAI und Anthropic begannen ohne nennenswerte Content-Partnerschaften und nutzten hauptsächlich Online-Daten für ihre ersten Modelle, was zum Aufstieg der Billionen-Dollar-KI-Industrie führte.

Begrenzte Regulierungsaufsicht

Obwohl die Regulierung von KI im Fokus steht, ist die Datenerfassungsbranche in den meisten Ländern weiterhin weitgehend unreguliert. Illegale Online-Aktivitäten sind klar definiert. Allerdings gibt es nur wenige regulatorische Anforderungen an die Akteure der Branche, um den Missbrauch ihrer Dienste durch Nutzer proaktiv zu verhindern.

Es obliegt den Plattformen selbst, Best Practices und Compliance-Standards festzulegen, um eine ethische Datenerfassung und -nutzung zu gewährleisten. Daher ist die Wahl des Anbieters bei der Datenerfassung wichtiger als in stark regulierten Branchen wie dem Bankwesen, wo jeder Dienstleister zahlreiche Vorschriften einhalten muss.

Die ethische Haltung Ihrer Lieferanten ist Teil des Rufs Ihres Unternehmens.

Unabhängig davon, ob Sie die Daten sammeln oder nutzen, sind Sie für den Datenerfassungsprozess verantwortlich.

Die Verantwortung von Unternehmen für rechtswidrige Aktivitäten in ihrer Lieferkette hängt vom jeweiligen Rechtsraum ab. In Deutschland beispielsweise sind Unternehmen verpflichtet, KYS-Maßnahmen (Know Your Customer) und Risikomanagement durchzuführen, um Schäden in ihrer Lieferkette zu erkennen und zu verhindern. Selbst wenn Unternehmen nicht für Schäden in ihrer Lieferkette verantwortlich sind, können sie Reputationsrisiken ausgesetzt sein.

Welche Kosten entstehen durch unethische und nicht regelkonforme Datenerhebung?

Reputationsrisiko

Wird bekannt, dass ein Unternehmen einen Web-Datenerfassungsdienst nutzt, der unethische Praktiken anwendet oder Handlungen vornimmt, die die Datensicherheit gefährden, kann dies zu erheblichen Reputationsschäden führen, wie etwa Geschäftsverlusten, Kundenabwanderung, Abwanderung von Fachkräften und Verlust des Vertrauens der Investoren.

Beispiele aus der Praxis, die zu Reputationsverlusten durch Zulieferer von Unternehmen geführt haben:

  • Nike hat aufgrund unethischer Arbeitspraktiken seiner Zulieferer bereits mehrfach Reputationsschäden erlitten. 1
  • Viele Unternehmen wie EY verloren das Vertrauen ihrer Kunden, als sie von der Sicherheitslücke bei der MOVEit -Software für verwaltete Dateiübertragung betroffen waren. 2

Auf einen Reputationsverlust, insbesondere wenn er zu öffentlicher Empörung führt, folgen typischerweise Klagen von Kunden des Unternehmens oder anderen Interessengruppen, die durch die unethischen Praktiken geschädigt wurden.

Ein Beispiel aus der Praxis: Starbucks ist eine der jüngsten Marken, die wegen der Beschaffung von Waren von Unternehmen mit unethischen Geschäftspraktiken verklagt wurden. 3

Checkliste für ethische Webdaten

Unternehmenswebdaten müssen drei Anforderungen erfüllen, um ethisch vertretbar zu sein:

Ethische Nutzung durch Kunden

Im Rahmen ihrer Lieferantenprüfungsprozesse vermeiden Unternehmen die Nutzung von Diensten, die unethische Aktivitäten ermöglichen. Die Nutzung solcher Dienste birgt die Gefahr von Reputationsschäden.

Beispiel aus der Praxis: In Fällen, in denen ein Anbieter nachweislich die Nutzung seiner Plattform für unethische Aktivitäten zuließ, distanzierten sich zahlreiche Unternehmen von dem Anbieter, bis dieser seine Praktiken verbesserte. 4

Bezug zu Webdaten: Webdaten werden über verschiedene IP-Adressen erfasst. Diese Adressen können für diverse illegale Aktivitäten missbraucht werden, beispielsweise für DDoS-Angriffe, um die Bereitstellung digitaler Dienste zu verhindern, die unbefugte Erfassung nicht-öffentlicher Daten oder Anzeigenbetrug. Kriminelle benötigen IP-Adressen für ihre Aktionen, und Anbieter von Webdateninfrastruktur bzw. Proxys sind die größten Lieferanten von IP-Adressen für Endnutzer.

Ethische Versorgung

Dienstleistungen, die eigentlich ethischen Zwecken dienen, können während ihrer Durchführung zu unethischen und schädlichen Handlungen führen. So erlitten beispielsweise Marken wie Nike und Nestlé Reputationsschäden und sahen sich Klagen ausgesetzt, weil ihre Auftragnehmer Kinderarbeit einsetzten.

Wie dies mit Webdaten zusammenhängt:

Unternehmen benötigen Zugriff auf eine große Anzahl und vielfältige Bandbreitenquellen für die schnelle und globale Datenerfassung. Dies erfordert den Einsatz von Residential Proxies: Die Erfassung öffentlicher Daten ist zwar unter vielen Bedingungen legal, Websites können zudem bestimmte Besuchergruppen blockieren. Beispielsweise können sie die Crawler ihrer Konkurrenten aussperren. In solchen Fällen sind Unternehmen auf eine große Anzahl von Verbindungen von Endnutzern oder anderen Drittanbietern angewiesen 5 um Webdaten zu sammeln.

Proxy-Anbieter sammeln Millionen von Internetverbindungen aus verschiedenen Quellen und stellen sie Unternehmen zur Verfügung, die mithilfe von IP-Adressen auf diese Verbindungen zugreifen. Einige dieser IP-Adressen stammen von Endgeräten privater Nutzer. Das Sammeln dieser Verbindungen kann legal oder illegal sein.

  • Rechtlich: Rechtlich konforme Praktiken umfassen die Einholung der informierten Einwilligung der Nutzer, die Zahlung einer Entschädigung und das Anbieten von Opt-out-Mechanismen gemäß den lokalen Vorschriften. Der Webdatenanbieter sollte
    • Informieren Sie die Nutzer darüber, wie ihre Bandbreite genutzt wird.
    • Holen Sie ihre Zustimmung digital ein.
    • Entschädigen Sie sie im Gegenzug
    • Ermöglichen Sie ihnen, sich jederzeit abzumelden.
  • Illegal: Angreifer können sich ohne Erlaubnis oder Entschädigung Zugriff auf die Geräte der Nutzer verschaffen und deren Internetverbindung nutzen. Dies kann durch Schadsoftware, kompromittierte Geräte, getarnte Installationen, automatische Anmeldungen und andere Methoden geschehen, die den Gerätebesitzer gefährden.

Unternehmen, die illegal beschaffte Proxys verwenden, können unabsichtlich Kriminelle für den unerlaubten Zugriff auf Geräte bezahlen.

Beispiele aus dem realen Leben:

  • Router und IoT-Geräte wurden für Botnetzoperationen kompromittiert und als Residential Proxies verkauft. 6 7
  • Bestimmte Proxy-Anbieter bewerben ihre Dienste in Foren, die von Betrügern frequentiert werden. Diese IP-Adressen stammen höchstwahrscheinlich aus illegalen Quellen. 8
  • VPN-Apps aus dem Play Store (Google) wurden auch dazu verwendet, ohne Zustimmung des Nutzers private IP-Adressen zu erlangen. 9

Obwohl diese Operationen eingestellt wurden, ist es wahrscheinlich, dass Angreifer weiterhin ohne Zustimmung auf private IP-Adressen zugreifen, und zwar über Botnetze und kompromittierte oder bösartige Anwendungen.

Externe Zertifizierung

Unternehmenskunden benötigen sichere, unternehmensgerechte Lösungen. Wir haben die Bestandteile einer ausgereiften Webdatenorganisation identifiziert, die durch externe Zertifizierung dokumentiert werden kann:

Datensicherheit

Mangelnde Datensicherheit in den Systemen von Zulieferern kann den Wettbewerbsvorteil eines Unternehmens beeinträchtigen oder zu Datenverlust und Systemausfällen führen. Der Verlust der Systemfunktionalität kann das Vertrauen untergraben und zur Abwertung eines Unternehmens beitragen.

Systemangriff

Datenerfassungsdienste sind nicht so tief in die Systeme eines Unternehmens integriert wie zentrale digitale Dienste (z. B. ein zentrales Datenerfassungssystem wie CRM). Daher werden ihre Sicherheitsmerkmale nicht so gründlich geprüft wie die eines zentralen Datenerfassungssystems. Datensicherheit ist jedoch für die Kunden von Datenerfassungsdiensten von entscheidender Bedeutung, da diese Dienste:

  • Werden manchmal in zentralere Systeme wie Preisberechnungssysteme integriert.
  • Kann Unternehmenssysteme infizieren, selbst wenn sie nicht in diese integriert sind. Die Nutzung eines Datenerfassungsdienstes beinhaltet den Empfang von Daten von diesem Dienst. Selbst einige der sichersten Formen der Datenübertragung bergen Risiken.

Systemangriffe können Angreifer auch dazu veranlassen, die Geräte ins Visier zu nehmen, die Proxy-Diensten private IP-Adressen bereitstellen. Dies kann dem Ruf der Kunden dieser Proxy-Dienste schaden.

Beispiel einer realen Sicherheitslücke bei einem Anbieter von Wohnwohn-Proxys :

Die Betreiber des Kimwolf-Botnetzes erwarben Proxy-Dienste vom Residential-Proxy-Anbieter IPIDEA. Mithilfe von Schadcode infizierten sie die internen Netzwerke der Geräte, die IP-Adressen an IPIDEA lieferten. Diese Netzwerke wurden anschließend gescannt, und weitere anfällige Geräte in diesen lokalen Netzwerken wurden ebenfalls infiziert.

Schätzungen zufolge hat sich Kimwolf mit dieser Methode auf mehr als 2 Millionen Geräte verbreitet. Auch die von IPIDEA-Kunden erfassten Daten flossen über diese infizierten Netzwerke. 10

Datenverlust

Ohne Datensicherheit können Angreifer Zugang zu den von Unternehmen gesammelten Daten erlangen, um deren Aktivitäten und Strategien zu ermitteln, was zu einem Verlust von Wettbewerbsvorteilen oder Geschäftsmöglichkeiten führen kann.

Beispiel aus dem realen Leben:

Obwohl Webdaten öffentlich zugänglich sind, können Unternehmen sie auf innovative Weise nutzen, um sich Wettbewerbsvorteile zu verschaffen. Beispielsweise investieren Investoren bis zu 10 % ihres Budgets für Marktdaten in alternative Datenquellen. 11 , doch sie legen ihre Strategien selten offen, da sie glauben, sich dadurch einen Wettbewerbsvorteil zu verschaffen. Ein Datenleck könnte dazu führen, dass ihre Strategien aufgedeckt und somit von ihren Konkurrenten kopiert werden.

PII-Management

Webdaten umfassen private Daten, die hinter Anmeldeinformationen verborgen sind, oder personenbezogene Daten (PII), die versehentlich oder absichtlich auf öffentlichen Websites offengelegt werden können. Wenn Webdatenerfassungsdienste personenbezogene Daten nicht ordnungsgemäß verwalten, können diese Daten in die Hände von Kriminellen gelangen. Dies kann zu Reputationsschäden für den Webdatenerfassungsdienst und seine Kunden führen.

Anwendungssicherheit

Anwendungen oder Zwischenprogramme wie SDKs, die die IP-Adressen von Webdatenerfassungsdiensten nutzen, können von externen Zertifizierungsanbietern wie McAfee auf eine Whitelist gesetzt werden. Dies stärkt das Vertrauen von Unternehmen in die ethischen Geschäftspraktiken des Webdatenerfassungsdienstes.

Versicherungsschutz

Unternehmen verlangen diese Versicherungen üblicherweise von allen digitalen Anbietern:

  • Berufshaftpflichtversicherung
  • Cyberversicherungszertifikat

Detaillierter Benchmark: Bewertung von Anbietern von Webdateninfrastruktur

Benchmark: Ethische Nutzung durch Kunden

Hier wollen wir die Frage beantworten: Stellt das Unternehmen sicher, dass die Nutzung seiner Lösung ethisch vertretbar und im Einklang mit geltenden Gesetzen und Vorschriften erfolgt? Zusammenfassung unserer Ergebnisse:

* Nicht zutreffend: Da Zyte und Apify Proxys von ihren Lieferanten kaufen und sie nicht direkt von privaten Nutzern einholen, würden sie von Website-Betreibern bezüglich Missbrauchs nicht kontaktiert werden und müssten daher kein Kontaktformular für Websites erstellen.

Zunächst haben wir die Richtlinien überprüft:

Überprüfung der Richtlinie zur akzeptablen Nutzung

Alle Anbieter verbieten illegale Aktivitäten und nennen Beispiele wie DoS-Angriffe, unerwünschte Massennachrichten, Identitätsdiebstahl oder Spoofing.

Darüber hinaus weisen einige Anbieter darauf hin, dass sie Aktivitäten verbieten, die wahrscheinlich illegal sind. Nachfolgend listen wir die verbotenen Aktivitäten gemäß den Nutzungsrichtlinien und deren Anhängen (z. B. dem Datenverarbeitungszusatz) der einzelnen Anbieter auf.

Wir suchten nach Begriffen, die Aktivitäten verbieten, die wahrscheinlich illegal sind und anhand der Nutzeraktivität identifiziert werden können. Beispielsweise könnte ein erheblicher Anteil der Nutzer, die Proxys für bezahlte Umfragen verwenden, diese nutzen, um die Umfrageanbieter über ihren tatsächlichen Standort zu täuschen. Daher ist diese Aktivität wahrscheinlich illegal und kann anhand der Nutzeraktivität (z. B. beim Einloggen auf einer Website für bezahlte Umfragen) identifiziert werden.

Obwohl die klare Kennzeichnung verbotener Aktivitäten hilfreich ist, ist sie keine Pflicht und hat keinen Einfluss auf unsere Bewertung. Unternehmen können beispielsweise angeben, dass sie illegale Aktivitäten nicht dulden, anstatt jeden einzelnen Fall illegaler Aktivitäten aufzulisten.

Die Nennung einer Aktivität als verboten bedeutet nicht, dass diese Aktivitäten überprüft oder blockiert werden. Unsere Bewertungen hängen davon ab, wie diese Richtlinien umgesetzt werden, wie nachfolgend beschrieben:

Prozesse für eine ethische Nutzung

Während einige der in den Richtlinien zur akzeptablen Nutzung aufgeführten Kategorien recht weit gefasst sind (z. B. unautorisiertes Daten-Scraping oder unautorisierter Zugriff), sind andere so spezifisch, dass sie in präventive Maßnahmen umgewandelt werden können (z. B. Sperrung des Zugriffs), die Datenerfassungsdienste für Benutzer umsetzen können, die ihren KYC-Prozess nicht abgeschlossen haben.

Auf Grundlage dieser spezifischen verbotenen Verwendungen erstellten wir eine umfassende Liste von Verwendungen, die wahrscheinlich illegale Proxy-Nutzungen darstellen. Für jeden Anwendungsfall identifizierten wir Szenarien mit relevanten Webdomains und Aktionen. Beispielsweise versuchten wir im Szenario der künstlichen Interaktion in sozialen Medien, uns mithilfe eines Proxys in ein soziales Netzwerk einzuloggen, um einen bestehenden Beitrag zu liken.

Um zu testen, ob Unternehmen unethische Nutzung durch Kunden zulassen, erstellten wir bei jedem Anbieter ein Konto mit einer E-Mail-Adresse, die nicht zu AIMultiple gehörte. Wir führten für dieses Konto keinen KYC-Prozess durch und nutzten die Dienste, um zu verstehen, was anonyme Nutzer mit den jeweiligen Diensten erreichen können. KYC ist ein entscheidender Schritt, bei dem der Nutzer Daten zur Bestätigung der von ihm vertretenen juristischen Person angibt. Dadurch wird die Nutzeraktivität einer juristischen Person zugeordnet.

  • Das kann zur Rechenschaft gezogen werden.
  • Die Gründe für Online-Aktivitäten (z. B. die Nutzung von Proxys zum Einloggen auf Regierungswebseiten) können überprüft werden. So kann beispielsweise einem Forscher oder einer Regierungsbehörde nach Klärung ihres Anwendungsfalls die Anmeldung auf einer Regierungswebseite mithilfe eines Proxys gestattet werden.

Wir erwarteten, dass diese Anwendungsfälle einen KYC-Prozess auslösen würden, doch bei den meisten Anbietern geschah dies nicht. Ein Häkchen zeigt an, dass die Anfrage für Benutzer blockiert wurde, die den KYC-Prozess noch nicht abgeschlossen haben.

Zur Klarstellung: Datenerfassungsdienste sind nicht rechtlich verpflichtet, diese Websites zu sperren, und manche dieser Szenarien können durchaus legal sein. Beispielsweise könnte ein Forscher Proxys nutzen, um ein kontrolliertes Social-Media-Experiment durchzuführen. Angesichts des Missbrauchspotenzials in diesen Szenarien erwarteten wir jedoch, dass Datenerfassungsdienste diese für Nutzer sperren, die den KYC-Prozess noch nicht abgeschlossen haben.

Wie Marken die von ihnen blockierten Domains kommunizieren
  • Bright Data listet in seiner Richtlinie zur akzeptablen Nutzung eingeschränkte Domänenkategorien auf.
Die Präferenzen von Websites hinsichtlich der automatisierten Datenerfassung respektieren

Was ist robots.txt?

robots.txt ist eine Datei zur Implementierung des Robots Exclusion Protocol (ROP). Webseiten nutzen dieses Protokoll, um Bereiche ihrer Webseite zu kennzeichnen, die von Bots nicht besucht werden sollen. Die Einhaltung der robots.txt-Datei ist freiwillig.

Vor- und Nachteile der Einhaltung der robots.txt-Datei

➕ Respektiert die Website-Einstellungen.

➖ Möglicherweise nicht aktuell und daher veraltet.

➖ Es handelt sich dabei typischerweise um Formulierungen, die darauf hinweisen, dass der Website-Inhaber es vorzieht, dass bestimmte öffentliche Bereiche der Website nicht von Bots aufgerufen werden.

Die robots.txt-Datei kann auch zu ungleichem Zugriff für Bots führen. Beispielsweise können Website-Betreiber festlegen, dass Bots von Antwortdiensten bestimmte URLs nicht besuchen sollen, die von Suchmaschinen-Bots besucht werden.

Die robots.txt-Datei ist kein Rechtsdokument und kann die Blockierung des Bot-Zugriffs auf Seiten beantragen, die rechtmäßig sind:

  • zum Auslesen erlaubt (z. B. öffentliche Daten) oder
  • Daten, die nicht ausgelesen werden dürfen (z. B. Daten hinter einem Login, deren Nutzungsbedingungen das Auslesen solcher Daten untersagen).

Anbieter von Webdatenerfassungsdiensten können von Nutzern von Residential-Proxys verlangen, dass sie einen KYC-Prozess abschließen und nachweisen, dass sie einen rechtmäßigen und ethischen Anwendungsfall haben, bevor diese Nutzer robots.txt ignorieren können.

Zum Testen sendeten wir Anfragen an Seiten in Unterordnern, die laut robots.txt blockiert werden sollen. Wir verwendeten die Domains aimultiple.com und fünf weitere Domains aus den 100 meistbesuchten Webseiten. Nur die Domain Bright Data blockierte diese Anfragen.

CNN-Beispiel

Die robots.txt-Datei von CNN blockiert den Ordner /terms 12 Zu Testzwecken navigierten wir mit Residential-Proxys zu diesem Ordner und erhielten von allen Anbietern außer Bright Data 200-Nachrichten mit den Seitendaten. Die Antwort von Bright Data lautet: „ Residential Failed (bad_endpoint): Requested site is not available for immediate residential (no KYC) access mode according to robots.txt. To get full residential access for targeting this site, fill the KYC form: https://brightdata.com/cp/kyc .

Missbrauchsmanagement

Wir haben eine Methodik zur Bewertung der Missbrauchsmanagementpraktiken von Anbietern entworfen und Daten gesammelt, um unsere Bewertungskriterien zu erfüllen:

* Nicht zutreffend: Zyte kauft Proxys von anderen Proxy-Anbietern. Wenn der Dienst von Zyte missbräuchlich verwendet wird, würden sich die Website-Betreiber daher eher an die Proxy-Anbieter als an Zyte wenden.

Obwohl alle Anbieter Möglichkeiten zur Kontaktaufnahme durch Dritte oder ihre Kunden bereitstellen, sind diese für die Problemlösung wichtig:

  • Politik zum Missbrauch öffentlicher Güter
  • Eine spezielle E-Mail-Adresse zur Meldung von Missbrauch
  • Eine alternative Kontaktmöglichkeit (z. B. Webformular oder Messenger), über die Journalisten das Unternehmen erreichen können. Dies ist hilfreich, da E-Mails gefiltert werden und möglicherweise nicht im Posteingang ankommen.
  • Reaktionsfähigkeit auf Nachrichten

Drei Anbieter im Vergleichsindex (Bright Data) stellten eine E-Mail-Adresse zur Meldung von Missbrauchsfällen bereit. Alle diese Anbieter veröffentlichten außerdem ihre Richtlinien in dieser Domain.

Wir gehen davon aus, dass alle anderen Anbieter dem Beispiel folgen werden und dass sich dies kurzfristig zu einer branchenweit verbreiteten Praxis entwickeln wird.

Abschließend evaluierten wir die Reaktionsfähigkeit des Missbrauchsmanagements, indem wir Missbrauchsmeldungen von Drittanbieter-Domains (d. h. nicht von AIMultiple) per E-Mail versendeten und die Antwortzeiten maßen. Konnten wir keine E-Mail-Adresse für Missbrauchsmeldungen finden, leiteten wir die Meldung über das allgemeine Kontaktformular weiter. Wir testeten dies mit drei E-Mail-Serien, die an folgende Orte versendet wurden:

  • Freitag, 2. Mai 2025 von:
    • Ein Ticketverkaufsdienst mit monatlich rund 30.000 Besuchern
    • Eine Anwaltskanzlei mit monatlich ca. 1000 Besuchern in
  • Ab dem 17. Mai 2025 vom Ticketverkaufsdienst.
  • 24. Mai 2025 von einer Social-Media-Agentur mit geringem Online-Traffic.

Die ersten E-Mails wurden am 2. Mai 2025 an Unternehmen versandt, die eine dedizierte E-Mail-Adresse angegeben hatten. Später erweiterten wir unsere Liste um allgemeinere E-Mail-Adressen, die in den Kontaktbereichen aller untersuchten Web-Datenerfassungsdienste aufgeführt waren. Sobald ein Unternehmen auf unsere E-Mails reagierte, stellten wir den Versand weiterer E-Mails ein.

In unseren E-Mails erwähnten wir, dass unsere Websites mutmaßlichen Bot-Traffic über Proxys erhielten, und baten um Unterstützung bei der Identifizierung der Proxy-Quelle. Bis auf eines antworteten uns alle Compliance-Teams. Fast alle Antworten gingen noch am selben Tag ein.

Nutzungstransparenz

Websitebetreiber, die Webdaten- und Weberfassungsdienste anbieten, haben bisher keinen Datenaustausch über ihre Datenerfassungsaktivitäten geführt. Um Crawling-Aktivitäten einzuschränken, haben Websitebetreiber folgende Möglichkeiten:

  • Wenden Sie sich an Web-Datenerfassungsdienste, um Missbrauch zu melden.
  • Arbeiten Sie mit Bot-Management-Anbietern wie Cloudflare zusammen, um das Crawling zu erschweren.

Es gibt nun Initiativen für einen strukturierteren Datenaustausch zwischen diesen Parteien. Die Webmaster-Konsole wurde eingeführt, damit Webmaster die Crawling-Aktivitäten ihrer Websites überwachen können. Mehr Transparenz dürfte die Praktiken der Webdatenerfassung verbessern.

Unsere Erfahrungen mit der Webmaster-Konsole

Wir haben uns angemeldet, indem wir unsere Domaininhaberschaft verifiziert und eine collectors.txt-Datei auf der Domain hinzugefügt haben.

Wir haben nun Zugriff auf die Bot-Aktivitäten von Bright Data auf unserer Website:

Benchmark: Ethische Versorgung

* Bewertungen auf folgenden Drittanbieterplattformen wurden berücksichtigt: Amazon Appstore, App Store, Google Play Store, Trustpilot. Der Einfachheit halber wurde dieser Wert für die 5 wichtigsten Apps von Google Play berechnet, nicht für alle 120 Apps, die auf der Website angeboten werden.

Partnertransparenz

Die von Unternehmen der Web-Dateninfrastruktur benötigte Bandbreite kann auf ethische Weise bereitgestellt werden, indem Vorteile (z. B. Zahlungen, Funktionen wie das Überspringen von Werbung) im Austausch für die Zustimmung zur gemeinsamen Nutzung der Internetverbindung angeboten werden. Es ist jedoch auch möglich, sich unbefugten Zugriff auf die Systeme von Endnutzern zu verschaffen und deren Verbindungen zu verkaufen.

Anbieter von Webdateninfrastrukturen können Richtlinien und Prozesse entwickeln, externe Audits durchführen und ihre Vorgehensweise sowie die Ergebnisse der Audits veröffentlichen, um Transparenz hinsichtlich ihrer Internetverbindungen zu schaffen. Dies kann das Vertrauen in die ethische Bereitstellung ihrer Dienste stärken.

Wir haben ein Rahmenwerk für Transparenz auf der Angebotsseite von Webdaten entwickelt und Anbieter anhand dieses Rahmenwerks bewertet. Wir haben dieses Rahmenwerk unabhängig davon angewendet, ob ein Webdatenerfassungsdienst Wohn-IPs selbst oder über andere Proxys bezieht. Unser Ziel ist es, Transparenz in die gesamte Lieferkette von IPs zu bringen, da unethische Praktiken an jedem Punkt dieser Lieferkette ihren Ursprung haben können.

Hier finden Sie unsere detaillierten Ergebnisse:

Bright Data

Bright Data ist als Stufe 5 eingestuft, da sie veröffentlichen

  • Ihr Beschaffungsansatz und wie App-Entwickler über ihr SDK mit ihnen zusammenarbeiten können. 13 14
  • Details zu 120 Lieferanten wurden öffentlich zugänglich gemacht. Wir konnten Bewertungen dieser Lieferanten auf Drittanbieterplattformen überprüfen, um deren Beliebtheit einzuschätzen. 15

Rezension ausgewählter Apps

Bright Data bietet auf seiner Website 120 Apps an. Apps wie Bright VPN sind hinsichtlich ihrer Offenlegungspflichten und Benutzerfreundlichkeit von Drittanbietern zertifiziert. 16 Wir haben diese Apps auch heruntergeladen, um sie genauer anzusehen:

  • Bright VPN
  • EarnApp
  • Sling Kong

Opt-in-Formular mit der Verpflichtung, keine personenbezogenen Daten zu erheben: Einwilligungsformular mit klarer Erläuterung von Bright VPN:

Verdienen-App:

Sling Kong:

  • Dem Nutzer wird das Angebot während des Spiels präsentiert:
  • Opt-in:
  • Zusätzliche Informationen während des Anmeldevorgangs:
  • Opt-out:

Nutzen der Apps:

  • Bright VPN: Kostenloser VPN-Dienst
  • EarnApp: Zahlungen
  • Sling Kong: Virtuelle In-Game-Währung
Andere

Die meisten Anbieter sind sich der ethischen Grundsätze beim Web-Scraping bewusst und haben zu diesem Thema publiziert (z. B. 17 , wir haben ihre spezifischen Verpflichtungen in diesem Bereich nicht identifiziert, außer für Zyte. 18

Wir gehen davon aus, dass sich dies ändern wird und die meisten Anbieter kurzfristig mindestens auf Stufe 1 umsteigen werden.

Externe Zertifizierung

* Kennzeichnet, dass das Unternehmen alle externen Zertifizierungen in dieser Kategorie erhalten hat.

Für Anbieter ist es unerlässlich, über die richtigen Systeme, Mitarbeiter und Prozesse zu verfügen, um Kundendaten zu schützen und die Anwendungen, die deren geistiges Eigentum bereitstellen, abzusichern. Unsere externe Zertifizierungsmethodik erläutert die Logik unserer Bewertung.

DSGVO- und CCPA-Konformität

Alle Anbieter geben öffentlich an, beide Datenschutzbestimmungen einzuhalten. Daher wurde dies bei der Bewertung nicht berücksichtigt.

Wie wir den Reifegrad von Organisationen gemessen haben

Auf Grundlage der in diesem Bereich identifizierten Fähigkeiten haben wir bei jedem Anbieter anhand seiner öffentlichen Erklärungen die Existenz dieser Zertifikate überprüft:

  • Datensicherheitszertifizierung & PII-Zertifizierung: 19 20 21 22 23
  • IP-Quelle auf der Whitelist: 24
  • Bewertete ethische Praktiken: 25

Einige Anbieter ohne ISO-27018-Zertifikat argumentierten, sie sollten als zertifiziert gelten, da sie Cloud-Dienstleister mit ISO-27018-Zertifikat nutzen. Unser Cybersicherheitsberater vertrat die Ansicht, dass dies zwar die Zertifikatserlangung erleichtern würde, die Zertifizierung ihrer Richtlinien und Kontrollen aber dennoch erforderlich sei.

Versicherungsschutz

Drei Unternehmen, die Webdaten sammeln, haben ihre Versicherungszertifikate zur Verfügung gestellt. Wir veröffentlichen keine Zertifikate, haben die Dokumente aber geprüft, um sicherzustellen, dass

  • Sie deckten diese beiden Versicherungskategorien ab.
  • Die Versicherungssumme beträgt in jeder Kategorie mindestens mehrere Millionen US-Dollar.

Haftungsausschlüsse und Empfehlungen für die nächsten Schritte

Alle Anbieter in diesem Benchmark außer Nimble sind Kunden von AIMultiple. Wie immer haben wir bei dieser Studie unsere ethischen Verpflichtungen eingehalten.

Wir haben eine umfassende Überprüfung der ethischen Datenerhebung im Internet abgeschlossen und sind zwar mit dem Umfang dieses Benchmarks zufrieden, würden uns aber über eine Ausweitung der Beteiligung freuen. Wir danken den folgenden Unternehmen für die Bereitstellung ihrer Versicherungsdaten: Apify, Bright Data, Zyte.

Wir warten auf eine Antwort von NetNut (Nimble). Sobald wir weitere Informationen erhalten, aktualisieren wir den Bericht. Zwei Anbieter haben sich entschieden, an dieser Benchmark-Runde nicht teilzunehmen. Wir aktualisieren diesen Bericht regelmäßig, sobald eines der sieben Unternehmen faktenbasierte und für alle Anbieter faire Änderungsvorschläge unterbreitet, die Unternehmen bei besseren Entscheidungen unterstützen.

Dies ist nach unseren Recherchen der erste Bericht, der sich mit ethischen Webdaten befasst. Wir hoffen, dass diese Transparenz der Webdatenbranche helfen kann, kreative Lösungen für ihre Herausforderungen zu finden. Diese Lösungen müssen die Interessen von Webdatensammlern, Nutzern von Webautomatisierung, Website-Betreibern und privaten Nutzern, die ihre IP-Adressen der Branche zur Verfügung stellen, in Einklang bringen.

Referenzen

Referenzlinks

1.
Workers Fainted at Nike Clothing Factory Despite a Vow to Reform — ProPublica
ProPublica
2.
2023 MOVEit data breach - Wikipedia
Contributors to Wikimedia projects
3.
https://www.courthousenews.com/wp-content/uploads/2024/01/starbucks-labor-rights-violations-suit.pdf
4.
Google faces questions over videos on YouTube
The Times
5.
Court Rules in Favor of Bright Data in Meta v. Bright Data Case - Bright Data
Bright Data
6.
https://media.defense.gov/2024/Sep/18/2003547016/-1/-1/0/CSA-PRC-LINKED-ACTORS-BOTNET.PDF
7.
Internet Crime Complaint Center (IC3) | Home Internet Connected Devices Facilitate Criminal Activity
8.
A Look at the Residential Proxy Market | Intel 471
Website
9.
Satori Threat Intelligence Alert: PROXYLIB and LumiApps Transform Mobile Devices into Proxy Nodes - HUMAN Security
HUMAN Security
10.
Kimwolf Botnet Lurking in Corporate, Govt. Networks – Krebs on Security
11.
Subscribe to read
Financial Times
12.
https://edition.cnn.com/robots.txt
13.
Ethically Sourcing Residential Proxies | Bright Data
Bright Data
14.
homepage - Bright SDK
Bright SDK
15.
How Bright Data Obtains Its Residential IPs - Bright Data
Bright Data
16.
Bright VPN Compliance with guidelines - Google Sheets
17.
What is ethical scraping and how do you do it?
Apify Blog
18.
Web Scraping Data Compliance | Zyte
19.
Page not found - Bright Data
Bright Data
20.
Security | Platform | Apify Documentation
21.
https://netnut.com/wp-content/uploads/2024/01/NetNut-ISO.pdf
22.
Nimble Trust Center | Security, Compliance & Reliability
23.
Trust Center | Zyte
24.
Bright SDK Compliance with Guidelines - Google Sheets
25.
pwc-report - Bright Data
Bright Data
Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450