Synthetische Daten erfreuen sich branchenübergreifend zunehmender Beliebtheit und Anwendung, unter anderem im Bereich des maschinellen Lernens, des Deep Learning und der generativen KI (GenAI) . Sie bieten Lösungen für Herausforderungen wie Datenschutzbedenken und begrenzte Datensatzgrößen. Schätzungen zufolge werden synthetische Daten in KI-Modellen bis 2030 gegenüber realen Daten bevorzugt. 1
Wir haben die Einsatzmöglichkeiten und häufigsten Anwendungsfälle synthetischer Daten in verschiedenen Branchen und Abteilungen/Geschäftsbereichen aufgelistet.
Branchenunabhängige Anwendungsfälle
Datenweitergabe an Dritte
Partnerschaften mit Drittorganisationen wie Fintechs, Medtechs oder Lieferkettenanbietern erfordern oft den Zugriff auf sensible Informationen.
Synthetische Daten ermöglichen es Unternehmen, die Leistung von Anbietern zu bewerten und zusammenzuarbeiten, ohne regulierte oder vertrauliche Daten preiszugeben. Dies ermöglicht Tests, Modelltraining und gemeinsame Entwicklung unter Einhaltung der Datenschutzgesetze.
Interner Datenaustausch
In großen Organisationen können Datenschutzbestimmungen und Zugriffsbeschränkungen den internen Datenaustausch um Wochen verzögern. Synthetische Datensätze hingegen lassen sich abteilungsübergreifend – beispielsweise zwischen Marketing, Produktentwicklung und Betrieb – frei austauschen, ohne das Risiko von Datenlecks oder Datenschutzverletzungen einzugehen. Dies beschleunigt Innovationen und ermöglicht häufigere Experimente.
Cloud-Migration
Cloud-Dienste bieten eine Reihe innovativer Produkte für viele Branchen. Die Verlagerung privater Daten in Cloud-Infrastrukturen birgt jedoch Sicherheits- und Compliance-Risiken.
In manchen Fällen kann die Übertragung synthetischer Versionen sensibler Daten in die Cloud Unternehmen ermöglichen, die Vorteile von Cloud-Diensten zu nutzen. Dies ist jedoch nicht in allen Anwendungsfällen möglich.
In Cloud-basierten Machine-Learning-Pipelines könnten beispielsweise synthetische Daten anstelle von realen Daten verwendet werden. Für das Vertriebsteam wäre es jedoch nicht hilfreich, synthetische Daten in seinem CRM-System zu haben; es sollte die korrekten Kundeninformationen sehen, nicht veränderte.
Einhaltung der Datenaufbewahrungsvorschriften
Datenschutzgesetze begrenzen die Speicherdauer personenbezogener Daten. Synthetische Daten ermöglichen es Unternehmen, die statistischen Muster historischer Datensätze für Trendanalysen, Saisonstudien oder die Erkennung von Anomalien zu erhalten, ohne die ursprünglichen, identifizierbaren Datensätze aufzubewahren.
Einen Überblick über die angebotenen Tools erhalten Sie in unserem Artikel zu Daten-Governance-Tools .
Finanzen
Betrugserkennung
Betrugsfälle sind selten, was ihre Modellierung erschwert. Synthetische Datensätze können eine Vielzahl von Betrugsmustern simulieren und ermöglichen so ein effektiveres Training und Testen von Betrugserkennungsalgorithmen.
Weitere Informationen zu Betrugserkennungstechnologien finden Sie im Artikel „Technologien zur Verbesserung der Betrugserkennung in der Versicherungswirtschaft“ .
Kundeninformationen
Synthetische Transaktionsdatensätze bewahren die statistischen Merkmale des realen Kundenverhaltens und ermöglichen es Finanzinstituten, Segmentierungsmodelle zu erstellen, den Kundenlebenszeitwert zu bewerten oder die Kundenabwanderung vorherzusagen, während sie gleichzeitig Vorschriften wie die DSGVO und PCI DSS einhalten.
Weitere Informationen zu den Anwendungsfällen synthetischer Daten im Finanzwesen finden Sie in unserem Artikel.
Herstellung
Qualitätssicherung
Reale Fehlerdaten sind oft begrenzt. Synthetische Anomaliedatensätze ermöglichen es Ingenieuren, Inspektionssysteme anhand einer Vielzahl von Fehlertypen zu testen, wodurch die Trefferquote verbessert und falsch-negative Ergebnisse reduziert werden. Dies gilt für Sichtprüfungen, Sensormessungen und IoT-Datenströme.
Vorausschauende Wartung
Synthetische Sensordaten können Verschleißmuster oder Fehlersignale von Anlagen simulieren. Dies hilft, vorausschauende Wartungsmodelle zu trainieren, bevor ausreichend reale Fehlerdaten vorliegen, und ermöglicht so einen früheren Einsatz von Überwachungssystemen.
Optimierung der Lieferkette
Synthetische Nachfrage- und Logistikdatensätze können verwendet werden, um Modelle der Lieferkettenplanung unter verschiedenen Marktszenarien, saisonalen Schwankungen oder Störungsereignissen zu testen, ohne dabei tatsächliche Betriebsdaten offenzulegen.
Gesundheitspflege
Datenanalyse im Gesundheitswesen
Synthetische Daten ermöglichen es Fachkräften im Gesundheitswesen, Patientendaten intern und extern zu nutzen und gleichzeitig die Vertraulichkeit der Patientendaten zu wahren. Dies ähnelt dem Anwendungsfall der „internen Datenweitergabe“, ist jedoch im Gesundheitswesen, wo die meisten Kundendaten vertraulich sind, breiter anwendbar. Dieses Verfahren wird auch als Gesundheitsanalytik bezeichnet.
Klinische Studien
Bei der Durchführung einer neuen Studie fehlen Forschern häufig ausreichend historische Daten für Simulationen und Basisanalysen. Synthetische Datensätze können helfen, Ergebnisse vorherzusagen, die Patientenrekrutierung zu planen und potenzielle Muster unerwünschter Ereignisse zu identifizieren, bevor die Datenerhebung im realen klinischen Alltag beginnt.
Automobilindustrie und Robotik
Autonome Systeme (Autonomous Things, AuT) – Technologien wie Roboter, Drohnen und Simulationen selbstfahrender Autos – haben die Nutzung synthetischer Daten maßgeblich vorangetrieben. Denn reale Tests von Robotersystemen sind teuer und zeitaufwendig. Synthetische Daten ermöglichen es Unternehmen, ihre Robotiklösungen in Tausenden von Simulationen zu testen, ihre Roboter zu verbessern und so teure reale Tests zu ergänzen.
Tests autonomer Systeme
Synthetische Umgebungen simulieren Tausende von Fahr- oder Betriebsszenarien für autonome Fahrzeuge, Lieferdrohnen und Fertigungsroboter. Dies reduziert Kosten und beschleunigt die Sicherheitsvalidierung vor dem Feldeinsatz.
Weiteres Beispiel : Testen von Notbremsalgorithmen unter Verwendung simulierter seltener Verkehrsgefahren (z. B. überquerende Tiere, plötzliche Fußgängerbewegungen).
Sicherheit
Synthetische Daten können zur Sicherung der Online- und Offline-Präsenzen von Organisationen eingesetzt werden. Zwei Methoden werden häufig verwendet:
Trainingsdaten für die Videoüberwachung
Um die Vorteile der Bilderkennung zu nutzen, müssen Unternehmen neuronale Netzwerkmodelle erstellen und trainieren. Dies stößt jedoch auf zwei Einschränkungen: die Beschaffung großer Datenmengen und die manuelle Kennzeichnung der Objekte. Synthetische Daten können das Training von Modellen im Vergleich zur Beschaffung und Annotation von Trainingsdaten kostengünstiger gestalten.
Deepfakes
Deepfakes, die zu einem immer wichtigeren Thema der KI-Cybersicherheit werden, können zum Testen von Gesichtserkennungssystemen verwendet werden.
Soziale Medien
Soziale Netzwerke nutzen synthetische Daten, um ihre verschiedenen Produkte zu verbessern:
Testen von Inhaltsfiltersystemen
Soziale Netzwerke bekämpfen Falschnachrichten, Online-Belästigung und politische Propaganda ausländischer Regierungen. Tests mit synthetischen Daten gewährleisten, dass die Inhaltsfilter flexibel sind und neuartige Angriffe abwehren können.
Bewertung der Fairness von Algorithmen
Synthetische Nutzerprofile und Interaktionsdaten können Plattformen dabei helfen, zu beurteilen, ob Empfehlungs- oder Moderationsalgorithmen eine Voreingenommenheit gegenüber bestimmten demografischen Merkmalen, Sprachen oder Standpunkten aufweisen, ohne dabei reale personenbezogene Daten zu verarbeiten.
Funktions- und UI-Tests
Synthetische Verhaltensdatensätze ermöglichen es sozialen Plattformen, neue Funktionen (z. B. Feed-Ranking, Kommentarsortierung) unter realistischen Verkehrslasten, Klickmustern und Engagementverteilungen zu testen, ohne riskante Live-Experimente mit echten Nutzern durchführen zu müssen.
Werbeausrichtungssimulation
Synthetische Zielgruppendaten können demografische und Verhaltensmuster nachbilden und ermöglichen es Werbetreibenden und Plattformbetreibern, Targeting-Modelle, Budgetverteilungsalgorithmen und Kampagnenoptimierungsstrategien zu testen und gleichzeitig die Einhaltung von Datenschutzgesetzen wie der DSGVO und dem CCPA zu gewährleisten.
Agile Entwicklung und DevOps
Testdatengenerierung
Für Softwaretests und Qualitätssicherung sind künstlich generierte Daten oft die bessere Wahl, da sie das Warten auf „echte“ Daten überflüssig machen. Diese Daten werden in diesem Zusammenhang häufig als „Testdaten“ bezeichnet. Dies kann letztendlich zu kürzeren Testzeiten und mehr Flexibilität und Agilität während der Entwicklung führen.
Personalwesen
Mitarbeiterdaten-Simulation
Mitarbeiterdatensätze von Unternehmen enthalten sensible Informationen und unterliegen häufig Datenschutzbestimmungen. Interne Datenteams und externe Partner haben möglicherweise keinen Zugriff auf diese Datensätze, können aber synthetische Mitarbeiterdaten für Analysen nutzen. Dies kann Unternehmen helfen, ihre HR-Prozesse zu optimieren.
Marketing
Simulation des Kundenverhaltens
Synthetische Daten ermöglichen es Marketingabteilungen, detaillierte Simulationen auf individueller Ebene durchzuführen, um ihre Marketingausgaben zu optimieren. Solche Simulationen wären aufgrund der DSGVO ohne Einwilligung der Nutzer nicht zulässig. Synthetische Daten hingegen, die die Eigenschaften realer Daten nachbilden, können zuverlässig in Simulationen eingesetzt werden.
Konversations-KI
Synthetische Daten, die mithilfe generativer KI erzeugt werden, können das Training von dialogbasierten KI-Systemen unterstützen, indem sie realistische Dialogbeispiele erstellen, die domänenspezifische Sprache, unterschiedliche Nutzerabsichten und seltene Sonderfälle widerspiegeln. Dieser Ansatz hilft, die begrenzte Verfügbarkeit realer Gesprächsprotokolle zu überbrücken und gleichzeitig Datenschutzbedenken zu vermeiden.
Durch die Erweiterung der Trainingsdatensätze um maßgeschneiderte Dialogszenarien können synthetische Daten die Fähigkeit eines Modells verbessern, unterschiedliche Anfragen zu verstehen, präzise zu reagieren und komplexe, mehrstufige Interaktionen zu bewältigen.
Maschinelles Lernen
Erweiterung der Trainingsdaten
Synthetische Daten erweitern den verfügbaren Datensatz, indem sie realistische, statistisch präzise Stichproben erzeugen, die die Verteilung realer Daten widerspiegeln. Dies ist besonders wertvoll beim Training von KI-Modellen mit Klassenungleichgewicht oder wenn die Erhebung realer Daten zu kostspielig, zeitaufwändig oder aus rechtlichen Gründen nicht möglich ist.
Durch die Einbeziehung zusätzlicher Variationen in den Datensatz, wie z. B. Lichtveränderungen in der Computer Vision oder Rauschvariationen im Audiobereich, werden die Modelle widerstandsfähiger gegenüber Umweltveränderungen und unerwarteten Eingaben.
Simulation seltener Ereignisse
Viele KI-Modelle schneiden bei der Vorhersage seltener Ereignisse schlecht ab, da diese in realen Datensätzen nur unzureichend repräsentiert sind. Synthetische Daten lösen dieses Problem, indem sie zahlreiche realistische Beispiele solcher seltener Ereignisse generieren und dabei deren statistische und kontextuelle Eigenschaften erhalten.
Dieser Ansatz ermöglicht es den Modellen, Szenarien zu „erleben“ und daraus zu lernen, denen sie während des traditionellen Trainings möglicherweise nie begegnen würden. Dies führt zu einer besseren Erinnerungsfähigkeit und einer besseren Vorbereitung auf missionskritische Situationen wie Betrugserkennung, Vorhersage von Geräteausfällen oder Notfallplanung.
Automatisierte Datenkennzeichnung
Die manuelle Datenkennzeichnung ist oft einer der aufwändigsten und zeitintensivsten Schritte in der KI-Entwicklung, insbesondere bei Aufgaben wie Objekterkennung oder Spracherkennung. Die Generierung synthetischer Daten kann die automatische Kennzeichnung während des Erstellungsprozesses beinhalten.
Dadurch werden menschliche Annotationsfehler vermieden, die Modellentwicklung beschleunigt und Teams können große, präzise beschriftete Datensätze erstellen, die auf spezifische Geschäftsanforderungen zugeschnitten sind, sei es zur Erkennung von Anomalien in der Fertigung, zur Identifizierung von Entitäten in juristischen Dokumenten oder zur Identifizierung von Objekten in Luftbildern.
Die Zukunft synthetischer Daten
Synthetische Daten gewinnen in vielen Branchen zunehmend an Bedeutung. Es handelt sich dabei um künstliche, computergenerierte Daten, die echten Daten ähneln, aber keine Informationen über reale Personen enthalten. Diese Eigenschaft macht sie dort nützlich, wo Datenschutz, Kosten oder der Zugriff auf reale Daten eine Herausforderung darstellen.
Viele Unternehmen nutzen heute synthetische Daten, um Modelle des maschinellen Lernens zu trainieren. Beispielsweise greifen Branchen wie das Gesundheitswesen, das Finanzwesen, das autonome Fahren und der Einzelhandel darauf zurück, um neue Systeme zu testen, ohne personenbezogene Daten preiszugeben oder rechtliche Beschränkungen zu beachten.
Abbildung 1: Popularität synthetischer Daten
Gründe für den Trend bei den synthetischen Daten sind unter anderem:
- Datenschutz- und Rechtsrisiken bei realen Daten: Neue Vorschriften erschweren die Weitergabe realer Daten. Synthetische Daten umgehen diese Datenschutzbeschränkungen, da sie keine tatsächlichen personenbezogenen Daten enthalten.
- Datenknappheit und Kosten: Reale Datensätze können klein, unvollständig oder teuer in der Erhebung und Kennzeichnung sein. Synthetische Daten können bedarfsgerecht erstellt werden, wodurch Lücken geschlossen und Kosten gesenkt werden.
- Förderung von KI-Innovationen: Große KI-Systeme benötigen große und vielfältige Datensätze. Analysten prognostizieren einen starken Anstieg der Nutzung synthetischer Daten; viele Unternehmen werden diese voraussichtlich bis 2026 einsetzen.
Bis 2026 werden viele Organisationen synthetische Kunden- oder Trainingsdaten für KI generieren. Einem Branchenbericht zufolge werden bis zu 75 % der Unternehmen generative KI-Tools zur Erzeugung synthetischer Daten einsetzen. 2
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.