What is synthetic data?

Synthetic data is artificial data created by using different algorithms that mirror the statistical properties of the original data but do not reveal any information regarding real-world events or people.For example, data produced by computer simulations would qualify as synthetic data. This includes applications like music synthesizers, medical imaging, economic models, and flight simulators, where the outputs mimic real-world phenomena but are entirely generated through algorithms.

In what fields is synthetic data commonly used?

Synthetic data is widely used in healthcare, finance, autonomous vehicles, gaming, cybersecurity, and any field where data privacy is crucial or real data is scarce or biased.

What are the limitations of synthetic data?

Limitations include potential inaccuracies if the synthetic data doesn't accurately reflect real-world complexities, the risk of introducing bias, and the need for sophisticated algorithms and expertise to generate high-quality synthetic data.

How does synthetic data relate to data privacy regulations like GDPR?

Synthetic data can help comply with data privacy regulations like GDPR by ensuring that the data used for analysis or AI training doesn't contain personally identifiable information. However, compliance also depends on the methodology used to generate the synthetic data.

Can synthetic data replace real data?

While synthetic data can supplement real data in many scenarios, especially where privacy or data scarcity is a concern, it's not always a complete replacement. The decision to use synthetic versus real data depends on the specific use case, the quality of the synthetic data, and the criticality of accuracy.

Daten Synthetische Daten

Benchmark zur Generierung synthetischer Daten

Cem Dilmegani

aktualisiert am Feb 5, 2026

Siehe unsere ethischen Normen

Wir haben 7 öffentlich verfügbare Generatoren synthetischer Daten von 4 verschiedenen Anbietern anhand eines Validierungsdatensatzes mit 70.000 Stichproben, 4 numerischen und 7 kategorialen Merkmalen verglichen, um ihre Leistung bei der Nachbildung realer Datenmerkmale zu bewerten.

Im Folgenden sehen Sie die Benchmark-Ergebnisse, in denen wir die Generatoren synthetischer Daten statistisch vergleichen.

Loading Chart

Die obige Grafik bewertet die Leistung verschiedener Synthetikdatengeneratoren anhand mehrerer Schlüsselkennzahlen. Bei allen Kennzahlen bedeutet ein niedrigerer Wert eine bessere Leistung, was bedeutet, dass die synthetischen Daten den realen Daten ähnlicher sind.

Für jede Kennzahl werden im Diagramm zwei separate Balken angezeigt:

Durchschnitt: Stellt den durchschnittlichen Fehler- oder Distanzwert über alle Spalten für diese Metrik dar. Er bietet einen guten Überblick über die allgemeine Leistung.
Maximalwert: Stellt den größten Fehler oder die größte Abweichung dar, die in einer einzelnen Spalte für diese Metrik gefunden wurde. Dieser Wert ist entscheidend, um die Schwachstellen oder größten Ungenauigkeiten im synthetischen Datensatz zu identifizieren.

Detailliertere Informationen zu den Kennzahlen finden Sie in der Methodik . Sehen Sie, wofür sie sich am besten eignen:

Warum sind synthetische Daten für Unternehmen wichtig?

Synthetische Daten sind für Unternehmen aus drei Gründen wichtig:

Datenschutz
Produkttests,
und das Training von Algorithmen für maschinelles Lernen.

Branchenführer begannen auch, die Bedeutung datenzentrierter Ansätze für die Entwicklung von KI/ML-Modellen zu diskutieren, zu denen synthetische Daten einen erheblichen Mehrwert beitragen können.

Die Generierung synthetischer Daten ist entscheidend für die Sicherstellung der Datenqualität , insbesondere für den Schutz der Privatsphäre. Synthetische Daten ahmen per Definition die statistischen Eigenschaften realer Daten nach, ohne sensible Informationen preiszugeben. Können synthetische Daten jedoch durch Reverse Engineering so analysiert werden, dass der ursprüngliche Datensatz rekonstruiert wird, untergräbt dies ihren grundlegenden Zweck, die Privatsphäre zu schützen.

Große Sprachmodelle (LLMs) gehören zu den größten Produzenten synthetischer Daten. Zahlreiche Benchmarks für hochmoderne LLMs (SOTA) nutzen diese Modelle, um Testfälle zur Evaluierung anderer LLMs zu generieren. Darüber hinaus werden LLMs selbst häufig mit synthetischen Daten trainiert, wobei sie die Vielfalt und den Umfang künstlicher Datensätze nutzen, um ihre Leistung zu verbessern.

Wie bei den meisten KI-bezogenen Themen ist Deep Learning auch bei der Generierung synthetischer Daten unerlässlich. Die von Deep-Learning-Algorithmen erzeugten synthetischen Daten werden zudem zur Verbesserung anderer Deep-Learning-Algorithmen verwendet.

Wann werden synthetische Daten verwendet?

Unternehmen stehen bei der Auswahl datenschutzfreundlicher Technologien vor der Herausforderung, zwischen Datenschutz und Datennutzen abzuwägen. Daher müssen sie vor einer Investition die Prioritäten ihres Anwendungsfalls festlegen. Synthetische Daten enthalten keine personenbezogenen Informationen; es handelt sich um Beispieldaten mit einer ähnlichen Verteilung wie die Originaldaten.

Obwohl synthetische Daten in manchen Fällen weniger nützlich sein können als reale Daten, können sie auch fast genauso wertvoll sein. So generierte beispielsweise ein Team von Deloitte Consulting 80 % der Trainingsdaten für ein Machine-Learning-Modell durch Datensynthese. Die resultierende Modellgenauigkeit war vergleichbar mit der eines Modells, das mit realen Daten trainiert wurde.

Die Generierung synthetischer Daten kann beim Aufbau präziser Modelle des maschinellen Lernens helfen, insbesondere wenn Unternehmen Daten zum Trainieren von Algorithmen des maschinellen Lernens benötigen und ihre Trainingsdaten stark unausgewogen sind (z. B. wenn mehr als 99 % der Instanzen zu einer Klasse gehören).

Siehe die Liste der Anwendungsfälle für synthetische Daten .

Wie generieren Unternehmen synthetische Daten?

Abbildung 1. Arbeitsablauf zur Veranschaulichung des Prozesses der Generierung synthetischer Daten, einschließlich Nutzenbewertung und Gewährleistung des Datenschutzes.

Quelle: Hasbrown ¹

Unternehmen können unterschiedliche Methoden bevorzugen, wie zum Beispiel Entscheidungsbäume . ² Deep-Learning-Techniken und iteratives proportionales Anpassen ³ um den Datensyntheseprozess durchzuführen. Sie sollten die Methode entsprechend den Anforderungen an die synthetischen Daten und dem gewünschten Nutzengrad der Daten für den jeweiligen Zweck der Datengenerierung auswählen.

Nach der Datensynthese sollten sie den Nutzen der synthetischen Daten durch einen Vergleich mit realen Daten bewerten. Der Prozess der Nutzenbewertung umfasst zwei Phasen:

Allgemeine Vergleiche : Vergleich von Parametern wie Verteilungen und Korrelationskoeffizienten, die aus den beiden Datensätzen gemessen wurden.
Arbeitslastabhängige Nutzenbewertung : Vergleich der Genauigkeit der Ergebnisse für den jeweiligen Anwendungsfall durch Analyse synthetischer Daten.

Welche Techniken gibt es zur Erzeugung synthetischer Daten?

Generierung gemäß Verteilung

Wenn keine realen Daten vorliegen, der Datenanalyst aber ein umfassendes Verständnis der Verteilung des Datensatzes besitzt, kann er eine Zufallsstichprobe einer beliebigen Verteilung generieren, beispielsweise Normal-, Exponential-, Chi-Quadrat-, t-, Lognormal- oder Gleichverteilung. Der Nutzen dieser Technik hängt vom Kenntnisstand des Analysten über die jeweilige Datenumgebung ab.

Anpassung realer Daten an eine bekannte Verteilung

Liegen reale Daten vor, können Unternehmen synthetische Daten generieren, indem sie die am besten passenden Verteilungen für gegebene reale Daten ermitteln. Um reale Daten an eine bekannte Verteilung anzupassen und deren Parameter zu kennen, können Unternehmen die Monte-Carlo-Methode zur Generierung synthetischer Daten verwenden. Diese Methode ist ein Rechenverfahren, das Zufallsstichproben und statistische Modellierung nutzt, um Probleme zu lösen, die zwar prinzipiell deterministisch sein können, aber für direkte analytische Lösungen zu komplex sind. Die Schritte sind:

Problemdefinition : Geben Sie das zu lösende Problem an, das häufig Parameter mit bekannten oder angenommenen Verteilungen beinhaltet.
Zufällige Eingaben generieren : Verwenden Sie Zufallszahlengenerierung, um Eingaben zu erzeugen, oft basierend auf einer Wahrscheinlichkeitsverteilung.
Modell ausführen : Führen Sie Simulationen mit diesen Eingaben durch, um das Ergebnis des Systems oder Prozesses zu bewerten.
Zusammenfassende Ergebnisse : Sammeln Sie die Ergebnisse aller Simulationen und berechnen Sie statistische Kennzahlen wie Mittelwerte, Varianzen oder Wahrscheinlichkeiten.

Die Monte-Carlo-Methode hilft zwar, die beste Anpassung an synthetische Daten zu finden, erfüllt aber nicht immer die Geschäftsanforderungen. In solchen Fällen können Modelle des maschinellen Lernens wie Entscheidungsbäume komplexe, nicht-klassische Verteilungen modellieren. Dadurch lässt sich eine hohe Korrelation zwischen der Generierung synthetischer Daten und den Originaldaten erzielen. Allerdings besteht bei ML-Modellen die Gefahr der Überanpassung, was ihre Fähigkeit zur Generalisierung und zuverlässigen Vorhersage zukünftiger Beobachtungen beeinträchtigen kann.

Unternehmen können die Generierung hybrider synthetischer Daten nutzen, wenn nur ein Teil der realen Daten vorliegt. In diesem Fall generieren Analysten einen Teil des Datensatzes anhand theoretischer Verteilungen und die übrigen Teile auf Basis realer Daten.

Deep Learning

Tiefe generative Modelle wie Variational Autoencoder (VAE) und Generative Adversarial Network (GAN) können synthetische Daten erzeugen.

Variationaler Autoencoder

VAE ist ein unüberwachtes Verfahren, bei dem der Encoder den ursprünglichen Datensatz komprimiert und die Daten an den Decoder überträgt. Der Decoder erzeugt dann eine Ausgabe, die den ursprünglichen Datensatz repräsentiert. Das System wird trainiert, indem die Korrelation zwischen Eingabe- und Ausgabedaten optimiert wird.

Abbildung 2. Encoder-Decoder-Struktur für Latent Space Learning und Content Generation.

Quelle: Eine detaillierte Erklärung der Kerntechnologien generativer KI: Von GANs bis zu Transformers ⁴

Generatives adversarielles Netzwerk

Im GAN-Modell trainieren zwei Netzwerke, ein Generator und ein Diskriminator, das Modell iterativ. Der Generator verwendet zufällige Stichprobendaten und erzeugt daraus einen synthetischen Datensatz. Der Diskriminator vergleicht die synthetisch generierten Daten mit einem realen Datensatz anhand zuvor festgelegter Kriterien.

Abbildung 3. Der GAN-Trainingsprozess: Generator, Diskriminator und Feinabstimmung.

Quelle: Generatives adversarielles Netzwerk ⁵

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Wie erzeugt man synthetische Daten in Python?

Es gibt verschiedene Möglichkeiten, synthetische Daten für einfache Aufgaben in Python zu generieren, und mit etwas Aufwand können diese Methoden auch für komplexe Aufgaben angepasst werden.

1. Grundlegende Zufallsdatengenerierung mit NumPy

2. Generieren von Daten mit spezifischen Verteilungen mithilfe von NumPy

3. Realistische Daten mithilfe der Faker-Bibliothek generieren

4. Generierung von Daten für Klassifizierung und Regression mit scikit-learn

Was sind die besten Vorgehensweisen für die Generierung synthetischer Daten?

Abbildung 4. Bewährte Verfahren zur Generierung synthetischer Daten.

1. Sicherstellen, dass die synthetischen Daten die realen Daten für die Anwendung widerspiegeln.

Der Nutzen synthetischer Daten hängt von der verwendeten Erzeugungsmethode ab. Sie müssen den jeweiligen Anwendungsfall analysieren und entscheiden, ob die generierten synthetischen Daten für diesen Anwendungsfall geeignet sind.

Beispiel aus dem realen Leben:
JP Morgan nutzt synthetische Daten im Finanzwesen, um präzise Finanzmodelle zu erstellen und gleichzeitig die Kundendaten zu schützen. Der Ansatz umfasst das Testen der synthetischen Daten, um sicherzustellen, dass sie die realen Merkmale der Finanzdatensätze widerspiegeln. Dies ist besonders wichtig, wenn synthetische Daten zum Trainieren von Betrugserkennungsalgorithmen verwendet werden, da sich die synthetischen Daten wie reale Transaktionen verhalten müssen, um betrügerische Muster zu erkennen. ⁶

2. Mit sauberen Daten arbeiten

Saubere Daten sind eine unerlässliche Voraussetzung für die Generierung synthetischer Daten. Werden die Daten vor der Synthese nicht bereinigt und aufbereitet, kann es zu unbrauchbaren Ergebnissen kommen. Achten Sie bei der Datenaufbereitung darauf, die folgenden Prinzipien zu beachten:

Datenbereinigung : Entfernen ungenauer, falsch formatierter, redundanter oder fehlender Daten aus einem Datensatz
Datenharmonisierung: Zusammenführung von Daten aus verschiedenen Quellen und Bereitstellung eines vergleichbaren Verständnisses der Informationen aus unterschiedlichen Studien für die Kunden.

Beispiel aus dem realen Leben:

Das Institut für Informatik, Datenwissenschaft und Biostatistik (I2DB) der Washington University in St. Louis führte 2018 die MDClone-Plattform ein. In einer wegweisenden Studie bestätigte es, dass synthetische Daten dieselben Analyseergebnisse wie reale Daten liefern und gleichzeitig die Privatsphäre wahren. Diese Initiative ist Teil der umfassenderen Strategie der Universität, datengetriebene Forschung durch die Bereitstellung sicherer und innovativer Ressourcen für die akademische Gemeinschaft zu fördern. ⁷

Vor der Erstellung synthetischer Daten werden Patientendaten bereinigt. Dies umfasst die Entfernung von Fehlern und Duplikaten sowie die Sicherstellung der Datenkonsistenz. Durch die Bereinigung und Harmonisierung elektronischer Patientenakten (EHRs) aus verschiedenen Abteilungen gewährleistet MDClone, dass die synthetischen Versionen dieser Datensätze die Nützlichkeit realer Daten für die medizinische Forschung beibehalten und gleichzeitig die Privatsphäre der Patienten schützen.

3. Bei Bedarf auf Lieferanten zurückgreifen.

Ermitteln Sie die Fähigkeiten Ihres Unternehmens im Bereich der Datensynthese und lagern Sie diese basierend auf Ihren Kompetenzlücken aus. Die beiden wichtigsten Schritte sind Datenaufbereitung und Datensynthese. Anbieter können beide Schritte automatisieren.

4. Sicherstellen, dass synthetische Daten den Datenschutzbestimmungen entsprechen

Bei der Erstellung synthetischer Daten ist der Schutz der Privatsphäre der Personen, deren Daten zur Erstellung des synthetischen Datensatzes verwendet werden, von entscheidender Bedeutung. Die Einhaltung von Datenschutzbestimmungen wie der DSGVO (Datenschutz-Grundverordnung), dem EU-Gesetz über künstliche Intelligenz (EU AI Act) und HIPAA ist zwingend erforderlich. Synthetische Daten müssen vollständig von realen Personen getrennt sein und dürfen nicht auf die Originaldatensätze zurückgeführt werden können.

Reale Datensätze enthalten häufig sensible Informationen, insbesondere im Gesundheitswesen, im Finanzsektor und in der Telekommunikation. Werden synthetische Daten ohne robuste Datenschutzmaßnahmen generiert, kann dies rechtliche Konsequenzen und einen Vertrauensverlust bei den Kunden nach sich ziehen. Synthetische Daten sind kein Graubereich mehr und müssen gemäß EU-KI-Gesetz (gültig ab August 2026) gekennzeichnet und dokumentiert werden. ⁸

Fallstudie:

Einige Tools zur Generierung synthetischer Daten, wie beispielsweise Synthesized, unterstützen die Einhaltung von Vorschriften in Echtzeit. Sie nutzen einen „Data-as-Code“-Ansatz, der es Unternehmen ermöglicht, komplexe Compliance-Regeln direkt in den Datengenerierungsprozess zu integrieren. Dadurch wird automatisch sichergestellt, dass die Testdaten aktuell sind und allen rechtlichen Anforderungen entsprechen. ⁹

5-Bias-Minderung

Die Generierung synthetischer Daten sollte darauf abzielen, Verzerrungen, die in realen Datensätzen vorhanden sind, nicht einzuführen oder zu verstärken. Dies beinhaltet die Überwachung potenzieller Verzerrungen in Merkmalen wie ethnischer Zugehörigkeit, Geschlecht oder sozioökonomischem Status, die unbehandelt zu diskriminierenden Ergebnissen führen können. Die Minderung von Verzerrungen ist entscheidend für die Gewährleistung fairer und gerechter Modelle.

Verzerrte Daten führen zu verzerrten Modellen, die wiederum soziale Ungleichheiten verstärken können. Beispielsweise kann ein KI-gestütztes Einstellungstool, das mit verzerrten Daten trainiert wurde, Bewerber bestimmter Bevölkerungsgruppen überproportional ablehnen. Die Gewährleistung ausgewogener und unvoreingenommener synthetischer Daten trägt zur Entwicklung fairer KI-Modelle bei.

Benchmark-Methodik zur Generierung synthetischer Daten

Wir führten den Benchmark durch, um die Leistung von sieben öffentlich verfügbaren Generatoren für synthetische Daten anhand eines separaten Datensatzes zu evaluieren. Der Datensatz umfasst 70.000 Stichproben und beinhaltet vier numerische und sieben kategoriale Merkmale.

Datenaufbereitung

Der Datensatz wurde zunächst homogenisiert, d. h. die Merkmalsverteilungen waren im gesamten Datensatz einheitlich, wodurch zusätzliche Vorverarbeitungsschritte wie Normalisierung oder der Umgang mit fehlenden Werten entfielen. Zur Vorbereitung der Daten für Training und Evaluierung führten wir die folgenden Schritte durch:

Permutation : Der Datensatz wurde zufällig permutiert, um sicherzustellen, dass die Datenpunkte gleichmäßig verteilt sind und um jegliche Reihenfolgeverzerrung zu vermeiden.

Aufteilung : Der gemischte Datensatz wurde annähernd in zwei gleich große Hälften aufgeteilt:
- Trainingsdaten: Zur Schulung der Generatoren für synthetische Daten wurden 35.000 Stichproben verwendet.
- Holdout-Daten: 35.000 Stichproben, die für die Auswertung reserviert wurden, um die Qualität der generierten synthetischen Daten anhand unbekannter realer Daten zu beurteilen.

Da der Datensatz homogenisiert wurde, waren die Verteilungen der Merkmale in den Trainings- und Validierungsdatensätzen ähnlich, wodurch ein fairer Vergleich gewährleistet war.

Training von Generatoren für synthetische Daten

Für diesen Benchmark wählten wir 7 Generatoren für synthetische Daten aus: YData, Mostly AI, Gretel und 4 Generatoren aus Synthetic Data Vault. Der Trainingsprozess für jeden Generator verlief wie folgt:

SDV und YData : Wir verwendeten die von SDV und YData bereitgestellten SDKs und Modelle, die mit ihren Standardeinstellungen konfiguriert wurden, um Konsistenz und Reproduzierbarkeit zu gewährleisten.
Mostly AI und Gretel : Diese Generatoren wurden mit Hilfe ihrer Plattformen trainiert, wobei die Einstellungen gemäß den Empfehlungen der Anbieter konfiguriert wurden.

Jeder Generator wurde ausschließlich mit den Trainingsdaten (35.000 Stichproben) trainiert, um synthetische Datensätze zu erzeugen, die die Eigenschaften der realen Daten nachahmen.

Auswertung

Nach dem Training erzeugte jeder Generator für synthetische Daten einen synthetischen Datensatz. Wir bewerteten die Qualität dieser synthetischen Datensätze, indem wir sie sowohl mit den Trainingsdaten (um zu beurteilen, wie gut die Generatoren die Verteilung im Trainingsdatensatz erfassten) als auch mit den Validierungsdaten (um die Generalisierung auf unbekannte Daten zu bewerten) verglichen.

Wir haben die Qualität der synthetischen Daten anhand von drei Kennzahlen bewertet:

Korrelationsdistanz (Δ)

Misst die absolute Differenz zwischen Korrelationsmatrizen numerischer Merkmale in realen und synthetischen Datensätzen und beurteilt, wie gut Beziehungen (z. B. zwischen Hausgröße und Energieverbrauch) erhalten bleiben.

Skala: 0 (perfekt) bis 1 (schlechtestes Ergebnis).
Zweck: Gewährleistet den Erhalt struktureller Beziehungen, was für Aufgaben wie die Regression unerlässlich ist.

Kolmogorov-Smirnov-Distanz (K)

Misst die maximale Differenz zwischen kumulativen Verteilungsfunktionen (CDFs) numerischer Merkmale und bewertet, wie gut deren Randverteilungen (z. B. die Verteilung des Kundenalters) erfasst werden.

Skala: 0 (identisch) bis 1 (völlig unterschiedlich).
Zweck: Gewährleistet realistische numerische Verteilungen, die für Simulationen oder statistische Analysen von entscheidender Bedeutung sind.

Totale Variationsdistanz (TVD)

Misst die Differenz zwischen Wahrscheinlichkeitsverteilungen kategorialer Merkmale, berechnet als die Hälfte der Summe der absoluten Differenzen (z. B. Verteilung der Kundenregionen).

Skala: 0 (identisch) bis 1 (völlig unterschiedlich).
Zweck: Bewertet, wie gut kategoriale Verteilungen erfasst werden, was für Aufgaben wie die Klassifizierung wichtig ist.

Modellbasierte Bewertung

Statistische Kennzahlen bieten einen nützlichen ersten Einblick in die Qualität synthetischer Daten. Sie reichen jedoch allein nicht aus. Die aussagekräftigste Bewertung erfolgt modellbasiert und konzentriert sich darauf, wie gut synthetische Daten in realen Trainingsszenarien abschneiden. Anders ausgedrückt: Die zentrale Frage ist, ob synthetische Daten die Modellleistung verbessern.

Evaluierungsaufbau

Wir werteten synthetische Daten aus, die mit den Standardeinstellungen der jeweiligen Synthesizer erzeugt wurden. Unsere Analyse konzentrierte sich auf zwei Aspekte:

Overfitting , um zu prüfen, ob die synthetischen Daten zu ähnlich zu den ursprünglichen Trainingsdaten waren.
Praktischer Nutzen , gemessen an der Modellleistung während des Trainings.

Ergebnisse der Datenanreicherung

Wir testeten, ob die Hinzufügung synthetischer Daten zum Trainingsdatensatz die Genauigkeit verbessern kann. Die synthetischen Daten wurden schrittweise hinzugefügt, von 10 % bis zu 100 % der ursprünglichen Größe des Trainingsdatensatzes.

In allen Fällen sank die Modellgenauigkeit. Selbst die geringste Ergänzung (10 %) führte zu einem Leistungsabfall. Mit zunehmender Menge an synthetischen Daten verstärkte sich dieser Abfall. Dieses Muster deutet darauf hin, dass die synthetischen Daten zusätzliches Rauschen in den Trainingsprozess einbrachten.

Auswirkungen der Datenqualität

Das Ausmaß des Leistungsabfalls hing von der Qualität der synthetischen Daten ab. Synthesizer mit niedrigeren Benchmark-Fehlerraten erzeugten weniger Rauschen und verursachten geringere Genauigkeitseinbußen. Dies deutet darauf hin, dass qualitativ hochwertigere synthetische Daten die in unseren Tests beobachteten negativen Effekte zwar abmildern, aber nicht vollständig beseitigen können.

Einschränkungen und praktische Überlegungen

Wir haben keine Leistungsergebnisse für Modelle berichtet, die mit erweiterten Datensätzen trainiert wurden. Diese Modelle wurden mit Standardkonfigurationen ohne Hyperparameter-Optimierung trainiert. Da der Einsatz in der Praxis eine sorgfältige Modelloptimierung erfordert, würde die Einbeziehung solcher Ergebnisse keinen fairen oder realistischen Vergleich ermöglichen.

Wichtigste Erkenntnisse

Bei modellbasierten Evaluierungen, insbesondere bei der Kombination von realen und synthetischen Daten, ist die Menge der synthetischen Daten von Bedeutung. Zu viele synthetische Daten können die Aussagekraft der realen Daten überdecken und die Lerneffektivität verringern. Ohne sorgfältige Anpassung und Optimierung kann dies zu irreführenden Schlussfolgerungen über den tatsächlichen Wert der synthetischen Daten führen.

Mögliche Gründe für die Leistungsunterschiede

Statistischer Ansatz: YData konzentriert sich auf die Maximierung der statistischen Genauigkeit, was die insgesamt höchste Genauigkeit erklärt. SDV-Modelle unterscheiden sich hinsichtlich ihrer Technik (Copula vs. GAN), was zu größeren Leistungsunterschieden und höheren Fehlern im schlimmsten Fall führt.
Benutzerfreundlichkeit vs. Kontrolle: MOSTLY AI priorisiert Benutzerfreundlichkeit und Automatisierung und verzichtet dafür auf detaillierte statistische Kontrolle zugunsten einer schnelleren Einrichtung. Gretel hingegen legt Wert auf Anpassungsmöglichkeiten, die bei Optimierung die Ergebnisse verbessern können, mit Standardeinstellungen jedoch hinter den Erwartungen zurückbleiben.
Architektur: Copula-basierte Modelle erhalten Verteilungen und Korrelationen bei tabellarischen Daten besser, während GAN-basierte Modelle (CTGAN, CopulaGAN) mehr Varianz einführen und dadurch den Fehler bei einigen Merkmalen erhöhen.
Standardkonfigurationen: Alle Tools wurden mit den Standardeinstellungen getestet. Generatoren, die für die individuelle Anpassung konzipiert sind, profitieren stärker von Optimierungen, was teilweise ihre schwächeren Benchmark-Ergebnisse im Auslieferungszustand erklärt.

FAQs

Synthetische Daten sind künstliche Daten, die mithilfe verschiedener Algorithmen erzeugt werden und die statistischen Eigenschaften der Originaldaten widerspiegeln, aber keine Informationen über reale Ereignisse oder Personen preisgeben.
Beispielsweise gelten Daten, die durch Computersimulationen erzeugt werden, als synthetische Daten. Dazu gehören Anwendungen wie Musiksynthesizer, medizinische Bildgebung, Wirtschaftsmodelle und Flugsimulatoren, deren Ergebnisse reale Phänomene nachahmen, aber vollständig durch Algorithmen generiert werden.

Synthetische Daten werden in großem Umfang im Gesundheitswesen, im Finanzwesen, bei autonomen Fahrzeugen, in der Spieleindustrie, in der Cybersicherheit und überall dort eingesetzt, wo Datenschutz von entscheidender Bedeutung ist oder reale Daten knapp oder verzerrt sind.

Zu den Einschränkungen gehören mögliche Ungenauigkeiten, wenn die synthetischen Daten die Komplexität der realen Welt nicht genau widerspiegeln, das Risiko der Einführung von Verzerrungen und der Bedarf an ausgefeilten Algorithmen und Fachwissen zur Erzeugung qualitativ hochwertiger synthetischer Daten.

Synthetische Daten können dazu beitragen, Datenschutzbestimmungen wie die DSGVO einzuhalten, indem sie sicherstellen, dass die für Analysen oder das KI-Training verwendeten Daten keine personenbezogenen Daten enthalten. Die Einhaltung hängt jedoch auch von der Methodik ab, mit der die synthetischen Daten generiert werden.

Synthetische Daten können reale Daten in vielen Szenarien ergänzen, insbesondere wenn Datenschutz oder Datenknappheit eine Rolle spielen, sie sind aber nicht immer ein vollständiger Ersatz. Die Entscheidung für synthetische oder reale Daten hängt vom jeweiligen Anwendungsfall, der Qualität der synthetischen Daten und der Wichtigkeit der Genauigkeit ab.

Referenzlinks

Data Anonymization | The Hashbrown Blog

https://en.wikipedia.org/wiki/Decision_tree_learning

https://en.wikipedia.org/wiki/Iterative_proportional_fitting

生成式AI核心技术详解：从GANs到Transformers-腾讯云开发者社区-腾讯云

Generative Adversarial Network. Basics of GAN | by DARSHAN DILIPBHAI PATEL | Medium

Medium

Generating synthetic data in finance: opportunities, challenges and pitfalls

MDClone 101 | Informatics, Data Science & Biostatistics | Washington University in St. Louis

Production-like test data - Synthesized

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Kommentare 2

Teilen Sie Ihre Gedanken

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Jaiber

Dec 15, 2020 at 15:50

It is SimPy not SymPy - the two are very different..

Cem Dilmegani

Dec 19, 2020 at 06:44

Hi Jaiber, thank you for your comment, we also notice a lot of typos on the web. However, we had mentioned above that SymPy can help generate synthetic data with symbolic expressions, I clarified the wording a bit more. That seems correct to me. I believe you mean that SimPy discrete event simulation can be used to create synthetic data, too, right? If you have an example, happy to add, too.

Shams

Oct 06, 2020 at 19:09

How I can generate synthetic data given that I want the data on the tail to follow a specific distribution and data on the head of follows a different distribution?

Cem Dilmegani

Oct 07, 2020 at 05:31

You could combine distributions to create a single distribution which you can use for data generation.

Als nächstes lesen

Synthetische DatenMär 18

Benchmark zur Generierung synthetischer Daten

Warum sind synthetische Daten für Unternehmen wichtig?

Wann werden synthetische Daten verwendet?

Wie generieren Unternehmen synthetische Daten?

Welche Techniken gibt es zur Erzeugung synthetischer Daten?

Generierung gemäß Verteilung

Anpassung realer Daten an eine bekannte Verteilung

Deep Learning

Variationaler Autoencoder

Generatives adversarielles Netzwerk

Wie erzeugt man synthetische Daten in Python?

1. Grundlegende Zufallsdatengenerierung mit NumPy

2. Generieren von Daten mit spezifischen Verteilungen mithilfe von NumPy

3. Realistische Daten mithilfe der Faker-Bibliothek generieren

4. Generierung von Daten für Klassifizierung und Regression mit scikit-learn

Was sind die besten Vorgehensweisen für die Generierung synthetischer Daten?

1. Sicherstellen, dass die synthetischen Daten die realen Daten für die Anwendung widerspiegeln.

2. Mit sauberen Daten arbeiten

3. Bei Bedarf auf Lieferanten zurückgreifen.

4. Sicherstellen, dass synthetische Daten den Datenschutzbestimmungen entsprechen

5-Bias-Minderung

Benchmark-Methodik zur Generierung synthetischer Daten

Datenaufbereitung

Training von Generatoren für synthetische Daten

Auswertung

Korrelationsdistanz (Δ)

Kolmogorov-Smirnov-Distanz (K)

Totale Variationsdistanz (TVD)

Modellbasierte Bewertung

Evaluierungsaufbau

Ergebnisse der Datenanreicherung

Auswirkungen der Datenqualität

Einschränkungen und praktische Überlegungen

Wichtigste Erkenntnisse

Mögliche Gründe für die Leistungsunterschiede

FAQs

Was sind synthetische Daten?

In welchen Bereichen werden synthetische Daten häufig verwendet?

Welche Grenzen haben synthetische Daten?

In welchem ​​Verhältnis stehen synthetische Daten zu Datenschutzbestimmungen wie der DSGVO?

Können synthetische Daten reale Daten ersetzen?

Referenzlinks

Kommentare 2

Teilen Sie Ihre Gedanken

Als nächstes lesen

Die 3 besten Generatoren für synthetische Dokumente im Vergleich

Synthetische Nutzer erklärt: Die 7 besten KI-Nutzerforschungstools

Die 25 wichtigsten Anwendungsfälle für synthetische Daten