What is synthetic data?

Synthetic data is artificial data created by using different algorithms that mirror the statistical properties of the original data but do not reveal any information regarding real-world events or people.For example, data produced by computer simulations would qualify as synthetic data. This includes applications like music synthesizers, medical imaging, economic models, and flight simulators, where the outputs mimic real-world phenomena but are entirely generated through algorithms.

In what fields is synthetic data commonly used?

Synthetic data is widely used in healthcare, finance, autonomous vehicles, gaming, cybersecurity, and any field where data privacy is crucial or real data is scarce or biased.

What are the limitations of synthetic data?

Limitations include potential inaccuracies if the synthetic data doesn't accurately reflect real-world complexities, the risk of introducing bias, and the need for sophisticated algorithms and expertise to generate high-quality synthetic data.

How does synthetic data relate to data privacy regulations like GDPR?

Synthetic data can help comply with data privacy regulations like GDPR by ensuring that the data used for analysis or AI training doesn't contain personally identifiable information. However, compliance also depends on the methodology used to generate the synthetic data.

Can synthetic data replace real data?

While synthetic data can supplement real data in many scenarios, especially where privacy or data scarcity is a concern, it's not always a complete replacement. The decision to use synthetic versus real data depends on the specific use case, the quality of the synthetic data, and the criticality of accuracy.

Données Données synthétiques

Analyse comparative de la génération de données synthétiques

Cem Dilmegani

mis à jour le Fév 5, 2026

Consultez notre normes éthiques

Nous avons comparé 7 générateurs de données synthétiques disponibles publiquement provenant de 4 fournisseurs distincts, en utilisant un ensemble de données de test comprenant 70 000 échantillons, avec 4 caractéristiques numériques et 7 caractéristiques catégorielles, afin d'évaluer leurs performances dans la reproduction des caractéristiques des données du monde réel.

Vous trouverez ci-dessous les résultats des tests de référence, où nous comparons statistiquement les générateurs de données synthétiques.

Loading Chart

Le graphique ci-dessus évalue les performances de différents générateurs de données synthétiques à l'aide de plusieurs indicateurs clés. Pour chaque indicateur, une valeur plus faible indique de meilleures performances, c'est-à-dire que les données synthétiques sont plus proches des données réelles.

Pour chaque indicateur, le graphique affiche deux barres distinctes :

Moyenne : Représente l’erreur moyenne ou le score de distance moyen sur l’ensemble des colonnes pour cette métrique. Elle offre une bonne vue d’ensemble des performances générales.
Valeur maximale : représente l’erreur ou la distance maximale observée dans une colonne pour cette métrique. Cette valeur est essentielle pour identifier les points faibles ou les plus grandes imprécisions dans l’ensemble de données synthétiques.

Vous trouverez des informations plus détaillées sur les indicateurs dans la méthodologie . Découvrez leurs principaux domaines d'application :

Pourquoi les données synthétiques sont-elles importantes pour les entreprises ?

Les données synthétiques sont importantes pour les entreprises pour trois raisons :

confidentialité,
tests de produits,
et la formation d'algorithmes d'apprentissage automatique.

Les leaders du secteur ont également commencé à discuter de l'importance des approches centrées sur les données pour le développement de modèles d'IA/ML, auxquelles les données synthétiques peuvent apporter une valeur ajoutée significative.

La génération de données synthétiques est essentielle pour garantir la qualité des données , notamment en matière de protection de la vie privée. Par conception, les données synthétiques imitent les propriétés statistiques des données réelles sans exposer d'informations sensibles. Cependant, si l'on peut reconstituer les données originales à partir de données synthétiques, leur objectif fondamental de protection de la vie privée est compromis.

Les grands modèles de langage (LLM) figurent parmi les plus importants producteurs de données synthétiques. De nombreux benchmarks pour les LLM de pointe s'appuient sur ces modèles pour générer des cas de test permettant d'évaluer d'autres LLM. De plus, les LLM eux-mêmes sont souvent entraînés sur des données synthétiques, tirant parti de la diversité et de l'échelle des ensembles de données artificiels pour améliorer leurs performances.

Comme dans la plupart des domaines liés à l'IA, l'apprentissage profond est également essentiel à la génération de données synthétiques. Ces données synthétiques, créées par des algorithmes d'apprentissage profond, servent aussi à améliorer d'autres algorithmes de ce type.

Quand utilise-t-on des données synthétiques ?

Lorsqu'elles choisissent une technologie renforçant la confidentialité des données, les entreprises doivent trouver un compromis entre protection et utilité de ces dernières. Elles doivent donc définir les priorités de leur cas d'usage avant d'investir. Les données synthétiques ne contiennent aucune information personnelle ; il s'agit de données d'exemple dont la distribution est similaire à celle des données originales.

Bien que les données synthétiques puissent être moins utiles que les données réelles dans certains cas, elles peuvent aussi s'avérer presque aussi précieuses. Par exemple, une équipe de Deloitte Consulting a généré 80 % des données d'entraînement d'un modèle d'apprentissage automatique par synthèse. La précision du modèle obtenu était similaire à celle d'un modèle entraîné sur des données réelles.

La génération de données synthétiques peut aider à construire des modèles d'apprentissage automatique précis, en particulier lorsque les entreprises ont besoin de données pour entraîner des algorithmes d'apprentissage automatique et que leurs données d'entraînement sont fortement déséquilibrées (par exemple, plus de 99 % des instances appartiennent à une seule classe).

Consultez la liste des cas d'utilisation des données synthétiques .

Comment les entreprises génèrent-elles des données synthétiques ?

Figure 1. Flux de travail illustrant le processus de génération de données synthétiques, y compris l'évaluation de l'utilité et l'assurance de la confidentialité.

Source : Hasbrown ¹

Les entreprises peuvent privilégier différentes méthodes, telles que les arbres de décision , ² techniques d'apprentissage profond et ajustement proportionnel itératif ³ Pour exécuter le processus de synthèse des données, il convient de choisir la méthode en fonction des exigences relatives aux données synthétiques et du niveau d'utilité souhaité pour l'objectif spécifique de leur génération.

Après la synthèse des données, il convient d'évaluer l'utilité des données synthétiques en les comparant aux données réelles. Ce processus d'évaluation comporte deux étapes :

Comparaisons générales : Comparaison de paramètres tels que les distributions et les coefficients de corrélation mesurés à partir des deux ensembles de données
Évaluation de l'utilité en fonction de la charge de travail : comparaison de la précision des résultats pour un cas d'utilisation spécifique par l'analyse de données synthétiques

Quelles sont les techniques de génération de données synthétiques ?

Générer selon la distribution

Lorsque les données réelles sont inexistantes mais que l'analyste de données comprend parfaitement la distribution probable des données, il peut générer un échantillon aléatoire suivant n'importe quelle distribution, comme la loi normale, exponentielle, du χ², de Student, lognormale ou uniforme. L'utilité de ces données synthétiques varie selon le niveau de connaissance de l'analyste concernant l'environnement de données spécifique.

Ajustement de données réelles à une distribution connue

Si des données réelles sont disponibles, les entreprises peuvent générer des données synthétiques en déterminant les distributions les mieux adaptées à ces données. Si elles souhaitent ajuster des données réelles à une distribution connue et en connaissent les paramètres, elles peuvent utiliser la méthode de Monte-Carlo. Cette méthode est une technique de calcul qui utilise l'échantillonnage aléatoire et la modélisation statistique pour résoudre des problèmes qui, bien que déterministes en principe, sont trop complexes pour être résolus par une analyse directe. Les étapes sont les suivantes :

Définir le problème : Spécifier le problème à résoudre, impliquant souvent des paramètres dont les distributions sont connues ou supposées.
Générer des entrées aléatoires : Utiliser la génération de nombres aléatoires pour créer des entrées, souvent basées sur une distribution de probabilité.
Exécuter le modèle : Effectuer des simulations à l’aide de ces données d’entrée afin d’évaluer le résultat du système ou du processus.
Résultats agrégés : Rassemblez les résultats de toutes les simulations et calculez des mesures statistiques telles que les moyennes, les variances ou les probabilités.

La méthode de Monte-Carlo permet de trouver le modèle le plus adapté aux données synthétiques, mais elle ne répond pas toujours aux besoins de l'entreprise. Les modèles d'apprentissage automatique, tels que les arbres de décision, peuvent modéliser des distributions complexes et non classiques dans de tels cas. Cela permet de générer des données synthétiques fortement corrélées aux données originales. Cependant, les modèles d'apprentissage automatique risquent le surapprentissage, ce qui peut réduire leur capacité à généraliser et à prédire de manière fiable les observations futures.

Les entreprises peuvent recourir à la génération de données synthétiques hybrides lorsqu'elles ne disposent que d'une partie des données réelles. Dans ce cas, les analystes génèrent une partie des données à partir de distributions théoriques et l'autre partie à partir de données réelles.

Utilisation de l'apprentissage profond

Les modèles génératifs profonds tels que l'auto-encodeur variationnel (VAE) et le réseau antagoniste génératif (GAN) peuvent générer des données synthétiques.

Auto-encodeur variationnel

Le VAE est une méthode non supervisée dans laquelle l'encodeur compresse l'ensemble de données original en une structure plus compacte et transmet les données au décodeur. Ce dernier génère ensuite une sortie qui représente l'ensemble de données original. Le système est entraîné en optimisant la corrélation entre les données d'entrée et de sortie.

Figure 2. Structure encodeur-décodeur pour l'apprentissage de l'espace latent et la génération de contenu.

Source : Explication détaillée des technologies fondamentales de l'IA générative : des GAN aux Transformers ⁴

réseau antagoniste génératif

Dans le modèle GAN, deux réseaux, un générateur et un discriminateur, entraînent le modèle de manière itérative. Le générateur utilise des données d'échantillonnage aléatoires pour créer un jeu de données synthétiques. Le discriminateur compare ces données synthétiques à un jeu de données réel en fonction de critères préalablement définis.

Figure 3. Le processus d'entraînement du GAN : générateur, discriminateur et réglage fin.

Source : Réseau antagoniste génératif ⁵

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Comment générer des données synthétiques en Python ?

Il existe plusieurs façons de générer des données synthétiques pour des tâches simples en Python, et avec un peu d'effort, ces méthodes peuvent également être adaptées à des tâches complexes.

1. Génération de données aléatoires de base à l'aide de NumPy

2. Générer des données avec des distributions spécifiques à l'aide de NumPy

3. Générer des données réalistes à l'aide de la bibliothèque Faker

4. Génération de données pour la classification et la régression à l'aide de scikit-learn

Quelles sont les meilleures pratiques pour la génération de données synthétiques ?

Figure 4. Meilleures pratiques pour la génération de données synthétiques.

1- S'assurer que les données synthétiques reflètent les données réelles de l'application

L'utilité des données synthétiques varie selon la technique utilisée pour leur génération. Il est nécessaire d'analyser le cas d'utilisation et de déterminer si les données synthétiques générées sont adaptées à ce cas spécifique.

Exemple concret :
JP Morgan a recours aux données synthétiques en finance pour générer des modèles financiers précis tout en préservant la confidentialité des données de ses clients. Son approche consiste notamment à tester ces données synthétiques afin de garantir qu'elles reflètent les caractéristiques réelles de ses ensembles de données financières. Ceci est particulièrement important lors de l'utilisation de données synthétiques pour entraîner des algorithmes de détection de fraude, car ces données doivent se comporter comme des transactions réelles pour identifier les schémas frauduleux. ⁶

2- Travailler avec des données propres

Des données propres sont indispensables à la génération de données synthétiques. Sans nettoyage et préparation préalables, les résultats risquent d'être fortement biaisés. Lors de la préparation des données, veillez à appliquer les principes suivants :

Nettoyage des données : élimination des données inexactes, mal formatées, redondantes ou manquantes d'un ensemble de données
Harmonisation des données : Synthétiser les données provenant de plusieurs sources et fournir aux clients une compréhension comparable des informations issues de diverses recherches.

Exemple concret :

L'Institut d'informatique, de science des données et de biostatistique (I2DB) de l'Université Washington de Saint-Louis a adopté la plateforme MDClone en 2018. Une étude de référence a confirmé que les données synthétiques peuvent produire les mêmes résultats analytiques que les données réelles, tout en préservant la confidentialité. Cette initiative s'inscrit dans la stratégie globale de l'université visant à promouvoir la recherche axée sur les données en fournissant à la communauté universitaire des ressources sécurisées et innovantes. ⁷

Avant la création de données synthétiques, les dossiers patients sont nettoyés : les erreurs et les doublons sont supprimés et les données sont harmonisées. En nettoyant et en harmonisant les dossiers médicaux électroniques (DME) de différents services, MDClone garantit que les versions synthétiques de ces dossiers conservent l’utilité des données réelles pour la recherche médicale, tout en protégeant la confidentialité des patients.

3- Faites appel aux fournisseurs si nécessaire

Identifiez les capacités de votre organisation en matière de données synthétiques et externalisez les tâches en fonction de vos lacunes. La préparation et la synthèse des données constituent deux étapes essentielles. Les fournisseurs peuvent automatiser ces deux étapes.

4- S'assurer que les données synthétiques sont conformes à la réglementation sur la protection de la vie privée

Lors de la génération de données synthétiques, il est essentiel de garantir la confidentialité des données des personnes dont les données servent à leur création. Le respect des réglementations relatives à la protection des données, telles que le RGPD (Règlement général sur la protection des données), la loi européenne sur l'intelligence artificielle et la loi HIPAA, est obligatoire. Les données synthétiques doivent être totalement dissociées de toute personne réelle et il ne doit exister aucun moyen de les relier aux enregistrements originaux.

Les ensembles de données réelles contiennent souvent des informations sensibles, notamment dans les secteurs de la santé, de la finance et des télécommunications. La génération de données synthétiques sans mesures de protection de la vie privée robustes peut entraîner des conséquences juridiques et une perte de confiance des clients. Les données synthétiques ne constituent plus une zone grise et doivent être étiquetées et documentées conformément à la réglementation européenne sur l'IA (en vigueur depuis août 2026). ⁸

Étude de cas :

Certains outils de génération de données synthétiques, comme Synthesized, facilitent la conformité en temps réel. Ils utilisent une approche « Données en tant que code », permettant aux entreprises d'intégrer des règles de conformité complexes directement dans le processus de génération des données. Ceci garantit automatiquement que les données de test sont à jour et conformes à toutes les exigences légales. ⁹

5-Atténuation des biais

La génération de données synthétiques doit viser à éviter d'introduire ou de perpétuer les biais présents dans les ensembles de données réelles. Cela implique de surveiller les biais potentiels liés à des attributs tels que l'origine ethnique, le sexe ou le statut socio-économique, qui pourraient conduire à des résultats discriminatoires s'ils ne sont pas contrôlés. L'atténuation des biais est essentielle pour garantir des modèles justes et équitables.

Des données biaisées engendrent des modèles biaisés, qui à leur tour peuvent perpétuer les inégalités sociales. Par exemple, un outil de recrutement basé sur l'IA et entraîné sur des données biaisées risque de rejeter de manière disproportionnée les candidats issus de certains groupes démographiques. Garantir l'équilibre et l'objectivité des données synthétiques contribue à l'élaboration de modèles d'IA plus justes.

Méthodologie de référence pour la génération de données synthétiques

Nous avons réalisé un test de performance sur un ensemble de données de validation afin d'évaluer les performances de sept générateurs de données synthétiques disponibles publiquement. Cet ensemble comprend 70 000 échantillons et quatre variables numériques et sept variables catégorielles.

Préparation des données

L'ensemble de données a d'abord été homogénéisé, c'est-à-dire que la distribution des caractéristiques était cohérente, ce qui a permis d'éviter tout prétraitement supplémentaire, comme la normalisation ou la gestion des valeurs manquantes. Pour préparer les données à l'entraînement et à l'évaluation, nous avons procédé comme suit :

Mélange aléatoire : L’ensemble de données a été mélangé aléatoirement afin de garantir une distribution uniforme des points de données et d’éviter tout biais d’ordre.

Division : L'ensemble de données mélangé a été divisé en deux moitiés à peu près égales :
- Données d'entraînement : 35 000 échantillons ont été utilisés pour entraîner les générateurs de données synthétiques.
- Données de test : 35 000 échantillons réservés à l’évaluation afin d’apprécier la qualité des données synthétiques générées par rapport à des données réelles non vues.

L'homogénéisation des données a permis de rendre similaires les distributions des caractéristiques dans les ensembles d'entraînement et de validation, garantissant ainsi une comparaison équitable.

Générateurs de données synthétiques pour la formation

Nous avons sélectionné 7 générateurs de données synthétiques pour ce test de performance : YData, Mostly AI, Gretel et 4 générateurs de Synthetic Data Vault. Le processus d’entraînement de chaque générateur était le suivant :

SDV et YData : Nous avons utilisé les SDK et les modèles fournis par SDV et YData, configurés avec leurs paramètres par défaut afin de garantir la cohérence et la reproductibilité.
Principalement AI et Gretel : Ces générateurs ont été entraînés à l'aide de leurs plateformes, avec des paramètres configurés conformément aux recommandations des fournisseurs.

Chaque générateur a été entraîné exclusivement sur les données d'entraînement (35 000 échantillons) pour générer des ensembles de données synthétiques qui imitent les caractéristiques des données réelles.

Évaluation

Après l'entraînement, chaque générateur de données synthétiques a produit un jeu de données synthétiques. Nous avons évalué la qualité de ces jeux de données en les comparant à la fois aux données d'entraînement (pour évaluer la capacité des générateurs à reproduire la distribution d'entraînement) et aux données de validation (pour évaluer la généralisation à des données non vues).

Nous avons évalué la qualité des données synthétiques à l'aide de trois indicateurs :

Distance de corrélation (Δ)

Mesure la différence absolue entre les matrices de corrélation des caractéristiques numériques dans des ensembles de données réels et synthétiques, évaluant dans quelle mesure les relations (par exemple, entre la taille de la maison et la consommation d'énergie) sont préservées.

Échelle : 0 (parfait) à 1 (pire).
Objectif : Garantir le maintien des relations structurelles, essentielles pour des tâches telles que la régression.

Distance Kolmogorov-Smirnov (K)

Mesure la différence maximale entre les fonctions de distribution cumulatives (FDC) des caractéristiques numériques, évaluant la qualité de la capture de leurs distributions marginales (par exemple, la distribution des âges des clients).

Plage de valeurs : 0 (identique) à 1 (complètement différent).
Objectif : Garantir des distributions numériques réalistes, essentielles pour les simulations ou les analyses statistiques.

Distance de variation totale (TVD)

Mesure la différence entre les distributions de probabilité des caractéristiques catégorielles, calculée comme la moitié de la somme des différences absolues (par exemple, la distribution des régions de clients).

Plage de valeurs : 0 (identique) à 1 (complètement différent).
Objectif : Évaluer la qualité de la représentation des distributions catégorielles, un aspect important pour des tâches comme la classification.

Évaluation basée sur un modèle

Les indicateurs statistiques offrent un premier aperçu utile de la qualité des données synthétiques. Cependant, ils ne suffisent pas à eux seuls. L'évaluation la plus pertinente repose sur le modèle et s'intéresse à la performance des données synthétiques dans des scénarios d'entraînement réels. Autrement dit, la question essentielle est de savoir si les données synthétiques améliorent la performance du modèle.

Configuration de l'évaluation

Nous avons évalué des données synthétiques générées avec les paramètres par défaut de chaque synthétiseur. Notre analyse s'est concentrée sur deux aspects :

Surapprentissage , pour vérifier si les données synthétiques étaient trop proches des données d'entraînement originales.
Utilité pratique , mesurée par les performances du modèle pendant l'entraînement.

Résultats de l'augmentation des données

Nous avons testé si l'ajout de données synthétiques à l'ensemble d'entraînement pouvait améliorer la précision. Les données synthétiques ont été ajoutées progressivement, de 10 % à 100 % de la taille initiale de l'ensemble d'entraînement.

Dans tous les cas, la précision du modèle a diminué. Même un ajout minime (10 %) a entraîné une baisse de performance. Plus on ajoutait de données synthétiques, plus cette baisse était marquée. Ce résultat indique que les données synthétiques ont introduit du bruit supplémentaire dans le processus d'apprentissage.

Impact de la qualité des données

L'ampleur de la baisse de performance dépendait de la qualité des données synthétiques. Les synthétiseurs présentant des taux d'erreur de référence plus faibles introduisaient moins de bruit et entraînaient des réductions de précision moindres. Cela suggère que des données synthétiques de meilleure qualité peuvent atténuer, sans toutefois les éliminer complètement, les effets négatifs observés lors de nos tests.

Limites et considérations pratiques

Nous n'avons pas présenté les performances des modèles entraînés sur des jeux de données augmentés. Ces modèles ont été entraînés avec les configurations par défaut, sans optimisation des hyperparamètres. Étant donné que le déploiement en conditions réelles exige une optimisation rigoureuse des modèles, inclure de tels résultats ne permettrait pas une comparaison juste et réaliste.

Points clés à retenir

Dans les évaluations basées sur des modèles, notamment lorsqu'on combine données réelles et synthétiques, le volume de données synthétiques est crucial. Un excès de données synthétiques peut masquer le signal des données réelles et réduire l'efficacité de l'apprentissage. Sans un paramétrage et une personnalisation précis, cela peut conduire à des conclusions erronées quant à la véritable valeur des données synthétiques.

Raisons potentielles des différences de performance

Approche statistique : YData privilégie la maximisation de la fidélité statistique, ce qui explique sa précision globale supérieure. Les modèles SDV varient selon la technique utilisée (copule ou GAN), ce qui engendre des écarts de performance plus importants et des erreurs plus élevées dans le pire des cas.
Facilité d'utilisation vs. contrôle : MOSTLY AI privilégie la facilité d'utilisation et l'automatisation, sacrifiant un contrôle statistique plus précis au profit d'une configuration plus rapide. Gretel, quant à elle, met l'accent sur la personnalisation, qui peut améliorer les résultats une fois optimisée, mais dont les performances sont moindres avec les paramètres par défaut.
Architecture : Les modèles basés sur les copules préservent mieux les distributions et les corrélations pour les données tabulaires, tandis que les modèles basés sur les GAN (CTGAN, CopulaGAN) introduisent plus de variance, augmentant l'erreur sur certaines caractéristiques.
Configurations par défaut : Tous les outils ont été testés avec leurs paramètres par défaut. Les générateurs conçus pour la personnalisation tirent davantage profit d’un réglage précis, ce qui explique en partie leurs performances moins bonnes lors des tests de performance initiaux.

FAQ

Les données synthétiques sont des données artificielles créées à l'aide de différents algorithmes qui reproduisent les propriétés statistiques des données originales, mais ne révèlent aucune information concernant des événements ou des personnes du monde réel.
Par exemple, les données produites par des simulations informatiques sont considérées comme des données synthétiques. Cela inclut des applications telles que les synthétiseurs musicaux, l'imagerie médicale, les modèles économiques et les simulateurs de vol, dont les résultats imitent des phénomènes du monde réel mais sont entièrement générés par des algorithmes.

Les données synthétiques sont largement utilisées dans les domaines de la santé, de la finance, des véhicules autonomes, des jeux vidéo, de la cybersécurité et dans tous les domaines où la confidentialité des données est cruciale ou lorsque les données réelles sont rares ou biaisées.

Les limitations incluent les inexactitudes potentielles si les données synthétiques ne reflètent pas fidèlement les complexités du monde réel, le risque d'introduire des biais et la nécessité d'algorithmes sophistiqués et d'une expertise pour générer des données synthétiques de haute qualité.

Les données synthétiques peuvent contribuer à la conformité aux réglementations sur la protection des données, telles que le RGPD, en garantissant que les données utilisées pour l'analyse ou l'entraînement de l'IA ne contiennent aucune information permettant d'identifier une personne. Toutefois, la conformité dépend également de la méthodologie employée pour générer ces données synthétiques.

Bien que les données synthétiques puissent compléter les données réelles dans de nombreux cas, notamment lorsque la confidentialité ou la rareté des données sont des enjeux importants, elles ne les remplacent pas toujours intégralement. Le choix entre données synthétiques et données réelles dépend du cas d'usage spécifique, de la qualité des données synthétiques et du caractère critique de leur exactitude.

Liens de référence

Data Anonymization | The Hashbrown Blog

https://en.wikipedia.org/wiki/Decision_tree_learning

https://en.wikipedia.org/wiki/Iterative_proportional_fitting

生成式AI核心技术详解：从GANs到Transformers-腾讯云开发者社区-腾讯云

Generative Adversarial Network. Basics of GAN | by DARSHAN DILIPBHAI PATEL | Medium

Medium

Generating synthetic data in finance: opportunities, challenges and pitfalls

MDClone 101 | Informatics, Data Science & Biostatistics | Washington University in St. Louis

Production-like test data - Synthesized

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Commentaires 2

Partagez vos idées

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Jaiber

Dec 15, 2020 at 15:50

It is SimPy not SymPy - the two are very different..

Cem Dilmegani

Dec 19, 2020 at 06:44

Hi Jaiber, thank you for your comment, we also notice a lot of typos on the web. However, we had mentioned above that SymPy can help generate synthetic data with symbolic expressions, I clarified the wording a bit more. That seems correct to me. I believe you mean that SimPy discrete event simulation can be used to create synthetic data, too, right? If you have an example, happy to add, too.

Shams

Oct 06, 2020 at 19:09

How I can generate synthetic data given that I want the data on the tail to follow a specific distribution and data on the head of follows a different distribution?

Cem Dilmegani

Oct 07, 2020 at 05:31

You could combine distributions to create a single distribution which you can use for data generation.

Analyse comparative de la génération de données synthétiques

Pourquoi les données synthétiques sont-elles importantes pour les entreprises ?

Quand utilise-t-on des données synthétiques ?

Comment les entreprises génèrent-elles des données synthétiques ?

Quelles sont les techniques de génération de données synthétiques ?

Générer selon la distribution

Ajustement de données réelles à une distribution connue

Utilisation de l'apprentissage profond

Auto-encodeur variationnel

réseau antagoniste génératif

Comment générer des données synthétiques en Python ?

1. Génération de données aléatoires de base à l'aide de NumPy

2. Générer des données avec des distributions spécifiques à l'aide de NumPy

3. Générer des données réalistes à l'aide de la bibliothèque Faker

4. Génération de données pour la classification et la régression à l'aide de scikit-learn

Quelles sont les meilleures pratiques pour la génération de données synthétiques ?

1- S'assurer que les données synthétiques reflètent les données réelles de l'application

2- Travailler avec des données propres

3- Faites appel aux fournisseurs si nécessaire

4- S'assurer que les données synthétiques sont conformes à la réglementation sur la protection de la vie privée

5-Atténuation des biais

Méthodologie de référence pour la génération de données synthétiques

Préparation des données

Générateurs de données synthétiques pour la formation

Évaluation

Distance de corrélation (Δ)

Distance Kolmogorov-Smirnov (K)

Distance de variation totale (TVD)

Évaluation basée sur un modèle

Configuration de l'évaluation

Résultats de l'augmentation des données

Impact de la qualité des données

Limites et considérations pratiques

Points clés à retenir

Raisons potentielles des différences de performance

FAQ

Que sont les données synthétiques ?

Dans quels domaines les données synthétiques sont-elles couramment utilisées ?

Quelles sont les limites des données synthétiques ?

Quel est le lien entre les données synthétiques et les réglementations sur la protection des données comme le RGPD ?

Les données synthétiques peuvent-elles remplacer les données réelles ?

Liens de référence

Commentaires 2

Partagez vos idées

À lire ensuite

Comparaison des 3 meilleurs générateurs de documents synthétiques

Utilisateurs synthétiques expliqués : les 7 principaux outils de recherche utilisateur en IA

25 cas d'utilisation principaux des données synthétiques