What is synthetic data?

Synthetic data is artificial data created by using different algorithms that mirror the statistical properties of the original data but do not reveal any information regarding real-world events or people.For example, data produced by computer simulations would qualify as synthetic data. This includes applications like music synthesizers, medical imaging, economic models, and flight simulators, where the outputs mimic real-world phenomena but are entirely generated through algorithms.

In what fields is synthetic data commonly used?

Synthetic data is widely used in healthcare, finance, autonomous vehicles, gaming, cybersecurity, and any field where data privacy is crucial or real data is scarce or biased.

What are the limitations of synthetic data?

Limitations include potential inaccuracies if the synthetic data doesn't accurately reflect real-world complexities, the risk of introducing bias, and the need for sophisticated algorithms and expertise to generate high-quality synthetic data.

How does synthetic data relate to data privacy regulations like GDPR?

Synthetic data can help comply with data privacy regulations like GDPR by ensuring that the data used for analysis or AI training doesn't contain personally identifiable information. However, compliance also depends on the methodology used to generate the synthetic data.

Can synthetic data replace real data?

While synthetic data can supplement real data in many scenarios, especially where privacy or data scarcity is a concern, it's not always a complete replacement. The decision to use synthetic versus real data depends on the specific use case, the quality of the synthetic data, and the criticality of accuracy.

Dati Dati sintetici

Benchmark per la generazione di dati sintetici

Cem Dilmegani

aggiornato il Feb 5, 2026

Guarda il nostro norme etiche

Abbiamo confrontato le prestazioni di 7 generatori di dati sintetici disponibili pubblicamente, provenienti da 4 diversi fornitori, utilizzando un set di dati di test composto da 70.000 campioni, con 4 caratteristiche numeriche e 7 categoriche, per valutarne la capacità di replicare le caratteristiche dei dati reali.

Di seguito, potete visualizzare i risultati del benchmark in cui confrontiamo statisticamente i generatori di dati sintetici.

Loading Chart

Il grafico sopra riportato valuta le prestazioni di diversi sintetizzatori di dati sintetici utilizzando diverse metriche chiave. Per tutte le metriche, un valore inferiore indica prestazioni migliori, ovvero che i dati sintetici sono più simili ai dati reali.

Per ogni parametro, il grafico mostra due barre distinte:

Media: Rappresenta l'errore medio o il punteggio di distanza medio su tutte le colonne per quella metrica. Fornisce una buona panoramica delle prestazioni generali.
Massimo: Rappresenta l'errore o la distanza peggiore riscontrata in una singola colonna per quella metrica. Questo valore è fondamentale per identificare i punti deboli o le maggiori imprecisioni nel dataset sintetico.

Puoi trovare informazioni più dettagliate sulle metriche nella metodologia . Scopri per cosa sono più adatte:

Perché i dati sintetici sono importanti per le aziende?

I dati sintetici sono importanti per le aziende per tre motivi:

privacy,
test del prodotto,
e addestrare algoritmi di apprendimento automatico.

I leader del settore hanno inoltre iniziato a discutere dell'importanza degli approcci incentrati sui dati per lo sviluppo di modelli di IA/ML, ai quali i dati sintetici possono apportare un valore significativo.

La generazione di dati sintetici è fondamentale per garantire la qualità dei dati , soprattutto in termini di tutela della privacy. Per sua stessa natura, il dato sintetico riproduce le proprietà statistiche dei dati reali senza esporre informazioni sensibili. Tuttavia, se i dati sintetici possono essere decodificati per ricostruire il dataset originale, ciò vanifica il suo scopo fondamentale di salvaguardare la privacy.

I modelli linguistici di grandi dimensioni (Large Language Models, LLM) sono tra i maggiori produttori di dati sintetici. Numerosi benchmark per gli LLM all'avanguardia (SOTA) si basano su questi modelli per generare casi di test per la valutazione di altri LLM. Inoltre, gli stessi LLM vengono spesso addestrati su dati sintetici, sfruttando la diversità e la scala dei dataset artificiali per migliorare le proprie prestazioni.

Come nella maggior parte degli ambiti legati all'intelligenza artificiale, il deep learning è parte integrante anche della generazione di dati sintetici. I dati sintetici creati dagli algoritmi di deep learning vengono inoltre utilizzati per migliorare altri algoritmi di deep learning.

Quando si utilizzano i dati sintetici?

Le aziende si trovano di fronte a un compromesso tra privacy dei dati e utilità degli stessi quando scelgono una tecnologia per la tutela della privacy. Pertanto, prima di investire, devono definire le priorità del proprio caso d'uso. I dati sintetici non contengono informazioni personali; si tratta di dati campione con una distribuzione simile a quella dei dati originali.

Sebbene in alcuni casi i dati sintetici possano essere meno utili dei dati reali, possono anche essere quasi altrettanto preziosi. Ad esempio, un team di Deloitte Consulting ha generato l'80% dei dati di addestramento per un modello di apprendimento automatico sintetizzando i dati. L'accuratezza del modello risultante è stata simile a quella di un modello addestrato su dati reali.

La generazione di dati sintetici può contribuire a costruire modelli di apprendimento automatico accurati, soprattutto quando le aziende necessitano di dati per addestrare algoritmi di apprendimento automatico e i loro dati di addestramento sono fortemente sbilanciati (ad esempio, più del 99% delle istanze appartiene a una sola classe).

Consulta l' elenco dei casi d'uso dei dati sintetici .

Come fanno le aziende a generare dati sintetici?

Figura 1. Diagramma di flusso che illustra il processo di generazione dei dati sintetici, inclusa la valutazione dell'utilità e la garanzia della privacy.

Fonte: Hasbrown ¹

Le aziende possono preferire metodi diversi, come gli alberi decisionali , ² tecniche di apprendimento profondo e adattamento proporzionale iterativo ³ per eseguire il processo di sintesi dei dati. Devono scegliere il metodo in base ai requisiti dei dati sintetici e al livello di utilità dei dati desiderato per lo scopo specifico della generazione dei dati.

Dopo la sintesi dei dati, è necessario valutare l'utilità dei dati sintetici confrontandoli con i dati reali. Il processo di valutazione dell'utilità si articola in due fasi:

Confronti di carattere generale : confronto di parametri quali distribuzioni e coefficienti di correlazione misurati nei due set di dati.
Valutazione dell'utilità in base al carico di lavoro : confronto dell'accuratezza dei risultati per il caso d'uso specifico mediante analisi su dati sintetici.

Quali sono le tecniche di generazione di dati sintetici?

Generazione in base alla distribuzione

Nei casi in cui non siano disponibili dati reali, ma l'analista abbia una conoscenza approfondita della distribuzione del dataset, può generare un campione casuale di qualsiasi distribuzione, come normale, esponenziale, chi-quadro, t, lognormale e uniforme. In questa tecnica, l'utilità dei dati sintetici varia a seconda del grado di conoscenza dell'analista riguardo a uno specifico contesto di dati.

Adattamento di dati reali a una distribuzione nota

Se sono disponibili dati reali, le aziende possono generare dati sintetici determinando le distribuzioni che meglio si adattano ai dati reali forniti. Se le aziende desiderano adattare dati reali a una distribuzione nota e ne conoscono i parametri, possono utilizzare il metodo Monte Carlo per generare dati sintetici. Questo metodo è una tecnica computazionale che utilizza il campionamento casuale e la modellazione statistica per risolvere problemi che, pur essendo deterministici in linea di principio, risultano troppo complessi per soluzioni analitiche dirette. I passaggi sono i seguenti:

Definire il problema : specificare il problema da risolvere, che spesso coinvolge parametri con distribuzioni note o ipotizzate.
Genera input casuali : utilizza la generazione di numeri casuali per creare input, spesso basati su una distribuzione di probabilità.
Esecuzione del modello : Eseguire simulazioni utilizzando questi input per valutare il risultato del sistema o del processo.
Risultati aggregati : Raccogli i risultati di tutte le simulazioni e calcola misure statistiche come medie, varianze o probabilità.

Il metodo Monte Carlo aiuta a trovare la migliore corrispondenza per i dati sintetici, ma potrebbe non sempre soddisfare le esigenze aziendali. I modelli di machine learning, come gli alberi decisionali, possono modellare distribuzioni complesse e non classiche in questi casi. Ciò consente di generare dati sintetici altamente correlati con i dati originali. Tuttavia, i modelli di machine learning rischiano l'overfitting, che può ridurre la loro capacità di generalizzare e prevedere in modo affidabile le osservazioni future.

Le aziende possono utilizzare la generazione di dati sintetici ibridi nei casi in cui esiste solo una parte dei dati reali. In questo caso, gli analisti generano una parte del set di dati a partire da distribuzioni teoriche e altre parti basandosi su dati reali.

Utilizzo del deep learning

I modelli generativi profondi, come il Variational Autoencoder (VAE) e la Generative Adversarial Network (GAN), possono generare dati sintetici.

Autoencoder variazionale

VAE è un metodo non supervisionato in cui l'encoder comprime il dataset originale in una struttura più compatta e trasmette i dati al decoder. Successivamente, il decoder genera un output che rappresenta il dataset originale. Il sistema viene addestrato ottimizzando la correlazione tra i dati di input e di output.

Figura 2. Struttura encoder-decoder per l'apprendimento dello spazio latente e la generazione di contenuti.

Fonte: Una spiegazione dettagliata delle tecnologie chiave dell'IA generativa: dalle GAN ai Transformer ⁴

Rete generativa avversaria

Nel modello GAN, due reti, un generatore e un discriminatore, addestrano il modello in modo iterativo. Il generatore prende dati campione casuali e genera un dataset sintetico. Il discriminatore confronta i dati generati sinteticamente con un dataset reale in base a condizioni impostate in precedenza.

Figura 3. Il processo di addestramento della GAN: generatore, discriminatore e messa a punto.

Fonte: Generative Adversarial Network ⁵

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Come si generano dati sintetici in Python?

Esistono diversi modi per generare dati sintetici per compiti semplici in Python e, con un po' di impegno, questi metodi possono essere adattati anche a compiti complessi.

1. Generazione di dati casuali di base utilizzando NumPy

2. Generazione di dati con distribuzioni specifiche utilizzando NumPy

3. Generazione di dati realistici utilizzando la libreria Faker

4. Generazione di dati per la classificazione e la regressione utilizzando scikit-learn

Quali sono le migliori pratiche per la generazione di dati sintetici?

Figura 4. Procedure consigliate per la generazione di dati sintetici.

1-Assicurarsi che i dati sintetici rispecchino i dati reali per l'applicazione

L'utilità dei dati sintetici varia a seconda della tecnica utilizzata per generarli. È necessario analizzare il caso d'uso e valutare se i dati sintetici generati siano adatti allo specifico scenario.

Esempio concreto:
JP Morgan ha applicato i dati sintetici in ambito finanziario per generare modelli finanziari accurati, tutelando al contempo la privacy dei clienti. Il loro approccio prevede la verifica dei dati sintetici per garantire che riflettano le caratteristiche reali dei loro set di dati finanziari. Ciò è particolarmente importante quando si utilizzano dati sintetici per addestrare algoritmi di rilevamento delle frodi, in quanto i dati sintetici devono comportarsi come transazioni reali per identificare schemi fraudolenti. ⁶

2-Lavora con dati puliti

La pulizia dei dati è un requisito essenziale per la generazione di dati sintetici. Se non si puliscono e preparano i dati prima della sintesi, si rischia di incorrere in una situazione del tipo "dati errati in ingresso, dati errati in uscita". Durante il processo di preparazione dei dati, assicurarsi di applicare i seguenti principi:

Pulizia dei dati : Eliminazione da un set di dati di dati inesatti, formattati in modo errato, ridondanti o mancanti.
Armonizzazione dei dati: sintetizzare i dati provenienti da diverse fonti e fornire ai clienti una comprensione comparabile delle informazioni derivanti da varie ricerche.

Esempio concreto:

L'Istituto di Informatica, Scienza dei Dati e Biostatistica (I2DB) della Washington University di St. Louis ha adottato la piattaforma MDClone nel 2018. Attraverso uno studio fondamentale, ha confermato che i dati sintetici possono produrre gli stessi risultati analitici dei dati reali, preservando al contempo la privacy. Questa iniziativa si inserisce nella più ampia strategia dell'università volta a potenziare la ricerca basata sui dati, fornendo risorse sicure e innovative alla comunità accademica. ⁷

Prima di creare dati sintetici, le cartelle cliniche dei pazienti vengono ripulite, eliminando errori e duplicati e garantendo la coerenza dei dati. Attraverso la pulizia e l'armonizzazione delle cartelle cliniche elettroniche (EHR) provenienti da diversi reparti, MDClone assicura che le versioni sintetiche di tali cartelle mantengano l'utilità dei dati reali per la ricerca medica, tutelando al contempo la privacy dei pazienti.

3. Affidarsi ai fornitori, se necessario.

Identifica le capacità della tua organizzazione in materia di dati sintetici e, in base alle lacune, esternalizza le attività. I due passaggi fondamentali sono la preparazione dei dati e la sintesi dei dati. I fornitori possono automatizzare entrambi i passaggi.

4. Assicurarsi che i dati sintetici siano conformi alle normative sulla privacy.

Nella generazione di dati sintetici, è fondamentale garantire la privacy delle persone i cui dati vengono utilizzati per creare il dataset sintetico. Il rispetto delle normative sulla privacy dei dati, come il GDPR (Regolamento generale sulla protezione dei dati), l'EU-AI Act e l'HIPAA, è obbligatorio. I dati sintetici devono essere completamente scollegati da qualsiasi individuo reale e non deve esserci alcun modo per risalire ai dati originali.

I set di dati reali spesso contengono informazioni sensibili, soprattutto nei settori sanitario, finanziario e delle telecomunicazioni. La generazione di dati sintetici senza solide misure di protezione della privacy potrebbe comportare ripercussioni legali e problemi di fiducia da parte dei clienti. I dati sintetici non rappresentano più un'area grigia e devono essere etichettati e documentati ai sensi della legge europea sull'intelligenza artificiale (in vigore da agosto 2026). ⁸

Caso di studio:

Alcuni strumenti di generazione di dati sintetici, come Synthesized, aiutano a garantire la conformità in tempo reale. Utilizzano un approccio "Data as Code", che consente alle aziende di integrare regole di conformità complesse direttamente nel processo di generazione dei dati. Ciò garantisce automaticamente che i dati di test siano aggiornati e conformi a tutti i requisiti di legge. ⁹

5-Mitigazione dei pregiudizi

La generazione di dati sintetici dovrebbe mirare a evitare di introdurre o perpetuare i pregiudizi presenti nei set di dati reali. Ciò implica il monitoraggio di potenziali pregiudizi in attributi come razza, genere o status socioeconomico, che potrebbero portare a risultati discriminatori se non controllati. La mitigazione dei pregiudizi è fondamentale per garantire modelli equi e imparziali.

I dati distorti portano a modelli distorti, che a loro volta possono perpetuare le disuguaglianze sociali. Ad esempio, uno strumento di intelligenza artificiale per la selezione del personale, addestrato su dati distorti, potrebbe scartare in modo sproporzionato i candidati appartenenti a determinati gruppi demografici. Garantire che i dati sintetici siano bilanciati e imparziali contribuisce a sviluppare modelli di intelligenza artificiale più equi.

metodologia di riferimento per la generazione di dati sintetici

Abbiamo condotto un benchmark per valutare le prestazioni di 7 generatori di dati sintetici disponibili pubblicamente, utilizzando un dataset di test. Il dataset è composto da 70.000 campioni e include 4 caratteristiche numeriche e 7 caratteristiche categoriali.

Miscelazione dei dati

Il dataset è stato innanzitutto omogeneizzato, ovvero la distribuzione delle caratteristiche è risultata uniforme in tutto il dataset, eliminando la necessità di ulteriori pre-elaborazioni, come la normalizzazione o la gestione dei valori mancanti. Per preparare i dati per l'addestramento e la valutazione, abbiamo eseguito i seguenti passaggi:

Mescolamento : il set di dati è stato mescolato in modo casuale per garantire una distribuzione uniforme dei punti dati ed evitare qualsiasi distorsione dovuta all'ordine.

Suddivisione : Il set di dati mescolato è stato suddiviso approssimativamente in due metà uguali:
- Dati di addestramento: per addestrare i generatori di dati sintetici sono stati utilizzati 35.000 campioni.
- Dati di test: 35.000 campioni riservati per la valutazione, al fine di confrontare la qualità dei dati sintetici generati con dati reali non ancora analizzati.

Poiché il dataset è stato omogeneizzato, la distribuzione delle caratteristiche nei set di addestramento e di validazione era simile, garantendo un confronto equo.

Addestramento di generatori di dati sintetici

Per questo benchmark abbiamo selezionato 7 generatori di dati sintetici: YData, Mostly AI, Gretel e 4 generatori da Synthetic Data Vault. Il processo di addestramento per ciascun generatore è stato il seguente:

SDV e YData : Abbiamo utilizzato gli SDK e i modelli forniti da SDV e YData, configurati con le impostazioni predefinite per garantire coerenza e riproducibilità.
Principalmente IA e Gretel : questi generatori sono stati addestrati utilizzando le rispettive piattaforme, con le impostazioni configurate come raccomandato dai fornitori.

Ciascun generatore è stato addestrato esclusivamente sui dati di addestramento (35.000 campioni) per generare set di dati sintetici che imitassero le caratteristiche dei dati reali.

Valutazione

Dopo l'addestramento, ogni generatore di dati sintetici ha prodotto un dataset sintetico. Abbiamo valutato la qualità di questi dataset sintetici confrontandoli sia con i dati di addestramento (per valutare quanto bene i generatori abbiano catturato la distribuzione di addestramento) sia con i dati di test (per valutare la generalizzazione a dati non visti).

Abbiamo valutato la qualità dei dati sintetici utilizzando tre parametri:

Distanza di correlazione (Δ)

Misura la differenza assoluta tra le matrici di correlazione delle caratteristiche numeriche in set di dati reali e sintetici, valutando quanto bene vengono preservate le relazioni (ad esempio, tra le dimensioni della casa e il consumo energetico).

Scala: da 0 (perfetto) a 1 (pessimo).
Scopo: Garantire il mantenimento delle relazioni strutturali, elemento vitale per attività come la regressione.

Distanza Kolmogorov-Smirnov (K)

Misura la differenza massima tra le funzioni di distribuzione cumulativa (CDF) delle caratteristiche numeriche, valutando quanto bene vengono catturate le loro distribuzioni marginali (ad esempio, la distribuzione delle età dei clienti).

Intervallo: da 0 (identico) a 1 (completamente diverso).
Scopo: Garantire distribuzioni numeriche realistiche, fondamentali per simulazioni o analisi statistiche.

Distanza di variazione totale (TVD)

Misura la differenza tra le distribuzioni di probabilità delle caratteristiche categoriali, calcolata come metà della somma delle differenze assolute (ad esempio, distribuzione delle regioni dei clienti).

Intervallo: da 0 (identico) a 1 (completamente diverso).
Scopo: Valutare l'efficacia con cui vengono rappresentate le distribuzioni categoriali, aspetto importante per attività come la classificazione.

valutazione basata su modelli

Le metriche statistiche forniscono una prima utile valutazione della qualità dei dati sintetici. Tuttavia, da sole non sono sufficienti. La valutazione più significativa è basata sul modello e si concentra su quanto bene i dati sintetici si comportano in scenari di addestramento reali. In altre parole, la domanda chiave è se i dati sintetici migliorano le prestazioni del modello.

Configurazione di valutazione

Abbiamo valutato i dati sintetici generati con le impostazioni predefinite di ciascun sintetizzatore. La nostra analisi si è concentrata su due aspetti:

Overfitting , per verificare se i dati sintetici erano troppo simili ai dati di addestramento originali.
Utilità pratica , misurata attraverso le prestazioni del modello durante l'addestramento.

Risultati dell'aumento dei dati

Abbiamo verificato se l'aggiunta di dati sintetici al set di addestramento potesse migliorarne la precisione. I dati sintetici sono stati aggiunti gradualmente, dal 10% al 100% della dimensione originale del set di addestramento.

In tutti i casi, l'accuratezza del modello è diminuita. Anche la più piccola aggiunta (10%) ha comportato un calo delle prestazioni. Con l'aggiunta di ulteriori dati sintetici, il calo è diventato più pronunciato. Questo andamento indica che i dati sintetici hanno introdotto ulteriore rumore nel processo di addestramento.

Impatto della qualità dei dati

L'entità del calo delle prestazioni dipendeva dalla qualità dei dati sintetici. I sintetizzatori con tassi di errore di riferimento inferiori introducevano meno rumore e causavano riduzioni minori nell'accuratezza. Ciò suggerisce che dati sintetici di qualità superiore possono attenuare, ma non eliminare completamente, gli effetti negativi osservati nei nostri test.

Limitazioni e considerazioni pratiche

Non abbiamo riportato i risultati delle prestazioni per i modelli addestrati su dataset aumentati. Questi modelli sono stati addestrati utilizzando le configurazioni predefinite, senza ottimizzazione degli iperparametri. Poiché l'implementazione nel mondo reale richiede un'attenta ottimizzazione del modello, includere tali risultati non fornirebbe un confronto equo o realistico.

Punti chiave

Nelle valutazioni basate su modelli, soprattutto quando si combinano dati reali e sintetici, la quantità di dati sintetici è fondamentale. L'aggiunta di troppi dati sintetici può sovrastare il segnale proveniente dai dati reali e ridurre l'efficacia dell'apprendimento. Senza un'attenta messa a punto e personalizzazione, ciò può portare a conclusioni fuorvianti sul reale valore dei dati sintetici.

Possibili ragioni alla base delle differenze di rendimento

Approccio statistico: YData si concentra sulla massimizzazione della fedeltà statistica, il che spiega la sua elevata accuratezza complessiva. I modelli SDV variano in base alla tecnica utilizzata (copula vs. GAN), il che comporta maggiori differenze di prestazioni ed errori nel caso peggiore più elevati.
Facilità d'uso vs. controllo: MOSTLY AI privilegia l'usabilità e l'automazione, sacrificando un controllo statistico più preciso in favore di una configurazione più rapida. Gretel, invece, punta sulla personalizzazione, che può migliorare i risultati se ottimizzata, ma offre prestazioni inferiori con le impostazioni predefinite.
Architettura: i modelli basati su copule preservano meglio le distribuzioni e le correlazioni per i dati tabellari, mentre i modelli basati su GAN (CTGAN, CopulaGAN) introducono una maggiore varianza, aumentando l'errore su alcune caratteristiche.
Configurazioni predefinite: tutti gli strumenti sono stati testati con le impostazioni predefinite. I generatori progettati per la personalizzazione traggono maggior vantaggio dalla messa a punto, il che spiega in parte i loro risultati di benchmark inferiori appena estratti dalla confezione.

FAQ

I dati sintetici sono dati artificiali creati utilizzando diversi algoritmi che rispecchiano le proprietà statistiche dei dati originali, ma non rivelano alcuna informazione riguardante eventi o persone del mondo reale.
Ad esempio, i dati prodotti da simulazioni al computer rientrerebbero nella categoria dei dati sintetici. Ciò include applicazioni come i sintetizzatori musicali, la diagnostica per immagini in ambito medico, i modelli economici e i simulatori di volo, in cui i risultati imitano fenomeni del mondo reale ma sono interamente generati tramite algoritmi.

I dati sintetici sono ampiamente utilizzati in ambito sanitario, finanziario, nei veicoli a guida autonoma, nei videogiochi, nella sicurezza informatica e in qualsiasi settore in cui la privacy dei dati sia fondamentale o i dati reali siano scarsi o distorti.

Tra i limiti si annoverano le potenziali imprecisioni qualora i dati sintetici non riflettano accuratamente le complessità del mondo reale, il rischio di introdurre distorsioni e la necessità di algoritmi sofisticati e di competenze specifiche per generare dati sintetici di alta qualità.

I dati sintetici possono contribuire al rispetto delle normative sulla privacy, come il GDPR, garantendo che i dati utilizzati per l'analisi o l'addestramento dell'IA non contengano informazioni di identificazione personale. Tuttavia, la conformità dipende anche dalla metodologia utilizzata per generare i dati sintetici.

Sebbene i dati sintetici possano integrare i dati reali in molti scenari, soprattutto laddove la privacy o la scarsità di dati rappresentino un problema, non sempre ne costituiscono una sostituzione completa. La decisione di utilizzare dati sintetici o reali dipende dal caso d'uso specifico, dalla qualità dei dati sintetici e dall'importanza cruciale dell'accuratezza.

Collegamenti di riferimento

Data Anonymization | The Hashbrown Blog

https://en.wikipedia.org/wiki/Decision_tree_learning

https://en.wikipedia.org/wiki/Iterative_proportional_fitting

生成式AI核心技术详解：从GANs到Transformers-腾讯云开发者社区-腾讯云

Generative Adversarial Network. Basics of GAN | by DARSHAN DILIPBHAI PATEL | Medium

Medium

Generating synthetic data in finance: opportunities, challenges and pitfalls

MDClone 101 | Informatics, Data Science & Biostatistics | Washington University in St. Louis

Production-like test data - Synthesized

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Commenti 2

Condividi i tuoi pensieri

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Jaiber

Dec 15, 2020 at 15:50

It is SimPy not SymPy - the two are very different..

Cem Dilmegani

Dec 19, 2020 at 06:44

Hi Jaiber, thank you for your comment, we also notice a lot of typos on the web. However, we had mentioned above that SymPy can help generate synthetic data with symbolic expressions, I clarified the wording a bit more. That seems correct to me. I believe you mean that SimPy discrete event simulation can be used to create synthetic data, too, right? If you have an example, happy to add, too.

Shams

Oct 06, 2020 at 19:09

How I can generate synthetic data given that I want the data on the tail to follow a specific distribution and data on the head of follows a different distribution?

Cem Dilmegani

Oct 07, 2020 at 05:31

You could combine distributions to create a single distribution which you can use for data generation.