Contattaci
Nessun risultato trovato.

Le 25 principali applicazioni dei dati sintetici

Cem Dilmegani
Cem Dilmegani
aggiornato il Mar 5, 2026
Guarda il nostro norme etiche

I dati sintetici stanno guadagnando popolarità e applicabilità in diversi settori, tra cui l'apprendimento automatico, il deep learning e l'intelligenza artificiale generativa (GenAI) . I dati sintetici offrono soluzioni a problematiche quali la privacy dei dati e le dimensioni limitate dei set di dati. Si stima che entro il 2030 i dati sintetici saranno preferiti ai dati reali nei modelli di intelligenza artificiale. 1

Abbiamo elencato le funzionalità e i casi d'uso più comuni dei dati sintetici in diversi settori e reparti/unità aziendali.

Casi d'uso trasversali al settore

Condivisione dei dati con terze parti

Le collaborazioni con organizzazioni terze, come fintech, medtech o fornitori della catena di approvvigionamento, spesso richiedono l'accesso a informazioni sensibili.

I dati sintetici consentono alle aziende di valutare le prestazioni dei fornitori e di collaborare senza esporre dati regolamentati o riservati. Ciò permette di effettuare test, addestrare modelli e sviluppare congiuntamente, nel rispetto delle leggi sulla protezione dei dati.

Condivisione interna dei dati

All'interno delle grandi organizzazioni, le normative sulla privacy e le restrizioni di accesso possono ritardare la condivisione interna dei dati per settimane. I set di dati sintetici possono essere condivisi liberamente tra reparti come marketing, sviluppo prodotto e operations senza il rischio di fughe di dati o violazioni della privacy. Ciò accelera l'innovazione e facilita una sperimentazione più frequente.

migrazione del cloud

I servizi cloud offrono una vasta gamma di prodotti innovativi per numerosi settori. Tuttavia, il trasferimento di dati privati verso infrastrutture cloud comporta rischi per la sicurezza e la conformità normativa.

In alcuni casi, il trasferimento di versioni sintetiche di dati sensibili sul cloud può consentire alle organizzazioni di sfruttare i vantaggi dei servizi cloud. Tuttavia, ciò non è possibile per tutti i casi d'uso.

Ad esempio, nelle pipeline di machine learning basate sul cloud, si potrebbero utilizzare dati sintetici al posto di dati reali. Tuttavia, non sarebbe utile per il team di vendita avere dati sintetici nel proprio CRM ; dovrebbero visualizzare le informazioni corrette sui clienti, non informazioni modificate.

Conformità alla conservazione dei dati

Le leggi sulla protezione dei dati limitano il periodo di tempo per cui le informazioni personali possono essere conservate. I dati sintetici consentono alle aziende di mantenere gli schemi statistici dei set di dati storici per l'analisi delle tendenze, gli studi stagionali o il rilevamento di anomalie, senza dover conservare i dati originali che consentono l'identificazione.

Per una panoramica degli strumenti offerti, puoi consultare il nostro articolo sugli strumenti di governance dei dati .

Finanza

Identificazione delle frodi

I casi di frode sono rari, il che li rende difficili da modellare. I set di dati sintetici possono simulare un'ampia varietà di schemi fraudolenti, consentendo di addestrare e testare gli algoritmi di rilevamento delle frodi in modo più efficace.

Per ulteriori informazioni sulle tecnologie di rilevamento delle frodi, leggere " Tecnologie che migliorano il rilevamento delle frodi assicurative" .

Customer Intelligence

I dati di transazione sintetici preservano le caratteristiche statistiche del comportamento reale dei clienti, consentendo agli istituti finanziari di creare modelli di segmentazione, valutare il valore a vita del cliente o prevedere l'abbandono, rimanendo al contempo conformi a normative come il GDPR e lo standard PCI DSS.

Per ulteriori informazioni sui casi d'uso dei dati sintetici in ambito finanziario , si prega di consultare il nostro articolo.

Produzione

Garanzia di qualità

I dati reali sui difetti sono spesso limitati. I set di dati di anomalie sintetiche consentono agli ingegneri di testare i sistemi di ispezione rispetto a un'ampia gamma di tipologie di difetti, migliorando i tassi di richiamo e riducendo i falsi negativi. Questo vale per l'ispezione visiva, le letture dei sensori e i flussi di dati IoT.

Manutenzione predittiva

I dati sintetici dei sensori possono simulare modelli di degrado delle apparecchiature o segnali di guasto. Ciò consente di addestrare modelli di manutenzione predittiva prima che si disponga di una sufficiente cronologia di guasti reali, permettendo così un'implementazione più tempestiva dei sistemi di monitoraggio.

Ottimizzazione della catena di approvvigionamento

I set di dati sintetici relativi alla domanda e alla logistica possono essere utilizzati per testare i modelli di pianificazione della catena di approvvigionamento in diversi scenari di mercato, variazioni stagionali o eventi di interruzione, senza esporre i dati operativi reali.

Assistenza sanitaria

Analisi dei dati sanitari

I dati sintetici consentono ai professionisti dei dati sanitari di autorizzare l'utilizzo interno ed esterno dei dati delle cartelle cliniche, pur mantenendo la riservatezza dei pazienti. Questo è simile al caso d'uso della "condivisione interna dei dati", ma è applicabile in modo più ampio nel settore sanitario, dove la maggior parte dei dati dei pazienti è privata. Questo approccio è anche noto come analisi dei dati sanitari.

Studi clinici

Quando si avvia una nuova sperimentazione clinica, i ricercatori spesso non dispongono di dati storici sufficienti per la simulazione e l'analisi di base. I set di dati sintetici possono aiutare a prevedere i risultati, pianificare il reclutamento dei pazienti e identificare potenziali modelli di eventi avversi prima dell'inizio della raccolta dei dati nel mondo reale.

Settore automobilistico e robotica

Le tecnologie autonome (AuT) includono robot, droni e auto a guida autonoma. Le simulazioni hanno aperto la strada all'utilizzo di dati sintetici, poiché i test reali dei sistemi robotici sono costosi e lenti. I dati sintetici consentono alle aziende di testare le proprie soluzioni robotiche in migliaia di simulazioni, migliorando i robot e integrando i costosi test reali.

Test di sistemi autonomi

Gli ambienti sintetici simulano migliaia di scenari di guida o operativi per auto a guida autonoma, droni per le consegne e robot industriali. Ciò riduce i costi e accelera la validazione della sicurezza prima dell'impiego sul campo.

Esempio aggiuntivo : Testare gli algoritmi di frenata di emergenza utilizzando simulazioni di rari pericoli stradali (ad esempio, animali che attraversano la strada, movimenti improvvisi dei pedoni).

Sicurezza

I dati sintetici possono essere utilizzati per proteggere le proprietà online e offline delle organizzazioni. Si utilizzano comunemente due metodi:

Dati di addestramento per la videosorveglianza

Per sfruttare appieno il riconoscimento delle immagini , le organizzazioni devono creare e addestrare modelli di reti neurali, ma questo approccio presenta due limitazioni: l'acquisizione di grandi quantità di dati e l'etichettatura manuale degli oggetti. I dati sintetici possono contribuire ad addestrare i modelli a un costo inferiore rispetto all'acquisizione e all'annotazione dei dati di addestramento.

Deep fake

I deepfake, che stanno diventando un tema di crescente importanza nella sicurezza informatica basata sull'intelligenza artificiale , possono essere utilizzati per testare i sistemi di riconoscimento facciale.

Social media

I social network utilizzano dati sintetici per migliorare i loro vari prodotti:

Testare i sistemi di filtraggio dei contenuti

I social network combattono le fake news, le molestie online e la propaganda politica di governi stranieri. I test con dati sintetici garantiscono che i filtri dei contenuti siano flessibili e in grado di gestire nuovi attacchi.

Valutazione dell'equità dell'algoritmo

I profili utente sintetici e i dati di interazione possono aiutare le piattaforme a valutare se gli algoritmi di raccomandazione o moderazione presentano pregiudizi nei confronti di determinati gruppi demografici, lingue o punti di vista, senza elaborare dati personali reali.

Test delle funzionalità e dell'interfaccia utente

I set di dati comportamentali sintetici consentono alle piattaforme social di testare nuove funzionalità (ad esempio, la classificazione dei feed, l'ordinamento dei commenti) in condizioni di traffico, modelli di clic e distribuzioni di coinvolgimento realistiche, senza la necessità di condurre esperimenti rischiosi su utenti reali.

Simulazione del targeting pubblicitario

I dati di audience sintetici possono replicare modelli demografici e comportamentali, consentendo ad inserzionisti e gestori di piattaforme di testare modelli di targeting, algoritmi di allocazione del budget e strategie di ottimizzazione delle campagne, nel rispetto delle leggi sulla privacy come il GDPR e il CCPA.

Sviluppo agile e DevOps

Generazione dei dati di test

Per il collaudo del software e la garanzia di qualità , i dati generati artificialmente rappresentano spesso la scelta migliore, in quanto eliminano la necessità di attendere dati "reali". In questo contesto, ci si riferisce a questi dati come "dati di test". Ciò può in definitiva portare a una riduzione dei tempi di test e a una maggiore flessibilità e agilità durante lo sviluppo.

risorse umane

Simulazione dei dati dei dipendenti

I set di dati dei dipendenti delle aziende contengono informazioni sensibili e sono spesso protetti da normative sulla privacy dei dati. I team interni di gestione dei dati e le parti esterne potrebbero non avere accesso a questi set di dati, ma possono utilizzare dati sintetici dei dipendenti per condurre analisi. Ciò può aiutare le aziende a ottimizzare i processi delle risorse umane.

Marketing

Simulazione del comportamento del cliente

I dati sintetici consentono alle unità di marketing di eseguire simulazioni dettagliate a livello individuale per ottimizzare la spesa di marketing. Tali simulazioni non sarebbero consentite senza il consenso dell'utente, in conformità con il GDPR. Tuttavia, i dati sintetici, che riproducono le proprietà dei dati reali, possono essere utilizzati in modo affidabile nelle simulazioni.

Intelligenza artificiale conversazionale

I dati sintetici generati con l'intelligenza artificiale generativa possono supportare l'addestramento di sistemi di intelligenza artificiale conversazionale creando esempi di dialogo realistici che riflettono il linguaggio specifico del dominio, le diverse intenzioni dell'utente e i rari casi limite. Questo approccio contribuisce a ovviare alla limitata disponibilità di trascrizioni di conversazioni reali, evitando al contempo problemi di privacy.

Ampliando i set di dati di addestramento con scenari di dialogo personalizzati, i dati sintetici possono migliorare la capacità di un modello di comprendere richieste diverse, rispondere in modo accurato e gestire interazioni complesse a più turni.

Apprendimento automatico

Aumento dei dati di addestramento

I dati sintetici ampliano il set di dati disponibile creando campioni realistici e statisticamente accurati che rispecchiano la distribuzione dei dati reali. Ciò è particolarmente utile quando si addestrano modelli di intelligenza artificiale che soffrono di squilibrio tra le classi o quando la raccolta di dati reali è troppo costosa, richiede troppo tempo o è soggetta a restrizioni legali.

Includendo ulteriori variazioni nel set di dati, come ad esempio i cambiamenti di illuminazione nella visione artificiale o le variazioni di rumore nell'audio, i modelli diventano più resilienti ai cambiamenti ambientali e agli input imprevisti.

simulazione di eventi rari

Molti modelli di intelligenza artificiale non sono efficaci nel prevedere eventi che si verificano raramente, perché questi eventi sono scarsamente rappresentati nei dataset reali. I dati sintetici risolvono questo problema generando numerosi esempi realistici di tali eventi rari, preservandone le proprietà statistiche e contestuali.

Questo approccio consente ai modelli di "sperimentare" e apprendere da scenari che potrebbero non incontrare mai durante l'addestramento tradizionale, portando a una maggiore capacità di memorizzazione e a una migliore preparazione per situazioni critiche come il rilevamento delle frodi, la previsione dei guasti delle apparecchiature o la pianificazione della risposta alle emergenze.

Etichettatura automatizzata dei dati

L'etichettatura manuale dei dati è spesso una delle fasi più costose e dispendiose in termini di tempo nello sviluppo dell'IA, in particolare per attività come il rilevamento di oggetti o il riconoscimento vocale. La generazione di dati sintetici può includere l'assegnazione automatica delle etichette durante il processo di creazione.

Questo elimina gli errori di annotazione umana, velocizza lo sviluppo dei modelli e consente ai team di creare set di dati di grandi dimensioni, etichettati con precisione e adattati a specifiche esigenze aziendali, che si tratti di rilevare anomalie nella produzione, riconoscere entità in documenti legali o identificare oggetti in immagini aeree.

Il futuro dei dati sintetici

I dati sintetici stanno acquisendo sempre maggiore importanza in molti settori. Si tratta di dati artificiali creati dai computer che assomigliano a dati reali, ma non includono informazioni relative a persone reali. Questa caratteristica li rende utili laddove la privacy, i costi o l'accesso ai dati reali rappresentano una sfida.

Molte aziende utilizzano ormai dati sintetici per addestrare modelli di apprendimento automatico. Ad esempio, settori come la sanità, la finanza, la guida autonoma e la vendita al dettaglio ne fanno uso per testare nuovi sistemi senza esporre dati personali o incorrere in limiti legali.

Figura 1: Popolarità dei dati sintetici

I motivi per cui i dati sintetici sono in trend includono:

  • Privacy e rischi legali con i dati reali: le nuove normative rendono più difficile la condivisione di dati reali. I dati sintetici eludono questi limiti di privacy perché non contengono dati personali effettivi.
  • Scarsità e costi dei dati: i set di dati reali possono essere di piccole dimensioni, incompleti o costosi da raccogliere ed etichettare. I dati sintetici possono essere creati su richiesta, colmando le lacune e riducendo i costi.
  • Supporto all'innovazione nell'IA: i sistemi di IA di grandi dimensioni necessitano di set di dati ampi e diversificati. Gli analisti prevedono un forte aumento dell'utilizzo di dati sintetici, con molte aziende che dovrebbero adottarli entro il 2026.

Entro il 2026, molte organizzazioni genereranno dati sintetici sui clienti o dati di addestramento per l'intelligenza artificiale. Un rapporto di settore stima che fino al 75% delle aziende utilizzerà strumenti di intelligenza artificiale generativa per produrre dati sintetici. 2

Per approfondire

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450