How much does poor data quality cost organizations?

According to Gartner research, poor data quality costs organizations an average of 12.9 million dollars annually. However, the true cost extends beyond direct financial impact. Poor data quality leads to failed AI projects; industry reports suggest that up to 85% of AI and ML projects fail to deliver on their initial promise, often due to data quality issues. Additional costs include wasted time as data scientists spend 60-80% of their time on data cleaning rather than model development, lost revenue opportunities from inaccurate predictions and poor customer experiences, and compliance risks, particularly in regulated industries where data quality failures can result in significant fines.

What percentage of AI project failures are due to data quality issues?

Research from industry sources indicates that 70-85% of AI project failures are due to data-related issues, with data quality as the primary culprit. VentureBeat's analysis of AI implementations found that 87% of data science projects never reach production, with inadequate or poor-quality data as the leading cause. A survey by Dimensional Research revealed that 96% of organizations encounter data quality problems when training AI models. These failures manifest in several ways, including models that perform well in testing but fail in production due to data drift, biased outcomes resulting from unrepresentative training data, and the inability to scale because data pipelines cannot maintain quality at production volumes.

What's the difference between data quality and data governance?

While closely related, data quality and data governance serve different purposes. Data quality refers to the characteristics of data itself, focusing on whether data is accurate, complete, consistent, timely, and relevant. It's about the condition and usability of data for its intended purpose. Data quality is typically measured using metrics such as error rates, completeness percentages, and duplicate counts.Data governance, on the other hand, is the framework of policies, procedures, roles, and responsibilities that ensure proper data management across an organization. Governance defines who owns data, who can access it, how it should be used, what standards it must meet, and how quality should be maintained. Think of data governance as the organizational structure and rulebook, while data quality is the outcome you're trying to achieve. Good governance enables good quality, but you need both to succeed in AI initiatives. Governance provides the sustainable structure that ensures data quality isn't a one-time cleanup but an ongoing practice.

Dati Scienza dei dati

Qualità dei dati nell'IA nel 2026: sfide e migliori pratiche

Cem Dilmegani

aggiornato il Mar 27, 2026

Guarda il nostro norme etiche

La scarsa qualità dei dati ritarda la corretta implementazione dei progetti di intelligenza artificiale e apprendimento automatico. ¹ Anche gli algoritmi di intelligenza artificiale più avanzati possono produrre risultati errati se i dati di base sono di bassa qualità.

Scopri l'importanza della qualità dei dati nell'IA, le sfide che le organizzazioni devono affrontare e le migliori pratiche per garantire dati di alta qualità:

Qual è l'importanza della qualità dei dati nell'intelligenza artificiale?

La qualità dei dati è essenziale per l'intelligenza artificiale , poiché influenza direttamente le prestazioni, l'accuratezza e l'affidabilità dei modelli di IA. Dati di alta qualità consentono ai modelli di effettuare previsioni migliori e di produrre risultati più affidabili. L'impatto di una scarsa qualità dei dati nell'IA è illustrato nella Figura 1.

Figura 1: Impatto di dati e analisi di scarsa qualità

Fonte: SnapLogic ²

Affrontare le distorsioni nei dati è fondamentale per garantire la qualità dei dati. Ciò impedisce la perpetuazione e l'amplificazione dei pregiudizi negli output generati dall'IA, contribuendo a minimizzare i trattamenti iniqui nei confronti di specifici gruppi o individui.

Inoltre, un set di dati diversificato e rappresentativo migliora la capacità di un modello di intelligenza artificiale di generalizzare efficacemente in diverse situazioni e con diversi input, garantendone le prestazioni e la rilevanza in vari contesti e per diversi gruppi di utenti.

Come afferma Andrew Ng, professore di intelligenza artificiale all'Università di Stanford e fondatore di DeepLearning.AI, "Se l'80% del nostro lavoro consiste nella preparazione dei dati, allora garantire la qualità dei dati è il compito più critico per un team di machine learning".

Perché evitare il problema "dati errati in ingresso, dati errati in uscita" è fondamentale per la qualità dei dati?

"Se inserisci dati errati, otterrai risultati errati" (GIGO) è un principio semplice ma efficace che sottolinea l'importanza della qualità dei dati in ingresso per la qualità dei dati stessi. Significa che se i dati di input di un sistema, come un modello o un algoritmo di intelligenza artificiale, sono di scarsa qualità, imprecisi o irrilevanti, anche l'output del sistema sarà di scarsa qualità, impreciso o irrilevante.

Figura 2: Qualità e standard dei dati: dati "spazzatura in ingresso", risultati "spazzatura in uscita".

Fonte: Shakoor et al. ³

Questo concetto è particolarmente significativo nel contesto dell'intelligenza artificiale (IA), poiché i modelli di IA, inclusi quelli di apprendimento automatico e apprendimento profondo, dipendono fortemente dai dati utilizzati per l'addestramento e la validazione. È probabile che il modello di IA produca risultati inaffidabili o distorti se i dati di addestramento sono distorti, incompleti o contengono errori.

Per evitare il problema GIGO (Get Out Out, Get Out, ovvero dati errati, non rappresentativi), è fondamentale garantire che i dati utilizzati nei sistemi di intelligenza artificiale siano accurati, rappresentativi e di alta qualità. Ciò spesso implica la pulizia , la preelaborazione e l'aumento dei dati, insieme all'utilizzo di solide metriche di valutazione per valutare le prestazioni dei modelli di intelligenza artificiale.

Quali sono le componenti chiave dei dati di qualità nell'IA?

Precisione: i dati accurati sono fondamentali per gli algoritmi di intelligenza artificiale, in quanto consentono loro di produrre risultati corretti e affidabili. Errori nell'inserimento dei dati possono portare a decisioni errate o a conclusioni fuorvianti, con potenziali danni per organizzazioni e individui.

Coerenza: garantisce che i dati seguano un formato e una struttura standard, facilitando un'elaborazione e un'analisi efficienti. Dati incoerenti possono generare confusione e interpretazioni errate, compromettendo le prestazioni dei sistemi di intelligenza artificiale.

Completezza: i set di dati incompleti possono impedire agli algoritmi di intelligenza artificiale di individuare modelli e correlazioni essenziali, portando a risultati incompleti o distorti. Garantire la completezza dei dati è fondamentale per addestrare i modelli di intelligenza artificiale in modo accurato ed esaustivo.

Tempestività: la freschezza dei dati gioca un ruolo fondamentale nelle prestazioni dell'IA. I dati obsoleti potrebbero non riflettere il contesto o le tendenze attuali, portando a risultati irrilevanti o fuorvianti.

Rilevanza: i dati rilevanti contribuiscono direttamente al problema in esame, aiutando i sistemi di intelligenza artificiale a concentrarsi sulle variabili e sulle relazioni più importanti. I dati irrilevanti possono appesantire i modelli e causare inefficienze.

Quali sono le sfide legate alla garanzia della qualità dei dati nell'intelligenza artificiale?

1- Raccolta dati

Poiché gli sviluppi dell'intelligenza artificiale apportano benefici a settori come la finanza , la sanità , la produzione e l'intrattenimento, le organizzazioni si trovano ad affrontare la sfida di raccogliere dati da diverse fonti mantenendone la qualità. Molte si affidano agli strumenti di web scraping per automatizzare il processo e garantire che tutti i dati seguano gli stessi standard.

2-Etichettatura dei dati

Gli algoritmi di intelligenza artificiale si basano su dati etichettati per l'addestramento, ma l'etichettatura manuale è un processo lungo e soggetto a errori. Ottenere etichette accurate che riflettano le condizioni del mondo reale è spesso una sfida.

3-Archiviazione e sicurezza dei dati

Garantire la qualità dei dati significa proteggerli da accessi non autorizzati e potenziali corruzioni. Per le organizzazioni è fondamentale disporre di un sistema di archiviazione dati sicuro e affidabile, ma questo può risultare difficile.

4-Governance dei dati

Le organizzazioni spesso faticano a implementare framework di governance dei dati che affrontino efficacemente i problemi di qualità dei dati. La mancanza di un'adeguata governance dei dati può portare a dati isolati, incoerenze ed errori.

5- Avvelenamento dei dati

L'avvelenamento dei dati è un attacco mirato ai sistemi di intelligenza artificiale in cui gli aggressori introducono informazioni dannose o fuorvianti nel dataset. Questi dati contaminati possono distorcere l'addestramento del modello, portando a risultati inaffidabili o addirittura dannosi. Per mitigare questo rischio, è fondamentale mantenere l'integrità dei dati attraverso audit regolari e il rilevamento delle anomalie.

6-Cicli di feedback di dati sintetici

L'utilizzo di dati generati dall'IA nei modelli di intelligenza artificiale può creare cicli di feedback che ne compromettono la qualità. Ad esempio, quando si utilizzano ripetutamente dati sintetici, il modello potrebbe apprendere schemi troppo artificiali e divergenti dalle condizioni reali. Ciò può causare prestazioni scadenti del modello sui dati reali, amplificando potenzialmente distorsioni o errori. Bilanciare dati sintetici e reali è essenziale per mantenere la robustezza del modello.

Casi di studio reali

Caso di studio 1: Mayo Clinic – Qualità dei dati di diagnostica per immagini

La Mayo Clinic elabora milioni di immagini mediche ogni anno e il mantenimento della qualità dei dati è fondamentale per diagnosi accurate. ⁴

La sfida : i dati di imaging medico presentavano problematiche di qualità uniche, tra cui formati di immagine incoerenti, standard di risoluzione variabili tra i diversi scanner, metadati del paziente incompleti e la necessità di mantenere la conformità HIPAA garantendo al contempo l'utilità dei dati per l'addestramento dell'IA.

La soluzione : la Mayo Clinic ha implementato un framework completo per la qualità dei dati che include protocolli automatizzati di standardizzazione delle immagini, sistemi di convalida dei metadati che segnalano informazioni sui pazienti incomplete o incoerenti e un approccio di apprendimento federato che consente l'addestramento di modelli di intelligenza artificiale senza centralizzare i dati sensibili dei pazienti.

Caso di studio 2: JPMorgan Chase – Qualità dei dati per il rilevamento delle frodi

JPMorgan Chase elabora miliardi di transazioni ogni anno e si affida in larga misura all'intelligenza artificiale per il rilevamento delle frodi. La qualità dei dati delle transazioni ha un impatto diretto sull'efficacia dei suoi sistemi di prevenzione delle frodi. ⁵

La sfida : la banca si trovava ad affrontare difficoltà legate alla qualità dei dati in tempo reale e alla gestione di dati strutturati e non strutturati su molteplici canali, tra cui carte di credito, bonifici bancari e mobile banking. Doveva inoltre bilanciare la sensibilità del rilevamento delle frodi con l'esperienza del cliente, adattandosi al contempo a modelli di frode in continua evoluzione.

La soluzione : JPMorgan ha sviluppato un approccio alla qualità dei dati a più livelli che include la convalida dei dati in tempo reale, la quale verifica i dati delle transazioni rispetto alle regole di qualità in pochi millisecondi; sistemi di rilevamento delle anomalie che identificano i problemi di qualità dei dati prima che influiscano sui modelli di frode; e il monitoraggio continuo dei modelli che tiene traccia delle variazioni di dati e concetti negli schemi di frode.

Caso di studio 3: Walmart – Qualità dei dati del motore di raccomandazione

Walmart gestisce una delle più grandi piattaforme di e-commerce a livello globale. La qualità dei dati relativi al comportamento dei clienti, ai cataloghi dei prodotti e ai sistemi di inventario è fondamentale per fornire raccomandazioni pertinenti. ⁶

La sfida : Walmart doveva integrare i dati di oltre 4.700 negozi fisici con il comportamento dei clienti online, gestire i dati del catalogo prodotti con milioni di SKU che cambiano frequentemente, gestire le variazioni stagionali e le rapide fluttuazioni delle scorte e unire i dati provenienti da società acquisite come Jet.com con standard di dati diversi.

La soluzione : il colosso della vendita al dettaglio ha implementato un framework unificato per la qualità dei dati con pulizia automatizzata del catalogo prodotti per standardizzare attributi, descrizioni e categorizzazioni dei prodotti. Ha creato un sistema di convalida dei dati di inventario in tempo reale per garantire che i consigli riflettano l'effettiva disponibilità dei prodotti e ha sviluppato sistemi di deduplicazione dei dati dei clienti per creare profili cliente unificati su tutti i canali.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Le migliori prassi per garantire la qualità dei dati nell'IA

1-Implementare politiche di governance dei dati

Un framework di governance dei dati dovrebbe definire standard, processi e ruoli relativi alla qualità dei dati. Ciò contribuirà a creare una cultura della qualità dei dati e a garantire che le pratiche di gestione dei dati siano in linea con gli obiettivi organizzativi.

Esempio concreto: Airbnb

Airbnb ha lanciato "Data University" per migliorare l'alfabetizzazione digitale dei propri dipendenti, offrendo corsi personalizzati che integrano i dati e gli strumenti specifici di Airbnb. Dal suo lancio nel terzo trimestre del 2016, Data University ha incrementato l'utilizzo degli strumenti interni di data science di Airbnb, portando il numero di utenti attivi settimanali dal 30% al 45%.

Con la partecipazione di oltre 500 dipendenti, l'iniziativa sottolinea l'importanza di allineare le attività di governance dei dati agli obiettivi organizzativi, promuovendo una cultura aziendale di qualità dei dati e di processo decisionale informato. Il programma esemplifica come framework di governance dei dati personalizzati possano favorire la competenza in materia di dati e promuovere l'allineamento con gli obiettivi aziendali.

2-Utilizzare strumenti per la qualità dei dati

Gli strumenti per la qualità dei dati possono automatizzare i processi di pulizia, convalida e monitoraggio dei dati, garantendo che i modelli di intelligenza artificiale abbiano sempre accesso a dati di alta qualità.

Esempio concreto: General Electric

Un esempio concreto e rilevante di utilizzo di strumenti per la qualità dei dati è l'implementazione da parte di General Electric (GE) della sua strategia di governance e gestione della qualità dei dati, in particolare all'interno della sua piattaforma Predix per l'analisi dei dati industriali. Per supportare le sue iniziative di trasformazione digitale e di intelligenza artificiale, GE ha investito in un solido set di strumenti per la qualità dei dati al fine di mantenere elevati standard qualitativi in tutto il suo ecosistema IoT industriale.

GE ha implementato strumenti automatizzati per la pulizia, la convalida e il monitoraggio continuo dei dati, al fine di gestire gli enormi volumi di dati generati dalle sue apparecchiature industriali, come turbine e motori a reazione. Questi strumenti hanno aiutato GE a garantire che i dati che alimentavano i suoi modelli di intelligenza artificiale fossero accurati, coerenti e affidabili, riducendo la necessità di interventi manuali e consentendo di ottenere informazioni in tempo reale basate sui dati.

Esempi di soluzioni per la qualità dei dati

Pandada AI , lanciata all'inizio del 2026, è una piattaforma basata sull'intelligenza artificiale per la pulizia e l'analisi automatizzata dei dati. È in grado di acquisire file di dati (CSV, fogli di calcolo Excel, PDF e persino immagini) e generare report e presentazioni analitiche strutturate e condivisibili. ⁷ La piattaforma include funzionalità intelligenti di pulizia dei dati (rimozione dei duplicati, standardizzazione del formato, rilevamento dei valori mancanti) che risolvono automaticamente i problemi relativi ai dati, riducendo il lavoro manuale di preparazione dei dati. ⁸

Sieve è una piattaforma di pulizia dei dati sviluppata da una startup di Y Combinator nella primavera del 2025, che combina l'elaborazione basata sull'intelligenza artificiale con la possibilità di una revisione umana. ⁹ Fornisce un'API e un componente aggiuntivo per Excel per la pulizia automatizzata dei dati, instradando automaticamente eventuali problemi segnalati agli operatori umani per la convalida. ¹⁰

3. Creare un team per la qualità dei dati

La creazione di un team dedicato alla qualità dei dati garantirà il monitoraggio e il miglioramento continui dei processi relativi ai dati. Il team potrà inoltre formare e istruire gli altri dipendenti sull'importanza della qualità dei dati.

4. Collaborare con i fornitori di dati

Instaurare solide relazioni con i fornitori di dati e assicurarsi del loro impegno per la qualità dei dati può ridurre al minimo il rischio di ricevere dati di bassa qualità.

5. Monitorare costantemente le metriche di qualità dei dati

La misurazione e il monitoraggio regolari delle metriche di qualità dei dati possono aiutare le organizzazioni a identificare e risolvere potenziali problemi prima che questi abbiano un impatto sulle prestazioni dell'IA.

Che cosa sono i dati dell'IA?

In senso lato, i dati per l'IA si riferiscono a qualsiasi dato utilizzato nello sviluppo o nel funzionamento dei sistemi di intelligenza artificiale. Di conseguenza, ciò include, a titolo esemplificativo ma non esaustivo, i dataset utilizzati per addestrare i modelli, i dati di input in tempo reale utilizzati per le previsioni e i dati sintetici generati per arricchire esempi del mondo reale, tra gli altri. Sebbene non sia un termine tecnico formale, "dati per l'IA" è comunemente usato per descrivere le informazioni che alimentano i sistemi di apprendimento automatico e di apprendimento profondo.

FAQ

Secondo una ricerca di Gartner, la scarsa qualità dei dati costa alle organizzazioni in media 12,9 milioni di dollari all'anno. Tuttavia, il costo reale va ben oltre l'impatto finanziario diretto. La scarsa qualità dei dati porta al fallimento dei progetti di intelligenza artificiale; i report di settore suggeriscono che fino all'85% dei progetti di IA e machine learning non riesce a mantenere le promesse iniziali, spesso a causa di problemi di qualità dei dati. Ulteriori costi includono il tempo sprecato, poiché i data scientist dedicano il 60-80% del loro tempo alla pulizia dei dati anziché allo sviluppo dei modelli, la perdita di opportunità di fatturato dovuta a previsioni imprecise e a esperienze negative per i clienti, e i rischi di conformità, in particolare nei settori regolamentati dove i problemi di qualità dei dati possono comportare sanzioni significative.

Ricerche condotte da fonti del settore indicano che il 70-85% dei progetti di intelligenza artificiale falliscono a causa di problemi legati ai dati, con la qualità dei dati come causa principale. Un'analisi di VentureBeat sulle implementazioni di IA ha rilevato che l'87% dei progetti di data science non raggiunge mai la fase di produzione, con dati inadeguati o di scarsa qualità come causa principale. Un sondaggio di Dimensional Research ha rivelato che il 96% delle organizzazioni riscontra problemi di qualità dei dati durante l'addestramento dei modelli di IA. Questi fallimenti si manifestano in diversi modi, tra cui modelli che funzionano bene in fase di test ma falliscono in produzione a causa della deriva dei dati, risultati distorti derivanti da dati di addestramento non rappresentativi e l'impossibilità di scalare perché le pipeline di dati non riescono a mantenere la qualità ai volumi di produzione.

Sebbene strettamente correlate, la qualità dei dati e la governance dei dati hanno scopi diversi. La qualità dei dati si riferisce alle caratteristiche dei dati stessi, concentrandosi sulla loro accuratezza, completezza, coerenza, tempestività e pertinenza. Riguarda la condizione e l'usabilità dei dati per lo scopo previsto. La qualità dei dati viene in genere misurata utilizzando metriche come tassi di errore, percentuali di completezza e conteggio dei duplicati.

La governance dei dati, d'altro canto, è il quadro di riferimento costituito da politiche, procedure, ruoli e responsabilità che garantiscono una corretta gestione dei dati all'interno di un'organizzazione. La governance definisce chi possiede i dati, chi può accedervi, come devono essere utilizzati, quali standard devono soddisfare e come deve essere mantenuta la qualità.
Pensate alla governance dei dati come alla struttura organizzativa e al regolamento interno, mentre la qualità dei dati è il risultato che si cerca di ottenere. Una buona governance permette di raggiungere una buona qualità, ma per il successo delle iniziative di intelligenza artificiale sono necessari entrambi gli elementi. La governance fornisce la struttura sostenibile che garantisce che la qualità dei dati non sia un'operazione di pulizia una tantum, ma una pratica continua.

Collegamenti di riferimento

LSEG Data & Analytics | Financial Technology & Data | Data Analytics

The State of Data Management - The Impact of Data Distrust | SnapLogic

SnapLogic

Big Data Driven Agriculture: Big Data Analytics in Plant Breeding, Genomics, and the Use of Remote Sensing Technologies to Advance Crop Productivity - Shakoor - 2019 - The Plant Phenome Journal - Wiley Online Library

Mayo Clinic’s Healthy Model for AI Success

JPMorgan Chase using ChatGPT-like large language models to detect fraud | American Banker

American Banker

Walmart’s Generative AI search puts more time back in customers' hands

https://www.producthunt.com/products/pandada-ai

https://onehundrednights.com/ai-tools-for-nonprofits/data-analysis-reporting/pandada/

https://www.ycombinator.com/companies/sieveai

10.

https://www.ycombinator.com/companies/sieveai

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Prossimo da leggere

Realtà estesaMag 8

Oltre 15 casi d'uso e applicazioni di intelligenza artificiale nella realtà aumentata

Cem Dilmegani

Qualità dei dati nell'IA nel 2026: sfide e migliori pratiche

Qual è l'importanza della qualità dei dati nell'intelligenza artificiale?

Perché evitare il problema "dati errati in ingresso, dati errati in uscita" è fondamentale per la qualità dei dati?

Quali sono le componenti chiave dei dati di qualità nell'IA?

Quali sono le sfide legate alla garanzia della qualità dei dati nell'intelligenza artificiale?

1- Raccolta dati

2-Etichettatura dei dati

3-Archiviazione e sicurezza dei dati

4-Governance dei dati

5- Avvelenamento dei dati

6-Cicli di feedback di dati sintetici

Casi di studio reali

Caso di studio 1: Mayo Clinic – Qualità dei dati di diagnostica per immagini

Caso di studio 2: JPMorgan Chase – Qualità dei dati per il rilevamento delle frodi

Caso di studio 3: Walmart – Qualità dei dati del motore di raccomandazione

Le migliori prassi per garantire la qualità dei dati nell'IA

1-Implementare politiche di governance dei dati

Esempio concreto: Airbnb

2-Utilizzare strumenti per la qualità dei dati

Esempio concreto: General Electric

Esempi di soluzioni per la qualità dei dati

3. Creare un team per la qualità dei dati

4. Collaborare con i fornitori di dati

5. Monitorare costantemente le metriche di qualità dei dati

Che cosa sono i dati dell'IA?

FAQ

Quanto costa alle organizzazioni una scarsa qualità dei dati?

Quale percentuale di progetti di intelligenza artificiale falliscono a causa di problemi di qualità dei dati?

Qual è la differenza tra qualità dei dati e governance dei dati?

Collegamenti di riferimento

Sii il primo a commentare

Prossimo da leggere

Oltre 15 casi d'uso e applicazioni di intelligenza artificiale nella realtà aumentata