Where to get datasets for ML?

To find datasets for machine learning, data scientists can explore various data repositories offering diverse datasets, including demographic data, economic and financial data, and public government data. These curated datasets cover a range of applications, such as natural language processing, sentiment analysis, computer vision, and healthcare.Resources like open datasets, free datasets, and public datasets provide high-quality training data, validation datasets, and test datasets in various data formats like CSV files. Popular sources include government portals, academic institutions, and organizations like the International Monetary Fund, offering extensive collections of datasets for ML projects, predictive models, and deep learning algorithms.

What kind of dataset is good for machine learning?

A good machine learning dataset is a high-quality, diverse dataset with rich metadata, suitable for specific tasks like natural language processing, image classification, or sentiment analysis, and is often available from public data repositories or open datasets.

Dati Scienza dei dati

57 set di dati per modelli di apprendimento automatico e intelligenza artificiale

Cem Dilmegani

con

Sıla Ermut

aggiornato il Gen 28, 2026

Guarda il nostro norme etiche

Per sfruttare o sviluppare soluzioni di intelligenza artificiale generativa o conversazionale , sono necessari i dati . È possibile utilizzare set di dati già disponibili sul mercato oppure affidarsi a un servizio di raccolta dati .

Abbiamo identificato 57 set di dati per addestrare e valutare modelli di apprendimento automatico e di intelligenza artificiale.

Modelli linguistici su larga scala (LLM) e set di dati di intelligenza artificiale agentica

Set di dati / Benchmark	Descrizione	Gratuito / A pagamento	Ultimo aggiornamento
MMLU (Comprensione linguistica multi-task massiva)	Punto di riferimento per il ragionamento generale e le conoscenze accademiche	Gratuito	In corso
HumanEval+	Benchmark di programmazione Python per codice generativo	Gratuito	In corso
FineWeb	Set di dati di Hugging Face per il pre-addestramento di LLM	Gratuito	In corso
FineWeb-Edu	Sottoinsieme educativo di FineWeb	Gratuito	In corso
Superior-Reasoning-SFT	Set di dati per il ragionamento Long-CoT di Alibaba-Apsara	Gratuito	2026
MMMU (Comprensione Multidisciplinare Multimodale Massiva)	Benchmark multimodale (ragionamento basato su immagini e testo)	Gratuito	2025
L'ultimo esame dell'umanità (HLE)	Benchmark multimodale per testare i modelli LLM di frontiera oltre l'MMLU	Gratuito	2025
Banco delle idee sull'IA (2025)	Verifica la capacità dei partecipanti al LLM di sintetizzare nuove idee di ricerca.	Gratuito (ricerca)	2025
Dataset dei libri di pubblico dominio di Harvard	Oltre 1 milione di libri per la pre-formazione e la generazione di testi	Gratuito	2025
Piattaforme e strumenti di intelligenza artificiale generativa 2025	Metadati sugli strumenti e le API di GenAI	Gratuito	2025

Questa categoria comprende dataset e benchmark progettati per l'addestramento e la valutazione di modelli linguistici e multimodali avanzati. Questi dataset aiutano a valutare le capacità dei modelli in ambito di ragionamento, generazione di testo, risposta a domande e attività creative.

I benchmark per modelli linguistici di grandi dimensioni , come MMLU e GPQA, misurano il ragionamento generale e scientifico.
I dataset multimodali, come LAION-5B, combinano testo e immagini per addestrare modelli che possono gestisce entrambi i formati.
Le valutazioni all'avanguardia, come Humanity's Last Exam e AI Idea Bench, mettono alla prova la creatività dei modelli, l'accuratezza fattuale e l'adattabilità a stimoli complessi.

Set di dati per la programmazione di intelligenza artificiale e l'ingegneria del software

Questa categoria comprende i dataset per la generazione, la comprensione, il debug e la traduzione del codice . Vengono utilizzati per costruire e valutare sistemi che assistono i programmatori o automatizzano le attività di sviluppo software.

Set di dati come The Heap e MADE-WIC contengono codice multilingue e annotato per valutare l'accuratezza della programmazione e il debito tecnico.
HumanEval e APPS forniscono problemi di programmazione con soluzioni di riferimento per valutare la qualità della generazione del codice.
I set di dati proprietari , come quelli di Amazon CodeWhisperer e GitHub Copilot, supportano gli assistenti di programmazione commerciali.

Questi set di dati consentono di testare in modo coerente i modelli di codifica e supportano la creazione di strumenti in grado di analizzare o generare software in modo efficiente.

Set di dati sulla sicurezza informatica e sulla sicurezza dei dati

I dataset di sicurezza informatica forniscono informazioni per rilevare, classificare e prevenire le minacce digitali. Includono registri del traffico di rete, campioni di malware e database di vulnerabilità.

CICIDS2017 e TON_IoT sono ampiamente utilizzati per l'addestramento di sistemi di rilevamento di intrusioni e anomalie.
I dataset EMBER e VirusShare contengono dati sui malware etichettati per la classificazione basata su modelli.
Il database CVE-MITRE fornisce informazioni strutturate sulle vulnerabilità software note.

Questi set di dati supportano la ricerca e l'addestramento di modelli nel campo della sicurezza informatica , consentendo ai sistemi di apprendere da schemi di attacco reali e migliorare l'identificazione delle minacce.

Dati, dati sintetici e insiemi di dati sulla privacy

Questa categoria comprende set di dati aperti e sintetici che aiutano le organizzazioni ad addestrare modelli mantenendo al contempo la privacy e la qualità dei dati. I dati sintetici replicano le distribuzioni del mondo reale senza esporre informazioni personali o proprietarie.

Piattaforme come Appen , Amazon Mechanical Turk e Telus International forniscono set di dati generati da esseri umani per l'apprendimento supervisionato.
Hazy e Gretel.ai generano dati strutturati sintetici per uso aziendale.
Repository aperti come Kaggle Datasets e Google Dataset Search forniscono dati accessibili al pubblico in diversi ambiti.

Questi set di dati garantiscono che i modelli di apprendimento automatico abbiano accesso a dati diversificati e rappresentativi, nel rispetto degli standard di privacy.

Set di dati specifici per settore e per dominio.

I dataset specifici per dominio si concentrano su applicazioni in settori particolari come la sanità , la finanza , la robotica e la guida autonoma . Forniscono dati specializzati ed etichettati per l'addestramento di modelli in attività rilevanti per il settore.

MIMIC-IV e PhysioNet supportano la ricerca medica e l'analisi dei dati sanitari .
Waymo Open Dataset e KITTI vengono utilizzati perla visione artificiale nei veicoli autonomi .
I dati aperti della Banca Mondiale e i set di dati dell'OCSE forniscono indicatori economici e finanziari.
Common Voice e Free Music Archive supportano lo sviluppo di modelli audio e linguistici.

Questi set di dati aiutano le organizzazioni e i ricercatori a sviluppare modelli su misura per le sfide del settore e per specifici ambienti di dati.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Che cosa sono i dataset di machine learning?

Un dataset per l'apprendimento automatico è una raccolta di dati strutturata, specificamente raccolta e preparata per addestrare modelli di apprendimento automatico. Questi dataset per l'apprendimento automatico fungono da esempi che aiutano il modello ad apprendere schemi, estrarre caratteristiche significative e fare previsioni su dati non visti in precedenza.

A seconda del compito, il dataset per l'apprendimento automatico può essere costituito da vari tipi di dati, tra cui:

Dati testuali : utilizzati in applicazioni come l'elaborazione del linguaggio naturale , l'analisi del sentiment e la traduzione automatica.
Dati immagine : comunemente utilizzati nella visione artificiale e nelle reti neurali convoluzionali per attività come il riconoscimento di cifre scritte a mano o il rilevamento di difetti nelle lamiere d'acciaio.
Dati audio : per attività di riconoscimento vocale o classificazione dei suoni.
Dati video : per il tracciamento di oggetti o l'analisi video in tempo reale.
Dati numerici : utilizzati in attività di regressione o classificazione, a volte provenienti da dati di spettrometria di massa o da registri di timestamp.

La maggior parte dei progetti di apprendimento automatico inizia con dati grezzi, che vengono poi etichettati o annotati . Questa etichettatura aiuta il sistema di apprendimento automatico a comprendere il risultato atteso per la classificazione, la regressione o altre attività predittive.

Un buon set di dati, spesso proveniente da repository di apprendimento automatico aperti, pubblici o specializzati, può migliorare significativamente le prestazioni del modello.

Perché preparare i set di dati per l'apprendimento automatico?

La preparazione e la selezione di set di dati di alta qualità rappresentano una delle fasi più cruciali nello sviluppo di sistemi di intelligenza artificiale. Molte organizzazioni sono consapevoli che la preparazione dei dati può determinare il successo o il fallimento dei loro progetti di apprendimento automatico.

La qualità dei dati di addestramento influisce sulla capacità dei modelli di generalizzare a scenari reali e sulla precisione con cui gestiscono problemi specifici. Un dataset per l'apprendimento automatico ha tre scopi principali:

Per addestrare il modello

Il set di addestramento insegna alla macchina le relazioni e i modelli presenti nei dati. Ciò comporta l'inserimento di dati annotati o etichettati, consentendo al modello di regolare i propri parametri e migliorare le previsioni su input simili.

Per misurare l'accuratezza del modello

Dopo l'addestramento, il dataset di test (o set di test) viene utilizzato per valutare le prestazioni del modello. Questo aiuta a determinare quanto bene il modello gestisce i dati non visti e se si sta adattando eccessivamente al set di addestramento o se sta apprendendo modelli significativi.

Per migliorare il modello dopo l'implementazione

Una volta implementati, i modelli di machine learning vengono spesso perfezionati utilizzando dati aggiuntivi raccolti, il che consente loro di adattarsi a nuove condizioni o classi. I set di validazione contribuiscono inoltre a ottimizzare i modelli e a prevenire l'overfitting.

Collaborazione con un data partner

La preparazione dei set di dati può richiedere molte risorse, soprattutto quando si tratta di raccolte estese, valori mancanti o annotazioni complesse. Molte organizzazioni si affidano a un fornitore di servizi di raccolta o generazione dati per gestire questo processo.

È possibile collaborare con una piattaforma di crowdsourcing di dati o con un'azienda specializzata in servizi di data science per creare set di dati specifici per un determinato settore, che si tratti di set di dati per l'apprendimento automatico per l'analisi del sentiment, la classificazione del testo o attività basate su immagini come l'identificazione di cento specie vegetali.

A volte, i dati vengono raccolti tramite web scraping o accessibili tramite strumenti come Google Dataset Search o iniziative di dati aperti.

Per esigenze specifiche, come i dataset per modelli di deep learning o sistemi di visione artificiale, affidarsi a dataset pubblici curati o a dataset gratuiti garantisce che i dati di addestramento coprano la gamma necessaria di esempi e classi.

È inoltre possibile selezionare un partner per la gestione dei dati in base a specifici tipi di dati:

Tipi di set di dati di apprendimento automatico

L'intero set di dati raccolto viene suddiviso in tre sottoinsiemi, che sono i seguenti:

1. Set di dati di addestramento

Questo è uno dei sottoinsiemi più importanti dell'intero dataset, rappresentandone circa il 60%. Questo set è costituito dai dati inizialmente utilizzati per addestrare il modello. In altre parole, aiuta a insegnare all'algoritmo cosa cercare nei dati.

Ad esempio, un sistema di riconoscimento delle targhe dei veicoli verrà addestrato con dati di immagine contenenti etichette che indicano la posizione (ad esempio, anteriore o posteriore dell'auto) e il formato dei dati delle targhe dei veicoli e di oggetti simili, per imparare cosa rilevare e cosa evitare.

Figura 1. Esempio di set di dati per un sistema di rilevamento delle targhe. ¹

2. Set di dati di convalida

Questo sottoinsieme rappresenta circa il 20% del dataset totale e viene utilizzato per valutare tutti i parametri del modello dopo la fase di addestramento. I dati di validazione sono dati noti che aiutano a identificare eventuali carenze nel modello. Questi dati vengono utilizzati anche per verificare se il modello presenta overfitting o underfitting.

3. Set di dati di test

Questo sottoinsieme viene utilizzato nella fase finale del processo di addestramento e rappresenta l'ultimo 20% del dataset. I dati in questo sottoinsieme sono sconosciuti al modello e vengono utilizzati per testarne l'accuratezza. Questo dataset mostrerà quanto il modello ha appreso dai due sottoinsiemi precedenti.

Conclusione

La scelta del dataset più adatto è un passaggio fondamentale in qualsiasi progetto di machine learning o intelligenza artificiale. Che si opti per dati generati dall'uomo, dati sintetici generati automaticamente o dataset aperti e liberamente disponibili, la chiave è allineare la scelta dei dati agli obiettivi e alle sfide specifiche del progetto.

I set di dati di alta qualità e ben preparati influenzano direttamente l'efficacia con cui un modello apprende, generalizza e si comporta nelle applicazioni del mondo reale.

Le organizzazioni e i professionisti possono gestire meglio la complessità dello sviluppo dell'IA comprendendo le tipologie e i ruoli dei set di dati, dei set di addestramento, di convalida e di test, ed esplorando il ricco ecosistema di fonti di dati disponibili.

Una scrupolosa attenzione alla qualità, alla pertinenza e alla diversità dei dati garantisce che i modelli siano accurati e adattabili alle esigenze in continua evoluzione.

FAQ

Per trovare dataset adatti all'apprendimento automatico, gli scienziati dei dati possono esplorare diversi repository che offrono dataset eterogenei, tra cui dati demografici, economici e finanziari, nonché dati pubblici governativi. Questi dataset accuratamente selezionati coprono una vasta gamma di applicazioni, come l'elaborazione del linguaggio naturale, l'analisi del sentiment, la visione artificiale e il settore sanitario.

Risorse come i dataset aperti, i dataset gratuiti e i dataset pubblici forniscono dati di addestramento, di validazione e di test di alta qualità in vari formati, come i file CSV. Tra le fonti più diffuse si annoverano portali governativi, istituzioni accademiche e organizzazioni come il Fondo Monetario Internazionale, che offrono ampie raccolte di dataset per progetti di machine learning, modelli predittivi e algoritmi di deep learning.

Un buon dataset per l'apprendimento automatico è un dataset di alta qualità e diversificato, con metadati ricchi, adatto a compiti specifici come l'elaborazione del linguaggio naturale, la classificazione delle immagini o l'analisi del sentiment, ed è spesso disponibile da repository di dati pubblici o dataset aperti.

Collegamenti di riferimento

ResearchGate - Temporarily Unavailable

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da

Sıla Ermut

Analista di settore

Segui

Sıla Ermut è un'analista di settore presso AIMultiple, specializzata in email marketing e video di vendita. In precedenza, ha lavorato come reclutatrice in società di project management e consulenza. Sıla ha conseguito un Master in Psicologia Sociale e una laurea in Relazioni Internazionali.

Visualizza il profilo completo