Avaliação em Mundo Aberto

57 Conjuntos de Dados para Modelos de ML e IA

com

atualizado em 10 jun. 2026

São necessários dados para aproveitar ou criar soluções de IA generativa ou IA conversacional. Você pode usar conjuntos de dados existentes disponíveis no mercado ou contratar um serviço de coleta de dados.

Identificamos 57 conjuntos de dados para treinar e avaliar modelos de aprendizado de máquina e IA.

Modelos de Linguagem de Grande Porte (LLMs) e conjuntos de dados de IA agente

Conjunto de Dados / Benchmark	Descrição	Grátis / Pago	Última Atualização
MMLU (Massive Multitask Language Understanding)	Benchmark para raciocínio geral e conhecimento acadêmico	Grátis	Contínuo
HumanEval+	Benchmark de codificação Python para código generativo	Grátis	Contínuo
FineWeb	Conjunto de dados do Hugging Face para pré-treinamento de LLM	Grátis	Contínuo
FineWeb-Edu	Subconjunto educacional do FineWeb	Grátis	Contínuo
Superior-Reasoning-SFT	Conjunto de dados de raciocínio Long-CoT da Alibaba-Apsara	Grátis	2026
MMMU (Massive Multi-disciplinary Multimodal Understanding)	Benchmark multimodal (raciocínio com imagem + texto)	Grátis	2025
Humanity’s Last Exam (HLE)	Benchmark multimodal para testar LLMs de ponta além do MMLU	Grátis	2025
IA Idea Bench (2025)	Testa a capacidade dos LLMs de sintetizar novas ideias de pesquisa	Grátis (pesquisa)	2025
Harvard Public Domain Books Dataset	Mais de 1 milhão de livros para pré-treinamento e geração de texto	Grátis	2025
Generative-IA-Tools-Platforms-2025	Metadados sobre ferramentas GenAI e APIs	Grátis	2025

Esta categoria inclui conjuntos de dados e benchmarks projetados para treinamento e avaliação de modelos linguísticos e multimodais avançados. Esses conjuntos de dados ajudam a avaliar as capacidades dos modelos em raciocínio, geração de texto, resposta a perguntas e tarefas criativas.

Benchmarks de modelos de linguagem de grande porte como MMLU e GPQA medem raciocínio geral e científico.
Conjuntos de dados multimodais, como LAION-5B, combinam texto e imagens para treinar modelos que podem lidar com ambos os formatos.
Avaliações de ponta, como Humanity’s Last Exam e IA Idea Bench, testam a criatividade dos modelos, precisão factual e adaptabilidade a prompts complexos.

Conjuntos de dados de codificação e engenharia de software com IA

Conjunto de Dados	Descrição	Grátis / Pago	Última Atualização
CodeNet (IBM)	14 milhões de amostras de código em mais de 50 linguagens	Grátis	Contínuo
HumanEval	Benchmark de avaliação de geração de código	Grátis	Contínuo
APPS (Conjunto de Dados de Problemas de Código)	Pares problema-solução de programação	Grátis	Contínuo
CodeSearchNet	Conjunto de dados de código + docstring	Grátis	Contínuo
Terminal-Bench	Tarefas CLI/terminal para agentes de IA	Grátis	2026
The Heap (2025)	Conjunto de dados de código multilíngue sem contaminação gratuito	Grátis	2025
Amazon CodeWhisperer Dataset	Conjunto de dados proprietário de sugestões de código	Pago	2025
GitHub Copilot Telemetry Data	Proprietário; usado internamente para ajuste fino	Pago / Fechado	2025
The Stack v2	Código-fonte de 619 linguagens (PRs do GitHub, notebooks Jupyter, documentação)	Grátis	2024
StarCoder2 Training Corpus	Tokens curados do The Stack v2	Grátis	2024

Esta categoria cobre conjuntos de dados para geração, compreensão, depuração e tradução de código. São usados para criar e avaliar sistemas que auxiliam programadores ou automatizam tarefas de desenvolvimento de software.

Conjuntos de dados como The Heap e MADE-WIC contêm código multilíngue e anotado para avaliar precisão de codificação e dívida técnica.
HumanEval e APPS fornecem problemas de codificação com soluções de referência para benchmarking da qualidade da geração de código.
Conjuntos de dados proprietários, como os da Amazon CodeWhisperer e GitHub Copilot, apoiam assistentes de codificação comerciais.

Esses conjuntos de dados permitem testes consistentes de modelos de codificação e apoiam a criação de ferramentas que podem analisar ou gerar software de forma eficiente.

Conjuntos de dados de cibersegurança e segurança de dados

Conjunto de Dados	Descrição	Grátis / Pago	Última Atualização
VirusShare / VirusTotal	Binários de malware e metadados	Freemium / Pago	Contínuo
CVE-MITRE Database	Metadados públicos de vulnerabilidades e exploits	Grátis	Contínuo
CIC-IIoT-2025 (DataSense)	Conjunto de dados de benchmark baseado em sensores	Grátis	2025
Adversarial ML Threat Dataset (AdvBench)	Ataques sintéticos (envenenamento, evasão)	Grátis	2025
Defender IA Logs (Microsoft)	Dados de telemetria de segurança para IA corporativa	Pago	2025
OWASP Top 10 for LLMs 2025	Diretrizes/taxonomia para segurança de GenAI	Grátis	2024
CICIDS2017	Conjunto de dados de detecção de intrusão de rede	Grátis	2024
TON_IoT	Conjunto de dados de segurança IoT (logs de rede + telemetria)	Grátis	2024
EMBER	Conjunto de dados de características de malware para análise estática	Grátis	2023
MalNet	Grafos de chamada de função de malware Android	Grátis	2021

Conjuntos de dados de cibersegurança fornecem informações para detectar, classificar e prevenir ameaças digitais. Incluem logs de tráfego de rede, amostras de malware e bancos de dados de vulnerabilidades.

CICIDS2017 e TON_IoT são amplamente usados para treinar sistemas de detecção de intrusão e anomalia.
Os conjuntos de dados EMBER e VirusShare contêm dados de malware rotulados para classificação baseada em modelo.
O banco de dados CVE-MITRE fornece informações estruturadas sobre vulnerabilidades de software conhecidas.

Esses conjuntos de dados apoiam pesquisa e treinamento de modelos em cibersegurança, permitindo que sistemas aprendam com padrões de ataque reais e melhorem a identificação de ameaças.

Dados, dados sintéticos e conjuntos de dados de privacidade

Conjunto de Dados / Plataforma	Descrição	Grátis / Pago	Última Atualização
Kaggle Datasets	Dados abertos em diversos domínios	Grátis	Contínuo
Google Dataset Search	Mecanismo de busca para conjuntos de dados abertos	Grátis	Contínuo
Data.gov / Data.gov.uk / EU Open Data Portal	Repositórios de dados governamentais	Grátis	Contínuo
Mostly IA / Gretel.ai	Plataformas de dados sintéticos	Pago	2025
GitHub Datasets List	Biblioteca de conjuntos de dados de domínios variados	Grátis & Pago	2025
Appen	Conjuntos de dados gerados por humanos para ML	Pago	2025
Telus International	Provedor de dados humanos + sintéticos	Pago	2024
Prolific	Dados de resposta humana para pesquisa	Pago	2024
LXT	Coleta de dados por crowdsourcing	Pago	2024
Hazy (Synthetic Data)	Dados estruturados sintéticos para empresas	Pago	2024

Esta categoria inclui conjuntos de dados abertos e sintéticos que ajudam organizações a treinar modelos mantendo a privacidade e qualidade dos dados. Dados sintéticos replicam distribuições do mundo real sem expor informações pessoais ou proprietárias.

Plataformas como Appen, Amazon Mechanical Turk e Telus International fornecem conjuntos de dados gerados por humanos para aprendizado supervisionado.
Hazy e Gretel.ai geram dados estruturados sintéticos para uso corporativo.
Repositórios abertos como Kaggle Datasets e Google Dataset Search fornecem dados acessíveis ao público em múltiplos domínios.

Esses conjuntos de dados garantem que modelos de aprendizado de máquina tenham acesso a dados diversos e representativos, ao mesmo tempo que cumprem padrões de privacidade.

Deixe nossa equipe automatizar um dos seus processos de negócio com agentes de IA, gratuitamente.

Automatizar um processo

Conjuntos de dados específicos por domínio e indústria

Domínio	Conjunto de Dados	Descrição	Grátis / Pago	Última Atualização
Saúde	MIMIC-IV	Registros de pacientes em UTI (desidentificados)	Grátis (somente pesquisa)	Contínuo
Saúde	PhysioNet	Sinais biomédicos e dados fisiológicos	Grátis	Contínuo
Saúde	HealthData.gov	Conjuntos de dados de saúde do governo dos EUA	Grátis	Contínuo
Condução Autônoma	Waymo Open Dataset	Dados de vídeo / LiDAR rotulados	Grátis (não comercial)	Contínuo
Condução Autônoma	ApolloScape / KITTI / nuScenes	Percepção de cena de estrada	Grátis	Contínuo
Finanças / Economia	World Bank / IMF / OECD Open Data	Séries temporais macroeconômicas	Grátis	Contínuo
Educação / Idioma	Common Voice	Dados de fala por crowdsourcing	Grátis	Contínuo
Música / Áudio	Free Music Archive (FMA)	Faixas musicais + metadados	Grátis	Contínuo
Clima / Sustentabilidade	NASA EarthData / Copernicus	Imagens climáticas, métricas ambientais	Grátis	Contínuo
Robótica	10Kh-RealOmin-OpenData	Conjunto de dados de IA encarnada da GenRobot com manipulação bimanual	Grátis	2026

Conjuntos de dados específicos por domínio focam em aplicações em setores particulares como saúde, finanças, robótica e condução autônoma. Fornecem dados especializados e rotulados para treinar modelos em tarefas relevantes para a indústria.

MIMIC-IV e PhysioNet apoiam pesquisa médica e análise em saúde.
Waymo Open Dataset e KITTI são usados para visão computacional em veículos autônomos.
World Bank Open Data e conjuntos de dados da OECD fornecem indicadores econômicos e financeiros.
Common Voice e Free Music Archive apoiam o desenvolvimento de modelos de áudio e de linguagem.

Esses conjuntos de dados ajudam organizações e pesquisadores a desenvolver modelos adaptados aos desafios da indústria e a ambientes de dados específicos.

O que são conjuntos de dados de ML?

Um conjunto de dados de aprendizado de máquina é uma coleta de dados estruturada, especificamente reunida e preparada para treinar modelos de aprendizado de máquina. Esses conjuntos de dados para ML atuam como exemplos que ajudam o modelo a aprender padrões, extrair características significativas e fazer previsões com dados não vistos.

Dependendo da tarefa, o conjunto de dados de aprendizado de máquina pode consistir em vários tipos de dados, incluindo:

Dados de texto: Usados em aplicações como processamento de linguagem natural, análise de sentimento e tradução automática.
Dados de imagem: Comumente usados em visão computacional e redes neurais convolucionais para tarefas como reconhecimento de dígitos manuscritos ou detecção de falhas em placas de aço.
Dados de áudio: Para reconhecimento de fala ou tarefas de classificação de som.
Dados de vídeo: Para rastreamento de objetos ou análise de vídeo em tempo real
Dados numéricos: Usados em tarefas de regressão ou classificação, às vezes provenientes de dados de espectrometria de massa ou logs de carimbos de tempo.

A maioria dos projetos de aprendizado de máquina começa com dados brutos, que são então rotulados ou anotados. Esse rotulamento ajuda o sistema de aprendizado de máquina a entender o resultado esperado para classificação, regressão ou outras tarefas preditivas.

Um bom conjunto de dados, muitas vezes proveniente de repositórios de aprendizado de máquina abertos, públicos ou especializados, pode melhorar significativamente o desempenho do modelo.

Por que preparar conjuntos de dados para aprendizado de máquina?

Preparar e escolher conjuntos de dados de alta qualidade é um dos passos mais cruciais no desenvolvimento de sistemas de inteligência artificial. Muitas organizações reconhecem que a preparação de dados pode fazer ou desfazer seus projetos de aprendizado de máquina.

A qualidade dos dados de treinamento afeta o quão bem os modelos se generalizam para cenários do mundo real e o quão precisamente lidam com problemas específicos. Existem três propósitos principais de um conjunto de dados de aprendizado de máquina:

Para treinar o modelo

O conjunto de treinamento ensina à máquina as relações e padrões dentro dos dados. Isso envolve alimentar dados anotados ou rotulados, permitindo que o modelo ajuste seus parâmetros e melhore suas previsões em entradas semelhantes.

Para medir a precisão do modelo

Após o treinamento, o conjunto de teste (ou conjunto de teste) é usado para avaliar o desempenho do modelo. Isso ajuda a determinar quão bem o modelo lida com dados não vistos e se está sofrendo sobreajuste ao conjunto de treinamento ou aprendendo padrões significativos.

Para melhorar o modelo após a implantação

Uma vez implantado, modelos de aprendizado de máquina são frequentemente refinados usando dados adicionais coletados, ajudando-os a se adaptar a novas condições ou classes. Conjuntos de validação também ajudam a ajustar e prevenir sobreajuste.

Não perca os nossos benchmarks e insights baseados em dados. O botão abre o Google; selecionar a AIMultiple confirma que deseja ver a AIMultiple com mais frequência nos resultados de pesquisa do Google.

Adicionar como fonte preferencial

Trabalhar com um parceiro de dados

Preparar conjuntos de dados pode ser intensivo em recursos, especialmente ao lidar com coleções extensas, valores ausentes ou anotações complexas. Muitas organizações lidam com esse processo com um provedor de serviço de coleta ou geração de dados.

Você pode colaborar com uma plataforma de crowdsourcing de dados ou empresa especializada em serviços de ciência de dados para criar conjuntos de dados específicos por domínio, seja que você precise de conjuntos de dados de aprendizado de máquina para análise de sentimento, classificação de texto ou tarefas baseadas em imagem, como identificar cem espécies de plantas.

Às vezes, os dados são coletados por meio de web scraping ou acessados por meio de ferramentas como Google Dataset Search ou iniciativas de dados abertos.

Para necessidades especializadas, como conjuntos de dados para modelos de aprendizado profundo ou sistemas de visão computacional, confiar em conjuntos de dados públicos curados ou conjuntos de dados gratuito garante que os dados de treinamento cubram a faixa necessária de exemplos e classes.

Você também pode escolher um parceiro de dados com base em tipos específicos de dados:

Tipos de conjuntos de dados de ML

O conjunto de dados completo que é coletado é dividido em três subconjuntos, que são os seguintes:

1. Conjunto de treinamento

Conjuntos de dados para ML: conjunto de treinamento é 60%

Este é um dos subconjuntos mais importantes de todo o conjunto de dados, compreendendo cerca de 60%. Este conjunto consiste nos dados inicialmente usados para treinar o modelo. Em outras palavras, ajuda a ensinar ao algoritmo o que procurar nos dados.

Por exemplo, um sistema de reconhecimento de placas de veículos será treinado com dados de imagem com rótulos indicando a localização (por exemplo, frente ou traseira do carro) e o formato dos dados das placas dos veículos e objetos semelhantes para aprender o que detectar e o que evitar.

Figura 1. Conjunto de dados de exemplo para um sistema de detecção de placa.¹

2. Conjunto de validação

Conjuntos de dados para ML: conjunto de validação é 20%

Este subconjunto representa cerca de 20% do conjunto de dados total e é usado para avaliar todos os parâmetros do modelo após a fase de treinamento. Os dados de validação são dados conhecidos que ajudam a identificar quaisquer deficiências no modelo. Esses dados também são usados para identificar se o modelo está sofrendo sobreajuste ou subajuste.

3. Conjunto de teste

Conjuntos de dados para ML: conjunto de teste é 20%

Este subconjunto é inserido na etapa final do processo de treinamento e representa os últimos 20% do conjunto de dados. Os dados neste subconjunto são desconhecidos para o modelo e são usados para testar a precisão do modelo. Este conjunto de dados mostrará o quanto seu modelo aprendeu com os dois subconjuntos anteriores.

Conclusão

Selecionar o conjunto de dados certo é um passo fundamental em qualquer projeto de aprendizado de máquina ou IA. Seja optando por dados gerados por humanos, dados sintéticos gerados por máquina sintéticos ou conjuntos de dados abertos gratuitamente disponíveis, o importante é alinhar sua escolha de dados com os objetivos e desafios específicos do seu projeto.

Conjuntos de dados de alta qualidade e bem preparados influenciam diretamente o quão eficazmente um modelo aprende, se generaliza e se desempenha em aplicações do mundo real.

Organizações e profissionais podem navegar melhor pelas complexidades do desenvolvimento de IA ao entender os tipos e papéis dos conjuntos de dados, conjuntos de treinamento, validação e teste, e ao explorar o rico ecossistema de fontes de dados disponíveis.

Atenção cuidadosa à qualidade, relevância e diversidade dos dados garante que os modelos sejam precisos e adaptáveis às necessidades em evolução.

Perguntas frequentes

Para encontrar conjuntos de dados para aprendizado de máquina, cientistas de dados podem explorar vários repositórios de dados que oferecem conjuntos de dados diversos, incluindo dados demográficos, dados econômicos e financeiros e dados governamentais públicos. Esses conjuntos de dados curados cobrem uma variedade de aplicações, como processamento de linguagem natural, análise de sentimento, visão computacional e saúde.

Recursos como conjuntos de dados abertos, conjuntos de dados gratuito e conjuntos de dados públicos fornecem dados de treinamento de alta qualidade, conjuntos de validação e conjuntos de teste em vários formatos de dados, como arquivos CSV. Fontes populares incluem portais governamentais, instituições acadêmicas e organizações como o Fundo Monetário Internacional, que oferecem extensas coleções de conjuntos de dados para projetos de ML, modelos preditivos e algoritmos de aprendizado profundo.

Um bom conjunto de dados de aprendizado de máquina é um conjunto de dados de alta qualidade e diverso, com metadados ricos, adequado para tarefas específicas como processamento de linguagem natural, classificação de imagens ou análise de sentimento, e geralmente disponível em repositórios de dados públicos ou conjuntos de dados abertos.

Cite esta pesquisa

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Cem Dilmegani and Sıla Ermut (2026) - "57 Conjuntos de Dados para Modelos de ML e IA". Publicado on-line em AIMultiple.com. Acessado em 10 Junho 2026, em: https://aimultiple.com/datasets-for-ml [Recurso on-line]

Dilmegani, C., & Ermut, S. (2026, 10 Junho). 57 Conjuntos de Dados para Modelos de ML e IA. AIMultiple. https://aimultiple.com/datasets-for-ml

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Ermut, Sıla},
  title  = {{57 Conjuntos de Dados para Modelos de ML e IA}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/datasets-for-ml}},
  note   = {AIMultiple. Acessado em 10 Junho 2026}
}

Links de referência

ResearchGate - Temporarily Unavailable

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por

Sıla Ermut

Analista do Setor

Sıla Ermut é analista do setor na AIMultiple com foco em marketing por email e vídeos de vendas. Anteriormente, trabalhou como recrutadora em empresas de gerenciamento de projetos e consultoria. Sıla possui mestrado em Psicologia Social e bacharelado em Relações Internacionais.

Ver perfil completo