Evaluación en Mundo Abierto

57 Conjuntos de datos para modelos de ML e IA

con

actualizado el 10 de jun. de 2026

Se requieren datos para aprovechar o construir IA generativa o soluciones de IA conversacional. Puedes utilizar conjuntos de datos existentes disponibles en el mercado o contratar un servicio de recopilación de datos.

Identificamos 57 conjuntos de datos para entrenar y evaluar modelos de aprendizaje automático e IA.

Modelos de lenguaje grandes (LLM) y conjuntos de datos de IA agéntica

Conjunto de datos / Benchmark	Descripción	Gratis / Pago	Última actualización
MMLU (Comprensión de lenguaje multitarea masiva)	Benchmark para razonamiento general y conocimiento académico	Gratis	En curso
HumanEval+	Benchmark de codificación en Python para código generativo	Gratis	En curso
FineWeb	Hugging Face's dataset for LLM pre-training	Gratis	En curso
FineWeb-Edu	Subconjunto educativo de FineWeb	Gratis	En curso
Superior-Reasoning-SFT	Conjunto de datos de razonamiento Long-CoT de Alibaba-Apsara	Gratis	2026
MMMU (Comprensión multimodal multidisciplinaria masiva)	Benchmark multimodal (razonamiento de imagen + texto)	Gratis	2025
El último examen de la humanidad (HLE)	Benchmark multimodal para probar LLMs de vanguardia más allá de MMLU	Gratis	2025
IA Idea Bench (2025)	Prueba la capacidad de los LLM para sintetizar nuevas ideas de investigación	Gratis (investigación)	2025
Conjunto de datos de libros de dominio público de Harvard	Más de 1M de libros para preentrenamiento y generación de texto	Gratis	2025
Generative-IA-Tools-Platforms-2025	Metadatos sobre herramientas GenAI y APIs	Gratis	2025

Esta categoría incluye conjuntos de datos y benchmarks diseñados para entrenar y evaluar modelos avanzados de lenguaje y multimodales. Estos conjuntos de datos ayudan a evaluar las capacidades del modelo en razonamiento, generación de texto, respuesta a preguntas y tareas creativas.

Benchmarks de modelos de lenguaje grandes como MMLU y GPQA miden el razonamiento general y científico.
Conjuntos de datos multimodales, como LAION-5B, combinan texto e imágenes para entrenar modelos que pueden manejar ambos formatos.
Evaluaciones de vanguardia, como El último examen de la humanidad y IA Idea Bench, prueban la creatividad de los modelos, la precisión factual y la adaptabilidad a prompts complejos.

Conjuntos de datos de codificación con IA e ingeniería de software

Conjunto de datos	Descripción	Gratis / Pago	Última actualización
CodeNet (IBM)	14M de muestras de código en más de 50 idiomas	Gratis	En curso
HumanEval	Benchmark de evaluación de generación de código	Gratis	En curso
APPS (Conjunto de datos de problemas de código)	Pares de problema-solución de programación	Gratis	En curso
CodeSearchNet	Conjunto de datos de código + docstring	Gratis	En curso
Terminal-Bench	Tareas CLI/terminal para agentes de IA	Gratis	2026
The Heap (2025)	Conjunto de datos de código multilingüe gratis de contaminación	Gratis	2025
Conjunto de datos de Amazon CodeWhisperer	Conjunto de datos de sugerencias de código propietario	Pago	2025
Datos de telemetría de GitHub Copilot	Propietario; utilizado internamente para fine-tuning	Pago / Cerrado	2025
The Stack v2	Código fuente de 619 idiomas (PRs de GitHub, cuadernos Jupyter, documentación)	Gratis	2024
Corpus de entrenamiento de StarCoder2	Tokens curados de The Stack v2	Gratis	2024

Esta categoría cubre conjuntos de datos para generación, comprensión, depuración y traducción de código. Se utilizan para construir y evaluar sistemas que asisten a programadores o automatizan tareas de desarrollo de software.

Conjuntos de datos como The Heap y MADE-WIC contienen código multilingüe y anotado para evaluar la precisión de la codificación y la deuda técnica.
HumanEval y APPS proporcionan problemas de codificación con soluciones de referencia para evaluar la calidad de la generación de código.
Conjuntos de datos propietarios, como los de Amazon CodeWhisperer y GitHub Copilot, apoyan asistentes de codificación comerciales.

Estos conjuntos de datos permiten pruebas consistentes de modelos de codificación y apoyan la creación de herramientas que pueden analizar o generar software de manera eficiente.

Conjuntos de datos de ciberseguridad y seguridad de datos

Conjunto de datos	Descripción	Gratis / Pago	Última actualización
VirusShare / VirusTotal	Binarios y metadatos de malware	Freemium / Pago	En curso
Base de datos CVE-MITRE	Metadatos públicos de vulnerabilidades y exploits	Gratis	En curso
CIC-IIoT-2025 (DataSense)	Conjunto de datos de benchmark basado en sensores	Gratis	2025
Conjunto de datos de amenazas de ML adversarial (AdvBench)	Ataques sintéticos (envenenamiento, evasión)	Gratis	2025
Registros de Defender IA (Microsoft)	Datos de telemetría de seguridad para IA empresarial	Pago	2025
OWASP Top 10 para LLMs 2025	Directrices/taxonomía para seguridad de GenAI	Gratis	2024
CICIDS2017	Conjunto de datos de detección de intrusiones de red	Gratis	2024
TON_IoT	Conjunto de datos de seguridad de IoT (red + registros de telemetría)	Gratis	2024
EMBER	Conjunto de datos de características de malware para análisis estático	Gratis	2023
MalNet	Gráficos de llamadas de funciones de malware de Android	Gratis	2021

Los conjuntos de datos de ciberseguridad proporcionan información para detectar, clasificar y prevenir amenazas digitales. Incluyen registros de tráfico de red, muestras de malware y bases de datos de vulnerabilidades.

CICIDS2017 y TON_IoT se utilizan ampliamente para entrenar sistemas de detección de intrusiones y anomalías.
Los conjuntos de datos EMBER y VirusShare contienen datos de malware etiquetados para clasificación basada en modelos.
La base de datos CVE-MITRE proporciona información estructurada sobre vulnerabilidades de software conocidas.

Estos conjuntos de datos apoyan la investigación y el entrenamiento de modelos en ciberseguridad, permitiendo que los sistemas aprendan de patrones de ataque reales y mejoren la identificación de amenazas.

Datos, datos sintéticos y conjuntos de datos de privacidad

Conjunto de datos / Plataforma	Descripción	Gratis / Pago	Última actualización
Conjuntos de datos de Kaggle	Datos abiertos en diversos dominios	Gratis	En curso
Google Dataset Search	Motor de búsqueda para conjuntos de datos abiertos	Gratis	En curso
Data.gov / Data.gov.uk / Portal de datos abiertos de la UE	Repositorios de datos gubernamentales	Gratis	En curso
Mostly IA / Gretel.ai	Plataformas de datos sintéticos	Pago	2025
Lista de conjuntos de datos de GitHub	Biblioteca de conjuntos de datos de dominios mixtos	Gratis y Pago	2025
Appen	Conjuntos de datos generados por humanos para ML	Pago	2025
Telus International	Proveedor de conjuntos de datos humanos y sintéticos	Pago	2024
Prolific	Datos de respuesta humana para investigación	Pago	2024
LXT	Recopilación de datos crowdsourced	Pago	2024
Hazy (Datos sintéticos)	Datos estructurados sintéticos para empresas	Pago	2024

Esta categoría incluye conjuntos de datos abiertos y sintéticos que ayudan a las organizaciones a entrenar modelos manteniendo la privacidad y calidad de los datos. Los datos sintéticos replican distribuciones del mundo real sin exponer información personal o propietaria.

Plataformas como Appen, Amazon Mechanical Turk, y Telus International suministran conjuntos de datos generados por humanos para aprendizaje supervisado.
Hazy y Gretel.ai generan datos estructurados sintéticos para uso empresarial.
Repositorios abiertos como Conjuntos de datos de Kaggle y Google Dataset Search proporcionan datos de acceso público en múltiples dominios.

Estos conjuntos de datos aseguran que los modelos de aprendizaje automático tengan acceso a datos diversos y representativos mientras cumplen con los estándares de privacidad.

Deja que nuestro equipo automatice uno de tus procesos de negocio con agentes de IA, sin coste alguno.

Automatizar un proceso

Conjuntos de datos específicos de dominio e industria

Dominio	Conjunto de datos	Descripción	Gratis / Pago	Última actualización
Salud	MIMIC-IV	Registros de pacientes de UCI (desidentificados)	Gratis (solo investigación)	En curso
Salud	PhysioNet	Señales biomédicas y datos fisiológicos	Gratis	En curso
Salud	HealthData.gov	Conjuntos de datos de salud del gobierno de EE. UU.	Gratis	En curso
Conducción autónoma	Waymo Open Dataset	Datos de video / LiDAR etiquetados	Gratis (no comercial)	En curso
Conducción autónoma	ApolloScape / KITTI / nuScenes	Percepción de escenas viales	Gratis	En curso
Finanzas / Economía	Banco Mundial / FMI / Datos abiertos de la OCDE	Series temporales macroeconómicas	Gratis	En curso
Educación / Idioma	Common Voice	Datos de voz crowdsourced	Gratis	En curso
Música / Audio	Free Music Archive (FMA)	Pistas de música + metadatos	Gratis	En curso
Clima / Sostenibilidad	NASA EarthData / Copernicus	Imágenes climáticas, métricas ambientales	Gratis	En curso
Robótica	10Kh-RealOmin-OpenData	Conjunto de datos de IA encarnada de GenRobot IA con manipulación bimanual	Gratis	2026

Los conjuntos de datos específicos de dominio se centran en aplicaciones en sectores particulares como salud, finanzas, robótica y conducción autónoma. Proporcionan datos especializados y etiquetados para entrenar modelos en tareas relevantes para la industria.

MIMIC-IV y PhysioNet apoyan la investigación médica y el análisis de salud.
Waymo Open Dataset y KITTI se utilizan para visión por computadora en vehículos autónomos.
Datos abiertos del Banco Mundial y los conjuntos de datos de la OCDE proporcionan indicadores económicos y financieros.
Common Voice y Free Music Archive apoyan el desarrollo de modelos de audio y lenguaje.

Estos conjuntos de datos ayudan a las organizaciones e investigadores a desarrollar modelos adaptados a los desafíos de la industria y entornos de datos específicos.

¿Qué son los conjuntos de datos de ML?

Un conjunto de datos de aprendizaje automático es una recopilación de datos estructurada recopilada y preparada específicamente para entrenar modelos de aprendizaje automático. Estos conjuntos de datos para ML actúan como ejemplos que ayudan al modelo a aprender patrones, extraer características significativas y hacer predicciones sobre datos no vistos.

Dependiendo de la tarea, el conjunto de datos de aprendizaje automático puede consistir en varios tipos de datos, incluyendo:

Datos de texto: Se utilizan en aplicaciones como procesamiento del lenguaje natural, análisis de sentimientos y traducción automática.
Datos de imagen: Comúnmente utilizados en visión por computadora y redes neuronales convolucionales para tareas como reconocimiento de dígitos escritos a mano o detección de fallas en placas de acero.
Datos de audio: Para tareas de reconocimiento de voz o clasificación de sonidos.
Datos de video: Para seguimiento de objetos o análisis de video en tiempo real
Datos numéricos: Se utilizan en tareas de regresión o clasificación, a veces provenientes de datos de espectrometría de masas o registros de marcas de tiempo.

La mayoría de los proyectos de aprendizaje automático comienzan con datos sin procesar, que luego se etiquetan o anotan. Esta etiquetación ayuda al sistema de aprendizaje automático a comprender el resultado esperado para clasificación, regresión u otras tareas predictivas.

Un buen conjunto de datos, a menudo obtenido de repositorios de aprendizaje automático abiertos, públicos o especializados, puede mejorar significativamente el rendimiento del modelo.

¿Por qué preparar conjuntos de datos para aprendizaje automático?

Preparar y elegir conjuntos de datos de alta calidad es uno de los pasos más cruciales en el desarrollo de sistemas de inteligencia artificial. Muchas organizaciones reconocen que la preparación de datos puede hacer o deshacer sus proyectos de aprendizaje automático.

La calidad de los datos de entrenamiento afecta qué tan bien los modelos se generalizan a escenarios del mundo real y qué tan precisamente manejan problemas específicos. Hay tres propósitos clave de un conjunto de datos de aprendizaje automático:

Para entrenar el modelo

El conjunto de entrenamiento enseña a la máquina las relaciones y patrones dentro de los datos. Esto implica alimentar datos anotados o etiquetados, permitiendo que el modelo ajuste sus parámetros y mejore sus predicciones en entradas similares.

Para medir la precisión del modelo

Después del entrenamiento, el conjunto de datos de prueba (o conjunto de prueba) se utiliza para evaluar el rendimiento del modelo. Esto ayuda a determinar qué tan bien maneja el modelo datos no vistos y si se está sobreajustando al conjunto de entrenamiento o aprendiendo patrones significativos.

Para mejorar el modelo después del despliegue

Una vez desplegados, los modelos de aprendizaje automático a menudo se refinan utilizando datos recopilados adicionales, ayudándolos a adaptarse a nuevas condiciones o clases. Los conjuntos de validación también ayudan a ajustar y prevenir el sobreajuste.

Descubre más de nuestros análisis comparativos e insights basados en datos en la Búsqueda de Google.

Añadir como fuente preferida

Trabajar con un socio de datos

Preparar conjuntos de datos puede consumir muchos recursos, especialmente al tratar con colecciones extensas, valores faltantes o anotaciones complejas. Muchas organizaciones manejan este proceso con un proveedor de servicios de recopilación o generación de datos.

Puedes colaborar con una plataforma de crowdsourcing de datos o una empresa especializada en servicios de ciencia de datos para crear conjuntos de datos específicos de dominio, ya sea que necesites conjuntos de datos de aprendizaje automático para análisis de sentimientos, clasificación de texto o tareas basadas en imágenes como identificar cien especies de plantas.

A veces, los datos se recopilan mediante web scraping o se accede a través de herramientas como Google Dataset Search o iniciativas de datos abiertos.

Para necesidades especializadas, como conjuntos de datos para modelos de aprendizaje profundo o sistemas de visión por computadora, confiar en conjuntos de datos públicos curados o conjuntos de datos gratis asegura que los datos de entrenamiento cubran el rango necesario de ejemplos y clases.

También puedes seleccionar un socio de datos según tipos de datos específicos:

Tipos de conjuntos de datos de ML

Todo el conjunto de datos recopilado se separa en tres subconjuntos, que son los siguientes:

1. Conjunto de datos de entrenamiento

Desglose de conjuntos de datos para ML: el conjunto de entrenamiento es el 60%

Esta es una de las subpartes más importantes de todo el conjunto de datos, que comprende aproximadamente el 60%. Este conjunto consiste en los datos utilizados inicialmente para entrenar el modelo. En otras palabras, ayuda a enseñar al algoritmo qué buscar en los datos.

Por ejemplo, un sistema de reconocimiento de matrículas de vehículos se entrenará con datos de imagen con etiquetas que indican la ubicación (por ejemplo, parte delantera o trasera del automóvil) y el formato de datos de las matrículas de vehículos y objetos similares para aprender qué detectar y qué evitar.

Figura 1. Conjunto de datos de muestra para un sistema de detección de matrículas.¹

2. Conjunto de datos de validación

Desglose de conjuntos de datos para ML: el conjunto de validación es el 20%

Este subconjunto representa aproximadamente el 20% del conjunto de datos total y se utiliza para evaluar todos los parámetros del modelo después de la fase de entrenamiento. Los datos de validación son datos conocidos que ayudan a identificar cualquier deficiencia en el modelo. Estos datos también se utilizan para identificar si el modelo está sobreajustando o subajustando.

3. Conjunto de datos de prueba

Desglose de conjuntos de datos para ML: el conjunto de prueba es el 20%

Este subconjunto se introduce en la etapa final del proceso de entrenamiento y representa el último 20% del conjunto de datos. Los datos en este subconjunto son desconocidos para el modelo y se utilizan para probar la precisión del modelo. Este conjunto de datos mostrará cuánto ha aprendido tu modelo de los dos subconjuntos anteriores.

Conclusión

Seleccionar el conjunto de datos adecuado es un paso fundamental en cualquier proyecto de aprendizaje automático o IA. Ya sea que elijas datos generados por humanos, datos sintéticos generados por máquinas o conjuntos de datos abiertos disponibles gratuitamente, la clave es alinear tu elección de datos con los objetivos y desafíos específicos de tu proyecto.

Los conjuntos de datos de alta calidad y bien preparados influyen directamente en qué tan efectivamente un modelo aprende, se generaliza y se desempeña en aplicaciones del mundo real.

Las organizaciones y profesionales pueden navegar mejor las complejidades del desarrollo de IA comprendiendo los tipos y roles de los conjuntos de datos, los conjuntos de entrenamiento, validación y prueba, y explorando el rico ecosistema de fuentes de datos disponibles.

Una atención cuidadosa a la calidad, relevancia y diversidad de los datos asegura que los modelos sean precisos y adaptables a las necesidades cambiantes.

Preguntas frecuentes

Para encontrar conjuntos de datos para aprendizaje automático, los científicos de datos pueden explorar varios repositorios de datos que ofrecen conjuntos de datos diversos, incluidos datos demográficos, datos económicos y financieros, y datos gubernamentales públicos. Estos conjuntos de datos curados cubren una gama de aplicaciones, como procesamiento del lenguaje natural, análisis de sentimientos, visión por computadora y salud.

Recursos como conjuntos de datos abiertos, conjuntos de datos gratis y conjuntos de datos públicos proporcionan datos de entrenamiento de alta calidad, conjuntos de datos de validación y conjuntos de datos de prueba en varios formatos de datos como archivos CSV. Las fuentes populares incluyen portales gubernamentales, instituciones académicas y organizaciones como el Fondo Monetario Internacional, que ofrecen extensas colecciones de conjuntos de datos para proyectos de ML, modelos predictivos y algoritmos de aprendizaje profundo.

Un buen conjunto de datos de aprendizaje automático es un conjunto de datos de alta calidad y diverso con metadatos ricos, adecuado para tareas específicas como procesamiento del lenguaje natural, clasificación de imágenes o análisis de sentimientos, y a menudo está disponible en repositorios de datos públicos o conjuntos de datos abiertos.

Cita esta investigación

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Cem Dilmegani and Sıla Ermut (2026) - "57 Conjuntos de datos para modelos de ML e IA". Publicado en línea en AIMultiple.com. Recuperado el 10 de Junio de 2026, de: https://aimultiple.com/datasets-for-ml [Recurso en línea]

Dilmegani, C., & Ermut, S. (2026, 10 de Junio). 57 Conjuntos de datos para modelos de ML e IA. AIMultiple. https://aimultiple.com/datasets-for-ml

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Ermut, Sıla},
  title  = {{57 Conjuntos de datos para modelos de ML e IA}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/datasets-for-ml}},
  note   = {AIMultiple. Recuperado el 10 de Junio de 2026}
}

Enlaces de referencia

ResearchGate - Temporarily Unavailable

Cem Dilmegani

Analista Principal

Cem ha sido el analista principal en AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluido el 55% de las Fortune 500 cada mes. El trabajo de Cem ha sido citado por publicaciones globales líderes como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONGs como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede ver más empresas y recursos de renombre que han referenciado a AIMultiple. A lo largo de su carrera, Cem ha trabajado como consultor tecnológico, comprador de tecnología y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia tecnológica y las compras de una empresa de telecomunicaciones reportando al CEO. También lideró el crecimiento comercial de la empresa de tecnología profunda Hypatos, que alcanzó ingresos recurrentes anuales de 7 cifras y una valoración de 9 cifras desde 0 en 2 años. El trabajo de Cem en Hypatos fue cubierto por publicaciones tecnológicas líderes como TechCrunch y Business Insider. Cem habla regularmente en conferencias internacionales de tecnología. Se graduó de la Universidad de Bogazici como ingeniero informático y tiene un MBA de Columbia Business School.

Ver perfil completo

Investigado por

Sıla Ermut

Analista de la industria

Sıla Ermut es una analista de la industria en AIMultiple centrada en el marketing por correo electrónico y los vídeos de ventas. Anteriormente trabajó como reclutadora en empresas de gestión de proyectos y consultoría. Sıla tiene un máster en Psicología Social y una licenciatura en Relaciones Internacionales.

Ver perfil completo