Evaluación comparativa de modelos tabulares: Rendimiento en 19 conjuntos de datos (2026)
Realizamos pruebas comparativas de 7 modelos de aprendizaje tabular ampliamente utilizados en 19 conjuntos de datos del mundo real, que abarcan aproximadamente 260.000 muestras y más de 250 características en total, con tamaños de conjuntos de datos que van desde 435 hasta casi 49.000 filas.
Nuestro objetivo era comprender las familias de modelos con mejor rendimiento para conjuntos de datos de diferentes tamaños y estructuras (por ejemplo, numéricos frente a categóricos) que conforman una arquitectura de datos empresarial típica.
Resultados comparativos de los modelos de aprendizaje tabular
En la tabla, el modelo ganador recibe 1 punto. En caso de empate, el punto se reparte equitativamente entre los modelos empatados. La tasa de victorias mide la frecuencia con la que un modelo termina primero dentro de un régimen determinado, lo que proporciona una visión más precisa del dominio que la clasificación promedio.
Los diferentes modelos resultan más eficaces bajo diferentes condiciones estructurales, y la tasa de éxito varía según el tamaño del conjunto de datos y la composición de las características.
En particular:
- Los modelos básicos son más exitosos cuando los datos son limitados.
- XGBoost es el único ganador constante en conjuntos de datos grandes y numéricos.
- Sobre conjuntos de datos grandes e híbridos:
- Las victorias se distribuyen entre TabICL, LightGBM y Regresión Logística.
- Los datos híbridos a gran escala siguen siendo el régimen más ambiguo, donde múltiples enfoques siguen siendo viables.
Descargo de responsabilidad: Los tipos de características se clasifican como numéricas o híbridas según la representación de entrada dominante después del preprocesamiento.
Cómo interpretar la combinación de conjuntos de datos:
- Los tamaños de los conjuntos de datos varían desde conjuntos pequeños con menos de 1.000 filas hasta conjuntos de datos grandes con más de 40.000 filas.
- Los tipos de tareas incluyen clasificación binaria, clasificación multiclase y regresión.
- Los tipos de características reflejan datos empresariales prácticos:
- Numérico: principalmente variables continuas u ordinales
- Híbrido: una combinación de características numéricas y categóricas.
Esta variación hace que el punto de referencia sea idóneo para comprender qué familias de modelos funcionan de forma fiable en diferentes condiciones.
A continuación, puede consultar nuestra metodología .
Resultados de alto nivel por tamaño del conjunto de datos y tipo de característica.
Aquí se muestra cómo se comportan los modelos en función del tamaño del conjunto de datos y los tipos de características, en lugar de centrarse en las puntuaciones de cada conjunto de datos individual.
Para cada rango de tamaño de conjunto de datos, el gráfico muestra el ROC-AUC promedio alcanzado por cada modelo, por separado para conjuntos de datos numéricos e híbridos.
Conjuntos de datos pequeños (<1000 filas)
En conjuntos de datos pequeños, los modelos tabulares de estilo básico son los que dan mejores resultados.
- TabPFN y TabICL, los principales modelos de base tabular (TFM, por sus siglas en inglés), logran el mejor rendimiento tanto en conjuntos de datos numéricos como híbridos.
- La diferencia de rendimiento es especialmente pronunciada en los conjuntos de datos híbridos.
- La regresión logística ofrece un rendimiento competitivo con datos numéricos, pero su rendimiento se degrada drásticamente con datos híbridos.
Cuando los datos son escasos, los modelos con un fuerte sesgo inductivo superan tanto a los modelos de refuerzo como a los modelos neuronales de referencia. En este contexto, el conocimiento previo y las interacciones de características aprendidas son más importantes que la capacidad del modelo.
Conjuntos de datos medianos (1K–10K filas)
En conjuntos de datos de tamaño medio, el rendimiento general mejora, pero persisten las diferencias estructurales.
- Todos los modelos tienen un rendimiento excelente en conjuntos de datos numéricos (a menudo superan el 97 % del área bajo la curva ROC).
- Los conjuntos de datos híbridos siguen siendo más complejos.
- Dentro de los TFM, TabPFN y TabICL siguen liderando, pero la diferencia se está reduciendo.
Los conjuntos de datos de tamaño mediano representan un régimen de transición: la densidad de la señal aumenta, pero el sesgo inductivo aún proporciona una ventaja medible, particularmente en tipos de características mixtas.
Grandes conjuntos de datos (>10 000 filas)
A gran escala, los patrones de rendimiento cambian.
- En conjuntos de datos numéricos grandes, XGBoost y TabICL ofrecen mejores resultados que otros modelos.
- En conjuntos de datos grandes e híbridos, el rendimiento converge:
- Las diferencias son menores y la elección del modelo se vuelve menos obvia.
A gran escala, el método clásico de potenciación de gradiente aprovecha al máximo la señal numérica. Para datos híbridos, la robustez y el manejo de variables categóricas son más importantes que la complejidad bruta del modelo.
Clasificación promedio por régimen
Los modelos se clasifican dentro de cada régimen (tamaño del conjunto de datos × tipo de característica).
Las clasificaciones se normalizan de manera que los valores más altos indican un mejor rendimiento relativo, lo que facilita las comparaciones entre diferentes regímenes.
conjuntos de datos pequeños
En conjuntos de datos pequeños, los modelos de estilo básico dominan las clasificaciones.
- TabPFN y TabICL ocupan el primer lugar tanto en los conjuntos de datos numéricos como en los híbridos.
- Los modelos de potenciación de gradiente se sitúan sistemáticamente cerca del final de la lista.
- La diferencia entre los modelos base y el boosting es mayor en los datos híbridos.
La clasificación promedio resalta el mismo patrón observado en el rendimiento bruto:
Cuando los datos son escasos, los conocimientos previos y el sesgo inductivo tienen más peso que la optimización basada en la escala.
conjuntos de datos medianos
En conjuntos de datos de tamaño medio, las clasificaciones comienzan a cambiar.
- TabPFN y TabICL siguen estando entre los primeros puestos en ambos tipos de características.
- CatBoost emerge como una sólida tercera opción en conjuntos de datos híbridos.
- Los modelos de boosting mejoran su posición relativa en comparación con el régimen de datos pequeños.
Este régimen refleja un punto de equilibrio. El volumen de datos aumenta, pero las interacciones entre características siguen premiando a los modelos con un sesgo inductivo más fuerte.
Grandes conjuntos de datos
En conjuntos de datos grandes, el predominio se vuelve específico de cada régimen.
- Grande + numérico:
- XGBoost ocupa el primer lugar con un margen estrecho, seguido de cerca por TabICL.
- Grande + híbrido:
- Ningún modelo predomina
- TabICL, LightGBM, CatBoost y TabPFN obtienen rangos promedio similares.
La clasificación promedio confirma que la superioridad del modelo es condicional, no universal.
Las buenas clasificaciones generales a menudo enmascaran marcadas diferencias de rendimiento entre los distintos sistemas.
Observaciones específicas del modelo
Esta sección resume, basándose en el conjunto completo de resultados, dónde funciona bien cada clase de modelo y dónde presenta dificultades.
Modelos de cimentación tabular (TFM): TabPFN y TabICL
Fortalezas
- Con un rendimiento consistentemente superior en conjuntos de datos pequeños y medianos.
- Especialmente eficaz con conjuntos de datos híbridos, donde la estructura categórica es importante.
- Altas tasas de éxito en conjuntos de datos pequeños.
Limitaciones
- Menos dominante en conjuntos de datos grandes y numéricos.
- Las limitaciones prácticas (limitaciones de funciones, soporte de tareas) afectan la aplicabilidad.
Los TFM son los más adecuados para problemas con escasez de datos o con características mixtas, especialmente cuando se requiere un rendimiento rápido sin una optimización exhaustiva.
Modelos de potenciación de gradiente: XGBoost y LightGBM
Fortalezas
- Competitivo en grandes conjuntos de datos
- Rendimiento sólido y estable a medida que aumenta el volumen de datos.
- Mantener la competitividad en datos híbridos a gran escala.
Limitaciones
- Rendimiento inferior en comparación con los modelos base en conjuntos de datos más pequeños.
- Requiere un preprocesamiento y ajuste cuidadosos para datos con gran cantidad de variables categóricas.
El método de potenciación de gradiente sigue siendo la opción predeterminada para tablas numéricas grandes, y una base sólida incluso en regímenes con características mixtas.
CatBoost
Fortalezas
- Modelo más robusto en conjuntos de datos híbridos, especialmente a mayor escala.
- El manejo categórico nativo proporciona ganancias consistentes.
- Rara vez presenta un rendimiento deficiente en todos los regímenes.
Limitaciones
- Rara vez el mejor desempeño
- Menos dominante en conjuntos de datos puramente numéricos
CatBoost es la opción más segura cuando predominan las características categóricas, especialmente en conjuntos de datos medianos o grandes.
RealMLP
Observaciones
- Rara vez triunfa en distintos regímenes.
- Suele ocupar los últimos puestos, excepto en un pequeño número de conjuntos de datos.
Las redes neuronales MLP genéricas tienen dificultades con los datos tabulares que carecen de un fuerte sesgo inductivo, lo que refuerza una lección de larga data en el aprendizaje automático aplicado. 1
Regresión logística (línea base)
Observaciones
- Competitivo en conjuntos de datos numéricos, incluso a gran escala.
- Ocasionalmente gana o se clasifica en los primeros puestos en conjuntos de datos híbridos.
- El rendimiento se degrada drásticamente cuando predominan las interacciones entre funciones.
A pesar de su simplicidad, la regresión logística sigue siendo una base de referencia significativa y no debe omitirse en las comparaciones tabulares.
Conclusiones clave del benchmark de modelos de aprendizaje tabular
En 19 conjuntos de datos reales, el rendimiento de los modelos tabulares depende principalmente de la estructura de las características, y no solo de la complejidad del modelo o del tamaño del conjunto de datos.
En lugar de preguntar:
“¿Qué modelo tabular es el mejor?”
Una pregunta más práctica es:
“Dado el tamaño de mi conjunto de datos y la composición de sus características, ¿qué clase de modelos es más probable que funcione?”
Esa perspectiva ofrece un mayor valor práctico que las clasificaciones tipo tabla de posiciones y se ajusta mejor a la toma de decisiones empresariales en el mundo real.
Fundamentos conceptuales de los modelos tabulares de estilo fundacional
Los modelos tabulares de estilo Foundation buscan generalizar a través de diversos conjuntos de datos tabulares aprendiendo información previa sólida sobre la estructura de la tabla, las interacciones de las características y el comportamiento de la tarea, en lugar de optimizar para un solo conjunto de datos.
A diferencia de los modelos tabulares tradicionales, que se entrenan de forma independiente para cada conjunto de datos, los enfoques basados en fundamentos se preentrenan en grandes colecciones de problemas tabulares y luego se aplican a nuevos conjuntos de datos mediante la adaptación en tiempo de inferencia.
En este análisis comparativo, TabPFN y TabICL representan dos enfoques destacados dentro de este paradigma.
Capacidades clave de los modelos tabulares de estilo básico
Los modelos tabulares de estilo Foundation suelen presentar las siguientes capacidades:
- Fuerte sesgo inductivo: al aprender patrones comunes en muchos conjuntos de datos tabulares, estos modelos codifican suposiciones sobre las interacciones de las características, las distribuciones objetivo y las características del ruido que se generalizan bien a problemas no vistos.
- Gestión unificada de tipos de características: Las características numéricas y categóricas se integran en un espacio de representación compartido, lo que permite al modelo razonar sobre tablas con características mixtas sin un preprocesamiento manual extenso.
- Adaptación en tiempo de inferencia: en lugar de volver a entrenar, estos modelos se adaptan a nuevos conjuntos de datos utilizando ejemplos de contexto o estadísticas a nivel de conjunto de datos, lo que permite un rendimiento sólido incluso con escasez de datos.
- Transferencia entre tareas: Un único modelo preentrenado puede realizar clasificaciones o regresiones en conjuntos de datos nunca antes vistos, a menudo con una configuración mínima.
Estas propiedades explican por qué los modelos de estilo básico funcionan particularmente bien en conjuntos de datos pequeños y medianos, donde los métodos clásicos carecen de datos suficientes para estimar completamente las interacciones complejas de las características.
TabPFN: Ajuste de datos previos para predicción tabular
TabPFN (Tabular Prior-Data Fitted Network) reformula el aprendizaje tabular como un problema de inferencia bayesiana.
En lugar de aprender parámetros para un único conjunto de datos, TabPFN se entrena con millones de tareas tabulares sintéticas muestreadas a partir de una distribución de procesos generadores de datos. Durante la inferencia, el modelo realiza una inferencia bayesiana amortizada, condicionando el modelo al conjunto de datos observado para generar predicciones.
Las características clave de TabPFN incluyen:
- Una arquitectura de transformador que procesa conjuntos de datos completos como contexto.
- Entrenamiento en una amplia variedad de tareas sintéticas para codificar información previa de propósito general.
- Excelente rendimiento en situaciones de baja cantidad de datos sin necesidad de ajustar hiperparámetros. 2
En la práctica, este diseño permite que TabPFN supere a los métodos de boosting tradicionales en conjuntos de datos híbridos pequeños y medianos, como se observa en la prueba comparativa.
Sin embargo, debido a que el modelo se basa en conocimientos previos aprendidos en lugar de una optimización basada en la escala, su ventaja disminuye a medida que aumenta el tamaño del conjunto de datos.
SAP anunció la adquisición de Prior Labs, el grupo de investigación responsable de TabPFN, en mayo de 2026 y se comprometió a invertir más de 1.000 millones de euros durante cuatro años para operarlo como un laboratorio de investigación de IA independiente. 3 Esta prueba de rendimiento abarca TabPFN-2.5, la versión de código abierto de enero de 2026; Prior Labs lanzó TabPFN-2.6 junto con la adquisición. 4
TabICL: Aprendizaje en contexto para datos tabulares
TabICL extiende la idea del aprendizaje en contexto a la predicción tabular.
En lugar de ajustar parámetros del modelo, TabICL se basa en ejemplos del conjunto de datos proporcionados directamente en el contexto de entrada. El modelo aprende a inferir reglas de decisión a partir de estos ejemplos, de forma similar a como los grandes modelos de lenguaje realizan el aprendizaje con pocos ejemplos.
Los aspectos clave de TabICL incluyen:
- Filas del conjunto de datos codificadas como tokens estructurados
- Adaptación de tareas mediante ejemplos de contexto en lugar de entrenamiento basado en gradientes.
- Un único modelo preentrenado capaz de manejar diversas tareas tabulares. 5
Al igual que con TabPFN, las mejoras en el rendimiento son más notables en condiciones de escasez de datos y se vuelven menos pronunciadas en grandes conjuntos de datos numéricos, donde el boosting tradicional aprovecha al máximo la señal disponible.
Este enfoque permite que TabICL logre un rendimiento sólido en conjuntos de datos híbridos, especialmente cuando las interacciones entre características son complejas y los datos etiquetados son limitados.
¿Por qué los modelos de estilo fundacional pierden predominio a gran escala?
Los resultados de referencia ponen de manifiesto una limitación importante de los modelos tabulares de estilo básico.
En conjuntos de datos numéricos grandes, modelos como XGBoost superan a los enfoques básicos. Esto refleja una compensación fundamental:
- Los modelos básicos se basan en conocimientos previos aprendidos y en la generalización entre diferentes tareas.
- El método de potenciación de gradiente aprovecha la señal específica del conjunto de datos mediante una optimización iterativa. 6
Cuando se dispone de datos suficientes, los métodos basados en la escala pueden aprender completamente las interacciones de las características directamente a partir del conjunto de datos, lo que reduce el valor relativo de los datos previos preentrenados.
Esto explica por qué los modelos de estilo básico destacan en condiciones de escasez de datos, mientras que el boosting clásico predomina a gran escala.
Metodología de evaluación comparativa de modelos de aprendizaje tabular
Evaluamos el rendimiento de 7 modelos de aprendizaje automático en 19 conjuntos de datos tabulares mediante validación cruzada estratificada de 5 pliegues.
Entorno: Contenedor en la nube RunPod (Ubuntu 24.04).
Controladores : Cuda 12.8.1, PyTorch 2.8.0
Calcular: L40S único
Modelos:
- Regresión logística – Línea base lineal
- XGBoost – Impulso de gradiente
- LightGBM – Potenciación de gradiente
- CatBoost: potenciación de gradiente con soporte nativo para variables categóricas.
- RealMLP – Aprendizaje profundo (MLP)
- TabPFN 2.5 – Red preajustada basada en transformador
- TabICL: aprendizaje contextual basado en transformadores
19 conjuntos de datos de OpenML:
- Clasificación binaria: 14 conjuntos de datos
- Clasificación multiclase: 1 conjunto de datos
- Regresión: 4 conjuntos de datos
- El tamaño de los conjuntos de datos oscila entre ~600 y ~45.000 muestras.
Evaluación
Validación cruzada
- Clasificación por validación cruzada estratificada de 5 pliegues
- Validación cruzada de 5 pliegues para regresión
- Misma semilla aleatoria (42) en todos los experimentos.
Métrica
Preprocesamiento
- Características numéricas: StandardScaler
- Características categóricas: Codificación one-hot (excepto CatBoost, que la maneja de forma nativa).
- Valores faltantes: Imputación por mediana (numérico), imputación por moda (categórico)
Limitaciones
- TabPFN: Limitado a conjuntos de datos con ≤500 características después del preprocesamiento.
- TabICL: Solo tareas de clasificación (sin soporte para regresión)
- Tamaño de la muestra: TabPFN utiliza un máximo de 10.000 muestras de entrenamiento.
Reproducibilidad
Todos los experimentos utilizan:
- Semilla aleatoria fija: 42
- Misma división de entrenamiento/prueba en todos los modelos.
- Hiperparámetros predeterminados (sin ajustes)
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.