Évaluation comparative des modèles tabulaires : performances sur 19 jeux de données (2026)

avec

mis à jour le Mai 22, 2026

Nous avons comparé 7 modèles d'apprentissage tabulaires largement utilisés sur 19 ensembles de données réels, couvrant environ 260 000 échantillons et plus de 250 caractéristiques au total, avec des tailles d'ensembles de données allant de 435 à près de 49 000 lignes.

Notre objectif était de comprendre les familles de modèles les plus performantes pour des ensembles de données de tailles et de structures différentes (par exemple numériques ou catégorielles) qui constituent une architecture de données d'entreprise typique.

Résultats de référence des modèles d'apprentissage tabulaires

Loading Chart

Dans ce graphique, le modèle gagnant obtient 1 point. En cas d'égalité, le point est partagé équitablement entre les modèles ex æquo. Le taux de victoire mesure la fréquence à laquelle un modèle termine premier dans un régime donné, offrant ainsi une vision plus précise de la domination que le rang moyen.

Différents modèles l'emportent selon les conditions structurelles, et le taux de réussite varie en fonction de la taille de l'ensemble de données et de la composition des caractéristiques.

En particulier:

Les modèles de base sont les plus performants lorsque les données sont limitées.
XGBoost est le seul à systématiquement gagner sur les grands ensembles de données numériques.
Sur les grands ensembles de données hybrides :
- Les gains sont répartis entre TabICL, LightGBM et la régression logistique.
- Les données hybrides à grande échelle demeurent le régime le plus ambigu, où plusieurs approches restent viables.

Avertissement : Les types de caractéristiques sont classés comme numériques ou hybrides en fonction de la représentation d’entrée dominante après prétraitement.

Comment interpréter le mélange de données :

Les catégories de taille varient, allant des petits ensembles de données contenant moins de 1 000 lignes aux grands ensembles de données contenant plus de 40 000 lignes.
Les types de tâches comprennent la classification binaire, la classification multiclasse et la régression.
Les types de fonctionnalités reflètent les données pratiques de l'entreprise :
- Numériques : variables principalement continues ou ordinales
- Hybride : un mélange de caractéristiques numériques et catégorielles

Cette variation rend le banc d'essai parfaitement adapté pour comprendre quelles familles de modèles fonctionnent de manière fiable dans différentes conditions.

Vous pouvez consulter notre méthodologie ci-dessous.

Résultats généraux par taille d'ensemble de données et type de caractéristique

Voici comment les modèles se comportent selon la taille des ensembles de données et les types de caractéristiques, plutôt que de se concentrer sur les scores de chaque ensemble de données.

Pour chaque catégorie de taille d'ensemble de données, le graphique indique la valeur ROC-AUC moyenne obtenue par chaque modèle, séparément pour les ensembles de données numériques et hybrides.

Petits ensembles de données (<1K lignes)

Sur les petits ensembles de données, les modèles tabulaires de type fondation sont les plus performants.

TabPFN et TabICL, les principaux modèles de base tabulaires (TFM), obtiennent les meilleures performances sur les ensembles de données numériques et hybrides.
L'écart de performance est particulièrement marqué sur les ensembles de données hybrides.
La régression logistique offre des performances compétitives sur les données numériques, mais se dégrade fortement sur les données hybrides.

Lorsque les données sont rares, les modèles présentant un fort biais inductif surpassent les modèles de référence basés sur le boosting et les réseaux neuronaux. Dans ce cas, les connaissances a priori et les interactions entre les caractéristiques apprises priment sur la capacité du modèle.

Jeux de données de taille moyenne (1K à 10K lignes)

Sur les ensembles de données de taille moyenne, les performances globales s'améliorent, mais des différences structurelles persistent.

Tous les modèles affichent d'excellentes performances sur les ensembles de données numériques (dépassant souvent 97 % d'aire sous la courbe ROC).
Les ensembles de données hybrides restent plus difficiles à gérer.
Parmi les TFM, TabPFN et TabICL restent en tête, mais l'écart se réduit.

Les ensembles de données de taille moyenne représentent un régime de transition : la densité du signal augmente, mais le biais inductif offre toujours un avantage mesurable, en particulier sur les types de caractéristiques mixtes.

Grands ensembles de données (>10 000 lignes)

À grande échelle, les schémas de performance évoluent.

Sur de grands ensembles de données numériques, XGBoost et TabICL sont plus performants que les autres modèles.
Sur les grands ensembles de données hybrides, les performances convergent :
- Les différences sont moindres et le choix du modèle devient moins évident.

À grande échelle, le gradient boosting classique exploite pleinement le signal numérique. Pour les données hybrides, la robustesse et la gestion des variables catégorielles priment sur la complexité brute du modèle.

Rang moyen par régime

Les modèles sont classés au sein de chaque régime (taille de l'ensemble de données × type de caractéristique).
Les classements sont normalisés de sorte que les valeurs les plus élevées indiquent une performance relative plus forte, ce qui facilite les comparaisons entre régimes.

petits ensembles de données

Sur les petits ensembles de données, les modèles de type fondation dominent les classements.

TabPFN et TabICL se classent premiers sur les ensembles de données numériques et hybrides.
Les modèles de gradient boosting se classent systématiquement parmi les derniers.
L'écart entre les modèles de base et le boosting est plus important sur les données hybrides.

Le classement moyen met en évidence la même tendance observée dans les performances brutes :
Lorsque les données sont rares, les connaissances a priori acquises et les biais inductifs l'emportent sur l'optimisation basée sur l'échelle.

Ensembles de données de taille moyenne

Sur des ensembles de données de taille moyenne, les classements commencent à évoluer.

TabPFN et TabICL restent en tête du classement pour les deux types de fonctionnalités
CatBoost s'impose comme une troisième option intéressante sur les jeux de données hybrides.
Les modèles de boosting améliorent leur position relative par rapport au régime des petites données.

Ce régime représente un point d'équilibre. Le volume de données augmente, mais les interactions entre les caractéristiques continuent de favoriser les modèles présentant un biais inductif plus marqué.

grands ensembles de données

Sur les grands ensembles de données, la dominance devient spécifique au régime.

Grand + numérique :
- XGBoost arrive en tête avec une faible avance, suivi de près par TabICL.
Grand + hybride :
- Aucun modèle ne domine
- TabICL, LightGBM, CatBoost et TabPFN obtiennent tous des classements moyens similaires.

Le classement moyen confirme que la supériorité du modèle est conditionnelle, et non universelle.
De bons classements généraux masquent souvent de fortes différences de performance entre les différents régimes.

observations spécifiques au modèle

Cette section résume les points forts et les points faibles de chaque classe de modèle, sur la base de l'ensemble des résultats.

Modèles de fondation tabulaires (TFM) : TabPFN et TabICL

Points forts

Des performances toujours excellentes sur les petits et moyens ensembles de données
Particulièrement performant sur les ensembles de données hybrides, où la structure catégorielle est importante.
Taux de victoire élevés sur de petits ensembles de données

Limites

Moins dominant sur les grands ensembles de données numériques
Les contraintes pratiques (limites des fonctionnalités, prise en charge des tâches) affectent l'applicabilité

Les TFM sont particulièrement adaptés aux problèmes de données rares ou de fonctionnalités mixtes, notamment lorsqu'une performance rapide sans réglage important est requise.

Modèles de gradient boosting : XGBoost et LightGBM

Points forts

Compétitif sur de grands ensembles de données
Performances robustes et stables malgré l'augmentation du volume de données.
Restez compétitif sur les données hybrides à grande échelle

Limites

Performances inférieures à celles des modèles de base sur des ensembles de données plus petits.
Un prétraitement et un réglage minutieux sont nécessaires pour les données comportant une forte proportion de variables catégorielles.

Le gradient boosting reste le choix par défaut pour les grands tableaux numériques, et une base solide même dans les régimes à caractéristiques mixtes.

CatBoost

Points forts

Modèle le plus robuste sur les ensembles de données hybrides, en particulier à grande échelle
La gestion native des catégories offre des gains constants
Rarement ses performances sont mauvaises dans tous les régimes.

Limites

Rarement le meilleur performeur
Moins dominant sur les ensembles de données purement numériques

CatBoost est le choix le plus sûr lorsque les caractéristiques catégorielles dominent, notamment dans les ensembles de données de taille moyenne à grande.

RealMLP

Observations

Remporte rarement des victoires sous différents régimes
Se classe souvent parmi les derniers, sauf sur un petit nombre d'ensembles de données.

Les MLP neuronaux génériques peinent à traiter des données tabulaires sans biais inductif fort, ce qui renforce une leçon de longue date en matière d'apprentissage automatique appliqué. ¹

Régression logistique (ligne de base)

Observations

Compétitif sur des ensembles de données numériques, même à grande échelle
Obtient parfois des victoires ou se classe parmi les meilleurs sur des ensembles de données hybrides.
Les performances se dégradent fortement lorsque les interactions entre les fonctionnalités dominent.

Malgré sa simplicité, la régression logistique reste une référence pertinente et ne doit pas être négligée dans les analyses comparatives tabulaires.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Principaux enseignements de l'analyse comparative des modèles d'apprentissage tabulaires

Sur 19 ensembles de données réelles, les performances du modèle tabulaire sont principalement déterminées par la structure des caractéristiques, et non par la complexité du modèle ou la taille de l'ensemble de données seules.

Au lieu de demander :

« Quel modèle tabulaire est le meilleur ? »

Une question plus concrète serait :

« Compte tenu de la taille de mon ensemble de données et de la composition de ses caractéristiques, quelle classe de modèles est susceptible de fonctionner ? »

Cette perspective offre une plus grande valeur pratique que les classements de type tableau de bord et correspond mieux à la prise de décision en entreprise dans le monde réel.

Fondements conceptuels des modèles tabulaires de type fondation

Les modèles tabulaires de type Foundation visent à généraliser à divers ensembles de données tabulaires en apprenant des connaissances a priori solides sur la structure du tableau, les interactions entre les caractéristiques et le comportement de la tâche, plutôt qu'en optimisant pour un seul ensemble de données.

Contrairement aux modèles tabulaires traditionnels, qui sont entraînés indépendamment pour chaque ensemble de données, les approches de type fondation sont pré-entraînées sur de grandes collections de problèmes tabulaires, puis appliquées à de nouveaux ensembles de données grâce à une adaptation au moment de l'inférence.

Dans ce benchmark, TabPFN et TabICL représentent deux approches importantes au sein de ce paradigme.

Principales capacités des modèles tabulaires de type fondation

Les modèles tabulaires de type fondation présentent généralement les capacités suivantes :

Forte tendance inductive : en apprenant des schémas communs à de nombreux ensembles de données tabulaires, ces modèles encodent des hypothèses sur les interactions entre les caractéristiques, les distributions cibles et les caractéristiques du bruit qui se généralisent bien à des problèmes inédits.
Gestion unifiée des types de caractéristiques : les caractéristiques numériques et catégorielles sont intégrées dans un espace de représentation partagé, permettant au modèle de raisonner sur des tableaux de caractéristiques mixtes sans prétraitement manuel important.
Adaptation au moment de l'inférence : plutôt que de se réentraîner, ces modèles s'adaptent aux nouveaux ensembles de données en utilisant des exemples de contexte ou des statistiques au niveau de l'ensemble de données, ce qui permet d'obtenir de solides performances en cas de rareté des données.
Transfert entre tâches : un seul modèle pré-entraîné peut effectuer une classification ou une régression sur des ensembles de données jamais vus auparavant, souvent avec une configuration minimale.

Ces propriétés expliquent pourquoi les modèles de type fondation sont particulièrement performants sur les petits et moyens ensembles de données, là où les méthodes classiques manquent de données suffisantes pour estimer pleinement les interactions complexes entre les caractéristiques.

TabPFN : Ajustement des données a priori pour la prédiction tabulaire

TabPFN (Tabular Prior-Data Fitted Network) reformule l'apprentissage tabulaire comme un problème d'inférence bayésienne.

Au lieu d'apprendre des paramètres pour un seul ensemble de données, TabPFN est entraîné sur des millions de tâches tabulaires synthétiques échantillonnées à partir d'une distribution de processus générateurs de données. Lors de l'inférence, le modèle effectue une inférence bayésienne amortie, conditionnée par l'ensemble de données observé pour produire des prédictions.

Les principales caractéristiques de TabPFN sont les suivantes :

Une architecture de transformateur qui traite des ensembles de données entiers comme contexte.
Formation sur une large gamme de tâches synthétiques pour encoder des connaissances a priori à usage général.
Excellentes performances en régime de faible quantité de données sans réglage des hyperparamètres. ²

En pratique, cette conception permet à TabPFN de surpasser les méthodes de boosting traditionnelles sur les petits et moyens ensembles de données hybrides, comme observé dans le benchmark.

Cependant, comme le modèle repose sur des connaissances a priori acquises plutôt que sur une optimisation basée sur l'échelle, son avantage diminue à mesure que la taille de l'ensemble de données augmente.

SAP a annoncé en mai 2026 l'acquisition de Prior Labs, le groupe de recherche à l'origine de TabPFN, et s'est engagé à investir plus d'un milliard d'euros sur quatre ans pour le faire fonctionner comme un laboratoire de recherche indépendant en IA. ³ Ce benchmark couvre TabPFN-2.5, la version open-source de janvier 2026 ; Prior Labs a publié TabPFN-2.6 en même temps que l'acquisition. ⁴

TabICL : Apprentissage en contexte pour les données tabulaires

TabICL étend l'idée d'apprentissage en contexte à la prédiction tabulaire.

Au lieu d'ajuster des paramètres de modèle, TabICL s'appuie sur des exemples issus du jeu de données fourni directement en entrée. Le modèle apprend à inférer des règles de décision à partir de ces exemples, à l'instar des grands modèles de langage qui utilisent l'apprentissage avec peu d'exemples.

Les principaux aspects de TabICL comprennent :

Lignes de l'ensemble de données encodées sous forme de jetons structurés
Adaptation des tâches par le biais d'exemples contextuels plutôt que par un entraînement basé sur le gradient
Un seul modèle pré-entraîné capable de traiter diverses tâches tabulaires ⁵

Comme pour TabPFN, les gains de performance sont les plus importants en cas de rareté des données et deviennent moins prononcés sur les grands ensembles de données numériques, où le boosting traditionnel exploite pleinement le signal disponible.

Cette approche permet à TabICL d'obtenir d'excellentes performances sur des ensembles de données hybrides, notamment lorsque les interactions entre les caractéristiques sont complexes et que les données étiquetées sont limitées.

Pourquoi les modèles de type fondation perdent-ils leur domination à grande échelle ?

Les résultats de référence mettent en évidence une limitation importante des modèles tabulaires de type fondation.

Sur de grands ensembles de données numériques, des modèles tels que XGBoost surpassent les approches classiques. Cela reflète un compromis fondamental :

Les modèles de base s'appuient sur des connaissances préalables acquises et sur la généralisation à travers les tâches.
Le gradient boosting exploite le signal spécifique à l'ensemble de données grâce à une optimisation itérative. ⁶

Lorsque des données suffisantes sont disponibles, les méthodes basées sur l'échelle peuvent apprendre pleinement les interactions entre les caractéristiques directement à partir de l'ensemble de données, réduisant ainsi la valeur relative des connaissances a priori pré-entraînées.

Cela explique pourquoi les modèles de type fondation excellent en cas de rareté des données, tandis que le boosting classique domine à grande échelle.

Méthodologie de référence des modèles d'apprentissage tabulaires

Nous évaluons 7 modèles ML sur 19 ensembles de données tabulaires en utilisant une validation croisée stratifiée à 5 plis.

Environnement : Conteneur cloud RunPod (Ubuntu 24.04).

Pilotes : Cuda 12.8.1, Pytorch 2.8.0

Calculer : L40S unique

Modèles :

Régression logistique – Ligne de base linéaire
XGBoost – Amplification du gradient
LightGBM – Amélioration du gradient
CatBoost – Boost de gradient avec prise en charge native des catégories
RealMLP – Apprentissage profond (MLP)
TabPFN 2.5 – Réseau pré-adapté basé sur un transformateur
TabICL – Apprentissage en contexte basé sur les transformateurs

19 jeux de données provenant d'OpenML :

Classification binaire : 14 jeux de données
Classification multiclasse : 1 jeu de données
Régression : 4 jeux de données
La taille des ensembles de données varie d'environ 600 à environ 45 000 échantillons.

Évaluation

Validation croisée

CV stratifié à 5 niveaux pour la classification
CV à 5 plis pour la régression
Même graine aléatoire (42) pour toutes les expériences

Métrique

Prétraitement

Caractéristiques numériques : StandardScaler
Caractéristiques catégorielles : Encodage one-hot (sauf CatBoost, qui le gère nativement)
Valeurs manquantes : imputation par la médiane (numérique), imputation par le mode (catégorielle)

Limites

TabPFN : limité aux jeux de données comportant ≤ 500 caractéristiques après prétraitement
TabICL : Tâches de classification uniquement (pas de prise en charge de la régression)
Taille de l'échantillon : TabPFN utilise un maximum de 10 000 échantillons d'entraînement

Reproductibilité

Toutes les expériences utilisent :

Graine aléatoire fixe : 42
Même répartition train/test pour tous les modèles
Hyperparamètres par défaut (aucun réglage)

Liens de référence

[2106.11959] Revisiting Deep Learning Models for Tabular Data

[2207.01848] TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

SAP to Acquire Prior Labs | SAP News Center

SAP

[2502.05564] TabICL: A Tabular Foundation Model for In-Context Learning on Large Data

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par

Berk Kalelioğlu

Chercheur en IA

Suivre Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Évaluation comparative des modèles tabulaires : performances sur 19 jeux de données (2026)

Résultats de référence des modèles d'apprentissage tabulaires

Résultats généraux par taille d'ensemble de données et type de caractéristique

Petits ensembles de données (<1K lignes)

Jeux de données de taille moyenne (1K à 10K lignes)

Grands ensembles de données (>10 000 lignes)

Rang moyen par régime

petits ensembles de données

Ensembles de données de taille moyenne

grands ensembles de données

observations spécifiques au modèle

Modèles de fondation tabulaires (TFM) : TabPFN et TabICL

Modèles de gradient boosting : XGBoost et LightGBM

CatBoost

RealMLP

Régression logistique (ligne de base)

Principaux enseignements de l'analyse comparative des modèles d'apprentissage tabulaires

Fondements conceptuels des modèles tabulaires de type fondation

Principales capacités des modèles tabulaires de type fondation

TabPFN : Ajustement des données a priori pour la prédiction tabulaire

TabICL : Apprentissage en contexte pour les données tabulaires

Pourquoi les modèles de type fondation perdent-ils leur domination à grande échelle ?

Méthodologie de référence des modèles d'apprentissage tabulaires

Évaluation

Validation croisée

Métrique

Prétraitement

Limites

Reproductibilité

Liens de référence

Soyez le premier à commenter

À lire ensuite

Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI

Comparer les modèles de fondation relationnels

Comparaison des modèles de langage visuel avec la reconnaissance d'images

Modèles quantitatifs de grande taille : applications et défis

Modèles d'intégration : OpenAI vs Gemini vs Cohere

Évaluation comparative de 8 modèles de code d'IA : LMC-Eval