Benchmark dei modelli tabulari: prestazioni su 19 set di dati 2026

con

aggiornato il Mag 22, 2026

Abbiamo effettuato un'analisi comparativa di 7 modelli di apprendimento tabulare ampiamente utilizzati su 19 dataset reali, comprendenti circa 260.000 campioni e oltre 250 caratteristiche totali, con dimensioni dei dataset che variano da 435 a quasi 49.000 righe.

Il nostro obiettivo era comprendere le famiglie di modelli più performanti per set di dati di diverse dimensioni e strutture (ad esempio, numerici rispetto a categorici) che compongono una tipica architettura dati aziendale.

Risultati del benchmark dei modelli di apprendimento tabellari

Loading Chart

Nel grafico, il modello vincente riceve 1 punto. In caso di parità, il punto viene suddiviso equamente tra i modelli a pari merito. Il tasso di vittoria misura la frequenza con cui un modello si classifica al primo posto in un determinato contesto, fornendo una visione più precisa del dominio rispetto alla classifica media.

Modelli diversi risultano vincenti in condizioni strutturali diverse, e il tasso di successo varia in base alla dimensione del set di dati e alla composizione delle caratteristiche.

In particolare:

I modelli di base hanno più successo quando i dati sono limitati
XGBoost è l'unico vincitore costante su set di dati numerici di grandi dimensioni.
Su set di dati ampi e ibridi:
- Le vittorie sono distribuite tra TabICL, LightGBM e Regressione logistica.
- I dati ibridi su larga scala rimangono il regime più ambiguo, in cui molteplici approcci restano validi.

Disclaimer: I tipi di funzionalità sono classificati come numerici o ibridi in base alla rappresentazione di input dominante dopo la preelaborazione.

Come interpretare la composizione del set di dati:

Le categorie dimensionali vanno da piccoli set di dati con meno di 1.000 righe a grandi set di dati con più di 40.000 righe.
Le tipologie di attività includono la classificazione binaria, la classificazione multiclasse e la regressione.
Le tipologie di funzionalità rispecchiano i dati aziendali pratici:
- Numerico: variabili principalmente continue o ordinali
- Ibrido: una combinazione di caratteristiche numeriche e categoriali

Questa variazione rende il benchmark particolarmente adatto a comprendere quali famiglie di modelli offrono prestazioni affidabili in diverse condizioni.

Di seguito potete consultare la nostra metodologia .

Risultati di alto livello in base alla dimensione del set di dati e al tipo di caratteristica.

Ecco come si comportano i modelli in base alle dimensioni dei dataset e ai tipi di caratteristiche, anziché concentrarsi sui punteggi dei singoli dataset.

Per ogni intervallo di dimensioni del dataset, il grafico riporta il valore medio di ROC-AUC ottenuto da ciascun modello, separatamente per i dataset numerici e ibridi.

Set di dati di piccole dimensioni (<1000 righe)

Su insiemi di dati di piccole dimensioni, i modelli tabulari di tipo Foundation risultano i più efficaci.

TabPFN e TabICL, i principali modelli di base tabellari (TFM), raggiungono le prestazioni migliori sia su set di dati numerici che ibridi.
Il divario prestazionale è particolarmente evidente sui set di dati ibridi.
La regressione logistica offre prestazioni competitive sui dati numerici, ma si degrada drasticamente sui dati ibridi.

Quando i dati sono scarsi, i modelli con un forte bias induttivo superano in prestazioni sia i modelli di boosting che quelli neurali. In questo contesto, la conoscenza pregressa e le interazioni apprese tra le caratteristiche contano più della capacità del modello.

Set di dati di medie dimensioni (da 1.000 a 10.000 righe)

Su set di dati di medie dimensioni, le prestazioni complessive migliorano, ma permangono differenze strutturali.

Tutti i modelli mostrano prestazioni eccellenti su set di dati numerici (spesso superando il 97% di ROC-AUC).
I set di dati ibridi rimangono più complessi.
Nell'ambito dei TFM, TabPFN e TabICL continuano a essere leader, ma il divario si sta riducendo.

I dataset di medie dimensioni rappresentano una fase di transizione: la densità del segnale aumenta, ma il bias induttivo offre ancora un vantaggio misurabile, soprattutto su tipi di caratteristiche misti.

Set di dati di grandi dimensioni (>10.000 righe)

Su larga scala, i modelli di prestazione cambiano.

Su grandi insiemi di dati numerici, XGBoost e TabICL offrono prestazioni migliori rispetto ad altri modelli.
Su set di dati di grandi dimensioni e ibridi, le prestazioni convergono:
- Le differenze sono minori e la scelta del modello diventa meno ovvia

Su larga scala, il classico gradient boosting sfrutta appieno il segnale numerico. Per i dati ibridi, la robustezza e la gestione delle categorie sono più importanti della complessità intrinseca del modello.

Classifica media per regime

I modelli vengono classificati all'interno di ciascun regime (dimensione del dataset × tipo di caratteristica).
Le classifiche vengono normalizzate in modo che valori più alti indichino prestazioni relative migliori, facilitando i confronti tra regimi diversi.

Insiemi di dati di piccole dimensioni

Su set di dati di piccole dimensioni, i modelli di tipo "foundation" dominano le classifiche.

TabPFN e TabICL si classificano al primo posto sia nel dataset numerico che in quello ibrido.
I modelli di gradient boosting si classificano costantemente tra gli ultimi
Il divario tra i modelli di base e il boosting è maggiore sui dati ibridi.

La classifica media evidenzia lo stesso schema osservato nelle prestazioni grezze:
Quando i dati sono scarsi, le conoscenze pregresse apprese e i bias induttivi prevalgono sull'ottimizzazione basata sulla scala.

Set di dati di medie dimensioni

Su set di dati di medie dimensioni, le classifiche iniziano a cambiare.

TabPFN e TabICL rimangono ai primi posti in entrambe le tipologie di funzionalità.
CatBoost si afferma come una valida terza opzione per i dataset ibridi.
I modelli di boosting migliorano la loro posizione relativa rispetto al regime dei dati di piccole dimensioni

Questo regime riflette un punto di equilibrio. Il volume dei dati aumenta, ma le interazioni tra le caratteristiche continuano a premiare i modelli con una maggiore distorsione induttiva.

Grandi insiemi di dati

Su grandi insiemi di dati, la dominanza diventa specifica del regime.

Grande + numerico:
- XGBoost si posiziona al primo posto con un piccolo margine, seguito a ruota da TabICL.
Grande + ibrido:
- Nessun singolo modello domina
- TabICL, LightGBM, CatBoost e TabPFN raggiungono tutti posizioni medie simili

La classifica media conferma che la superiorità del modello è condizionata, non universale.
Le buone classifiche generali spesso nascondono notevoli differenze di rendimento tra i vari regimi.

Osservazioni specifiche del modello

Questa sezione riassume i punti di forza e di debolezza di ciascuna classe di modelli, sulla base dell'insieme completo dei risultati.

Modelli di fondazione tabellari (TFM): TabPFN e TabICL

Punti di forza

Prestazioni costantemente ai vertici su set di dati di piccole e medie dimensioni.
Particolarmente efficace con i dataset ibridi, dove la struttura categoriale è importante.
Elevate percentuali di successo su set di dati di piccole dimensioni.

Limitazioni

Meno dominante su set di dati numerici di grandi dimensioni
I vincoli pratici (limiti delle funzionalità, supporto alle attività) influenzano l'applicabilità

I TFM sono particolarmente adatti per problemi con dati scarsi o con caratteristiche miste, soprattutto quando sono richieste prestazioni rapide senza un'eccessiva messa a punto.

Modelli di potenziamento del gradiente: XGBoost e LightGBM

Punti di forza

Competitivo su grandi insiemi di dati
Prestazioni solide e stabili anche all'aumentare del volume dei dati.
Mantieni la competitività sui dati ibridi su larga scala

Limitazioni

Prestazioni inferiori rispetto ai modelli di riferimento su set di dati più piccoli.
Richiede un'attenta preelaborazione e messa a punto per i dati ricchi di categorie.

Il gradient boosting rimane la scelta predefinita per le tabelle numeriche di grandi dimensioni e un valido punto di partenza anche in contesti con caratteristiche miste.

CatBoost

Punti di forza

Il modello più robusto su set di dati ibridi, in particolare su larga scala
La gestione nativa delle categorie fornisce vantaggi costanti
Raramente ottiene risultati scadenti in diversi regimi

Limitazioni

Raramente il migliore è
Meno dominante sui set di dati puramente numerici

CatBoost è la scelta più sicura quando le caratteristiche categoriali sono predominanti, soprattutto in dataset di medie e grandi dimensioni.

RealMLP

Osservazioni

Raramente ottiene vittorie contro diversi regimi
Spesso si posiziona in fondo alla classifica, tranne che in un numero limitato di set di dati.

Le reti neurali multistrato generiche faticano a gestire dati tabellari senza un forte bias induttivo, confermando una lezione di lunga data nell'apprendimento automatico applicato. ¹

Regressione logistica (baseline)

Osservazioni

Competitivo sui set di dati numerici, anche su larga scala
Occasionalmente vince o si posiziona in alto nei dataset ibridi
Le prestazioni si degradano drasticamente quando le interazioni tra funzionalità sono predominanti

Nonostante la sua semplicità, la regressione logistica rimane un parametro di riferimento significativo e non dovrebbe essere trascurata nei benchmark tabellari.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Punti chiave del benchmark dei modelli di apprendimento tabulari

Su 19 set di dati reali, le prestazioni dei modelli tabulari sono determinate principalmente dalla struttura delle caratteristiche, non dalla sola complessità del modello o dalle dimensioni del set di dati.

Invece di chiedere:

“Quale modello tabellare è il migliore?”

Una domanda più concreta è:

"Considerate le dimensioni del mio dataset e la composizione delle caratteristiche, quale classe di modelli è più adatta al mio caso?"

Tale prospettiva offre un valore pratico maggiore rispetto alle classifiche di tipo "leaderboard" e si allinea meglio con i processi decisionali aziendali reali.

Fondamenti concettuali dei modelli tabellari di tipo fondativo

I modelli tabulari di tipo Foundation mirano a generalizzare su diversi set di dati tabulari apprendendo forti informazioni a priori sulla struttura della tabella, sulle interazioni tra le caratteristiche e sul comportamento del compito, piuttosto che ottimizzarsi per un singolo set di dati.

A differenza dei modelli tabulari tradizionali, che vengono addestrati indipendentemente per ogni dataset, gli approcci di tipo "foundation" vengono pre-addestrati su grandi raccolte di problemi tabulari e poi applicati a nuovi dataset tramite adattamento in fase di inferenza.

In questo benchmark, TabPFN e TabICL rappresentano due approcci di spicco all'interno di questo paradigma.

Caratteristiche principali dei modelli tabulari in stile fondazione

I modelli tabulari di tipo fondazione presentano in genere le seguenti funzionalità:

Forte bias induttivo: apprendendo schemi comuni in molti set di dati tabellari, questi modelli codificano ipotesi sulle interazioni tra caratteristiche, distribuzioni target e caratteristiche del rumore che si generalizzano bene a problemi non visti in precedenza.
Gestione unificata dei tipi di caratteristiche: le caratteristiche numeriche e categoriche sono incorporate in uno spazio di rappresentazione condiviso, consentendo al modello di ragionare su tabelle di caratteristiche miste senza un'estesa preelaborazione manuale.
Adattamento in fase di inferenza: anziché riaddestrare i modelli, questi si adattano a nuovi set di dati utilizzando esempi contestuali o statistiche a livello di set di dati, consentendo prestazioni elevate anche in presenza di scarsità di dati.
Trasferimento tra compiti: un singolo modello pre-addestrato può eseguire la classificazione o la regressione su set di dati mai visti prima, spesso con una configurazione minima.

Queste proprietà spiegano perché i modelli di tipo "foundation" funzionano particolarmente bene su set di dati di piccole e medie dimensioni, dove i metodi classici non dispongono di dati sufficienti per stimare appieno le complesse interazioni tra le caratteristiche.

TabPFN: Adattamento dei dati a priori per la previsione tabellare

TabPFN (Tabular Prior-Data Fitted Network) riformula l'apprendimento tabellare come un problema di inferenza bayesiana.

Anziché apprendere i parametri per un singolo dataset, TabPFN viene addestrato su milioni di attività tabulari sintetiche campionate da una distribuzione di processi di generazione dati. Durante l'inferenza, il modello esegue di fatto un'inferenza bayesiana ammortizzata, condizionandola al dataset osservato per produrre previsioni.

Le caratteristiche principali di TabPFN includono:

Un'architettura di trasformazione che elabora interi set di dati come contesto.
Addestramento su un'ampia gamma di compiti sintetici per codificare conoscenze pregresse di carattere generale.
Prestazioni elevate in condizioni di dati limitati senza necessità di ottimizzazione degli iperparametri. ²

In pratica, questa progettazione consente a TabPFN di superare i metodi di boosting tradizionali su dataset ibridi di piccole e medie dimensioni, come osservato nel benchmark.

Tuttavia, poiché il modello si basa su conoscenze pregresse apprese piuttosto che su un'ottimizzazione basata sulla scala, il suo vantaggio diminuisce all'aumentare delle dimensioni del set di dati.

SAP ha annunciato l'acquisizione di Prior Labs, il gruppo di ricerca che ha sviluppato TabPFN, nel maggio 2026, impegnandosi a investire oltre 1 miliardo di euro in quattro anni per gestirlo come laboratorio di ricerca indipendente sull'intelligenza artificiale. ³ Questo benchmark si basa su TabPFN-2.5, la versione open-source rilasciata a gennaio 2026; Prior Labs ha rilasciato TabPFN-2.6 contestualmente all'acquisizione. ⁴

TabICL: Apprendimento contestuale per dati tabellari

TabICL estende il concetto di apprendimento contestuale alla predizione tabellare.

Anziché adattare i parametri del modello, TabICL si basa su esempi tratti dal dataset forniti direttamente nel contesto di input. Il modello impara a dedurre regole decisionali da questi esempi, in modo simile a come i grandi modelli linguistici eseguono l'apprendimento con pochi esempi (few-shot learning).

Gli aspetti chiave di TabICL includono:

Righe del dataset codificate come token strutturati
Adattamento del compito tramite esempi contestuali piuttosto che addestramento basato sul gradiente
Un singolo modello pre-addestrato in grado di gestire diverse attività tabellari ⁵

Come nel caso di TabPFN, i miglioramenti prestazionali sono più evidenti in presenza di scarsità di dati e diventano meno pronunciati su grandi dataset numerici, dove il boosting tradizionale sfrutta appieno il segnale disponibile.

Questo approccio consente a TabICL di ottenere prestazioni elevate su dataset ibridi, soprattutto quando le interazioni tra le caratteristiche sono complesse e i dati etichettati sono limitati.

Perché i modelli basati sulle fondazioni perdono terreno su larga scala?

I risultati del benchmark evidenziano un'importante limitazione dei modelli tabellari di tipo fondazione.

Su grandi insiemi di dati numerici, modelli come XGBoost superano in prestazioni gli approcci tradizionali. Ciò riflette un compromesso fondamentale:

I modelli di base si fondano su conoscenze pregresse apprese e sulla generalizzazione tra diversi compiti.
Il gradient boosting sfrutta il segnale specifico del dataset attraverso un'ottimizzazione iterativa. ⁶

Quando sono disponibili dati sufficienti, i metodi basati sulla scala possono apprendere completamente le interazioni tra le caratteristiche direttamente dal set di dati, riducendo il valore relativo delle conoscenze pre-addestrate.

Questo spiega perché i modelli di tipo "foundation" eccellono in condizioni di scarsità di dati, mentre il boosting classico prevale su larga scala.

Metodologia di benchmarking dei modelli di apprendimento tabellari

Abbiamo testato le prestazioni di 7 modelli di apprendimento automatico su 19 set di dati tabellari utilizzando la convalida incrociata stratificata a 5 fold.

Ambiente: container RunPod Cloud (Ubuntu 24.04).

Driver : Cuda 12.8.1, PyTorch 2.8.0

Calcolo: singolo L40S

Modelli:

Regressione logistica – Linea di base lineare
XGBoost – Gradient boosting
LightGBM – Gradient boosting
CatBoost – Potenziamento del gradiente con supporto categoriale nativo
RealMLP – Apprendimento profondo (MLP)
TabPFN 2.5 – Rete pre-adattata basata su Transformer
TabICL – Apprendimento contestuale basato su Transformer

19 set di dati da OpenML:

Classificazione binaria: 14 set di dati
Classificazione multiclasse: 1 set di dati
Regressione: 4 set di dati
Le dimensioni dei set di dati variano da circa 600 a circa 45.000 campioni.

Valutazione

Validazione incrociata

CV stratificato a 5 fasi per la classificazione
Coefficiente di variazione a 5 fasi per la regressione
Stesso seme casuale (42) in tutti gli esperimenti

Metrica

Pre-elaborazione

Caratteristiche numeriche: StandardScaler
Caratteristiche categoriali: codifica one-hot (ad eccezione di CatBoost, che la gestisce nativamente)
Valori mancanti: imputazione con la mediana (numerica), imputazione con la moda (categorica)

Limitazioni

TabPFN: Limitato a dataset con ≤500 caratteristiche dopo la preelaborazione
TabICL: Solo attività di classificazione (nessun supporto per la regressione)
Dimensione del campione: TabPFN utilizza un massimo di 10.000 campioni di addestramento.

Riproducibilità

Tutti gli esperimenti utilizzano:

Seed casuale fisso: 42
Stessa suddivisione tra training e test per tutti i modelli
Iperparametri predefiniti (nessuna regolazione)

Collegamenti di riferimento

[2106.11959] Revisiting Deep Learning Models for Tabular Data

[2207.01848] TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

SAP to Acquire Prior Labs | SAP News Center

SAP

[2502.05564] TabICL: A Tabular Foundation Model for In-Context Learning on Large Data

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da

Berk Kalelioğlu

Ricercatore di intelligenza artificiale

Segui Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Prossimo da leggere

STRACCIOMag 20

Benchmark dei modelli tabulari: prestazioni su 19 set di dati 2026

Risultati del benchmark dei modelli di apprendimento tabellari

Risultati di alto livello in base alla dimensione del set di dati e al tipo di caratteristica.

Set di dati di piccole dimensioni (<1000 righe)

Set di dati di medie dimensioni (da 1.000 a 10.000 righe)

Set di dati di grandi dimensioni (>10.000 righe)

Classifica media per regime

Insiemi di dati di piccole dimensioni

Set di dati di medie dimensioni

Grandi insiemi di dati

Osservazioni specifiche del modello

Modelli di fondazione tabellari (TFM): TabPFN e TabICL

Modelli di potenziamento del gradiente: XGBoost e LightGBM

CatBoost

RealMLP

Regressione logistica (baseline)

Punti chiave del benchmark dei modelli di apprendimento tabulari

Fondamenti concettuali dei modelli tabellari di tipo fondativo

Caratteristiche principali dei modelli tabulari in stile fondazione

TabPFN: Adattamento dei dati a priori per la previsione tabellare

TabICL: Apprendimento contestuale per dati tabellari

Perché i modelli basati sulle fondazioni perdono terreno su larga scala?

Metodologia di benchmarking dei modelli di apprendimento tabellari

Valutazione

Validazione incrociata

Metrica

Pre-elaborazione

Limitazioni

Riproducibilità

Collegamenti di riferimento

Sii il primo a commentare

Prossimo da leggere

Modelli di embedding multimodali: Apple vs Meta vs OpenAI

Confronto tra modelli di fondamenti relazionali

Confronto tra modelli di linguaggio visivo e riconoscimento delle immagini.

Modelli quantitativi su larga scala: applicazioni e sfide

Modelli di embedding: OpenAI vs Gemini vs Cohere

8 modelli di codice AI sottoposti a benchmarking: LMC-Eval