Contattaci
Nessun risultato trovato.

Benchmark dei modelli tabulari: prestazioni su 19 set di dati 2026

Cem Dilmegani
Cem Dilmegani
aggiornato il Apr 16, 2026
Guarda il nostro norme etiche

Abbiamo effettuato un'analisi comparativa di 7 modelli di apprendimento tabulare ampiamente utilizzati su 19 dataset reali, comprendenti circa 260.000 campioni e oltre 250 caratteristiche totali, con dimensioni dei dataset che variano da 435 a quasi 49.000 righe.

Il nostro obiettivo era comprendere le famiglie di modelli più performanti per set di dati di diverse dimensioni e strutture (ad esempio, numerici rispetto a categorici) che compongono una tipica architettura dati aziendale.

Risultati del benchmark dei modelli di apprendimento tabellari

Loading Chart

Nel grafico, il modello vincente riceve 1 punto. In caso di parità, il punto viene suddiviso equamente tra i modelli a pari merito. Il tasso di vittoria misura la frequenza con cui un modello si classifica al primo posto in un determinato contesto, fornendo una visione più precisa del dominio rispetto alla classifica media.

Modelli diversi risultano vincenti in condizioni strutturali diverse, e il tasso di successo varia in base alla dimensione del dataset e alla composizione delle caratteristiche.

In particolare:

  • I modelli di base hanno più successo quando i dati sono limitati
  • XGBoost è l'unico vincitore costante su set di dati numerici di grandi dimensioni.
  • Su set di dati ampi e ibridi:
    • Le vittorie sono distribuite tra TabICL, LightGBM e Regressione logistica.
    • I dati ibridi su larga scala rimangono il regime più ambiguo, in cui molteplici approcci restano validi.

Disclaimer: I tipi di funzionalità sono classificati come numerici o ibridi in base alla rappresentazione di input dominante dopo la preelaborazione.

Come interpretare la composizione del set di dati:

  • Le categorie dimensionali vanno da piccoli set di dati con meno di 1.000 righe a grandi set di dati con più di 40.000 righe.
  • Le tipologie di attività includono la classificazione binaria, la classificazione multiclasse e la regressione.
  • Le tipologie di funzionalità rispecchiano i dati aziendali pratici:
    • Numerico: variabili principalmente continue o ordinali
    • Ibrido: una combinazione di caratteristiche numeriche e categoriali

Questa variazione rende il benchmark particolarmente adatto a comprendere quali famiglie di modelli offrono prestazioni affidabili in diverse condizioni.

Di seguito potete consultare la nostra metodologia .

Risultati di alto livello in base alla dimensione del set di dati e al tipo di caratteristica.

Ecco come si comportano i modelli in base alle dimensioni dei dataset e ai tipi di caratteristiche, anziché concentrarsi sui punteggi dei singoli dataset.

Per ogni intervallo di dimensioni del dataset, il grafico riporta il valore medio di ROC-AUC ottenuto da ciascun modello, separatamente per i dataset numerici e ibridi.

Set di dati di piccole dimensioni (<1000 righe)

Su insiemi di dati di piccole dimensioni, i modelli tabulari di tipo Foundation risultano i più efficaci.

  • TabPFN e TabICL, i principali modelli di base tabellari (TFM), raggiungono le prestazioni migliori sia su set di dati numerici che ibridi.
  • Il divario prestazionale è particolarmente evidente sui set di dati ibridi.
  • La regressione logistica offre prestazioni competitive sui dati numerici, ma si degrada drasticamente sui dati ibridi.

Quando i dati sono scarsi, i modelli con un forte bias induttivo superano in prestazioni sia i modelli di boosting che quelli neurali. In questo contesto, la conoscenza pregressa e le interazioni apprese tra le caratteristiche contano più della capacità del modello.

Set di dati di medie dimensioni (da 1.000 a 10.000 righe)

Su set di dati di medie dimensioni, le prestazioni complessive migliorano, ma permangono differenze strutturali.

  • Tutti i modelli mostrano prestazioni eccellenti su set di dati numerici (spesso superando il 97% di ROC-AUC).
  • I set di dati ibridi rimangono più complessi.
  • Nell'ambito dei TFM, TabPFN e TabICL continuano a essere leader, ma il divario si sta riducendo.

I dataset di medie dimensioni rappresentano un regime di transizione: la densità del segnale aumenta, ma il bias induttivo fornisce ancora un vantaggio misurabile, in particolare su tipi di caratteristiche misti.

Set di dati di grandi dimensioni (>10.000 righe)

Su larga scala, i modelli di prestazione cambiano.

  • Su grandi insiemi di dati numerici, XGBoost e TabICL offrono prestazioni migliori rispetto ad altri modelli.
  • Su set di dati di grandi dimensioni e ibridi, le prestazioni convergono:
    • Le differenze sono minori e la scelta del modello diventa meno ovvia

Su larga scala, il classico gradient boosting sfrutta appieno il segnale numerico. Per i dati ibridi, la robustezza e la gestione delle categorie sono più importanti della complessità intrinseca del modello.

Classifica media per regime

I modelli vengono classificati all'interno di ciascun regime (dimensione del dataset × tipo di caratteristica).
Le classifiche vengono normalizzate in modo che valori più alti indichino prestazioni relative migliori, facilitando i confronti tra regimi diversi.

Insiemi di dati di piccole dimensioni

Su set di dati di piccole dimensioni, i modelli di tipo "foundation style" dominano le classifiche.

  • TabPFN e TabICL si classificano al primo posto sia nel dataset numerico che in quello ibrido.
  • I modelli di boosting del gradiente si classificano costantemente tra gli ultimi
  • Il divario tra i modelli di base e il boosting è maggiore sui dati ibridi.

La classifica media evidenzia lo stesso schema osservato nelle prestazioni grezze:
Quando i dati sono scarsi, le conoscenze pregresse apprese e i bias induttivi prevalgono sull'ottimizzazione basata sulla scala.

Set di dati di medie dimensioni

Su set di dati di medie dimensioni, le classifiche iniziano a cambiare.

  • TabPFN e TabICL rimangono ai primi posti in entrambe le tipologie di funzionalità.
  • CatBoost si afferma come una valida terza opzione per i set di dati ibridi.
  • I modelli di boosting migliorano la loro posizione relativa rispetto al regime dei dati di piccole dimensioni

Questo regime riflette un punto di equilibrio. Il volume dei dati aumenta, ma le interazioni tra le caratteristiche continuano a premiare i modelli con una maggiore distorsione induttiva.

Grandi insiemi di dati

Su grandi insiemi di dati, la dominanza diventa specifica del regime.

  • Grande + numerico:
    • XGBoost si posiziona al primo posto con un piccolo margine, seguito a ruota da TabICL.
  • Grande + ibrido:
    • Nessun singolo modello domina
    • TabICL, LightGBM, CatBoost e TabPFN raggiungono tutti posizioni medie simili

La classifica media conferma che la superiorità del modello è condizionata, non universale.
Le buone classifiche generali spesso nascondono notevoli differenze di rendimento tra i vari regimi.

Osservazioni specifiche del modello

Questa sezione riassume i punti di forza e di debolezza di ciascuna classe di modelli, sulla base dell'insieme completo dei risultati.

Modelli di fondazione tabellari (TFM): TabPFN e TabICL

Punti di forza

  • Prestazioni costantemente ai vertici su set di dati di piccole e medie dimensioni.
  • Particolarmente efficace con i dataset ibridi, dove la struttura categoriale è importante.
  • Elevate percentuali di successo su set di dati di piccole dimensioni.

Limitazioni

  • Meno dominante su set di dati numerici di grandi dimensioni
  • I vincoli pratici (limiti delle funzionalità, supporto alle attività) influenzano l'applicabilità

I TFM sono particolarmente adatti per problemi con dati scarsi o con caratteristiche miste, soprattutto quando sono richieste prestazioni rapide senza un'eccessiva messa a punto.

Modelli di potenziamento del gradiente: XGBoost e LightGBM

Punti di forza

  • Competitivo su grandi insiemi di dati
  • Prestazioni solide e stabili anche all'aumentare del volume dei dati.
  • Mantieni la competitività sui dati ibridi su larga scala

Limitazioni

  • Prestazioni inferiori rispetto ai modelli di riferimento su set di dati più piccoli.
  • Richiede un'attenta preelaborazione e messa a punto per i dati ricchi di categorie.

Il gradient boosting rimane la scelta predefinita per le tabelle numeriche di grandi dimensioni e un valido punto di partenza anche in contesti con caratteristiche miste.

CatBoost

Punti di forza

  • Il modello più robusto su set di dati ibridi, in particolare su larga scala
  • La gestione nativa delle categorie fornisce vantaggi costanti
  • Raramente ottiene risultati scadenti in diversi regimi

Limitazioni

  • Raramente il migliore è
  • Meno dominante sui set di dati puramente numerici

CatBoost è la scelta più sicura quando le caratteristiche categoriali sono predominanti, soprattutto in dataset di medie e grandi dimensioni.

RealMLP

Osservazioni

  • Raramente ottiene vittorie contro diversi regimi
  • Spesso si posiziona in fondo alla classifica, tranne che in un numero limitato di set di dati.

Le reti neurali multistrato generiche faticano a gestire dati tabellari senza un forte bias induttivo, confermando una lezione di lunga data nell'apprendimento automatico applicato. 1

Regressione logistica (baseline)

Osservazioni

  • Competitivo sui set di dati numerici, anche su larga scala
  • Occasionalmente vince o si posiziona in alto nei dataset ibridi
  • Le prestazioni si degradano drasticamente quando le interazioni tra funzionalità sono predominanti

Nonostante la sua semplicità, la regressione logistica rimane un parametro di riferimento significativo e non dovrebbe essere trascurata nei benchmark tabellari.

Punti chiave del benchmark dei modelli di apprendimento tabulari

Su 19 set di dati reali, le prestazioni dei modelli tabulari sono determinate principalmente dalla struttura delle caratteristiche, non dalla sola complessità del modello o dalle dimensioni del set di dati.

Invece di chiedere:

“Quale modello tabellare è il migliore?”

Una domanda più concreta è:

"Considerate le dimensioni del mio dataset e la composizione delle caratteristiche, quale classe di modelli è più adatta al mio caso?"

Tale prospettiva offre un valore pratico maggiore rispetto alle classifiche di tipo "leaderboard" e si allinea meglio con i processi decisionali aziendali reali.

Fondamenti concettuali dei modelli tabellari di tipo fondativo

I modelli tabulari di tipo Foundation mirano a generalizzare su diversi set di dati tabulari apprendendo forti informazioni a priori sulla struttura della tabella, sulle interazioni tra le caratteristiche e sul comportamento del compito, piuttosto che ottimizzarsi per un singolo set di dati.

A differenza dei modelli tabulari tradizionali, che vengono addestrati indipendentemente per ogni dataset, gli approcci di tipo "foundation" vengono pre-addestrati su grandi raccolte di problemi tabulari e poi applicati a nuovi dataset tramite adattamento in fase di inferenza.

In questo benchmark, TabPFN e TabICL rappresentano due approcci di spicco all'interno di questo paradigma.

Caratteristiche principali dei modelli tabulari in stile fondazione

I modelli tabulari di tipo fondazione presentano in genere le seguenti funzionalità:

  • Forte bias induttivo: apprendendo schemi comuni in molti set di dati tabellari, questi modelli codificano ipotesi sulle interazioni tra caratteristiche, distribuzioni target e caratteristiche del rumore che si generalizzano bene a problemi non visti in precedenza.
  • Gestione unificata dei tipi di caratteristiche: le caratteristiche numeriche e categoriche sono incorporate in uno spazio di rappresentazione condiviso, consentendo al modello di ragionare su tabelle di caratteristiche miste senza un'estesa preelaborazione manuale.
  • Adattamento in fase di inferenza: anziché riaddestrare i modelli, questi si adattano a nuovi set di dati utilizzando esempi contestuali o statistiche a livello di set di dati, consentendo prestazioni elevate anche in presenza di scarsità di dati.
  • Trasferimento tra compiti: un singolo modello pre-addestrato può eseguire la classificazione o la regressione su set di dati mai visti prima, spesso con una configurazione minima.

Queste proprietà spiegano perché i modelli di tipo "foundation" funzionano particolarmente bene su set di dati di piccole e medie dimensioni, dove i metodi classici non dispongono di dati sufficienti per stimare appieno le complesse interazioni tra le caratteristiche.

TabPFN: Adattamento dei dati a priori per la previsione tabellare

TabPFN (Tabular Prior-Data Fitted Network) riformula l'apprendimento tabellare come un problema di inferenza bayesiana.

Anziché apprendere i parametri per un singolo dataset, TabPFN viene addestrato su milioni di attività tabulari sintetiche campionate da una distribuzione di processi di generazione dati. Durante l'inferenza, il modello esegue di fatto un'inferenza bayesiana ammortizzata, condizionandola al dataset osservato per produrre previsioni.

Le caratteristiche principali di TabPFN includono:

  • Un'architettura di trasformazione che elabora interi set di dati come contesto.
  • Addestramento su un'ampia gamma di compiti sintetici per codificare conoscenze pregresse di carattere generale.
  • Prestazioni elevate in condizioni di dati limitati senza necessità di ottimizzazione degli iperparametri. 2

In pratica, questa progettazione consente a TabPFN di superare i metodi di boosting tradizionali su dataset ibridi di piccole e medie dimensioni, come osservato nel benchmark.

Tuttavia, poiché il modello si basa su conoscenze pregresse apprese piuttosto che su un'ottimizzazione basata sulla scala, il suo vantaggio diminuisce all'aumentare delle dimensioni del set di dati.

TabICL: Apprendimento contestuale per dati tabellari

TabICL estende il concetto di apprendimento contestuale alla predizione tabellare.

Anziché adattare i parametri del modello, TabICL si basa su esempi tratti dal dataset forniti direttamente nel contesto di input. Il modello impara a dedurre regole decisionali da questi esempi, in modo simile a come i grandi modelli linguistici eseguono l'apprendimento con pochi esempi (few-shot learning).

Gli aspetti chiave di TabICL includono:

  • Righe del dataset codificate come token strutturati
  • Adattamento del compito tramite esempi contestuali piuttosto che addestramento basato sul gradiente
  • Un singolo modello pre-addestrato in grado di gestire diverse attività tabellari 3

Come nel caso di TabPFN, i miglioramenti prestazionali sono più evidenti in presenza di scarsità di dati e diventano meno pronunciati su grandi dataset numerici, dove il boosting tradizionale sfrutta appieno il segnale disponibile.

Questo approccio consente a TabICL di ottenere prestazioni elevate su dataset ibridi, soprattutto quando le interazioni tra le caratteristiche sono complesse e i dati etichettati sono limitati.

Perché i modelli basati sulle fondazioni perdono terreno su larga scala?

I risultati del benchmark evidenziano un'importante limitazione dei modelli tabellari di tipo fondazione.

Su grandi insiemi di dati numerici, modelli come XGBoost superano in prestazioni gli approcci tradizionali. Ciò riflette un compromesso fondamentale:

  • I modelli di base si fondano su conoscenze pregresse apprese e sulla generalizzazione tra diversi compiti.
  • Il gradient boosting sfrutta il segnale specifico del dataset attraverso un'ottimizzazione iterativa. 4

Quando sono disponibili dati sufficienti, i metodi basati sulla scala possono apprendere completamente le interazioni tra le caratteristiche direttamente dal set di dati, riducendo il valore relativo delle conoscenze pre-addestrate.

Questo spiega perché i modelli di tipo "foundation" eccellono in condizioni di scarsità di dati, mentre il boosting classico prevale su larga scala.

Metodologia di benchmarking dei modelli di apprendimento tabellari

Abbiamo testato le prestazioni di 7 modelli di apprendimento automatico su 19 set di dati tabellari utilizzando la convalida incrociata stratificata a 5 fold.

Ambiente: container RunPod Cloud (Ubuntu 24.04).

Driver : Cuda 12.8.1, PyTorch 2.8.0

Calcolo: singolo L40S

Modelli:

  • Regressione logistica – Linea di base lineare
  • XGBoost – Gradient boosting
  • LightGBM – Gradient boosting
  • CatBoost – Potenziamento del gradiente con supporto categoriale nativo
  • RealMLP – Apprendimento profondo (MLP)
  • TabPFN – Rete preconfigurata basata su trasformatore
  • TabICL – Apprendimento contestuale basato su Transformer

19 set di dati da OpenML:

  • Classificazione binaria: 14 set di dati
  • Classificazione multiclasse: 1 set di dati
  • Regressione: 4 set di dati
  • Le dimensioni dei set di dati variano da circa 600 a circa 45.000 campioni.

Valutazione

Validazione incrociata

  • CV stratificato a 5 fasi per la classificazione
  • Coefficiente di variazione a 5 fasi per la regressione
  • Stesso seme casuale (42) in tutti gli esperimenti

Metrica

Pre-elaborazione

  • Caratteristiche numeriche: StandardScaler
  • Caratteristiche categoriali: codifica one-hot (ad eccezione di CatBoost, che la gestisce nativamente)
  • Valori mancanti: imputazione con la mediana (numerica), imputazione con la moda (categorica)

Limitazioni

  • TabPFN: Limitato a dataset con ≤500 caratteristiche dopo la preelaborazione
  • TabICL: Solo attività di classificazione (nessun supporto per la regressione)
  • Dimensione del campione: TabPFN utilizza un massimo di 10.000 campioni di addestramento.

Riproducibilità

Tutti gli esperimenti utilizzano:

  • Seed casuale fisso: 42
  • Stessa suddivisione tra training e test per tutti i modelli
  • Iperparametri predefiniti (nessuna regolazione)
Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo
Ricercato da
Berk Kalelioğlu
Berk Kalelioğlu
Ricercatore di intelligenza artificiale

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450