Análise comparativa de modelos tabulares: desempenho em 19 conjuntos de dados até 2026

com

atualizado em Mai 22, 2026

Avaliamos 7 modelos de aprendizado tabular amplamente utilizados em 19 conjuntos de dados do mundo real, abrangendo aproximadamente 260.000 amostras e mais de 250 recursos no total, com tamanhos de conjuntos de dados variando de 435 a quase 49.000 linhas.

Nosso objetivo era entender as famílias de modelos com melhor desempenho para conjuntos de dados de diferentes tamanhos e estruturas (por exemplo, numéricos versus categóricos) que compõem uma arquitetura de dados empresarial típica.

Resultados de referência de modelos de aprendizagem tabular

Loading Chart

No gráfico, o modelo vencedor recebe 1 ponto. Em caso de empate, o ponto é dividido igualmente entre os modelos empatados. A taxa de vitórias mede a frequência com que um modelo termina em primeiro lugar em um determinado regime, oferecendo uma visão mais rigorosa da dominância do que a classificação média.

Diferentes modelos se mostram eficazes sob diferentes condições estruturais, e a taxa de sucesso varia de acordo com o tamanho do conjunto de dados e a composição das características.

Em particular:

Os modelos de fundação são mais eficazes quando os dados são limitados.
O XGBoost é o único vencedor consistente em conjuntos de dados grandes e numéricos.
Em conjuntos de dados grandes e híbridos:
- Os ganhos estão distribuídos entre TabICL, LightGBM e Regressão Logística.
- Dados híbridos em larga escala continuam sendo o regime mais ambíguo, onde múltiplas abordagens permanecem viáveis.

Aviso: Os tipos de recursos são categorizados como numéricos ou híbridos com base na representação de entrada dominante após o pré-processamento.

Como interpretar a composição do conjunto de dados:

Os tamanhos dos conjuntos de dados variam de pequenos, com menos de 1.000 linhas, a grandes, com mais de 40.000 linhas.
Os tipos de tarefas incluem classificação binária, classificação multiclasse e regressão.
Os tipos de recursos refletem dados empresariais práticos:
- Numérico: variáveis predominantemente contínuas ou ordinais
- Híbrido: uma combinação de características numéricas e categóricas.

Essa variação torna o parâmetro de referência adequado para entender quais famílias de modelos têm um desempenho confiável em diferentes condições.

Você pode conferir nossa metodologia abaixo.

Resultados gerais por tamanho do conjunto de dados e tipo de recurso

Aqui está como os modelos se comportam em diferentes tamanhos de conjuntos de dados e tipos de recursos, em vez de focar nas pontuações de conjuntos de dados individuais.

Para cada faixa de tamanho de conjunto de dados, o gráfico apresenta a média da área sob a curva ROC (ROC-AUC) obtida por cada modelo, separadamente para conjuntos de dados numéricos e híbridos.

Conjuntos de dados pequenos (<1.000 linhas)

Em conjuntos de dados pequenos, os modelos tabulares do tipo foundation são os mais eficazes.

TabPFN e TabICL, os principais modelos de fundação tabular (TFMs), alcançam o melhor desempenho tanto em conjuntos de dados numéricos quanto híbridos.
A diferença de desempenho é especialmente acentuada em conjuntos de dados híbridos.
A regressão logística apresenta um desempenho competitivo em dados numéricos, mas seu desempenho cai drasticamente em dados híbridos.

Quando os dados são escassos, modelos com forte viés indutivo superam tanto os modelos de boosting quanto os modelos neurais tradicionais. Nesse cenário, o conhecimento prévio e as interações aprendidas entre as características são mais importantes do que a capacidade do modelo.

Conjuntos de dados de tamanho médio (1.000 a 10.000 linhas)

Em conjuntos de dados de tamanho médio, o desempenho geral melhora, mas as diferenças estruturais permanecem.

Todos os modelos apresentam um desempenho excelente em conjuntos de dados numéricos (frequentemente ultrapassando 97% de AUC-ROC).
Os conjuntos de dados híbridos continuam sendo mais desafiadores.
Dentro do segmento de TFMs, TabPFN e TabICL continuam na liderança, mas a diferença está diminuindo.

Os conjuntos de dados de tamanho médio representam um regime de transição: a densidade do sinal aumenta, mas o viés indutivo ainda proporciona uma vantagem mensurável, particularmente em tipos de características mistas.

Conjuntos de dados grandes (mais de 10 mil linhas)

Em grande escala, os padrões de desempenho mudam.

Em conjuntos de dados numéricos de grande porte, o XGBoost e o TabICL apresentam melhor desempenho do que outros modelos.
Em conjuntos de dados grandes e híbridos, o desempenho converge:
- As diferenças são menores e a escolha do modelo torna-se menos óbvia.

Em larga escala, o gradient boosting clássico explora totalmente o sinal numérico. Para dados híbridos, robustez e tratamento de variáveis categóricas são mais importantes do que a complexidade bruta do modelo.

Classificação média por regime

Os modelos são classificados dentro de cada regime (tamanho do conjunto de dados × tipo de recurso).
As classificações são normalizadas para que valores mais altos indiquem um desempenho relativo mais forte, facilitando as comparações entre regimes.

Conjuntos de dados pequenos

Em conjuntos de dados pequenos, os modelos do tipo foundation dominam os rankings.

TabPFN e TabICL ocupam o primeiro lugar tanto nos conjuntos de dados numéricos quanto nos híbridos.
Os modelos de Gradient Boosting ficam consistentemente classificados perto da última posição.
A diferença entre os modelos de base e o boosting é maior em dados híbridos.

A classificação média destaca o mesmo padrão observado no desempenho bruto:
Quando os dados são escassos, os conhecimentos prévios e o viés indutivo superam a otimização orientada pela escala.

Conjuntos de dados médios

Em conjuntos de dados de tamanho médio, as classificações começam a mudar.

TabPFN e TabICL continuam sendo os mais bem classificados em ambos os tipos de recursos.
O CatBoost surge como uma forte terceira opção em conjuntos de dados híbridos.
Os modelos de boosting melhoram sua posição relativa em comparação com o regime de dados pequenos.

Esse regime reflete um ponto de equilíbrio. O volume de dados aumenta, mas as interações entre características ainda favorecem modelos com maior viés indutivo.

Grandes conjuntos de dados

Em conjuntos de dados extensos, a dominância torna-se específica de cada regime.

Grande + numérico:
- O XGBoost ocupa o primeiro lugar com uma pequena margem, com o TabICL logo atrás.
Grande + híbrido:
- Nenhum modelo isolado domina.
- TabICL, LightGBM, CatBoost e TabPFN alcançam classificações médias semelhantes.

A classificação média confirma que a superioridade do modelo é condicional, e não universal.
Classificações gerais elevadas muitas vezes mascaram diferenças acentuadas de desempenho entre diferentes regimes.

Observações específicas do modelo

Esta seção resume onde cada classe de modelo tem bom desempenho e onde apresenta dificuldades, com base no conjunto completo de resultados.

Modelos de fundação tabular (TFMs): TabPFN e TabICL

Pontos fortes

Desempenho consistentemente superior em conjuntos de dados pequenos e médios.
Particularmente eficaz em conjuntos de dados híbridos, onde a estrutura categórica é importante.
Altas taxas de sucesso em conjuntos de dados pequenos

Limitações

Menos dominante em conjuntos de dados grandes e numéricos.
Restrições práticas (limitações de recursos, suporte à tarefa) afetam a aplicabilidade.

Os TFMs são mais adequados para problemas com escassez de dados ou com características mistas, especialmente quando se exige alto desempenho sem necessidade de ajustes extensivos.

Modelos de aumento de gradiente: XGBoost e LightGBM

Pontos fortes

Competitivo em grandes conjuntos de dados
Desempenho robusto e estável mesmo com o aumento do volume de dados.
Mantenha a competitividade em dados híbridos em grande escala.

Limitações

Apresenta desempenho inferior em comparação com os modelos fundamentais em conjuntos de dados menores.
Requerem pré-processamento e ajustes cuidadosos para dados com grande quantidade de variáveis categóricas.

O Gradient Boosting continua sendo a escolha padrão para grandes tabelas numéricas e uma base sólida mesmo em cenários com variáveis mistas.

CatBoost

Pontos fortes

Modelo mais robusto em conjuntos de dados híbridos, particularmente em escalas maiores.
O processamento categórico nativo proporciona ganhos consistentes.
Raramente apresenta desempenho ruim em diferentes regimes.

Limitações

Raramente o melhor desempenho é o melhor.
Menos dominante em conjuntos de dados puramente numéricos

O CatBoost é a opção mais segura quando as variáveis categóricas predominam, especialmente em conjuntos de dados de médio a grande porte.

RealMLP

Observações

Raramente vence em regimes opostos.
Geralmente fica entre os últimos colocados, exceto em um pequeno número de conjuntos de dados.

As redes neurais MLP genéricas têm dificuldades com dados tabulares sem forte viés indutivo, reforçando uma lição antiga na aprendizagem de máquina aplicada. ¹

Regressão logística (linha de base)

Observações

Competitivo em conjuntos de dados numéricos, mesmo em grande escala.
Ocasionalmente, obtém resultados excelentes ou se classifica bem em conjuntos de dados híbridos.
O desempenho degrada-se drasticamente quando as interações entre recursos dominam.

Apesar de sua simplicidade, a regressão logística continua sendo uma base de referência significativa e não deve ser ignorada em análises comparativas tabulares.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Principais conclusões da avaliação comparativa dos modelos de aprendizagem tabular.

Em 19 conjuntos de dados do mundo real, o desempenho do modelo tabular é impulsionado principalmente pela estrutura dos recursos, e não apenas pela complexidade do modelo ou pelo tamanho do conjunto de dados.

Em vez de perguntar:

Qual modelo tabular é o melhor?

Uma pergunta mais prática seria:

Considerando o tamanho do meu conjunto de dados e a composição das minhas características, qual classe de modelos tem maior probabilidade de funcionar?

Essa perspectiva oferece maior valor prático do que rankings no estilo tabela de classificação e está mais alinhada com a tomada de decisões empresariais no mundo real.

Fundamentos conceituais de modelos tabulares de estilo fundamental

Os modelos tabulares do tipo Foundation visam generalizar para diversos conjuntos de dados tabulares, aprendendo fortes informações prévias sobre a estrutura da tabela, interações de recursos e comportamento da tarefa, em vez de otimizar para um único conjunto de dados.

Ao contrário dos modelos tabulares tradicionais, que são treinados independentemente para cada conjunto de dados, as abordagens do tipo foundation são pré-treinadas em grandes coleções de problemas tabulares e, em seguida, aplicadas a novos conjuntos de dados por meio de adaptação em tempo de inferência.

Neste estudo comparativo, TabPFN e TabICL representam duas abordagens proeminentes dentro deste paradigma.

Principais funcionalidades dos modelos tabulares de estilo fundamental

Os modelos tabulares do tipo Foundation normalmente apresentam as seguintes capacidades:

Forte viés indutivo: Ao aprender padrões comuns em diversos conjuntos de dados tabulares, esses modelos codificam suposições sobre interações de características, distribuições alvo e características de ruído que se generalizam bem para problemas nunca vistos antes.
Tratamento unificado de tipos de atributos: Atributos numéricos e categóricos são incorporados em um espaço de representação compartilhado, permitindo que o modelo raciocine sobre tabelas com atributos mistos sem a necessidade de extenso pré-processamento manual.
Adaptação em tempo de inferência: em vez de serem re-treinados, esses modelos se adaptam a novos conjuntos de dados usando exemplos contextuais ou estatísticas em nível de conjunto de dados, permitindo um desempenho robusto em condições de escassez de dados.
Transferência entre tarefas: Um único modelo pré-treinado pode realizar classificação ou regressão em conjuntos de dados nunca vistos antes, frequentemente com configuração mínima.

Essas propriedades explicam por que os modelos do tipo foundation têm um desempenho particularmente bom em conjuntos de dados pequenos e médios, onde os métodos clássicos não possuem dados suficientes para estimar completamente as interações complexas entre as características.

TabPFN: Ajuste de dados a priori para previsão tabular

A TabPFN (Tabular Prior-Data Fitted Network) reformula a aprendizagem tabular como um problema de inferência Bayesiana.

Em vez de aprender parâmetros para um único conjunto de dados, o TabPFN é treinado em milhões de tarefas tabulares sintéticas amostradas de uma distribuição de processos geradores de dados. Durante a inferência, o modelo realiza efetivamente uma inferência Bayesiana amortizada, condicionando-se ao conjunto de dados observado para produzir previsões.

As principais características do TabPFN incluem:

Uma arquitetura transformadora que processa conjuntos de dados inteiros como contexto.
Treinamento em uma ampla distribuição de tarefas sintéticas para codificar conhecimentos prévios de propósito geral.
Excelente desempenho em regimes com poucos dados, sem necessidade de ajuste de hiperparâmetros. ²

Na prática, esse design permite que o TabPFN supere os métodos de boosting tradicionais em conjuntos de dados híbridos de pequeno e médio porte, conforme observado no benchmark.

No entanto, como o modelo se baseia em conhecimentos prévios aprendidos em vez de otimização orientada pela escala, sua vantagem diminui à medida que o tamanho do conjunto de dados aumenta.

Em maio de 2026, a SAP anunciou a aquisição da Prior Labs, o grupo de pesquisa por trás do TabPFN, e comprometeu-se a investir mais de € 1 bilhão ao longo de quatro anos para operá-la como um laboratório independente de pesquisa em IA. ³ Este benchmark abrange o TabPFN-2.5, a versão de código aberto lançada em janeiro de 2026; a Prior Labs lançou o TabPFN-2.6 juntamente com a aquisição. ⁴

TabICL: Aprendizagem contextual para dados tabulares

O TabICL estende a ideia de aprendizado contextual para a previsão tabular.

Em vez de ajustar parâmetros do modelo, o TabICL utiliza exemplos do conjunto de dados fornecidos diretamente no contexto de entrada. O modelo aprende a inferir regras de decisão a partir desses exemplos, de forma semelhante à aprendizagem com poucos exemplos realizada por grandes modelos de linguagem.

Os principais aspectos do TabICL incluem:

Linhas do conjunto de dados codificadas como tokens estruturados
Adaptação de tarefas por meio de exemplos contextuais em vez de treinamento baseado em gradiente.
Um único modelo pré-treinado capaz de lidar com diversas tarefas tabulares. ⁵

Assim como ocorre com o TabPFN, os ganhos de desempenho são mais expressivos em situações de escassez de dados e tornam-se menos pronunciados em grandes conjuntos de dados numéricos, onde o boosting tradicional explora totalmente o sinal disponível.

Essa abordagem permite que o TabICL alcance um desempenho sólido em conjuntos de dados híbridos, especialmente quando as interações entre as características são complexas e os dados rotulados são limitados.

Por que os modelos do tipo fundação perdem a dominância em larga escala?

Os resultados de referência destacam uma importante limitação dos modelos tabulares do tipo fundamental.

Em grandes conjuntos de dados numéricos, modelos como o XGBoost superam as abordagens tradicionais. Isso reflete uma compensação fundamental:

Os modelos fundamentais dependem de conhecimentos prévios aprendidos e da generalização entre tarefas.
O Gradient Boosting explora o sinal específico do conjunto de dados por meio de otimização iterativa. ⁶

Quando há dados suficientes disponíveis, os métodos orientados por escala podem aprender completamente as interações entre características diretamente do conjunto de dados, reduzindo o valor relativo das distribuições a priori pré-treinadas.

Isso explica por que os modelos do tipo foundation se destacam em situações de escassez de dados, enquanto o boosting clássico domina em larga escala.

Metodologia de avaliação comparativa de modelos de aprendizagem tabular

Avaliamos 7 modelos de aprendizado de máquina em 19 conjuntos de dados tabulares usando validação cruzada estratificada de 5 partes.

Ambiente: Contêiner RunPod Cloud (Ubuntu 24.04).

Drivers : Cuda 12.8.1, Pytorch 2.8.0

Computação: L40S único

Modelos:

Regressão Logística – Linha de base linear
XGBoost – Aumento de gradiente
LightGBM – Aumento de gradiente
CatBoost – Aumento de gradiente com suporte nativo a categorias
RealMLP – Aprendizado profundo (MLP)
TabPFN 2.5 – Rede pré-instalada baseada em transformador
TabICL – Aprendizagem contextual baseada em transformadores

19 conjuntos de dados do OpenML:

Classificação binária: 14 conjuntos de dados
Classificação multiclasse: 1 conjunto de dados
Regressão: 4 conjuntos de dados
Os tamanhos dos conjuntos de dados variam de aproximadamente 600 a 45.000 amostras.

Avaliação

Validação cruzada

CV estratificado de 5 vias para classificação
Validação cruzada de 5 vias para regressão
Mesma semente aleatória (42) em todos os experimentos

Métricas

Pré-processamento

Características numéricas: StandardScaler
Características categóricas: Codificação one-hot (exceto CatBoost, que lida com isso nativamente)
Valores ausentes: Imputação pela mediana (numérica), imputação pela moda (categórica)

Limitações

TabPFN: Limitado a conjuntos de dados com ≤500 atributos após o pré-processamento.
TabICL: Somente tarefas de classificação (sem suporte para regressão)
Tamanho da amostra: O TabPFN utiliza um máximo de 10.000 amostras de treinamento.

Reprodutibilidade

Todos os experimentos utilizam:

Semente aleatória fixa: 42
As mesmas divisões de treino/teste foram aplicadas em todos os modelos.
Hiperparâmetros padrão (sem ajustes)

Links de referência

[2106.11959] Revisiting Deep Learning Models for Tabular Data

[2207.01848] TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

SAP to Acquire Prior Labs | SAP News Center

SAP

[2502.05564] TabICL: A Tabular Foundation Model for In-Context Learning on Large Data

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por

Berk Kalelioğlu

Pesquisador de IA

Siga-nos Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

A seguir, leia

TRAPOMai 20

Análise comparativa de modelos tabulares: desempenho em 19 conjuntos de dados até 2026

Resultados de referência de modelos de aprendizagem tabular

Resultados gerais por tamanho do conjunto de dados e tipo de recurso

Conjuntos de dados pequenos (<1.000 linhas)

Conjuntos de dados de tamanho médio (1.000 a 10.000 linhas)

Conjuntos de dados grandes (mais de 10 mil linhas)

Classificação média por regime

Conjuntos de dados pequenos

Conjuntos de dados médios

Grandes conjuntos de dados

Observações específicas do modelo

Modelos de fundação tabular (TFMs): TabPFN e TabICL

Modelos de aumento de gradiente: XGBoost e LightGBM

CatBoost

RealMLP

Regressão logística (linha de base)

Principais conclusões da avaliação comparativa dos modelos de aprendizagem tabular.

Fundamentos conceituais de modelos tabulares de estilo fundamental

Principais funcionalidades dos modelos tabulares de estilo fundamental

TabPFN: Ajuste de dados a priori para previsão tabular

TabICL: Aprendizagem contextual para dados tabulares

Por que os modelos do tipo fundação perdem a dominância em larga escala?

Metodologia de avaliação comparativa de modelos de aprendizagem tabular

Avaliação

Validação cruzada

Métricas

Pré-processamento

Limitações

Reprodutibilidade

Links de referência

Seja o primeiro a comentar

A seguir, leia

Modelos de Incorporação Multimodal: Apple vs Meta vs OpenAI

Comparar modelos de fundamentos relacionais

Modelos de linguagem visual comparados ao reconhecimento de imagens

Modelos quantitativos de grande escala: aplicações e desafios

Modelos de incorporação: OpenAI vs Gemini vs Cohere

8 modelos de código de IA avaliados: LMC-Eval