Análise comparativa de modelos tabulares: desempenho em 19 conjuntos de dados até 2026
Avaliamos 7 modelos de aprendizado tabular amplamente utilizados em 19 conjuntos de dados do mundo real, abrangendo aproximadamente 260.000 amostras e mais de 250 recursos no total, com tamanhos de conjuntos de dados variando de 435 a quase 49.000 linhas.
Nosso objetivo era entender as famílias de modelos com melhor desempenho para conjuntos de dados de diferentes tamanhos e estruturas (por exemplo, numéricos versus categóricos) que compõem uma arquitetura de dados empresarial típica.
Resultados de referência de modelos de aprendizagem tabular
No gráfico, o modelo vencedor recebe 1 ponto. Em caso de empate, o ponto é dividido igualmente entre os modelos empatados. A taxa de vitórias mede a frequência com que um modelo termina em primeiro lugar em um determinado regime, oferecendo uma visão mais rigorosa da dominância do que a classificação média.
Diferentes modelos se mostram eficazes sob diferentes condições estruturais, e a taxa de sucesso varia de acordo com o tamanho do conjunto de dados e a composição das características.
Em particular:
- Os modelos de fundação são mais eficazes quando os dados são limitados.
- O XGBoost é o único vencedor consistente em conjuntos de dados grandes e numéricos.
- Em conjuntos de dados grandes e híbridos:
- Os ganhos estão distribuídos entre TabICL, LightGBM e Regressão Logística.
- Dados híbridos em larga escala continuam sendo o regime mais ambíguo, onde múltiplas abordagens permanecem viáveis.
Aviso: Os tipos de recursos são categorizados como numéricos ou híbridos com base na representação de entrada dominante após o pré-processamento.
Como interpretar a composição do conjunto de dados:
- Os tamanhos dos conjuntos de dados variam de pequenos, com menos de 1.000 linhas, a grandes, com mais de 40.000 linhas.
- Os tipos de tarefas incluem classificação binária, classificação multiclasse e regressão.
- Os tipos de recursos refletem dados empresariais práticos:
- Numérico: variáveis predominantemente contínuas ou ordinais
- Híbrido: uma combinação de características numéricas e categóricas.
Essa variação torna o parâmetro de referência adequado para entender quais famílias de modelos têm um desempenho confiável em diferentes condições.
Você pode conferir nossa metodologia abaixo.
Resultados gerais por tamanho do conjunto de dados e tipo de recurso
Aqui está como os modelos se comportam em diferentes tamanhos de conjuntos de dados e tipos de recursos, em vez de focar nas pontuações de conjuntos de dados individuais.
Para cada faixa de tamanho de conjunto de dados, o gráfico apresenta a média da área sob a curva ROC (ROC-AUC) obtida por cada modelo, separadamente para conjuntos de dados numéricos e híbridos.
Conjuntos de dados pequenos (<1.000 linhas)
Em conjuntos de dados pequenos, os modelos tabulares do tipo foundation são os mais eficazes.
- TabPFN e TabICL, os principais modelos de fundação tabular (TFMs), alcançam o melhor desempenho tanto em conjuntos de dados numéricos quanto híbridos.
- A diferença de desempenho é especialmente acentuada em conjuntos de dados híbridos.
- A regressão logística apresenta um desempenho competitivo em dados numéricos, mas seu desempenho cai drasticamente em dados híbridos.
Quando os dados são escassos, modelos com forte viés indutivo superam tanto os modelos de boosting quanto os modelos neurais tradicionais. Nesse cenário, o conhecimento prévio e as interações aprendidas entre as características são mais importantes do que a capacidade do modelo.
Conjuntos de dados de tamanho médio (1.000 a 10.000 linhas)
Em conjuntos de dados de tamanho médio, o desempenho geral melhora, mas as diferenças estruturais permanecem.
- Todos os modelos apresentam um desempenho excelente em conjuntos de dados numéricos (frequentemente ultrapassando 97% de AUC-ROC).
- Os conjuntos de dados híbridos continuam sendo mais desafiadores.
- Dentro do segmento de TFMs, TabPFN e TabICL continuam na liderança, mas a diferença está diminuindo.
Os conjuntos de dados de tamanho médio representam um regime de transição: a densidade do sinal aumenta, mas o viés indutivo ainda proporciona uma vantagem mensurável, particularmente em tipos de características mistas.
Conjuntos de dados grandes (mais de 10 mil linhas)
Em grande escala, os padrões de desempenho mudam.
- Em conjuntos de dados numéricos de grande porte, o XGBoost e o TabICL apresentam melhor desempenho do que outros modelos.
- Em conjuntos de dados grandes e híbridos, o desempenho converge:
- As diferenças são menores e a escolha do modelo torna-se menos óbvia.
Em larga escala, o gradient boosting clássico explora totalmente o sinal numérico. Para dados híbridos, robustez e tratamento de variáveis categóricas são mais importantes do que a complexidade bruta do modelo.
Classificação média por regime
Os modelos são classificados dentro de cada regime (tamanho do conjunto de dados × tipo de recurso).
As classificações são normalizadas para que valores mais altos indiquem um desempenho relativo mais forte, facilitando as comparações entre regimes.
Conjuntos de dados pequenos
Em conjuntos de dados pequenos, os modelos do tipo foundation dominam os rankings.
- TabPFN e TabICL ocupam o primeiro lugar tanto nos conjuntos de dados numéricos quanto nos híbridos.
- Os modelos de Gradient Boosting ficam consistentemente classificados perto da última posição.
- A diferença entre os modelos de base e o boosting é maior em dados híbridos.
A classificação média destaca o mesmo padrão observado no desempenho bruto:
Quando os dados são escassos, os conhecimentos prévios e o viés indutivo superam a otimização orientada pela escala.
Conjuntos de dados médios
Em conjuntos de dados de tamanho médio, as classificações começam a mudar.
- TabPFN e TabICL continuam sendo os mais bem classificados em ambos os tipos de recursos.
- O CatBoost surge como uma forte terceira opção em conjuntos de dados híbridos.
- Os modelos de boosting melhoram sua posição relativa em comparação com o regime de dados pequenos.
Esse regime reflete um ponto de equilíbrio. O volume de dados aumenta, mas as interações entre características ainda favorecem modelos com maior viés indutivo.
Grandes conjuntos de dados
Em conjuntos de dados extensos, a dominância torna-se específica de cada regime.
- Grande + numérico:
- O XGBoost ocupa o primeiro lugar com uma pequena margem, com o TabICL logo atrás.
- Grande + híbrido:
- Nenhum modelo isolado domina.
- TabICL, LightGBM, CatBoost e TabPFN alcançam classificações médias semelhantes.
A classificação média confirma que a superioridade do modelo é condicional, e não universal.
Classificações gerais elevadas muitas vezes mascaram diferenças acentuadas de desempenho entre diferentes regimes.
Observações específicas do modelo
Esta seção resume onde cada classe de modelo tem bom desempenho e onde apresenta dificuldades, com base no conjunto completo de resultados.
Modelos de fundação tabular (TFMs): TabPFN e TabICL
Pontos fortes
- Desempenho consistentemente superior em conjuntos de dados pequenos e médios.
- Particularmente eficaz em conjuntos de dados híbridos, onde a estrutura categórica é importante.
- Altas taxas de sucesso em conjuntos de dados pequenos
Limitações
- Menos dominante em conjuntos de dados grandes e numéricos.
- Restrições práticas (limitações de recursos, suporte à tarefa) afetam a aplicabilidade.
Os TFMs são mais adequados para problemas com escassez de dados ou com características mistas, especialmente quando se exige alto desempenho sem necessidade de ajustes extensivos.
Modelos de aumento de gradiente: XGBoost e LightGBM
Pontos fortes
- Competitivo em grandes conjuntos de dados
- Desempenho robusto e estável mesmo com o aumento do volume de dados.
- Mantenha a competitividade em dados híbridos em grande escala.
Limitações
- Apresenta desempenho inferior em comparação com os modelos fundamentais em conjuntos de dados menores.
- Requerem pré-processamento e ajustes cuidadosos para dados com grande quantidade de variáveis categóricas.
O Gradient Boosting continua sendo a escolha padrão para grandes tabelas numéricas e uma base sólida mesmo em cenários com variáveis mistas.
CatBoost
Pontos fortes
- Modelo mais robusto em conjuntos de dados híbridos, particularmente em escalas maiores.
- O processamento categórico nativo proporciona ganhos consistentes.
- Raramente apresenta desempenho ruim em diferentes regimes.
Limitações
- Raramente o melhor desempenho é o melhor.
- Menos dominante em conjuntos de dados puramente numéricos
O CatBoost é a opção mais segura quando as variáveis categóricas predominam, especialmente em conjuntos de dados de médio a grande porte.
RealMLP
Observações
- Raramente vence em regimes opostos.
- Geralmente fica entre os últimos colocados, exceto em um pequeno número de conjuntos de dados.
As redes neurais MLP genéricas têm dificuldades com dados tabulares sem forte viés indutivo, reforçando uma lição antiga na aprendizagem de máquina aplicada. 1
Regressão logística (linha de base)
Observações
- Competitivo em conjuntos de dados numéricos, mesmo em grande escala.
- Ocasionalmente, obtém resultados excelentes ou se classifica bem em conjuntos de dados híbridos.
- O desempenho degrada-se drasticamente quando as interações entre recursos dominam.
Apesar de sua simplicidade, a regressão logística continua sendo uma base de referência significativa e não deve ser ignorada em análises comparativas tabulares.
Principais conclusões da avaliação comparativa dos modelos de aprendizagem tabular.
Em 19 conjuntos de dados do mundo real, o desempenho do modelo tabular é impulsionado principalmente pela estrutura dos recursos, e não apenas pela complexidade do modelo ou pelo tamanho do conjunto de dados.
Em vez de perguntar:
Qual modelo tabular é o melhor?
Uma pergunta mais prática seria:
Considerando o tamanho do meu conjunto de dados e a composição das minhas características, qual classe de modelos tem maior probabilidade de funcionar?
Essa perspectiva oferece maior valor prático do que rankings no estilo tabela de classificação e está mais alinhada com a tomada de decisões empresariais no mundo real.
Fundamentos conceituais de modelos tabulares de estilo fundamental
Os modelos tabulares do tipo Foundation visam generalizar para diversos conjuntos de dados tabulares, aprendendo fortes informações prévias sobre a estrutura da tabela, interações de recursos e comportamento da tarefa, em vez de otimizar para um único conjunto de dados.
Ao contrário dos modelos tabulares tradicionais, que são treinados independentemente para cada conjunto de dados, as abordagens do tipo foundation são pré-treinadas em grandes coleções de problemas tabulares e, em seguida, aplicadas a novos conjuntos de dados por meio de adaptação em tempo de inferência.
Neste estudo comparativo, TabPFN e TabICL representam duas abordagens proeminentes dentro deste paradigma.
Principais funcionalidades dos modelos tabulares de estilo fundamental
Os modelos tabulares do tipo Foundation normalmente apresentam as seguintes capacidades:
- Forte viés indutivo: Ao aprender padrões comuns em diversos conjuntos de dados tabulares, esses modelos codificam suposições sobre interações de características, distribuições alvo e características de ruído que se generalizam bem para problemas nunca vistos antes.
- Tratamento unificado de tipos de atributos: Atributos numéricos e categóricos são incorporados em um espaço de representação compartilhado, permitindo que o modelo raciocine sobre tabelas com atributos mistos sem a necessidade de extenso pré-processamento manual.
- Adaptação em tempo de inferência: em vez de serem re-treinados, esses modelos se adaptam a novos conjuntos de dados usando exemplos contextuais ou estatísticas em nível de conjunto de dados, permitindo um desempenho robusto em condições de escassez de dados.
- Transferência entre tarefas: Um único modelo pré-treinado pode realizar classificação ou regressão em conjuntos de dados nunca vistos antes, frequentemente com configuração mínima.
Essas propriedades explicam por que os modelos do tipo foundation têm um desempenho particularmente bom em conjuntos de dados pequenos e médios, onde os métodos clássicos não possuem dados suficientes para estimar completamente as interações complexas entre as características.
TabPFN: Ajuste de dados a priori para previsão tabular
A TabPFN (Tabular Prior-Data Fitted Network) reformula a aprendizagem tabular como um problema de inferência Bayesiana.
Em vez de aprender parâmetros para um único conjunto de dados, o TabPFN é treinado em milhões de tarefas tabulares sintéticas amostradas de uma distribuição de processos geradores de dados. Durante a inferência, o modelo realiza efetivamente uma inferência Bayesiana amortizada, condicionando-se ao conjunto de dados observado para produzir previsões.
As principais características do TabPFN incluem:
- Uma arquitetura transformadora que processa conjuntos de dados inteiros como contexto.
- Treinamento em uma ampla distribuição de tarefas sintéticas para codificar conhecimentos prévios de propósito geral.
- Excelente desempenho em regimes com poucos dados, sem necessidade de ajuste de hiperparâmetros. 2
Na prática, esse design permite que o TabPFN supere os métodos de boosting tradicionais em conjuntos de dados híbridos de pequeno e médio porte, conforme observado no benchmark.
No entanto, como o modelo se baseia em conhecimentos prévios aprendidos em vez de otimização orientada pela escala, sua vantagem diminui à medida que o tamanho do conjunto de dados aumenta.
Em maio de 2026, a SAP anunciou a aquisição da Prior Labs, o grupo de pesquisa por trás do TabPFN, e comprometeu-se a investir mais de € 1 bilhão ao longo de quatro anos para operá-la como um laboratório independente de pesquisa em IA. 3 Este benchmark abrange o TabPFN-2.5, a versão de código aberto lançada em janeiro de 2026; a Prior Labs lançou o TabPFN-2.6 juntamente com a aquisição. 4
TabICL: Aprendizagem contextual para dados tabulares
O TabICL estende a ideia de aprendizado contextual para a previsão tabular.
Em vez de ajustar parâmetros do modelo, o TabICL utiliza exemplos do conjunto de dados fornecidos diretamente no contexto de entrada. O modelo aprende a inferir regras de decisão a partir desses exemplos, de forma semelhante à aprendizagem com poucos exemplos realizada por grandes modelos de linguagem.
Os principais aspectos do TabICL incluem:
- Linhas do conjunto de dados codificadas como tokens estruturados
- Adaptação de tarefas por meio de exemplos contextuais em vez de treinamento baseado em gradiente.
- Um único modelo pré-treinado capaz de lidar com diversas tarefas tabulares. 5
Assim como ocorre com o TabPFN, os ganhos de desempenho são mais expressivos em situações de escassez de dados e tornam-se menos pronunciados em grandes conjuntos de dados numéricos, onde o boosting tradicional explora totalmente o sinal disponível.
Essa abordagem permite que o TabICL alcance um desempenho sólido em conjuntos de dados híbridos, especialmente quando as interações entre as características são complexas e os dados rotulados são limitados.
Por que os modelos do tipo fundação perdem a dominância em larga escala?
Os resultados de referência destacam uma importante limitação dos modelos tabulares do tipo fundamental.
Em grandes conjuntos de dados numéricos, modelos como o XGBoost superam as abordagens tradicionais. Isso reflete uma compensação fundamental:
- Os modelos fundamentais dependem de conhecimentos prévios aprendidos e da generalização entre tarefas.
- O Gradient Boosting explora o sinal específico do conjunto de dados por meio de otimização iterativa. 6
Quando há dados suficientes disponíveis, os métodos orientados por escala podem aprender completamente as interações entre características diretamente do conjunto de dados, reduzindo o valor relativo das distribuições a priori pré-treinadas.
Isso explica por que os modelos do tipo foundation se destacam em situações de escassez de dados, enquanto o boosting clássico domina em larga escala.
Metodologia de avaliação comparativa de modelos de aprendizagem tabular
Avaliamos 7 modelos de aprendizado de máquina em 19 conjuntos de dados tabulares usando validação cruzada estratificada de 5 partes.
Ambiente: Contêiner RunPod Cloud (Ubuntu 24.04).
Drivers : Cuda 12.8.1, Pytorch 2.8.0
Computação: L40S único
Modelos:
- Regressão Logística – Linha de base linear
- XGBoost – Aumento de gradiente
- LightGBM – Aumento de gradiente
- CatBoost – Aumento de gradiente com suporte nativo a categorias
- RealMLP – Aprendizado profundo (MLP)
- TabPFN 2.5 – Rede pré-instalada baseada em transformador
- TabICL – Aprendizagem contextual baseada em transformadores
19 conjuntos de dados do OpenML:
- Classificação binária: 14 conjuntos de dados
- Classificação multiclasse: 1 conjunto de dados
- Regressão: 4 conjuntos de dados
- Os tamanhos dos conjuntos de dados variam de aproximadamente 600 a 45.000 amostras.
Avaliação
Validação cruzada
- CV estratificado de 5 vias para classificação
- Validação cruzada de 5 vias para regressão
- Mesma semente aleatória (42) em todos os experimentos
Métricas
Pré-processamento
- Características numéricas: StandardScaler
- Características categóricas: Codificação one-hot (exceto CatBoost, que lida com isso nativamente)
- Valores ausentes: Imputação pela mediana (numérica), imputação pela moda (categórica)
Limitações
- TabPFN: Limitado a conjuntos de dados com ≤500 atributos após o pré-processamento.
- TabICL: Somente tarefas de classificação (sem suporte para regressão)
- Tamanho da amostra: O TabPFN utiliza um máximo de 10.000 amostras de treinamento.
Reprodutibilidade
Todos os experimentos utilizam:
- Semente aleatória fixa: 42
- As mesmas divisões de treino/teste foram aplicadas em todos os modelos.
- Hiperparâmetros padrão (sem ajustes)
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.