Benchmark für tabellarische Modelle: Leistung in 19 Datensätzen bis 2026
Wir haben 7 weit verbreitete tabellarische Lernmodelle anhand von 19 realen Datensätzen mit insgesamt ~260.000 Stichproben und über 250 Merkmalen getestet. Die Datensatzgrößen reichten von 435 bis fast 49.000 Zeilen.
Unser Ziel war es, die leistungsstärksten Modellfamilien für Datensätze unterschiedlicher Größe und Struktur (z. B. numerisch vs. kategorisch) zu verstehen, die eine typische Unternehmensdatenarchitektur ausmachen.
Benchmark-Ergebnisse für tabellarische Lernmodelle
In der Tabelle erhält das Siegermodell 1 Punkt. Bei Punktgleichheit wird der Punkt gleichmäßig unter den beiden Modellen aufgeteilt. Die Gewinnrate misst, wie oft ein Modell innerhalb eines bestimmten Bereichs den ersten Platz belegt und bietet somit einen präziseren Indikator für die Dominanz als der durchschnittliche Rang.
Unterschiedliche Modelle erzielen unter verschiedenen strukturellen Bedingungen die besten Ergebnisse, und die Erfolgsquote variiert mit der Größe des Datensatzes und der Zusammensetzung der Merkmale.
Insbesondere:
- Fundamentmodelle sind am erfolgreichsten, wenn die Datenlage begrenzt ist.
- XGBoost ist der einzige durchgängige Gewinner bei großen numerischen Datensätzen.
- Bei großen + hybriden Datensätzen:
- Die Erfolge verteilen sich auf TabICL, LightGBM und die logistische Regression.
- Hybride Daten in großem Umfang bleiben der am schwersten zu durchschauende Bereich, in dem mehrere Ansätze weiterhin praktikabel sind.
Hinweis: Die Merkmalsarten werden nach der Vorverarbeitung auf Grundlage der dominanten Eingabedarstellung in numerisch oder hybrid kategorisiert.
Wie man die Zusammensetzung der Datensätze interpretiert:
- Die Größenkategorien reichen von kleinen Datensätzen mit weniger als 1.000 Zeilen bis hin zu großen Datensätzen mit mehr als 40.000 Zeilen.
- Zu den Aufgabentypen gehören binäre Klassifizierung, Mehrklassenklassifizierung und Regression.
- Die Merkmalsarten spiegeln praktische Unternehmensdaten wider:
- Numerisch: hauptsächlich stetige oder ordinale Variablen
- Hybrid: eine Mischung aus numerischen und kategorialen Merkmalen
Durch diese Variation eignet sich der Benchmark gut, um zu verstehen, welche Modellfamilien unter verschiedenen Bedingungen zuverlässig funktionieren.
Unsere Methodik können Sie unten einsehen.
Ergebnisse auf hoher Ebene nach Datensatzgröße und Merkmalsart
Hier wird das Verhalten der Modelle über verschiedene Datensatzgrößen und Merkmalsarten hinweg dargestellt, anstatt sich auf die Ergebnisse einzelner Datensätze zu konzentrieren.
Für jede Datensatzgröße gibt das Diagramm den durchschnittlichen ROC-AUC-Wert an, der von jedem Modell erreicht wurde, getrennt für numerische und hybride Datensätze.
Kleine Datensätze (<1K Zeilen)
Bei kleinen Datensätzen sind tabellarische Modelle im Foundation-Stil am erfolgreichsten.
- TabPFN und TabICL, die führenden Tabular Foundation Models (TFMs), erzielen die stärkste Leistung sowohl bei numerischen als auch bei hybriden Datensätzen.
- Die Leistungslücke ist bei hybriden Datensätzen besonders deutlich.
- Die logistische Regression liefert bei numerischen Daten wettbewerbsfähige Ergebnisse, verschlechtert sich jedoch bei hybriden Daten deutlich.
Bei geringer Datenverfügbarkeit sind Modelle mit starker induktiver Verzerrung sowohl Boosting- als auch neuronalen Basismodellen überlegen. In diesem Fall sind Vorwissen und gelernte Merkmalsinteraktionen wichtiger als die Modellkapazität.
Mittelgroße Datensätze (1.000–10.000 Zeilen)
Bei mittelgroßen Datensätzen verbessert sich die Gesamtleistung, strukturelle Unterschiede bleiben jedoch bestehen.
- Alle Modelle erzielen bei numerischen Datensätzen hervorragende Ergebnisse (oftmals über 97 % ROC-AUC).
- Hybride Datensätze stellen nach wie vor eine größere Herausforderung dar.
- Innerhalb der TFMs sind TabPFN und TabICL weiterhin führend, aber der Abstand hat sich verringert.
Mittelgroße Datensätze stellen ein Übergangsregime dar: Die Signaldichte nimmt zu, aber die induktive Voreingenommenheit bietet immer noch einen messbaren Vorteil, insbesondere bei gemischten Merkmalsarten.
Große Datensätze (>10.000 Zeilen)
Im großen Maßstab verändern sich die Leistungsmuster.
- Bei großen numerischen Datensätzen schneiden XGBoost und TabICL besser ab als andere Modelle.
- Bei großen und hybriden Datensätzen konvergiert die Leistung:
- Die Unterschiede sind geringer, und die Modellwahl wird weniger offensichtlich.
Im großen Maßstab nutzt das klassische Gradient Boosting das numerische Signal vollständig aus. Bei hybriden Daten sind Robustheit und die Verarbeitung kategorischer Daten wichtiger als die reine Modellkomplexität.
Durchschnittlicher Rang nach Regime
Die Modelle werden innerhalb jedes Regimes (Datensatzgröße × Merkmalsart) eingestuft.
Die Rangwerte werden normalisiert, sodass höhere Werte eine stärkere relative Leistung anzeigen und somit regimeübergreifende Vergleiche erleichtert werden.
Kleine Datensätze
Bei kleinen Datensätzen dominieren Foundation-Modelle die Rangliste.
- TabPFN und TabICL belegen sowohl bei den numerischen als auch bei den hybriden Datensätzen den ersten Platz.
- Gradient-Boosting-Modelle rangieren durchweg im unteren Bereich.
- Die Kluft zwischen Fundamentmodellen und Boosting ist bei Hybriddaten größer.
Der durchschnittliche Rang verdeutlicht dasselbe Muster, das auch bei der Rohleistung zu beobachten ist:
Bei Datenknappheit überwiegen erlernte Vorannahmen und induktive Verzerrungen die skalierungsgetriebene Optimierung.
Mittlere Datensätze
Bei mittelgroßen Datensätzen beginnen sich die Rangfolgen zu verschieben.
- TabPFN und TabICL bleiben bei beiden Feature-Typen weiterhin führend.
- CatBoost erweist sich bei hybriden Datensätzen als starke dritte Option.
- Boosting-Modelle verbessern ihre relative Position im Vergleich zum Small-Data-Regime.
Dieses Regime spiegelt einen Gleichgewichtspunkt wider. Das Datenvolumen nimmt zu, aber Merkmalsinteraktionen begünstigen weiterhin Modelle mit stärkerer induktiver Voreingenommenheit.
Große Datensätze
Bei großen Datensätzen wird die Dominanz regimespezifisch.
- Groß + numerisch:
- XGBoost belegt mit einem kleinen Vorsprung den ersten Platz, dicht gefolgt von TabICL.
- Groß + Hybrid:
- Kein einzelnes Modell dominiert.
- TabICL, LightGBM, CatBoost und TabPFN erzielen alle ähnliche Durchschnittsränge.
Der durchschnittliche Rang bestätigt, dass die Überlegenheit des Modells bedingt und nicht universell ist.
Starke Gesamtplatzierungen verschleiern oft deutliche Leistungsunterschiede zwischen verschiedenen Regimen.
Modellspezifische Beobachtungen
Dieser Abschnitt fasst anhand der vollständigen Ergebnisse zusammen, wo die einzelnen Modellklassen gut abschneiden und wo sie Schwierigkeiten haben.
Tabellarische Fundamentmodelle (TFMs): TabPFN und TabICL
Stärken
- Erzielt durchweg Spitzenleistungen bei kleinen und mittleren Datensätzen
- Besonders stark bei hybriden Datensätzen, bei denen die kategoriale Struktur eine Rolle spielt.
- Hohe Erfolgsquoten bei kleinen Datensätzen
Einschränkungen
- Weniger dominant bei großen numerischen Datensätzen
- Praktische Einschränkungen (Funktionsgrenzen, Aufgabenunterstützung) beeinflussen die Anwendbarkeit.
TFMs eignen sich am besten für Probleme mit wenigen Daten oder gemischten Merkmalen, insbesondere wenn eine schnelle Leistung ohne umfangreiche Optimierung erforderlich ist.
Gradient-Boosting-Modelle: XGBoost und LightGBM
Stärken
- Wettbewerbsfähig bei großen Datensätzen
- Starke und stabile Leistung auch bei steigendem Datenvolumen
- Bei hybriden Daten im großen Maßstab wettbewerbsfähig bleiben
Einschränkungen
- Im Vergleich zu den Basismodellen schnitten sie bei kleineren Datensätzen schlechter ab.
- Sorgfältige Vorverarbeitung und Optimierung sind bei Daten mit hohem Kategorisierungsgrad erforderlich.
Gradient Boosting bleibt die Standardwahl für große numerische Tabellen und eine solide Basis auch in gemischten Merkmalsbereichen.
CatBoost
Stärken
- Robustestes Modell für hybride Datensätze, insbesondere in größerem Maßstab.
- Die native Kategorisierung bietet durchgängige Vorteile.
- Schneidet in verschiedenen Regimen selten schlecht ab
Einschränkungen
- Selten ist der Spitzenreiter
- Weniger dominant bei rein numerischen Datensätzen
CatBoost ist die sicherste Wahl, wenn kategoriale Merkmale dominieren, insbesondere bei mittelgroßen bis großen Datensätzen.
RealMLP
Beobachtungen
- Kann selten gegen verschiedene Regierungen gewinnen
- Wird oft im unteren Bereich eingestuft, außer bei einer kleinen Anzahl von Datensätzen.
Generische neuronale MLPs haben Schwierigkeiten mit tabellarischen Daten ohne starke induktive Voreingenommenheit, was eine langjährige Erkenntnis im angewandten maschinellen Lernen bestätigt. 1
Logistische Regression (Baseline)
Beobachtungen
- Auch bei numerischen Datensätzen wettbewerbsfähig, selbst bei großem Umfang.
- Erreicht gelegentlich Siege oder hohe Platzierungen bei hybriden Datensätzen.
- Die Leistung verschlechtert sich stark, wenn Feature-Interaktionen dominieren.
Trotz ihrer Einfachheit stellt die logistische Regression eine sinnvolle Grundlage dar und sollte bei tabellarischen Vergleichsanalysen nicht außer Acht gelassen werden.
Wichtigste Erkenntnisse aus dem Benchmark für tabellarische Lernmodelle
In 19 realen Datensätzen wird die Leistung tabellarischer Modelle primär durch die Merkmalsstruktur bestimmt, nicht durch die Modellkomplexität oder die Größe des Datensatzes allein.
Anstatt zu fragen:
„Welches Tabellenmodell ist das beste?“
Eine konkretere Frage lautet:
„Welche Modellklasse eignet sich angesichts der Größe und Zusammensetzung meines Datensatzes am besten?“
Diese Perspektive bietet einen größeren praktischen Nutzen als Ranglisten im Leaderboard-Stil und entspricht besser den realen unternehmerischen Entscheidungsprozessen.
Konzeptionelle Grundlagen von tabellarischen Modellen im Fundamentstil
Tabellenmodelle im Foundation-Stil zielen darauf ab, auf verschiedene tabellarische Datensätze zu generalisieren, indem sie starke Vorannahmen über Tabellenstruktur, Merkmalsinteraktionen und Aufgabenverhalten lernen, anstatt für einen einzelnen Datensatz zu optimieren.
Im Gegensatz zu traditionellen tabellarischen Modellen, die für jeden Datensatz unabhängig trainiert werden, werden Foundation-basierte Ansätze anhand großer Sammlungen tabellarischer Probleme vortrainiert und dann durch Anpassung zur Inferenzzeit auf neue Datensätze angewendet.
In diesem Benchmark stellen TabPFN und TabICL zwei prominente Ansätze innerhalb dieses Paradigmas dar.
Hauptmerkmale von tabellarischen Modellen im Foundation-Stil
Tabellenmodelle im Foundation-Stil weisen typischerweise die folgenden Eigenschaften auf:
- Starke induktive Voreingenommenheit: Indem sie gemeinsame Muster in vielen tabellarischen Datensätzen lernen, kodieren diese Modelle Annahmen über Merkmalsinteraktionen, Zielverteilungen und Rauscheigenschaften, die sich gut auf unbekannte Probleme verallgemeinern lassen.
- Einheitliche Handhabung von Merkmalsarten: Numerische und kategoriale Merkmale werden in einen gemeinsamen Darstellungsraum eingebettet, wodurch das Modell auch über Tabellen mit gemischten Merkmalen ohne umfangreiche manuelle Vorverarbeitung nachdenken kann.
- Anpassung während der Inferenz: Anstatt neu trainiert zu werden, passen sich diese Modelle mithilfe von Kontextbeispielen oder Statistiken auf Datensatzebene an neue Datensätze an, wodurch eine hohe Leistungsfähigkeit auch bei Datenknappheit erreicht wird.
- Übertragbarkeit auf andere Aufgaben: Ein einzelnes vortrainiertes Modell kann Klassifizierungs- oder Regressionsaufgaben auf zuvor unbekannten Datensätzen durchführen, oft mit minimalem Konfigurationsaufwand.
Diese Eigenschaften erklären, warum Foundation-Modelle besonders gut bei kleinen und mittleren Datensätzen funktionieren, bei denen es klassischen Methoden an ausreichenden Daten mangelt, um komplexe Merkmalsinteraktionen vollständig abzuschätzen.
TabPFN: Anpassung von Vordaten an tabellarische Vorhersagen
TabPFN (Tabular Prior-Data Fitted Network) formuliert tabellarisches Lernen als ein Bayes'sches Inferenzproblem um.
Anstatt Parameter für einen einzelnen Datensatz zu lernen, wird TabPFN anhand von Millionen synthetischer Tabellenaufgaben trainiert, die aus einer Verteilung datengenerierender Prozesse stammen. Während der Inferenz führt das Modell effektiv eine amortisierte Bayes'sche Inferenz durch und berücksichtigt dabei den beobachteten Datensatz, um Vorhersagen zu treffen.
Zu den wichtigsten Merkmalen von TabPFN gehören:
- Eine Transformer-Architektur, die ganze Datensätze als Kontext verarbeitet.
- Training anhand einer breiten Palette synthetischer Aufgaben zur Kodierung allgemeiner Vorannahmen.
- Hohe Leistungsfähigkeit auch bei geringen Datenmengen ohne Hyperparameter-Optimierung. 2
In der Praxis ermöglicht dieses Design TabPFN, herkömmliche Boosting-Methoden bei kleinen und mittelgroßen hybriden Datensätzen zu übertreffen, wie im Benchmark zu beobachten war.
Da das Modell jedoch auf gelernten Vorannahmen und nicht auf skalierungsgetriebener Optimierung basiert, nimmt sein Vorteil mit zunehmender Größe des Datensatzes ab.
TabICL: Kontextbezogenes Lernen für tabellarische Daten
TabICL erweitert die Idee des kontextbezogenen Lernens auf tabellarische Vorhersagen.
Anstatt Modellparameter anzupassen, verwendet TabICL Beispiele aus dem direkt im Eingabekontext bereitgestellten Datensatz. Das Modell lernt, aus diesen Beispielen Entscheidungsregeln abzuleiten, ähnlich wie große Sprachmodelle beim Few-Shot-Learning vorgehen.
Zu den wichtigsten Aspekten von TabICL gehören:
- Datensatzzeilen als strukturierte Token kodiert
- Aufgabenanpassung durch Kontextbeispiele statt gradientenbasiertem Training
- Ein einzelnes vortrainiertes Modell, das in der Lage ist, verschiedene tabellarische Aufgaben zu bewältigen 3
Wie bei TabPFN sind die Leistungssteigerungen am größten bei geringer Datenmenge und werden bei großen numerischen Datensätzen weniger deutlich, wo das traditionelle Boosting das verfügbare Signal vollständig ausnutzt.
Dieser Ansatz ermöglicht es TabICL, auf Hybrid-Datensätzen eine starke Leistung zu erzielen, insbesondere wenn die Interaktionen der Merkmale komplex sind und nur begrenzte annotierte Daten vorliegen.
Warum verlieren Fundamentmodelle bei größerem Maßstab an Bedeutung?
Die Benchmark-Ergebnisse verdeutlichen eine wichtige Einschränkung von tabellarischen Modellen im Foundation-Stil.
Bei großen numerischen Datensätzen sind Modelle wie XGBoost herkömmlichen Ansätzen überlegen. Dies spiegelt einen grundlegenden Zielkonflikt wider:
- Fundamentale Modelle basieren auf gelernten Vorannahmen und der Generalisierung über verschiedene Aufgaben hinweg.
- Gradient Boosting nutzt datensatzspezifische Signale durch iterative Optimierung. 4
Wenn ausreichend Daten verfügbar sind, können skalierungsgetriebene Methoden die Interaktionen der Merkmale direkt aus dem Datensatz vollständig lernen, wodurch der relative Wert vorab trainierter Vorannahmen sinkt.
Dies erklärt, warum Foundation-Modelle bei geringer Datenmenge hervorragende Ergebnisse erzielen, während klassisches Boosting bei großen Datenmengen dominiert.
Methodik des Benchmarking tabellarischer Lernmodelle
Wir vergleichen 7 ML-Modelle anhand von 19 tabellarischen Datensätzen mittels 5-facher stratifizierter Kreuzvalidierung.
Umgebung: RunPod Cloud Container (Ubuntu 24.04).
Treiber : Cuda 12.8.1, PyTorch 2.8.0
Berechnung: Einzelner L40S
Modelle:
- Logistische Regression – Lineare Basislinie
- XGBoost – Gradientenverstärkung
- LightGBM – Gradientenverstärkung
- CatBoost – Gradient Boosting mit nativer kategorialer Unterstützung
- RealMLP – Deep Learning (MLP)
- TabPFN – Transformatorbasiertes, voreingestelltes Netzwerk
- TabICL – Transformer-basiertes kontextbezogenes Lernen
19 Datensätze von OpenML:
- Binäre Klassifizierung: 14 Datensätze
- Multiklassenklassifizierung: 1 Datensatz
- Regression: 4 Datensätze
- Die Datensätze umfassen zwischen ca. 600 und ca. 45.000 Stichproben.
Auswertung
Kreuzvalidierung
- 5-fache stratifizierte Kreuzvalidierung zur Klassifizierung
- 5-fache Kreuzvalidierung für die Regression
- Derselbe Zufallsgenerator (42) wurde in allen Experimenten verwendet.
Kennzahlen
Vorverarbeitung
- Numerische Eigenschaften: StandardScaler
- Kategorische Merkmale: One-Hot-Codierung (außer CatBoost, das dies nativ unterstützt)
- Fehlende Werte: Medianimputation (numerisch), Modusimputation (kategorial)
Einschränkungen
- TabPFN: Beschränkt auf Datensätze mit ≤500 Merkmalen nach der Vorverarbeitung
- TabICL: Nur Klassifizierungsaufgaben (keine Regressionsunterstützung)
- Stichprobengröße: TabPFN verwendet maximal 10.000 Trainingsbeispiele.
Reproduzierbarkeit
Alle Experimente verwenden:
- Fester Zufallsgenerator-Seed: 42
- Gleiche Trainings-/Testaufteilung über alle Modelle hinweg
- Standard-Hyperparameter (keine Optimierung)
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.