Benchmark für tabellarische Modelle: Leistung in 19 Datensätzen bis 2026

mit

aktualisiert am Mai 22, 2026

Wir haben 7 weit verbreitete tabellarische Lernmodelle anhand von 19 realen Datensätzen mit insgesamt ~260.000 Stichproben und über 250 Merkmalen getestet. Die Datensatzgrößen reichten von 435 bis fast 49.000 Zeilen.

Unser Ziel war es, die leistungsstärksten Modellfamilien für Datensätze unterschiedlicher Größe und Struktur (z. B. numerisch vs. kategorisch) zu verstehen, die eine typische Unternehmensdatenarchitektur ausmachen.

Benchmark-Ergebnisse für tabellarische Lernmodelle

Loading Chart

In der Tabelle erhält das Siegermodell 1 Punkt. Bei Punktgleichheit wird der Punkt gleichmäßig unter den beiden Modellen aufgeteilt. Die Gewinnrate misst, wie oft ein Modell innerhalb eines bestimmten Bereichs den ersten Platz belegt und bietet somit einen präziseren Indikator für die Dominanz als der durchschnittliche Rang.

Unterschiedliche Modelle erzielen unter verschiedenen strukturellen Bedingungen die besten Ergebnisse, und die Erfolgsquote variiert mit der Größe des Datensatzes und der Zusammensetzung der Merkmale.

Insbesondere:

Fundamentmodelle sind am erfolgreichsten, wenn die Datenlage begrenzt ist.
XGBoost ist der einzige durchgängige Gewinner bei großen numerischen Datensätzen.
Bei großen + hybriden Datensätzen:
- Die Erfolge verteilen sich auf TabICL, LightGBM und die logistische Regression.
- Hybride Daten in großem Umfang bleiben der am schwierigsten zu bewältigende Bereich, in dem mehrere Ansätze weiterhin praktikabel sind.

Hinweis: Die Merkmalsarten werden nach der Vorverarbeitung auf Grundlage der dominanten Eingabedarstellung in numerisch oder hybrid kategorisiert.

Wie man die Zusammensetzung der Datensätze interpretiert:

Die Größenkategorien reichen von kleinen Datensätzen mit weniger als 1.000 Zeilen bis hin zu großen Datensätzen mit mehr als 40.000 Zeilen.
Zu den Aufgabentypen gehören binäre Klassifizierung, Mehrklassenklassifizierung und Regression.
Die Merkmalsarten spiegeln praktische Unternehmensdaten wider:
- Numerisch: hauptsächlich stetige oder ordinale Variablen
- Hybrid: eine Mischung aus numerischen und kategorialen Merkmalen

Durch diese Variation eignet sich der Benchmark gut, um zu verstehen, welche Modellfamilien unter verschiedenen Bedingungen zuverlässig funktionieren.

Unsere Methodik können Sie unten einsehen.

Ergebnisse auf hoher Ebene nach Datensatzgröße und Merkmalsart

Hier wird das Verhalten der Modelle über verschiedene Datensatzgrößen und Merkmalsarten hinweg dargestellt, anstatt sich auf die Ergebnisse einzelner Datensätze zu konzentrieren.

Für jede Datensatzgröße gibt das Diagramm den durchschnittlichen ROC-AUC-Wert an, der von jedem Modell erreicht wurde, getrennt für numerische und hybride Datensätze.

Kleine Datensätze (<1K Zeilen)

Bei kleinen Datensätzen sind tabellarische Modelle im Foundation-Stil am erfolgreichsten.

TabPFN und TabICL, die führenden Tabular Foundation Models (TFMs), erzielen die stärkste Leistung sowohl bei numerischen als auch bei hybriden Datensätzen.
Die Leistungslücke ist bei hybriden Datensätzen besonders deutlich.
Die logistische Regression liefert bei numerischen Daten wettbewerbsfähige Ergebnisse, verschlechtert sich jedoch bei hybriden Daten deutlich.

Bei geringer Datenverfügbarkeit sind Modelle mit starker induktiver Verzerrung sowohl Boosting- als auch neuronalen Basismodellen überlegen. In diesem Fall sind Vorwissen und gelernte Merkmalsinteraktionen wichtiger als die Modellkapazität.

Mittelgroße Datensätze (1.000–10.000 Zeilen)

Bei mittelgroßen Datensätzen verbessert sich die Gesamtleistung, strukturelle Unterschiede bleiben jedoch bestehen.

Alle Modelle erzielen bei numerischen Datensätzen hervorragende Ergebnisse (oftmals über 97 % ROC-AUC).
Hybride Datensätze stellen nach wie vor eine größere Herausforderung dar.
Innerhalb der TFMs sind TabPFN und TabICL weiterhin führend, aber der Abstand hat sich verringert.

Mittelgroße Datensätze stellen ein Übergangsregime dar: Die Signaldichte nimmt zu, aber die induktive Voreingenommenheit bietet immer noch einen messbaren Vorteil, insbesondere bei gemischten Merkmalsarten.

Große Datensätze (>10.000 Zeilen)

Im großen Maßstab verändern sich die Leistungsmuster.

Bei großen numerischen Datensätzen schneiden XGBoost und TabICL besser ab als andere Modelle.
Bei großen und hybriden Datensätzen konvergiert die Leistung:
- Die Unterschiede sind geringer, und die Modellwahl wird weniger offensichtlich.

Im großen Maßstab nutzt das klassische Gradient Boosting das numerische Signal vollständig aus. Bei hybriden Daten sind Robustheit und die Verarbeitung kategorischer Daten wichtiger als die reine Modellkomplexität.

Durchschnittlicher Rang nach Regime

Die Modelle werden innerhalb jedes Regimes (Datensatzgröße × Merkmalsart) eingestuft.
Die Rangwerte werden normalisiert, sodass höhere Werte eine stärkere relative Leistung anzeigen und somit regimeübergreifende Vergleiche erleichtert werden.

Kleine Datensätze

Bei kleinen Datensätzen dominieren Foundation-Modelle die Rangliste.

TabPFN und TabICL belegen sowohl bei den numerischen als auch bei den hybriden Datensätzen den ersten Platz.
Gradient-Boosting-Modelle rangieren durchweg im unteren Bereich.
Die Kluft zwischen Fundamentmodellen und Boosting ist bei Hybriddaten größer.

Der durchschnittliche Rang verdeutlicht dasselbe Muster, das auch bei der Rohleistung zu beobachten ist:
Bei Datenknappheit überwiegen erlernte Vorannahmen und induktive Verzerrungen die skalierungsgetriebene Optimierung.

Mittlere Datensätze

Bei mittelgroßen Datensätzen beginnen sich die Rangfolgen zu verschieben.

TabPFN und TabICL bleiben bei beiden Feature-Typen weiterhin führend.
CatBoost erweist sich bei hybriden Datensätzen als starke dritte Option.
Boosting-Modelle verbessern ihre relative Position im Vergleich zum Small-Data-Regime.

Dieses Regime spiegelt einen Gleichgewichtspunkt wider. Das Datenvolumen nimmt zu, aber Merkmalsinteraktionen begünstigen weiterhin Modelle mit stärkerer induktiver Voreingenommenheit.

Große Datensätze

Bei großen Datensätzen wird die Dominanz regimespezifisch.

Groß + numerisch:
- XGBoost belegt mit einem kleinen Vorsprung den ersten Platz, dicht gefolgt von TabICL.
Groß + Hybrid:
- Kein einzelnes Modell dominiert.
- TabICL, LightGBM, CatBoost und TabPFN erzielen alle ähnliche Durchschnittsränge.

Der durchschnittliche Rang bestätigt, dass die Überlegenheit des Modells bedingt und nicht universell ist.
Starke Gesamtplatzierungen verschleiern oft deutliche Leistungsunterschiede zwischen verschiedenen Regimen.

Modellspezifische Beobachtungen

Dieser Abschnitt fasst anhand der vollständigen Ergebnisse zusammen, wo die einzelnen Modellklassen gut abschneiden und wo sie Schwierigkeiten haben.

Tabellarische Fundamentmodelle (TFMs): TabPFN und TabICL

Stärken

Erzielt durchweg Spitzenleistungen bei kleinen und mittleren Datensätzen
Besonders stark bei hybriden Datensätzen, bei denen die kategoriale Struktur eine Rolle spielt.
Hohe Erfolgsquoten bei kleinen Datensätzen

Einschränkungen

Weniger dominant bei großen numerischen Datensätzen
Praktische Einschränkungen (Funktionsgrenzen, Aufgabenunterstützung) beeinflussen die Anwendbarkeit.

TFMs eignen sich am besten für Probleme mit wenigen Daten oder gemischten Merkmalen, insbesondere wenn eine schnelle Leistung ohne umfangreiche Anpassungen erforderlich ist.

Gradient-Boosting-Modelle: XGBoost und LightGBM

Stärken

Wettbewerbsfähig bei großen Datensätzen
Starke und stabile Leistung auch bei steigendem Datenvolumen
Bei hybriden Daten im großen Maßstab wettbewerbsfähig bleiben

Einschränkungen

Im Vergleich zu den Basismodellen schnitten sie bei kleineren Datensätzen schlechter ab.
Sorgfältige Vorverarbeitung und Optimierung sind bei Daten mit hohem Kategorisierungsgrad erforderlich.

Gradient Boosting bleibt die Standardwahl für große numerische Tabellen und eine solide Basis auch in gemischten Merkmalsbereichen.

CatBoost

Stärken

Robustestes Modell für hybride Datensätze, insbesondere in größerem Maßstab.
Die native Kategorisierung bietet durchgängige Vorteile.
Schneidet in verschiedenen Regimen selten schlecht ab

Einschränkungen

Selten ist der Spitzenreiter
Weniger dominant bei rein numerischen Datensätzen

CatBoost ist die sicherste Wahl, wenn kategoriale Merkmale dominieren, insbesondere bei mittelgroßen bis großen Datensätzen.

RealMLP

Beobachtungen

Kann selten gegen verschiedene Regierungen gewinnen
Wird oft im unteren Bereich eingestuft, außer bei einer kleinen Anzahl von Datensätzen.

Generische neuronale MLPs haben Schwierigkeiten mit tabellarischen Daten ohne starke induktive Voreingenommenheit, was eine langjährige Erkenntnis im angewandten maschinellen Lernen bestätigt. ¹

Logistische Regression (Baseline)

Beobachtungen

Auch bei numerischen Datensätzen, selbst in großem Umfang, wettbewerbsfähig.
Erreicht gelegentlich Siege oder hohe Platzierungen bei hybriden Datensätzen.
Die Leistung verschlechtert sich stark, wenn die Interaktionen zwischen den Funktionen dominieren.

Trotz ihrer Einfachheit stellt die logistische Regression eine sinnvolle Grundlage dar und sollte bei tabellarischen Vergleichsanalysen nicht außer Acht gelassen werden.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Wichtigste Erkenntnisse aus dem Benchmark für tabellarische Lernmodelle

In 19 realen Datensätzen wird die Leistung tabellarischer Modelle primär durch die Merkmalsstruktur bestimmt, nicht durch die Modellkomplexität oder die Größe des Datensatzes allein.

Anstatt zu fragen:

„Welches Tabellenmodell ist das beste?“

Eine konkretere Frage lautet:

„Welche Modellklasse eignet sich angesichts der Größe und Zusammensetzung meines Datensatzes am besten?“

Diese Perspektive bietet einen größeren praktischen Nutzen als Ranglisten im Leaderboard-Stil und entspricht besser den realen unternehmerischen Entscheidungsprozessen.

Konzeptionelle Grundlagen von tabellarischen Modellen im Fundamentstil

Tabellenmodelle im Foundation-Stil zielen darauf ab, auf verschiedene tabellarische Datensätze zu generalisieren, indem sie starke Vorannahmen über Tabellenstruktur, Merkmalsinteraktionen und Aufgabenverhalten lernen, anstatt für einen einzelnen Datensatz zu optimieren.

Im Gegensatz zu traditionellen tabellarischen Modellen, die für jeden Datensatz unabhängig trainiert werden, werden Foundation-basierte Ansätze anhand großer Sammlungen tabellarischer Probleme vortrainiert und dann durch Anpassung zur Inferenzzeit auf neue Datensätze angewendet.

In diesem Benchmark stellen TabPFN und TabICL zwei prominente Ansätze innerhalb dieses Paradigmas dar.

Hauptmerkmale von tabellarischen Modellen im Foundation-Stil

Tabellenmodelle im Foundation-Stil weisen typischerweise die folgenden Eigenschaften auf:

Starke induktive Voreingenommenheit: Indem sie gemeinsame Muster in vielen tabellarischen Datensätzen lernen, kodieren diese Modelle Annahmen über Merkmalsinteraktionen, Zielverteilungen und Rauscheigenschaften, die sich gut auf unbekannte Probleme verallgemeinern lassen.
Einheitliche Handhabung von Merkmalsarten: Numerische und kategoriale Merkmale werden in einen gemeinsamen Darstellungsraum eingebettet, wodurch das Modell auch über Tabellen mit gemischten Merkmalen ohne umfangreiche manuelle Vorverarbeitung nachdenken kann.
Anpassung während der Inferenz: Anstatt neu trainiert zu werden, passen sich diese Modelle mithilfe von Kontextbeispielen oder Statistiken auf Datensatzebene an neue Datensätze an, wodurch eine hohe Leistungsfähigkeit auch bei Datenknappheit erreicht wird.
Übertragbarkeit auf andere Aufgaben: Ein einzelnes vortrainiertes Modell kann Klassifizierungs- oder Regressionsaufgaben auf zuvor unbekannten Datensätzen durchführen, oft mit minimalem Konfigurationsaufwand.

Diese Eigenschaften erklären, warum Foundation-Modelle besonders gut bei kleinen und mittleren Datensätzen funktionieren, bei denen es klassischen Methoden an ausreichenden Daten mangelt, um komplexe Merkmalsinteraktionen vollständig abzuschätzen.

TabPFN: Anpassung von Vordaten für tabellarische Vorhersagen

TabPFN (Tabular Prior-Data Fitted Network) formuliert tabellarisches Lernen als ein Bayes'sches Inferenzproblem um.

Anstatt Parameter für einen einzelnen Datensatz zu lernen, wird TabPFN anhand von Millionen synthetischer Tabellenaufgaben trainiert, die aus einer Verteilung datengenerierender Prozesse stammen. Während der Inferenz führt das Modell effektiv eine amortisierte Bayes'sche Inferenz durch und berücksichtigt dabei den beobachteten Datensatz, um Vorhersagen zu treffen.

Zu den wichtigsten Merkmalen von TabPFN gehören:

Eine Transformer-Architektur, die ganze Datensätze als Kontext verarbeitet.
Training anhand einer breiten Palette synthetischer Aufgaben zur Kodierung allgemeiner Vorannahmen.
Hohe Leistungsfähigkeit auch bei geringen Datenmengen ohne Hyperparameter-Optimierung. ²

In der Praxis ermöglicht dieses Design TabPFN, herkömmliche Boosting-Methoden bei kleinen und mittelgroßen hybriden Datensätzen zu übertreffen, wie im Benchmark zu beobachten war.

Da das Modell jedoch auf gelernten Vorannahmen und nicht auf skalierungsgetriebener Optimierung basiert, nimmt sein Vorteil mit zunehmender Größe des Datensatzes ab.

SAP kündigte im Mai 2026 die Übernahme von Prior Labs, der Forschungsgruppe hinter TabPFN, an und investierte über vier Jahre mehr als eine Milliarde Euro, um sie als unabhängiges KI-Forschungslabor zu betreiben. ³ Dieser Benchmark bezieht sich auf TabPFN-2.5, die Open-Source-Version vom Januar 2026; Prior Labs veröffentlichte TabPFN-2.6 zusammen mit der Übernahme. ⁴

TabICL: Kontextbezogenes Lernen für tabellarische Daten

TabICL erweitert die Idee des kontextbezogenen Lernens auf tabellarische Vorhersagen.

Anstatt Modellparameter anzupassen, verwendet TabICL Beispiele aus dem direkt im Eingabekontext bereitgestellten Datensatz. Das Modell lernt, aus diesen Beispielen Entscheidungsregeln abzuleiten, ähnlich wie große Sprachmodelle beim Few-Shot-Learning vorgehen.

Zu den wichtigsten Aspekten von TabICL gehören:

Datensatzzeilen als strukturierte Token kodiert
Aufgabenanpassung durch Kontextbeispiele statt gradientenbasiertem Training
Ein einzelnes vortrainiertes Modell, das in der Lage ist, verschiedene tabellarische Aufgaben zu bewältigen ⁵

Wie bei TabPFN sind die Leistungssteigerungen am größten bei geringer Datenmenge und werden bei großen numerischen Datensätzen weniger deutlich, wo das traditionelle Boosting das verfügbare Signal vollständig ausnutzt.

Dieser Ansatz ermöglicht es TabICL, auf Hybrid-Datensätzen eine starke Leistung zu erzielen, insbesondere wenn die Interaktionen der Merkmale komplex sind und nur begrenzte annotierte Daten vorliegen.

Warum verlieren Fundamentmodelle bei größerem Maßstab an Bedeutung?

Die Benchmark-Ergebnisse verdeutlichen eine wichtige Einschränkung von tabellarischen Modellen im Foundation-Stil.

Bei großen numerischen Datensätzen sind Modelle wie XGBoost herkömmlichen Ansätzen überlegen. Dies spiegelt einen grundlegenden Zielkonflikt wider:

Fundamentale Modelle basieren auf gelernten Vorannahmen und der Generalisierung über verschiedene Aufgaben hinweg.
Gradient Boosting nutzt datensatzspezifische Signale durch iterative Optimierung. ⁶

Wenn ausreichend Daten verfügbar sind, können skalierungsgetriebene Methoden die Interaktionen der Merkmale direkt aus dem Datensatz vollständig lernen, wodurch der relative Wert vorab trainierter Vorannahmen sinkt.

Dies erklärt, warum Foundation-Modelle bei geringer Datenmenge hervorragende Ergebnisse erzielen, während klassisches Boosting bei großen Datenmengen dominiert.

Methodik des Benchmarking tabellarischer Lernmodelle

Wir vergleichen 7 ML-Modelle anhand von 19 tabellarischen Datensätzen mittels 5-facher stratifizierter Kreuzvalidierung.

Umgebung: RunPod Cloud Container (Ubuntu 24.04).

Treiber : Cuda 12.8.1, PyTorch 2.8.0

Berechnung: Einzelner L40S

Modelle:

Logistische Regression – Lineare Basislinie
XGBoost – Gradientenverstärkung
LightGBM – Gradientenverstärkung
CatBoost – Gradient Boosting mit nativer kategorialer Unterstützung
RealMLP – Deep Learning (MLP)
TabPFN 2.5 – Transformatorbasiertes, vorab angepasstes Netzwerk
TabICL – Transformer-basiertes kontextbezogenes Lernen

19 Datensätze von OpenML:

Binäre Klassifizierung: 14 Datensätze
Multiklassenklassifizierung: 1 Datensatz
Regression: 4 Datensätze
Die Datensätze umfassen zwischen ca. 600 und ca. 45.000 Stichproben.

Auswertung

Kreuzvalidierung

5-fache stratifizierte Kreuzvalidierung zur Klassifizierung
5-fache Kreuzvalidierung für die Regression
Derselbe Zufallsgenerator (42) wurde in allen Experimenten verwendet.

Kennzahlen

Vorverarbeitung

Numerische Eigenschaften: StandardScaler
Kategorische Merkmale: One-Hot-Codierung (außer CatBoost, das dies nativ unterstützt)
Fehlende Werte: Medianimputation (numerisch), Modusimputation (kategorial)

Einschränkungen

TabPFN: Beschränkt auf Datensätze mit ≤500 Merkmalen nach der Vorverarbeitung
TabICL: Nur Klassifizierungsaufgaben (keine Regressionsunterstützung)
Stichprobengröße: TabPFN verwendet maximal 10.000 Trainingsbeispiele.

Reproduzierbarkeit

Alle Experimente verwenden:

Fester Zufallsgenerator-Seed: 42
Gleiche Trainings-/Testaufteilung über alle Modelle hinweg
Standard-Hyperparameter (keine Optimierung)

Referenzlinks

[2106.11959] Revisiting Deep Learning Models for Tabular Data

[2207.01848] TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

SAP to Acquire Prior Labs | SAP News Center

SAP

[2502.05564] TabICL: A Tabular Foundation Model for In-Context Learning on Large Data

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von

Berk Kalelioğlu

KI-Forscher

Folgen auf Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

LAPPENMai 20

Benchmark für tabellarische Modelle: Leistung in 19 Datensätzen bis 2026

Benchmark-Ergebnisse für tabellarische Lernmodelle

Ergebnisse auf hoher Ebene nach Datensatzgröße und Merkmalsart

Kleine Datensätze (<1K Zeilen)

Mittelgroße Datensätze (1.000–10.000 Zeilen)

Große Datensätze (>10.000 Zeilen)

Durchschnittlicher Rang nach Regime

Kleine Datensätze

Mittlere Datensätze

Große Datensätze

Modellspezifische Beobachtungen

Tabellarische Fundamentmodelle (TFMs): TabPFN und TabICL

Gradient-Boosting-Modelle: XGBoost und LightGBM

CatBoost

RealMLP

Logistische Regression (Baseline)

Wichtigste Erkenntnisse aus dem Benchmark für tabellarische Lernmodelle

Konzeptionelle Grundlagen von tabellarischen Modellen im Fundamentstil

Hauptmerkmale von tabellarischen Modellen im Foundation-Stil

TabPFN: Anpassung von Vordaten für tabellarische Vorhersagen

TabICL: Kontextbezogenes Lernen für tabellarische Daten

Warum verlieren Fundamentmodelle bei größerem Maßstab an Bedeutung?

Methodik des Benchmarking tabellarischer Lernmodelle

Auswertung

Kreuzvalidierung

Kennzahlen

Vorverarbeitung

Einschränkungen

Reproduzierbarkeit

Referenzlinks

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI

Vergleich relationaler Fundamentmodelle

Vergleich von visuellen Sprachmodellen mit der Bilderkennung

Große quantitative Modelle: Anwendungen und Herausforderungen

Einbettungsmodelle: OpenAI vs Gemini vs Cohere

8 KI-Code-Modelle im Vergleich: LMC-Eval