Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Benchmark für tabellarische Modelle: Leistung in 19 Datensätzen bis 2026

Cem Dilmegani
Cem Dilmegani
aktualisiert am Apr 16, 2026
Siehe unsere ethischen Normen

Wir haben 7 weit verbreitete tabellarische Lernmodelle anhand von 19 realen Datensätzen mit insgesamt ~260.000 Stichproben und über 250 Merkmalen getestet. Die Datensatzgrößen reichten von 435 bis fast 49.000 Zeilen.

Unser Ziel war es, die leistungsstärksten Modellfamilien für Datensätze unterschiedlicher Größe und Struktur (z. B. numerisch vs. kategorisch) zu verstehen, die eine typische Unternehmensdatenarchitektur ausmachen.

Benchmark-Ergebnisse für tabellarische Lernmodelle

Loading Chart

In der Tabelle erhält das Siegermodell 1 Punkt. Bei Punktgleichheit wird der Punkt gleichmäßig unter den beiden Modellen aufgeteilt. Die Gewinnrate misst, wie oft ein Modell innerhalb eines bestimmten Bereichs den ersten Platz belegt und bietet somit einen präziseren Indikator für die Dominanz als der durchschnittliche Rang.

Unterschiedliche Modelle erzielen unter verschiedenen strukturellen Bedingungen die besten Ergebnisse, und die Erfolgsquote variiert mit der Größe des Datensatzes und der Zusammensetzung der Merkmale.

Insbesondere:

  • Fundamentmodelle sind am erfolgreichsten, wenn die Datenlage begrenzt ist.
  • XGBoost ist der einzige durchgängige Gewinner bei großen numerischen Datensätzen.
  • Bei großen + hybriden Datensätzen:
    • Die Erfolge verteilen sich auf TabICL, LightGBM und die logistische Regression.
    • Hybride Daten in großem Umfang bleiben der am schwersten zu durchschauende Bereich, in dem mehrere Ansätze weiterhin praktikabel sind.

Hinweis: Die Merkmalsarten werden nach der Vorverarbeitung auf Grundlage der dominanten Eingabedarstellung in numerisch oder hybrid kategorisiert.

Wie man die Zusammensetzung der Datensätze interpretiert:

  • Die Größenkategorien reichen von kleinen Datensätzen mit weniger als 1.000 Zeilen bis hin zu großen Datensätzen mit mehr als 40.000 Zeilen.
  • Zu den Aufgabentypen gehören binäre Klassifizierung, Mehrklassenklassifizierung und Regression.
  • Die Merkmalsarten spiegeln praktische Unternehmensdaten wider:
    • Numerisch: hauptsächlich stetige oder ordinale Variablen
    • Hybrid: eine Mischung aus numerischen und kategorialen Merkmalen

Durch diese Variation eignet sich der Benchmark gut, um zu verstehen, welche Modellfamilien unter verschiedenen Bedingungen zuverlässig funktionieren.

Unsere Methodik können Sie unten einsehen.

Ergebnisse auf hoher Ebene nach Datensatzgröße und Merkmalsart

Hier wird das Verhalten der Modelle über verschiedene Datensatzgrößen und Merkmalsarten hinweg dargestellt, anstatt sich auf die Ergebnisse einzelner Datensätze zu konzentrieren.

Für jede Datensatzgröße gibt das Diagramm den durchschnittlichen ROC-AUC-Wert an, der von jedem Modell erreicht wurde, getrennt für numerische und hybride Datensätze.

Kleine Datensätze (<1K Zeilen)

Bei kleinen Datensätzen sind tabellarische Modelle im Foundation-Stil am erfolgreichsten.

  • TabPFN und TabICL, die führenden Tabular Foundation Models (TFMs), erzielen die stärkste Leistung sowohl bei numerischen als auch bei hybriden Datensätzen.
  • Die Leistungslücke ist bei hybriden Datensätzen besonders deutlich.
  • Die logistische Regression liefert bei numerischen Daten wettbewerbsfähige Ergebnisse, verschlechtert sich jedoch bei hybriden Daten deutlich.

Bei geringer Datenverfügbarkeit sind Modelle mit starker induktiver Verzerrung sowohl Boosting- als auch neuronalen Basismodellen überlegen. In diesem Fall sind Vorwissen und gelernte Merkmalsinteraktionen wichtiger als die Modellkapazität.

Mittelgroße Datensätze (1.000–10.000 Zeilen)

Bei mittelgroßen Datensätzen verbessert sich die Gesamtleistung, strukturelle Unterschiede bleiben jedoch bestehen.

  • Alle Modelle erzielen bei numerischen Datensätzen hervorragende Ergebnisse (oftmals über 97 % ROC-AUC).
  • Hybride Datensätze stellen nach wie vor eine größere Herausforderung dar.
  • Innerhalb der TFMs sind TabPFN und TabICL weiterhin führend, aber der Abstand hat sich verringert.

Mittelgroße Datensätze stellen ein Übergangsregime dar: Die Signaldichte nimmt zu, aber die induktive Voreingenommenheit bietet immer noch einen messbaren Vorteil, insbesondere bei gemischten Merkmalsarten.

Große Datensätze (>10.000 Zeilen)

Im großen Maßstab verändern sich die Leistungsmuster.

  • Bei großen numerischen Datensätzen schneiden XGBoost und TabICL besser ab als andere Modelle.
  • Bei großen und hybriden Datensätzen konvergiert die Leistung:
    • Die Unterschiede sind geringer, und die Modellwahl wird weniger offensichtlich.

Im großen Maßstab nutzt das klassische Gradient Boosting das numerische Signal vollständig aus. Bei hybriden Daten sind Robustheit und die Verarbeitung kategorischer Daten wichtiger als die reine Modellkomplexität.

Durchschnittlicher Rang nach Regime

Die Modelle werden innerhalb jedes Regimes (Datensatzgröße × Merkmalsart) eingestuft.
Die Rangwerte werden normalisiert, sodass höhere Werte eine stärkere relative Leistung anzeigen und somit regimeübergreifende Vergleiche erleichtert werden.

Kleine Datensätze

Bei kleinen Datensätzen dominieren Foundation-Modelle die Rangliste.

  • TabPFN und TabICL belegen sowohl bei den numerischen als auch bei den hybriden Datensätzen den ersten Platz.
  • Gradient-Boosting-Modelle rangieren durchweg im unteren Bereich.
  • Die Kluft zwischen Fundamentmodellen und Boosting ist bei Hybriddaten größer.

Der durchschnittliche Rang verdeutlicht dasselbe Muster, das auch bei der Rohleistung zu beobachten ist:
Bei Datenknappheit überwiegen erlernte Vorannahmen und induktive Verzerrungen die skalierungsgetriebene Optimierung.

Mittlere Datensätze

Bei mittelgroßen Datensätzen beginnen sich die Rangfolgen zu verschieben.

  • TabPFN und TabICL bleiben bei beiden Feature-Typen weiterhin führend.
  • CatBoost erweist sich bei hybriden Datensätzen als starke dritte Option.
  • Boosting-Modelle verbessern ihre relative Position im Vergleich zum Small-Data-Regime.

Dieses Regime spiegelt einen Gleichgewichtspunkt wider. Das Datenvolumen nimmt zu, aber Merkmalsinteraktionen begünstigen weiterhin Modelle mit stärkerer induktiver Voreingenommenheit.

Große Datensätze

Bei großen Datensätzen wird die Dominanz regimespezifisch.

  • Groß + numerisch:
    • XGBoost belegt mit einem kleinen Vorsprung den ersten Platz, dicht gefolgt von TabICL.
  • Groß + Hybrid:
    • Kein einzelnes Modell dominiert.
    • TabICL, LightGBM, CatBoost und TabPFN erzielen alle ähnliche Durchschnittsränge.

Der durchschnittliche Rang bestätigt, dass die Überlegenheit des Modells bedingt und nicht universell ist.
Starke Gesamtplatzierungen verschleiern oft deutliche Leistungsunterschiede zwischen verschiedenen Regimen.

Modellspezifische Beobachtungen

Dieser Abschnitt fasst anhand der vollständigen Ergebnisse zusammen, wo die einzelnen Modellklassen gut abschneiden und wo sie Schwierigkeiten haben.

Tabellarische Fundamentmodelle (TFMs): TabPFN und TabICL

Stärken

  • Erzielt durchweg Spitzenleistungen bei kleinen und mittleren Datensätzen
  • Besonders stark bei hybriden Datensätzen, bei denen die kategoriale Struktur eine Rolle spielt.
  • Hohe Erfolgsquoten bei kleinen Datensätzen

Einschränkungen

  • Weniger dominant bei großen numerischen Datensätzen
  • Praktische Einschränkungen (Funktionsgrenzen, Aufgabenunterstützung) beeinflussen die Anwendbarkeit.

TFMs eignen sich am besten für Probleme mit wenigen Daten oder gemischten Merkmalen, insbesondere wenn eine schnelle Leistung ohne umfangreiche Optimierung erforderlich ist.

Gradient-Boosting-Modelle: XGBoost und LightGBM

Stärken

  • Wettbewerbsfähig bei großen Datensätzen
  • Starke und stabile Leistung auch bei steigendem Datenvolumen
  • Bei hybriden Daten im großen Maßstab wettbewerbsfähig bleiben

Einschränkungen

  • Im Vergleich zu den Basismodellen schnitten sie bei kleineren Datensätzen schlechter ab.
  • Sorgfältige Vorverarbeitung und Optimierung sind bei Daten mit hohem Kategorisierungsgrad erforderlich.

Gradient Boosting bleibt die Standardwahl für große numerische Tabellen und eine solide Basis auch in gemischten Merkmalsbereichen.

CatBoost

Stärken

  • Robustestes Modell für hybride Datensätze, insbesondere in größerem Maßstab.
  • Die native Kategorisierung bietet durchgängige Vorteile.
  • Schneidet in verschiedenen Regimen selten schlecht ab

Einschränkungen

  • Selten ist der Spitzenreiter
  • Weniger dominant bei rein numerischen Datensätzen

CatBoost ist die sicherste Wahl, wenn kategoriale Merkmale dominieren, insbesondere bei mittelgroßen bis großen Datensätzen.

RealMLP

Beobachtungen

  • Kann selten gegen verschiedene Regierungen gewinnen
  • Wird oft im unteren Bereich eingestuft, außer bei einer kleinen Anzahl von Datensätzen.

Generische neuronale MLPs haben Schwierigkeiten mit tabellarischen Daten ohne starke induktive Voreingenommenheit, was eine langjährige Erkenntnis im angewandten maschinellen Lernen bestätigt. 1

Logistische Regression (Baseline)

Beobachtungen

  • Auch bei numerischen Datensätzen wettbewerbsfähig, selbst bei großem Umfang.
  • Erreicht gelegentlich Siege oder hohe Platzierungen bei hybriden Datensätzen.
  • Die Leistung verschlechtert sich stark, wenn Feature-Interaktionen dominieren.

Trotz ihrer Einfachheit stellt die logistische Regression eine sinnvolle Grundlage dar und sollte bei tabellarischen Vergleichsanalysen nicht außer Acht gelassen werden.

Wichtigste Erkenntnisse aus dem Benchmark für tabellarische Lernmodelle

In 19 realen Datensätzen wird die Leistung tabellarischer Modelle primär durch die Merkmalsstruktur bestimmt, nicht durch die Modellkomplexität oder die Größe des Datensatzes allein.

Anstatt zu fragen:

„Welches Tabellenmodell ist das beste?“

Eine konkretere Frage lautet:

„Welche Modellklasse eignet sich angesichts der Größe und Zusammensetzung meines Datensatzes am besten?“

Diese Perspektive bietet einen größeren praktischen Nutzen als Ranglisten im Leaderboard-Stil und entspricht besser den realen unternehmerischen Entscheidungsprozessen.

Konzeptionelle Grundlagen von tabellarischen Modellen im Fundamentstil

Tabellenmodelle im Foundation-Stil zielen darauf ab, auf verschiedene tabellarische Datensätze zu generalisieren, indem sie starke Vorannahmen über Tabellenstruktur, Merkmalsinteraktionen und Aufgabenverhalten lernen, anstatt für einen einzelnen Datensatz zu optimieren.

Im Gegensatz zu traditionellen tabellarischen Modellen, die für jeden Datensatz unabhängig trainiert werden, werden Foundation-basierte Ansätze anhand großer Sammlungen tabellarischer Probleme vortrainiert und dann durch Anpassung zur Inferenzzeit auf neue Datensätze angewendet.

In diesem Benchmark stellen TabPFN und TabICL zwei prominente Ansätze innerhalb dieses Paradigmas dar.

Hauptmerkmale von tabellarischen Modellen im Foundation-Stil

Tabellenmodelle im Foundation-Stil weisen typischerweise die folgenden Eigenschaften auf:

  • Starke induktive Voreingenommenheit: Indem sie gemeinsame Muster in vielen tabellarischen Datensätzen lernen, kodieren diese Modelle Annahmen über Merkmalsinteraktionen, Zielverteilungen und Rauscheigenschaften, die sich gut auf unbekannte Probleme verallgemeinern lassen.
  • Einheitliche Handhabung von Merkmalsarten: Numerische und kategoriale Merkmale werden in einen gemeinsamen Darstellungsraum eingebettet, wodurch das Modell auch über Tabellen mit gemischten Merkmalen ohne umfangreiche manuelle Vorverarbeitung nachdenken kann.
  • Anpassung während der Inferenz: Anstatt neu trainiert zu werden, passen sich diese Modelle mithilfe von Kontextbeispielen oder Statistiken auf Datensatzebene an neue Datensätze an, wodurch eine hohe Leistungsfähigkeit auch bei Datenknappheit erreicht wird.
  • Übertragbarkeit auf andere Aufgaben: Ein einzelnes vortrainiertes Modell kann Klassifizierungs- oder Regressionsaufgaben auf zuvor unbekannten Datensätzen durchführen, oft mit minimalem Konfigurationsaufwand.

Diese Eigenschaften erklären, warum Foundation-Modelle besonders gut bei kleinen und mittleren Datensätzen funktionieren, bei denen es klassischen Methoden an ausreichenden Daten mangelt, um komplexe Merkmalsinteraktionen vollständig abzuschätzen.

TabPFN: Anpassung von Vordaten an tabellarische Vorhersagen

TabPFN (Tabular Prior-Data Fitted Network) formuliert tabellarisches Lernen als ein Bayes'sches Inferenzproblem um.

Anstatt Parameter für einen einzelnen Datensatz zu lernen, wird TabPFN anhand von Millionen synthetischer Tabellenaufgaben trainiert, die aus einer Verteilung datengenerierender Prozesse stammen. Während der Inferenz führt das Modell effektiv eine amortisierte Bayes'sche Inferenz durch und berücksichtigt dabei den beobachteten Datensatz, um Vorhersagen zu treffen.

Zu den wichtigsten Merkmalen von TabPFN gehören:

  • Eine Transformer-Architektur, die ganze Datensätze als Kontext verarbeitet.
  • Training anhand einer breiten Palette synthetischer Aufgaben zur Kodierung allgemeiner Vorannahmen.
  • Hohe Leistungsfähigkeit auch bei geringen Datenmengen ohne Hyperparameter-Optimierung. 2

In der Praxis ermöglicht dieses Design TabPFN, herkömmliche Boosting-Methoden bei kleinen und mittelgroßen hybriden Datensätzen zu übertreffen, wie im Benchmark zu beobachten war.

Da das Modell jedoch auf gelernten Vorannahmen und nicht auf skalierungsgetriebener Optimierung basiert, nimmt sein Vorteil mit zunehmender Größe des Datensatzes ab.

TabICL: Kontextbezogenes Lernen für tabellarische Daten

TabICL erweitert die Idee des kontextbezogenen Lernens auf tabellarische Vorhersagen.

Anstatt Modellparameter anzupassen, verwendet TabICL Beispiele aus dem direkt im Eingabekontext bereitgestellten Datensatz. Das Modell lernt, aus diesen Beispielen Entscheidungsregeln abzuleiten, ähnlich wie große Sprachmodelle beim Few-Shot-Learning vorgehen.

Zu den wichtigsten Aspekten von TabICL gehören:

  • Datensatzzeilen als strukturierte Token kodiert
  • Aufgabenanpassung durch Kontextbeispiele statt gradientenbasiertem Training
  • Ein einzelnes vortrainiertes Modell, das in der Lage ist, verschiedene tabellarische Aufgaben zu bewältigen 3

Wie bei TabPFN sind die Leistungssteigerungen am größten bei geringer Datenmenge und werden bei großen numerischen Datensätzen weniger deutlich, wo das traditionelle Boosting das verfügbare Signal vollständig ausnutzt.

Dieser Ansatz ermöglicht es TabICL, auf Hybrid-Datensätzen eine starke Leistung zu erzielen, insbesondere wenn die Interaktionen der Merkmale komplex sind und nur begrenzte annotierte Daten vorliegen.

Warum verlieren Fundamentmodelle bei größerem Maßstab an Bedeutung?

Die Benchmark-Ergebnisse verdeutlichen eine wichtige Einschränkung von tabellarischen Modellen im Foundation-Stil.

Bei großen numerischen Datensätzen sind Modelle wie XGBoost herkömmlichen Ansätzen überlegen. Dies spiegelt einen grundlegenden Zielkonflikt wider:

  • Fundamentale Modelle basieren auf gelernten Vorannahmen und der Generalisierung über verschiedene Aufgaben hinweg.
  • Gradient Boosting nutzt datensatzspezifische Signale durch iterative Optimierung. 4

Wenn ausreichend Daten verfügbar sind, können skalierungsgetriebene Methoden die Interaktionen der Merkmale direkt aus dem Datensatz vollständig lernen, wodurch der relative Wert vorab trainierter Vorannahmen sinkt.

Dies erklärt, warum Foundation-Modelle bei geringer Datenmenge hervorragende Ergebnisse erzielen, während klassisches Boosting bei großen Datenmengen dominiert.

Methodik des Benchmarking tabellarischer Lernmodelle

Wir vergleichen 7 ML-Modelle anhand von 19 tabellarischen Datensätzen mittels 5-facher stratifizierter Kreuzvalidierung.

Umgebung: RunPod Cloud Container (Ubuntu 24.04).

Treiber : Cuda 12.8.1, PyTorch 2.8.0

Berechnung: Einzelner L40S

Modelle:

  • Logistische Regression – Lineare Basislinie
  • XGBoost – Gradientenverstärkung
  • LightGBM – Gradientenverstärkung
  • CatBoost – Gradient Boosting mit nativer kategorialer Unterstützung
  • RealMLP – Deep Learning (MLP)
  • TabPFN – Transformatorbasiertes, voreingestelltes Netzwerk
  • TabICL – Transformer-basiertes kontextbezogenes Lernen

19 Datensätze von OpenML:

  • Binäre Klassifizierung: 14 Datensätze
  • Multiklassenklassifizierung: 1 Datensatz
  • Regression: 4 Datensätze
  • Die Datensätze umfassen zwischen ca. 600 und ca. 45.000 Stichproben.

Auswertung

Kreuzvalidierung

  • 5-fache stratifizierte Kreuzvalidierung zur Klassifizierung
  • 5-fache Kreuzvalidierung für die Regression
  • Derselbe Zufallsgenerator (42) wurde in allen Experimenten verwendet.

Kennzahlen

Vorverarbeitung

  • Numerische Eigenschaften: StandardScaler
  • Kategorische Merkmale: One-Hot-Codierung (außer CatBoost, das dies nativ unterstützt)
  • Fehlende Werte: Medianimputation (numerisch), Modusimputation (kategorial)

Einschränkungen

  • TabPFN: Beschränkt auf Datensätze mit ≤500 Merkmalen nach der Vorverarbeitung
  • TabICL: Nur Klassifizierungsaufgaben (keine Regressionsunterstützung)
  • Stichprobengröße: TabPFN verwendet maximal 10.000 Trainingsbeispiele.

Reproduzierbarkeit

Alle Experimente verwenden:

  • Fester Zufallsgenerator-Seed: 42
  • Gleiche Trainings-/Testaufteilung über alle Modelle hinweg
  • Standard-Hyperparameter (keine Optimierung)
Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen
Recherchiert von
Berk Kalelioğlu
Berk Kalelioğlu
KI-Forscher

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450