Yaklaşık 260.000 örnek ve 250'den fazla özellik içeren, 435 ila yaklaşık 49.000 satır arasında değişen veri küme boyutlarına sahip 19 gerçek dünya veri kümesi üzerinde, yaygın olarak kullanılan 7 tablo tabanlı öğrenme modelini karşılaştırmalı olarak değerlendirdik.
Amacımız, tipik bir kurumsal veri mimarisini oluşturan farklı boyut ve yapıdaki (örneğin sayısal ve kategorik) veri kümeleri için en iyi performans gösteren model ailelerini anlamaktı.
Tablo tabanlı öğrenme modellerinin karşılaştırmalı test sonuçları
Grafikte, kazanan model 1 puan alır. Beraberlik durumunda, puan eşit olarak berabere kalan modeller arasında paylaşılır. Kazanma oranı, bir modelin belirli bir rejim içinde ne sıklıkla birinci geldiğini ölçer ve ortalama sıralamadan daha kesin bir üstünlük görüşü sunar.
Farklı modeller farklı yapısal koşullar altında daha başarılı olur ve başarı oranı veri kümesi boyutu ve özellik bileşimine göre değişir.
Özellikle:
- Temel modeller, verilerin sınırlı olduğu durumlarda en başarılı sonuçları verir.
- XGBoost, büyük ve sayısal veri kümelerinde sürekli olarak en yüksek puanı alan tek algoritmadır.
- Büyük ve hibrit veri kümelerinde:
- Kazanılan ödüller TabICL, LightGBM ve Lojistik Regresyon arasında dağıtılmıştır.
- Büyük ölçekli hibrit veriler, birden fazla yaklaşımın uygulanabilir olduğu en belirsiz rejim olmaya devam etmektedir.
Uyarı: Özellik türleri, ön işleme sonrasında baskın girdi temsiline bağlı olarak sayısal veya hibrit olarak sınıflandırılır.
Veri kümesi karışımını nasıl yorumlayabiliriz:
- Veri boyutları, 1.000'den az satır içeren küçük veri kümelerinden 40.000'den fazla satır içeren büyük veri kümelerine kadar değişmektedir.
- Görev türleri arasında ikili sınıflandırma, çok sınıflı sınıflandırma ve regresyon yer almaktadır.
- Özellik türleri, pratik kurumsal verileri yansıtır:
- Sayısal: esas olarak sürekli veya sıralı değişkenler
- Hibrit: sayısal ve kategorik özelliklerin bir karışımı
Bu çeşitlilik, farklı koşullar altında hangi model ailelerinin güvenilir performans gösterdiğini anlamak için kıyaslama ölçütünü oldukça uygun hale getiriyor.
Yöntemimizi aşağıda görebilirsiniz.
Veri kümesi boyutuna ve özellik türüne göre üst düzey sonuçlar
Burada, tek tek veri kümelerinin puanlarına odaklanmak yerine, modellerin veri kümesi boyutu grupları ve özellik türleri genelinde nasıl davrandığına değiniyoruz.
Grafik, her veri seti boyutu aralığı için, sayısal ve hibrit veri setleri için ayrı ayrı olmak üzere, her modelin elde ettiği ortalama ROC-AUC değerini göstermektedir.
Küçük veri kümeleri (<1K satır)
Küçük veri kümelerinde, temel tarzda tablo modelleri en başarılı olanlardır.
- Önde gelen tablo tabanlı temel modeller (TFM'ler) olan TabPFN ve TabICL, hem sayısal hem de hibrit veri kümelerinde en güçlü performansı sergilemektedir.
- Performans farkı özellikle hibrit veri kümelerinde belirgindir.
- Lojistik regresyon sayısal verilerde rekabetçi bir performans sergilerken, hibrit verilerde performansı önemli ölçüde düşmektedir.
Veri az olduğunda, güçlü endüktif önyargıya sahip modeller hem artırma (boosting) hem de sinirsel temel modellerden daha iyi performans gösterir. Bu durumda, model kapasitesinden ziyade ön bilgi ve öğrenilmiş özellik etkileşimleri daha önemlidir.
Orta büyüklükteki veri kümeleri (1.000-10.000 satır)
Orta büyüklükteki veri kümelerinde genel performans iyileşiyor, ancak yapısal farklılıklar devam ediyor.
- Tüm modeller sayısal veri kümelerinde güçlü performans sergiliyor (çoğu zaman %97'nin üzerinde ROC-AUC değeri).
- Hibrit veri kümeleri daha zorlu olmaya devam ediyor.
- TFM'ler içinde TabPFN ve TabICL liderliğini sürdürüyor, ancak aradaki fark azalıyor.
Orta büyüklükteki veri kümeleri bir geçiş dönemini temsil eder: sinyal yoğunluğu artar, ancak indüktif önyargı, özellikle karma özellik türlerinde, ölçülebilir bir avantaj sağlamaya devam eder.
Büyük veri kümeleri (>10.000 satır)
Büyük ölçekte performans kalıpları değişir.
- Büyük sayısal veri kümelerinde XGBoost ve TabICL diğer modellere göre daha iyi performans gösterir.
- Büyük ve hibrit veri kümelerinde performans yakınsıyor:
- Farklılıklar daha küçük olur ve model seçimi daha az belirgin hale gelir.
Büyük ölçekte, klasik gradyan artırma yöntemi sayısal sinyali tam olarak kullanır. Hibrit veriler için, modelin ham karmaşıklığından ziyade sağlamlık ve kategorik işleme daha önemlidir.
Rejimlere göre ortalama sıralama
Modeller, her bir rejim (veri seti boyutu × özellik türü) içinde sıralanır.
Sıralamalar, daha yüksek değerlerin daha güçlü göreceli performansı gösterdiği şekilde normalize edilmiştir; bu da rejimler arası karşılaştırmaları kolaylaştırır.
Küçük veri kümeleri
Küçük veri kümelerinde, temel model tarzı modeller sıralamalarda öne çıkıyor.
- TabPFN ve TabICL hem sayısal hem de hibrit veri kümelerinde birinci sırada yer almaktadır.
- Gradyan artırma modelleri sürekli olarak en alt sıralarda yer alıyor.
- Hibrit verilerde temel modeller ile güçlendirme modelleri arasındaki fark daha büyüktür.
Ortalama sıralama, ham performansta gözlemlenen aynı örüntüyü ortaya koymaktadır:
Veri az olduğunda, öğrenilmiş ön bilgiler ve tümevarımsal önyargı, ölçek odaklı optimizasyondan daha önemli hale gelir.
Orta ölçekli veri kümeleri
Orta büyüklükteki veri kümelerinde sıralamalar değişmeye başlar.
- TabPFN ve TabICL, her iki özellik türünde de en üst sıralarda yer almaya devam ediyor.
- CatBoost, hibrit veri kümelerinde güçlü bir üçüncü seçenek olarak ortaya çıkıyor.
- Boosting modelleri, küçük veri rejimine kıyasla göreceli konumlarını iyileştirir.
Bu rejim bir denge noktasını yansıtıyor. Veri hacmi artıyor, ancak özellik etkileşimleri hala daha güçlü tümevarımsal önyargıya sahip modelleri ödüllendiriyor.
Büyük veri kümeleri
Büyük veri kümelerinde, baskınlık rejime özgü hale gelir.
- Büyük + sayısal:
- XGBoost küçük bir farkla birinci sırada yer alırken, TabICL hemen arkasından geliyor.
- Büyük + hibrit:
- Hiçbir model tek başına baskın değil.
- TabICL, LightGBM, CatBoost ve TabPFN'nin tümü benzer ortalama sıralamalara ulaşıyor.
Ortalama sıralama, model üstünlüğünün evrensel değil, koşullu olduğunu doğrulamaktadır.
Genel sıralamalardaki yüksek değerler, rejimler arasındaki keskin performans farklılıklarını çoğu zaman gizler.
Modele özgü gözlemler
Bu bölümde, tüm sonuçlar dikkate alınarak her model sınıfının hangi alanlarda başarılı ve hangi alanlarda zorlandığı özetlenmiştir.
Tablo tabanlı temel modeller (TFM'ler): TabPFN ve TabICL
Güçlü Yönler
- Küçük ve orta ölçekli veri kümelerinde sürekli olarak en iyi performansı sergiliyor.
- Özellikle kategorik yapının önemli olduğu hibrit veri kümelerinde oldukça başarılıdır.
- Küçük veri kümelerinde yüksek kazanma oranları
Sınırlamalar
- Büyük ve sayısal veri kümelerinde daha az baskın.
- Pratik kısıtlamalar (özellik sınırlamaları, görev desteği) uygulanabilirliği etkiler.
TFM'ler, özellikle kapsamlı ayarlama gerektirmeden hızlı performans elde edilmesi gereken durumlarda, veri azlığı olan veya karma özellikli problemler için en uygun çözümdür.
Eğim artırma modelleri: XGBoost ve LightGBM
Güçlü Yönler
- Büyük veri kümelerinde rekabetçi
- Veri hacmi arttıkça güçlü ve istikrarlı performans.
- Hibrit verilerde büyük ölçekte rekabet gücünüzü koruyun.
Sınırlamalar
- Daha küçük veri kümelerinde temel modellere kıyasla düşük performans gösteriyor.
- Kategorik verilerin yoğun olduğu durumlarda dikkatli ön işleme ve ayarlama gereklidir.
Gradyan artırma, büyük sayısal tablolar için varsayılan seçenek olmaya devam ediyor ve karma özellikli rejimlerde bile güçlü bir temel oluşturuyor.
CatBoost
Güçlü Yönler
- Hibrit veri kümelerinde, özellikle daha büyük ölçeklerde en sağlam model.
- Yerel kategorik işleme, tutarlı kazanımlar sağlar.
- Farklı rejimlerde nadiren kötü performans gösterir.
Sınırlamalar
- En iyi performans gösteren kişi nadiren en iyisidir.
- Tamamen sayısal veri kümelerinde daha az baskın.
Kategorik özelliklerin baskın olduğu durumlarda, özellikle orta ve büyük veri kümelerinde, CatBoost en güvenli seçenektir.
RealMLP
Gözlemler
- Nadiren rejimler arası zafer kazanır.
- Az sayıda veri kümesi dışında genellikle en alt sıralarda yer alır.
Genel sinirsel MLP'ler, güçlü tümevarımsal önyargı olmadan tablo verileri üzerinde zorlanıyor; bu da uygulamalı makine öğreniminde uzun zamandır bilinen bir dersi pekiştiriyor. 1
Lojistik regresyon (temel durum)
Gözlemler
- Sayısal veri kümelerinde, büyük ölçekte bile rekabetçi performans sergiliyor.
- Hibrit veri kümelerinde zaman zaman birincilik veya yüksek sıralarda yer alır.
- Özellik etkileşimlerinin baskın olduğu durumlarda performans önemli ölçüde düşer.
Basitliğine rağmen, lojistik regresyon anlamlı bir temel ölçüt olmaya devam etmektedir ve tablo tabanlı karşılaştırmalı analizlerde göz ardı edilmemelidir.
Tablo tabanlı öğrenme modelleri karşılaştırmasının temel çıkarımları
19 gerçek dünya veri kümesinde, tablo modelinin performansı öncelikle özellik yapısından etkilenir; model karmaşıklığı veya veri kümesi boyutu tek başına belirleyici faktörler değildir.
Sormak yerine:
“Hangi tablo modeli en iyisidir?”
Daha uygulanabilir bir soru şudur:
"Veri setimin boyutu ve özellik bileşimi göz önüne alındığında, hangi model sınıfının daha iyi sonuç vermesi muhtemeldir?"
Bu bakış açısı, liderlik tablosu tarzı sıralamalardan daha fazla pratik değer sunar ve gerçek dünyadaki kurumsal karar alma süreçleriyle daha iyi uyum sağlar.
Temel tarzı tablo modellerinin kavramsal temelleri
Temel tarzda tablo modelleri, tek bir veri kümesi için optimizasyon yapmak yerine, tablo yapısı, özellik etkileşimleri ve görev davranışı hakkında güçlü ön bilgiler öğrenerek çeşitli tablo veri kümelerinde genelleme yapmayı amaçlar.
Geleneksel tablo modellerinin aksine, her veri seti için bağımsız olarak eğitilen temel tarz yaklaşımlar, büyük tablo problemleri koleksiyonları üzerinde önceden eğitilir ve daha sonra çıkarım zamanı uyarlaması yoluyla yeni veri setlerine uygulanır.
Bu kıyaslamada, TabPFN ve TabICL bu paradigma içindeki iki öne çıkan yaklaşımı temsil etmektedir.
Temel tablo modellerinin başlıca yetenekleri
Temel tablo modelleri tipik olarak aşağıdaki yetenekleri sergiler:
- Güçlü tümevarımsal önyargı: Bu modeller, birçok tablo veri kümesinde ortak kalıpları öğrenerek, özellik etkileşimleri, hedef dağılımları ve gürültü özellikleri hakkında, daha önce görülmemiş sorunlara iyi genelleme yapabilen varsayımlar kodlar.
- Özellik türlerinin birleşik olarak ele alınması: Sayısal ve kategorik özellikler ortak bir temsil alanına yerleştirilir; bu da modelin kapsamlı manuel ön işleme gerek kalmadan karma özellikli tablolar üzerinde akıl yürütmesine olanak tanır.
- Çıkarım zamanı uyarlaması: Bu modeller yeniden eğitilmek yerine, bağlam örnekleri veya veri kümesi düzeyindeki istatistikleri kullanarak yeni veri kümelerine uyum sağlar ve veri kıtlığı koşullarında güçlü performans sergiler.
- Görevler arası aktarım: Tek bir önceden eğitilmiş model, genellikle minimum yapılandırmayla, daha önce görülmemiş veri kümeleri üzerinde sınıflandırma veya regresyon işlemleri gerçekleştirebilir.
Bu özellikler, klasik yöntemlerin karmaşık özellik etkileşimlerini tam olarak tahmin etmek için yeterli veriye sahip olmadığı küçük ve orta ölçekli veri kümelerinde, temel model tarzı modellerin neden özellikle iyi performans gösterdiğini açıklamaktadır.
TabPFN: Tablosal tahmin için önsel veri uyarlaması
TabPFN (Tabular Prior-Data Fitted Network), tablo tabanlı öğrenmeyi Bayesçi çıkarım problemi olarak yeniden ele alıyor.
TabPFN, tek bir veri kümesi için parametreler öğrenmek yerine, veri üreten süreçlerin dağılımından örneklenen milyonlarca sentetik tablo görevi üzerinde eğitilir. Çıkarım sırasında, model etkili bir şekilde amortize edilmiş Bayes çıkarımı gerçekleştirir ve tahminler üretmek için gözlemlenen veri kümesine koşullandırılır.
TabPFN'nin temel özellikleri şunlardır:
- Veri kümelerinin tamamını bağlam olarak işleyen bir dönüştürücü mimarisi.
- Genel amaçlı önsel bilgileri kodlamak için çok çeşitli sentetik görevler üzerinde eğitim.
- Hiperparametre ayarlaması yapılmadan düşük veri rejimlerinde güçlü performans. 2
Pratikte, bu tasarım TabPFN'nin, karşılaştırma testinde gözlemlendiği gibi, küçük ve orta ölçekli hibrit veri kümelerinde geleneksel artırma yöntemlerinden daha iyi performans göstermesini sağlamaktadır.
Ancak, model ölçek odaklı optimizasyon yerine öğrenilmiş önsel bilgilere dayandığı için, veri kümesi boyutu arttıkça avantajı azalır.
TabICL: Tablo verileri için bağlam içi öğrenme
TabICL, bağlam içi öğrenme fikrini tablo tabanlı tahminlere genişletiyor.
TabICL, model parametrelerini uyarlamak yerine, doğrudan girdi bağlamında sağlanan veri kümesindeki örneklere bağlı olarak koşullandırır. Model, büyük dil modellerinin az sayıda örnekle öğrenmeye benzer şekilde, bu örneklerden karar kurallarını çıkarmayı öğrenir.
TabICL'nin temel özellikleri şunlardır:
- Veri kümesi satırları yapılandırılmış belirteçler olarak kodlanmıştır.
- Eğim tabanlı eğitim yerine bağlam örnekleri aracılığıyla görev uyarlaması
- Çeşitli tablo tabanlı görevleri yerine getirebilen, önceden eğitilmiş tek bir model. 3
TabPFN'de olduğu gibi, performans kazanımları veri kıtlığı durumunda en güçlüdür ve geleneksel artırma yöntemlerinin mevcut sinyali tam olarak kullandığı büyük sayısal veri kümelerinde daha az belirgin hale gelir.
Bu yaklaşım, TabICL'nin özellikle özellik etkileşimlerinin karmaşık olduğu ve etiketli verilerin sınırlı olduğu hibrit veri kümelerinde güçlü performans elde etmesini sağlar.
Vakıf tarzı modeller neden büyük ölçekte üstünlüğünü kaybediyor?
Karşılaştırma sonuçları, temel tabanlı tablo modellerinin önemli bir sınırlamasını ortaya koymaktadır.
Büyük sayısal veri kümelerinde, XGBoost gibi modeller temel yaklaşımlardan daha iyi performans gösterir. Bu, temel bir dengeyi yansıtır:
- Temel modeller, öğrenilmiş ön bilgilere ve görevler arası genellemeye dayanır.
- Gradyan artırma, yinelemeli optimizasyon yoluyla veri kümesine özgü sinyallerden yararlanır. 4
Yeterli veri mevcut olduğunda, ölçek odaklı yöntemler özellik etkileşimlerini doğrudan veri kümesinden tam olarak öğrenebilir ve önceden eğitilmiş önsel bilgilerin göreceli değerini azaltabilir.
Bu durum, veri kıtlığı koşullarında temel modellerin neden daha başarılı olduğunu, büyük ölçekte ise klasik artırma yönteminin neden öne çıktığını açıklıyor.
Tablo tabanlı öğrenme modellerinin metodolojik değerlendirmesi
Beş katlı katmanlı çapraz doğrulama kullanarak 19 tablo veri kümesi üzerinde 7 makine öğrenimi modelini karşılaştırdık.
Ortam: RunPod Bulut Konteyneri (Ubuntu 24.04).
Sürücüler : Cuda 12.8.1, Pytorch 2.8.0
Hesaplama: Tek L40S
Modeller:
- Lojistik Regresyon – Doğrusal Temel Çizgi
- XGBoost – Gradyan artırma
- LightGBM – Gradyan artırma
- CatBoost – Yerel kategorik desteğe sahip gradyan artırma algoritması
- RealMLP – Derin öğrenme (MLP)
- TabPFN – Transformatör tabanlı önceden monte edilmiş ağ
- TabICL – Transformer tabanlı bağlam içi öğrenme
OpenML'den 19 veri seti:
- İkili sınıflandırma: 14 veri seti
- Çok sınıflı sınıflandırma: 1 veri seti
- Regresyon: 4 veri seti
- Veri kümelerinin boyutları yaklaşık 600 ile 45.000 örnek arasında değişmektedir.
Değerlendirme
Çapraz Doğrulama
- Sınıflandırma için 5 katmanlı tabakalı CV
- Regresyon için 5 katlı CV
- Tüm deneylerde aynı rastgele tohum (42) kullanıldı.
Metrikler
Ön İşleme
- Sayısal özellikler: StandardScaler
- Kategorik özellikler: Tekil kodlama (yerel olarak işleyen CatBoost hariç)
- Eksik değerler: Medyan atama (sayısal), mod atama (kategorik)
Sınırlamalar
- TabPFN: Ön işleme sonrasında ≤500 özellik içeren veri kümeleriyle sınırlıdır.
- TabICL: Sadece sınıflandırma görevleri (regresyon desteği yok)
- Örneklem boyutu: TabPFN en fazla 10.000 eğitim örneği kullanır.
Tekrarlanabilirlik
Tüm deneylerde şunlar kullanılır:
- Sabit rastgele tohum: 42
- Modeller arasında aynı eğitim/test bölmeleri.
- Varsayılan hiperparametreler (ayarlama yapılmamış)
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.