Yapay zeka altyapı ekosistemi hızla büyüyor ve sağlayıcılar, modeller oluşturma, barındırma ve hızlandırma konusunda çeşitli yaklaşımlar sunuyor. Hepsi yapay zeka uygulamalarına güç vermeyi amaçlarken, her biri yığın yapısının farklı bir katmanına odaklanıyor.
GPT-OSS-120B modelini kullanarak, en yaygın kullanılan sağlayıcıları (AI, Groq, ve 1769) karşılaştırdık. Her sağlayıcıyı, 35 gerçek dünya bilgi sorusu ve 73 matematiksel akıl yürütme probleminden oluşan aynı 108 soruluk veri kümesiyle değerlendirdik.
Yapay zeka sağlayıcılarının doğruluk kıyaslaması
Gün boyunca her 5 dakikada bir her sağlayıcıya 108 soru (35 makale tabanlı bilgi sorusu + 73 matematik problemi) gönderiyoruz ve günlük doğruluk ortalamalarını hesaplıyoruz. Bu soruların yanı sıra, FTL ve E2E gecikme metriklerini ölçmek için her seferinde belirli bir referans sorusu da gönderiyoruz.
Bilinmeyen nedenlerden dolayı, Fireworks yapay zekası, maksimum belirteç limiti olmamasına rağmen, 26 Ekim'de çoğu soruya nihai yanıt üretemedi. O gün kısa bir 1 dakikalık kesinti yaşanmış olsa da, sorun tüm gün boyunca yanıtları etkilemiş gibi görünüyor. Daha önce belgelendiği gibi, bazı sağlayıcıların zaman zaman belirsiz nedenlerle nihai yanıt üretemediğini öğrendik. Bu durum, geçmişteki olaylara benzer görünüyor.
GPT-OSS-120B'yi bir RunPod H200 GPU örneği üzerinde test ettik ve kıyaslama testimizde kullandığımız veri kümesinde %98 doğruluk oranına ulaştı. Kıyaslama test metodolojimizi okuyun.
Yapay zeka sağlayıcılarının gecikme süresi karşılaştırması
Fireworks için gecikmenin arttığı günlerde 1 dakikalık bir kesinti yaşandı, ancak gün boyunca bilinmeyen nedenlerle soruların çoğuna yaklaşık 10 dakika içinde yanıt verdi.
Gecikme süresi ve maliyet karşılaştırması
En yaygın kullanılan ve yapay zeka sağlayıcıları tarafından en sık sunulan modelleri belirledik ve ardından sağlayıcıların 1 milyon giriş/çıkış tokeni başına ortalama fiyatlarını ve ilk token gecikme metriklerini topladık.
Yapay zeka sağlayıcıları: Detaylı karşılaştırma
Veri ve Makine Öğrenimi işlem hattı entegrasyonu
Ağırlıklar ve Sapmalar
Weights & Biases (W&B), deney takibi, model değerlendirmesi ve uygulama gözlemlenebilirliğini yönetilen eğitim ve çıkarım altyapısıyla birleştirir. Başlangıçta makine öğrenimi iş akışları için bir kayıt sistemi olarak konumlandırılan W&B, CoreWeave'i satın almasının ardından daha dikey olarak entegre bir teklif haline gelmiştir.
Yetenekler
- Modeller ve altyapılar genelinde tekrarlanabilirliği ve karşılaştırmayı desteklemek için deneyleri, hiperparametreleri, ölçümleri, veri kümelerini ve çıktıları izler.
- Modelleri verilere ve eğitim çalışmalarına bağlayan, sürümleme, yükseltme, geri alma ve soy ağacı oluşturma özelliklerine sahip bir model kayıt sistemi sağlar.
- Takviyeli öğrenme ve üretken yapay zeka iş yükleri için sunucusuz GPU hesaplaması da dahil olmak üzere yönetilen eğitim ve ince ayar hizmetleri sunar.
- Açık kaynaklı ve özel modeller için barındırılan çıkarımı destekler.
- Weave aracılığıyla LLM uygulamaları için istek düzeyinde gözlemlenebilirlik sağlar; istemleri, yanıtları, gecikmeyi ve değerlendirme puanlarını yakalar.
- Modeller, komut istemleri ve sağlayıcılar genelinde otomatik ve insan müdahalesi gerektiren değerlendirme ve kıyaslama süreçlerini destekler.
- Kendi altyapısına ek olarak, üçüncü taraf yapay zeka sağlayıcıları, kendi bünyesinde barındırılan GPU'lar ve harici API'lerle entegre olur.
Sınırlamalar
W&B, CoreWeave tabanlı teklifleri aracılığıyla sınırlı yerel yapay zeka altyapısı sunmaktadır. Barındırılan çıkarım ve sunucusuz GPU eğitimi desteklenmektedir, ancak büyük ölçekli veya özel model eğitimi genellikle harici altyapı gerektirir.
Kullanım alanı: Özellikle birden fazla model veya sağlayıcıyı karşılaştırırken ve tam tedarikçi bağımlılığı olmadan üretim düzeyinde gözlemlenebilirlik sağlarken, deney, eğitim, değerlendirme ve dağıtım süreçlerinde uçtan uca görünürlüğe ihtiyaç duyan yapay zeka ekipleri için en uygun çözümdür.
Databricks
Databricks, veri analitiği, makine öğrenimi ve model yönetimini birleştiren bütünleşik bir platform sağlar.
Yetenekler
- Spark altyapısı üzerine kurulu olup, veri hazırlığı, model eğitimi ve çıkarım işlemlerinin uçtan uca entegrasyonunu sağlar.
- Parametreler, ölçümler ve deney geçmişi de dahil olmak üzere model takibi için MLflow kullanır.
- Unity Catalog,sorumlu yapay zeka uygulamaları için veri soy ağacını ve yönetimini güvence altına alır.
- Toplu işlem ve model karşılaştırma konusunda güçlü.
Sınırlamalar
- Gerçek zamanlı çıkarım için optimize edilmemiştir. İzleme ve ölçümler, istek başına gecikme süresi için değil, toplu işler için tasarlanmıştır.
- Gecikme açısından kritik yapay zeka iş yüklerinden ziyade, veri ve modeller genelinde karmaşık süreçlerin yönetimi için daha uygundur.
Kullanım alanı: Özellikle tahmine dayalı modelleme ve yönetişim ile izlenebilirliğin gerekli olduğu kurumsal uygulamalar gibi veri bilimi süreçlerine yapay zekayı entegre etmesi gereken işletmeler için etkilidir.
Model barındırma platformları
Baseten
Baseten, üretim güvenilirliğine ve ayrıntılı gözlemlenebilirliğe odaklanarak, yapay zeka modellerinin dağıtımı ve çalıştırılması için bir model barındırma platformu olarak konumlanmaktadır.
Yetenekler
- API çağrı sürelerini model yükleme, çıkarım ve yanıt serileştirme aşamalarına ayırarak geliştiricilerin gecikme kaynaklarını belirlemelerine olanak tanır.
- Performans üzerindeki etkiyi ölçmek için soğuk başlatmalar, kopya düzeyinde izlenir.
- Kullanıcılar, çoğaltma sayısı ve eşzamanlılık eşikleri gibi otomatik ölçeklendirme parametrelerini yapılandırır. Bu, esneklik sağlar ancak yanlış yapılandırma riskini de beraberinde getirir; bu da ya maliyet kaybına ya da daha yüksek gecikmeye yol açar.
- Bu sistem, GPU türüne ve kullanımına bağlı olarak istek başına maliyet takibi sağlar ve A100 ve H100 GPU'lar gibi donanımlar arasında geçiş yaparken performans ve maliyet karşılaştırmalarına olanak tanır.
- Gerçek zamanlı günlük akışı mevcuttur, ancak filtreleme ve arama özellikleri sınırlıdır.
Sınırlamalar
- İzleme, istek düzeyinde ayrıntılıdır, ancak günlük arama ve filtreleme temel düzeydedir; bu da büyük iş yüklerinde hata ayıklamayı daha zor hale getirir.
- Yanlış yapılandırılmış otomatik ölçeklendirme, maliyeti ve gecikmeyi doğrudan etkileyebilir.
Kullanım örneği: Baseten, üretim ortamlarında üretken yapay zeka modelleri için şeffaf gözlemlenebilirlik arayan yapay zeka geliştiricileri için idealdir.
Parasail
Parasail, esnek GPU kullanımı ve maliyet optimizasyonu için tasarlanmış bir yapay zeka çıkarım ağı sunmaktadır.
Yetenekler
- Sistem, iş yükü ihtiyaçlarına göre otomatik kaynak tahsisiyle GPU türleri arasında geçişi destekler.
- Kontrol paneli, çalışma süresi ve GPU tahsisi de dahil olmak üzere toplu kullanım metriklerini vurgular.
- Farklı GPU sınıfları aracılığıyla fiyatlandırma esnekliği sunarak maliyet-performans dengeleri kurulmasına olanak tanır.
Sınırlamalar
- İstek düzeyinde izleme özelliği sunmaz. Geliştiriciler, tek tek isteklerin maliyetini veya performansını analiz edemezler.
- Gözlemlenebilirlik toplu düzeyde kalmakta ve bu da hata ayıklama derinliğini sınırlamaktadır.
Kullanım örneği: Parasail, düşük maliyetli ve esnek yapay zeka çözümlerine öncelik veren kuruluşlar için tasarlanmıştır, ancak ayrıntılı gözlemlenebilirlik gerektiren ekipler için daha az bilgi sağlar.
DeepInfra
DeepInfra, birden fazla bölgedesunucusuz GPU barındırma hizmeti sunarak yapay zeka modellerinin API olarak ölçeklenebilir bir şekilde dağıtımını mümkün kılar.
Yetenekler
- Çok bölgeli destek, çıkarım işleminin son kullanıcılara daha yakın yapılmasını sağlayarak gecikmeyi azaltır.
- Gecikme süresi ve veri aktarım hızı ölçümlerini kontrol paneli düzeyinde sağlar.
- Toplam maliyet raporlamasıyla birlikte kullandıkça öde fiyatlandırması sunar.
- Açık kaynaklı üretken yapay zeka modellerinin basit API'ler aracılığıyla dağıtımını destekler.
Sınırlamalar
- İstek düzeyinde izleme olanağı sağlamadığından, temel neden analizi zorlaşıyor.
- Maliyet dökümü yalnızca toplam tutar üzerinden verilmiştir; talep bazında veya bölge bazında detaylı bilgi bulunmamaktadır.
- Model sürümleme ve geri alma mekanizmaları otomatikleştirilmemiş olup manuel müdahale gerektirmektedir.
Kullanım alanı: Maliyet esnekliğinin ve coğrafi kapsamın derinlemesine hata ayıklamadan daha önemli olduğu, yapay zeka iş yüklerini bölgeler arası dağıtan kuruluşlar için en uygunudur.
Birlikte Yapay Zeka
Together AI, hem model barındırma hem de eğitim yetenekleri sunan bir yapay zeka hızlandırma bulutu olarak faaliyet göstermektedir.
Yetenekler
- Gecikme histogramları ve sürüme göre çağrı dökümleri de dahil olmak üzere hem toplam hem de istek düzeyinde ölçümler sağlar.
- Dahili model sürümleme ve geri alma özelliği, önceki sürümlere hızlı bir şekilde geri dönmeyi sağlar.
- Trafik bölme işlemi, model versiyonları arasında A/B testi yapılmasını sağlar.
- Çok dilli istemci kütüphaneleriyle güçlü SDK desteği.
- CI/CD entegrasyonları, dağıtım süreçlerini diğer barındırma platformlarına göre daha olgun hale getirir.
Sınırlamalar
- Bu çözüm daha yüksek operasyonel olgunluk sunuyor, ancak daha hafif barındırma platformlarına kıyasla daha yüksek sistem karmaşıklığı pahasına geliyor.
Kullanım alanı: Together AI, güvenilir sürüm kontrolüne, gelişmiş izlemeye ve üretken yapay zeka araçlarının yapılandırılmış iş akışlarına entegrasyonuna ihtiyaç duyan yapay zeka şirketleri ve profesyonel hizmet firmaları için uygundur.
Donanıma optimize edilmiş / özel altyapı
Cerebras
Cerebras, yonga levha ölçekli motoru (WSE) etrafında inşa edilmiş, donanıma optimize edilmiş yapay zeka altyapısına odaklanmaktadır.
Yetenekler
- WSE, milyonlarca işlem birimini tek bir çip üzerinde birleştirerek yapay zeka iş yükleri için son derece yüksek işlem hızı sağlıyor.
- Kontrol panelleri, saniyede üretilen token sayısı ve genel işlem hacmi gibi standart ölçütleri gösterir.
- Gelişmiş yapay zeka modellerinin büyük ölçekte eğitilmesi ve çıkarım yapılması için uygundur.
Sınırlamalar
- Devreye alma işlemi anında gerçekleşmez; altyapı hazırlığı gerektirir.
- Zamanlama ve bellek kullanımı gibi dahili donanım detayları kullanıcılardan gizlenmiştir.
- Keyfi özel modellerin getirilmesine yönelik destek sınırlıdır.
Kullanım alanı: Esneklikten ziyade verimliliğin daha önemli olduğu yapay zeka laboratuvarlarında, savunma sanayinde veya devlet kurumlarında büyük ölçekli, yüksek verimli makine öğrenimi görevleri için etkilidir.
SambaNova
SambaNova, hesaplama grafiği seviyesinde optimize edilmiş veri akışı mimarisine dayalı yapay zeka donanım ve yazılım çözümleri geliştirir.
Yetenekler
- SambaCloud (bulut hizmeti), SambaStack (yerel kurulum) ve SambaManaged (yönetilen hizmet) gibi platformlar sunmaktadır.
- Üretken yapay zeka modellerinin çıkarım ve eğitimine yönelik olarak optimize edilmiştir.
- Token düzeyinde gecikme ve verim için standart gösterge paneli ölçümleri.
Sınırlamalar
- Dağıtım, modelin mimarisiyle uyumluluğunu gerektirir ve bu da ek optimizasyon talep eder.
- Bellek bant genişliği gibi dahili performans ölçütleri kullanıcılara gösterilmez.
- Devreye alma işlemleri hemen gerçekleşmez; uygulama aşamaları gereklidir.
Kullanım alanı: Özellikle kontrollü BT altyapısı gerektiren sektörlerde, donanım ve yazılımı birleştiren yapay zeka destekli çözümlere ihtiyaç duyan işletmeler için uygundur.
Groq
Groq, Dil İşleme Birimleri (LPU'lar) tarafından desteklenen bir yapay zeka çıkarım platformu sunmaktadır.
Yetenekler
- Düşük gecikmeli akış yanıtlarıyla sıralı belirteç oluşturma için optimize edilmiştir.
- Kontrol panelleri, belirteç sayılarını, gecikme sürelerini ve hata oranlarını gösterir.
- Maliyet, token düzeyinde takip edilir.
Sınırlamalar
- Özel model dağıtımını desteklemez. Yalnızca Groq tarafından sağlanan modeller kullanılabilir.
- Sınırlı hata ayıklama araçları mevcuttur; performans sorunları ortaya çıkarsa, destek talebi göndermeniz gerekmektedir.
- LPU'ların iç işleyişi şeffaf olmaktan uzaktır.
Kullanım alanı: Konuşma yapay zekası veya karar verme algoritmaları gibi büyük dil modelleri için ultra düşük gecikmeli yanıtların kritik önem taşıdığı uygulamalar için en uygunudur.
API tabanlı barındırma
Fireworks Yapay Zeka
Fireworks Yapay zeka, yapay zeka modelleri için hafif, API tabanlı bir barındırma hizmeti sunar.
Yetenekler
- Anında API uç noktalarıyla hızlı model dağıtımı.
- Üretken yapay zeka modellerinin ince ayarını destekler.
- Kontrol panelleri, çağrı gecikmesi, belirteç kullanımı, hata oranı ve istek sayısı gibi ölçümler sunar.
Sınırlamalar
- İstek düzeyinde izleme özelliği bulunmadığından, ayrıntılı hata ayıklama sınırlıdır.
- Maliyet verileri yalnızca toplu verilerdir, talep bazında görüntüleme imkanı yoktur.
- Geri alma işlemi manueldir; eski sürümlere dönmek yeniden dağıtım gerektirir.
Kullanım alanı: Derinlemesine gözlemleme veya karmaşık dağıtım yönetimi gerektirmeden üretken yapay zeka yeteneklerine hızlı erişime ihtiyaç duyan yapay zeka geliştiricileri için uygundur.
Yapay zeka sağlayıcısı nedir?
Yapay zeka sağlayıcısı, başkalarının yapay zeka destekli çözümler geliştirmesi ve çalıştırması için gereken altyapıyı , modelleri ve hizmetleri sunan bir yapay zeka şirketidir.
Yapay zeka sağlayıcıları şu nedenlerle kritik öneme sahiptir:
- Özellikle bünyesinde derin yapay zekâ uzmanlığı bulunmayan şirketler için yapay zekâ kullanımının önündeki engelleri azaltmak.
- Otomatik ölçeklendirme ve dağıtılmış eğitim gibi karmaşık süreçleri yöneterek ölçeklenebilirlik sağlayın.
- Yapay zekâ donanımına ön yatırım yapmak yerine, talep üzerine altyapı sağlayarak maliyet verimliliği sunun.
- Yönetişim, izlenebilirlik ve uyumluluk özellikleri aracılığıyla sorumlu yapay zeka uygulamalarını sağlayın.
Yapay zeka sağlayıcı türleri
Yapay zeka sağlayıcıları üç ana kategoriye ayrılabilir:
- Yapay zeka altyapı sağlayıcıları , eğitim ve çıkarım için özel işlemciler ve yüksek performanslı çipler de dahil olmak üzere özel yapay zeka donanımlarına odaklanmaktadır.
- Model barındırma platformları, API'ler aracılığıyla üretken yapay zeka modellerine erişim sağlayarak yapay zekanın uygulamalara entegrasyonunu kolaylaştırır. Genellikle otomatik ölçeklendirme, gecikme izleme ve ince ayar gibi özellikler sunarlar.
- Veri ve makine öğrenimi platformları, sorumlu yapay zekaya odaklanarak, veri analitiği, model eğitimi ve yönetişimin uçtan uca entegrasyonunu vurgular.
Yapay zeka sağlayıcılarının temel özellikleri
Çeşitli kategorilerde, çoğu yapay zeka sağlayıcısı, değer sunma biçimlerini ve kuruluşların yapay zeka yeteneklerini etkili bir şekilde benimsemelerini sağlayan birkaç temel özelliği paylaşmaktadır:
Büyük dil modellerine ve diğer üretken yapay zeka modellerine erişim
Yapay zeka sağlayıcıları , metin üretimi , konuşma işleme ve görüntü tanıma gibi görevler için büyük dil modellerine (LLM'ler) ve çeşitli üretken yapay zeka modellerine doğrudan erişim sunmaktadır. Bu modeller genellikle API'ler aracılığıyla sunulur; bu da kuruluşların kapsamlı model eğitimi uzmanlığına ihtiyaç duymadan yapay zeka destekli çözümleri uygulamalarına entegre etmelerini kolaylaştırır.
Zorlu yapay zeka iş yüklerini yönetebilecek yapay zeka altyapısı.
Sağlayıcılar, gelişmiş yapay zeka modelleri ve büyük ölçekli yapay zeka iş yükleri için özel olarak tasarlanmış bilgi işlem ortamları sunar. Bu, genellikle hem yüksek verimli toplu işlemleri hem de gecikmeye duyarlı görevleri desteklemek üzere tasarlanmış, eğitim , ince ayar ve çıkarım için gereken işlem gücünü içerir. Bu tür altyapı, işletmelerin karmaşık süreçleri verimli ve güvenilir bir şekilde yürütmelerini sağlar.
Gecikme süresi, verimlilik ve maliyet metriklerini içeren dağıtım ve izleme panoları
Kontrol panelleri, yapay zeka sistemlerinin performansına ve verimliliğine ilişkin görünürlük sağlayan standart bir özelliktir. Tipik ölçümler arasında istek başına gecikme süresi, genel işlem hacmi, belirteç işleme oranları ve hata sayıları yer alır. İstek başına raporlamadan toplu özetlere kadar maliyet görünürlüğü de sağlanır. Bu araçlar, etkili kaynak yönetimi ve optimizasyonunu destekler.
İnce ayar ve model yönetimi seçenekleri
Birçok platform, özel kullanım durumları için üretken yapay zeka modellerini ince ayar yapma olanağı sunmaktadır. Bu, kuruluşların modelleri, tedarik zincirinde tahmine dayalı modelleme veya müşteri desteğinde konuşma tabanlı yapay zeka gibi sektöre özgü ihtiyaçlara uyarlamasına olanak tanır. Model yönetim özellikleri genellikle sürüm kontrolü, geri alma ve deneyler için trafik bölme gibi özellikler içerir; bu da yeni dağıtımlar üzerinde yineleme yaparken güvenilirliği korumaya yardımcı olur.
Fiyatlandırma esnekliği, genellikle kullanım başına ödeme veya token tüketimine dayanır.
Yapay zekâ donanımına yapılan yüksek ön yatırımlar yerine, sağlayıcılar genellikle tüketim tabanlı fiyatlandırma kullanırlar. Bu fiyatlandırma, istek başına, token başına veya işlem süresine göre yapılandırılabilir. Esnek fiyatlandırma, yapay zekâ benimseme konusunda denemeler yapan kuruluşlar için giriş engelini düşürürken, işletmelerin harcamalarını iş yükü talepleriyle uyumlu hale getirmelerine ve hem maliyet hem de performans açısından optimizasyon yapmalarına olanak tanır.
Yapay zeka ağ geçitleri nedir?
Yapay zeka ağ geçidi, kurumsal ortamlarda yapay zeka modellerinin ve hizmetlerinin entegrasyonunu, yönlendirilmesini ve yönetimini sağlayan bir ara katman platformudur. Yapay zeka ağ geçitleri, modellerin kendilerini sağlamak yerine, uygulamalar ile büyük dil modelleri , görüntü tanıma sistemleri ve diğer üretken yapay zeka hizmetleri de dahil olmak üzere birden fazla yapay zeka aracı arasında birleşik bir giriş noktası görevi görür.
API standardizasyonu, model düzenlemesi, izleme, güvenlik uygulaması ve maliyet takibi gibi işlevleri üstlenerek kuruluşların yapay zeka iş yüklerine farklı sağlayıcılar üzerinden nasıl erişildiğini ve kullanıldığını kontrol etmelerini sağlarlar.
Yapay zeka ağ geçitleri ve yapay zeka sağlayıcıları arasındaki temel farklar
İşlev
- Yapay zeka sağlayıcıları, yapay zeka altyapısı, yapay zeka modelleri ve bunları çalıştırmak için gereken işlem gücünü sunarlar.
- Yapay zeka ağ geçitleri, bu modellerle olan etkileşimleri yönetir ve düzenler, böylece tutarlılık ve yönetişim sağlar.
Yığındaki konum
- Yapay zeka sağlayıcıları, altyapı ve model katmanında faaliyet göstererek gerçek yapay zeka yeteneklerini sunarlar.
- Yapay zeka ağ geçitleri, sağlayıcıların üzerinde yer alarak uygulamaları tek bir kontrol katmanı aracılığıyla bir veya daha fazla modele bağlar.
Sorumluluk kapsamı
- Yapay zeka sağlayıcıları, modellerin eğitilmesi, ince ayarlanması, barındırılması ve sunulmasına odaklanırlar.
- Yapay zeka ağ geçitleri, modeller genelinde API birleştirme, iş yükü yönlendirme, gözlemlenebilirlik ve politika uygulama konularına odaklanır.
Yönetişim ve güvenlik
- Yapay zeka sağlayıcıları, sürüm kontrolü ve maliyet izleme gibi kendi modelleri için yönetim mekanizmaları uygularlar.
- Yapay zeka ağ geçitleri, merkezi yönetişim sağlayarak birden fazla model ve tedarikçi genelinde uyumluluk, erişim kontrolü ve veri koruması olanağı sunar.
Dağıtım yaklaşımı
- Yapay zeka sağlayıcıları, bulut API'leri, özel kümeler ve şirket içi donanım dahil olmak üzere çeşitli altyapı seçenekleri sunmaktadır.
- Yapay zeka ağ geçitleri, uygulamalar ve modeller arasında trafik yönlendirmesini optimize eden dağıtım modelleri (küresel, çoklu bulut, sidecar veya mikro ağ geçidi) sağlar.
Kıyaslama metodolojisi
Bu kıyaslamada, OpenRouter platformunda en yaygın kullanılan açık kaynak model olan GPT-OSS-120B seçilmiştir. Kıyaslamaya geçmeden önce, GPT-OSS-120B modelinin temel performansı belirlenmiştir. Model, RunPod H200 GPU örneği üzerinde kendi kendine barındırılan bir ortamda test edilmiş ve kıyaslamada kullanılan 108 soruluk veri kümesinde (35 makale tabanlı soru + 73 matematik problemi) %98 doğruluk elde etmiştir.
Karşılaştırma testine başlamadan önce, en yüksek pazar payına sahip ilk altı yapay zeka sağlayıcısını belirlemek için OpenRouter üzerindeki pazar payı verileri analiz edildi ve testte yalnızca bu sağlayıcılar kullanıldı. Test koşullarında tutarlılığı sağlamak için tüm API istekleri aynı OpenRouter API uç noktası üzerinden gönderildi.
Veri Kümesi ve Test Süreci
Karşılaştırma veri seti toplam 108 sorudan oluşmaktadır. Bu soruların 35'i, CNN Haber makalelerinden türetilmiş ve doğrulanmış gerçek verilerle eşleştirilmiş gerçek dünya bilgi sorularıdır. Bu bölümün amacı, modelin yüzdeler, tarihler ve miktarlar gibi sayısal bilgileri doğru bir şekilde hatırlayıp hatırlamadığını ölçmek ve yanıltıcı sonuçlara yatkınlığını değerlendirmektir. Kalan 73 soru ise matematiksel akıl yürütme problemlerinden oluşmakta ve modelin sayısal tutarlılığını, mantıksal çıkarımını ve hesaplama doğruluğunu test etmektedir.
Test sürecinde kullanılan 108 soru, modelin sürekli olarak doğru yanıtladığı sorulardır. Bu testin amacı, günün belirli saatlerinde veya sistem yükündeki değişiklikler sırasında modelin performans ve kalite düşüşünü gözlemlemektir.
Test süreci aşağıdaki şekilde gerçekleştirilir:
- 108 soru, 5 dakikalık aralıklarla tek tek gönderiliyor ve bu süreç sürekli devam ediyor.
- Her sorudan elde edilen doğru/yanlış cevapları doğruluk hesaplamalarında kullanılır.
- Aynı anda, her gönderimle birlikte tüm sağlayıcılara sabit bir referans sorusu da gönderilir. Bu referans sorusundan ölçülen metrikler şunlardır:
- İlk Token Gecikmesi (FTL) : İsteğin gönderilmesinden modelin ilk tokeni üretmesine kadar geçen süre.
- Uçtan Uca Gecikme (E2E gecikme) : Modelin yanıtı tamamen oluşturması için geçen süre.
Aynı model için ve aynı API uç noktası üzerinden tüm sağlayıcılara eş zamanlı olarak istekler gönderilir. Karşılaştırma sistemi döngüsel olarak çalışır; her günün sonunda, 108 sorudan elde edilen doğruluk değerleri ve sabit referans sorudan ölçülen FTL/E2E gecikme değerlerinin günlük ortalamaları grafiklerde gösterilir.
Kendi Sunucunuzda Gerçekleştirebileceğiniz Temel Test Ayrıntıları
Temel performans testi, RunPod H200 GPU örneği üzerinde kendi kendine barındırılan bir ortamda openai/gpt-oss-120b modelinin çalıştırılmasıyla gerçekleştirildi. Test ortamı, vLLM çıkarım motorunun (sürüm 0.10.2) temel sunucu kütüphanesi olarak kurulduğu RunPod PyTorch şablonu kullanılarak oluşturuldu. Yazılım yığınının kritik bir bileşeni, GPT-OSS model serisi için istemlerin doğru şekilde kodlanması ve yanıtların çözümlenmesi için zorunlu olan openai-harmony SDK idi. vLLM motoru, modelin MXFP4 niceleme ve bağlam gereksinimlerini karşılamak için gpu_memory_utilization=0.85 ve max_model_len=4096 ile yapılandırıldı. Performansı optimize etmek için, H200 donanımında çıkarım için önemli bir hız artışı sağlayan flashinfer kütüphanesi de kuruldu.
Karşılaştırma testi, 108 sorudan oluşan (35 makale tabanlı soru ve 73 matematik problemi) birleştirilmiş bir veri setini işleyen test_baseline_harmony_correct.py betiği kullanılarak gerçekleştirildi. Her soru için, openai-harmony SDK kullanılarak programatik olarak bir istem oluşturuldu. Bu, farklı Role.SYSTEM, Role.DEVELOPER ve Role.USER mesajlarına sahip bir Conversation nesnesi oluşturmayı içeriyordu; DeveloperContent özellikle ayrıntılı yanıtlar almak için “Reasoning: high” talimatını içeriyordu. Bu nesne, HarmonyEncodingName.HARMONY_GPT_OSS kodlaması kullanılarak token kimliklerine dönüştürüldü. Çıkarım, tam mantığı yakalamak için deterministik örnekleme parametreleri (temperature=0.0) ve max_tokens=2048 ile gerçekleştirildi. stop_token_ids, harmony kodlamasının stop_tokens_for_assistant_actions() yönteminden doğrudan sağlandı. Son olarak, modelin çıktı belirteçleri, yapılandırılmış yanıtı çıkarmak için Harmony SDK tarafından ayrıştırıldı; daha sonra bu yanıt normalize edildi ve doğruluk oranını hesaplamak için gerçek değerle karşılaştırıldı.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.