Son 20 yıldır sistem düzeyinde hesaplama performansı optimizasyonuna odaklandım. Eşzamanlılık ölçeklendirme analizi için, NVIDIA'in H100, H200 ve B200'ü ile AMD'in MI300X'i de dahil olmak üzere en yeni NVIDIA GPU'larını kıyasladık. gpt-oss-20b modeliyle vLLM çerçevesini kullanarak, bu GPU'ların 1 ila 512 eşzamanlı isteği nasıl işlediğini test ettik. Sistem çıktı verimliliğini, sorgu başına çıktı hızını ve uçtan uca gecikmeyi ölçerek, yapay zeka iş yükleri için GPU performansını anlamaya yardımcı olacak bulguları paylaşıyoruz.
Eşzamanlılık kıyaslama sonuçları
Sistem çıktı verimliliği ve eşzamanlılık arasındaki ilişki
Bu grafik, sistem tarafından her eşzamanlılık seviyesinde saniyede üretilen toplam çıktı belirteci sayısını göstermektedir.
Sorgu başına çıktı hızı ve eşzamanlılık arasındaki ilişki
Bu ölçüm, sistem yoğunlaştıkça tek bir sorgunun ne kadar hızlı işlendiğini (saniyede token sayısı olarak) gösterir. 1.000 tokenlik bir çıktı için uçtan uca gecikme süresine göre hesaplanır.
Uçtan Uca Gecikme Süresi ve Eşzamanlılık Karşılaştırması
Bu grafik, farklı eşzamanlılık seviyelerinde bir isteğin baştan sona tamamlanması için geçen ortalama süreyi (milisaniye cinsinden) göstermektedir.
Dolar başına saniyede token sayısı ile eşzamanlılık karşılaştırması
Bu grafik, saatlik kiralama için harcanan her dolar karşılığında saniyede kaç token üretildiğini ölçerek her bir GPU'nun maliyet etkinliğini değerlendirir. Bu ölçüt, özellikle bütçe bilincine sahip kurulumlar için her donanım seçeneğinin yatırım getirisini anlamak açısından çok önemlidir.
Not: Fiyatlandırma, Mart 2026 itibarıyla Runpod bulut platformundan alınan isteğe bağlı saatlik ücretlere dayanmaktadır. Fiyatlar değişebilir ve kullanılabilirlik ve örnek türüne bağlı olarak farklılık gösterebilir.
Eşzamanlılık performans testi metodolojimiz hakkında daha fazla bilgi edinebilirsiniz.
Eşzamanlılık nedir?
Eşzamanlılık, bir GPU'nun aynı anda birden fazla isteği işleme yeteneğini ifade eder ve büyük dil modeli çıkarımı gibi yapay zeka iş yükleri için önemli bir faktördür. Performans değerlendirmemizde, eşzamanlılık seviyeleri, test çalışmaları sırasında GPU'ya gönderilen eşzamanlı istek sayısını (1 ila 512 arasında) temsil eder. Daha yüksek eşzamanlılık, GPU'nun performansı düşürmeden paralel görevleri yönetme, verimlilik ve gecikmeyi dengeleme kapasitesini test eder.
Eşzamanlılığı anlamak, kullanıcıların değişken talep veya toplu işlem ihtiyaçlarına sahip iş yükleri için doğru GPU'yu belirlemelerine yardımcı olur. Grafik testleri veya GPU kıyaslama paketleri çalıştırılırken, eşzamanlılık performansı GPU'lar arasında önemli ölçüde farklılık gösterebilir; bu nedenle tüketicilerin ve alıcıların farklı sistem yapılandırmaları ve fiyat noktalarındaki test sonuçlarını karşılaştırmaları çok önemlidir.
vLLM nedir?
vLLM, büyük dil modeli (LLM) çıkarımı ve sunumu için hızlı ve kullanımı kolay, açık kaynaklı bir kütüphanedir ve katkıda bulunanlar topluluğu tarafından desteklenmektedir. Bellek yönetimi, eşzamanlı isteklerin işlenmesi ve gpt-oss-20b gibi modellerin verimli bir şekilde sunulması yoluyla hem bulut hem de kendi kendine barındırılan LLM dağıtımlarını ele alır. Kendi kendine barındırılan LLM'ler için vLLM, PagedAttention gibi özelliklerle dağıtımı basitleştirir. Bellek yönetimi, sürekli gruplama ve hem NVIDIA hem de AMD GPU'ları desteklemek için 1 özellik, yerel donanımda birden fazla eş zamanlı isteği mümkün kılar.
Eşzamanlılık kıyaslama metodolojisi
Yapay zekâ çıkarım iş yükleri için eşzamanlılık ölçeklendirme yeteneklerini değerlendirmek amacıyla hem NVIDIA hem de AMD'in en yeni yüksek performanslı GPU mimarilerini test ettik. Karşılaştırma testimiz, NVIDIA'in H100, H200 ve B200 GPU'larını AMD'in MI300X'iyle birlikte, değişen eşzamanlı yük koşulları altında vLLM aracılığıyla OpenAI gpt-oss-20b modelini çalıştırarak gerçekleştirdi. Bu analiz, verimlilik metrikleri, gecikme dağılımları ve kaynak kullanım modellerinin ölçümü yoluyla yapay zekâ çıkarım uygulamaları için içgörüler sağlamayı amaçlamaktadır.
Test altyapısı
Testlerimizi Runpod'in bulut altyapısında, NVIDIA'in en gelişmiş GPU mimarilerini ve vLLM çerçevesini kullanarak gerçekleştirdik.
- GPU platformu : Runpod bulut altyapısı (H100, H200, B200 ve MI300X)
- Model : OpenAI GPT-OSS-20B vLLM çerçevesi aracılığıyla
Yazılım ortamı
NVIDIA GPU'lar (H100, H200, B200):
- RunPod şablonu:
runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404 - vLLM kurulumu:
vllm[flashinfer]==0.11.0
AMD GPU (MI300X):
- Docker imajı:
rocm/vllm-dev:open-mi300-08052025
vLLM sunucu yapılandırması
Her donanım mimarisi için performansı optimize etmek amacıyla farklı vLLM ayarları kullanıldı.
- NVIDIA H100, H200 ve B200 GPU'lar için sunucu aşağıdaki komutla başlatıldı:
- AMD MI300X GPU için , mimariye özgü ayarlarla ROCm optimizasyonlu bir vLLM derlemesi kullanıldı:
Not: Bu kıyaslama vLLM v0.11.0 kullanılarak gerçekleştirilmiştir. 2025 yılının başlarında piyasaya sürülen vLLM v1.0, farklı verim sonuçları üretebilecek mimari değişiklikler içermektedir.
Kıyaslama yapılandırması
Her bir GPU, tutarlı sonuçlar elde etmek için standartlaştırılmış parametrelerle 9 farklı eşzamanlılık seviyesinde test edildi.
- Eşzamanlılık seviyeleri : 1, 4, 8, 16, 32, 64, 128, 256, 512 eşzamanlı istek
- Test süresi : 180 saniyelik ölçüm aşaması ve 30 saniyelik yükselme/soğuma süresi.
- İstek boyutu : İstek başına 1.000 giriş/çıkış belirteci
Sonuç doğrulama notu: Nihai ölçümleri kaydetmeden önce, her GPU için en uygun yapılandırmayı belirlemek üzere çok sayıda test gerçekleştirdik. Belirlendikten sonra, kararlılığı doğrulamak için kıyaslama testi art arda üç kez çalıştırıldı. Bu çalıştırmalar boyunca verim sonuçları tutarlıydı ve varyans %0,1'den azdı. Bu analizde bildirilen rakamlar, bu üç ardışık çalıştırmanın sonuncusuna dayanmaktadır.
Temel ölçütler
GPU'nun yük altında gösterdiği performansa dair kapsamlı bir görünüm sunmak için performansı birden fazla boyutta izledik.
- Verim : Sistem tarafından saniyede üretilen token sayısı, saniyede başarılı istek sayısı ve her bir istek için token oluşturma hızı.
- Gecikme Süresi : İlk Token'a Ulaşma Süresi (TTFT), P50/P95/P99 yüzdelik dilimleriyle uçtan uca gecikme süresi, istek başına ortalama gecikme süresi.
- Güvenilirlik : Başarı oranı yüzdesi, zaman aşımı ve diğer hata sınıflandırması
Yazılım yığınıyla ilgili hususlar
Performans yalnızca donanıma bağlı bir fonksiyon değildir. vLLM gibi çerçeveler, NVIDIA'in CUDA ekosistemi için AMD'in ROCm'sine kıyasla daha olgun ve yüksek düzeyde optimize edilmiş desteğe sahiptir. MI300X sonuçlarında gözlemlenen performans farklılıkları, donanımın teorik potansiyelinden ziyade yazılım optimizasyonunun mevcut durumunu kısmen yansıtıyor olabilir.
Yeni nesil donanım yol haritası
Bu kıyaslamada test edilen GPU'lar olan B200, H200, H100 ve MI300X, yapay zeka çıkarım donanımının mevcut neslini temsil etmektedir. Hem NVIDIA hem de AMD haleflerini duyurmuş olup, bu durum 2026 ve sonrası için altyapı yatırımları planlayan ekipler için önemli bir bağlam oluşturmaktadır.
Öte yandan, Jensen Huang, CES 2026'da Vera Rubin NVL72 platformunun seri üretime geçtiğini ve ilk sistemlerin 2026'nın ikinci yarısında sevk edilmesinin beklendiğini duyurdu. 2 NVIDIA'e göre, Rubin GPU yaklaşık 50 PFLOPs FP4 çıkarım performansı sunuyor; bu da burada kıyaslanan B200 gibi Blackwell tabanlı sistemlerin performansının yaklaşık beş katı. 3
Öte yandan, CDNA 5 mimarisine dayanan Instinct MI400'ün 2026 yılında piyasaya sürülmesi planlanıyor ve 432 GB HBM4 bellek sunarken MI350'nin işlem performansını yaklaşık olarak ikiye katlaması bekleniyor. 4 AMD ayrıca Meta'nin 6 gigawatt'a kadar kapasiteye sahip özel MI450 tabanlı Instinct sunucularını devreye alacağını ve sevkiyatların 2026 yılının ikinci yarısında başlayacağını duyurdu. 5 Oracle ayrıca, 2026'nın 3. çeyreğinden itibaren yaklaşık 50.000 adet MI450 serisi GPU ile desteklenen, halka açık bir yapay zeka süper kümesi sunacaktır. 6
Bu kıyaslamada yer alan GPU'ları kısa vadeli dağıtımlar için değerlendiren ekipler için B200 ve MI300X şu anda mevcut olan en yüksek performanslı seçenekler olmaya devam ediyor. Daha uzun vadeli planlama ufukları için, 2026 yol haritası her iki satıcıdan da hem verimlilik hem de maliyet etkinliğinde önemli bir değişim öngörüyor.
Çözüm
B200, yüksek verimlilikle öne çıkıyor ve toplu çıkarım işlemleri için iyi ölçeklenebiliyor. MI300X, düşük eşzamanlılıkta en hızlı yanıt sürelerini sunarak sohbet botları gibi gerçek zamanlı uygulamalar için daha uygun hale geliyor. H100 ve H200 ise bu ikisinin arasında yer alarak, her iki alanda da üstünlük sağlamadan genel amaçlı iş yüklerini karşılıyor.
Temel denge tüm donanımlarda geçerlidir: daha yüksek eşzamanlılık sistem verimliliğini artırır ancak istek başına gecikmeyi de yükseltir. İş yükünüzün önceliğinin hacim mi yoksa yanıt süresi mi olduğuna göre seçim yapın.
Daha fazla okuma
Aşağıdakiler gibi diğer yapay zeka donanımı araştırmalarını inceleyin:
- En İyi 20 Yapay Zeka Çip Üreticisi: NVIDIA ve Rakipleri
- Derin Öğrenme için Bulut GPU'ları: Kullanılabilirlik ve Fiyat/Performans
- En İyi 10 Sunucusuz GPU Bulut Hizmeti ve 14 Uygun Fiyatlı GPU
- Çoklu GPU Performans Testi
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.