Bize Ulaşın
Sonuç bulunamadı.

GPU Eşzamanlılık Performans Testi: H100 vs H200 vs B200 vs MI300X

Sedat Dogan
Sedat Dogan
güncellendi Mar 12, 2026
Bakınız etik normlar

Son 20 yıldır sistem düzeyinde hesaplama performansı optimizasyonuna odaklandım. Eşzamanlılık ölçeklendirme analizi için, NVIDIA'in H100, H200 ve B200'ü ile AMD'in MI300X'i de dahil olmak üzere en yeni NVIDIA GPU'larını kıyasladık. gpt-oss-20b modeliyle vLLM çerçevesini kullanarak, bu GPU'ların 1 ila 512 eşzamanlı isteği nasıl işlediğini test ettik. Sistem çıktı verimliliğini, sorgu başına çıktı hızını ve uçtan uca gecikmeyi ölçerek, yapay zeka iş yükleri için GPU performansını anlamaya yardımcı olacak bulguları paylaşıyoruz.

Eşzamanlılık kıyaslama sonuçları

Sistem çıktı verimliliği ve eşzamanlılık arasındaki ilişki

Loading Chart

Bu grafik, sistem tarafından her eşzamanlılık seviyesinde saniyede üretilen toplam çıktı belirteci sayısını göstermektedir.

Sorgu başına çıktı hızı ve eşzamanlılık arasındaki ilişki

Bu ölçüm, sistem yoğunlaştıkça tek bir sorgunun ne kadar hızlı işlendiğini (saniyede token sayısı olarak) gösterir. 1.000 tokenlik bir çıktı için uçtan uca gecikme süresine göre hesaplanır.

Uçtan Uca Gecikme Süresi ve Eşzamanlılık Karşılaştırması

Bu grafik, farklı eşzamanlılık seviyelerinde bir isteğin baştan sona tamamlanması için geçen ortalama süreyi (milisaniye cinsinden) göstermektedir.

Dolar başına saniyede token sayısı ile eşzamanlılık karşılaştırması

Bu grafik, saatlik kiralama için harcanan her dolar karşılığında saniyede kaç token üretildiğini ölçerek her bir GPU'nun maliyet etkinliğini değerlendirir. Bu ölçüt, özellikle bütçe bilincine sahip kurulumlar için her donanım seçeneğinin yatırım getirisini anlamak açısından çok önemlidir.

Not: Fiyatlandırma, Mart 2026 itibarıyla Runpod bulut platformundan alınan isteğe bağlı saatlik ücretlere dayanmaktadır. Fiyatlar değişebilir ve kullanılabilirlik ve örnek türüne bağlı olarak farklılık gösterebilir.

Eşzamanlılık performans testi metodolojimiz hakkında daha fazla bilgi edinebilirsiniz.

Eşzamanlılık nedir?

Eşzamanlılık, bir GPU'nun aynı anda birden fazla isteği işleme yeteneğini ifade eder ve büyük dil modeli çıkarımı gibi yapay zeka iş yükleri için önemli bir faktördür. Performans değerlendirmemizde, eşzamanlılık seviyeleri, test çalışmaları sırasında GPU'ya gönderilen eşzamanlı istek sayısını (1 ila 512 arasında) temsil eder. Daha yüksek eşzamanlılık, GPU'nun performansı düşürmeden paralel görevleri yönetme, verimlilik ve gecikmeyi dengeleme kapasitesini test eder.

Eşzamanlılığı anlamak, kullanıcıların değişken talep veya toplu işlem ihtiyaçlarına sahip iş yükleri için doğru GPU'yu belirlemelerine yardımcı olur. Grafik testleri veya GPU kıyaslama paketleri çalıştırılırken, eşzamanlılık performansı GPU'lar arasında önemli ölçüde farklılık gösterebilir; bu nedenle tüketicilerin ve alıcıların farklı sistem yapılandırmaları ve fiyat noktalarındaki test sonuçlarını karşılaştırmaları çok önemlidir.

vLLM nedir?

vLLM, büyük dil modeli (LLM) çıkarımı ve sunumu için hızlı ve kullanımı kolay, açık kaynaklı bir kütüphanedir ve katkıda bulunanlar topluluğu tarafından desteklenmektedir. Bellek yönetimi, eşzamanlı isteklerin işlenmesi ve gpt-oss-20b gibi modellerin verimli bir şekilde sunulması yoluyla hem bulut hem de kendi kendine barındırılan LLM dağıtımlarını ele alır. Kendi kendine barındırılan LLM'ler için vLLM, PagedAttention gibi özelliklerle dağıtımı basitleştirir. Bellek yönetimi, sürekli gruplama ve hem NVIDIA hem de AMD GPU'ları desteklemek için 1 özellik, yerel donanımda birden fazla eş zamanlı isteği mümkün kılar.

Eşzamanlılık kıyaslama metodolojisi

Yapay zekâ çıkarım iş yükleri için eşzamanlılık ölçeklendirme yeteneklerini değerlendirmek amacıyla hem NVIDIA hem de AMD'in en yeni yüksek performanslı GPU mimarilerini test ettik. Karşılaştırma testimiz, NVIDIA'in H100, H200 ve B200 GPU'larını AMD'in MI300X'iyle birlikte, değişen eşzamanlı yük koşulları altında vLLM aracılığıyla OpenAI gpt-oss-20b modelini çalıştırarak gerçekleştirdi. Bu analiz, verimlilik metrikleri, gecikme dağılımları ve kaynak kullanım modellerinin ölçümü yoluyla yapay zekâ çıkarım uygulamaları için içgörüler sağlamayı amaçlamaktadır.

Test altyapısı

Testlerimizi Runpod'in bulut altyapısında, NVIDIA'in en gelişmiş GPU mimarilerini ve vLLM çerçevesini kullanarak gerçekleştirdik.

  • GPU platformu : Runpod bulut altyapısı (H100, H200, B200 ve MI300X)
  • Model : OpenAI GPT-OSS-20B vLLM çerçevesi aracılığıyla

Yazılım ortamı

NVIDIA GPU'lar (H100, H200, B200):

  • RunPod şablonu: runpod/pytorch:1.0.2-cu1281-torch280-ubuntu2404
  • vLLM kurulumu: vllm[flashinfer]==0.11.0

AMD GPU (MI300X):

  • Docker imajı: rocm/vllm-dev:open-mi300-08052025

vLLM sunucu yapılandırması

Her donanım mimarisi için performansı optimize etmek amacıyla farklı vLLM ayarları kullanıldı.

  • NVIDIA H100, H200 ve B200 GPU'lar için sunucu aşağıdaki komutla başlatıldı:
  • AMD MI300X GPU için , mimariye özgü ayarlarla ROCm optimizasyonlu bir vLLM derlemesi kullanıldı:

Not: Bu kıyaslama vLLM v0.11.0 kullanılarak gerçekleştirilmiştir. 2025 yılının başlarında piyasaya sürülen vLLM v1.0, farklı verim sonuçları üretebilecek mimari değişiklikler içermektedir.

Kıyaslama yapılandırması

Her bir GPU, tutarlı sonuçlar elde etmek için standartlaştırılmış parametrelerle 9 farklı eşzamanlılık seviyesinde test edildi.

  • Eşzamanlılık seviyeleri : 1, 4, 8, 16, 32, 64, 128, 256, 512 eşzamanlı istek
  • Test süresi : 180 saniyelik ölçüm aşaması ve 30 saniyelik yükselme/soğuma süresi.
  • İstek boyutu : İstek başına 1.000 giriş/çıkış belirteci

Sonuç doğrulama notu: Nihai ölçümleri kaydetmeden önce, her GPU için en uygun yapılandırmayı belirlemek üzere çok sayıda test gerçekleştirdik. Belirlendikten sonra, kararlılığı doğrulamak için kıyaslama testi art arda üç kez çalıştırıldı. Bu çalıştırmalar boyunca verim sonuçları tutarlıydı ve varyans %0,1'den azdı. Bu analizde bildirilen rakamlar, bu üç ardışık çalıştırmanın sonuncusuna dayanmaktadır.

Temel ölçütler

GPU'nun yük altında gösterdiği performansa dair kapsamlı bir görünüm sunmak için performansı birden fazla boyutta izledik.

  • Verim : Sistem tarafından saniyede üretilen token sayısı, saniyede başarılı istek sayısı ve her bir istek için token oluşturma hızı.
  • Gecikme Süresi : İlk Token'a Ulaşma Süresi (TTFT), P50/P95/P99 yüzdelik dilimleriyle uçtan uca gecikme süresi, istek başına ortalama gecikme süresi.
  • Güvenilirlik : Başarı oranı yüzdesi, zaman aşımı ve diğer hata sınıflandırması

Yazılım yığınıyla ilgili hususlar

Performans yalnızca donanıma bağlı bir fonksiyon değildir. vLLM gibi çerçeveler, NVIDIA'in CUDA ekosistemi için AMD'in ROCm'sine kıyasla daha olgun ve yüksek düzeyde optimize edilmiş desteğe sahiptir. MI300X sonuçlarında gözlemlenen performans farklılıkları, donanımın teorik potansiyelinden ziyade yazılım optimizasyonunun mevcut durumunu kısmen yansıtıyor olabilir.

Yeni nesil donanım yol haritası

Bu kıyaslamada test edilen GPU'lar olan B200, H200, H100 ve MI300X, yapay zeka çıkarım donanımının mevcut neslini temsil etmektedir. Hem NVIDIA hem de AMD haleflerini duyurmuş olup, bu durum 2026 ve sonrası için altyapı yatırımları planlayan ekipler için önemli bir bağlam oluşturmaktadır.

Öte yandan, Jensen Huang, CES 2026'da Vera Rubin NVL72 platformunun seri üretime geçtiğini ve ilk sistemlerin 2026'nın ikinci yarısında sevk edilmesinin beklendiğini duyurdu. 2 NVIDIA'e göre, Rubin GPU yaklaşık 50 PFLOPs FP4 çıkarım performansı sunuyor; bu da burada kıyaslanan B200 gibi Blackwell tabanlı sistemlerin performansının yaklaşık beş katı. 3

Öte yandan, CDNA 5 mimarisine dayanan Instinct MI400'ün 2026 yılında piyasaya sürülmesi planlanıyor ve 432 GB HBM4 bellek sunarken MI350'nin işlem performansını yaklaşık olarak ikiye katlaması bekleniyor. 4 AMD ayrıca Meta'nin 6 gigawatt'a kadar kapasiteye sahip özel MI450 tabanlı Instinct sunucularını devreye alacağını ve sevkiyatların 2026 yılının ikinci yarısında başlayacağını duyurdu. 5 Oracle ayrıca, 2026'nın 3. çeyreğinden itibaren yaklaşık 50.000 adet MI450 serisi GPU ile desteklenen, halka açık bir yapay zeka süper kümesi sunacaktır. 6

Bu kıyaslamada yer alan GPU'ları kısa vadeli dağıtımlar için değerlendiren ekipler için B200 ve MI300X şu anda mevcut olan en yüksek performanslı seçenekler olmaya devam ediyor. Daha uzun vadeli planlama ufukları için, 2026 yol haritası her iki satıcıdan da hem verimlilik hem de maliyet etkinliğinde önemli bir değişim öngörüyor.

Çözüm

B200, yüksek verimlilikle öne çıkıyor ve toplu çıkarım işlemleri için iyi ölçeklenebiliyor. MI300X, düşük eşzamanlılıkta en hızlı yanıt sürelerini sunarak sohbet botları gibi gerçek zamanlı uygulamalar için daha uygun hale geliyor. H100 ve H200 ise bu ikisinin arasında yer alarak, her iki alanda da üstünlük sağlamadan genel amaçlı iş yüklerini karşılıyor.

Temel denge tüm donanımlarda geçerlidir: daha yüksek eşzamanlılık sistem verimliliğini artırır ancak istek başına gecikmeyi de yükseltir. İş yükünüzün önceliğinin hacim mi yoksa yanıt süresi mi olduğuna göre seçim yapın.

Daha fazla okuma

Aşağıdakiler gibi diğer yapay zeka donanımı araştırmalarını inceleyin:

Sedat Dogan
Sedat Dogan
CTO
Sedat, yazılım geliştirme, web veri toplama ve siber güvenlik alanlarında deneyime sahip bir teknoloji ve bilgi güvenliği lideridir. Sedat: - Programlama dilleri ve sunucu mimarileri konusunda geniş uzmanlığa sahip, 20 yıllık beyaz şapkalı hacker ve geliştirme uzmanı deneyimine sahiptir. - Ödeme altyapısı gibi yüksek trafikli ve kritik öneme sahip teknoloji operasyonlarına sahip şirketlerin üst düzey yöneticilerine ve yönetim kurulu üyelerine danışmanlık yapmaktadır. - Teknik uzmanlığının yanı sıra kapsamlı iş zekasına da sahiptir.
Tam Profili Görüntüle
Araştıran
Ekrem Sarı
Ekrem Sarı
Yapay Zeka Araştırmacısı
Ekrem, AIMultiple'da yapay zeka araştırmacısı olarak çalışmakta olup, akıllı otomasyon, GPU'lar, yapay zeka ajanları ve RAG çerçeveleri üzerine yoğunlaşmaktadır.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450