Çoklu GPU Performans Testi: B200 vs H200 vs H100 vs MI300X

ile

güncellendi Nis 15, 2026

Yirmi yılı aşkın süredir, işlem performansını optimize etmek çalışmalarımın temel taşlarından biri olmuştur. Büyük Dil Modeli (LLM) çıkarımı için ne kadar iyi ölçeklenebildiklerini değerlendirmek amacıyla NVIDIA'ün B200, H200, H100 ve AMD'ün MI300X işlemcilerini karşılaştırmalı olarak test ettik. meta-llama/Llama-3.1-8B-Instruct modeliyle vLLM çerçevesini kullanarak 1, 2, 4 ve 8 GPU üzerinde testler gerçekleştirdik.

Her bir GPU mimarisinin paralelleştirilmiş, yoğun işlem gücü gerektiren iş yüklerini nasıl ele aldığını göstermek için işlem hacmi ve ölçeklendirme verimliliğini analiz ettik.

Çoklu GPU kıyaslama sonuçları

Toplam verim ile GPU sayısı arasındaki ilişki

Loading Chart

Toplam işlem hacmi (token/saniye): Bu metrik, tüm çoklu GPU sisteminin ham işlem gücünü temsil eder. Saniyede işlenen toplam giriş ve çıkış token sayısını ölçer ve bu nedenle yoğun, çevrimdışı bir iş yükü altında maksimum performansın en önemli göstergesidir.

Puanı nasıl hesapladığımızı anlamak için çoklu GPU kıyaslama metodolojimize bakın.

Temel performans göstergeleri:

Performans analizi : NVIDIA H200, test edilen tüm konfigürasyonlarda en yüksek verimi sunar ve H100'e göre %9-10 performans artışı sağlar. Sistem, çift GPU konfigürasyonlarında %99,8 ölçeklendirme verimliliğine ulaşarak neredeyse optimum kaynak kullanımını gösterir.

AMD MI300X performans özellikleri : AMD MI300X, saniyede 18.752 token işleme kapasitesine ulaşarak H200'ün performansının yaklaşık %74'ünü temsil eder. Sistem, iki GPU ve dört GPU konfigürasyonları için sırasıyla %95 ve %81 ölçeklendirme verimliliğini korur.

Ortalama çıkarım gecikmesi ve GPU sayısı arasındaki ilişki

Ortalama çıkarım gecikmesi (milisaniye): Bu metrik, tek bir isteğin baştan sona işlenmesi için geçen ortalama süreyi ölçer. Daha düşük gecikme, son kullanıcılar için daha hızlı ve daha duyarlı bir deneyim anlamına gelir.

Temel performans göstergeleri:

Gecikme performansı analizi : NVIDIA B200, değerlendirilen tüm konfigürasyonlarda en düşük gecikme ölçümlerini sergileyerek sekiz GPU'lu uygulamalarla 2,40 ms'ye ulaşmaktadır. Bu performans özellikleri, 3 ms'nin altında gecikmenin tasarım gereksinimi olduğu gerçek zamanlı etkileşimli sistemler gibi minimum yanıt süreleri gerektiren uygulamalar için onu ideal konuma getirmektedir.

Ölçeklenebilirlik gözlemleri : Analiz, tüm platformlarda GPU sayısı arttıkça gecikme süresindeki azalmanın azaldığını ortaya koymaktadır. En büyük gecikme süresi azalması, tek GPU'lu yapılandırmalardan çift GPU'lu yapılandırmalara geçiş sırasında gerçekleşir (platformlar genelinde yaklaşık %50). 4'ten fazla GPU'ya sahip yapılandırmalar, giderek daha küçük gecikme süresi iyileştirmeleri göstermektedir.

H200 ve H100 karşılaştırmalı analizi : H200, tüm ölçeklerde H100'e göre %5-8 daha düşük gecikme süresi sergiliyor; mutlak fark, daha yüksek GPU sayılarında azalıyor (sekiz GPU'da 2,81 ms'ye karşılık 2,86 ms, 0,05 ms fark). Bu marjinal performans farkı, %41'lik fiyat farkıyla karşılaştırıldığında, H100'ün gecikmeye duyarlı uygulamalar için daha uygun maliyet-performans özellikleri sunabileceğini düşündürüyor.

AMD MI300X gecikme özellikleri : MI300X, test edilen tüm konfigürasyonlarda H200'e göre %37-75 daha yüksek gecikme değerleri sergilemektedir; bu durum, vLLM ROCm ve CUDA uygulamaları arasındaki yazılım yığını olgunluğundaki mevcut farklılıklara bağlanabilir. Sekiz GPU ölçeğinde, MI300X 4,20 ms gecikme elde eder; bu da NVIDIA platformlarına göre performans farkına rağmen, çok sayıda üretim uygulaması için kabul edilebilir parametreler dahilinde kalmaktadır.

Performans ve fiyat: Maliyet-etkinlik analizi

Ham performans ölçütleri çok önemli olsa da, herhangi bir kuruluş için nihai karar maliyet verimliliğine bağlıdır. Her platformun yatırım getirisini (ROI) analiz etmek için, test sırasında RunPod'un saatlik talep üzerine fiyatlandırmasıyla işlem hacmi sonuçlarımızı eşleştirdik. Bu, hangi kurulumun en düşük maliyetle en fazla işlem gücü sunduğunu ortaya koyan bir "performans/dolar" puanı hesaplamamızı sağlar.

Not: Tüm fiyat bilgileri, karşılaştırma yapıldığı tarihte (Eylül 2025) RunPod Cloud platformunda mevcut olan isteğe bağlı fiyatları yansıtmaktadır ve değişebilir. Maliyetler karşılaştırmalı analiz amacıyla sunulmuştur ve depolama veya ağ ücretlerini içermez.

Dolar başına verimliliği nasıl hesapladık?

Bu grafiği oluşturmak için, ham performans verilerimizi saatlik maliyetlere göre işledik. Hesaplama formülü şu şekildedir:

Veri Hazırlığı: Sonuç tablomuzdaki her veri noktası için, belirli GPU yapılandırmasına karşılık gelen saatlik maliyeti aldık (örneğin, 4x H100'ün maliyeti 10,76$).
Hesaplama: Ardından, dolar başına verimlilik değerini hesaplamak için formülü uyguladık. Örneğin, 1x GPU'da çalışan H100, saatte 2,69 dolar maliyetle saniyede 23.243 token teslim etti ve bu da dolar başına saniyede 8.642 token'lık bir skorla sonuçlandı.

Bu verimlilik puanı, karar verme sürecini kolaylaştıran bir araç sunarak, tartışmayı "hangisi daha hızlı?" sorusundan "iş yükümüz için en akıllı yatırım hangisi?" sorusuna dönüştürüyor.

Çoklu GPU ölçeklendirmesi nedir?

Çoklu GPU ölçeklendirmesi, bir sistemin tek bir büyük görevi birden fazla GPU'ya dağıtarak performansını artırma yeteneğini ifade eder. LLM çıkarımı için bu, veri paralelliği yoluyla elde edilebilir; burada modelin bağımsız kopyaları her GPU'da çalışır ve bir yük dengeleyici gelen istekleri tüm örnekler arasında dağıtır.

İdeal olarak, iki GPU kullanmak tek bir GPU'nun performansının iki katını (2 kat hızlanma) sağlayacaktır. Ancak gerçekte, performans kazanımları CPU ve sistem darboğazları, ana sistemin birden fazla eş zamanlı işlemi yönetmek için harcadığı süre, bellek bant genişliği kısıtlamaları ve kaynak çekişmesi ile sınırlıdır. Karşılaştırma testimiz, her platformun bu sistem düzeyindeki kısıtlamaları ne kadar verimli bir şekilde yönettiğini ölçer; bu da küçük ve orta ölçekli modeller için uygun maliyetli, yüksek performanslı yapay zeka çıkarım sunucuları oluşturmak için kritik bir faktördür.

Çoklu GPU ölçeklendirme testlerinde karşılaşılan zorluklar nelerdir?

Çoklu GPU sistemlerinin performans testlerinin yapılması, performansı önemli ölçüde etkileyebilecek benzersiz zorluklar ortaya koymaktadır.

İletişim yükü ve ara bağlantı darboğazları

Bir model GPU'lar arasında bölündüğünde, NVIDIA'ün NVLink'i veya AMD'ün Infinity Fabric'i gibi ara bağlantı, kritik bir performans darboğazı haline gelir. GPU'lar arası iletişimin verimliliği, ölçeklendirmeyi doğrudan etkiler. Başka bir GPU'dan veri beklemek için harcanan süre, hesaplamanın paralelleştirilmesiyle elde edilen tasarruftan fazla ise, performans kazanımları azalacaktır. Bu etki, her bir GPU'nun hesaplama kapasitesini tam olarak doyuracak kadar büyük olmayan modellerde özellikle belirgindir.

Yazılım ekosisteminin olgunluğu

Performans yalnızca donanıma bağlı bir işlev değildir. Sürücüler, iletişim kütüphaneleri (örneğin NVIDIA için NCCL ve AMD için RCCL) ve çıkarım motoru (vLLM) dahil olmak üzere yazılım yığını çok büyük bir rol oynar. Bir platformun performansının, yazılım desteğinin olgunluğuyla derinden bağlantılı olduğunu keşfettik. NVIDIA'ün CUDA'sı gibi yerleşik bir ekosistem, yıllarca süren ince ayar ve optimizasyondan faydalanır; bu da, güçlü donanımlarda bile, AMD'ün ROCm'si gibi daha yeni entegrasyonlara kıyasla üstün ölçeklendirme verimliliğine yol açabilir.

Platforma özgü optimizasyonlar

Testlerimizin ortaya koyduğu gibi, optimum performansa ulaşmak genellikle platforma özgü yapılandırmalar gerektirir. Genel, "herkese uyan tek bir çözüm" yaklaşımı, yanıltıcı derecede düşük performansa yol açabilir. Doğru Docker imajı, ortam değişkenleri (örneğin, özel AMD çekirdeklerini etkinleştirme) ve hatta model veri tipleri (örneğin, Blackwell için bfloat16), donanımın gerçek potansiyelini ortaya çıkarmak için çok önemlidir. Bu da adil "elma ile elmaya" karşılaştırmaları önemli bir teknik zorluk haline getirir.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Takip Et

Çoklu GPU kıyaslama metodolojisi

Ölçeklenebilirlik yeteneklerini değerlendirmek için hem NVIDIA hem de AMD'ten en yeni yüksek performanslı GPU mimarilerini test ettik. Karşılaştırma testimiz, standart meta-llama/Llama-3.1-8B-Instruct kullanarak tekli ve çoklu GPU (1x, 2x, 4x, 8x) yapılandırmalarının performansını ölçtü. ¹ model ve vLLM ² çıkarım motoru.

Test ortamı ve süreci

Platform : Tüm performans testleri, donanıma tutarlı erişim sağlamak amacıyla RunPod Cloud üzerinde gerçekleştirilmiştir.
Çıkarım motoru : Standartlaştırılmış motor olarak vLLM (vllm bench throughput tool) kullanıldı.
Model : meta-llama/Llama-3.1-8B-Instruct.
Veri kümesi : Konuşma tabanlı iş yükünü simüle etmek için ShareGPT Vicuna veri kümesi (25.000 istem).
Strateji : Veri paralelliği; her çoklu GPU testi, her GPU üzerinde bağımsız bir vLLM örneği çalıştırdı. Toplam komut yükü, yük dengelemeli bir üretim ortamını simüle etmek için eş zamanlı olarak yürütülen örnekler arasında eşit olarak dağıtıldı. Bu yaklaşım, GPU'lar arası iletişimi (NVLink/PCIe) bir darboğaz olmaktan çıkararak, performans sınırlayıcılarını ana sisteme (CPU, RAM) kaydırır.
Otomasyon : Ortam kurulumu, test yürütme, kaynak izleme (nvidia-smi, rocm-smi) ve sonuçların toplanması işlemlerini otomatikleştirmek için özel Bash komut dosyaları kullanıldı.

Platforma özgü yapılandırmalar

En iyi performansı elde etmek için her mimariye özel yapılandırmalar gerekiyordu.

NVIDIA platformları (H100, H200, B200)

Temel imaj : runpod/pytorch:2.8.0-py3.11-cuda12.8.1.
vLLM kurulumu :
- H100/H200 (Hazne) : pip install vllm komutuyla standart kurulum.
- B200 (Blackwell) : vLLM, yeni mimariye yerel destek sağlamak ve "çekirdek görüntüsü yok" hatalarını gidermek için kaynak koddan derlendi (pip install -e .).
Temel parametreler :

Kritik Çevresel Değişken :

AMD platformu (MI300X)

Temel görüntü : rocm/vllm:rocm6.4.1_vllm_0.10.1_20250909
vLLM kurulumu : Optimize edilmiş sürüm imaj dosyasına dahil edildiğinden kurulum gerekmedi.
Temel parametreler ve optimizasyonlar : Kapsamlı ayarlamalar sonucunda, maksimum verim elde etmek için aşağıdaki varsayılan olmayan ayarların kritik öneme sahip olduğu belirlenmiştir:

AMD-özel ortam değişkenleri :

Cihaz görünürlüğü : Örnekleri belirli GPU'lara atamak için CUDA'nın eşdeğeri yerine ROCR_VISIBLE_DEVICES kullanıldı.

Kıyaslama yürütme aşamaları

Her bir kıyaslama testi, doğru ve tekrarlanabilir sonuçlar elde etmek için üç aşamalı bir yürütme protokolüne göre gerçekleştirildi:

Aşama 1: Isınma

Her çoklu GPU yapılandırma testinden önce, soğuk başlatma etkilerini ortadan kaldırmak için özel bir ısınma aşaması gerçekleştirdik:

Süre: GPU 0'da işlenen 100 komut istemi
Amaç: Model yükleme, KV önbellek başlatma ve CUDA/ROCm çekirdek derlemesi.
Çıktı: Atıldı (ölçümlere dahil edilmedi)
Platforma özgü davranış:
- NVIDIA (CUDA): Çekirdek derlemesi ve CUDA grafik optimizasyonu (~30-60 saniye)
- AMD (ROCm): Çekirdek derlemesi ve isteğe bağlı TunableOp ayarı (PYTORCH_TUNABLEOP_ENABLED ayarına bağlı olarak değişir)

Aşama 2: GPU izleme başlatma

Performans testlerinin yürütülmesiyle eş zamanlı olarak, her bir GPU için özel izleme süreçleri başlattık:

Örnekleme hızı: 1 saniyelik aralıklarla
Toplanan ölçümler: GPU kullanımı, bellek kullanımı, sıcaklık, güç tüketimi.
Araçlar: nvidia-smi (NVIDIA) veya rocm-smi (AMD)
Çıktı: Analiz sonrası için CSV günlük dosyaları

Aşama 3: Paralel kıyaslama testi yürütme

Isınma işlemi tamamlandıktan sonra, tüm GPU örnekleri eş zamanlı olarak başlatıldı:

Her bir GPU, toplam 25.000 komut isteminin eşit bir bölümünü işledi.
Üretim ortamında yük dengelemesini simüle etmek için tüm örnekler aynı saniye içinde başlatıldı.
Toplam verim, tüm GPU çıktılarının toplamı olarak ölçülür.
Yürütme süresi, ilk örnek başlatılmasından son örnek tamamlanmasına kadar ölçülür.

Testlerin gerçek dünya performansına etkisi

Yaptığımız testler, küçük yapılandırma hatalarının önemli ve yanıltıcı performans sonuçlarına yol açabileceğini ortaya koydu. Aşağıdaki tablo, platforma özgü yanlış yapılandırmaların etkisini göstermektedir:

Çözüm

8B-13B sınıfındaki sunucular için veri paralelliği oldukça verimli bir stratejidir. Donanım seçimi, belirli dağıtım önceliklerine bağlıdır.

Maliyet etkinliğinin öncelikli bir husus olduğu iş yükleri için, NVIDIA H100, performans ölçütlerini, satın alma maliyetlerini ve öngörülebilir ölçeklendirme davranışını dengeleyerek avantajlı özellikler sunar.

Bütçe kısıtlamaları olmaksızın verimliliğin en üst düzeye çıkarılmasının temel amaç olduğu durumlarda, NVIDIA H200 değerlendirilen platformlar arasında en yüksek performans ölçümlerini sergilemektedir.

MI300X, uzun vadeli dağıtım stratejileri ve 9912591693 tabanlı altyapı ortamları için dikkat çekici özellikler sunmaktadır. Yazılım optimizasyon yinelemeleriyle performans iyileştirmeleri beklenmekte olup, platformun önemli VRAM kapasitesi daha büyük model mimarilerinin barındırılmasını sağlamaktadır.

NVIDIA B200, bu özel iş yükü yapılandırmasında sınırlamalar sergileyerek, işlemciyle ilgili performans kısıtlamaları ve optimum olmayan maliyet-verimlilik göstermektedir. Mimari, tensör paralelliği stratejileri kullanan büyük ölçekli modeller için daha uygun görünmektedir.

Daha fazla okuma

Aşağıdakiler gibi diğer yapay zeka donanımı araştırmalarını inceleyin:

Referans Linkleri

meta-llama/Llama-3.1-8B-Instruct · Hugging Face

https://docs.vllm.ai/en/latest/

Sedat Dogan

CTO

Takip Et

Sedat, yazılım geliştirme, web veri toplama ve siber güvenlik alanlarında deneyime sahip bir teknoloji ve bilgi güvenliği lideridir. Sedat: - Programlama dilleri ve sunucu mimarileri konusunda geniş uzmanlığa sahip, 20 yıllık beyaz şapkalı hacker ve geliştirme uzmanı deneyimine sahiptir. - Ödeme altyapısı gibi yüksek trafikli ve kritik öneme sahip teknoloji operasyonlarına sahip şirketlerin üst düzey yöneticilerine ve yönetim kurulu üyelerine danışmanlık yapmaktadır. - Teknik uzmanlığının yanı sıra kapsamlı iş zekasına da sahiptir.

Tam Profili Görüntüle

Araştıran

Ekrem Sarı

Yapay Zeka Araştırmacısı

Takip Et

Ekrem, AIMultiple'da yapay zeka araştırmacısı olarak çalışmakta olup, akıllı otomasyon, GPU'lar, yapay zeka ajanları ve RAG çerçeveleri üzerine yoğunlaşmaktadır.

Tam Profili Görüntüle