Bize Ulaşın
Sonuç bulunamadı.

2026 Yılında Kullanım Senaryolarına Göre LLM Gecikme Süresi Karşılaştırması

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 22, 2026
Bakınız etik normlar

Büyük dil modellerinin (LLM'ler) etkinliği yalnızca doğrulukları ve yetenekleriyle değil, aynı zamanda kullanıcılarla etkileşime girme hızlarıyla da belirlenir.

Önde gelen dil modellerinin performansını çeşitli kullanım durumlarında karşılaştırdık ve kullanıcı girdisine verdikleri yanıt sürelerini ölçtük. İki temel ölçüme odaklandık: İlk Token Gecikmesi (First Token Latency) , modelin bir yanıtın ilk token'ını üretmeye başlaması için geçen süre ve Token Başına Gecikme (Per Token Latency) , yanıt boyunca her bir token'ın üretilmesi için geçen süre.

LLM gecikme süresi kıyaslaması

Loading Chart

Gecikme süresini nasıl ölçtüğümüze dair ayrıntıları burada bulabilirsiniz.

İlk token gecikmesi kıyaslama sonuçlarına ulaşma süresi

İlk belirteç oluşturma süresi (TTFT), bir modelin bir komut aldıktan sonra ilk belirtecini oluşturması için geçen süreyi ölçer ve modelin ne kadar hızlı yanıt vermeye başladığını yansıtır.

Sonuçlar değerlendirilen tüm kullanım durumlarına genelleştirildiğinde, Mistral Large 2512 ve GPT-5.2 tutarlı bir şekilde saniyenin altında ilk belirteç gecikmeleri elde ederek çok hızlı ilk yanıt davranışı sergiliyor.

Claude 4.5 Sonnet, belirgin şekilde daha yüksek ancak yine de istikrarlı bir ilk belirteç gecikmesi göstererek orta seviyede yer almaktadır. Buna karşılık, Grok 4.1 Fast Reasoning ve DeepSeek V3.2, ilk belirteci üretmeden önce önemli ölçüde daha uzun gecikmeler sergilemekte olup, bu durum görevler arasında tutarlı kalmaktadır.

Jeton başına gecikme karşılaştırma sonuçları

Jeton başına gecikme süresi, ilk jetondan sonra her bir sonraki jetonun oluşturulması için gereken ortalama süreyi ölçer ve modelin sürekli üretim hızını yansıtır.

Mistral Large 2512 ve GPT-5.2, sürekli olarak saniyenin altında ilk belirteç gecikmeleri elde ederek çok hızlı ilk yanıt davranışı sergiliyor.

Claude 4.5 Sonnet, belirgin şekilde daha yüksek ancak yine de istikrarlı bir ilk belirteç gecikmesi göstererek orta seviyede yer almaktadır. Buna karşılık, Grok 4.1 Fast Reasoning ve DeepSeek V3.2, ilk belirteci üretmeden önce önemli ölçüde daha uzun gecikmeler sergilemekte olup, bu durum görevler arasında tutarlı kalmaktadır.

LLM hız karşılaştırması (kullanım senaryosuna göre)

Gecikme sürelerindeki varyasyonların görev türüne bağlı olduğunu gözlemliyoruz; bu da bu modellerin kullanım durumlarına göre farklı performans profilleri sergilediğini gösteriyor.

Soru-Cevap

Müşteri desteği, sanal asistanlar ve kurumsal bilgi işlem araçları gibi soru-cevap senaryolarında, hız ve yanıt süreleri kullanıcı deneyimini doğrudan etkiler.

  • Mistral Large 2512, 0,30 saniyelik ilk belirteç gecikmesiyle en hızlı ilk yanıtı sunarak, anında yanıt gerektiren canlı destek sistemleri için idealdir. 0,025 saniyelik belirteç başına gecikmesi, her uzunluktaki yanıtların oluşturulmasında mükemmel verimlilik sağlar.
  • GPT-5.2, 0,60 saniyelik ilk belirteç gecikmesi ve 0,020 saniyelik belirteç başına gecikme ile onu yakından takip ediyor. Başlangıçta biraz daha yavaş olsa da, daha düşük belirteç başına gecikmesi, daha uzun ve daha ayrıntılı yanıtlar için onu oldukça verimli kılıyor.
  • İlk belirteç gecikmesi 2 saniye ve belirteç başına gecikmesi 0,030 saniye olan Claude 4.5 Sonnet , orta düzeyde bir başlangıç tepki hızı sergiliyor. İlk belirteçten önceki gecikme gerçek zamanlı etkileşimleri etkileyebilse de, istikrarlı üretim hızı genel performansı makul seviyede tutuyor.
  • Grok 4.1 Hızlı Akıl Yürütme, 3 saniyelik ilk belirteç gecikmesine ve 0,010 saniyelik mükemmel belirteç başına gecikmeye sahiptir. Daha yavaş başlangıca rağmen, üretim başladıktan sonra belirteçleri son derece hızlı bir şekilde üretir; bu da toplam üretim süresinin anlık yanıttan daha önemli olduğu uygulamalar için uygun hale getirir.
  • DeepSeek V3.2 , 7 saniyelik ilk belirteç gecikmesi ve belirteç başına 0,032 saniyelik gecikmesiyle genel olarak en yavaş modeldir. İlk belirteçten önce yaşanan önemli bekleme süresi, onu hız açısından kritik öneme sahip soru-cevap sistemleri için daha az uygun hale getirmektedir.

Özet oluşturma

Özet oluşturma kullanım senaryosu, kullanıcıların uzun metinleri hızlıca kavraması gereken uygulamalarda kritik bir rol oynar. Örneğin, müşteri hizmetleri ekiplerinin bir çağrı kaydını saniyeler içinde özetleyip harekete geçmesi gereken senaryolarda, ilk belirteç gecikmesi doğrudan kullanıcı deneyimini etkiler.

  • Mistral Large 2512, 0,45 saniyelik ilk belirteç gecikmesi ve 0,025 saniyelik belirteç başına gecikme ile öne çıkıyor ve bu da hızlı belge özetleme gerektiren senaryolar için etkili bir seçenek haline getiriyor.
  • GPT-5.2, 0,60 saniyelik ilk belirteç gecikmesi ve 0,020 saniyelik en hızlı belirteç başına gecikme ile daha uzun içeriklerde bile hızını koruyabiliyor.
  • Claude 4.5 Sonnet , 2 saniyelik ilk belirteç gecikmesiyle daha yavaş bir ilk yanıt süresine sahip. Bununla birlikte, belirteç başına 0,030 saniyelik gecikme süresi, özetleme görevleri için genel olarak yine de iyi bir performans sağlıyor.
  • Grok 4.1 Hızlı Akıl Yürütme, ilk belirteç gecikmesinde 4 saniye gösteriyor ancak belirteç başına 0,010 saniyelik mükemmel bir gecikmeyle bunu telafi ederek, üretim başladıktan sonra verimli hale geliyor.
  • DeepSeek V3.2, 7,5 saniyelik ilk belirteç gecikmesi ve 0,025 saniyelik belirteç başına gecikme ile en yavaş model olarak öne çıkıyor.

Dil çevirisi

Yaptığımız kıyaslama çalışmasına göre, çeviri görevleri, ilk yanıt süresi ve sürekli üretim hızı arasında ilginç performans dengeleri ortaya koymaktadır.

  • Mistral Large 2512, 0,40 saniyelik ilk belirteç gecikmesi ve 0,020 saniyelik belirteç başına gecikme ile en hızlı ilk yanıtı sunarak gerçek zamanlı çeviri senaryoları için idealdir.
  • GPT-5.2, 0,55 saniyede başlar ve belirteç başına en düşük gecikme süresi olan 0,010 saniye ile, üretim başladıktan sonra daha uzun çeviriler için olağanüstü verimlilik sağlar.
  • Claude 4.5 Sonnet , 2 saniyelik ilk belirteç gecikmesi ve 0,015 saniyelik belirteç başına gecikmesiyle, orta düzeyde başlangıç tepki hızını güçlü ve sürekli üretim hızıyla dengeliyor.
  • Grok 4.1 Hızlı Akıl Yürütme, 6 saniyelik ilk belirteç gecikmesine sahip. Buna rağmen, bu kategorideki en hızlısı olan 0,005 saniyelik mükemmel belirteç başına gecikme süresini koruyarak, toplu çeviri görevleri için son derece verimli hale geliyor.
  • DeepSeek V3.2 , 7,5 saniyelik en yüksek ilk belirteç gecikmesini ve belirteç başına 0,025 saniyelik gecikmeyi sergileyerek, zamana duyarlı çeviri iş akışlarında uygulanabilirliğini sınırlamaktadır.

İş Analizi

İş Analizi kullanım örneğinde gözlemlediğimiz sonuçlara göre, modeller farklı analitik senaryolara uygun çeşitli performans profilleri sergilemektedir.

  • Mistral Large 2512, 0,40 saniyelik ilk belirteç gecikmesiyle güçlü bir ilk yanıt veriyor; ancak belirteç başına gecikmesi 0,040 saniye ile diğer kullanım durumlarına göre daha yüksek. Rutin iş analizi görevleri için uygun olmaya devam ediyor.
  • GPT-5.2, 0,50 saniyede başlar ve belirteç başına 0,020 saniyelik gecikme süresiyle, günlük raporlar veya gösterge panoları gibi hem hızlı başlangıçlar hem de verimli uzun çıktılar gerektiren iş analizi görevleri için uygundur.
  • Claude 4.5 Sonnet, ilk belirteç gecikmesi 2 saniye ve belirteç başına gecikme 0,035 saniye ile yanıt verir. İlk gecikme gerçek zamanlı iş akışlarında aksamalara neden olabilse de, toplu veri incelemeleri veya planlanmış raporlama için tutarlı çıktı hızı sağlar.
  • Grok 4.1 Hızlı Akıl Yürütme, 4 saniyelik ilk belirteç gecikmesi gösterirken, 0,010 saniyelik mükemmel belirteç başına verimlilik sunarak, toplam tamamlama süresinin anlık yanıttan daha önemli olduğu kapsamlı analitik raporlar için etkili bir çözüm haline geliyor.
  • DeepSeek V3.2, 8 saniyelik ilk belirteç gecikmesi ve 0,030 saniyelik belirteç başına gecikme ile en yavaş modeldi ve bu da onu zamana duyarlı iş analizi senaryoları için daha az uygun hale getiriyordu.

Kodlama

Kodlama görevleri, kod üretiminin farklı yönleri için optimize edilmiş modellerde belirgin performans özelliklerini ortaya koymaktadır.

  • Mistral Large 2512, 0,30 saniyelik en düşük ilk belirteç gecikmesine ve 0,025 saniyelik belirteç başına gecikmeye sahipti; bu da onu kod üretmeye başlama ve süreç boyunca sağlam bir verimlilik sağlama konusunda en hızlı model haline getiriyordu.
  • GPT-5.2, 0,50 saniyelik ilk belirteç gecikmesi ve 0,015 saniyelik en iyi belirteç başına gecikme ile bunu takip etti. Bu kombinasyon, GPT-5.2'nin biraz daha yavaş bir başlangıçtan sonra hızla toparlanmasını sağlayarak, sürekli belirteç oluşturma hızının önemli olduğu daha uzun veya daha karmaşık kodlama görevlerini ele almada son derece verimli olmasını sağlar.
  • Claude 4.5 Sonnet , 2 saniyelik ilk belirteç gecikmesi ve 0,028 saniyelik belirteç başına gecikmesiyle orta düzeyde bir yanıt hızı sergiledi. Başlatmada en hızlısı olmasa da, tipik kodlama iş akışları için makul bir üretim hızı sağlıyor.
  • Grok 4.1 Hızlı Akıl Yürütme, ilk belirteç gecikmesi 11 saniye iken, belirteç başına en hızlı gecikme 0,005 saniyeydi. Başlangıçtaki önemli gecikmeye rağmen, üretim başladıktan sonra son derece hızlı bir şekilde kod üretiyor ve bu da onu toplu kod üretimi görevleri için uygun hale getiriyor.
  • DeepSeek V3.2 , 19 saniyelik ilk belirteç gecikmesiyle en yüksek değere sahipti ve belirteç başına gecikme 0,030 saniyeydi; bu da onu kodlama görevleri için gruptaki en yavaş hale getiriyor ve anlık geri bildirimin gerekli olduğu etkileşimli geliştirme ortamlarındaki uygulanabilirliğini sınırlıyor.

LLM mantığı ve hız üzerindeki etkisi

Akıl yürütme modellerinin başlaması daha uzun sürer çünkü düşünce zinciri sürecine girerler; bir yanıt üretmeden önce sorunu adım adım içsel olarak "düşünürler". Bu ekstra içsel akıl yürütme, ilk gecikmeye neden olur.

Bu daha yavaş başlangıcın nedeni, bu modellerin sadece metin üretmekle kalmaması; önce daha derin bir analiz ve mantıksal çıkarım yapmalarıdır ki bu da ek hesaplama süresi gerektirir. Bu içsel "düşünme" süreci, daha doğru ve özenli çıktılara yol açar.

Örneğin, kıyaslama testimizde, Grok 4.1 Hızlı Akıl Yürütme, daha basit üretken modellere kıyasla daha yüksek bir İlk Belirteç Bulma Süresi gösterdi çünkü içsel olarak daha fazla zaman harcıyor. Daha yavaş bir başlangıca rağmen, verdiği cevapların kalitesi ve doğruluğu önemli ölçüde daha iyiydi.

LLM gecikmesi nedir ve neden önemlidir?

Büyük dil modeli (LLM) gecikmesi, büyük bir dil modelinin kullanıcı girdisini aldıktan sonra bir yanıt üretmesi için geçen süreyi ifade eder. Pratikte, gecikme tek bir sayı değil, bir sistemin ne kadar hızlı tepki verdiğini ve çıktı üretimini ne kadar hızlı tamamladığını açıklayan bir dizi gecikme ölçüsüdür.

En önemli ayrımlardan biri uçtan uca gecikmedir (E2E gecikme) . E2E gecikme, sunucunun bir isteği aldığı andan, son belirteç de dahil olmak üzere yanıtı göndermeyi tamamladığı ana kadar geçen toplam süreyi ölçer. Bu değer, kullanıcının deneyimlediği toplam bekleme süresini yansıtır ve kullanıcıların yanıt verme hızı olarak algıladıklarıyla yakından ilişkilidir.

Gecikme süresi genellikle şu gibi temel ölçütlere ayrılır:

  • İlk belirteç oluşma süresi (TTFT) veya ilk belirteç gecikmesi , modelin çıktı üretmeye başlamasından önce geçen süreyi ifade eder.
  • Yanıt sırasında oluşturulan belirteçler arasındaki gecikmeyi ölçen belirteçler arası gecikme (ITL) .
  • İstek gönderiminden yanıtın tamamlanmasına kadar geçen toplam üretim süresi .

Sohbet botları , kodlama asistanları ve müşteri destek araçları gibi etkileşimli uygulamalarda düşük gecikme süresi kritik öneme sahiptir. Yüksek gecikme süresi, etkileşimin doğal akışını kesintiye uğratabilir, katılımı azaltabilir ve kullanıcı memnuniyetini olumsuz etkileyebilir. Zamanla, sürekli yüksek gecikme süresi, özellikle gerçek zamanlı veya müşteriyle doğrudan etkileşim gerektiren kullanım durumlarında, yapay zeka destekli çözümlerin benimsenmesini de sınırlayabilir.

LLM gecikmesinin yüksek veya düşük olmasının kullanıcı deneyimi açısından önemi nedir?

Gecikmenin kullanıcı deneyimi üzerindeki etkisi, rahatsızlığın ötesine geçer. Kullanıcılar, bağlama, isteğin karmaşıklığına ve uygulamanın belirlediği beklentilere bağlı olarak yanıt sürelerini farklı algılarlar. Karmaşık mantıksal düşünme gerektiren görevler için kısa bir gecikme kabul edilebilirken, konuşma arayüzlerinde küçük gecikmeler bile rahatsız edici olabilir.

  • Gecikmiş yanıtlar, etkileşimli yapay zeka sistemlerinde konuşma akışını bozabilir.
  • Tutarlı yanıt süreleri, değişken yanıt sürelerine kıyasla genellikle daha yüksek kullanıcı memnuniyetine yol açar.
  • Ara sıra verilen hızlı yanıtlar ile uzun gecikmelerin bir arada olduğu durumlara kıyasla, biraz daha yavaş ama daha tahmin edilebilir bir yanıt hızı genellikle tercih edilir.

Beklemenin bu psikolojik yönü, algılanan yanıt verme hızının ham yanıt süreleri kadar önemli olmasının nedenini açıklamaktadır. Birçok durumda, tutarlı performansı sürdürmek, tek bir istek için mümkün olan en düşük gecikme süresini elde etmekten daha önemlidir.

LLM gecikmesini etkileyen faktörler

LLM gecikmesi, çeşitli teknik ve operasyonel faktörlere bağlı olarak değişir. Bu temel faktörleri anlamak, ekiplerin performans darboğazlarını belirlemelerine ve hedefli gecikme optimizasyon stratejileri uygulamalarına yardımcı olur.

Model boyutu ve konfigürasyonu

Model boyutu, işlem hızını doğrudan etkiler. Daha büyük modeller genellikle daha fazla işlem kaynağı ve aynı girdi belirteçlerini işlemek için daha fazla zaman gerektirir. Daha büyük modeller daha iyi çıktı kalitesi sunabilirken, genellikle ilk belirteç gecikmesini ve genel belirteç gecikmesini artırırlar.

Dikkate alınması gereken önemli hususlar şunlardır:

  • Model boyutu ve iç mimarisi
  • Bağlam penceresi uzunluğu gibi model yapılandırmaları
  • Yanıt kalitesi ve düşük gecikme süresi arasındaki denge

Uygulamanın performans gereksinimleriyle uyumlu bir model seçmek, model optimizasyonunun temel bir parçasıdır.

Donanım ve sistem mimarisi

Donanım, yanıt sürelerinin belirlenmesinde kritik bir rol oynar. Güçlü GPU'lar veya yapay zeka hızlandırıcılar, hesaplama süresini önemli ölçüde azaltarak hem TTFT (Toplam Yanıt Süresi) hem de belirteçler arası gecikmeyi düşürebilir. Başlıca katkıda bulunanlar şunlardır:

  • GPU kullanımı ve kullanılabilirliği
  • Bellek bant genişliği ve veri aktarım verimliliği
  • Genel sistem mimarisi ve işlem kaynakları

Sistem verimliliği, genellikle saniyede token (TPS) olarak ölçülür ve bir sistemin eş zamanlı yük altında ne kadar çıktı üretebileceğini gösterir. Yüksek verimlilik ölçütleri, yanıt sürelerini düşürmeden birden fazla isteği işlemek için çok önemlidir.

Eşzamanlılık, gruplandırma ve sistem yükü

Gecikme süresi, tek istek ve eş zamanlı istek senaryolarında farklılık gösterir. Toplu işlem, verimliliği artırabilirken, aynı zamanda ilk yanıt süresini artıran kuyruk gecikmelerine de yol açabilir.

Burada gecikmeyi etkileyen faktörler şunlardır:

  • Eş zamanlı istek sayısı
  • Gruplandırma ve zamanlama politikaları
  • Mevcut sistem yükü ve kullanım modelleri

Yalnızca veri aktarım hızına optimize edilmiş sistemler, ortalama performans kabul edilebilir görünse bile, en yoğun kullanım sırasında yüksek gecikme süreleri yaşayabilir.

Ağ ve dağıtım etkileri

Ağ gecikmesi, özellikle dağıtık veya bulut tabanlı sistemlerde önemli gecikmelere neden olabilir. Hizmetler, bölgeler ve kullanıcılar arasındaki iletişim, genel uçtan uca gecikmeye katkıda bulunur.

Soğuk başlatmalar da bir diğer kritik faktördür. Modeller boşta kalma sürelerinde sıfıra ölçeklendirildiğinde, ilk isteğin modelin yüklenmesini beklemesi gerekir ki bu da gecikmeyi önemli ölçüde artırabilir. Soğuk başlatma etkileri, kararlı durum performansından ayrı olarak hesaba katılmadığı takdirde, doğru gecikme ölçümlerini bozabilir.

LLM gecikmesini azaltmaya yönelik stratejiler

Gecikmeyi azaltmak, modeller, altyapı ve uygulama tasarımı genelinde koordineli değişiklikler gerektirir. Etkili gecikme optimizasyonu, hem gerçek hem de algılanan yanıt verme hızına odaklanır.

Model optimizasyon yaklaşımları

Model optimizasyon teknikleri, kabul edilebilir yanıt kalitesini korurken işlem hızını artırmayı amaçlar. Yaygın yöntemler şunlardır:

  • Model boyutunu küçültmek için nicelleştirme ve budama
  • Belirli görevler için daha küçük modellerin ince ayarı
  • Düşük gecikme süresine öncelik vermek için model yapılandırmalarını ayarlama

Model süreçlerinin optimize edilmesi, gecikmeyi önemli ölçüde azaltabilir ve işletme maliyetlerini düşürebilir.

Hızlı tasarım ve token verimliliği

İstem mühendisliği doğrudan gecikmeyi etkiler. Daha uzun istemler, modelin işlemesi gereken giriş belirteçlerinin sayısını artırarak hem TTFT'yi hem de çıktı üretimini yavaşlatır.

En iyi uygulamalar şunlardır:

  • yalnızca ilgili bağlamı kullanarak
  • İstem karmaşıklığını ve gereksiz talimatları azaltmak
  • Tam yanıt gerekmediğinde oluşturulan belirteçlerin sınırlandırılması

Akış, önbellekleme ve yanıt işleme

Akış tabanlı yanıt teknikleri, modelin son belirteci beklemek yerine, ilk belirteç hazır olur olmaz çıktı üretmeye başlamasına olanak tanır. Bu, toplam üretim süresi değişmeden kalsa bile algılanan yanıt verme hızını artırır.

Ek teknikler şunlardır:

  • Tekrarlanan veya aynı girdi sorguları için yanıtların önbelleğe alınması
  • Benzer amaçlara sahip benzer istemler için anlamsal önbellekleme
  • Altyapı ve verimlilik optimizasyonu

Altyapı optimizasyonu, büyük ölçekte performansı sürdürmek için çok önemlidir. Bu, şunları içerir:

  • Veri aktarım hızı ölçütleri ve gecikme süresi ölçümleri arasında denge kurmak
  • En yüksek talep dönemlerinde yeterli işlem gücünün sağlanması
  • Eş zamanlı istekler sırasında kuyrukta bekleme sürelerini azaltmak

Üretimde llm gecikmesinin ölçülmesi ve izlenmesi

Doğru gecikme ölçümleri, sorunları teşhis etmek ve iyileştirmeleri doğrulamak için çok önemlidir. Farklı test yöntemleri farklı amaçlara hizmet eder:

  • Senkron test süreçleri, her seferinde bir isteği işleyerek temiz ve izole edilmiş gecikme verileri sağlar.
  • Asenkron testler, birden fazla eşzamanlı isteğin olduğu gerçek dünya senaryolarını simüle eder, ancak bireysel gecikmeleri izole etmeyi zorlaştırabilir.

Temel performans ölçütlerinin izlenmesi, ekiplerin performans darboğazlarını belirlemesine, performans trendlerini takip etmesine ve performansı zaman içinde korumasına yardımcı olur. Kullanım kalıpları geliştikçe sürekli izleme kritik önem taşır.

Üretimde kullanılan yaygın araçlar şunlardır:

  • NVIDIA Gecikme ölçümlerini yakalamak için GenAI-Perf ve LLMPerf
  • Gecikme dağılımlarını izlemek ve görselleştirmek için Prometheus ve Grafana.

Bu araçlar, sürekli optimizasyonu destekler ve değişen iş yükleri altında tutarlı performans sağlanmasına yardımcı olur.

Tutarlılığın hızdan daha önemli olmasının nedenleri

Düşük gecikme süresi şart olsa da, kullanıcı memnuniyeti için tutarlılık genellikle daha önemlidir. Yanıt süreleri oldukça değişken olan sistemler, bazı yanıtlar hızlı olsa bile, güvenilmez hissettirme eğilimindedir. Buna karşılık, tutarlı yanıt süreleri öngörülebilir etkileşimler yaratır ve algılanan yanıt verme hızını artırır.

Etkileşimli yapay zeka uygulamalarında, yanıt hızı güveni, kullanılabilirliği ve uzun vadeli benimsemeyi şekillendirir. Bu nedenle, LLM gecikmesini optimize etmek sadece milisaniyeleri en aza indirmekle ilgili değil, aynı zamanda kullanıcı beklentileriyle uyumlu, istikrarlı ve öngörülebilir bir performans sunmakla ilgilidir.

Doğru ölçüm, özenli sistem tasarımı ve sürekli izlemeyi birleştirerek, ekipler performansı, yanıt kalitesini ve maliyet verimliliğini korurken gecikmeyi önemli ölçüde azaltabilirler.

LLM gecikme kıyaslama metodolojisi

Kıyaslama kurulumu

Beş farklı kullanım senaryosunda birden fazla LLM'nin gecikme performansını ölçtük. Ağ koşullarının tutarlı olmasını sağlamak için kıyaslama uzak bir sunucuda gerçekleştirildi. Tüm modeller, ilgili resmi API'leri kullanılarak test edildi. Sıcaklık değerini 0,1 olarak ayarladık.

Veri toplama

Toplam 500 soru (kullanım senaryosu başına 100 soru) ile tek bir çalıştırma gerçekleştirildi. Her soru modelin akış API uç noktasına gönderildi ve zamanlama ölçümleri üç kritik noktada kaydedildi:

  1. İstek gönderildi : API isteğinin başlatıldığı zaman damgası
  2. Alınan ilk belirteç : İlk yanıt belirtecinin geldiği zaman damgası
  3. Son alınan belirteç : Akış yanıtının tamamlandığı zaman damgası

Metrikler

İlk Token'a Ulaşma Süresi (TTFT)

Modelin yanıt üretmeye başlaması için geçen süreyi, yani ilk yanıt gecikmesini ölçer.

Token Başına Gecikme (PTL)

İlk yanıttan sonra her bir belirtecin oluşturulması için gereken ortalama süreyi (milisaniye cinsinden) ölçer.

Soru-Cevap

Modelleri, teknik, iş ve genel bilgi alanlarında yaygın olarak karşılaşılan olgusal ve kavramsal konuları kapsayan 10 sorudan oluşan bir set üzerinde karşılaştırmalı olarak değerlendirdik. Bu girdiler, soru başına ortalama 13 kelime içeriyordu ve bu da onları nispeten kısa kılıyordu.

Bu kullanım senaryosu, modellerin eğitim, dokümantasyon ve müşteri desteği bağlamlarına uygun, net, doğru ve bilgilendirici yanıtlar üretme yeteneğini değerlendirir. Gerekli yanıtlar genellikle ayrıntı ve netliği dengeleyen orta uzunlukta açıklamaları içerir.

Kodlama

Modelleri, basit fonksiyonlardan daha gelişmiş API geliştirmeye kadar uzanan 10 farklı programlama görevi üzerinde değerlendirdik. Bu görevler, temel komut dosyaları, Flask veya FastAPI kullanan web uygulamaları ve veri işleme komut dosyaları gibi Python kod parçacıkları oluşturmayı içeriyordu.

Bu kullanım senaryosu, modellerin yapılandırılmış, işlevsel ve tutarlı kod üretme yeteneğini değerlendirir; bu da genellikle tipik metin üretiminden daha uzun ve karmaşık çıktılar gerektirir. Giriş istemleri ortalama 20 belirteçten oluşmakta olup, özlü ancak açıklayıcı programlama isteklerini yansıtmaktadır.

Dil çevirisi

Modelleri, uzun akademik metinler, kısa günlük cümleler, bilimsel özetler, iş e-postaları ve edebi alıntılar da dahil olmak üzere, birden fazla dili (İspanyolca, Çince, Rusça) ve metin türünü kapsayan 10 farklı çeviri istemi kullanarak karşılaştırdık. Bu girdiler, yaklaşık 10 kelimeden oluşan kısa cümlelerden, birkaç yüz kelimeyi aşan ayrıntılı çok paragraflı metinlere kadar uzunluk ve karmaşıklık açısından önemli ölçüde farklılık gösteriyordu.

Bu kullanım senaryosu, modellerin farklı diller ve alanlar arasında anlamı doğru bir şekilde kavrama ve aslına sadık kalarak yeniden üretme, nüansları, üslubu ve teknik içeriği koruma yeteneğini değerlendirir. Çeşitli metin türleri ve uzunlukları kullanarak, hem genel çeviri kalitesini hem de modellerin uzmanlaşmış veya resmi dili ele alma yeteneğini test ettik.

İş analizi

Modelleri, satış performansı, müşteri sadakati, tedarik zinciri darboğazları, pazarlama yatırım getirisi, çalışan verimliliği ve rekabet stratejisi gibi alanlarda gerçek dünya karar alma senaryolarını simüle eden 10 farklı iş analizi sorgusu kullanarak değerlendirdik. Sorgular, yapılandırılmış tablo verileri ve açık uçlu analitik sorular içeriyordu ve modellerin birden fazla iş ölçütünü yorumlamasını ve özlü, uygulanabilir içgörüler üretmesini gerektiriyordu. Girdilerin karmaşıklığı değişmekle birlikte, ortalama girdi uzunluğu yaklaşık 105 belirteçti.

Bu kullanım senaryosu, bir modelin nicel verileri sentezleme, mantıksal akıl yürütme uygulama ve iş bağlamında önerileri net bir şekilde iletme yeteneğini test eder.

Özet oluşturma

Modellerden, sağlık hizmetlerinde yapay zeka, iklim değişikliği, yenilenebilir enerji, blok zinciri, uzaktan çalışma, elektrikli araçlar, siber güvenlik, sosyal medya, kentleşme ve kuantum hesaplama gibi çeşitli konulardaki teknik makalelerin akademik tarzda özetlerini (~500 token) üretmelerini istedik. Her özet, ana argümanlar, destekleyici fikirler ve sonuçlar şeklinde yapılandırıldı; önemli terimler vurgulandı ve kısaca açıklandı.

Bu kullanım örneği, bir modelin ayrıntılı teknik makaleleri anlama ve anahtar terim açıklamalarıyla birlikte net, yapılandırılmış, akademik tarzda özetler oluşturma yeteneğini test eder.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle
Araştıran
Nazlı Şipi
Nazlı Şipi
Yapay Zeka Araştırmacısı
Nazlı, AIMultiple'da veri analisti olarak çalışmaktadır. Daha önce çeşitli sektörlerde veri analizi alanında deneyim kazanmış olup, karmaşık veri kümelerini eyleme dönüştürülebilir içgörülere dönüştürme konusunda çalışmıştır.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450