Kıyaslama

VELC-Bench: Uzun Bağlam Karşılaştırması Üzerinde Doğrulama

Güncellenme tarihi: 22 Tem 2026

Modelin bağlam içinde belirli bir metriği bulma, değerini bir iddia ile karşılaştırma ve onaylama ya da reddetme yeteneği. Bu, uzun bağlam koşullarında ince taneli değer eşleştirmesini test eder. Model hem değeri almalı hem de hassas bir karşılaştırma yapmalıdır.

Sonuçlar

VELC-Bench: Verification on Long Context

Loading Chart

Modeller aşağıdaki bağlam pencerelerinde test edilmiştir:

anthropic/claude-fable-5: 850,000 token test edildi
openai/gpt-5.5: 1,000,000 token'lar
google/gemini-3.1-pro-preview: 1,000,000 token'lar
google/gemini-3.5-flash: 1,000,000 token'lar
anthropic/claude-sonnet-4.6: 1,000,000 token'lar
qwen/qwen3.6-plus: 1,000,000 token'lar
moonshotai/kimi-k2.6: 200,000 token'lar
z-ai/glm-5.1: 200,000 token'lar
minimax/minimax-m2.7: 150,000 token'lar
openai/gpt-5.4-mini: 250,000 token'lar

claude-fable-5 doğrula EVET'te %90,0 ve doğrula HAYIR'da %94,0 puan alır. Fark, aşağıda açıklanan asimetriyle örtüşür: bir değeri doğrulamak onu bulmayı gerektirirken, reddetmek yalnızca bir uyumsuzluk fark etmeyi gerektirir.

Question formats

EVET'i Doğrula (iddianın değeri doğrudur):

İddia: 2026 Q1 Adobe (ADBE) için Gelir $6.40 milyar.
Beklenen: EVET

HAYIR'ı Doğrula (iddianın değeri yanlıştır):

İddia: 2026 Q1 Adobe (ADBE) için Gelir $7.92 milyar.
Beklenen: HAYIR

Veri kaynağı

Doğrudan geri çağırma ile aynı TAKEAWAYS-çıkarılmış metrikler. Seçilen her metrik için:

EVET'i Doğrula öğeleri transkriptten gerçek değeri kullanır
HAYIR'ı Doğrula öğeleri programlı olarak değiştirilmiş bir değer kullanır (her iki yönde, eşleşen hassasiyet ve birimlerle %8–25 sapma)

Puanlama kuralı

Modelin yanıtında üç durumlu tespit:

Eğer yanıt BAHİS EDİLMEDİ ifadesi içeriyorsa (ör. “not mentioned,” “not discussed”) → tahmin = not_mentioned
Yoksa “yes” içeriyorsa → tahmin = yes
Yoksa “no” içeriyorsa → tahmin = no

Puan = 1.0 eğer tahmin == beklenen ise, aksi takdirde 0.0.

Tespit önceliği, “not” alt dizesi yoluyla “not mentioned” ifadesinin kazara “no” ile eşleşmesini önlemek için BAHİS EDİLMEDİ > HAYIR > EVET şeklindedir.

claude-fable-5, Claude Code aracılığıyla test edilir: 850,000 token'lık samanlığı dosya olarak alır ve bağlam penceresinden okumak yerine getirme araçlarıyla arar, bu nedenle puanları modeli Claude Code test düzeneğiyle birlikte ölçer.

Claude Sonnet 5 30 Haziran 2026'da standart fiyatlandırmayla yerel 1M token penceresiyle piyasaya sürüldü ve Claude Opus 4.8 aynı 1M pencereyi taşıyor, ikisi de artık bu test setinin parçasıdır.¹

Aynı hafta, tamamen Nvidia dışı donanım üzerinde eğitilmiş iki açık ağırlıklı model de uzun bağlam alanına girdi: Çin yapay zeka hızlandırıcıları üzerine inşa edilmiş, yerel 1M token penceresine sahip 1.6T parametreli MoE modeli Meituan'ın LongCat-2.0'ı ve Ascend çipleri üzerinde eğitilmiş 512K pencereye sahip 92B parametreli MoE modeli Huawei'nin openPangu-2.0-Flash'ı.²

Aşama aşama yorumlama

EVET ve HAYIR arasındaki asimetri bilgilendiricidir: EVET bir değerin pozitif olarak tanımlanmasını gerektirir (hedef daha derindeyken daha zor), HAYIR ise yalnızca bir uyumsuzluk tespit etmeyi gerektirir (yakın zamanda okunduğunda daha kolay).

Aşamalar bağlam penceresinin 0.1, 0.5 ve 0.9'udur, farklı samanlık konumlarındaki doğruluk farkını görmek için.

İyi bir performans nedir?

Aşama 2 EVET ≥ %80 ve HAYIR ≥ %80, modelin bir samanlık boyunca hem doğrulayabildiğini hem de reddedebildiğini gösterir.

HAYIR'da çok yüksek puan alan ancak EVET'te düşük puan alan bir model reddetmeye meyillidir. EVET'te çok yüksek puan alan ancak HAYIR'da düşük puan alan bir model iddialara aşırı güvenmektedir.

Madde sayısı

50 verify_yes + 50 verify_no = 100 doğrulama öğesi.

Bu araştırmayı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Cem Dilmegani (2026) - "VELC-Bench: Uzun Bağlam Karşılaştırması Üzerinde Doğrulama". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 22 Temmuz 2026, kaynak: https://aimultiple.com/ai-context-window [Çevrimiçi Kaynak]

Dilmegani, C. (2026, 22 Temmuz). VELC-Bench: Uzun Bağlam Karşılaştırması Üzerinde Doğrulama. AIMultiple. https://aimultiple.com/ai-context-window

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{VELC-Bench: Uzun Bağlam Karşılaştırması Üzerinde Doğrulama}},
  year   = {2026},
  month  = jul,
  howpublished    = {\url{https://aimultiple.com/ai-context-window}},
  note   = {AIMultiple. Erişim tarihi: 22 Temmuz 2026}
}

Referans Linkleri

What's new in Claude Sonnet 5 - Claude Platform Docs

marktechpost.com | 520: Web server is returning an unknown error

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir. Yorumlar orijinal dilinde bırakılır.

Sonuçlar

Bu araştırmayı kaynak gösterin

Etik normlar ve sürecimiz doğrultusunda tarafsızlığı esas alıyoruz. Bu araştırma AIMultiple'ın müşterilerinden hiçbirini içermiyor.

Kıyaslamalarımızı ve veri odaklı içgörülerimizi kaçırmayın. Düğme Google'ı açar; AIMultiple'ı seçmeniz, Google arama sonuçlarında AIMultiple'ı daha sık görmek istediğinizi onaylar.

Tercih edilen kaynak olarak ekle