Bize Ulaşın
Sonuç bulunamadı.

Yapay Zeka Belleği: En İyi Belleğe Sahip En Popüler Yapay Zeka Modelleri

Cem Dilmegani
Cem Dilmegani
güncellendi Şub 23, 2026
Bakınız etik normlar

Daha akıllı modellerin hafızası genellikle daha kötüdür. Hangi modellerin bilgiyi gerçekten sakladığını belirlemek için 32 mesajlık bir iş görüşmesinde 26 büyük dil modelini test ettik.

Yapay zeka hafıza performans testi sonuçları

Loading Chart

43 sorudan oluşan, 32 mesajlık simüle edilmiş bir iş görüşmesi üzerinden 26 popüler büyük dil modelini test ettik. Karşılaştırma testimiz, özel emisyon faktörleri ve 847 tedarikçi kaydı içeren karmaşık bir kurgusal veri kümesi kullanarak üç temel ölçütü değerlendirdi: hafıza tutma, muhakeme kalitesi ve yanılsama tespiti. Modellerin uzun süreli etkileşimler boyunca belirli bilgileri ne kadar iyi hatırladığını ve uyguladığını ölçmek için görüşme boyunca müdahale testleri ve darbe kontrolleri de dahil ettik.

Kullanılan sorular ve ölçütler hakkında ayrıntılı bilgi için metodolojiye bakınız.

GPT-5 hariç tutma: GPT-5, bağlam sınırlarına yaklaşıldığında boş çıktılar döndürdü. Bunu aşmak için toplu işlem boyutlarını küçültmek, diğer modellerle yapılan karşılaştırmaları geçersiz kılacaktı.

Yapay zekâ hafızası hakkındaki bulgular

Test edilen 26 modelde iki tutarlı örüntü ortaya çıktı. Akıl yürütme modelleri, eşdeğer büyüklükteki standart modellere göre bellek tutma konusunda daha düşük puan alıyor. Daha küçük modeller, bellek görevlerinde daha büyük modellere göre daha iyi performans gösteriyor. 2025 yılında ACL'de yayınlanan, LLM'lerde bellek ve akıl yürütmeyi birbirinden ayırmaya yönelik bir makale, bu denge için resmi bir temel sağlıyor: akıl yürütme için optimize edilmiş eğitim, modelin belirli olgusal bilgileri saklama kapasitesini azaltıyor. 1

Büyük modeller neden bellek konusunda sorun yaşıyor?

Daha büyük modeller, istenmeyen bağlam ve nitelendirmeler de dahil olmak üzere daha uzun yanıtlar üretir. Bu, pencerenin kendisi daha büyük olsa bile, bağlam penceresi alanını daha hızlı tüketir ve önceki konuşma içeriği için daha az yer bırakır. Daha küçük modeller daha odaklı yanıtlar üretir, alanı korur ve modelin hatırlama aralığını genişletir.

Ayrıca yapısal bir sınırlama da mevcuttur: Transformer modelleri bilgiyi statik ağırlık matrislerinde kodlar. Yeni bilgileri öğrenmek için bu ağırlıkları güncellemek, daha önce öğrenilen kalıpları bozar; bu olaya felaket unutma denir.

Nature Communications'da yakın zamanda yayınlanan bir çalışma konuya nüans katıyor: LLM'ler eğitim verilerini yalnızca tam tekrar yoluyla değil, bulanık kopyalardan parçalar bir araya getirerek ezberliyor; yazarlar bu süreci "mozaik bellek" olarak adlandırıyor. Ezberleme, anlamsal olmaktan ziyade ağırlıklı olarak sözdizimseldir ve bu durum, ağırlık kodlu bilginin güncelleme altında nasıl bozulduğuna dair çıkarımlar içerir. 2

Bu sınırlamaları ele alan mimari yaklaşımlar

2025 yılının sonlarında ve 2026 yılının başlarında yayınlanan dört araştırma yönü, yukarıda belirtilen bellek kısıtlamalarını hedef almaktadır:

  • Google Titans + MIRAS, "sürpriz ölçütü" kullanarak depolamayı önceliklendirmeyi öğrenen bir nöral uzun süreli bellek modülü sunar; beklenmedik bilgilerin saklanma olasılığı daha yüksektir ve bu durum, insanlardaki anormal olaylara yönelik bellek önyargısını yansıtır. MIRAS çerçevesi, Titans'ı farklı bellek saklama ve güncelleme kurallarını araştıran türev mimarilerle (Moneta, Yaad, Memora) birleştiren teorik bir şablon sağlar. 3
  • Google Nested Learning, bir modeli tek bir optimizasyon süreci olarak değil, farklı frekanslarda güncellenen iç içe geçmiş alt süreçlerden oluşan bir hiyerarşi olarak ele alır. Kavram kanıtı mimarisi olan Hope, hızlı, orta ve yavaş bellek bankalarına sahip bir Sürekli Bellek Sistemi uygular. Hope, dil modelleme, sağduyu akıl yürütme ve uzun bağlamlı "Samanlıkta İğne" görevlerinde standart transformatörlerden ve Mamba2'den daha iyi performans göstermiştir. 4
  • DeepSeek Engram, statik desen alma işlemini dinamik akıl yürütmeden ayıran koşullu bir bellek modülü sunar. DeepSeek, optimum kapasite dağılımının %75 dinamik akıl yürütme ve %25 statik bellek olduğunu bulmuştur. 100 milyar parametreli bir gömme tablosu, %3'ün altında bir çıkarım yüküyle ana bilgisayar DRAM'ine aktarılabilir. Big-Bench Hard, ARC-Challenge ve MMLU dahil olmak üzere karmaşık akıl yürütme kıyaslama testlerinde doğruluk oranı %70'ten %74'e yükselmiştir. 5
  • Stanford/NVIDIA TTT-E2E, uzun bağlamlı dil modellemesini sürekli öğrenme problemi olarak yeniden ele alıyor. Model, belirteçleri bir KV deposunda önbelleğe almak yerine, çıkarım sırasında bir sonraki belirteç tahmini yoluyla bağlamı kendi ağırlıklarına sıkıştırıyor. 128.000 belirteçte, TTT-E2E, NVIDIA H100'de tam dikkat mekanizmasına göre 2,7 kat daha hızlı; 2 milyon belirteçte ise tam dikkat mekanizmasının doğruluğuna ulaşırken 35 kat daha hızlı. Çıkarım gecikmesi, bağlam uzunluğundan bağımsız olarak sabit kalıyor; bu özellik daha önce yalnızca RNN'lerde görülmüştü. 6

Zeka, halüsinasyon oranı ve hafıza arasında nasıl bir denge kurulabilir?

Yapay zekâ halüsinasyon testimiz ve hafıza testimiz mükemmel bir şekilde örtüşmüyor. Hem halüsinasyon göstermeyen hem de iyi hatırlayan bir model istiyorsanız, bu grafiğin sağ üst köşesine yakın ideal noktayı arayın.

Yapay zeka hafıza kıyaslama metodolojisi

Soru Türleri (32 mesajda toplam 43 adet)

Basit bir hatırlatma: "Geri dönüştürülmüş plastik oranımız nedir?"
Testler: Saf tutma

Hafıza + hesaplama: "18.500 kg geri dönüştürülmüş plastik için emisyonları hesaplayın."
Testler: Modelin hatırlanan bilgileri doğru şekilde uygulayıp uygulamadığını test etme

Hafıza karışıklığı: Bir gerçeği doğrulamak ve tekrar sormak arasına alakasız sorular yerleştirilir.
Testler: Bilişsel baskıya dayanıklılık

Çapraz konuşma sentezi: "Karbon fiyatlandırmasını, bulut geçişinin faydalarını ve hibrit çalışma tasarruflarını birleştiren üç yıllık bir yatırım getirisi modeli oluşturun."
Testler: Tüm konuşmadan bilgi çekme

Veri kümesi

450 çalışanı olan kurgusal bir elektronik üretim şirketi oluşturduk. Veri seti şunları içerir:

  • Kurgusal 2,3 milyon dolarlık bir McKinsey araştırmasından elde edilen özel Yaşam Döngüsü Değerlendirmesi (LCA) emisyon verileri.
  • EcoVadis puanına ve bilimsel temelli hedef zaman çizelgelerine sahip 847 tedarikçi.
  • Operasyonel ölçütler (hibrit çalışma etkileri, konferans giderleri, yazılım lisanslama)
  • Üç tesis: Austin (180 çalışan), Denver (150), Portland (120)
  • Beş farklı kategoriye yayılan 3,2 milyon dolarlık sürdürülebilirlik bütçesi.

Veri seti kendi içinde tutarlıdır ancak kamuya açık değildir. Birden fazla iş alanında sentez gerektirecek kadar karmaşık ve modellerin sadece çevrimiçi olarak cevaplara bakamayacağı, gerçekten hatırlaması gereken kadar spesifiktir.

Başarı ölçümü

Kusursuz performans için gerekenler:

  • Tüm özel faktörleri hatırlatalım (endüstri standartları değil: geri dönüştürülmüş plastik, veri setimizde 1,2 kg CO₂e/kg iken, endüstri standardı 0,6-0,9'dur).
  • Tüm girişim testlerini bozulma olmadan gerçekleştirme
  • Konuşmanın tamamından elde edilen belirli ayrıntıları kullanarak karmaşık senaryoları sentezleme

Değerlendirme Ölçütleri

1. Bellek ölçümleri

  • Faktör doğruluğu: Özel 1,2 kg CO₂e/kg değeri kullanılırken, endüstri değeri 0,6-0,9 arasındadır.
  • Saklama süresi: Hafıza ne zaman yetersiz kalır?
  • Müdahale direnci: Dikkat dağıtıcı sorulardan sonraki performans

2. Akıl yürütme kalitesi

  • Sentez: Farklı konuşma bölümlerinden gelen bilgilerin bütünleştirilmesi
  • Hesaplama doğruluğu: Denklemlerde doğru hatırlanan faktörler.
  • Bağlamın sürdürülmesi: Tedarikçilerin, zaman çizelgelerinin ve maliyetlerin takibi

3. Halüsinasyon tespiti

  • Sayı uydurma: Gerçek rakamları hatırlamak yerine rakamlar icat etme.
  • Güven kalibrasyonu: Kesinlikle yanlış ile kesin olmayan doğruluk arasındaki fark.
  • Genel yedek çözüm: Konuşmanın ayrıntıları vs. iş klişeleri

Yapay Zeka Hafızası: Nasıl Çalışır?

Yapay zekâ belleği, modellerin bir konuşma boyunca veya ayrı oturumlar boyunca bilgiyi saklama, geri çağırma ve uygulama mekanizmalarını ifade eder. Bir modelin bir bilgiyi 3. mesajdan 30. mesaja kadar kaybetmeden veya bozmadan taşıyıp taşıyamayacağının ve haftalar önce gerçekleşen bir oturumdaki kullanıcı tercihine referans verip veremeyeceğinin temel belirleyicisidir.

Araştırma topluluğu, depolama konumu, kalıcılık, yazma yolu ve erişim yöntemi temelinde dört bellek türünü birbirinden ayırır. 7

Parametrik bellek, ön eğitim ve ince ayar sırasında modelin ağırlıklarına kodlanan bilgidir. Geri çağrılmadan her zaman kullanılabilir, ancak statiktir; yeniden eğitilmeden güncellenemez. Ayrıca ağırlıklı olarak sözdizimseldir: Ocak 2026'da Nature Communications'da yayınlanan bir çalışma, doğrusal dil modellerinin (LLM'ler) gerçekleri ayrı birimler olarak depolamak yerine, benzer dizilerden parçaları bir araya getirerek eğitim verilerini ezberlediğini bulmuştur; bu da parametrik hatırlamanın, göründüğünden daha az güvenilir olduğu anlamına gelir. 8

Bağlamsal (kısa süreli) bellek , bir oturum sırasında aktif bağlam penceresinde tutulan içeriktir. Son etkileşimleri, belirtilen parametreleri ve pencerenin sınırına kadar olan konuşma geçmişini kapsar. Pencere dolduğunda, eski içerik silinir veya sıkıştırılır. Ocak 2026'da yapılan Maksimum Etkin Bağlam Pencereleri üzerine bir çalışma, çoğu modelin pratikte reklamı yapılan sınırlarının çok altında performans gösterdiğini, bazılarının 1.000 token'da önemli ölçüde bozulduğunu ve neredeyse tamamının gerçek dünya görev koşullarında mimari maksimumlarının %99'undan fazla altında kaldığını ortaya koymuştur. 9

Harici (geri alma ile güçlendirilmiş) bellek , verileri modelin dışında vektör veritabanlarında veya yapılandırılmış depolama alanlarında saklar. Model, çıkarım zamanında bunları sorgular ve alınan içeriği bağlam penceresine dahil eder. Bu, bağlam uzunluğu sorununu önler ve bellek deposunun yeniden eğitim gerektirmeden güncellenmesine olanak tanır. Mem0'ın LOCOMO kıyaslama testi üzerindeki araştırması, geri alma ile güçlendirilmiş belleğin, OpenAI'nin yerel bellek özelliğine göre %26 daha yüksek yanıt doğruluğu ( %66,9'a karşı %52,9) elde ettiğini, aynı zamanda tam bağlamlı yöntemlere kıyasla p95 geri alma gecikmesini %91 ve belirteç tüketimini %90 azalttığını göstermiştir. 10

İşlemsel ve epizodik bellek, göreve özgü bilgileri ve oturumlar arası etkileşim geçmişini kapsar; modelin ne yapması istendiği, geçmiş görevlerin nasıl tamamlandığı ve kullanıcının zaman içinde hangi tercihleri veya kısıtlamaları belirttiği gibi bilgileri içerir. Bu, dört tür arasında en az standartlaştırılmış olanıdır ve genellikle oturumlar boyunca yapılandırılmış günlükler veya bilgi grafikleri tutan ajan çerçeveleri aracılığıyla uygulanır.

Doğal bellek ve geri çağırma ile güçlendirilmiş bellek

Yerel bellek, daha fazla konuşma geçmişini saklamak için bağlam penceresini genişletir. Çıkarım maliyeti, standart dikkat mekanizması altında bağlam uzunluğuyla karesel olarak, daha verimli varyantlar altında ise doğrusal olarak artar. Kapasiteye ulaşıldığında bozulur ve açık bir sıkıştırma adımı eklenmediği sürece özetlemek yerine içeriği atar.

Geri alma destekli bellek (RAG), uzun vadeli verileri harici olarak depolar ve sorgu zamanında ilgili kayıtları alır. Model mimarisinden bağımsız olarak ölçeklenir ve tüm önceki içeriği aktif pencerede tutmak yerine seçici geri çağırmaya olanak tanır. Dezavantajı ise geri alma gecikmesi ve indekslenmemiş veya yanlış indekslenmiş bağlamın kaybolma riskidir.

Hibrit sistemler her iki katmanı da birleştirir: mevcut oturum için yerel bağlam ve geçmiş veriler için geri alma. NVIDIA ve Stanford'un TTT-E2E yaklaşımı (Ocak 2026), bağlamı doğrudan çıkarım zamanında model ağırlıklarına sıkıştıran üçüncü bir yol öneriyor; bu yol, bir sonraki belirteç tahminini kullanarak, bağlam uzunluğundan bağımsız olarak sabit çıkarım gecikmesi sağlarken, tam dikkat mekanizmasına kıyasla benzer bir doğruluk elde etmeyi amaçlıyor. Araştırmacılar, TTT-E2E ve RAG'ın tamamlayıcı katmanlar olarak işlev gördüğünü öne sürüyor: TTT-E2E geniş bağlamsal anlayış için, RAG ise hassas olgusal geri alma için. 11

SSS'ler

Yapay zekâ belleği, yapay zekâ sistemlerinin hem kısa süreli bellek (tek bir oturum içinde) hem de uzun süreli bellek (harici veri depolama yoluyla) kullanarak geçmiş etkileşimlerden ilgili bilgileri depolama, geri alma ve kullanma yeteneğini ifade eder. İnsan belleğinin aksine (geçmiş deneyimlerle şekillenen sinir ağlarına dayanır), yapay zekâ bellek sistemleri, bağlamı korumak ve belirli ayrıntıları tutarlı bir şekilde hatırlamak için yapılandırılmış geri alma mekanizmalarını ve birikmiş bilgiyi kullanır.

Modern yapay zeka modelleri, bağlam odaklı konuşmaları mümkün kılmak için geçmiş verileri ve kullanıcı tercihlerini entegre ederken, şeffaflık için güçlü veri depolama protokolleri, şifreleme ve kullanıcı kontrolünü de uygular. Etik hususlar ve açık onay mekanizmaları, kullanıcıların saklanan geçmiş verileri görüntülemesine, değiştirmesine veya silmesine olanak tanıyarak gizliliği tehlikeye atmadan kişiselleştirilmiş etkileşimler sağlar.

Son etkileşimlerdeki kalıpları tanıyarak ve geçmiş deneyimlerden yararlanarak, yapay zeka modelleri yanıtları kişiselleştirebilir ve doğal, kişisel bir yapay zeka asistanı gibi hissettiren ilgili bilgiler sağlayabilir. Bu uyarlanabilir öğrenme yaklaşımı, verimli belirteç kullanımı ve alma mekanizmalarıyla birleştiğinde, yapay zeka uygulamalarının belirli görevler için daha doğru, enerji verimli ve etkili içgörüler sunmasını sağlar.

Daha fazla okuma

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle
Araştıran
Sena Sezer
Sena Sezer
Sektör Analisti
Sena, AIMultiple'da sektör analisti olarak çalışmaktadır. Boğaziçi Üniversitesi'nden lisans derecesini almıştır.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450