Bize Ulaşın
Sonuç bulunamadı.

Yapay Zeka Halüsinasyonu: GPT-5.2 gibi en iyi LLM'leri karşılaştırın

Cem Dilmegani
Cem Dilmegani
güncellendi Nis 20, 2026
Bakınız etik normlar

Yapay zekâ modelleri, mantıklı görünen ancak yanlış veya yanıltıcı olabilen yanıtlar üretebilir; bu durum yapay zekâ halüsinasyonları olarak bilinir. İşletmelerin %77'si yapay zekâ halüsinasyonlarından endişe duymaktadır. 1

Halüsinasyon oranlarını ölçmek için 60 sorudan oluşan 37 farklı LLM'yi karşılaştırmalı olarak değerlendirdik:

Yapay zeka halüsinasyon kıyaslama sonuçları

Loading Chart

Yaptığımız karşılaştırmalı test, en yeni modellerin bile verilen ifadeleri analiz etmeleri istendiğinde %15'in üzerinde yanılsama oranına sahip olduğunu ortaya koydu. Bu oranları nasıl ölçtüğümüzü öğrenmek için karşılaştırmalı test metodolojisini okuyun.

Halüsinasyon oranı analizi: Maliyet ve bağlam

Modeller arasında adil maliyet karşılaştırması sağlamak için, gerçek dünya kullanım kalıplarını yansıtan birleşik bir ölçüt kullanarak fiyatlandırmayı normalleştiriyoruz. Pratik iş yüklerindeki token'ların çoğu çıktılardan ziyade girdilerden geldiği için, model maliyetini 0,75 × girdi token fiyatı + 0,25 × çıktı token fiyatı olarak hesaplıyoruz.

Bu, yapay olarak ucuz çıktılara veya orantısız derecede pahalı girdilere sahip modellerin yanıltıcı derecede verimli görünmesini engeller ve her modelin tutarlı, karşılaştırılabilir bir ölçekte değerlendirilmesine olanak tanır.

Grafik, halüsinasyon oranlarını bağlam penceresi boyutuyla karşılaştırırken belirgin kalıpları ortaya koymaktadır. Maliyetle ilgili önceki verilerle tutarlı olarak, bağlam kapasitesi ve doğruluk arasında doğrusal bir ilişki neredeyse hiç yoktur.

Geniş bağlam, doğruluğu garanti etmez.

Daha büyük girdilerin daha iyi akıl yürütmeye yol açacağı varsayımının aksine, karmaşık bir ilişki ortaya çıkıyor. Büyük bağlam pencereleri (1 milyonun üzerinde belirteç) için tasarlanmış modeller, daha küçük muadillerine göre sürekli olarak daha düşük halüsinasyon oranlarına ulaşmıyor . Verilerde gösterildiği gibi, hem kısa hem de uzun bağlam spektrumlarında yüksek güvenilirliğe sahip modeller bulunurken, düşük performanslı modeller de bulunuyor.

Bu durum, geniş bir bağlam penceresinin otomatik olarak daha iyi bir olgusal tutarlılık garantisi vermediğini göstermektedir. Sonuç olarak, bağlam boyutu gibi teknik özellikler güvenilirliğin kesin göstergeleri değildir; performans, yalnızca kapasiteye değil, daha çok belirli model mimarisine ve eğitim kalitesine bağlıdır.

Yapay zekâ halüsinasyonları nedir?

Halüsinasyonlar, bir LLM'nin gerçek gibi görünen ancak tamamen uydurma veya gerçek dışı bilgiler üretmesi durumunda ortaya çıkar. Doğrudan hataların aksine, halüsinasyonlar özellikle sorunludur çünkü doğru bilgilerle aynı güvenle sunulurlar ve bu da kullanıcıların dışarıdan onay almadan bunları tanımalarını zorlaştırır.

LLM halüsinasyonlarının etkileri

Yapay zekâ yanılsamaları birçok sektörü etkiliyor çünkü kuruluşlar metin üretmek , veri analiz etmek ve karar alma süreçlerini desteklemek için üretken yapay zekâ araçlarına bağımlı. Olası sonuçlar çeşitlilik gösterse de, birkaç risk sürekli olarak ortaya çıkıyor:

İtibar kaybı

Bir model yanlış bilgi, hatalı anlatılar veya yanıltıcı sonuçlar üretirse, kullanıcılar sisteme ve onu kullanan kuruluşa olan güvenlerini kaybedebilirler. Yanlış bilgilerin müşterilere, iç ekiplere veya kamuoyuna ulaşmasının ardından güveni yeniden inşa etmek zorlu olabilir.

Örneğin , GPTZero tarafından yakın zamanda yapılan bir analiz. 2 araştırmada, NeurIPS 2025'te kabul edilen düzinelerce makalede, hakem değerlendirmesi sırasında fark edilmeyen yapay zeka tarafından oluşturulmuş atıflar bulunduğu tespit edildi. 4.000'den fazla kabul edilmiş makaleyi analiz eden şirket, en az 50 makalede, tamamen sahte atıflardan gerçek atıfların değiştirilmiş versiyonlarına kadar yüzlerce hatalı referans buldu.

Bazı hatalar uydurma yazarlar, başlıklar, dergiler veya bağlantılar içerirken, diğerleri yazar adlarını veya makale başlıklarını değiştirerek gerçek alıntıları ince bir şekilde değiştirdi. GPTZero, işaretlenen tüm alıntıların daha sonra insan uzmanlar tarafından doğrulandığını söylüyor.

NeurIPS, araştırma yazılarında büyük dil modellerinin kullanımının giderek arttığını kabul etti ve konuyu takip ettiğini belirterek, yanlış referansların bir makalenin bulgularını otomatik olarak geçersiz kılmadığını kaydetti. Bununla birlikte, GPTZero, makalelerin oldukça seçici bir konferansta resmi olarak kabul edilip yayınlanmış olması göz önüne alındığında, sonuçları endişe verici olarak nitelendirdi.

Bulgular, 2025 yılında 21.000'i aşan başvuru sayısındaki artışın, kapsamlı incelemeyi zorlaştırdığını ve araştırma bütünlüğü, tekrarlanabilirlik ve akademik yayıncılıkta yapay zeka tarafından oluşturulan atıflara güvenmenin riskleri konusunda endişeleri artırdığını vurgulamaktadır. 3

Sağlık , finans ve hukuk gibi düzenlemeye tabi alanlarda, gerçek hatalar içeren yapay zeka tarafından üretilen içerik, uyumluluk ihlallerine yol açabilir. Üretilen içerik doğrulanmadan kullanıldığında, verilerin veya politikaların yanlış yorumlanması cezalara, müşteri zararına veya davalara neden olabilir.

Örneğin, yapay zeka tarafından oluşturulan sahte dava atıfları, mahkemeler için ciddi ve giderek büyüyen bir sorun haline geldi. Sadece 2025 yılında, dünya genelinde hakimler, yasal dosyalardaki yapay zeka yanılsamalarına ilişkin yüzlerce karar verdi; bu da bugüne kadar bilinen bu sorunun tüm vakalarının yaklaşık %90'ını oluşturuyor.

Hakimler, bu hataların kıt zaman ve kaynakları boşa harcadığını, mahkemeleri ihtilafların esaslarına odaklanmak yerine var olmayan davaları soruşturmaya zorladığını söylüyor. Hem avukatlar hem de hakimler, hatalı yapay zeka çıktılarından yararlanırken yakalandılar; bu durum uyarılar, daimi emirler ve giderek daha ağırlaşan yaptırımlara yol açtı.

Yapay zekanın sınırlamalarına dair farkındalık arttıkça, mahkemeler mazeretlere karşı daha az hoşgörülü hale geliyor ve hayali alıntıları cehaletten ziyade görevi kötüye kullanma olarak değerlendiriyor. Konuyu takip eden araştırmacılar bu tür davalarda hızlı bir artış olduğunu bildirirken, birçok kişi yapay zekanın kullanımının şeffaf, dikkatlice kontrol edilmiş ve hukuki gerçeğin kaynağı yerine taslak bir araç olarak ele alınması koşuluyla, hukuk çalışmalarında genel olarak faydalı olduğunu düşünüyor. 4

Operasyonel verimsizlik

Kullanıcılar yapay zekâ tarafından oluşturulan metinlere veya çıktılara güvenemediklerinde, sonuçları manuel olarak iki kez kontrol etmek zorundadırlar. Bu, zaman kaybına yol açar ve üretken yapay zekânın değerini düşürür. İş akışlarına yardımcı olmak yerine, yanılsamalar, yanlış bilgileri tespit etmek için insan incelemesi gerektiren darboğazlar yaratabilir.

Örneğin, Utah'ta yapay zekâ tarafından yazılan polis raporlarının test edilmesi sırasında, bir Disney filminden gelen arka plan sesi, sistemin yanlışlıkla bir polis memurunun kurbağaya dönüştüğünü belirtmesine neden oldu. Olay, Aralık ayında Axon'un Draft One gibi yapay zekâ araçlarının pilot uygulaması sırasında meydana geldi; bu araçlar, polis memurlarının zamanından tasarruf etmek için vücut kameralarından gelen sesleri yazılı raporlara dönüştürüyor.

Yetkililer bu araçların haftada birkaç saatlik evrak işinden tasarruf sağlayabileceğini söylese de, bu olay doğruluk ve denetimle ilgili daha derin endişeleri ortaya çıkardı. Rutin test raporlarında bile düzeltmeler gerekiyordu ve eleştirmenler yapay zekanın sesleri yanlış yorumlayabileceği, belirsizliği giderebileceği veya daha sonra resmi kayıtlara geçen ince hatalar yapabileceği konusunda uyarıyor. 5

Yapay zekâ halüsinasyonlarının nedenleri

Halüsinasyonların nedenlerini anlamak, halüsinasyon azaltma teknikleri tasarlamak ve yapay zeka tarafından üretilen içeriğe ne zaman güvenileceğine karar vermek için çok önemlidir.

Eğitim verilerinin sınırlamaları

Büyük dil modelleri, çok miktarda internet verisi, belge ve diğer metinler üzerinde eğitilir . Bu eğitim verilerindeki sınırlamalar yanılgılara yol açabilir:

  • Uzmanlık alanlarındaki yetersiz eğitim verileri bilgi boşluklarına yol açabilir. Modelden bu tür alanlarda metin üretmesi istendiğinde, belirsizliği kabul etmek yerine eksik bilgileri uydurma bilgilerle doldurabilir.
  • Eğitim veri setindeki düşük kaliteli web sayfaları, sahte haberler veya yanıltıcı içerik, modeli yanlış anlatılara ve gerçek dışı bilgilere doğru yönlendirebilir.
  • Güncelliğini yitirmiş olgusal veriler, modelin eğitim döneminden sonra değişen konular hakkında yanlış bilgiler üretmesine neden olabilir.
  • Eğitim verilerindeki önyargılar, yapay zeka modellerinin insanları, olayları veya olası sonuçları tanımlama biçimini bozabilir.

Bu sorunlar yalnızca metin üretimine özgü değildir. Benzer sorunlar , önyargılı veya eksik veri kümeleri üzerinde eğitilmişbilgisayar görüşü modellerinde de ortaya çıkar, ancak yanılsamalar yanlış sınıflandırmalar gibi farklı biçimler alır .

Bilgi kesintisi ve sürekli güncellemeler

Önceki nesil yapay zeka modelleri, bilgi için kesin bir son tarih belirlemişti ve canlı dış verilere erişimleri yoktu. Kullanıcılar son olaylar hakkında soru sorduğunda, model genellikle yine de çıktılar üretiyor ve bu da halüsinasyon riskini artırıyordu.

Modern yapay zeka sistemleri, statik eğitim verilerini canlı bir bilgi tabanından veya diğer harici kaynaklardan alınan verilerle giderek daha fazla birleştiriyor. Sonuç olarak:

  • Bilgi kesintisi, özellikle çevrimdışı dağıtımlar olmak üzere bazı modeller için hala önem taşımaktadır.
  • Birçok kurumsal ortamda, veri alma destekli üretim, dahili veya harici veri kaynaklarından güncel olgusal verileri çekerek kesintilerin etkisini azaltır.
  • Günümüzde yakınlıkla ilgili halüsinasyonlar, model parametrelerinin yaşıyla değil, sıklıkla eksik veya yanlış hizalanmış hatırlamayla da ilişkilidir.

Aşırı özgüven ve bir sonraki kelime tahmini

Bir dil modeli , girdi bağlamı ve önceki kelimeler göz önüne alındığında bir sonraki kelimeyi tahmin ederek metni kelime kelime üretir. Model, doğru cevapları garanti etmek yerine, akıcı ve muhtemel devam cümleleri üretmek üzere optimize edilmiştir. Bu durum çeşitli etkilere yol açar:

  • Model, doğru cevabı bilmediğini itiraf etmektense, akıcı bir açıklama yapmayı önceliklendirebilir.
  • Eğitim verilerinde sıkça görünen ancak yanlış olan bir bilgi örüntüsünü seçebilir.
  • Model, verilerdeki kalıplardan aşırı genelleme yapabilir ve görünüşte spesifik olan ancak gerçek kaynaklara dayanmayan içerik üretebilir.

Kullanıcı açısından bakıldığında, yapay zeka tarafından oluşturulan metnin biçimi, cevabın yanlış olabileceğini görmeyi zorlaştırıyor.

Hızlı yanlış yorumlama ve belirsiz yönlendirmeler

Halüsinasyonlar, girdi istemlerinin nasıl ifade edildiğinden de kaynaklanabilir:

  • Belirsiz yönlendirmeler, modele çok fazla özgürlük tanır ve bu da beklenmedik sonuçlara veya kullanıcının amacına uymayan yanıtlara yol açar.
  • Çok geniş kapsamlı sorular, modelin parametrelerinde veya elde edilen belgelerde mevcut olan bilginin ötesinde çıktılar üretmesine yol açar.
  • Belirsiz ifadeler, modelin tek bir yorumu seçmesine ve bu yoruma dayanarak yanlış bilgiler üretmesine yol açabilir.

Daha kesin talimatlar ve açık kısıtlamalar genellikle bu etkileri azaltır ancak tamamen ortadan kaldırmaz.

Yapay zekâ halüsinasyonlarını azaltmaya yönelik stratejiler

Halüsinasyon azaltma teknikleri genellikle tek bir çözüm yerine mimari seçimleri, eğitim yaklaşımlarını ve sistem düzeyindeki tasarımı bir araya getirir.

Yapay zekâ halüsinasyon tespit araçları

Yapay zekâ halüsinasyon tespit araçları, verilen bağlamın veya referans verilerinin yapay zekâ tarafından üretilen çıktıları destekleyip desteklemediğini değerlendirir. Bu araçlar en yaygın olarak, tutarlılık analizi, güven puanlaması ve çıkarım tabanlı doğrulama gibi tekniklerle birlikte LLM'yi hakem olarak kullanan yöntemleri kullanır.

Yapay zekâ halüsinasyon tespit araçlarını karşılaştırmak için 100 dengeli, olgusal soru-cevap test senaryosu üzerinde kıyaslama yaptık. W&B Weave ve Arize Phoenix sırasıyla %91 ve %90'lık benzer genel performans gösterirken, Comet Opik daha muhafazakar bir tespit stratejisi sayesinde %72 doğruluk oranına ulaştı. Sonuçlar hakkında daha fazla bilgi edinmek için Yapay zekâ halüsinasyon tespit araçları başlıklı makaleyi okuyun.

Geri alma ile güçlendirilmiş üretim

Veri alma destekli üretim, üretken yapay zeka modellerini harici bir bilgi tabanına bağlar. Kullanıcı bir sorgu gönderdiğinde:

  • Sistem, dahili veritabanları, alan özelinde yayınlar veya seçilmiş web sayfaları gibi derlenmiş kaynaklardan ilgili belgeleri veya verileri alır.
  • Elde edilen bu pasajlar, ek bağlam olarak dil modeline aktarılır.
  • Model, yalnızca öğrendiğiparametrelere dayanmak yerine, elde edilen gerçek verilere daha yakın kalması beklenen çıktılar üretir.

Son dönemdeki veri alma destekli nesil tasarımları bu modeli şu şekilde genişletiyor:

  • Çok adımlı veri alma işlemi; sistem önce veriyi alır, özetler ve bilgi eksikse tekrar alır.
  • Yapılandırılmış arama, yapay zeka araçlarının yalnızca yapılandırılmamış belgeleri değil, API'leri, SQL veritabanlarını veya bilgi grafiklerini sorguladığı bir yöntemdir.
  • Alınan bağlamın gerçekten cevabı destekleyip desteklemediğini kontrol eden veri alma kalitesi izleme sistemi, olası yanılsama durumlarını tespit edebilir.

RAG, olgusal doğruluğu garanti etmez, ancak özellikle bilgi tabanı dikkatlice derlenip düzenli olarak güncellendiğinde, yanılgıları genellikle azaltır.

Örneğin , yeni bir makale, her bir üretilen belirtecin dış kanıtlara duyarlılığını ölçerek büyük dil modeli çıktılarındaki yanıltıcı aralıkları tespit etmek için geliştirilmiş bir yöntem olan REFIND'ı sunmaktadır.

REFIND, Bağlam Duyarlılığı Oranı (CSR) adı verilen yeni bir ölçüt kullanarak, belgelerin alındığı ve alınmadığı durumlardaki belirteç olasılıklarını karşılaştırır ve önemli ölçüde değişen belirteçleri muhtemel halüsinasyonlar olarak işaretler.

Çok dilli SemEval-2025 Mu-SHROOM veri kümesi üzerinde değerlendirilen bu yaklaşım, özellikle düşük kaynaklı dillerde mevcut temel yöntemlerden daha iyi performans göstermeye yardımcı olmaktadır. Sonuçlar, yanılsama tespitinin elde edilen kanıtlara dayandırılmasının, LLM tarafından oluşturulan metindeki olgusal hataların daha hassas, güvenilir ve ölçeklenebilir bir şekilde tanımlanmasını sağladığını göstermektedir. 6

Modern sistemlerde hızlı tasarım

Üretken yapay zeka modellerinin gelişmesiyle birlikte komut istemi mühendisliği de değişti. Artık sadece zekice ifadeler kullanmakla ilgili değil. Mevcut sistemlerde komut istemi tasarımı şunlara odaklanıyor:

  • Görevi, girdileri ve kısıtlamaları, doğru sayılan ve cevapsız bırakılması gerekenleri de içerecek şekilde açıkça belirtin.
  • Verilen girdi eksik olduğunda modele "Bilmiyorum" demesini veya daha fazla bilgi istemesini emretmek.
  • Modelin, verilen verilerde bulunmayan ayrıntıları uydurmak yerine, belirtilen bağlama açıkça atıfta bulunmasını teşvik etmek.
  • Modelin harici kaynakları ne zaman kullanacağını ve kendi parametrelerine ne zaman güveneceğini bilmesi için rol talimatlarını, araçları ve veri alma ayarlarını uyumlu hale getirmek.

İyi yönlendirmeler yapay zeka çıktılarının kalitesini artırır, ancak bunlar artık bilgi alma, araçlar ve doğrulama gibi unsurları içeren daha büyük bir sistemin parçasıdır.

Harici gerçek kontrolü ve doğrulama yöntemleri

Yapay zekâ tarafından üretilen içeriğin güvenilir gerçek verilere karşı doğrulanması, temel bir strateji olmaya devam etmektedir. Doğrulama çeşitli şekillerde gerçekleşebilir:

  • Otomatik arama ve karşılaştırma: Sistem, belgeleri çekmek için arama destekli üretim yöntemini kullanır, ardından bu belgelerin oluşturulan içerikteki temel iddiaları destekleyip desteklemediğini kontrol eder.
  • Modeller arası doğrulama: Bir dil modeli bir yanıt üretir ve başka bir model veya farklı bir yapılandırma, bu yanıtı gerçek hatalar açısından inceler.
  • Araç tabanlı doğrulama: Yapay zeka modelleri, sayısal değerleri, tarihleri veya yapılandırılmış çıktıları doğrulamak için kod yorumlayıcıları, hesap makineleri veya alan API'leri gibi özel yapay zeka araçlarını kullanır.
  • İnsan müdahalesiyle inceleme: Konu uzmanları, üretimde kullanılmadan veya yayınlanmadan önce yapay zeka tarafından oluşturulan en kritik metinleri inceler.

Modern sistemler genellikle bu yaklaşımları birleştirerek, çoğu içerik için otomatik kontroller kullanırken, şüpheli durumları insan incelemesine sunar.

Halüsinasyonları azaltmaya yönelik etken odaklı yaklaşımlar

Yapay zekâ alanındaki son çalışmalar, bir modelin tek seferde yanıt vermek yerine planlama yapmasına, araçları çağırmasına ve birden fazla adım atmasına olanak tanıyan ajansal sistemleri ortaya koymuştur. Bu durum, halüsinasyonların nasıl ortaya çıktığını ve nasıl azaltılabileceğini değiştirmektedir.

Ajan tabanlı dil modelleme sistemleri şunları yapabilir:

  • Bir soruyu alt problemlere ayırın ve adım adım çözün.
  • Daha fazla veriye ihtiyaç duyulduğunda karar verin ve bilgi tabanından veya harici kaynaklardan ek veri alma işlemini gerçekleştirin.
  • Ara sonuçları doğrulamak için arama API'leri, veritabanları veya hesap makineleri gibi alana özgü araçları kullanın.
  • Kendi hazırladıkları cevap taslağını yeniden değerlendirip, elde ettikleri kanıtlarla çelişen kısımları revize etmelidirler.

Örneğin,yapay zeka ajanı hemen uzun bir yanıt üretmek yerine şunları yapabilir:

  1. İlgili belgeleri getirin.
  2. Farklı kaynakları özetleyin ve karşılaştırın.
  3. Çelişkileri veya eksik verileri belirleyin.
  4. Görev yeterince açık tanımlanmamışsa, kullanıcıya ek sorular sorun.
  5. Ancak o zaman nihai cevabı oluşturun.

Bu çok aşamalı yapı, halüsinasyonları daha görünür hale getirir ve kontrollerin uygulanabileceği ek noktalar sağlar.

Belirsizlik tahmini ve güven puanları

Bir diğer aktif alan ise yapay zeka çıktısının gerçek hatalar içerme olasılığını tahmin etmektir. Belirsizlik tahmini hem üretim sırasında hem de sonrasında kullanılabilir. Bazı yaklaşımlar şunlardır:

  • Modelin her kelime veya kelime öbeğine ne kadar güvendiğini gösteren belirteç düzeyinde güven puanları . Düşük güven bölgeleri inceleme için işaretlenebilir.
  • Tutarlılık kontrolleri, modelin aynı soruyu çeşitli şekillerde veya farklı yönlendirmelerle yanıtlaması ve sistemin yanıtların ne kadar istikrarlı olduğunu ölçmesidir.
  • Bağlam yeterliliği kontrolleri, ayrı bir modelin, elde edilen belgelerin soruyu yanıtlamak için yeterli bilgi içerip içermediğini değerlendirdiği kontrollerdir.
  • Üretim öncesi risk değerlendirmesi, sistemin belirli bir model konfigürasyonunda verilen bir girdinin halüsinasyonlara neden olma olasılığını tahmin ettiği aşamadır.

Bu yöntemler halüsinasyonları ortadan kaldırmaz, ancak kuruluşların yüksek riskli çıktıları belirlemelerine ve bunları daha güçlü doğrulama süreçlerine veya insan inceleyicilere yönlendirmelerine yardımcı olur.

Kullanıcılara belirsizliği iletmek

Yapay zekâ sistemleri sınırlamalarla karşılaştığında, kullanıcılara belirsizliği iletmek çok önemlidir. Bazı etkili uygulamalar şunlardır:

  1. Kasıtlı olarak belirsiz bir dil kullanmak, uygun beklentiler oluşturmaya yardımcı olur ve yanlış bilgilerin yayılmasına neden olabilecek yanıltıcı sonuçları azaltır.
  2. Modeller, gerçek dışı göstergeleri entegre ederek, verdikleri cevaplara güven duymadıkları durumlarda sinyal verebilirler. Son teknoloji inceleme yayınlarında önerilen bu şeffaflık, kullanıcıların yapay zeka tarafından oluşturulan içeriği olduğu gibi kabul etmelerini engeller.
  3. Modelin yanıtını etkileyen belirli metinsel unsurların vurgulanması, kullanıcıların belirsiz çıktıların ardındaki mantığı anlamalarına yardımcı olurken, güvenirlik derecelerinin gösterilmesi daha güvenilir bir değerlendirme sağlar.
  4. Karmaşık sorunlarla başa çıkarken, birden fazla kaynak sunmak, kullanıcıları yalnızca yanıltıcı bilgiler içerebilecek yapay zekâ çıktılarına güvenmek yerine iddiaları bağımsız olarak doğrulamaya teşvik eder.

Kapsamlı insan geri bildirimleriyle doğrulanan bu yaklaşımlar, bilgi tabanındaki sınırlamaların potansiyel yanılgılara yol açabileceği durumları kabul ederek, kullanıcılar ve üretken yapay zeka modelleri arasında daha dürüst bir ilişki kurar.

Halüsinasyonların ortaya çıkmadan önce riskini tahmin etmek

LLM'nin zaten oluşturduğu sahte içeriği tespit etmek, güncel halüsinasyon araştırmalarının çoğunun temel odak noktasıdır. RefChecker ve Hallucination Guard gibi araçlar, şüpheli çıktıları vurgulamayı veya puanlamayı amaçlayarak kullanıcıların halüsinasyon sonuçlarını filtrelemesine veya düzeltmesine yardımcı olur.

Yeni bir bakış açısı, sorunu yeniden yorumlayarak halüsinasyonların "hata" değil, sıkıştırma artefaktları olduğunu öne sürüyor. Çalışma sırasında, büyük dil modelleri, daha önce parametrelerine sıkıştırılmış bilgileri açar. Bozuk bir ZIP dosyasının açıldığında çöp üretmesine benzer şekilde, model "bilgi bütçesi" sınırlı olduğunda boşlukları makul ancak sahte içerikle doldurur. 7

LLM'ler ortalama durum verimliliğini optimize eder, bu da zaman zaman sistematik halüsinasyonlara yol açabilir. Beklenti Düzeyi Azaltma Yasası (EDFL), LLM'lerde halüsinasyonları önlemek için gereken bilgi eşiklerini tanımlar.

Açık kaynaklı Halüsinasyon Riski Hesaplayıcısı, ön üretim risk değerlendirmesi, hata sınırı belirleme, bağlam değerlendirmesi ve SLA tarzı garantiler sağlar; bunların her biri düzenlemeye tabi alanlarda çok faydalıdır. Herhangi bir OpenAI uyumlu API ile kullanılabilir.

Yapay zeka halüsinasyon kıyaslama metodolojisi

Amacımız, modellerin kurumsal bilgileri işleyip bunlardan doğru sonuçlar çıkarıp çıkaramayacağını belirlemektir. Bu, LLM'lerin işletmeler için en fazla değeri üretebileceği bir alandır ve bu bağlamda yanılgı oranlarını anlamak istedik.

Kıyaslama çalışmamız, CNN Haber makalelerinden türetilen bir soru veri kümesi kullanarak LLM halüsinasyon oranlarını değerlendirir.

Veri setini oluşturmak için, CNN'in RSS akışından doğrudan makaleleri çeken otomatik bir web veri toplama sistemi kullandık. Bu makalelerden, bir LLM'nin gerçek, makaleye özgü bilgileri alma yeteneğini titizlikle test etmek üzere tasarlanmış 60 soru oluşturduk.

Sorular kasıtlı olarak şu amaçlarla oluşturulmuştur:

  • Kesin sayısal değerler (yüzdeler, tarihler, miktarlar) isteyin.
  • Petrol fiyatları, sanat tarihi, bilimsel araştırma, finans ve daha birçok farklı konuyu ele alın.
  • Tahmin edilmesi zor olan zamansal ilişkileri ve istatistiksel gerçekleri dahil edin.
  • Verilen metinden genelleştirilmiş akıl yürütme yerine, tam olarak doğru bilgiyi elde etmeyi gerektirir.
  • Yanıtın orijinal makaledeki rakamla eşleşip eşleşmediğini kontrol ederek doğrulamayı kolaylaştırın.

Üç aşamalı bir doğrulama sistemi kullanılarak yapılan değerlendirme

Sorular API çağrıları aracılığıyla her bir LLM'ye gönderildikten sonra, yanıtlar iki aşamalı bir doğrulama süreci kullanılarak değerlendirilir:

  1. Statik Tam Eşleşme Kontrolü: Sistem öncelikle LLM'nin cevabı ile makaleden çıkarılan gerçek değer arasında hızlı bir dize karşılaştırması yapar. Değerler tam olarak eşleşirse, cevap doğru olarak işaretlenir.
  2. LLM'nin Hakem Rolüyle Anlamsal Doğrulama: Tam eşleşme bulunamazsa, ek bir değerlendirme adımı, cevabın gerçek değere anlamsal olarak eşdeğer olup olmadığını belirlemek için LLM'yi hakem rolünde kullanan bir model kullanır.
    Bu, biçimlendirme veya ifade biçimindeki farklılıkları açıklar, örneğin:
    • “26 milyon” ile “26.000.000” arasındaki fark
    • “geçersiz”, “mevcut değil” veya “verilmedi”
    • Anlamı aynı kalan, ancak kelime kullanımında ufak farklılıklar bulunan durumlar.
  3. Son kontrol: Hakem rolündeki LLM de halüsinasyon görebilir. Bunu çözmek için, ilk hakem rolündeki LLM tarafından "başarısız" olarak işaretlenen çıktıları kontrol etmek ve gerçekten başarısız olup olmadıklarını veya hakem rolündeki LLM'nin halüsinasyon görüp görmediğini doğrulamak için başka bir hakem rolündeki LLM daha oluşturduk. Bu hakem rolündeki LLM'den herhangi bir cevap şüpheli olarak işaretlenirse, değerlendirmeler sırasında hata olmadığından emin olmak için bunları manuel olarak kontrol edip notlandırdık.

Cevap, ancak tam eşleşme kontrolünden, anlamsal eşdeğerlik değerlendirmesinden ve son kontrolden geçemezse yanılgı olarak sınıflandırılır.

Örnek

Talimat: “Soruyu yalnızca verilen makalede yer alan bilgileri kullanarak cevaplayın. Cevapları yuvarlamayın. Yalnızca tek kelimelik veya tek rakamlık cevaplar verin veya 'verilmedi' seçeneğini işaretleyin.”

Makale: Bilim insanları Leonardo da Vinci'nin tablolarındaki gizli bileşeni tespit etti 8

Soru: Yağlı boya resim Kuzey Avrupa'ya hangi yüzyılda yayıldı?
Gerçek durum: Verilmedi.

Makale bu bilgiyi vermiyor; sadece Orta Çağ'a atıfta bulunuyor. Bu nedenle, "verilmedi" dışında herhangi bir yanıt, modelin makaleyi takip etmediğini ve uydurma veya varsayımsal bilgiler ürettiğini, bunun da bir halüsinasyona yol açtığını gösterir.

SSS'ler

Yapay zekâ araçları yanlış bilgi veya yanıltıcı sonuçlar üretebilir. Yapay zekâ yanılgılarını önlemek için kullanıcılar cevapları iki kez kontrol etmeli ve daha açık sorular sormalıdır. Yapay zekâ tarafından üretilen metindeki bu gerçek dışı bilgiler, özellikle bilimsel yazılar ve hukuki araştırmalar gibi alanlarda istenmeyen sonuçlara yol açabilir.

Yayınlar, yapay zekânın yanılsamasına yol açan çeşitli nedenleri belirlemiştir. Büyük dil modelleri gibi üretken yapay zekâ sistemleri gerçek dışı çıktılar ürettiğinde, bu genellikle yetersiz eğitim verisinden veya güncelliğini yitirmiş gerçek verilere dayanmaktan kaynaklanır. Araştırmalar, bilgi tabanı sistemleri oluşturmak için kullanılan önceki yöntemlerin, karmaşık sorunları yanıtlamak için internet verilerini işlerken modellerin yanılsamaya dayalı referanslar üretmesini veya yanlış bilgiler üretmesini yeterince önleyemediğini göstermektedir.

Yapay zekâ tarafından üretilen içerikler genellikle harici kaynaklara karşı doğrulanmadığı için yanıltıcı sonuçlara yol açar. Üretken modeller, eğitim veri kümelerinin dışındaki konularla başa çıkmakta zorlanırlar ve uzman doğrulamasından geçemeyen, kulağa mantıklı gelen gerçekler uydurabilirler.

Hukuk araştırmaları gibi alanlarda değerli olsa da, yapay zeka sistemleri özellikle düşük trafikli konularda veya düşmanca saldırılar altında yanlışlıklar üretebilir.

Modeller korelasyonu nedensellikle karıştırabilir ve doğru sonuçlar bile uydurmalar içerebilir; bu da güvenilir kaynaklara karşı gerçeklerin kontrol edilmesinin gerekliliğini vurgular. Bu sorun, modellerin verileri nasıl işlediğine dair yetersiz inceleme standartları nedeniyle devam etmektedir.

Daha fazla okuma

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle

Yorumlar 4

Düşüncelerinizi Paylaşın

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450
Abraham
Abraham
Aug 25, 2025 at 11:57

This article is updated in June while the GPT 5 is announced in August. How did you test GPT 5 in AI Hallucination Rates figure

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:46

Hi! Thanks for your comment. We use WordPress for our articles, which allows us to update graphs and tables independently of the main text. This means that even if the article text shows an earlier update date, we can still add the latest results to the figures without altering the written sections.

Rui
Rui
Aug 08, 2025 at 20:31

Hi Cem, I've been using this article as a reference of severity of hallucination. Is it possible to refresh the report with the newly released GPT-5? Thanks!

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:48

Hi Rui, Thanks a lot for your interest and for using our article as a reference. We’ve already refreshed the report with GPT-5 results, so you’ll find the latest updates included in the article.

Tim
Tim
Jul 19, 2025 at 10:13

Is there any chance that you might add Claude Sonnet/Opus 4 as well as Gemini 2.5 Pro?

Aleyna Daldal
Aleyna Daldal
Sep 05, 2025 at 08:48

Hi Tim, Thank you for your support and suggestion. Claude Sonnet/Opus 4 and Gemini 2.5 Pro have already been added to the article, so you can now see them included in the comparisons.

Joon
Joon
Feb 28, 2025 at 16:29

Hi, thank you for interesting benchmark! I was wondering Grok3's hallucination rate, both in Think mode and without. Are you planning to add these?

Cem Dilmegani
Cem Dilmegani
Mar 17, 2025 at 02:52

Hi Joon and thank you for your comment, Yes, we are waiting for API access.