Bize Ulaşın
Sonuç bulunamadı.

Çerçevelerle Birlikte Yüksek Lisans Değerlendirme Ortamı

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 8, 2026
Bakınız etik normlar

LLM'leri değerlendirmek, çok aşamalı akıl yürütmeyi, üretim performansını ve araç kullanımını değerlendiren araçlar gerektirir. Bir modelin beklenen davranıştan nasıl ve ne zaman saptığını belirlemek için yapılandırılmış ölçümler, kayıtlar ve izleme verileri sağlayan popüler LLM değerlendirme çerçevelerini incelemek için 2 gün harcadık. Özellikle şunları yaptık:

LLM değerlendirme ortamı

Fonksiyonel kategori
Aletler
Birincil amaç
OpenAI Değerlendirmeler, DeepEval, MLflow (LLM Değerlendirme), RAGAS, TruLens, Deepchecks, Inspect AI
LLM çıktılarını kalite, doğruluk ve tutarlılık ölçütlerini kullanarak değerlendirin.
Promptfoo, Humanloop, Opik
Model çıktısını iyileştirmek için komut istemlerini tasarlayın, test edin ve optimize edin.
LangChain Değerlendirmeleri, LangSmith, LlamaIndex Değerlendirmesi
LLM'leri LangChain veya LlamaIndex gibi belirli ekosistemler içinde değerlendirin.
Arize Phoenix, Langfuse, Langtrace AI, Lunary
Üretim aşamasındaki model performansının sürekli izlenmesi ve analizi.

LLM değerlendirme yetenekleri

Değerlendirme yeteneklerinin açıklaması:

  • Yapay zeka geçidi (çoklu model erişimi): Platformun, birleşik bir API arayüzü aracılığıyla birden fazla temel modeli değerlendirme yeteneği.
  • Tek turlu değerlendirmeler: Doğruluk, gerçeklik veya tutarlılık gibi ölçütler için model performansını tek tek sorular üzerinden ölçer.
  • Çok aşamalı değerlendirmeler: Bağlamsal muhakemeyi ve hafızayı test etmek için çok adımlı veya diyalogsal etkileşimlerin değerlendirilmesini destekler.
  • Çevrimdışı değerlendirmeler: Çevrimdışı değerlendirmeler, LLM uygulamasının üretime geçmeden önce sonuçlarını kontrol etmek için kullanılır. LLM uygulamanızın CI/CD kontrolleri için çevrimdışı değerlendirmeleri kullanın.
  • Özel LLM ölçütleri: Önceden belirlenmiş puanlama yöntemlerinin ötesinde, alana özgü veya göreve özgü değerlendirme ölçütleri tanımlamaya olanak tanır.

Ajan davranışı ve araç izleme yetenekleri

Değerlendirme araçları, özellikle "değerlendirme"nin kapsamını genişlettiğinizde (sadece komut veya yanıt değil, zaman içindeki temsilci davranışı, araç kullanımı, yan etkiler), temsilci davranışındaki uyumsuzlukların tespit edilmesine yardımcı olabilir.

Anthropic, bir modelin sadece ne söylediğini değil, nasıl davrandığını da değerlendirmenin, yeni nesil yapay zeka sistemlerinde güven ve emniyetin önemli bir boyutu haline gelebileceğini öne sürüyor. 1

Temel LLM değerlendirme çerçeveleri

OpenAI Değerlendirmeler

OpenAI Evals, büyük dil modellerinin (LLM'ler) performansını sistematik olarak değerlendirmek için OpenAI tarafından geliştirilen açık kaynaklı bir değerlendirme çerçevesidir.

Bu, kullanıcıların metin oluşturma ve mantıksal çıkarımdan kod veya SQL gibi yapılandırılmış çıktı üretimine kadar çok çeşitli görevlerde model kalitesini ölçmelerine olanak tanıyan genel amaçlı bir değerlendirme altyapısıdır.

İşte, bir modelin sözdizimsel olarak doğru SQL sorguları oluşturma yeteneğini değerlendirmek için tasarlanmış, OpenAI Evals ile oluşturulmuş örnek bir değerlendirme işlem hattı. Değerlendirme, GPT-4 ile oluşturulan sentetik verileri ve çerçeve içinde değerlendirmeyi kaydetmek için özel bir YAML yapılandırmasını kullanır:

Kaynak: OpenAI 2

DeepEval

Genellikle "LLM'ler için pytest" olarak tanımlanan, Python öncelikli bir çerçevedir. Geniş araştırma destekli metrik seti ve tüm işlem hatlarını veya izole bileşenleri test etme yeteneğiyle öne çıkar.

İşte bir LLM uygulamasının tek bir yürütülmesini temsil eden bir izleme değerlendirmesi örneği. İzlemeler üzerinde değerlendirmeler çalıştırmak, geliştirme sırasında yapılan tek seferlik değerlendirmelere benzer şekilde, model davranışının uçtan uca değerlendirilmesini sağlar:

Kaynak: ConfidentAI 3

MLflow (LLM Değerlendirmesi)

Bu, MLflow'u LLM değerlendirmesine genişletir. En önemli gücü, deney takibi ve farklı çalıştırmalar ve sürümler arasında yan yana karşılaştırma yapabilme özelliğidir.

İşte MLflow'un birden fazla çalıştırmanın sonuçlarını yan yana gösteren değerlendirme karşılaştırma görünümüne bir örnek. Bu örnekte, özlü puanlama metriği %33 oranında iyileşirken, kavram kapsamı %11 oranında azaldı.

Kaynak: MLflow 4

Ragalar

RAGAS (Retrieval-Augmented Generation Assessment Suite), özellikle Geri Alma Destekli Üretim (RAG) ve ajan tabanlı LLM uygulamalarının performansını ölçmek için tasarlanmış açık kaynaklı bir değerlendirme çerçevesidir. Hızlı veri analizi için pandas kullanmaya benzer şekilde, hafif bir deney ortamı sağlar.

RAGAS, bir sistemin ilgili bağlamı ne kadar etkili bir şekilde alıp ürettiği yanıtlara entegre ettiğini değerlendirir. Bunu, aşağıdakiler de dahil olmak üzere, araştırmalarla desteklenen bir dizi ölçüt aracılığıyla yapar:

  • Doğruluk : Üretilen yanıtın, elde edilen bağlamı ne kadar doğru yansıttığı.
  • Bağlamsal uygunluk : Elde edilen belgelerin sorguyla ne kadar alakalı olduğu.
  • Yanıtın alaka düzeyi : Oluşturulan yanıtın kullanıcının sorusuyla ne kadar alakalı olduğu.
  • Bağlamsal hatırlama ve bağlamsal kesinlik : İlgili bilgilerin ne kadar eksiksiz ve kesin olarak geri çağrıldığı.

Bu ölçütler bir araya gelerek hem alma hem de oluşturma kalitesini ölçen genel bir RAG puanı oluşturur. RAG'ın ötesinde, RAGAS artık Multimodal Faithfulness ve Noise Sensitivity gibi uzantılar aracılığıyla ajan tabanlı iş akışları, araç kullanımı, SQL değerlendirmesi ve hatta çok modlu görevler için ölçütleri desteklemektedir.

RAGAS ayrıca zaman içinde yeni ölçümler de sunmaktadır; bu ölçümlere RAGAS GitHub deposundan buradan ulaşabilirsiniz.

İşte RAGAS tarafından yapılan puan dağılım analizi:

Kaynak: RAGAS 5

TruLens

TruLens, LLM çıktılarının niteliksel analizi için tasarlanmış açık kaynaklı bir kütüphanedir. Her model çağrısından sonra yanıtı değerlendirmek için çalışan geri bildirim fonksiyonları ekleyerek çalışır. Sadece doğruluk değil, aynı zamanda mantıksal analiz ve niteliksel değerlendirme için de oldukça uygundur.

Doğruluk testinin ötesinde, TruLens etik ve davranışsal değerlendirmeyi de destekler:

Derinlemesine kontroller (LLM)

Deepchecks (LLM), başlangıçta makine öğrenimi modeli doğrulaması için geliştirilmiş, şimdi ise büyük dil modelleri (LLM'ler) ve RAG uygulamaları için genişletilmiş açık kaynaklı bir değerlendirme çerçevesidir. LLM destekli arama işlem hatlarını değerlendirmek için özel olarak tasarlanmış modüller sunmaktadır.

Deepchecks (LLM), değerlendirme ölçütlerine ve otomasyon süreçlerine odaklanmasıyla öne çıkıyor:

  • Temsilci-Hakim
  • RAG değerlendirmesi
  • LLM değerlendirme çerçevesi
  • CI/CD işlem hatları

İşte modelin GVHD ile ilişkili ağrı hakkındaki tıbbi bir soruyu yanıtladığı bir soru-cevap kullanım örneği.

Kaynak: Deepchecks 6

Yapay Zekayı İncele

Inspect AI, araştırma düzeyinde değerlendirmelere odaklanılarak geliştirilmiş açık kaynaklı bir LLM değerlendirme çerçevesidir. Hem model düzeyinde hem de ajan düzeyinde değerlendirmeyi destekleyerek, kullanıcıların yalnızca tek adımlı model çıktılarını değil, aynı zamanda çok adımlı ajan davranışını, akıl yürütme zincirlerini ve zaman içindeki görev yürütmesini de değerlendirmelerini sağlar.

Bu çerçeve, Docker konteynerleri veya sanal makineler gibi izole ortamlarda kurulumu kolaydır ve bu da onu ana sistemi açığa çıkarmadan ajan tabanlı iş akışlarını güvenli bir şekilde değerlendirmek için uygun hale getirir. Inspect, net bir görev tanımlama ve yürütme modeli sağlayarak kullanıcıların değerlendirme görevlerini hızlı bir şekilde tanımlamasına, örneklem boyutlarını kontrol etmesine (örneğin, CI tarzı istatistiksel standartlar için) ve değerlendirmeleri otomatikleştirilmiş işlem hatlarına entegre etmesine olanak tanır.

Inspect ayrıca, gecikme süresi ve adım başına belirteç kullanımı da dahil olmak üzere, ayrıntılı adım adım değerlendirme kayıtları ve eylemler ile araç çağrılarına ilişkin bir rapor sunar. Bu ayrıntı düzeyi, bir modelin veya ajanın beklenen davranıştan nerede ve neden saptığını teşhis etmeyi kolaylaştırır.

Inspect AI'nin bir diğer iyi yönü de çevrimdışı değerlendirme için tasarlanmış olması ve gerçek zamanlı telemetri özelliklerinden ziyade doğruluk, şeffaflık ve tekrarlanabilirliğe öncelik vermesidir.

Hızlı test ve optimizasyon

Promptfoo

Promptfoo, komut istemi mühendisliği, test ve değerlendirmesi için açık kaynaklı bir araç setidir. Basit YAML veya komut satırı yapılandırmaları kullanarak komut istemlerinin ve LLM çıktılarının A/B testini sağlar ve LLM'nin hakem olarak kullanıldığı değerlendirmeleri destekler.

Bu araç seti, bulut kurulumu veya SDK bağımlılıkları gerektirmeyen, hafif deneyler için tasarlanmıştır ve geliştiriciler tarafından hızlı yineleme ve otomatik sağlamlık testleri (örneğin, anlık enjeksiyon veya toksisite kontrolleri) için yaygın olarak kullanılmaktadır. Anlık değerlendirmeyi günlük geliştirme iş akışlarına entegre etmek için en uygunudur.

İnsan döngüsü

Humanloop, insan odaklı geri bildirime dayalı bir hızlı değerlendirme ve optimizasyon platformudur. Ekiplerin LLM çıktıları üzerindeki insan değerlendirmelerini toplamasına ve analiz etmesine olanak tanıyarak, hızlı yanıt kalitesini, model uyumunu ve güvenilirliği artırmaya yardımcı olur.

Opik (Komet tarafından)

Opik, Comet tarafından geliştirilen açık kaynaklı bir LLM değerlendirme ve izleme platformudur. LLM uygulamalarının geliştirme ve üretim yaşam döngüsü boyunca izlenmesi, değerlendirilmesi ve denetlenmesi için araçlar sağlar.

Opik, komut istemi iş akışlarının tüm izlerini ve sürelerini kaydeder, otomatik ölçümleri (LLM'yi hakem olarak kullanarak olgusal doğruluk gibi karmaşık ölçümler de dahil olmak üzere) destekler ve komut istemi veya model sürümleri arasında performans karşılaştırmasına olanak tanır.

Onu diğerlerinden ayıran özellik, hızlı değerlendirmeyi deney yönetimi ve gözlemlenebilirlikle birleştirerek test ve üretim izleme arasındaki boşluğu doldurmasıdır.

Çerçeveye özgü değerlendirme

LangChain Değerlendirmeleri

LangChain Evals, LangChain iş akışları için çerçeveye özgü bir değerlendirme aracıdır. Özellikle karmaşık LLM zincirleri içeren LangChain uygulamalarının performansını değerlendirmek üzere tasarlanmış bir dizi yerleşik değerlendirme şablonu ve ölçütü sunar.

LangSmith

LangSmith, LangChain ekibi tarafından geliştirilen bir değerlendirme ve gözlemlenebilirlik platformudur. Önyargı tespiti ve güvenlik testi gibi görevler için özel değerlendirme yetenekleriyle birlikte, LLM etkileşimlerini kaydetme ve analiz etme araçları sağlar.

Tamamen açık kaynaklı bir araçtan ziyade, LangChain tabanlı uygulamalar için kurumsal düzeyde destek sunan, yönetilen (barındırılan) bir hizmettir.

LlamaIndex Değerlendirmesi

LlamaIndex Eval, LlamaIndex (eski adıyla GPT Index) çerçevesine entegre edilmiş, LlamaIndex üzerine kurulu RAG işlem hatlarını değerlendirmek için kullanılan bir değerlendirme araç setidir. Belirli bir sorgu için oluşturulan yanıtları referans yanıtlarla karşılaştıran bir Doğruluk Değerlendiricisi içerir ve ayrıca GPT-5'i referanssız bir şekilde yanıt kalitesini değerlendirmek için bir hakem olarak kullanabilir.

İşlevselliği RAGAS'a benzer, ancak LlamaIndex iş akışına yerleşik olarak bulunur; bu da geliştiricilerin harici bağımlılıklar eklemeden veri alma ve oluşturma kalitesini değerlendirmelerine olanak tanır.

Değerlendirme yeteneklerine sahip LLM gözlemlenebilirlik çerçeveleri

Arize Phoenix

Arize AI (bir makine öğrenimi gözlemlenebilirlik şirketi) tarafından geliştirilen Phoenix, üretim ortamlarında LLM davranışını analiz etmek ve sorun gidermek için kullanılan açık kaynaklı bir araç setidir. Geleneksel değerlendirme çerçevelerinin aksine, Phoenix önceden tanımlanmış ölçütlerden ziyade gözlemlenebilirliğe ve keşifsel analize odaklanır.

Phoenix, devreye alınmış RAG veya LLM sistemlerini izlemek için kullanılabilir ve ardından belirlenen sorunların daha derinlemesine metrik düzeyinde değerlendirilmesi için RAGAS veya Giskard gibi çerçevelere başvurulabilir.

Langfuse

Langfuse öncelikle hem LLM (Büyük Dil Modeli) hem de RAG (Geri Alma Destekli Üretim) sistemlerinin izlenmesine odaklanmıştır. Ekiplerin modellerin gerçek zamanlı üretim ortamlarında nasıl performans gösterdiğini takip etmelerine ve analiz etmelerine yardımcı olur.

Model performansını çeşitli ölçütlerle değerlendirebilse de, asıl gücü LLM ve RAG işlem hatlarının çalışma sırasında nasıl davrandığına dair gözlemlenebilirlik sağlamasında yatmaktadır. Bu, LLM çıktıları, veri alma kalitesi ve model kayması genelinde performansı izlemeyi içerir ve modellerin dinamik veri kümeleriyle etkileşime girerken veya zaman içinde değişirken kalite standartlarını karşılamaya devam etmesini sağlar.

Langtrace AI

Langtrace AI, ayrıntılı izleme kayıtları ve performans ölçütleri yakalayarak LLM uygulamalarını değerlendirme konusunda uzmanlaşmıştır. Token kullanımı, gecikme süresi, doğruluk ve maliyet gibi temel unsurları izlemek için araçlar sunarak model davranışı ve performansına ilişkin kapsamlı bir görünüm sağlar.

Ay

Lunary, LLM etkileşimlerine ilişkin derinlemesine gözlem olanağı sağlama konusunda uzmanlaşmıştır ve geliştiricilerin model davranışını gerçek zamanlı üretim ortamlarında izlemelerine ve değerlendirmelerine olanak tanır.

LLM değerlendirme ölçütleri

LLM değerlendirme ölçütleri, geleneksel istatistiksel puanlayıcılardan model tabanlı ve şimdi de LLM'nin hakem olarak kullanıldığı yaklaşımlara doğru evrim geçirmiştir; işte her biri için kısa bir açıklama:

  • İstatistiksel puanlayıcılar (referans tabanlı): Doğruluk, hassasiyet, geri çağırma, F1, BLEU ve ROUGE gibi metrikler, referans bir yanıtla örtüşmeyi ölçer. Yapılandırılmış görevler (örneğin, sınıflandırma, özetleme) için iyi çalışırlar, ancak açık uçlu çıktılarla başa çıkmakta zorlanırlar.
  • Model tabanlı puanlayıcılar (referanssız): Supert, BLANC, SummaC veya QAFactEval gibi ölçütler, kesin referanslar olmadan metin kalitesini, gerçekliğini veya mantıksal tutarlılığını değerlendirir.
  • LLM tabanlı puanlayıcılar (LLM-hakem olarak): Değerlendirmeler, bağlam içinde yanıt kalitesini değerlendirmek için başka bir model (örneğin, GPT-5 ) kullanır.

Daha fazla bilgi için bkz: Agentic evals: How we evaluate LLM applications?

LLM değerlendirmelerinin neden zor olduğu

Öğrenme tabanlı modellerin değerlendirilmesi hiç de basit bir iş değil. Kalite kriterlerinin kullanım durumuna göre değişmesinin ötesinde, değerlendirme süreci geleneksel yazılım testinden veya tahmine dayalı makine öğrenimi değerlendirmesinden temel olarak farklıdır.

En önemli zorluklardan biri deterministik olmama durumudur: LLM'ler olasılıksal çıktılar üretir, bu nedenle aynı girdi her seferinde farklı yanıtlar üretebilir, bu da tutarlılık ve tekrarlanabilirliğin ölçülmesini zorlaştırır.

Görsel kaynağı: AI world 7

LLM'lerin olasılıksal yapısı yaratıcı ve çeşitli yanıtlar vermeye olanak tanırken, aynı zamanda test etmeyi de zorlaştırır; tek bir doğru cevabı kontrol etmek yerine, bir dizi çıktının beklentileri karşılayıp karşılamadığını belirlemeniz gerekir.

Tek bir doğru cevap yok: Dil öğrenme modelleri genellikle yazma, özetleme veya konuşma gibi ucu açık görevleri ele alır. Bu durumlarda birçok geçerli cevap olabilir. Bu tür sistemleri değerlendirmek, yalnızca referans metniyle eşleştirmek değil, anlamsal benzerlik, ton, üslup veya olgusal doğruluğu ölçmeyi gerektirir.

Çeşitli girdi alanı: LLM uygulamaları çok çeşitli girdilerle karşılaşır; örneğin, bir müşteri destek botu iadeler, faturalama veya hesap güvenliğiyle ilgili soruları yanıtlayabilir. Etkili değerlendirme, bu çeşitliliği yakalayan senaryo tabanlı test setlerine ihtiyaç duyar.

İyi tasarlanmış çevrimdışı testler bile, kullanıcıların beklenmedik uyarılar ve uç durumlar ortaya koyduğu gerçek dünya uygulamalarında başarısız olabilir. Bu durum, zaman içinde tutarlı model kalitesini sağlamak için sürekli, üretim ortamında değerlendirme ve gözlemlenebilirliğin gerekliliğini vurgulamaktadır.

LLM değerlendirmesinde benzersiz riskler

Olasılıksal, talimatları izleyen sistemlerle çalışmak, geleneksel yapay zeka değerlendirmesinin nadiren ele aldığı yeni ve karmaşık riskleri beraberinde getirir:

  • Halüsinasyonlar: Model, yanlış veya yanıltıcı bilgiler üretebilir; örneğin, ürünler icat edebilir, var olmayan kaynaklara atıfta bulunabilir veya yanlış tıbbi veya hukuki tavsiyelerde bulunabilir.
  • Güvenlik açıklarından yararlanma: Kötü niyetli kullanıcılar, güvenlik kısıtlamalarını aşmak için uyarı mesajlarını kullanarak modeli zararlı, taraflı veya izin verilmeyen içerik üretmeye yönlendirebilirler.
  • Veri sızıntıları: Bir LLM (Öğrenme Öğrenme Platformu), eğitim verilerinden veya bağlantılı sistemlerinden hassas veya tescilli bilgileri istemeden ifşa edebilir .

Bu sorunları hafifletmek için ekiplerin doğruluk ölçütlerinin ötesine geçen sağlam değerlendirme iş akışlarına ihtiyacı vardır:

  • Modelleri, düşmanca ve uç durum girdileriyle stres testine tabi tutarak güvenlik açıklarını ortaya çıkarın.
  • Modelin kötü amaçlı komutlara karşı dayanıklılığını test etmek için kırmızı ekip çalışmaları ve güvenlik değerlendirmeleri gerçekleştirin .
  • Üretim ortamında ortaya çıkan sapmalar, gizlilik ihlalleri veya güvenli olmayan çıktılar gibi sorunları tespit etmek için canlı etkileşimleri sürekli olarak izleyin .

LLM değerlendirme yöntemleri

Dil modeli değerlendirme yöntemleri, bir dil modelinin akıl yürütme, özetleme ve diyalog gibi görevlerde ne kadar iyi performans gösterdiğini ölçmeye yardımcı olur. İstatistiksel ölçütler (örneğin, BLEU, ROUGE), başka bir modelin kalite, güvenlik ve olgusal doğruluğu değerlendirdiği, dil modelinin bir yargıç olarak kullanıldığı yaklaşımlara kadar uzanır. Ayrıca, modellerin zaman içinde nasıl davrandığını ve araçları nasıl kullandığını izleyen ajansal ve davranışsal test değerlendirme yöntemleri de vardır.

Temel yaklaşımlar ve bunların zorlukları hakkında daha detaylı bilgi için, LLM değerlendirme yöntemleri hakkındaki tam makalemize göz atabilirsiniz.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450