Bize Ulaşın
Sonuç bulunamadı.

2026'da Piyasaya Çıkacak 15 Yapay Zeka Ajanı Gözlem Aracı: AgentOps ve Langfuse

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 29, 2026
Bakınız etik normlar

Langfuse ve Arize gibi yapay zeka ajan gözlemlenebilirlik araçları, ayrıntılı izler (bir programın veya işlemin yürütülmesinin kaydı) toplamaya ve ölçümleri gerçek zamanlı olarak izlemek için gösterge panoları sağlamaya yardımcı olur .

LangChain gibi birçok ajan çerçevesi , ajan tabanlı izleme ile meta verileri paylaşmak için OpenTelemetry standardını kullanır. Bunun yanı sıra, birçok gözlemlenebilirlik aracı daha fazla esneklik için özel enstrümantasyon sağlar.

LLM uygulamaları ve yapay zeka ajanları için 15 gözlemlenebilirlik platformunu test ettik. Her platform, iş akışları kurarak, entegrasyonları yapılandırarak ve test senaryoları çalıştırarak uygulamalı olarak hayata geçirildi. Üretim süreçlerinde ek yük getirip getirmediklerini ölçmek için 4 gözlemlenebilirlik aracını karşılaştırmalı olarak değerlendirdik. Ayrıca Langfuse kullanarak bir LangChain gözlemlenebilirlik eğitimini de gösterdik.

Ajan tabanlı izleme araçlarının genel yük karşılaştırması

Her bir gözlemlenebilirlik platformunu çoklu ajanlı seyahat planlama sistemimize entegre ettik ve enstrümantasyon içermeyen bir temel duruma kıyasla performans yüklerini ölçmek için 100 özdeş sorgu çalıştırdık. Karşılaştırma metodolojimizi okuyun.

  • LangSmith, neredeyse hiç ölçülebilir ek maliyet olmadan olağanüstü verimlilik sergileyerek, performans açısından kritik üretim ortamları için ideal bir çözüm haline geldi.
  • Laminar teknolojisi %5 gibi minimum bir ek maliyet getirerek, performansın kritik olduğu üretim ortamları için son derece uygun hale gelmiştir.
  • AgentOps ve Langfuse sırasıyla %12 ve %15'lik orta düzeyde bir ek yük göstererek, gözlemlenebilirlik özellikleri ve performans etkisi arasında makul bir denge sağladı. Bu platformlar, çoğu üretim kullanım senaryosu için kabul edilebilir gecikme sürelerini koruyor.

Performans farklılıklarının ardındaki olası nedenler

Yaptığımız karşılaştırmalı test, gecikme farklılıklarının özellikle çoklu ajan iş akışlarında, izleme derinliği ve yürütme yolu katılımından kaynaklandığını göstermektedir. Daha derin, adım adım gözlemlenebilirlik sunan araçlar daha yüksek ek yük sergilerken, daha hafif izleme yaklaşımları temel seviyeye daha yakın kaldı.

1. Yürütme yolundaki izleme derinliği

Gözlemlenebilirlik araçları, izleme kayıtlarını ve meta verileri yakalamak için aracının yürütme akışına mantık ekler. Bu mantık, istek işleme sırasında eşzamanlı olarak çalıştığında, aracının bir yanıt döndürmeden önce bu ek işi tamamlaması gerektiğinden, uçtan uca gecikmeyi doğrudan artırır.

Örneğin:

  • LangSmith neredeyse hiç ölçülebilir ek yük getirmedi (~%0), bu da çok az eşzamanlı çalışma gerektirdiğini gösteriyor.
  • Langfuse'un daha derin kademeli ölçümleme yöntemi, daha yüksek bir genel gider oranına (~%15) katkıda bulundu.

2. Çok adımlı işlem hatlarında olay amplifikasyonu

Çoklu ajan sistemlerinde, tek bir kullanıcı isteği birden fazla ajan eylemini tetikler. Bir araç her adımda ayrıntılı veri kaydettiğinde, toplam olay sayısı hızla artar ve iş akışı derinleştikçe işlem ve izleme yönetimi yükü de artar.

Karşılaştırma testlerinin sonuçlarında:

  • Langfuse ve AgentOps, çok adımlı seyahat planlama iş akışımızda gözle görülür derecede daha yüksek genel giderlere (%15 ve %12) neden oldu.
  • LangSmith ve Laminar, ajan adımı başına daha az olay yaydı.

3. Satır içi değerlendirme ve doğrulama ek yükü

Bazı platformlar, ajan çalışırken ek kontroller veya izleme işlemleri gerçekleştirir. Her kontrol hafif olsa da, bunların tüm ajan adımlarına tekrar tekrar uygulanması ölçülebilir bir gecikmeye neden olur.

Örneğin:

  • AgentOps'un yaşam döngüsü düzeyindeki izlemesi %12'lik bir ek maliyetle aynı zamana denk geldi.
  • Laminar, uygulama performansını etkileyen satır içi değerlendirmeye dair hiçbir kanıt göstermedi ve bu oran yaklaşık %5'te kaldı.

4. Serileştirme ve kalıcılık sıklığı

Ayrıntılı gözlemlenebilirlik verilerini yakalamak, izlerin serileştirilmesini ve depolama alanına veya harici arka uçlara yazılmasını gerektirir. İz detayının artması, bu işlemin sıklığını artırarak her isteğe ek G/Ç yükü getirir.

Bizim kıyaslama çalışmamızda:

  • Langfuse'un ayrıntılı komut istemi, çıktı ve belirteç izleme özelliği en yüksek ek yükü (~%15) ortaya çıkardı.
  • LangSmith'in daha açık renkli iz kalıntıları, başlangıç seviyesine yakın kaldı.

5. Ajan çerçevesiyle entegrasyonun sıkılığı

Bir aracın ajan çerçevesiyle ne kadar yakın entegre olduğu performansı etkiler. Daha sıkı entegrasyonlar çeviri ve düzenleme adımlarını azaltırken, daha genel SDK'lar ek işlem katmanları ekler.

Örneğin:

  • LangSmith'in ajan yürütmesiyle olan yakın uyumu, yaklaşık %0 ek yük ile ilişkilidir.
  • AgentOps ve Langfuse, daha ayrışmış entegrasyon yollarıyla tutarlı olarak, daha yüksek gecikme etkisi gösterdi.

Yapay zeka ajan gözlemlenebilirlik platformları

Seviye 1: Ayrıntılı LLM ve anlık/çıktı gözlemlenebilirliği

* Bu sütunlarda listelenen özellikler, entegrasyonlar veya özelleştirmeler yoluyla genişletildiğinde her aracın neler izleyebileceğine dair açıklayıcı örneklerdir. Bunlar tek bir platforma özgü değildir.

2. Seviye: İş akışı, model ve değerlendirme gözlemlenebilirliği

Seviye 3: Ajan yaşam döngüsü ve operasyonların gözlemlenebilirliği

Seviye 4: Sistem ve altyapı izleme (ajan tabanlı değil)

Datadog (LLM Gözlemlenebilirlik modülü ile) ve Prometheus (dışa aktarıcılar aracılığıyla) Langfuse/LangSmith ile birlikte giderek daha fazla kullanılmaktadır.

Ajan geliştirme ve orkestrasyon platformları :

  • Flowise , Langflow , SuperAGI ve CrewAI gibi araçlar, kodsuz/düşük kodlu arayüzlerle ajan iş akışlarının oluşturulmasını, düzenlenmesini ve optimize edilmesini sağlar.

Dağıtım gerektirmeyen sürümler ve fiyatlandırma

Ücretsiz sürümler, kullanım sınırlarına (örneğin, gözlemler, izlemeler, belirteçler veya iş birimleri) göre değişiklik gösterir. Başlangıç fiyatları genellikle temel bir plan içindir ve bu planın özellikler, kullanıcılar veya kullanım sınırları konusunda kısıtlamaları olabilir.

Ağırlıklar ve Eğimler (W&B Dokuma)

Kullanım örneği: Çoklu ajan sistemlerinde hataların ajan çağrıları arasında nasıl yayıldığını izleyerek hataların ayıklanması.

Şekil 1: Weights & Biases Weave'den izleme paneli.

Weights & Biases Weave, çoklu ajan sistemleri için yapılandırılmış yürütme izleri kaydeder ve ajan çağrıları arasındaki üst-alt ilişkilerini korur. Girişler, çıkışlar, ara durumlar, gecikme ve belirteç kullanımı, her ajan ve her iz için kaydedilir.

Dokuma izleme özellikleri

  • Düz istek kayıtları yerine hiyerarşik aracı izleme
  • Ajan düzeyinde maliyet ve gecikme atfı
  • İzleme işlemlerine doğrudan uygulanan değerlendirme puanlayıcıları için yerel destek.

Değerlendirme yetenekleri

Weave ayrıca değerlendirme için yerleşik puanlama sistemleri de sunmaktadır, bunlar şunlardır:

  • Halüsinasyonları tespit etmek için kullanılan HallucinationFreeScorer.
  • Özet kalitesini değerlendirmek için kullanılan SummarizationScorer.
  • Anlamsal benzerlik için EmbeddingSimilarityScorer,
  • Biçim doğrulama için ValidJSONScorer ve ValidXMLScorer,
  • Şema uyumluluğu için PydanticScorer,
  • OpenAIİçerik güvenliği için ModerationScorer,
  • ContextEntityRecallScorer gibi RAGAS puanlayıcıları,
  • RAG sistemi değerlendirmesi için ContextRelevancyScorer.

En uygun olduğu durumlar: Yüzeysel ölçümler yerine izleme düzeyinde kök neden analizine ihtiyaç duyan, çok adımlı veya çok ajanlı iş akışları yürüten ekipler.

Langfuse

Kullanım alanları: LLM etkileşimlerini izlemek, komut istemi sürümlerini yönetmek ve kullanıcı oturumlarıyla model performansını izlemek.

Şekil 2: İzleme ayrıntılarını gösteren Langfuse kontrol paneli örneği. 1

Langfuse, LLM uygulamalarının hata ayıklamasına, izlenmesine ve optimize edilmesine yardımcı olmak için komut istemi katmanına derinlemesine görünürlük sağlayarak komut istemlerini, yanıtları, maliyetleri ve yürütme izlerini yakalar.

Ancak Langfuse, kod ve komut istemi yönetimi için Git tabanlı iş akışlarını tercih eden ekipler için uygun olmayabilir, çünkü harici komut istemi yönetim sistemi aynı düzeyde sürüm kontrolü ve iş birliği sunmayabilir.

Langfuse izleme özellikleri

  • Hızlı evrim ve kullanım kalıplarına ilişkin görünürlük
  • Kullanıcı odaklı uygulamalar için uygun oturum tabanlı analiz.
  • Filtreleme ve inceleme için pratik meta veri ve etiketleme modeli

Kurumsal düzeyde özellikler:

Bu özelliklerden bazıları şunlardır:

  • Günlük seviyeleri : Daha ayrıntılı bilgi edinmek için günlüklerin ayrıntı düzeyini ayarlayın.
  • Çoklu Mod Desteği : Çok modlu LLM uygulamaları için metin , resim , ses ve diğer formatları destekler.
  • Sürümler ve versiyonlama : Sürüm geçmişini takip edin ve yeni sürümlerin modelin performansını nasıl etkilediğini görün.
  • İzleme URL'leri : Daha detaylı inceleme ve hata ayıklama için benzersiz URL'ler aracılığıyla ayrıntılı izleme kayıtlarına erişin.
  • Ajan grafikleri : Ajan davranışını daha iyi anlamak için ajan etkileşimlerini ve bağımlılıklarını görselleştirir.
  • Örnekleme : Sistemi aşırı yüklemeden analiz etmek için etkileşimlerden temsili veriler toplamak.
  • Token ve maliyet takibi : Her model çağrısı için token kullanımını ve maliyetlerini takip ederek kaynak yönetiminin verimliliğini sağlayın.
  • Maskeleme : Hassas verileri izlerde maskeleyerek koruyun, gizliliği ve uyumluluğu sağlayın.

En uygun kullanım alanları: Özellikle kullanıcı oturumlarının önemli olduğu üretim ortamlarında komut istemleri üzerinde çalışan ve kullanımı izleyen ekipler.

Galileo

Kullanım alanları: Maliyet/gecikmeyi izlemek, çıktı kalitesini değerlendirmek, güvenli olmayan yanıtları engellemek ve uygulanabilir çözümler sunmak.

Şekil 3: Araç seçim kalitesi, bağlam uyumluluğu, aracı eylem derlemesi ve ilk belirtece kadar geçen süreye ilişkin grafikler.

Galileo, gerçek zamanlı güvenlik ve uyumluluk kontrolleri uygularken maliyet, gecikme ve çıktı kalitesi ölçütlerini takip eder.

Bu platform, geleneksel gözlemlenebilirlik (gecikme, maliyet, performans) özelliklerini yapay zeka destekli hata ayıklama ve değerlendirme (yanılsama tespiti, olgusal doğruluk, tutarlılık, bağlam uyumluluğu) ile birleştiriyor.

Galileo izleme özellikleri

  • Yüzeysel hataların ötesinde arıza modu tespiti (örneğin, geçersiz alet girişlerine yol açan yanılsamalar)
  • Önerilen hızlı değişiklikler veya birkaç dozluk eklemeler gibi yol gösterici geri bildirimler.
  • Değerlendirme sonuçları ve önerilen çözümler arasında sıkı bir bağlantı var.

En uygun olduğu kuruluşlar: Çıktı kalitesine, güvenliğe ve yönlendirilmiş düzeltme ile hızlı yineleme döngülerine öncelik veren kuruluşlar.

Korkuluklar Yapay Zeka

Kullanım alanları: Zararlı çıktıları önlemek, LLM yanıtlarını doğrulamak ve güvenlik politikalarına uyumu sağlamak.

Şekil 4: Koruma davranışı gösterge paneli, koruma çalışma süresi ve koruma arızalarındaki farklılıkları göstermektedir.

Guardrails, toksisite, önyargı, kişisel verilerin ifşası, yanıltıcı işaretlerin işaretlenmesi ve format uyumluluğu dahil olmak üzere yapılandırılabilir kurallara göre LLM girdilerini ve çıktılarını doğrular.

Guardrails yapay zeka izleme özellikleri

  • RAIL spesifikasyonları aracılığıyla deterministik doğrulama
  • Hızlı enjeksiyon ve jailbreak tespiti için giriş koruyucuları
  • Doğrulama başarısız olduğunda otomatik olarak yeniden deneme yapılır.

En uygun olduğu kişiler:
Yanıtların gönderilmesinden önce katı güvenlik, uyumluluk veya biçimlendirme garantilerini uygulamak zorunda olan ekipler.

LangSmith

Kullanım örnekleri: Ajan mantığı ve araç çağrısı hata ayıklaması (Dil Zinciri merkezli)

Şekil 5: İzleri, adlarını, girdilerini, başlangıç zamanlarını ve gecikme sürelerini gösteren LangSmith kontrol paneli.

LangSmith, LangChain tabanlı aracılar için istemler, alınan bağlam, araç seçim mantığı, araç giriş/çıkışları, hatalar ve istisnalar dahil olmak üzere tüm mantıksal işlem izlerini yakalar.

LangSmith izleme özellikleri

  • Ajan karar yollarının adım adım incelenmesi
  • Komutlar, modeller veya araçlar arasında tekrar oynatma ve yan yana karşılaştırma yapın.
  • Geri çağrı fonksiyonları aracılığıyla LangChain ile sıkı entegrasyon.

En uygun olduğu kişiler:
LangChain ile kod geliştiren ve hatalı mantıksal çıkarımları veya araç çağrımlarını ayrıntılı olarak ayıklaması gereken ekipler.

Langtrace AI

Kullanım örnekleri: LLM uygulamalarında maliyet ve gecikme darboğazlarının belirlenmesi

Şekil 6: Langtrace AI izleme paneli.

Langtrace, OpenTelemetry ile uyumlu izleme verilerini kullanarak LLM işlem hatlarında belirteç sayılarını, yürütme süresini, API maliyetlerini ve istek parametrelerini izler.

Langtrace yapay zeka izleme özellikleri

  • Mevcut arka uçlarla entegrasyon için OpenTelemetry hizalaması
  • Adım başına maliyet ve gecikme faktörlerine ilişkin görünürlük
  • Hafif, hızlı sürümleme ve test etme platformu.

En uygun olduğu durumlar: Çıktı kalitesini değerlendirmekten ziyade, LLM iş akışlarında performansı ve harcamaları optimize eden ekipler.

Arize (Anka)

Kullanım alanları: Model sapmasını izlemek, yanlılığı tespit etmek ve kapsamlı puanlama sistemleriyle LLM çıktılarını değerlendirmek.

Şekil 7: Arize Phoenix savrulma izleme paneli.

Phoenix, davranışsal sapma, önyargı tespiti ve LLM'nin alaka düzeyi, toksisite ve doğruluk açısından değerlendirilmesine odaklanmaktadır.

Ancak, hafif proxy'lere kıyasla daha yüksek entegrasyon yüküne sahiptir ve sürüm yönetimini özel araçlar kadar sorunsuz bir şekilde gerçekleştiremez.

Phoenix izleme özellikleri

  • İsteğe bağlı kurumsal eklentilere sahip açık kaynaklı çekirdek.
  • Gelişim için etkileşimli komut istemi oyun alanı
  • Zamana bağlı davranış değişikliklerini izlemek için sapma tespiti
  • Yanıt yanlılıklarını belirlemek için yanlılık kontrolleri,
  • LLM'nin doğruluk, toksiklik ve alaka düzeyi açısından değerlendirme yapan bir jüri üyesi olarak puanlaması.

En uygun kullanım alanı: Hızlı yineleme yerine uzun vadeli model davranışını ve gerileme riskini izleyen ekipler.

Ajan

Kullanım örnekleri: Hangi komut isteminin hangi modelde en iyi sonucu verdiğini bulma

Şekil 8: Agenta'dan çeşitli komut istemi alternatiflerini gösteren görsel.

Agenta, paylaşılan girdiler ve kontrollü bağlam kullanarak maliyet, gecikme ve çıktı kalitesi açısından model yanıtlarını karşılaştırır.

Şekil 9: Agenta'dan örnek çıktı.

Agenta izleme özellikleri

  • Yan yana model değerlendirmesi
  • Üretim öncesi karar destek sistemi.

En uygun kullanım alanı: Erken aşama değerlendirme ve model seçimi.

AgentOps.ai

Kullanım alanları : Üretim ortamında ajanların mantıksal çıkarımlarını izlemek, maliyetleri takip etmek ve oturum hatalarını gidermek.

Şekil 10: AgentOps.ai'den oturum tekrar oynatma kontrol paneli örneği.

AgentOps, dağıtılmış aracıların mantıksal işlem izlerini, araç/API çağrılarını, oturum durumunu, önbellekleme davranışını ve maliyet ölçümlerini yakalar.

AgentOps izleme özellikleri

  • Üretim ortamında hata ayıklama için oturum tekrarı
  • Çevrimdışı değerlendirme yerine, canlı temsilci davranışına odaklanın.

En uygun kullanım alanı: Üretim ortamında ajan çalıştıran ve operasyonel görünürlüğe ihtiyaç duyan ekipler.

Beyin takımı

Kullanım alanları : Ayrıntılı değerlendirme ve hata analizi ile hangi komut isteminin, veri setinin veya modelin daha iyi performans gösterdiğini bulma.

Şekil 11: Braintrust'tan müşteri destek temsilcisi kontrol paneli.

Braintrust, komutları, veri kümelerini ve modelleri beklenen çıktılara göre değerlendirir ve gecikmeyi, maliyeti, araç hatalarını ve yürütme ölçütlerini izler.

Braintrust izleme özellikleri

  • Test veri kümelerini girdiler ve beklenen çıktılarla değerlendirin, ardından {{input}}, {{expected}} ve {{metadata}} gibi değişkenleri kullanarak komutları veya modelleri yan yana karşılaştırın.
  • Araç yürütme kalitesi de dahil olmak üzere metrik dökümleri

En uygun kullanım alanı: Uygulamaya geçmeden önce ekiplerin modelleri ve yönlendirmeleri karşılaştırmalı olarak değerlendirmesi.

AjanNeo

Kullanım alanları : Çoklu ajan etkileşimlerinin hata ayıklaması, araç kullanımının izlenmesi ve koordinasyon iş akışlarının değerlendirilmesi.

AgentNeo, Python SDK'sı aracılığıyla ajan iletişimini, araç kullanımını, yürütme grafiklerini ve ajan başına maliyet ve gecikmeyi izler.

AgentNeo izleme özellikleri

  • Açık kaynaklı ve yerel olarak çalıştırılabilir
  • Çoklu ajan iş akışlarının gerçek zamanlı izlenmesi için etkileşimli yerel kontrol paneli (localhost:3000).
  • Dekoratörler kullanılarak entegrasyon (ör. @tracer.trace_agent, @tracer.trace_tool)

En uygun kullanım alanı: Çoklu ajan sistemleriyle deneyler yapan mühendislik ekipleri.

Laminer

Kullanım örneği : Farklı LLM çerçeveleri ve modelleri genelinde performansı izlemek.

Şekil 12: Laminar'dan izleme paneli örneği.

Laminar, LLM çerçeveleri ve modelleri genelinde yürütme sürelerini, maliyetleri, token kullanımını ve gecikme yüzdeliklerini izler.

Laminer izleme özellikleri

  • Çerçeveden bağımsız performans analizi
  • Detaylı açıklık incelemesi.

En uygun kullanım alanı: Farklı teknoloji yığınları arasında karşılaştırmalı performans analizi.

Helikon

Kullanım örnekleri: Çok adımlı ajan iş akışlarını izlemek ve kullanıcı oturum kalıplarını analiz etmek.

Şekil 12: İsteklerde, maliyetlerde, hatalarda ve gecikme sürelerinde 3 aylık değişimleri gösteren görsel.

Helicone, istek hacimlerini, maliyetleri, hataları, gecikme eğilimlerini ve oturum düzeyindeki aracı iş akışlarını kaydeder.

Helikon izleme özellikleri

  • Kullanıcı yolculuğu görünürlüğü
  • Tarihsel eğilim analizi.

En uygun kullanım alanı: Kullanım kalıplarını ve kullanıcı düzeyindeki davranışları izleyen ürün ekipleri.

Coval

Kullanım alanları: Binlerce temsilci görüşmesini simüle edin, sesli/yazılı etkileşimleri test edin ve dağıtımdan önce davranışı doğrulayın.

Şekil 13: Coval'ın, ulaşılan hedeflerin, doğrulanmış kimliğin, doğru tekrarın, temsilci netliğinin ve yanlış bilgilerin yüzdelerini gösteren değerlendirme paneli.

Coval, görev tamamlama, doğruluk ve araç kullanım etkinliğini ölçmek için binlerce konuşmayı simüle eder.

Coval izleme özellikleri

  • Simülasyon tabanlı ajan testi
  • Otomatik regresyon tespiti
  • Sesli ve metin tabanlı asistan desteği.

En uygun kullanım alanları: Dağıtım öncesi doğrulama ve gerileme tespiti.

Veri Köpeği

Kullanım örnekleri : LLM sinyal korelasyonu ile altyapı ve uygulama gözlemlenebilirliği.

Datadog, altyapı metriklerini (CPU, bellek, ağ), uygulama performans verilerini (gecikme, hata oranları, verimlilik) ve günlükleri toplar. LLM uygulamaları için, belirteç kullanımını, istek başına maliyeti, model gecikmesini ve istem enjeksiyon girişimleri gibi güvenlik ile ilgili sinyalleri alabilir.

Datadog izleme özellikleri

  • Altyapı, uygulamalar ve yapay zeka iş yükleri genelinde geniş kapsamlı, sistem çapında gözlemlenebilirlik.
  • Yapay zeka davranışı ile altyapı sağlığı arasında ilişki kurulmasını sağlayan geniş entegrasyon ekosistemi (900'den fazla entegrasyon).

En uygun olduğu durumlar: Ajanların akıl yürütmesini veya komut istemini incelemek yerine, LLM davranışını temel altyapı ve uygulama performansıyla ilişkilendirmek isteyen kuruluşlar.

Prometheus

Kullanım alanları: Sistem performansını izlemek, uygulama metriklerini takip etmek ve altyapı sorunları için uyarılar kurmak.

Prometheus, altyapı, uygulama, veritabanı, konteyner ve özel iş metriklerini izlemek için düzenli aralıklarla HTTP uç noktalarından zaman serisi metrikleri toplayan açık kaynaklı bir izleme sistemidir.

Prometheus izleme özellikleri

  • Çekme tabanlı veri toplama yöntemiyle zaman serisi metriklerinin toplanması
  • Sorgulama, toplama ve uyarı koşulları için PromQL.
  • Geniş sistem kapsamı için ihracatçı ekosistemi (örneğin, Node Exporter)

En uygun kullanım alanı: Kural tabanlı uyarı sistemiyle altyapı ve uygulama izleme.

Grafana

Kullanım alanları : LLM, aracı ve altyapı verileri genelinde metrikleri görselleştirmek, gösterge panoları oluşturmak ve uyarıları yönlendirmek.

Şekil 14: İstek oranındaki, toplam kullanım belirteçlerindeki, ortalama kullanım maliyetindeki ve toplam kullanım maliyetindeki değişimi gösteren izleme paneli.

Grafana, Prometheus, OpenTelemetry ve Datadog gibi veri kaynaklarıyla entegre olarak birleşik gözlem panoları sağlayan açık kaynaklı bir görselleştirme ve analiz platformudur.

Grafana izleme özellikleri

  • Ölçümler, kayıtlar ve izlemeler genelinde gösterge panelleri
  • LLM, ajan ve altyapı sinyalleri için sistemler arası korelasyon
  • Uyarı yönlendirme ve bildirim yönetimi.

En uygun kullanım alanı: Merkezi gözlemlenebilirlik görselleştirmesi ve olay müdahalesi.

Eğitim Videosu: Langfuse ile LangChain gözlemlenebilirliği

Üç aşamadan oluşan çok adımlı bir LangChain işlem hattı oluşturduk:

  1. soru analizi
  2. cevap üretimi
  3. cevap doğrulama

İşlem hattını kurduktan sonra, gerçek zamanlı olarak yürütmeyi izlemek ve takip etmek için Langfuse'a bağladık. Bu sayede, Langfuse'un yapay zeka uygulamalarının performansı, maliyetleri ve davranışları hakkında ayrıntılı bilgiler edinmemize nasıl yardımcı olduğunu keşfedebildik.

Langfuse aracılığıyla gözlemlediklerimiz şunlar:

Kontrol paneline genel bakış

Şekil 15: Langfuse'un maliyet, kullanım yönetimi ve gecikme süresi gösterge panelleri.

Langfuse bize, işlem hattının performansının farklı yönlerine dair görünürlük sağlayan çeşitli kontrol panelleri sundu:

  1. Maliyet Kontrol Paneli : Bu panel, tüm API çağrıları genelindeki harcamaları, model ve zaman dilimine göre ayrıntılı dökümlerle takip eder.
  2. Kullanım Yönetimi : Gözlem sayıları ve kaynak tahsisi gibi yürütme metriklerini izleyerek, kaynakların yürütme sırasında nasıl kullanıldığını takip etmemize yardımcı olur.
  3. Gecikme Süresi Gösterge Paneli : Bu gösterge paneli, yanıt sürelerini analiz etmemize, darboğazları tespit etmemize ve performans trendlerini görselleştirmemize yardımcı oldu.

Kullanım metrikleri

Şekil 16: Langfuse'un kullanım metriklerini gösteren görsel; toplam izleme sayısı, toplam gözlem sayısı ve toplam puan sayısı (hem sayısal hem de kategorik) dahil.

Kullanım ölçümleri paneli bize sistemin performansı hakkında aşağıdaki bilgileri verdi:

  • Toplam izleme sayısı : Her biri işlem hattındaki tam bir soru-cevap döngüsünü temsil eden sekiz izleme kaydı takip ettik.
  • Toplam gözlem sayısı: Ortalama olarak, her bir izlemede 16 gözlem yapıldı; bu da sürecin çok aşamalı yapısını yansıtıyor.

Bunun da ötesinde, Langfuse, son 7 gün içindeki kullanım modellerini , kaynak tahsisini ve en yoğun zamanları izlememizi sağlayarak, sistemin en aktif olduğu zamanları ve kaynakların zaman içinde nasıl dağıldığını anlamamıza yardımcı oluyor.

İzleme incelemesi

Şekil 17: Langfuse'un giriş, çıkış, gözlemlenebilirlik seviyeleri, gecikme ve belirteçleri gösteren izleme paneli.

Tek tek izleme kayıtlarını incelediğimizde, ayrıntılı yürütme bilgilerini görebildik:

  • İzleme satırları : Her satır, benzersiz bir izleme kimliğiyle tamamlanmış bir işlem hattı yürütmesini temsil eder.
  • Gecikme ölçümleri : Yürütme süresi 0,00 saniye ile 34,08 saniye arasında değişmiştir.
  • Token sayımları : Kontrol paneli, maliyet ve verimlilik yönetiminde yardımcı olan giriş/çıkış token kullanımını izler.
  • Ortam filtreleme : İzleme kayıtlarını dağıtım ortamlarına (örneğin, geliştirme, üretim) göre filtreleyebiliriz.

Bireysel izleme detayları

Şekil 18: Langfuse'un sıralı zincir mimarisi.

İşlem sırasında meydana gelen hataları daha iyi anlamak için izleme kaydını daha detaylı inceledik:

  • Sıralı zincir mimarisi : Görüntülenen izleme, hiyerarşik bir yapıyla SequentialChainLLMChainChatOpenAI şeklinde başlayarak her adımı gösteren görsel bir akış sergiledi.
  • Girdi/çıktı takibi : Orijinal soru olan "Langfuse'un yapay zeka ajan gözlemlenebilirliği için kullanılmasının faydaları nelerdir?" sorusu, her aşamada, yapay zekanın her adımda ürettiği ilgili çıktılarla birlikte takip edildi.
  • Token analizi : Giriş için 1.203 token , çıkış için ise 1.516 token kullanıldığını gözlemledik. Bu durum, token kullanımına ilişkin maliyet etkilerini ortaya koymakta ve kaynak yönetimini optimize etmeye yardımcı olmaktadır.
  • Zamanlama verileri : Tüm izleme için toplam gecikme süresi 34,08 saniyedir ve bu süre her bir bileşen için şu şekilde dağılmıştır:
    • SıralıZincir → 14.02s
    • LLMChain → 10.25s
    • SohbetOpenAI → 9.81s
  • Model bilgisi : Langfuse, sıcaklık yapılandırması da dahil olmak üzere belirli ayarlar hakkında ayrıntılı bilgi vererek Anthropic Claude-Sonnet-4 modelinin kullanımını doğruladı.
  • Biçimlendirilmiş çıktı : Hata ayıklama için hem Önizleme hem de JSON görünümleri sağlandı; bu sayede modelin yanıtına insan tarafından okunabilir ve makine tarafından okunabilir biçimde dair bilgiler edinilebiliyor.

Otomatik analiz

Şekil 19: Langfuse otomatik değerlendirme örneği.

Langfuse ayrıca yanıtlarımızın otomatik değerlendirmelerini de sağladı:

  • Kalite değerlendirmesi : Sistem, yanıtların yapısını, tutarlılığını ve eksiksizliğini değerlendirdi; iyi organize edilmiş bölümleri vurguladı ancak yanıtların daha özlü olabileceğini de belirtti.
  • İyileştirme önerileri : Gereksiz tekrarlar içeren bölümleri belirledi, ifade biçiminin nasıl geliştirilebileceğini önerdi ve yanıtı daha şeffaf ve verimli hale getirmek için ilgili noktaları birleştirdi.
  • Performans analizleri : Sistem, belirteç kullanımına ve yanıtların alaka düzeyine ilişkin geri bildirim sağlayarak, çıktıların yararlı ve konuyla ilgili kalmasını sağlarken verimliliği optimize etmemize yardımcı oldu.
  • Yapılandırılmış geri bildirim : Geri bildirimler kategorilere ayrıldı; bu sayede iyileştirilmesi gereken belirli alanlara hedefli bir şekilde odaklanabildik.

Kullanıcı analizi

Şekil 20: Bu görsel, anonimleştirilmiş kullanıcı etkinliğini göstermektedir; her kullanıcının ilk ve son etkileşimlerini, etkinlik hacimlerini, token tüketimini ve ilgili maliyetleri göstererek etkileşimi, kaynak kullanımını ve bütçe tahsisini analiz etmeye yardımcı olur.

Langfuse, kullanıcılar ve yapay zeka ajanı arasındaki ayrıntılı etkileşimleri takip eder:

  • Kullanıcı etkinliği zaman çizelgesi : Her kullanıcının ilk ve son etkileşimini göstererek aktif ve pasif kullanıcıları belirlemeye yardımcı olur. Kullanıcıların sistemle ilk ve son ne zaman etkileşime girdiğini görebiliriz.
  • Olay hacmi takibi : Her kullanıcının tetiklediği olay sayısını izler. Örneğin, bazı kullanıcılar 2.000'den fazla olay oluşturarak sistemle etkileşim düzeylerini göstermiştir.
  • Token tüketim analizi : Her kullanıcının tükettiği toplam token sayısını izler. Token kullanımı 6.590 ile 357.000 arasında değişmekte olup kaynak kullanımına ilişkin bilgiler sunmaktadır.
  • Maliyet dağılımı : Her kullanıcıyla ilişkili maliyetleri ayrıntılı olarak göstererek, harcamaları takip etmeyi ve kaynak kullanımına yönelik bütçe tahsisini optimize etmeyi kolaylaştırır.
  • Kullanıcı tanımlama : Kullanıcı gizliliğini korurken bireysel kullanıcı etkileşimlerini izlemek için anonimleştirilmiş kullanıcı kimliklerini kullanır; bu da kullanıcı gizliliğinden ödün vermeden kullanım analizine yardımcı olur.

Şekil 21: Oturum görünümüne bir örnek; tüm konuşma akışını, yürütülen Python koduyla birlikte gösteriyor, kullanıcı girdilerini sistem çıktılarıyla ilişkilendiriyor ve etkileşimin nasıl işlendiğine dair eksiksiz bir resim sunmak için oturum meta verilerini görüntülüyor.

Oturum görünümü, kullanıcı etkileşimlerinin ayrıntılı bilgilerini takip etmemizi sağlar:

  • Eksiksiz konuşma akışı : Soru-cevap etkileşiminin tamamını göstererek, tüm konuşmayı baştan sona takip etmeyi kolaylaştırır.
  • Uygulama görünürlüğü : Oturum sırasında kullanılan gerçek Python kodunu göstererek teknik uygulamaya dair bilgi sağlar.
  • Girdi/çıktı korelasyonu : Kullanıcı sorularını ilgili sistem yanıtlarıyla ilişkilendirerek, sorun gidermemize ve konuşmada sorunların nerede meydana gelmiş olabileceğini belirlememize yardımcı olur.
  • Oturum meta verileri : Zamanlama, kullanıcı bağlamı ve özel uygulama verileri gibi teknik ayrıntıları içerir ve oturumun yürütülmesine ilişkin kapsamlı bir görünüm sunar.

Gözlemlenebilirlik araçlarını ne zaman kullanmamalıyız?

  • Erken geliştirme aşaması : Eğer hala ürün-pazar uyumunu doğruluyorsanız veya ilk temsilci iş akışlarınızı oluşturuyorsanız, odak noktanız kapsamlı gözlemlenebilirlik yerine temel işlevsellik olmalıdır.
  • API darboğazları : Eğer temel sorunlarınız API maliyetleri, gecikme veya önbellekleme ise, öncelikli olarak sistem düzeyindeki ölçütleri takip etmek yerine bu alanları optimize etmeniz gerekir.
  • Model optimizasyonu : Eğer iyileştirmeler esas olarak model seçimi, ince ayar veya hızlı mühendislik çalışmalarıyla sağlanıyorsa, sapma ve önyargı için gözlemlenebilirlik araçlarına henüz ihtiyaç duyulmayabilir.

Gözlemlenebilirlik araçları ne zaman kullanılır?

  • Büyük ölçekli üretim : Birden fazla model, ajan veya zincir üzerinde çalışırken, performansı izlemek ve sistem sağlığını sağlamak için gözlemlenebilirlik araçları şarttır.
  • Kurumsal veya müşteri odaklı uygulamalar : Güvenilirlik, güvenlik ve uyumluluğun vazgeçilmez olduğu uygulamalar için gözlemlenebilirlik araçları, gerekli görünürlüğü ve kontrolü sağlar.
  • Sürekli izleme : Zaman içinde sapma, eğilim, performans ve güvenlik sorunlarını izlemeniz gerektiğinde ve bu durum temel komut dosyaları veya manuel kontrollerle kolayca yakalanamadığında, gözlemlenebilirlik araçları çok önemlidir.
  • Yüksek riskli senaryolar : Başarısızlığın maliyetinin (örneğin, halüsinasyonlar, güvenli olmayan çıktılar) önemli olduğu ortamlarda, gözlemlenebilirlik risklerin en aza indirilmesini ve sorunların erken tespit edilmesini sağlar.

Kıyaslama metodolojisi

Üretim aşamasındaki LLM uygulamalarında gözlemlenebilirlik platformlarının performans yükünü değerlendirmek için, gerçek dünya ajan tabanlı iş akışını kullanan sistematik bir kıyaslama yaklaşımı geliştirdik.

Test uygulaması

LangChain kullanarak, doğal dil seyahat taleplerini beş aşamadan geçiren, ardışık çoklu ajanlı bir seyahat planlama sistemi geliştirdik:

  1. Ayrıştırıcı aracı : Kullanıcı girdisinden yapılandırılmış verileri (kaynak, hedef, tarihler, süre) çıkarır.
  2. Uçuş bulma ajanı : Amadeus API'si aracılığıyla mevcut uçuşları bulur.
  3. Hava durumu muhabiri ajanı : WeatherAPI kullanarak hedef bölgenin hava durumu tahminlerini alır.
  4. Aktivite öneri ajanı : Hava koşullarına göre aktiviteler önerir.
  5. Seyahat planlama ajanı : Tüm çıktıları kapsamlı bir seyahat programına dönüştürür.

Sistem, tüm LLM çağrıları için OpenRouter aracılığıyla Claude 4 Haiku'yu kullanır ve gerçek zamanlı veriler için harici API'leri entegre eder.

Örnek tasarım

Temel ölçüm oluşturma: İlk olarak, herhangi bir gözlem aracı kullanmadan uygulamanın performansını ölçtük ve karşılaştırma için bir temel oluşturmak amacıyla 100 özdeş sorgu çalıştırdık.

Platform entegrasyonu: Ardından, tutarlılık sağlamak amacıyla tüm platformlarda aynı izleme noktalarını kullanarak, önde gelen beş gözlem platformunu (LangSmith, Laminar, AgentOps, Langfuse) tek tek entegre ettik.

Sıralı yürütme: Her platform, bir sonraki platforma geçmeden önce 100 sorgunun tamamı ardışık olarak çalıştırılarak bağımsız olarak test edildi. Bu yaklaşım, ağ koşulları veya API hız sınırlamaları gibi dış faktörlerden kaynaklanan değişkenliği en aza indirir.

Kontrollü Ortam: Adil bir karşılaştırma sağlamak için tüm testler aynı sunucu altyapısında ve aynı sorgu kümeleriyle gerçekleştirildi. LLM kaynaklı gecikme varyasyonlarından kaynaklanan ek yükü izole etmek için, modelde sıcaklık=0 ve yapılandırılmış istemler kullanılarak çalıştırmalar arası yanıt değişkenliği en aza indirildi.

Toplanan ölçümler

Her platform için ortalama gecikmeyi ölçtük ve temel duruma kıyasla ortaya çıkan ek gecikmeyi ek yük olarak hesapladık: ((Platform Latency - Base Latency) / Base Latency) × 100

SSS'ler

Gözlemlenebilirlik, loglar, ölçümler ve izler gibi dış sinyalleri inceleyerek bir yapay zekâ ajanının iç işleyişini anlama yeteneğidir.

Yapay zekâ ajanları için bu, sorunları gidermek ve performansı artırmak amacıyla eylemleri, araç kullanımını, model etkileşimlerini ve yanıtları izlemeyi içerir.

Ajan gözlemlenebilirliği, yapay zeka performansını izlemek ve iyileştirmek için şu olanakları sağlayarak çok önemlidir:

Dengeleme noktalarını anlamak : Doğruluk ve maliyet gibi temel ölçütleri ölçmeye yardımcı olarak performans ve kaynak kullanımı arasında denge kurmayı kolaylaştırır.

Gecikme ölçümü : Gerçek zamanlı gecikme takibi, yanıt sürelerine ilişkin bilgiler sunarak temsilci performansının optimize edilmesine yardımcı olur.

Kötü amaçlı girdilerin tespiti : Gözlemlenebilirlik, zararlı dil ve komut istemi girişlerini belirlemeye yardımcı olarak, sorunların önlenmesi için hızlı müdahale olanağı sağlar.

Kullanıcı geri bildirimi izleme : Kullanıcı etkileşimlerini ve geri bildirimlerini gözlemleyerek, gözlemlenebilirlik, ajanların sürekli iyileştirilmesi ve ince ayarlanması için değerli veriler sağlar.

Başlıca bileşenler şunlardır:

Eylemlerin izlenmesi : Temsilcinin attığı her adımın izlenmesi.
Araç kullanımı : Ajanın kullandığı araçları ve kaynakları gözlemlemek.
Gecikme ölçümü : Performansı optimize etmek için yanıt sürelerinin izlenmesi.
Değerlendirmeler : Ajan davranışının ve model performansının değerlendirilmesi.
Kötü amaçlı girdi tespiti : Zararlı komutları veya saldırıları belirleme.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450