Ekrem Sarı

2 Tem

RAG Değerlendirme Araçları: Weights & Biases vs Ragas vs DeepEval

Bir RAG pipeline'ı yanlış bağlamı getirdiğinde, LLM yanlış cevabı kendinden emin bir şekilde üretir. Bağlam uygunluk skorlayıcıları birincil savunmadır. Aynı koşullar altında 1.460 soru ve 14.600'den fazla skorlanmış bağlam üzerinden beş aracı kıyasladık: aynı yargıç modeli (GPT-4o), varsayılan yapılandırmalar ve özel prompt'lar yok. Standart koşullar altında WandB, TruLens ve Ragas en iyi performans gösterenler olarak…

Veri

2 Tem

Uzak Tarayıcılar: Yapay Zeka Ajanları için Web Altyapısı Karşılaştırması

Yapay zeka ajanları, web görevlerini anti-scraping önlemleri tarafından engellenmeden otomatikleştirmek için uzak tarayıcılara güvenir. Bu tarayıcı altyapısının performansı, bir ajanın başarısı için kritik öneme sahiptir. 8 sağlayıcıyı başarı oranı, hız ve özellikler açısından kıyasladık. Bunu yapmak için, her hizmet için 4 farklı senaryoyu 5 kez çalıştırarak 160 otomatik görevi gerçekleştirdik ve gerçek dünya performanslarını ölçtük.…

Veri

1 Tem

Graph Veritabanı Benchmark: Neo4j vs FalkorDB vs Memgraph

Neo4j, FalkorDB ve Memgraph'ı, 120.000 Amazon ürün incelemesinden türetilen sentetik bir grafikte (381K düğüm, 804K kenar) benchmarkladık. Her biri 1.000 ölçüm içeren 12 sorgu şablonu çalıştırdık, 6 farklı yığın boyutunda veri yükleme (ingestion) test ettik, 32 iş parçacığına kadar 60 saniye boyunca sürekli eşzamanlı yük altında test ettik ve bellek, soğuk başlangıç, karma yük ve…

1 Tem

LLM Çıkarım Motorları: vLLM vs LMDeploy vs SGLang

NVIDIA H100 üzerinde 3 lider LLM çıkarım motorunu kıyasladık: vLLM, LMDeploy ve SGLang. Her motor, mimari tercihlerinin ve optimizasyon stratejilerinin gerçek performans etkisini yalıtmak için aynı iş yüklerini işledi: Llama 3.1 8B-Instruct kullanarak 1.000 ShareGPT prompt'u. İstatistiksel kararlılığı sağlamak için 10.000 toplam çıkarım işlemi (1.000 prompt × motor başına 10 çalıştırma) boyunca çevrimdışı toplu iş…

30 Haz

En İyi 10 Çok Dilli Embedding Model'leri RAG için

10 çok dilli embedding model'ini ~606k Amazon yorumu üzerinde 6 dilde (Almanca, İngilizce, İspanyolca, Fransızca, Japonca, Çince) kıyasladık. 1,800 sorgu oluşturduk (dil başına 300), her biri kaynak incelemesinden somut ayrıntılara değinir. Arama için eğitilmiş modeller (sorgu vs belge ayrımı), genel metin benzerliği için eğitilmiş daha büyük modellerden daha iyi performans gösterir: e5_base (110M parametre), 5x…

30 Haz

Çoklu-GPU Benchmark: B200 vs H200 vs H100 vs MI300X

Yirmi yılı aşkın süredir, hesaplama performansını optimize etmek çalışmalarımın temel taşı olmuştur. Büyük Dil Modeli (LLM) çıkarımı için ne kadar iyi ölçeklendiklerini değerlendirmek amacıyla NVIDIA'nın B200, H200, H100 ve AMD'nin MI300X'ini test ettik. meta-llama/Llama-3.1-8B-Instruct modeli ile vLLM framework'ünü kullanarak 1, 2, 4 ve 8 GPU üzerinde testler gerçekleştirdik. Her bir GPU mimarisinin paralelleştirilmiş, hesaplama yoğun…

Embedding Modelleri: OpenAI vs Gemini vs Voyage

15 İngilizce metin embedding modelini ve bir BM25 temel çizgisini, üç erişim alanında (hukuk sözleşmeleri (CUAD), müşteri desteği (IBM TechQA) ve sağlık hizmetleri (MedRAG PubMed)) 500'den fazla elle derlenmiş sorgu üzerinde kıyasladık. Voyage-3.5 genel sıralamada ilk sırada yer alıyor. Perplexity Embed V1 0.6b, kıyaslamamızdaki en düşük fiyat noktasında üst-orta seviyeye ulaşıyor. nDCG@3: Kesme noktası 3'te…

RAG Çerçeveleri: LangChain vs LangGraph vs LlamaIndex

Aynı agentic RAG iş akışını standartlaştırılmış bileşenlerle oluşturarak 5 RAG çerçevesini karşılaştırdık: LangChain, LangGraph, LlamaIndex, Haystack ve DSPy: özdeş modeller (GPT-4.1-mini), embedding'ler (BGE-small), alıcı (Qdrant) ve araçlar (Tavily web araması). Bu, her bir çerçevenin gerçek ek yükünü ve token verimliliğini yalıtır. Karşılaştırma 100 sorgudan oluşuyordu, her bir çerçeve kararlı ortalamalar sağlamak için tam seti 100…

Yeniden Sıralayıcı Benchmark: En İyi 8 Model Karşılaştırıldı

Yoğun arama (dense retrieval) aşamasının bir yeniden sıralama evresiyle ne kadar iyileştiğini ölçmek için 8 yeniden sıralayıcı modeli ~145k İngilizce Amazon incelemesi üzerinde test ettik. multilingual-e5-base ile en iyi 100 adayı getirdik, her modelle yeniden sıraladık ve en iyi 10 sonucu, her biri kaynak incelemesinden somut detaylara atıfta bulunan 300 sorguya karşı değerlendirdik. En iyi…

Otonom Yapay Zeka