RAG (Retrieval-Augmented Generation), harici veri kaynakları ekleyerek LLM yanıtlarını iyileştirir. RAG sistemleri için hangi kombinasyonların en iyi sonucu verdiğini belirlemek amacıyla farklı gömme modellerini karşılaştırdık ve çeşitli öbek boyutlarını ayrı ayrı test ettik.
En iyi RAG çerçevelerini ve araçlarını keşfedin , RAG'ın ne olduğunu, nasıl çalıştığını, faydalarını ve günümüzün LLM ortamındaki rolünü öğrenin.
RAG kıyaslama sonuçları
Gömme modelleri
RAG sistemlerinin performansı, gömme modellerinin kalitesine büyük ölçüde bağlıdır; çünkü bu modeller, sistemin ilgili bilgileri alma doğruluğunu ve etkinliğini doğrudan etkiler.
Bunu değerlendirmek için 4 gömme modelinin performansını inceledik:
Bu sonuçlar, Mistral Embed'in kıyaslama testimizde en yüksek doğruluğa ulaştığını göstermekte ve RAG sistemleri için doğru gömme modelinin seçilmesinin önemini vurgulamaktadır.
Gömme vektörleri, hem elde edilen bilgilerin alaka düzeyini hem de oluşturulan yanıtların doğruluğunu doğrudan etkiler. Değerlendirme sürecimizi anlamak için gömme vektör metodolojimize bakın.
OpenAI, Gemini ve Cohere gibi önde gelen sağlayıcıların doğruluğunu ve maliyetini karşılaştıran ayrıntılı kıyaslama analizimiz için, tam gömme modelleri kıyaslamamıza bakın.
Parça boyutu
RAG sistemlerinde öbek boyutu, işleme için bölündüklerinde metin parçalarının ne kadar büyük olacağını belirler. Bu parçalar daha sonra gömme modelleri tarafından vektörlere dönüştürülür ve bir vektör veritabanında saklanır . Bir soru sorulduğunda, model vektör veritabanından en alakalı parçaları alır ve bu bilgilere dayanarak bir yanıt oluşturur.
Doğru veri bloğu boyutu ve gömme modeli kombinasyonunu seçmek, arama hassasiyeti ve genel sistem verimliliği arasında denge kurmak için çok önemlidir:
Karşılaştırma test sonuçları, RAG sistemlerinde öbek boyutunun rolünü göstermektedir. Öbek boyutu, metnin nasıl bölümlendirildiğini ve elde edilen bilginin kalitesini doğrudan etkiler; bu nedenle sistemin hem verimli hem de doğru çalışmasını sağlamak için bir denge gereklidir.
Sonuçlar, 512 token'lık bir öbek boyutunun, alma hassasiyeti ve verimliliği arasında denge kurarak en iyi performansı sağladığını göstermektedir.
Parça boyutu karşılaştırmasında şunları kullandık:
- Gömme modeli: OpenAI text-embedding-3-small
- Vektör veritabanı: Pinecone.
RAG öbek boyutu kıyaslama metodolojisi
Bu çalışma, özellikle Geri Alma Destekli Üretim (RAG) sistemlerinin performansını değerlendirmek üzere tasarlanmıştır. RAG'ın vektör tabanlı bir veritabanından doğru ve ilgili bilgileri alma ve üretme yeteneğini test etmek için, CNN Haber makalelerine dayalı bir veri seti hazırladık ve sorular formüle ettik. Testler, öbek boyutu ve gömme modelleri gibi kritik parametrelerin etkisini incelemeye odaklandı.
- CNN haber makaleleri bir vektör veritabanına yüklendi. Bu veritabanı, LLM için bilgi kaynağı görevi görerek, model tarafından oluşturulan yanıtların yalnızca sağlanan verilere dayanmasını sağladı.
- LLM tarafından üretilen her yanıt, kaynak makalelerdeki gerçek verilerle karşılaştırıldı. Bu karşılaştırma, yanıtlar ve makale verileri arasındaki tam eşleşmeye dayalı olarak hesaplanan doğruluk oranıyla, bir doğruluk değerlendirme sistemi kullanılarak otomatik olarak gerçekleştirildi.
RAG ve Bağlam Penceresi
RAG sorgular için harici verileri alırken, bağlam pencereleri sabit miktarda metni işler. Bağlam pencereleri milyonlarca belirtece genişledikçe, RAG'ın hala gerekli olup olmayacağı sorgulanmaktadır; ancak sonuçlarımız, RAG'ın açık doğruluk avantajları sunmaya devam ettiğini göstermektedir.
RAG yöntemini uzun bağlam penceresi yaklaşımıyla karşılaştırdık:
Bağlam penceresi için:
Llama 4 Scout'un yerleşik bağlam uzunluğunu kullandık.
RAG için:
- LLM: Llama 4 Scout
- Vektör veritabanı: Pinecone
- Gömme modeli : OpenAI text-embedding-3-large
- Parça boyutu: 512
RAG ve bağlam penceresi: Performans farklılıklarının olası nedenleri
Kesinlik
RAG, LLM işleme başlamadan önce alakasız metnin %99'unu ortadan kaldıran katı bir filtre görevi gördüğü için daha yüksek doğruluk elde etti. Bu ayrımcı, sert dikkat yaklaşımı, modeli yalnızca ilgili gerçeklere odaklanmaya zorlayarak gürültüyü azaltır ve yüksek doğruluğu etkili bir şekilde garanti eder.
Dikkat dağılması
Uzun bağlam pencereleme, "ortada kaybolma" fenomeni nedeniyle düşük performans gösterdi; bu fenomende, uzun belgelerde LLM'nin dikkati doğal olarak dağılıyor. Model, on binlerce ilgisiz metin parçasının içinde gömülü olan tek bir ilgili gerçeğe öncelik vermekte zorlanıyor.
RAG'ın etkili olmasının nedenleri
RAG sistemleri, belirli bir sorgu için en alakalı bilgileri almak üzere vektör veritabanları gibi harici bilgi tabanlarından yararlanır. Verileri parçalara ayırıp bunları birleştirerek, Llama 4, uzun bir bağlamın tamamını işlemek yerine, yüksek kaliteli ve bağlamsal olarak alakalı verilere odaklanabildi.
Bu, uzun bağlamlı senaryolarda modelleri sıklıkla bunaltan alakasız verilerin karmaşasını önler. RAG, daha küçük, hedefli girdilere odaklanarak modelin netliğini korumasına ve daha doğru yanıtlar vermesine yardımcı olur.
Uzun metin uzunluklarında, modeller genellikle bilgiyi etkili bir şekilde işlemekte ve önceliklendirmekte zorlanırlar, bu da performans düşüşüne yol açar. 1
Uzun bağlam pencereleri RAG'ın yerini alabilir mi?
Uzun bağlam pencereleri büyük veri kümelerini tek seferde işleyebilir. Bununla birlikte, performans düşüşleri ve hesaplama verimsizliği gibi pratik dezavantajları, RAG'ı yüksek doğruluk gerektiren görevler için daha güvenilir bir seçenek haline getirir.
RAG sistemleri, verimlilik ve etkililik arasında bir denge kurarak, öbek boyutu ve gömme modelleri gibi parametreleri ayarlayarak bu zorlukların üstesinden gelir. Bağlam pencereleri girdiye sınırlı bir bakış açısı sağlarken, RAG yanıt kalitesini artırmak için ilgili harici bilgileri alır. Bu da RAG'ı, modelin dahili eğitim verilerini aşan güncel veya alana özgü bilgi gerektiren görevler için daha uygun hale getirir.
Bağlam pencereleri, modelin belirteç sınırı dahilinde daha basit görevler için işe yarayabilirken, RAG harici bilgi gerektiğinde daha etkilidir.
RAG ve bağlam penceresi karşılaştırması için metodoloji
Llama 4 Scout'un performansını iki yaklaşımla değerlendirdik: RAG ve uzun bir bağlam penceresi. RAG için, Llama 4 Scout'u vektör veritabanı olarak Pinecone ile entegre ettik, gömme işlemleri için OpenAI'ün text-embedding-3-large modelini ve 512'lik bir öbek boyutunu kullandık.
Bağlam penceresi yaklaşımı için, harici veri alımına gerek kalmadan yalnızca Llama 4 Scout'un yerel bağlam uzunluğuna güvendik. Her iki yöntem de daha önce bahsettiğimiz veri seti kullanılarak değerlendirildi ve doğruluk, bir dizi sorguya verilen doğru yanıtların yüzdesi olarak hesaplandı.
RAG neden şimdi önemli?
Doğru, şeffaf ve bağlamsal olarak ilgili yanıtlar sağlayan yapay zeka sistemlerine duyulan artan ihtiyaç nedeniyle, Geri Alma Destekli Üretim (RAG) kavramının önemi son yıllarda artmıştır. Bununla birlikte, RAG yeni ortaya çıkan bir alan olduğundan, iş dünyası liderleri bu terimi bilmeyebilir (Aşağıdaki Şekle bakınız).
İşletmeler ve geliştiriciler, güncelliğini yitirmiş bilgiler, şeffaflık eksikliği ve yanıltıcı çıktılar gibi geleneksel Büyük Dil Modellerinin (LLM) sınırlamalarının üstesinden gelmeye çalışırken, RAG kritik bir çözüm olarak ortaya çıkmıştır.
Mevcut RAG modelleri ve araçları nelerdir?
Geri Alma Destekli Üretim (RAG) modelleri ve araçları üç kategoriye ayrılabilir:
- Dahili RAG yeteneklerine sahip LLM'ler, harici bilgilere erişerek yanıt doğruluğunu artırır.
- Özel uygulamalar için LLM'lere uygulanabilen RAG kütüphaneleri ve çerçeveleri .
- RAG sistemleri oluşturmak için birbirleriyle veya büyük dil modelleriyle (LLM'ler) birleştirilebilen entegrasyon çerçeveleri, vektör veritabanları ve arama modelleri gibi bileşenler .
Dahili RAG Özelliklerine Sahip LLM'ler
Birçok LLM (Öğrenme Düzeyi Modeli), harici bilgileri alarak doğruluklarını ve alaka düzeylerini artırmak için yerleşik RAG (Raporlama, Arama ve Geliştirme) işlevine sahiptir.
- Meta AI : Meta AI'nin RAG modeli, arama ve üretimi tek bir çerçeve içinde birleştirir; arama işlemi için Yoğun Geçişli Arama (DPR) ve üretim için BART kullanır. Bu model, bilgi yoğun görevler için Hugging Face'te mevcuttur.
- Anthropic'ün Claude'u : Claude 3.5 Sonnet ve Haiku gibi modeller için kaynak referanslamayı sağlayan bir Alıntı API'si içerir.
- Mistral'in SuperRAG 2.0 modeli : Bu model, Mistral 8x7B v1 ile entegre olarak kağıt çıkarma özelliği sunar.
- Cohere'un Command R'si : Çok dilli destek ve alıntılarla RAG için optimize edilmiştir, API veya Hugging Face model ağırlıkları aracılığıyla erişilebilir.
- Gemini Gömme : Google'ün RAG için Gemini gömme modeli.
- Mistral Embed : Mistral'in gömme modeli, RAG görevleri için optimize edilmiş yoğun vektör gömmeleri üreterek LLM tekliflerini tamamlar.
- OpenAI Gömülü Vektörler : OpenAI, Embedding-3-Large, Embedding-3-Small ve text-embedding-ada-002 gibi çeşitli gömülü vektör modelleri sunar; bunların her biri, geri alma destekli üretim gibi doğal dil işleme görevlerindeki farklı kullanım durumlarına uygundur.
RAG Kütüphaneleri ve Çerçeveleri
Bu araçlar, geliştiricilerin mevcut LLM'lere RAG yetenekleri eklemelerini sağlayarak esneklik ve ölçeklenebilirlik sunar.
- Haystack : Deepset tarafından geliştirilen, belge arama ve soru cevaplama odaklı, uçtan uca bir RAG işlem hatları çerçevesi.
- LlamaIndex : Veri alımı ve indeksleme konusunda uzmanlaşmış olup, LLM'leri arama sistemleriyle geliştirir.
- Weaviate : Ölçeklenebilir arama ve veri alma iş akışlarını destekleyen, RAG özelliklerine sahip bir vektör veritabanı.
- DSPY : Büyük dil modellerinde RAG'ı optimize etmek için kullanılan bildirimsel bir programlama çerçevesi.
- Pathway : Veri bağlantısıyla RAG'ı geniş ölçekte dağıtmak için bir çerçeve.
- Azure Makine Öğrenimi : Azure Yapay Zeka Stüdyosu ve Makine Öğrenimi işlem hatları aracılığıyla RAG yetenekleri sağlar.
- IBM watsonx.ai : Büyük dil modelleriyle RAG'ın uygulanmasını kolaylaştıran uygulamaların geliştirilmesi için çerçeveler sağlar.
Daha detaylı bir karşılaştırma ve analiz için RAG çerçeveleri kıyaslama çalışmamıza bakın.
RAG için Entegrasyon Çerçeveleri
Entegrasyon çerçeveleri, LLM'ler tarafından desteklenen bağlam duyarlı, akıl yürütme özellikli uygulamaların geliştirilmesini kolaylaştırır. Özelleştirmeye olanak tanırken, belirli ihtiyaçlara göre uyarlanmış modüler bileşenler ve önceden yapılandırılmış zincirler sunarlar.
- LangChain : Bağlamdan haberdar uygulamalar oluşturmak için kullanılan, genellikle RAG ve LLM'lerle birlikte kullanılan bir çerçeve.
- Dust : Anlamsal arama ve RAG desteğiyle özel yapay zeka asistanı oluşturmayı kolaylaştırarak LLM uygulamalarını geliştirir.
Kullanıcılar , RAG'ı tam olarak uygulamak ve LLM çıktılarının bağlamsal derinliğini artırmak için bu çerçeveleri vektör veritabanlarıyla eşleştirebilirler.
RAG için Vektör Veritabanları
Vektör Veritabanları (VD'ler), hasta semptomları, kan testi sonuçları, davranışlar ve sağlık ölçütleri gibi çok boyutlu verileri işleyebildiğinden, RAG sistemleri için hayati öneme sahiptir.
- Deep Lake : LLM'ler için optimize edilmiş, vektör depolamayı destekleyen ve LlamaIndex gibi araçlarla entegrasyonu sağlayan bir veri gölü.
- Pinecone : RAG kurulumları için yönetilen bir vektör veritabanı hizmeti.
- Weaviate : Vektör tabanlı depolamayı, RAG uyumlu erişim özellikleriyle birleştirir.
- Milvus : Yapay zeka kullanım alanları için açık kaynaklı bir vektör veritabanı.
- Qdrant : Benzerlik araması için vektör tabanlı bir arama motoru.
- Zep Vector Store : RAG için belgeleri yükleyebileceğiniz, ekleyebileceğiniz ve arayabileceğiniz, belge vektör deposunu destekleyen açık kaynaklı bir platformdur.
RAG'ı Destekleyen Diğer Arama Modelleri
RAG, DPR gibi sıralı-sıralı ve geri alma tekniklerinden yararlandığı için, geliştiriciler bu modelleri LLM'lerle birleştirerek geri alma destekli üretim sağlayabilirler.
- BART ve Geri Alma Özelliği : BART'ın üretken gücünü RAG için geri alma mekanizmalarıyla bütünleştirir.
- BM25 : Basitliği nedeniyle yaygın olarak kullanılan, geleneksel terim sıklığına dayalı bir arama algoritması.
- ColBERT Modeli : BERT (Bidirectional Encoder Representations from Transformers) tabanlıdır ve hem yoğun veri alma hem de geleneksel seyrek veri alma yöntemlerini birleştirmek üzere tasarlanmıştır.
- DPR (Yoğun Geçişli Bilgi Erişimi) Modeli : Özellikle soru cevaplama (QA) ve arama sistemleri alanında bilgi erişim görevleri için kullanılan bir model.
Geri alma destekli üretim nedir?
2020 yılında, Meta Araştırması, bilgiyi hassas bir şekilde manipüle etmek için RAG modellerini tanıttı. Lewis ve meslektaşları, RAG'ı önceden eğitilmiş parametrik bellek oluşturma modellerini parametrik olmayan bir bellekle birleştirebilen genel amaçlı bir ince ayar yaklaşımı olarak tanımlıyor.
Basitçe ifade etmek gerekirse, Geri Alma Destekli Üretim (RAG), üretilen içeriğin kalitesini ve alaka düzeyini artırmak için hem geri alma hem de üretim modellerinin unsurlarını birleştiren bir doğal dil işleme (NLP) yaklaşımıdır. Tamamen üretken veya tamamen geri alma tabanlı yöntemlerin sınırlamalarını gidermek için her iki tekniğin güçlü yönlerinden yararlanan hibrit bir yaklaşımdır. İşte RAG hakkında kısa bir video:
RAG modelleri nasıl çalışır?
RAG sistemi iki aşamada çalışır: Veri alma ve içerik oluşturma.
Geri alma aşamasında :
Algoritmalar, BM25 gibi teknikler kullanarak kullanıcının isteğine veya sorusuna bağlı olarak ilgili bilgi parçalarını aktif olarak arar ve bulur. Bu bulunan bilgiler, tutarlı ve bağlamsal olarak ilgili yanıtlar oluşturmanın temelini oluşturur.
- Açık alanlı tüketici ortamlarında, bu bilgiler internetteki indekslenmiş belgelerden elde edilebilir. Kapalı alanlı kurumsal ortamlarda ise, iç bilginin güvenliğini ve güvenilirliğini artırmak için genellikle daha sınırlı bir kaynak kümesi kullanılır. Örneğin, RAG sistemi şunları arayabilir:
- Gerçek zamanlı hava durumu güncellemeleri ve kullanıcının kesin konumu gibi mevcut bağlamsal faktörler
- Kullanıcı odaklı detaylar, web sitesindeki önceki siparişleri, web sitesiyle etkileşimleri ve mevcut hesap durumları.
- İlgili olgusal veriler alındı Bu belgeler ya özel niteliktedir ya da LLM eğitim sürecinden sonra güncellenmiştir.
İçerik oluşturma aşamasında :
- İlgili gömülü vektörler alındıktan sonra, GPT gibi transformatör tabanlı bir model gibi üretken bir dil modeli devreye girer. Elde edilen bağlamı kullanarak doğal dil yanıtları üretir. Üretilen metin, bağlamla uyumlu ve bağlamsal olarak doğru olmasını sağlamak için elde edilen içeriğe göre daha da işlenebilir veya ince ayar yapılabilir. Sistem, şeffaflık ve doğrulama amacıyla danıştığı kaynaklara bağlantılar veya referanslar içerebilir.
RAG LLM'ler harici verileri elde etmek için iki sistem kullanır:
- Vektör veritabanı: Vektör veritabanları, benzerlik aramaları kullanarak ilgili belgeleri bulmaya yardımcı olur. Bağımsız olarak çalışabilirler veya LLM başvurusunun bir parçası olabilirler.
- Özellik depoları: Bunlar, makine öğrenimi ve yapay zeka uygulamalarında kullanılan yapılandırılmış veri özelliklerini yönetmek ve depolamak için kullanılan sistemler veya platformlardır. LLM'ler gibi makine öğrenimi modellerinde eğitim ve çıkarım süreçleri için organize edilmiş ve erişilebilir veriler sağlarlar.
Büyük dil modellerinde geri alma destekli üretim nedir?
RAG modelleri, büyük dil modellerinin (LLM'ler) karşılaştığı zorluklara çözüm üretebilen modeller geliştirir. Bu temel sorunlar şunlardır:
- Sınırlı bilgi erişimi ve manipülasyonu: LLM'ler, eğitim veri setlerinin güncellenmesinin mümkün olmaması nedeniyle dünya bilgilerini güncel tutmakta zorlanırlar. Ayrıca, bilgiyi hassas bir şekilde manipüle etme konusunda da sınırlamaları vardır. Bu sınırlama, bilgi yoğun görevlerdeki performanslarını etkiler ve genellikle göreve özgü mimarilerin gerisinde kalmalarına neden olur. Örneğin, LLM'ler genelleştirilmiş görevler için eğitildikleri için alana özgü bilgiden yoksundurlar.
- Şeffaflık eksikliği: Hukuk yüksek lisans programları, kararlarını nasıl aldıkları konusunda şeffaf bilgi vermekte zorlanmaktadır. Belirli sonuçlara veya yanıtlara nasıl ve neden ulaştıklarını takip etmek zordur, bu nedenle genellikle "kara kutu" olarak kabul edilirler.
- Yanıtlardaki yanılgılar: Dil modelleri, doğru veya tutarlı gibi görünen ancak tamamen uydurma veya yanlış olan soruları yanıtlayabilir. Yanılgıları ele almak ve azaltmak, dil modeli tarafından üretilen içeriğin güvenilirliğini ve doğruluğunu artırmada çok önemli bir zorluktur.
RAG'ın farklı türleri nelerdir?
Spekülatif RAG
Spekülatif RAG, daha küçük, özel bir dil modelini kullanarak farklı belge alt kümelerinden paralel olarak birden fazla yanıt taslağı oluştururken, daha büyük bir genel dil modeli de en iyi yanıtı doğrular ve seçer. Bu çift sistemli yaklaşım, doğruluğu artırırken gecikmeyi azaltır ve bu da hem hızın hem de doğruluğun önemli olduğu yüksek verimli uygulamalar için idealdir.
Geri Alma Destekli İnce Ayar (RAFT)
RAFT, alan özelinde performansı iyileştirmek için RAG'ı denetimli ince ayar ile birleştirir. Bunu açık kitap sınavına hazırlanmak gibi düşünün: sorgu zamanında harici belgelere güvenmek (RAG) veya her şeyi ezberlemek (ince ayar) yerine, RAFT modeli belgeleri önceden "incelemek" üzere eğitir.
Çalışma prensibi şu şekildedir:
- Eğitim verileri soruları, "kehanet" belgelerini (cevabı içeren) ve "şaşırtıcı" belgeleri (alakasız gürültü) içerir.
- Model, dikkat dağıtıcı unsurları göz ardı ederken ilgili bilgileri belirlemeyi öğrenir.
- Düşünce zinciri tarzındaki yanıtlar, muhakeme kalitesini artırır.
Dikkate alınması gereken husus: Son araştırmalar, RAFT'ın eski LLM'lere kıyasla en önemli kazanımları sağladığını göstermektedir. Daha yeni modeller, daha iyi yerleşik geri çağırma davranışlarına sahip oldukları için daha mütevazı iyileştirmeler gösterebilir.
Gelişmiş RAG mimarileri
RAG (Raporlama, Uygulama, Grafik) ortamı, standart "Bağlamsal" ve "Spekülatif" tiplerin ötesine geçerek karmaşık akıl yürütme için tasarlanmış gelişmiş mimarilere doğru evrildi. "Al-sonra-üret" temel yaklaşımı, modelin alıcıyla aktif olarak etkileşim kurduğu döngülerle değiştiriliyor.
Grafik Tabanlı RAG (GraphRAG)
GraphRAG, düz metin parçalarını almanın ötesine geçiyor. Belgelerin ve varlıkların düğüm olduğu bir bilgi grafiği oluşturuyor ve bu sayede sistem, izole edilmiş parçalar yerine "alt grafikler" veya akıl yürütme yolları alabiliyor.
- Çalışma prensibi: Sistem, pasajları tek başına sıralamak yerine, varlıklar arasındaki ilişkileri (bağlantı noktalarını) belirler. Bu bağlantılar üzerinden ilerleyerek çok aşamalı soruları yanıtlayabilir (örneğin, "A Şirketi'nin CEO'su ile B Şirketi'nin tedarikçisi arasında nasıl bir ilişki var?").
- Yapısal Farkındalık: G-RETRIEVER gibi sistemler, LLM komut istemini görmeden önce çok adımlı bağlamları kodlayan minimal bağlantılı alt grafikler oluşturarak doğruluğu artırır ve yanılsamayı azaltır.
- En uygun kullanım alanı: Veri noktaları arasındaki ilişkilerin anahtar kelime eşleştirmesinden daha önemli olduğu karmaşık mantıksal çıkarım görevleri.
Hibrit ve Bağlamsal RAG
- Bağlamsal RAG: Bir veri parçasının neden alakalı olduğunu açıklayan "bağlamsal gömme" veya özetlerle veri parçalarını ön işleme tabi tutarak standart veri alımını iyileştirir ve veri alım hatalarını azaltır.
- Hibrit Arama : Yoğun Arama (anlamsal vektörler) ile Seyrek Aramayı ( BM25 anahtar kelimeleri) birleştirir. Yoğun arama anlamsal anlamı yakalarken, BM25 anlamsal aramanın kaçırabileceği tam anahtar kelime eşleşmelerini yakalar. Bu kombinasyon, arama başarısızlıklarını azaltmak için en iyi uygulama olarak kabul edilmektedir.
Agentic RAG
Ajan tabanlı işlem hatları, birden fazla aracı ve bellek bankasını düzenlemek için bir LLM denetleyicisi kullanır. Ajan bir iş akışı planlayabilir (örneğin, "Finansal verileri al", ardından "Hesaplama aracını kullan", ardından "Özetle").
- Orkestrasyon: Doğrusal RAG'ın aksine, ajan tabanlı bir sistem, bir sonraki hamlesine dinamik olarak karar vermek için planlama belirteçlerini (DÜŞÜNCE, EYLEM, GÖZLEM) kullanır.
- Araç Kullanımı: Kullanıcının amacına bağlı olarak araçlar arasında anında geçiş yapabilir (örneğin, yoğun vektör indeksinden SQL veritabanı sorgusuna geçiş yapabilir).
Yinelemeli ve Aktif RAG
Bu sistemler, bilgiye erişimi tek seferlik bir adım yerine, karşılıklı bir diyalog döngüsü olarak ele alır. Model, ne zaman bilgiye erişileceğine ve neyin saklanacağına karar verir.
- Aktif RAG (FLARE): FLARE (Forward-Looking Active REtrieval) gibi mekanizmalar, modelin üretim sırasındaki güven düzeyini izler. Model düşük güvenilirlik düzeyine sahip belirteçler üretirse, yanılsamaya kapılmak yerine bir arama sorgusu oluşturmak ve yeni veriler almak için duraklatır. Bu, özellikle metin boyunca bilgi ihtiyaçlarının değiştiği uzun metin üretiminde etkilidir.
- Kendi Kendini Değerlendirme (Self-RAG): Model, kendi elde ettiği içeriği eleştirmek için "yansıtma belirteçleri" (örneğin,
Retrieve,ISREL,ISSUP,ISUSE) üretir. Metinlerin ilgili olup olmadığını, üretilen içeriğin kanıtlarla desteklenip desteklenmediğini ve yanıtın genel faydasını değerlendirir; nihai yanıtı oluşturmadan önce kanıtları saklamaya, iyileştirmeye veya atmaya karar verir. - Döngüsel İyileştirme: Chain-of-Note gibi mimariler, LLM'nin bir yanıt sentezlemeden önce belgelerin güvenilirliğini değerlendirmek için elde edilen belgeler hakkında kısa notlar yazmasını zorunlu kılar.
RAG sistemleri nasıl değerlendirilir?
RAG'ı değerlendirmek, standart LLM testine göre daha karmaşıktır çünkü iki ayrı bileşeni değerlendirmeyi gerektirir: Veri Bulucu (doğru veriyi bulma) ve Üretici (cevabı doğru bir şekilde sentezleme). Araştırma topluluğu, basit yüzeysel ölçütlerden (BLEU veya ROUGE gibi) uzaklaşarak, üç temel sütunu ölçen semantik ve algoritmik değerlendirme çerçevelerine yönelmiştir: Bağlam Alaka Düzeyi , Doğruluk ve Cevap Alaka Düzeyi .
RAG Değerlendirme Matrisi
1. Bileşen düzeyindeki ölçümler
Performans sorunlarını teşhis etmek için, veri alma ve veri oluşturma aşamalarını ayrı ayrı değerlendirmeniz gerekir.
Arama metrikleri (Arama aşaması)
Veri alma işlemi başarısız olursa, veri oluşturma işleminin de hiçbir şansı kalmaz. Başlıca ölçütler şunlardır:
- Precision@k ve Recall@k: Precision, alınan belgelerin kaçının gerçekten ilgili olduğunu ölçerken, Recall ise sistemin veritabanında bulunan tüm ilgili belgeleri bulup bulmadığını ölçer.
- Ortalama karşılıklı sıralama (MRR): Bu, LLM'nin ilk birkaç öbeğe en çok dikkat ettiği RAG sistemleri için kritiktir. MRR, ilk ilgili belgenin listede ne kadar yukarıda yer aldığını değerlendirir.
- Normalleştirilmiş indirimli kümülatif kazanç (nDCG): İkili isabet/kaçırma ölçütlerinin aksine, nDCG derecelendirilmiş alaka düzeyini hesaba katar ve en faydalı belgeleri bağlam penceresinin en üstüne yerleştiren sistemleri ödüllendirir.
Üretim ölçütleri (Yanıt aşaması)
- Sadakat (Temellilik): Üretilen cevabın yalnızca alınan bağlamdan türetilip türetilmediği ölçülmektedir. Bu, yanılsamaları tespit etmek için kullanılan birincil ölçüttür; model kaynakta bulunmayan bilgiler eklerse, sadakat düşer.
- Yanıtın alaka düzeyi: Yanıtın kullanıcının sorgusunu gerçekten ele alıp almadığını değerlendirir ve modelin belirli soruyu yanıtlamadan bağlamı özetlemediğinden emin olur.
- Olumsuz reddetme: Sistemin, elde edilen bağlam cevabı içermediğinde, akla yatkın gelen bir yanlışlık uydurmak yerine "Bilmiyorum" diyebilme yeteneğini test eden kritik bir güvenlik ölçütüdür.
2. Otomatik değerlendirme çerçeveleri
Yalnızca insan değerlendirmesine güvenmek yavaş ve pahalıdır. Sektör standardı, güçlü bir modelin RAG işlem hattınızın çıktılarını değerlendirdiği "LLM'nin hakem rolü üstlendiği" çerçevelere kaymıştır.
- RAGAS (Referanssız Değerlendirme): RAGAS, insan tarafından etiketlenmiş "altın standart" yanıtlara ihtiyaç duymadan yanıtların kalitesini değerlendirmek için arka planda dil modellerinden yararlanır. Bağlam Hassasiyeti, Bağlam Geri Çağırma, Doğruluk ve Yanıt Alaka Düzeyi dahil olmak üzere kapsamlı bir metrik seti sunar. RAGAS, operasyonel olarak oldukça verimli ve ölçeklenebilirdir, ancak değerlendirme için kullanılan belirli istemlere karşı hassas olabilir.
- ARES (Otomatik RAG Değerlendirme Sistemi): ARES, bağlam alaka düzeyini, yanıt doğruluğunu ve yanıt alaka düzeyini değerlendirmek için sentetik eğitim verilerini kullanarak hafif dil modeli yargıçlarını ince ayar yapar. Güven aralıkları oluşturmak için küçük bir küme (~150+) insan tarafından etiketlenmiş veri noktasıyla Tahmine Dayalı Çıkarım (PPI) kullanır. ARES daha yüksek hassasiyet sunarken ve alan değişikliklerinde etkili kalırken, RAGAS'a kıyasla daha fazla kurulum gerektirir.
3. Gelişmiş kıyaslama
Temel doğruluk seviyesinin ötesinde, gelişmiş kıyaslama testleri belirli arıza modlarını test eder:
- Gürültüye dayanıklılık: Model, bağlam penceresine karışmış alakasız belgeleri filtreleyebilir mi?
- Bilgi entegrasyonu: Model, birden fazla farklı belgeden gelen ipuçlarını birleştirmeyi gerektiren bir yanıt sentezleyebilir mi (çok aşamalı akıl yürütme)?
- Karşıolgusal sağlamlık: Model, elde edilen bilgiler kendi içsel parametrik bilgisiyle çeliştiğinde (veya tam tersi) hataları tespit edip düzeltebilir mi?
Geri alma destekli üretim yönteminin faydaları nelerdir?
RAG formülasyonları, doğru bilgi edinimi ve doğal dil üretimi kritik öneme sahip olan sohbet botları, soru-cevap sistemleri ve içerik üretimi de dahil olmak üzere çeşitli NLP uygulamalarına uygulanabilir. RAG'ın sağladığı temel avantajlar şunlardır:
Alaka düzeyi ve doğruluk artırıldı.
ChatGPT gibi Gen AI araçları ve modelleri, çalışanların zamanının yaklaşık %70'ini oluşturan bilgi yoğun doğal dil işleme (NLP) görevlerini otomatikleştirme potansiyeline sahiptir. 3 Bununla birlikte, iş dünyası liderlerinin ve analistlerin yaklaşık %67'si yapay zeka tarafından oluşturulan içeriğin taraflı veya yanlış olduğunu düşünüyor; bu da LLM'lerin benimsenme oranını düşürüyor. 4
Bir bilgi alma bileşeni entegre ederek, RAG modelleri harici bilgi kaynaklarına erişebilir ve oluşturulan metnin doğru ve güncel bilgilere dayanmasını sağlayabilir. Bu, bağlamla daha alakalı ve doğru yanıtlar verilmesine, soru cevaplama ve içerik oluşturmada yanılgıların azalmasına yol açar.
Bağlamsal tutarlılık
Geri alma tabanlı modeller, üretim sürecine bağlam sağlayarak tutarlı ve bağlama uygun metin oluşturmayı kolaylaştırır. Bu da daha tutarlı ve anlaşılabilir yanıtlar elde edilmesini sağlar, çünkü üretim bileşeni geri alınan bilgiler üzerine inşa edilebilir.
Açık alan sorgularının işlenmesi
RAG modelleri, gerekli bilgilerin eğitim verilerinde bulunmayabileceği açık alan sorularını ele almada üstün performans gösterir. Bilgi alma bileşeni, geniş bir bilgi tabanından ilgili bilgileri çekerek modelin çeşitli konularda yanıtlar vermesini veya içerik üretmesini sağlar.
Azaltılmış nesil önyargısı
Geri çağırma yöntemini dahil etmek, tamamen üretken modellerdeki bazı doğal önyargıları azaltmaya yardımcı olabilir. Çeşitli kaynaklardan gelen mevcut bilgilere dayanarak, RAG modelleri daha az önyargılı ve daha objektif yanıtlar üretebilir.
Verimli hesaplama
Bilgi tabanının mevcut ve yapılandırılmış olduğu görevler için, bilgiye erişime dayalı modeller hesaplama açısından verimli olabilir. Yanıtları sıfırdan oluşturmak yerine, mevcut bilgileri alıp uyarlayarak hesaplama maliyetini azaltabilirler.
Çok modlu yetenekler
RAG modelleri, metin ve görüntü gibi birden fazla modülle çalışacak şekilde genişletilebilir. Bu, metinsel ve görsel içeriğe bağlamsal olarak uygun metin üretmelerine olanak tanıyarak, görüntü alt yazıları oluşturma, içerik özetleme ve daha birçok alanda uygulama olanakları sunar.
Özelleştirme ve ince ayar
RAG modelleri, belirli alanlar veya kullanım durumları için özelleştirilebilir. Bu uyarlanabilirlik, onları alan odaklı sohbet botları, müşteri desteği ve bilgi alma sistemleri de dahil olmak üzere çeşitli uygulamalar için uygun hale getirir.
İnsan-Yapay Zeka İşbirliği
RAG modelleri, bir bilgi tabanından ilgili bilgileri hızlı bir şekilde özetleyip sunarak, manuel arama için gereken zaman ve çabayı azaltarak, insanların bilgiye erişim görevlerinde yardımcı olabilir.
İnce Ayar vs. Geri Alma Destekli Üretim
Tipik olarak, bir temel model iki ana yöntemle yeni bilgi edinebilir:
- İnce ayar: Bu işlem, önceden eğitilmiş modellerin bir eğitim seti ve model ağırlıklarına göre ayarlanmasını gerektirir.
- RAG: Bu yöntem, model girdileri aracılığıyla bilgi sunar veya bağlam penceresine bilgi ekler.
İnce ayar, yaygın bir yaklaşım olmuştur. Ancak, olgusal hatırlamayı geliştirmek için değil, özel görevlerdeki performansını iyileştirmek için önerilir. İşte iki yaklaşım arasında kapsamlı bir karşılaştırma:
Yasal Uyarılar
RAG (Request for Aging) gelişmekte olan bir alan olduğundan, bu araçları ve çerçeveleri sınıflandırabilecek kaynaklar azdır. Bu nedenle, AIMultiple bu sınıflandırma için kamuya açık satıcı açıklamalarına güvenmiştir. AIMultiple, pazar büyüdükçe bu satıcı listesini ve sınıflandırmasını geliştirecektir.
Yukarıda listelenen RAG modelleri ve kütüphaneleri, AIMultiple'ın şu anda bu şirketleri sıralamak için daha ilgili ölçütlere erişimi olmadığı için bu sayfada alfabetik olarak sıralanmıştır.
Tedarikçi listeleri kapsamlı değildir.
Daha fazla okuma
LLM'ler ve LLMOps'taki son gelişmeleri keşfetmek için şunları inceleyin:
- 10'dan Fazla LLMOps Aracının Karşılaştırılması: Kapsamlı Bir Tedarikçi Kıyaslaması
- En İyi 20+ Yapay Zeka Yönetişim Aracını Karşılaştırın: Bir Tedarikçi Kıyaslaması
- Gömme Modelleri: OpenAI vs Gemini vs Cohere
- Hibrit RAG: RAG Doğruluğunu Artırma
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.