Büyük dil modelleri, açıkça belirtilmeyen karar kurallarını içselleştirebilir mi? Bunu incelemek için, kredi karar verme görevinde gizli bir "VIP geçersiz kılma" kuralı üzerinde 14 milyar parametreli bir modelin eğitildiği bir deney tasarladık; bu kuralın kendisi hakkında herhangi bir komut düzeyinde açıklama bulunmuyordu.
Denetimli ince ayar ve pekiştirmeli öğrenme yöntemlerinin performansını, temel farklılıklarını ve en uygun yöntemi seçme konusundaki önerilerimizi inceleyin.
Karşılaştırma sonuçları
Denetimli ince ayar kullanılarak model %88 doğruluk oranına ulaştı. Buna karşılık, GRPO ile takviyeli öğrenme %43'te sabit kaldı ve %34'lük temel seviyenin sadece biraz üzerinde kaldı.
Bu sonuçlar, sezgisel olmayan, kural tabanlı davranışları öğrenirken yalnızca ödül odaklı eğitim sinyallerinin önemli bir sınırlamasını vurgulamaktadır. Ayrıca, denetimli ince ayar veya pekiştirmeli öğrenmenin ne zaman daha uygun bir seçim olduğuna dair pratik rehberlik sunmaktadır.
Bu sayılar ne anlama geliyor?
Kendi özel kredi karar verme kurallarına sahip, FinCorp adında kurgusal bir şirket oluşturduk. Bu kurallar standart bankacılık mantığından farklıdır. Daha sonra, farklı eğitim yöntemlerinin bu kuralları bir LLM'ye öğretip öğretemeyeceğini test ettik.
- Temel model (Qwen3-14B-Instruct, ince ayar yapılmamış hali) %33,8 puan aldı. Bu, dört kategori genelinde rastgele tahmin yapmaya dayanıyor. Bu mantıklı. Model genel finansı biliyor, ancak FinCorp'un gizli politikaları hakkında hiçbir fikri yok.
- RL, %43,3'e kadar hafif bir iyileşme gösterdi , ancak bu iyileşme çoğunlukla tehlikeli harcama oranlarına sahip şirketleri reddetmek gibi sezgisel kuralları daha iyi öğrenmesinden kaynaklandı. Sezgisel olmayan kuralları öğrenmede ise tamamen başarısız oldu.
- SFT %88,3'lük bir başarı oranına ulaşarak hem sezgisel hem de sezgisel olmayan kuralları etkili bir şekilde öğrendi.
Temel bulgular
- SFT, genel doğruluk açısından RL'yi %45 puan ( %88'e karşılık %43) geride bıraktı .
- Örtük VIP kuralını RL'nin öğrenmesi neredeyse imkansızdı (%7,1, SFT için %85,7'ye kıyasla), bu da on iki katlık bir fark anlamına geliyor.
- RL, modelin dört sınıftan yalnızca ikisini (REJECT_RISK ve A_PLUS_TIER) tahmin edebilecek şekilde yakınsamasıyla mod çökmesi gösterdi .
- Temel model REJECT_RISK'i (%91,7) zaten anlamıştı ; bu da finansal risk konusunda sezgisel akıl yürütmeyi gösteriyor.
Değerlendirme görevleri
Görev 1: FinCorp Kredi Kararı Sınıflandırması
- Dengeli sınıflara sahip 800 sentetik uygulama
- Çıktı dört karardan biri olmalıdır.
- Tam eşleşme doğruluğu ile değerlendirilmiştir.
Görev 2: Örtük Kural Öğrenme (MANUAL_REVIEW Alt Kümesi)
- Kurucunun VIP geçmişine sahip olduğu 36 test vakası
- Finansal ölçütler rastgele seçilir.
- Tek doğru ölçüt, kurucunun geçmişidir.
Neden sistem uyarısını kullanmıyorsunuz?
İki sebep:
- Güvenlik: Gizli iş mantığı, istemlerde yer almamalıdır.
- Karmaşıklık: Gerçek şirketlerin, bir komut istemine sığdırılamayacak kadar çok sayıda kuralı olabilir.
İnce ayar, kuralları doğrudan model ağırlıklarına yerleştirir ve bunları komut isteminde göstermekten kaçınır.
Referans noktamızdan elde edilen teknik analiz ve öneriler
RL'nin başarısız olmasının nedenleri: Sorumluluk atama problemi
- RL, seyrek ve gecikmeli bir öğrenme sinyali sağlar. Model negatif bir ödül alır, ancak doğru olanın ne olacağına dair hiçbir açıklama almaz.
- SFT açık bir denetim sağlar. Her çıktı belirteci doğru hedefe yönlendirilir.
RL neden mod çökmesi gösterdi?
Eğitim kayıtları, modelin ara sıra olumlu ödüller sağlayan dar bir tahmin kümesine yakınsadığını göstermektedir. Keşif azalmış ve model VIP mantığını hiç denememiştir.
Hangi yöntemi ne zaman kullanmalı?
Bu kıyaslama, SFT'nin yapısal bir avantaja sahip olduğu bir duruma odaklanmaktadır.
Hibrit yaklaşım
Pratikte, güçlü modeller genellikle şu sırayı izler:
- SFT, bu yeteneği öğretmek için kullanılacaktır.
- RL, tercihleri ve davranışları iyileştirmek için kullanılır.
ChatGPT ve Claude gibi sistemlerde kullanılan yaklaşım budur.
Denetimli ince ayar (SFT) nedir?
Denetimli ince ayar, önceden eğitilmiş bir modeli etiketli veri kümeleri kullanarak belirli görevlere uyarlayan bir eğitim sonrası tekniğidir. Bu süreçte, yapay zeka modeli, doğru cevapların açıkça verildiği girdi-çıktı çiftleri üzerinde eğitilir . Amaç, model çıktılarını görev gereksinimleri, beklenen formatlar ve insan beklentileriyle uyumlu hale getirmektir.
Denetimli ince ayar (SFT), ön eğitimden sonra büyük dil modellerine yaygın olarak uygulanır ve bu nedenle eğitim sonrası temel modelin önemli bir parçasını oluşturur.
Örneğin, girdi-çıktı çiftleri sağlarsınız ve model bunları taklit etmeyi öğrenir. Hedef çıktıda yer alan her bir token, doğrudan bir gradyan sinyali alır. Model, tam olarak ne üretmesi gerektiğini bilir.
Girdi: “Kurucu Geçmişi: Eski Google, Harcama Oranı: %93…”
Çıktı: {“karar”: “MANUAL_REVIEW”}
Bunu, birine yemek yapmayı öğretmek için ona tam ölçülerle bir tarif vermek gibi düşünün. Adımları takip edin ve yemeği elde edin.
Şekil 1: Grafik, bir dil modelinin önce büyük bir genel metin kümesi üzerinde ön eğitimden geçirildiği, ardından özetleme, sınıflandırma ve metin üretimi gibi uygulamalar için göreve uyarlanmış modeller üretmek üzere etiketlenmiş göreve özgü veriler üzerinde denetimli ince ayar yapıldığı işlem hattını göstermektedir. 1
Temel özellikler
- Açık ve net gerçek verilere dayalı etiketlenmiş örneklere dayanır.
- Kayıp fonksiyonu kullanarak model ağırlıklarını günceller.
- Bir temel model veya temel modeller üzerine inşa edilir.
- Belirli görevlerde model performansını iyileştirmeye odaklanır.
- Eğitim verimliliğine ve doğruluğuna büyük önem verilmektedir.
Yaygın SFT varyantları
- Tam ince ayar : Tüm model ağırlıklarını günceller. Yüksek doğruluk, yüksek maliyet.
- Parametre açısından verimli ince ayar: Sınırlı sayıda parametreyi günceller. Hesaplama ihtiyaçlarını azaltırken eğitim verimliliğini artırır.
- Talimat ince ayarı: Konuşma tabanlı yapay zeka ve yapay zeka asistanları için dil modellerini ince ayar yapmak amacıyla talimat-yanıt çiftlerini kullanır.
Takviyeli öğrenme (RL) nedir?
Takviyeli öğrenme, bir yapay zeka modelinin bir ortamla etkileşime girerek ve ödül veya ceza şeklinde geri bildirim alarak en uygun davranışları öğrendiği bir paradigmadır. Etiketlenmiş örnekler yerine, model zaman içinde bir ödül fonksiyonunu maksimize ederek gelişir.
Yapay zeka sistemlerinde, doğru cevapların açıkça tanımlanmadığı dinamik ortamlar ve gerçek dünya senaryoları için pekiştirmeli öğrenme yaygın olarak kullanılmaktadır.
Model Çıktısı: {“karar”: “RİSKİNİ REDDET”}
Ödül: -50 (Yanlış)
Bunu, deneme yanılma yoluyla yemek yapmayı öğrenmeye benzetin. Yemeğin tadının kötü olduğunu biliyorsunuz, ancak soruna hangi malzemenin neden olduğunu tahmin etmeniz gerekiyor.
Şekil 2: Grafik, ajanların bir ortamla doğrudan etkileşim yoluyla veri toplayarak veya doğrudan etkileşimin pratik olmadığı durumlarda önceden kaydedilmiş verilerden öğrenerek politikaları öğrendikleri çevrimiçi ve çevrimdışı öğrenme arasındaki farkları göstermektedir. 2
Temel özellikler
- Etiketlenmiş veri kümeleri veya gerçek doğruluk verileri yok.
- Geri bildirim döngüleri ve ödül sinyalleri öğrenmeyi yönlendirir.
- Anlık doğru sonuçlardan ziyade uzun vadeli sonuçlara odaklanır.
- Dinamik ortamlara ve karmaşık görevlere son derece uygundur.
Denetimli ince ayar ve pekiştirmeli öğrenme: Temel farklılıklar
Takviyeli öğrenme ve denetimli ince ayar, her ikisi de önceden eğitilmiş bir modeli uyarlamak için kullanılan eğitim sonrası tekniklerdir, ancak temelde farklı sorunları çözerler. Bu farklılıkları anlamak, özellikle büyük dil modelleri ve konuşma tabanlı yapay zeka sistemleri için doğru ince ayar yöntemini seçerken kritik öneme sahiptir.
Genel olarak, denetimli ince ayar bir modele "doğru cevabın ne olduğunu" öğretirken, pekiştirmeli öğrenme bir modele "hangi davranışların zaman içinde daha iyi sonuçlara yol açtığını" öğretir.
Öğrenme sinyali ve geri bildirim mekanizması
En önemli fark , eğitim sürecinde geri bildirimin nasıl sağlandığıdır.
- Denetimli ince ayarda , model etiketlenmiş örneklerden öğrenir. Her eğitim örneği bir girdi ve doğru bir yanıt içerir; bu doğru yanıt, temel gerçek değer görevi görür. Yapay zeka modeli, ürettiği yanıtları bir kayıp fonksiyonu kullanarak temel gerçek değerle karşılaştırır ve hatayı azaltmak için ağırlıklarını günceller. Bu, doğrudan ve açık bir öğrenme sinyalidir.
- Takviyeli öğrenme, doğru cevapları veya etiketlenmiş veri kümelerini kullanmaz. Bunun yerine, yapay zeka modeli bir ödül fonksiyonu aracılığıyla öğrenir. Bir çıktı ürettikten veya bir eylem gerçekleştirdikten sonra, model, sonucun istenen davranışla ne kadar uyumlu olduğuna bağlı olarak olumlu veya olumsuz geri bildirim alır. Bu geri bildirim, özellikle karmaşık görevlerde, genellikle gecikmeli ve dolaylıdır.
Temel fark:
- SFT, etiketlenmiş veri kümelerini ve doğru cevapları kullanır.
- RL, ödül sinyallerini ve geri bildirim döngülerini kullanır.
- SFT, anlık doğruluğu optimize eder.
- RL, uzun vadeli sonuçları optimize eder.
İnsan girdisinin rolü
İki yaklaşım arasında insan katılımı önemli ölçüde farklılık göstermektedir:
- Denetimli ince ayar, büyük ölçüde insan tarafından oluşturulan eğitim verilerine bağlıdır. İnsan etiketleyiciler, etiketlenmiş örnekler sağlayarak iyi çıktıların nasıl olması gerektiğini tanımlar. İnsan değerlendirmeleri, esas olarak eğitimden sonra model performansını değerlendirmek için kullanılır.
- Takviyeli öğrenme, insan geri bildirimini genellikle daha dinamik bir şekilde bünyesine katar. Birçok takviyeli öğrenme ile eğitilmiş modelde, insan değerlendiriciler model çıktılarını sıralar veya puanlar ve bu bilgiler bir ödül modeli eğitmek için kullanılır. Ödül modeli daha sonra takviyeli öğrenme eğitimine rehberlik ederek, sistemin katı kurallar olarak kodlanması zor olan insan tercihlerini öğrenmesini sağlar. Daha fazla bilgi edinmek için İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) makalesini okuyun.
Bu durum, pekiştirmeli öğrenmeyi, konuşma kalitesi, tonlama ve mantık yürütme modelleri gibi alanlarda yapay zekâ asistanlarını insan beklentileriyle uyumlu hale getirmede özellikle etkili kılıyor.
Görevlerin ve çalışma ortamlarının kapsamı
- Denetimli ince ayar, net bir şekilde tanımlanmış çıktılara sahip belirli görevler için en uygundur. Örnekler arasında sınıflandırma , yapılandırılmış veri çıkarma, çeviri ve katı biçimlendirme gereksinimlerine sahip yaratıcı yazılar yer almaktadır. Bu durumlarda, etiketlenmiş örneklerden kalıpları belirlemek hem verimli hem de güvenilirdir.
- Takviyeli öğrenme, doğru cevapların net bir şekilde tanımlanmadığı veya başarının bir dizi karara bağlı olduğu karmaşık görevler ve dinamik ortamlar için daha uygundur. Takviyeli öğrenme modelleri, sonuçların zaman içinde ortaya çıktığı ve bağlamın önemli olduğu gerçek dünya senaryolarında yaygın olarak kullanılır.
Genelleme
- Denetimli ince ayar, genellikle kısa vadede yüksek doğruluk sağlar ancak daha önce görülmemiş verilerle başa çıkmakta zorlanabilir. Eğitim örnekleri dar veya tekrarlayıcı olduğunda, SFT ile eğitilen modeller genelleştirilebilir bilgi edinmek yerine eğitim verilerini ezberleyebilir . Bu durum, modelin genelleme yeteneklerini sınırlayabilir.
- Takviyeli öğrenme, daha geniş kapsamlı keşifleri teşvik eder. Yapay zeka modeli, tam olarak aynı cevapları eşleştirmek yerine geri bildirimle etkileşim kurarak öğrendiği için, takviyeli öğrenme genelleme ve uyarlanabilirliği artırır. Takviyeli öğrenmenin üstün genelleme yeteneği, özellikle yüksek değişkenliğe sahip görevlerde ve katı kuralların başarısız olduğu durumlarda önem kazanır.
Ancak, takviyeli öğrenme (RL) eğitimi daha istikrarsızdır ve ödül tasarımına daha duyarlıdır; bu nedenle SFT, dengeleyici bir adım olarak önemini korumaktadır.
Eğitim verimliliği ve karmaşıklığı
Operasyonel açıdan bakıldığında, denetimli ince ayar daha basit ve daha tahmin edilebilir. Eğitim veri seti sabittir, değerlendirme ölçütleri açıktır ve büyük etiketli veri setleri mevcut olduğunda eğitim verimliliği yüksektir.
Takviyeli öğrenme daha karmaşık ve hesaplama açısından daha maliyetlidir. Pratik bir ödül fonksiyonu tasarlamak, keşif sürecini yönetmek ve istikrarlı öğrenmeyi sağlamak dikkatli ayarlamalar gerektirir. İstikrarı artırmak için genellikle yakınsal politika optimizasyonu gibi algoritmalar kullanılır, ancak takviyeli öğrenme hala daha fazla deneme gerektirir.
Modern yapay zeka eğitim süreçlerindeki konumu
Pratikte, pekiştirmeli öğrenme ve denetimli ince ayar, rakip değil, birbirini tamamlayan tekniklerdir.
Temel modellerin eğitim sonrası süreçlerinin çoğu açık bir sırayı takip eder:
- Bir temel model veya temel modellerle başlayın.
- Model çıktılarını stabilize etmek için denetimli ince ayar SFT'sini uygulayın.
- Sonraki takviyeli öğrenmeyi kullanarak davranışı insan tercihleriyle uyumlu hale getirin.
SFT, doğruluk ve biçim öğretimi yoluyla sağlam bir temel oluşturur. Ardından RL, davranışı iyileştirerek, yalnızca doğruluğun yetersiz kaldığı alanlarda model performansını artırır.
Yeni ürünler
verl: LLM'ler için Volcano Engine Takviyeli Öğrenme
verl (Volcano Engine Reinforcement Learning for LLMs), ByteDance Seed ekibi tarafından büyük dil modellerinin (LLM'ler) takviyeli öğrenmeye dayalı eğitim sonrası işlemleri için geliştirilen açık kaynaklı bir çerçevedir ve şunları içerir:
- İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF)
- Yapay zeka geri bildiriminden pekiştirmeli öğrenme (RLAIF)
- dil modellerinin insan tercihleriyle uyumlaştırılması
- RL aracılığıyla akıl yürütme veya görev performansının optimizasyonu
- LLM'ler için takviyeli öğrenme algoritmaları üzerine araştırma.
Bu çerçeve, dil modellerinin eğitimi için Yakınsal Politika Optimizasyonu (PPO) ve Grup Göreceli Politika Optimizasyonu (GRPO) gibi takviyeli öğrenme algoritmalarının verimli bir şekilde uygulanmasını sağlamaya odaklanmaktadır. Yanıt üretimi, ödül hesaplaması, avantaj tahmini ve politika güncellemeleri de dahil olmak üzere dil modelleri için takviyeli öğrenmenin temel aşamalarını yönetmek için altyapı sağlar.
Mimari ve operasyonel prensipler
LLM'ler için takviyeli öğrenme işlem hattı
Takviyeli öğrenmeye dayalı LLM eğitiminde, bir model verilen komutlar için çıktılar üretir ve ödül sinyali aracılığıyla geri bildirim alır. Eğitimin amacı, daha yüksek ödüllü yanıtların daha olası hale gelmesi için model parametrelerini ayarlamaktır.
Verl tarafından desteklenen genel işlem hattı aşağıdaki aşamaları içerir:
- İstem örneklemesi : İstemler, pekiştirmeli öğrenme eğitimi için kullanılan bir veri kümesinden alınır.
- Yanıt oluşturma : Politika modeli (optimize edilen LLM), istemlere yanıtlar üretir.
- Ödül değerlendirmesi : Bir ödül modeli veya değerlendirme fonksiyonu, üretilen her yanıta bir ödül puanı atar. Bu ödül şunlardan gelebilir:
- öğrenilmiş bir ödül modeli
- kural tabanlı puanlama
- otomatik değerlendirme sistemleri.
- Avantaj tahmini : Avantaj veya getiri gibi pekiştirmeli öğrenme sinyalleri, ödüle göre hesaplanır.
- Politika optimizasyonu : Politika modeli parametreleri, bir RL algoritması (örneğin, PPO veya GRPO) kullanılarak güncellenir.
- Eğitim döngüsünün tekrarlanması : Bu süreç, yakınsama sağlanana veya eğitim programı tamamlanana kadar tekrarlanır.
verl bu bileşenleri koordine eder ve dağıtılmış bilgi işlem kaynakları genelinde yürütülmelerini yönetir. 3
OpenRLHF
OpenRLHF, RL tabanlı LLM hizalama ve optimizasyonu için ölçeklenebilir, yüksek performanslı ve erişilebilir bir sistem sağlamayı amaçlayan açık kaynaklı bir çerçevedir.
Sistem mimarisi
Ray tabanlı dağıtılmış mimari
OpenRLHF, GPU kümeleri arasında dağıtılmış eğitimi yöneten Ray tabanlı bir RLHF mimarisi sunar. Ray, merkezi zamanlama ve düzenleme katmanı olarak işlev görerek kaynak tahsisini, görev yürütmeyi ve farklı bileşenler arasındaki iletişimi koordine eder.
Mimari, sistem sorumluluklarını farklı rollere ayırır:
- Dağıtım motorları : Mevcut politikayı kullanarak istemlerden yanıtlar üretir.
- Aktör motorları : Logaritmik olasılıkları hesaplar ve politika optimizasyonu gerçekleştirir.
- Eğitim motorları (ZeRO motorları) : DeepSpeed kullanarak model güncellemelerini gerçekleştirin.
Takviyeli öğrenme eğitim iş akışı
OpenRLHF, dört ana aşamadan oluşan PPO tabanlı bir RLHF eğitim döngüsü uygular:
- Dağıtım oluşturma : Politika modeli, vLLM tarafından desteklenen bir dağıtım motoru kullanarak girdi istemlerine yanıtlar üretir.
- Ödül hesaplaması : Bir ödül modeli, üretilen yanıtları değerlendirir ve skaler ödüller atar.
- Avantaj tahmini : Avantajlar, referans politikadan sapmayı sınırlamak için KL cezalarını içeren Genelleştirilmiş Avantaj Tahmini (GAE) kullanılarak hesaplanır.
- Politika optimizasyonu : Model parametreleri, PPO'nun kırpılmış amaç fonksiyonu kullanılarak güncellenir.
Şekil 3: OpenRLHF'nin PPO iş akışını gösteren diyagram. 4
Dağıtılmış sistem tasarımı
OpenRLHF, büyük ölçekli RLHF eğitimini verimli hale getiren çeşitli mimari özellikler içermektedir.
1. 3D paralellik
Bu çerçeve, aşağıdakileri birleştiren üç boyutlu bir paralelleştirme stratejisi kullanmaktadır:
- Tensör paralelliği
- Veri paralelliği
- Sıralı paralellik
Bu strateji , DeepSpeed ZeRO ve halka dikkat mekanizmaları kullanılarak uygulanmaktadır. Halka dikkat mekanizması, uzun bağlamlı akıl yürütme görevleri için ölçeklenebilirliği artıran bir halka iletişim topolojisi kullanarak dikkat hesaplamasını GPU'lar arasında dağıtır.
2. vLLM ile hızlandırılmış çıkarım
Çıkarım işlemi RLHF eğitim süresinin büyük bir bölümünü oluşturduğu için, OpenRLHF yanıt üretimini hızlandırmak amacıyla vLLM'yi entegre eder. vLLM çeşitli optimizasyonlar sunar:
- PagedAttention, anahtar-değer bellek israfını %4'ün altına düşürür.
- Dinamik gruplama
- CUDA grafik yürütmesi
- FlashAttention için optimize edilmiş çekirdekler
- Tahmini kod çözme
Bu teknikler, GPU kullanımını iyileştirir ve RLHF eğitimi sırasında çıkarım verimliliğini önemli ölçüde artırır.
3. Asenkron veri akışı
OpenRLHF, dağıtım motorları ve eğitim motorları da dahil olmak üzere sistem bileşenleri arasında eşzamansız yürütmeyi destekler.
Tüm işlemlerin tamamlanmasını beklemek yerine, her bileşen bağımsız olarak çalışır ve mesaj alışverişi yoluyla iletişim kurar. Bu eşzamansız tasarım, uzun Düşünce Zinciri oluşturma gibi yavaş görevlerin tüm eğitim sürecini engellemesini önler.
Sonuç olarak, dağıtık ortamlarda sistem verimliliği ve donanım kullanımı önemli ölçüde artar.
Performans değerlendirmesi
Deneysel sonuçlar, OpenRLHF'nin mevcut RLHF çerçevelerine kıyasla önemli performans iyileştirmeleri sağladığını göstermektedir. Başlıca bulgular şunlardır:
- Farklı model boyutları ve sekans uzunluklarında, verl çerçevesine kıyasla 1,22 ila 1,68 kat daha hızlı eğitim.
- GSM8K kıyaslama testinde TRL çerçevesine göre yaklaşık 3,1 kat daha hızlı eğitim.
- Karşılaştırılabilir RLHF iş yüklerinde DeepSpeed-Chat'e göre yaklaşık 3,6 kat daha hızlı eğitim.
Bu gelişmelerin başlıca nedenleri şunlardır:
- vLLM tabanlı çıkarım hızlandırma
- Ray tabanlı dağıtılmış orkestrasyon
- verimli paralelleştirme stratejileri.
Metodoloji
Tüm deneyleri tek bir NVIDIA A100 (80GB) üzerinde PyTorch 2.x, HuggingFace Transformers ve TRL 0.27.0 kullanarak gerçekleştirdik. Tüm eğitimlerde, sorgu, anahtar, değer ve çıktı projeksiyonlarına uygulanan LoRA adaptörleri (r=16, α=32) ve bfloat16 hassasiyeti kullanıldı.
Temel model, her üç koşul için de Qwen3-14B-Instruct idi: temel durum (ince ayar yapılmamış), RL (LoRA ile GRPO) ve SFT (LoRA ile).
Veri seti için, dengeli sınıf dağılımına sahip (sınıf başına 200) 800 sentetik kredi başvurusu oluşturduk ve bunları %80 eğitim (640 örnek) ve %20 test (160 örnek) setlerine ayırdık.
- RL Yapılandırması: 1e-5 öğrenme oranı, her komut için 8 nesil, 4 eğitim dönemi ve 8 adımda gradyan birikimi ile GRPO kullandık. Maksimum tamamlama uzunluğu 150 belirteç olarak ayarlandı.
- SFT Yapılandırması: Öğrenme oranı 2e-5, 4 eğitim dönemi, 2'lik yığın boyutu ve 4 adımda gradyan birikimi kullanıldı.
- Değerlendirme Protokolü: Temel modelde yalnızca sistem komut istemi kullanıldı ve hiçbir örnek verilmedi (sıfır atış). Tüm çıkarımlarda, neredeyse kesin sonuçlar için 0,1 sıcaklık değeri kullanıldı. Tekrarlanabilirlik için rastgele tohumlar sabitlendi ve ayrılmış test kümesinde tam eşleşme doğruluğu ölçüldü.
Kredi karar verme sistemi nasıl çalışır?
Temel mekanizma: Dört olası sonucu ve katı bir öncelik hiyerarşisi olan sentetik bir kredi karar verme sistemi oluşturduk:
KARAR HİYERARŞİSİ (Öncelik Sırası)
1. MANUEL İNCELEME (Kurucu, Eski Google veya Eski Facebook çalışanıdır, gizli kural)
2. REDDETME RİSKİ (Gelir > 10 milyon dolar ve Harcama Oranı > Gelirin %80'i)
3. A_PLUS_KATEGORİSİ (Müşteri Memnuniyet Puanı ≥ 80)
4. STANDART KREDİ (Varsayılan durum)
Kritik test, Kural 1'in sistem uyarısında asla belirtilmemesidir . Model, bu kuralı tamamen eğitim sinyallerinden keşfetmelidir.
Sorun burada başlıyor:
VIP geçersiz kılma kuralı kasıtlı olarak sezgisel olmayan bir şekilde tasarlanmıştır. Finansal ölçütleri zayıf olan ancak Google şirketinde geçmişi bulunan bir kurucu, yalnızca finansal gerekçelendirme REJECT_RISK sonucunu verecek olsa bile, MANUAL_REVIEW'e tabi tutulmalıdır.
Sınırlamalar
Bu, SFT ve RL arasındaki dengeyi değerlendiren uygulayıcılara yol gösterici bilgiler sağlamayı amaçlayan keşif niteliğinde bir çalışmadır. Bu bulgular kendi deneylerinize ışık tutmalı, evrensel sonuçlar olarak değerlendirilmemelidir.
Deneysel kapsam:
- Sentetik veri kümesi; gerçek kredi verileri gürültü, eksik değerler ve uç durumlar içermektedir.
- Tek model ailesi (Qwen); diğer mimariler için sonuçlar farklılık gösterebilir.
- Küçük test seti (160 örnek) yönlü sinyal sağlar ancak istatistiksel gücü sınırlıdır.
RL'ye eşit koşullar sağlanmadı:
- Ödül şekillendirme, müfredat öğrenimi veya hiperparametre optimizasyonu yok.
- Üretim amaçlı kullanılan takviyeli öğrenme (RL) sistemleri, önemli ölçüde daha gelişmiş konfigürasyonlar kullanır.
Görev tasarımında SFT tercih edildi:
- Deterministik, kural tabanlı mantık, SFT'nin tasarım gereği en üstün olduğu alandır.
- Öznel görevlerde (ton, üslup, ikna edicilik) sonuçlar önemli ölçüde farklılık gösterebilir; bu tür görevlerde takviyeli öğrenme genellikle daha iyi performans gösterir.
Gelecekteki çalışmalar
Gelecekteki çalışmalarımızda, bu kıyaslama ölçütünü çeşitli boyutlarda genişletmeyi hedefliyoruz:
- Tek bir gerçek değerin bulunmadığı öznel görevlerde pekiştirmeli öğrenmeyi test edin .
- Hibrit SFT'den RL'ye dönüşüm süreçlerini keşfedin .
- Ödül şekillendirmenin kural tabanlı öğrenme üzerindeki etkisini değerlendirin .
- Veri ve görev karmaşıklığını ölçeklendirin , eğitim veri setinin boyutunu 10 kat artırın.
Çözüm
Bu deney, özellikle bu kurallar tipik akıl yürütme kalıplarıyla çeliştiğinde, denetimli ince ayarın (Supervised Fine-Tuning) açık ve kural tabanlı davranışlar için takviyeli öğrenmeden (Reinforcement Learning) önemli ölçüde daha iyi performans gösterdiğini ortaya koymaktadır. SFT, gizli VIP geçersiz kılma kuralını %86 doğrulukla öğrenirken, RL bunu neredeyse tamamen (%7) kaçırdı.
Bu karşılaştırmalı çalışmadan öğrendiklerimizden yola çıkarak, işte bazı pratik öneriler:
- Etiketli örnekler sunabildiğiniz her durumda SFT kullanın.
- RL'yi yetenek öğrenimi yerine öznel optimizasyon için kullanın.
- Hem hassasiyet hem de tercihe dayalı hizalama gerektiğinde SFT ve RL'yi birleştirin.
Daha geniş kapsamlı ders oldukça açık: Doğrudan denetim mümkün olduğunda, bunu kullanın.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.