USMLE sorularından türetilmiş, lisansüstü düzeyde bir klinik sınav ölçütü olan MedQA veri setini kullanarak 9 LLM'yi karşılaştırmalı olarak değerlendirdik. Her model, standartlaştırılmış bir yönerge kullanarak aynı çoktan seçmeli klinik senaryoları yanıtladı ve bu da doğruluk açısından doğrudan karşılaştırmaya olanak sağladı.
Ayrıca, toplam çalışma süresini tamamlanan MedQA öğelerinin sayısına bölerek soru başına gecikme süresini de kaydettik.
Sağlık sektöründeki LLM'lerin kıyaslama sonuçları
Kıyaslama metodolojisi : Bu kıyaslama, sağlık alanındaki LLM'lerin büyük genel amaçlı modellere (GPT-4) kıyasla tıbbi soru cevaplama görevlerinde denetimli ince ayar performansını değerlendirir. Kıyaslama veri kaynaklarına bakın .
MedQA : Amerika Birleşik Devletleri Tıp Lisanslama Sınavı'na (USMLE) dayalı çoktan seçmeli tıp sınavı soruları.
Şekil 1: USMLE tarzı çoktan seçmeli klinik soru örneği.
MedMCQA : Gerçek dünyadaki tıp giriş sınavı sorularını ele almak üzere tasarlanmış, geniş ölçekli, çoktan seçmeli soru cevaplama (MCQA) veri seti.
Şekil 2: Modelin doğru cevabı seçmesini ve klinik bulgular hakkındaki ilgili açıklamaları yorumlamasını gerektiren, büyük ölçekli bir tıp giriş sınavı çoktan seçmeli sorusu.
PubMedQA : Evet/hayır/belki yanıtlarını kullanan biyomedikal soru-cevaplama kıyaslama testi.
Şekil 3: Biyomedikal bir evet/hayır/belki sorusu; modelin, verilen çalışma bağlamını kullanarak klinik bir iddianın doğruluğunu değerlendirmesi gerekmektedir.
Sağlık alanında LLM örnekleri
BERT benzeri (Sadece kodlayıcı)
Biyomedikal metinlerin kodlanması ve temsil edilmesi için optimize edilmiş bu modeller, sınıflandırma gibi görevler için özellik çıkarma konusunda mükemmeldir.
ChatGPT / LLaMA benzeri (Kod çözücü, talimat/sohbet odaklı)
LLaMA tarzı mimarilere dayanmaktadır ve etkileşimli görevler ve klinik diyaloglar için optimize edilmiştir.
GPT / PaLM benzeri (Sadece kod çözücü, üretken)
GPT-3 veya PaLM'ye benzer şekilde geliştirilen bu modeller, genel amaçlı metin üretimi ve özetleme için ince ayarlanmıştır.
Sağlık alanında genel amaçlı Hukuk Yüksek Lisansları (LLM)
*Llama 3.1 Instruct Turbo, 405B parametreleriyle. Karşılaştırma yöntemine bakın.
Önemli noktalar:
- o1 : En iyi performans gösteren model
- 03 mini : En iyi bütçe seçeneği
- GPT 4.1 : En iyi hız ve yanıt süresi
Doğruluk ve girdi maliyetinin ötesinde, modeller tıbbi soru yanıtlama konusunda temel yaklaşımlarında da farklılık gösterir. Örneğin, o3 daha adım adım, analitik bir yaklaşım kullanırken, GPT-5 empatik bir şekilde yanıt verir, bilgileri düzenler ve uzman olmayanlar için açık bir şekilde açıklar:
Şekil 4: GPT-5 ve o3 cevapları arasındaki farkları gösteren şekil.
Tıp alanındaki yüksek lisans programlarının ince ayarı
Varsayılan ChatGPT'nin (4o modeli) performansı, mevcut 'Klinik Tıp El Kitabı' asistanı ile karşılaştırılmıştır. Her iki modele de aynı komut verilmiş ve yanıtları analiz edilmiştir:
GPT 4o
Şekil 5: Şekil, GPT 40 varsayılan modelinin cevabının doğru ancak aynı zamanda oldukça özetlenmiş olduğunu göstermektedir. 1
İnce ayarlanmış tıp yüksek lisansı
Şekil 6: Şekil, uzman temsilciden gelen cevabın daha iyi açıklanmış ve ayrıntılı olduğunu göstermektedir. 2
Daha fazla bilgi için LLM ince ayarı ve LLM eğitimi başlıklı yazıyı okuyun.
Genel amaçlı LLM'lerin uygulamaları
Bu modeller, klinik görevleri doğru bir şekilde yerine getirmek için alan uyarlaması gerektiren genel, ince ayarlı modellerdir . Bu modelleri sağlık hizmetlerinde şu şekilde kullanabilirsiniz:
- Modelin tıbbi dili daha iyi tanımasına yardımcı olmak için, klinik notlara ve biyomedikal literatüre (örneğin PubMed) maruz bırakılarak tıbbi veriler üzerinde sürekli ön eğitim yapılır .
- RAG, doğrulanmış klinik belgelerden veri çekerek çalışma zamanında doğru yanıtlar üretmek için kullanılır.
- Modelin klinik soruları yanıtlamayı veya metinden semptomları çıkarmayı öğrenmesini sağlamak için talimatların ince ayarı .
Şekil 7: Özel kullanım durumları için LLM ince ayarının genel iş akışı. 9
Klinik ortamlarda LLM'lerin kullanım örnekleri
1. Tıbbi transkripsiyon
LLM'ler aşağıdaki yollarla tıbbi transkripsiyon oluşturulmasına yardımcı olabilir:
- Hasta ve hekim arasındaki doğal diyaloğu dinlemek.
- Kritik tıbbi bilgilerin çıkarılması.
- Tıbbi verileri, elektronik sağlık kaydının ilgili bölümleriyle uyumlu, standartlara uygun tıbbi kayıtlara dönüştürmek.
Gerçek hayattan bir örnek: Google'un MedLM'si, hasta-klinisyen görüşmesini yakalayabilir ve tıbbi transkripsiyona dönüştürebilir. 10
2. Elektronik sağlık kayıtlarının (EHR) geliştirilmesi
Elektronik sağlık kayıtlarının (EHR) yaygın kullanımı, etkin bir şekilde kullanıldığında sağlık hizmetlerini önemli ölçüde iyileştirebilecek çok büyük miktarda hasta verisi üretmiştir.
Örneğin, elektronik sağlık kayıtları verilerinin analizi, tanı, tedavi ve sonuçlardaki kalıpları ortaya çıkararak klinisyenlerin daha iyi kararlar almasına yardımcı olabilir. Ayrıca, risk faktörlerini belirleyerek ve tedavileri bireysel hastalara göre uyarlayarak hastalıkların daha erken teşhisini ve daha kişiselleştirilmiş bakımı destekleyebilir.
Sistem düzeyinde, elektronik sağlık kayıtları verileri, gereksiz testleri azaltarak, bakım eksikliklerini ortaya çıkararak ve kaliteyi artırıp maliyetleri düşüren politikaları bilgilendirerek verimliliği artırabilir.
Gerçek hayattan bir örnek: Google'un MedLMis'i, BenchSci, Accenture ve Deloitte tarafından elektronik sağlık kayıtlarını (EHR) geliştirmek için kullanılmaktadır.
- BenchSci, preklinik araştırmaların kalitesini artırmak amacıyla MedLM'yi ASCEND platformuna entegre etti.
- Accenture, MedLM'yi kullanarak birden fazla kaynaktan gelen yapılandırılmamış verileri düzenliyor ve daha önce zaman alan, hataya açık manuel işlemleri otomatikleştiriyor.
- Deloitte, tedavi bulma sürecindeki engelleri en aza indirmek için MedLM ile işbirliği yapıyor. Sağlık planı katılımcılarının sağlayıcı alternatiflerini daha iyi anlamalarına yardımcı olan etkileşimli bir sohbet robotu kullanıyorlar. 11
3. Klinik karar destek sistemi
LLM'ler, klinik uzmanların güncel tıbbi kanıtlarda yer alan hastaya özgü bilgileri yorumlamalarına yardımcı olarak, klinik yargının yerini almadan tanı veya tedavi planlaması sırasında ilgili hususları ortaya çıkarır.
Gerçek hayattan bir örnek: MedGemma (Google DeepMind), Google'un Gemma 3 mimarisi üzerine inşa edilmiş açık kaynaklı tıbbi modellerden oluşan bir koleksiyondur. Doğrudan tüketiciye yönelik bir teşhis aracı olarak işlev görmek yerine, MedGemma geliştiricilerin klinisyenlere yönelik tıbbi uygulamalar geliştirmeleri için bir temel görevi görür.
Hem tıbbi metin hem de görüntü analizi için tasarlanan MedGemma, göğüs röntgenleri, MR'lar ve BT taramaları da dahil olmak üzere karmaşık tıbbi görüntüleri yorumlayabilir. Ayrıca hasta notlarını özetlemek veya tıp kurulu tarzı soruları yanıtlamak gibi klinik akıl yürütme görevlerini de destekler.
ABD'de kardiyotorasik radyoloji alanında uzmanlaşmış bir radyolog tarafından yapılan bir incelemeye göre, MedGemma göğüs röntgeni raporlarının %81'i, orijinal radyolog raporlarına dayalı kararlara benzer hasta tedavi kararlarına yol açmaktadır (aşağıdaki grafiğe bakınız).
Şekil 8: Grafik, yapay zeka tarafından oluşturulan göğüs röntgeni raporları ile orijinal radyolog raporlarının normal, anormal ve tüm vakalar genelinde ne sıklıkla benzer veya farklı klinik sonuçlara yol açtığını göstermektedir. 12
Gerçek hayattan bir örnek: Memorial Sloan Kettering Kanser Merkezi, onkologlara hasta verilerini ve tıbbi literatürü analiz ederek kanıta dayalı tedavi seçenekleri önermede yardımcı olmak için IBM Watson Onkoloji yazılımını kullanmaktadır. 13
4. Tıbbi araştırma desteği
Tıp araştırmalarında, LLM'lerin temel değeri, literatür tarama ve sentezini hızlandırma yeteneklerinde yatmaktadır.
LLM'ler, makaleleri basitçe özetlemek yerine, ilgili çalışmaları belirleyerek, temel bulguları çıkararak ve birden fazla kaynaktan elde edilen bilgileri sentezleyerek araştırmacıların hızla genişleyen biyomedikal literatüre ayak uydurmalarına yardımcı olur.
Gerçek hayattan bir örnek: John Snow'un sağlık hizmetleri sohbet robotu, araştırmacıların ilgili bilimsel makaleleri bulmasına, önemli bilgiler çıkarmasına ve araştırma trendlerini belirlemesine yardımcı oluyor. Özellikle geniş biyomedikal literatürde gezinmek için son derece değerli. 14
5. Otomatik hasta iletişimi
Sağlık sektöründe kullanılan büyük ölçekli dil modelleri, hastaların sorularına bilgilendirici ve şefkatli yanıtlar üretebilir. Bazı örnekler şunlardır:
- İlaç yönetimi ve hatırlatmalar: Bir sohbet robotu, hastalara diyabet ilaçlarını almaları için düzenli olarak hatırlatmalar gönderir ve onay ister.
- Sağlık takibi ve izleme bakımı: Ameliyat sonrası hasta, ağrı ve yara durumunu bir sohbet robotuna gönderir ve robot iyileşme sürecinin ilerleyip ilerlemediğini belirler.
- Bilgilendirici ve eğitici iletişim: Bir hasta, bir sohbet robotuna yüksek tansiyonu nasıl yöneteceğini soruyor ve sohbet robotu beslenme ve yaşam tarzı önerileriyle yanıt veriyor.
Gerçek hayattan bir örnek: ChatGPT Health, kullanıcıların tıbbi kayıtlarını ve sağlık verilerini (örneğin, Apple Health veya MyFitnessPal) güvenli bir şekilde bağlamalarına olanak tanır. Kullanıcılar daha sonra ChatGPT'ye kendi verileriyle ilgili sorular sorabilirler; örneğin, "Kolesterol seviyem nasıl seyrediyor?" veya "En son laboratuvar sonuçlarımı özetleyin." 15
Gerçek hayattan bir örnek: Boston Çocuk Hastanesi, hastalara sağlıkla ilgili sorulara anında yanıtlar ve ilk görüşmeler sağlayan, yapay zeka destekli çevrimiçi semptom kontrol robotu Buoy Health'i kullanıyor.
Sohbet robotu, hastaların semptomlarını analiz ederek ve doktora görünmeleri gerekip gerekmediği konusunda tavsiyede bulunarak hastaları önceliklendirebilir. 16
6. Öngörülebilir sağlık sonuçları
LLM'ler, sağlık hizmetlerinde risk sınıflandırması ve tahminleme olanağı sağlamak üzere konumlandırılabilir. Yapılandırılmış ve yapılandırılmamış klinik verilerin analizini destekleyerek, LLM'ler yüksek risk altındaki hastaları (örneğin hastaneye yeniden yatış) belirlemeye ve genellikle geleneksel tahmin modelleriyle birlikte proaktif bakım planlamasını desteklemeye yardımcı olabilir.
Gerçek hayattan bir örnek: WVU eczacıları, yeniden hastaneye yatış riskini belirlemek için tahmine dayalı bir algoritma kullanıyor. Bu yaklaşım, hasta demografik bilgilerini, klinik geçmişini ve sağlığın sosyoekonomik belirleyicilerini içeren elektronik sağlık kayıtlarından (EHR) elde edilen verileri inceleyecektir.
Bu araştırmaya dayanarak, WVU eczacıları yeniden hastaneye yatma riski yüksek olan hastaları belirler ve taburcu olduktan sonra onlarla ilgilenmek üzere bakım koordinatörleri görevlendirir. Bu, yeniden hastaneye yatma oranlarının azaltılmasına yardımcı olabilir. 17
7. Kişiselleştirilmiş tedavi planları
LLM'ler, tıbbi geçmişi, semptomları ve uzun süreli sağlık verilerini entegre ederek, karmaşık hasta bilgilerini bireyselleştirilmiş bakım değerlendirmelerine dönüştürmeye yardımcı olabilir ve klinisyenler ile hastalar arasında daha kişiselleştirilmiş ve bağlama duyarlı tedavi görüşmelerini destekleyebilir.
Gerçek hayattan bir örnek: Babylon Health'in yapay zekâ destekli sohbet robotu, kullanıcının semptomlarına ve tıbbi geçmişine dayanarak kişiselleştirilmiş sağlık önerileri sunar. Kullanıcıları, sorunlarını daha iyi analiz etmek için ilgili sorular sorarak ve kişiye özel önerilerde bulunarak bir sohbete dahil eder. 18
8. Tıbbi kodlama ve faturalama
Büyük dil modelleri, hasta kayıtlarını ve elektronik sağlık kayıtlarını analiz ederek denetim süreçlerini otomatikleştirebilir.
Gerçek hayattan bir örnek: Elektronik sağlık kayıtları sağlayıcısı Epic Systems, kodlama ve faturalandırmaya yardımcı olmak için yazılımına LLM'leri entegre eder. LLM'ler, hassas hasta bilgilerine erişim modellerindeki anormallikleri veya kodlama ve faturalandırma uygulamalarındaki tutarsızlıkları izleyebilir. 19
Gerçek hayattan bir örnek: Claude for Healthcare (Anthropic), sağlık kuruluşları, sağlayıcılar ve sigortacılar için tasarlanmış, kurumsal odaklı bir platformdur. Büyük dil modellerini ICD-10 ve CMS Kapsam Veritabanı gibi profesyonel tıbbi veritabanlarına bağlayarak hastanelerin idari iş akışlarını otomatikleştirmesini sağlar. Bu iş akışları arasında sigorta ön onayları, hasta dosyası özetleme ve hasta portalı mesajlarının önceliklendirilmesi yer almaktadır. 20
Ancak, LLM'ler tıbbi kodlama için henüz tam olarak hazır değiller, ancak katkıları umut verici: Araştırmacılar, dört LLM'nin (GPT-3.5, GPT-4, Gemini Pro ve Llama2-70b Chat) doğru CPT, ICD-9-CM ve ICD-10-CM kodlarını ne sıklıkla verdiğini inceledi.
Bulguları, önemli bir iyileştirme fırsatı olduğunu gösteriyor. Araştırmacılar, LLM'lerin genellikle %50'lik maksimum doğruluk oranıyla yanlış bilgi ileten kod ürettiğini tespit etti. 21
9. Eğitim ve öğretim
Büyük dil modelleri ve üretken yapay zeka , etkileşimli eğitim araçları olarak kullanılabilir ve klinisyenlerin ve hastaların karmaşık tıbbi kavramları daha iyi anlamalarına ve kafa karıştıran bilgileri netleştirmelerine yardımcı olabilir.
Gerçek hayattan kullanım örneği: Oxford Tıp Simülasyonu Sanal gerçeklik teknolojisiyle entegre edilmiş LLM'leri kullanarak sürükleyici sanal hasta simülasyonları oluşturur.
Bu simülasyonlar, öğrencilerin gerçek dünyada yaşanabilecek sonuçlar olmadan, kalp krizi geçiren bir hastaya müdahale etmek gibi yüksek baskı altındaki senaryoları deneyimlemelerine olanak tanır.
LLM'ler, sanal hastaların yanıtlarını güçlendirerek onları daha gerçekçi ve tahmin edilemez hale getirir ve öğrencileri gerçek klinik ortamların değişkenliğine hazırlar. 22
Sağlık sektöründe Hukuk Yüksek Lisanslarının (LLM) karşılaştığı zorluklar
Gizlilik endişeleri
Uygun şekilde geliştirilmemiş, test edilmemiş veya tıbbi kullanım için onaylanmamış LLM tabanlı sağlık uygulamalarının kullanılması, özellikle veri gizliliği konusunda kullanıcılar için önemli riskler oluşturabilir.
Bu araçlar genellikle hassas, kullanıcı tarafından sağlanan sağlık bilgilerini işler; ancak bu verilerin nasıl saklandığı, paylaşıldığı veya uygulamaların mevcut veri koruma yasalarına ve düzenlemelerine tam olarak uyup uymadığı her zaman açık değildir. 23
Doğruluk ve güvenilirlik
LLM'ler ayrıca, kulağa mantıklı gelen ancak yanlış veya yanıltıcı bilgiler olan halüsinasyonlara da yatkındır.
Örneğin, GPT-3.5 tıbbi bir sorgu aldığında, fetüse verebileceği potansiyel zararı doğru bir şekilde açıklamasına rağmen, hamile bir hastaya yanlışlıkla tetrasiklin önermiştir. 24
Şekil 8: GPT-3.5 numaralı örnekten, bir ilacın yanlış önerilmesini gösteren bir örnek.
Genelleme ve uzmanlaşma
Genel tıp verileri alanında yüksek lisans yapmış bir kişi, belirli tıp uzmanlık alanları için gereken detaylı uzmanlığa sahip olmayabilir.
Önyargılar ve etik hususlar
Doğruluktan öte, etik kaygılar da söz konusudur; örneğin, LLM'lerin eğitim verilerinde önyargıları sürdürme potansiyeli. Bu durum, farklı demografik gruplar için eşit olmayan bakım önerilerine yol açabilir.
Büyük dil modellerinin zorlukları hakkında daha fazla bilgi için, üretken yapay zekanın riskleri ve üretken yapay zeka etiği başlıklı yazıları okuyabilirsiniz.
Sağlık sektöründe Hukuk Yüksek Lisanslarının (LLM) geleceği
Stanford'un analizi, sağlık sektöründe yüksek lisans programları için önemli ölçüde kullanılmamış bir potansiyel olduğunu göstermektedir. 25
Pek çok LLM (Öğrenme Düzeyi Yönetimi) programı tanı koyma veya hasta iletişimi gibi görevler için kullanılırken, daha azı klinisyenlerin tükenmişliğine katkıda bulunan idari görevlere odaklanmıştır.
Gelecekte, öğrenme tabanlı öğrenme modelleri (LLM'ler) davranışlarla , daha fazla bağlamla ve duygularla etkileşime girecek şekilde gelişerek daha kişiselleştirilmiş ve empatik destek sağlayabilir hale gelebilir.
Kıyaslama metodolojisi
Kıyaslama metodolojisi : Bu kıyaslama , Amerika Birleşik Devletleri Tıp Lisanslama Sınavı'ndan (USMLE) içerik alan MedQA veri setini kullanarak, lisansüstü düzeydeki tıp soruları üzerine 9 popüler genel Hukuk Lisans Programını (LLM) değerlendirir. Her soru, klinik bir senaryo ve çoktan seçmeli cevap seçenekleri içerir.
LLM çıktıları : Her modelden yapılandırılmış bir yanıt döndürmesi istendi (örneğin, "Yanıt: C"). 26
Gecikme Süresi : Bir modelin tek bir MedQA sorusuna yanıt üretmesi için geçen ortalama süre. Örneğin, 100 sorunun tamamlanması toplam 1.115 saniye sürüyorsa, soru başına ortalama gecikme süresi 11,15 saniyedir.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.