Sağlık Hizmetlerinde 9 Büyük Dil Modelini Karşılaştırın

Güncellenme tarihi: 21 May 2026

USMLE sorularından türetilen lisansüstü düzeyde bir klinik sınav benchmark'ı olan MedQA dataset'ini kullanarak 9 LLM'leri benchmark'a tabi tuttuk. Her model, doğruluğun doğrudan karşılaştırılmasını sağlamak için standartlaştırılmış bir prompt kullanarak aynı çoktan seçmeli klinik senaryoları yanıtladı.

Ayrıca, toplam çalışma süresini tamamlanan MedQA maddelerinin sayısına bölerek soru başına gecikme süresini kaydettik.

Sağlık Hizmetleri LLM'leri benchmark sonuçları

Loading Chart

Benchmark metodolojisi: Bu benchmark, sağlık hizmetleri LLM'lerinin denetimli fine-tuning performansını genel amaçlı büyük modellere (GPT-4) karşı tıbbi soru-cevaplama görevlerinde değerlendirir. benchmark veri kaynaklarına bakın.

MedQA: Amerika Birleşik Devletleri Tıbbi Lisanslama Sınavı'na dayalı çoktan seçmeli tıbbi sınav soruları.

Şekil 1: USMLE tarzı çoktan seçmeli klinik soru örneği.

MedMCQA: Gerçek dünyadaki tıbbi giriş sınavı sorularını ele almak için tasarlanmış büyük ölçekli, Çoktan Seçmeli Soru Cevaplama (MCQA) dataset'i.

Modelin doğru cevabı seçmesini ve klinik bulgularla ilgili ilişkili açıklamaları yorumlamasını gerektiren büyük ölçekli bir tıbbi giriş sınavı çoktan seçmeli sorusu.

Şekil 2: Modelin doğru cevabı seçmesini ve klinik bulgularla ilgili ilişkili açıklamaları yorumlamasını gerektiren büyük ölçekli bir tıbbi giriş sınavı çoktan seçmeli sorusu.

PubMedQA: evet/hayır/belki cevaplarını kullanan biyomedikal soru-cevaplama benchmark'ı.

Modelin, sağlanan çalışma bağlamını kullanarak klinik bir iddianın doğruluğunu yargılaması gereken biyomedikal bir evet/hayır/belki sorusu.

Şekil 3: Modelin, sağlanan çalışma bağlamını kullanarak klinik bir iddianın doğruluğunu yargılaması gereken biyomedikal bir evet/hayır/belki sorusu.

Sağlık Hizmetleri LLM örnekleri

BERT-benzeri (Yalnızca Kodlayıcı)

Biyomedikal metinlerin kodlanması ve temsil edilmesi için optimize edilen bu modeller, sınıflandırma gibi görevler için özellik çıkarma konusunda mükemmeldir.

Model	Geliştirici	Yıl	Parametreler (Milyar)	Açık Kaynak
BioLinkBERT	—	2022	0.34	✅
MedBERT	Stanford Üniversitesi	2021	0.017	✅
Health Acoustic Representations (HeAR)	Google	2024	0.31	❌

ChatGPT / LLaMA-benzeri (Kod çözücü, talimat/sohbet ayarlı)

LLaMA tarzı mimarilere dayalı ve etkileşimli görevler ile klinik diyaloglar için optimize edilmiştir.

Model	Geliştirici	Yıl	Parametreler (Milyar)	Açık Kaynak
Polaris 3.0	Hippocratic AI	2025	4200	❌
MEDITRON-70B	EPFL (İsviçre AI Lab)	2023	70	✅
Me-LLaMA	PhysioNet (çok kurumlu)	2024	70	✅
OpenBioLLM	–	2024	70	✅
Radiology-Llama2	Meta	2023	70	✅
PMC-LLaMA	Shanghai AI Lab & SJTU	2024	13	✅
ChatDoctor	UT Southwestern & iş birlikçileri	2023	13	✅
Asclepius	KAIST & Yonsei Üniv.	2023	13	✅
MedAlpaca	Münih Teknik Üniversitesi	2023	13	✅
Clinical Camel	Toronto Üniversitesi (Vector Institute)	2023	13	✅

GPT / PaLM-benzeri (Yalnızca Kod çözücü, üretken)

GPT-3 veya PaLM'a benzer şekilde oluşturulan bu modeller, genel amaçlı metin üretimi ve özetleme için fine-tune edilmiştir.

Model	Geliştirici	Yıl	Parametreler (Milyar)	Açık Kaynak
Med-PaLM 2	Google	2023	340	❌
BioMedLM	Stanford CRFM (MosaicML)	2022	2.7	✅
PubMedGPT	Stanford CRFM	2023	2.7	✅
BioGPT	Microsoft Research	2022	0.35	✅

Sağlık hizmetlerinde genel amaçlı LLM'ler

*405B parametreli Llama 3.1 Instruct Turbo. benchmark metodolojisine bakın.

Temel çıkarımlar:

o1: En iyi performans gösteren model
03 mini: En iyi bütçe seçeneği
GPT 4.1: En iyi hız ve yanıt süresi

Doğruluk ve giriş maliyetinin ötesinde, modeller tıbbi soru cevaplamaya yönelik temel yaklaşımlarında da farklılık gösterir. Örneğin, o3 daha adım adım, analitik bir yaklaşım kullanırken, GPT-5 empatik yanıtlar verir, bilgileri düzenler ve uzman olmayanlar için net bir şekilde açıklar:

Şekil 4: GPT-5 ve o3 yanıtları arasındaki farkları gösteren şekil.

Tıbbi LLM'lerin fine-tuning'i

Varsayılan ChatGPT'nin (4o modeli) performansı, mevcut 'Klinik Tıp El Kitabı' asistanı ile karşılaştırılmıştır. Her iki modele de aynı prompt verilmiş ve yanıtları analiz edilmiştir:

GPT 4o

Şekil 5: Şekil, GPT 4o varsayılan modelinin cevabının doğru olduğunu ancak oldukça özetlendiğini göstermektedir.¹

Fine-tune edilmiş tıbbi LLM

Uzmanlaşmış ajandan gelen cevap daha iyi açıklanmış ve detaylandırılmıştır.

Şekil 6: Şekil, uzmanlaşmış ajandan gelen cevabın daha iyi açıklandığını ve detaylandırıldığını göstermektedir.²

Daha fazlası için LLM fine-tuning ve LLM eğitimi yazılarını okuyun.

Genel amaçlı LLM'lerin uygulamaları

Model	Sağlık hizmetleri kullanım durumu örneği	Kullanılan yöntem
GPT-5	Hasta vakalarını kullanarak diyabet teşhis desteği³	RAG (Retrieval-Augmented Generation)
GPT‑4	Klinik karar desteği için sağlık notlarından hasta geçmişlerini özetleme⁴	RAG (Retrieval-Augmented Generation)
Claude 3	Onkoloji kurulu simülasyonlarında baş ve boyun kanseri teşhisi ve tedavi planlaması⁵	RAG + Prompt Engineering
Qwen 3	Tıbbi görev akıl yürütme görevleri ⁶	Sürekli ön eğitim + Fine-tuning
Command R+	Klinik Soru-Cevap ve literatür taraması için geri çağırma destekli pipeline'lar⁷	RAG (Retrieval-Augmented Generation)
LLaMA 3	Hastane taburcu özet üretimi ve soru cevaplama verileri⁸	Sürekli ön eğitim + Fine-tuning

Bu modeller, klinik görevleri doğru bir şekilde yerine getirmek için alan adaptasyonu gerektiren genel fine-tune edilmiş modellerdir. Bu modelleri sağlık hizmetlerinde şunlardan yararlanarak kullanabilirsiniz:

Tıbbi veriler üzerinde sürekli ön eğitim, modelin klinik notlar ve biyomedikal literatüre (PubMed gibi) maruz kalarak tıbbi dili daha iyi tanımlamasına yardımcı olur.
RAG , çalışma anında doğru yanıtlar üretmek için doğrulanmış klinik belgelerden veri çekmek için kullanılır.
Talimat fine-tuning'i, modelin klinik soruları nasıl yanıtlayacağını veya metinden semptomları nasıl çıkaracağını öğrenmesini sağlar.

Şekil 7: Uzmanlaşmış kullanım durumları için LLM fine-tuning'inin genel iş akışı.⁹

Klinik ortamlarda LLM'lerin kullanım durumları

1. Tıbbi transkripsiyon

LLM'ler şunları yaparak tıbbi transkripsiyonlar oluşturmaya yardımcı olabilir:

Bir hasta ve klinisyen arasındaki doğal diyaloğu dinlemek.
Kritik tıbbi detayları çıkarmak.
Tıbbi verileri, bir EHR'nin ilgili bölümleriyle uyumlu, mevzuata uygun tıbbi kayıtlara dönüştürmek.

Gerçek hayat örneği: Google’ın MedLM'i, hasta-klinisyen konuşmasını yakalayabilir ve tıbbi transkripsiyona dönüştürebilir.¹⁰

2. Elektronik sağlık kayıtlarının (EHR) geliştirilmesi

Elektronik sağlık kayıtlarının (EHR'ler) yaygın kullanımı, etkili kullanıldığında sağlık hizmetlerini önemli ölçüde iyileştirebilecek çok büyük miktarlarda hasta verisi üretmiştir.

Örneğin, EHR verilerinin analizi; teşhislerde, tedavilerde ve sonuçlarda kalıpları ortaya çıkararak klinisyenlerin daha iyi kararlar vermesine yardımcı olabilir. Ayrıca, risk faktörlerini belirleyerek ve tedavileri bireysel hastalara göre uyarlayarak daha erken hastalık tespitini ve daha kişiselleştirilmiş bakımı destekleyebilir.

Sistem düzeyinde EHR verileri; gereksiz testleri azaltarak, bakım boşluklarını vurgulayarak ve kaliteyi artıran ve maliyetleri düşüren politikaları bilgilendirerek verimliliği artırabilir.

Gerçek hayat örneği: Google’ın MedLM'i, elektronik sağlık kayıtlarını (EHR'ler) geliştirmek için BenchSci, Accenture ve Deloitte tarafından kullanılmaktadır.

BenchSci , preklinik araştırmaların kalitesini artırmak için MedLM'i ASCEND platformuna entegre etmiştir.
Accenture , birden fazla kaynaktan gelen yapılandırılmamış verileri düzenlemek için MedLM'i kullanarak, daha önce zaman alan ve hataya açık manuel işlemleri otomatikleştirir.
Deloitte, tedavi bulmadaki sürtünmeyi en aza indirmek için MedLM ile çalışır. Sağlık planı katılımcılarının sağlayıcı alternatiflerini daha iyi anlamalarına yardımcı olan etkileşimli bir chatbot kullanırlar.¹¹

3. Klinik karar desteği

LLM'ler, klinik yargının yerini almadan, teşhis veya tedavi planlaması sırasında ilgili hususları ortaya çıkararak klinisyenlerin mevcut tıbbi kanıtlarda yer alan hastaya özgü bilgileri yorumlamasına yardımcı olur.

Gerçek hayat örneği: MedGemma (Google DeepMind), Google’ın Gemma 3 mimarisi üzerine inşa edilmiş açık ağırlıklı tıbbi modeller koleksiyonudur. Doğrudan tüketiciye yönelik bir teşhis aracı olarak işlev görmek yerine MedGemma, geliştiricilerin klinisyenlere yönelik tıbbi uygulamalar oluşturması için bir temel görevi görür.

Hem tıbbi metin hem de görüntü analizi için tasarlanan MedGemma; göğüs röntgenleri, MRI'lar ve BT taramaları dahil olmak üzere karmaşık tıbbi görüntüleri yorumlayabilir. Ayrıca, hasta notlarını özetlemek veya tıbbi kurul tarzı soruları yanıtlamak gibi klinik akıl yürütme görevlerini de destekler.

ABD kurul onaylı bir kardiyotorasik radyolog tarafından yapılan incelemeye göre, MedGemma göğüs röntgeni raporlarının %81'i, orijinal radyolog raporlarına dayananlarla benzer hasta yönetim kararlarına yol açacaktır (aşağıdaki grafiğe bakın).

Grafik, AI tarafından oluşturulan göğüs röntgeni raporlarının ve orijinal radyolog raporlarının normal, anormal ve tüm vakalarda ne sıklıkla benzer veya farklı klinik sonuçlara yol açtığını göstermektedir.

Şekil 8: Grafik, AI tarafından oluşturulan göğüs röntgeni raporlarının ve orijinal radyolog raporlarının normal, anormal ve tüm vakalarda ne sıklıkla benzer veya farklı klinik sonuçlara yol açtığını göstermektedir.¹²

Gerçek hayat örneği: Memorial Sloan Kettering Kanser Merkezi, kanıta dayalı tedavi seçenekleri önermek için hasta verilerini ve tıbbi literatürü analiz ederek onkologlara yardımcı olmak üzere IBM Watson Oncology'yi kullanmaktadır.¹³

4. Tıbbi araştırma yardımı

Tıbbi araştırmalarda, LLM'lerin temel değeri, literatür taramasını ve sentezini hızlandırma yeteneklerinde yatar.

Sadece makaleleri özetlemek yerine LLM'ler; ilgili çalışmaları belirleyerek, temel bulguları çıkararak ve birden fazla kaynaktaki içgörüleri sentezleyerek araştırmacıların hızla genişleyen biyomedikal literatüre ayak uydurmasına yardımcı olur.

Gerçek hayat örneği: John Snow’un sağlık chatbot'u, araştırmacıların ilgili bilimsel makaleleri bulmasına, temel içgörüleri çıkarmasına ve araştırma trendlerini belirlemesine yardımcı olur. Özellikle çok büyük miktardaki biyomedikal literatürde gezinmek için değerlidir.¹⁴

5. Otomatik hasta iletişimi

Sağlık hizmetlerindeki büyük dil modelleri, hastaların sorularına bilgilendirici ve şefkatli yanıtlar taslaklayabilir. Bazı örnekler şunlardır:

İlaç yönetimi ve hatırlatıcılar: Bir chatbot, hastalara diyabet ilaçlarını almaları için düzenli hatırlatıcılar sağlar ve onay ister.
Sağlık izleme ve takip bakımı: Ameliyat sonrası bir hasta, ağrı ve yara durumunu bir chatbot'a gönderir ve chatbot iyileşme sürecinin ilerleyip ilerlemediğini belirler.
Bilgilendirici ve eğitici iletişim: Bir hasta, bir chatbot'a yüksek tansiyonun nasıl yönetileceğini sorar ve chatbot beslenme ve yaşam tarzı ipuçlarıyla yanıt verir.

Gerçek hayat örneği: ChatGPT Health, kullanıcıların tıbbi kayıtlarını ve sağlık verilerini (örneğin, Apple Health veya MyFitnessPal) güvenli bir şekilde bağlamasına olanak tanır. Kullanıcılar daha sonra ChatGPT'ye kendi verileri hakkında, “Kolesterolüm nasıl seyrediyor?” veya “Son laboratuvar sonuçlarımı özetle” gibi sorular sorabilirler.¹⁵

Gerçek hayat örneği: Boston Çocuk Hastanesi, hastalara sağlıkla ilgili sorulara anında yanıtlar ve ilk konsültasyonlar sağlayan AI destekli çevrimiçi bir semptom kontrol chatbot'u olan Buoy Health'i kullanmaktadır.

Chatbot, semptomlarını analiz ederek ve bir doktora görünmeleri gerekip gerekmediği konusunda tavsiyelerde bulunarak hastaları triyaj edebilir.¹⁶

6. Öngörücü sağlık sonuçları

LLM'ler, sağlık hizmetlerinde risk sınıflandırması ve öngörüye olanak tanıyacak şekilde konumlandırılabilir. Yapılandırılmış ve yapılandırılmamış klinik verilerin analizini destekleyerek LLM'ler, yüksek riskli hastaların (örneğin hastaneye yeniden yatış) belirlenmesine yardımcı olabilir ve genellikle geleneksel öngörücü modellerle kombinasyon halinde proaktif bakım planlamasını destekleyebilir.

Gerçek hayat örneği: WVU eczacıları, yeniden yatış riskini belirlemek için öngörücü bir algoritma kullanır. Bu yaklaşım; hasta demografisini, klinik geçmişi ve sağlığın sosyoekonomik belirleyicilerini içeren elektronik sağlık kayıtlarından (EHR'ler) gelen verileri inceleyecektir.

Bu araştırmaya dayanarak, WVU eczacıları yeniden yatış riski yüksek olan hastaları belirler ve taburcu olduktan sonra onlarla takip yapması için bakım koordinatörleri atar. Bu, yeniden yatış oranlarının azaltılmasına yardımcı olabilir.¹⁷

7. Kişiselleştirilmiş tedavi planları

Tıbbi geçmişi, semptomları ve boylamsal sağlık verilerini entegre ederek LLM'ler, karmaşık hasta bilgilerini bireyselleştirilmiş bakım hususlarına dönüştürmeye yardımcı olabilir ve klinisyenler ile hastalar arasında daha kişiselleştirilmiş ve bağlama duyarlı tedavi tartışmalarını destekleyebilir.

Gerçek hayat örneği: Babylon Health’in AI chatbot'u, kullanıcının semptomlarına ve tıbbi geçmişine dayalı bireyselleştirilmiş sağlık önerileri sunar. Sorunlarını daha iyi analiz etmek için ilgili sorular sorarak ve özelleştirilmiş öneriler vererek kullanıcıları bir konuşmaya dahil eder.¹⁸

8. Tıbbi kodlama ve faturalandırma

Büyük dil modelleri, hasta kayıtlarını ve EHR'leri analiz ederek denetim süreçlerini otomatikleştirebilir.

Gerçek hayat örneği: Bir EHR sağlayıcısı olan Epic Systems, kodlama ve faturalandırmaya yardımcı olmak için yazılımına LLM'leri entegre eder. LLM'ler, hassas hasta bilgilerine erişim modellerindeki anomalileri veya kodlama ve faturalandırma uygulamalarındaki tutarsızlıkları izleyebilir.¹⁹

Gerçek hayat örneği: Sağlık Hizmetleri için Claude (Anthropic), sağlık kuruluşları, sağlayıcılar ve sigortacılar için tasarlanmış kurumsal odaklı bir platformdur. Büyük dil modellerini ICD-10 ve CMS Kapsam Veritabanı gibi profesyonel tıbbi veritabanlarına bağlayarak hastanelerin idari iş akışlarını otomatikleştirmesini sağlar. Bu iş akışları; sigorta ön onaylarını, hasta çizelgesi özetlemeyi ve hasta portalı mesajlarının triyajını içerir.²⁰

Ancak, LLM'ler tıbbi kodlama için henüz tamamen hazır değildir, ancak katkıları gelecek vaat etmektedir: Araştırmacılar, dört LLM'in (GPT-3.5, GPT-4, Gemini Pro ve Llama2-70b Chat) ne sıklıkla doğru CPT, ICD-9-CM ve ICD-10-CM kodlarını verdiğini incelemiştir.

Bulguları, iyileştirme için önemli bir fırsat olduğunu göstermektedir. Araştırmacılar, LLM'lerin genellikle yanlış bilgi ileten kodlar ürettiğini ve maksimum doğruluğun %50 olduğunu bulmuştur.²¹

9. Eğitim ve öğretim

Büyük dil modelleri ve üretken AI, klinisyenlerin ve hastaların karmaşık tıbbi kavramları daha iyi anlamalarına ve kafa karıştırıcı bilgileri netleştirmelerine yardımcı olan etkileşimli eğitim araçları olarak kullanılabilir.

Gerçek hayat kullanım durumu: Oxford Medical Simulation , sürükleyici sanal hasta simülasyonları oluşturmak için VR teknolojisiyle entegre edilmiş LLM'ler kullanır.

Bu simülasyonlar, öğrencilerin gerçek dünyada herhangi bir sonuç doğurmadan, kardiyak arrest hastasını yönetmek gibi yüksek basınçlı senaryoları deneyimlemelerine olanak tanır.

LLM'ler sanal hastaların yanıtlarını güçlendirerek onları daha gerçekçi ve öngörülemez hale getirir ve öğrencileri gerçek klinik ortamların değişkenliğine hazırlar.²²

10. İlaç keşfi ve geliştirme

LLM'ler, geliştirme döngülerini kısaltarak ve yeni bileşiklerin piyasaya sürülme maliyetini azaltarak farmasötik araştırmaları hızlandırmaktadır. Bu modeller şunları yapabilir:

Karmaşık moleküler yapıları analiz etmek ve terapötik potansiyeli olan bileşikleri işaretlemek.
Aday ilaçların etkinliğini ve güvenlik profilini laboratuvar testlerinden önce tahmin etmek.
Belirli terapötik hedeflere yönelik yeni moleküler konfigürasyonlar önermek.
Farmakokinetiği iyileştirmek ve yan etkileri azaltmak için öncü bileşikleri optimize etmek.

Özellikle farmasötik uygulamalar için oluşturulmuş LLM'lerin bir alt kümesi olan kimyasal dil modelleri, de novo ilaç tasarımında ölçülebilir sonuçlar üretmiştir. Araştırmalar, warm-started modellerin (önceden eğitilmiş biyokimyasal dil modellerinden başlatılanlar), temel yaklaşımlardan daha yüksek kaliteli bileşikler ürettiğini göstermektedir.²³

11. Radyoloji ve tıbbi görüntüleme

Hem metinleri hem de görüntüleri işleyen Multimodal LLM'ler, anormallik tespitini desteklemek ve daha kesin tanısal yorumlara katkıda bulunmak için tıbbi görüntüleri klinik verilerle birlikte inceleyebilir.

Görüntü yorumlama: Med-Flamingo ve LLaVA-Med gibi modeller, tıbbi görüntüleri klinik bir bağlamda analiz ederek radyologları göğüs röntgenleri, MRI'lar ve BT taramalarında görünen durumların erken tespitinde destekler.
Otomatik rapor üretimi: ChatCAD gibi sistemler, görüntüleme verilerinden doğrudan radyoloji raporları oluşturarak, yüksek hacimli görüntüleme departmanlarındaki en zaman alıcı görevlerden birini çözer.

12. Sağlık okuryazarlığı ve dil erişilebilirliği

Hasta bakımındaki pratik bir boşluk, klinik dil ile hastaların kendi sağlıklarını tanımlamak için kullandıkları dil arasındaki mesafedir. LLM'ler şu yollarla bu boşluğu kapatmaya yardımcı olabilir:

Tıbbi terminolojiyi ve jargonları, hastanın okuma seviyesindeki sade bir dile çevirmek.
Çok dilli bakım ortamlarında hastalar ve sağlayıcılar arasındaki dil farklılıklarını gidermek.
Tedavi seçeneklerini, test sonuçlarını ve bakım planlarını hastaların harekete geçebileceği formatlarda açıklamak.

İyileştirilmiş hasta anlayışı, daha iyi tedavi uyumu ve sonuçlarıyla ilişkilidir; bu da bunu bir iletişim uygulaması olduğu kadar bir bakım kalitesi uygulaması haline getirir.

Kıyaslamalarımızı ve veri odaklı içgörülerimizi kaçırmayın. Düğme Google'ı açar; AIMultiple'ı seçmeniz, Google arama sonuçlarında AIMultiple'ı daha sık görmek istediğinizi onaylar.

Tercih edilen kaynak olarak ekle

Sağlık hizmetlerinde LLM'lerin zorlukları

Gizlilik endişeleri

Tıbbi kullanım için uygun şekilde geliştirilmemiş, test edilmemiş veya onaylanmamış LLM tabanlı sağlık uygulamalarını kullanmak, özellikle veri gizliliği konusunda kullanıcılar için önemli riskler oluşturabilir.

Bu araçlar genellikle hassas, kullanıcı tarafından sağlanan sağlık bilgilerini işler, ancak bu verilerin nasıl saklandığı, paylaşıldığı veya uygulamaların mevcut veri koruma yasalarına ve düzenlemelerine tam olarak uyup uymadığı her zaman net değildir.²⁴

Doğruluk ve güvenilirlik

LLM'ler ayrıca, kulağa makul gelen ancak yanlış veya yanıltıcı bilgiler olan halüsinasyonlara yatkındır.

Örneğin, tıbbi bir sorgu verildiğinde, GPT-3.5, fetüs üzerindeki potansiyel zararını doğru bir şekilde açıklamasına rağmen, hamile bir hasta için yanlışlıkla tetrasiklin önermiştir.²⁵

Şekil 8: Bir ilacın yanlış önerilmesini gösteren GPT-3.5'ten bir örnek.

Genelleştirme ve uzmanlaşma

Genel tıbbi verilerle eğitilmiş bir LLM, belirli tıbbi uzmanlıklar için gereken ayrıntılı uzmanlığa sahip olmayabilir.

Önyargılar ve etik hususlar

Doğruluğun ötesinde, LLM'lerin eğitim verilerindeki önyargıları sürdürme potansiyeli gibi etik endişeler vardır. Bu, farklı demografik gruplar için eşit olmayan bakım önerileriyle sonuçlanabilir.

Büyük dil modellerinin zorlukları hakkında daha fazla ayrıntı için üretken AI'nın risklerini ve üretken AI etiğini okuyun.

Sağlık hizmetlerinde LLM'lerin geleceği

Stanford'un analizi, sağlık hizmetlerinde LLM'ler için değerlendirilmemiş önemli bir potansiyel olduğunu göstermektedir.²⁶

Birçok LLM teşhisleri artırmak veya hasta iletişimi gibi görevler için kullanılmış olsa da, klinisyen tükenmişliğine katkıda bulunan idari görevlere odaklananların sayısı daha azdır.

Gelecekte LLM'ler davranış, daha fazla bağlam ve duygular ile etkileşime girecek şekilde gelişerek daha kişiselleştirilmiş ve empatik destek sağlamalarına olanak tanıyabilir.

Sağlık hizmetlerinde büyük dil modelleri metodolojisi

Benchmark metodolojisi: Bu benchmark, içeriğini Amerika Birleşik Devletleri Tıbbi Lisanslama Sınavı'ndan (USMLE) alan MedQA dataset'ini kullanarak 9 popüler genel LLM'i lisansüstü düzeydeki tıbbi sorular üzerinde değerlendirir. Her soru bir klinik senaryo ve çoktan seçmeli cevap seçenekleri içerir.

LLM çıktıları: Her model, yapılandırılmış bir cevap (örneğin, “Cevap: C”) döndürmesi için prompt edilmiştir.²⁷

Gecikme: Bir modelin tek bir MedQA prompt'una yanıt üretmek için harcadığı ortalama süre. Örneğin, 100 sorunun tamamlanması toplam 1.115 saniye sürerse, ortalama gecikme soru başına 11,15 saniyedir.

Sağlık hizmetlerinde LLM'ler benchmark veri kaynakları

Me-LLaMA 70B sonuçları²⁸
Meditron 70B sonuçları²⁹
Med-PaLM 2 sonuçları³⁰
ChatGPT & GPT-4³¹

Bu araştırmayı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Cem Dilmegani (2026) - "Sağlık Hizmetlerinde 9 Büyük Dil Modelini Karşılaştırın". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 21 Mayıs 2026, kaynak: https://aimultiple.com/large-language-models-in-healthcare [Çevrimiçi Kaynak]

Dilmegani, C. (2026, 21 Mayıs). Sağlık Hizmetlerinde 9 Büyük Dil Modelini Karşılaştırın. AIMultiple. https://aimultiple.com/large-language-models-in-healthcare

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Sağlık Hizmetlerinde 9 Büyük Dil Modelini Karşılaştırın}},
  year   = {2026},
  month  = may,
  howpublished    = {\url{https://aimultiple.com/large-language-models-in-healthcare}},
  note   = {AIMultiple. Erişim tarihi: 21 Mayıs 2026}
}

Referans Linkleri

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

Generative Medical AI: A Journey with Fine-Tuned Language Models | by Eluney Hernandez | Medium

Medium

Google Launches A Healthcare-Focused LLM

Forbes

How doctors are using Google's new AI models for health care

CNBC

MedGemma: Our most capable open models for health AI development

Medical ChatBot | Healthcare ChatBot | Medical GPT

Introducing ChatGPT Health | OpenAI

Buoy Health - IDHA

Boston Children's Hospital

WVU pharmacists using AI to help lower patient readmission rates | WVU Today | West Virginia University

10.

Babylon's AI-enabled symptom checker added to recently acquired Higi's app | MobiHealthNews

MobiHealthNews

11.

Artificial Intelligence | Epic

12.

Healthcare | Claude by Anthropic

13.

Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying | NEJM AI

14.

Oxford Medical Simulation - Virtual Reality Healthcare Training

Oxford Medical Simulation

15.

Large Language Models in Healthcare and Medical Applications: A Review - PMC

16.

The Challenges for Regulating Medical Use of ChatGPT and Other Large Language Models - PubMed

17.

https://arxiv.org/pdf/2307.15343

18.

Large Language Models in Healthcare: Are We There Yet? | Stanford HAI

19.

https://www.vals.ai/benchmarks/medqa

20.

Medical foundation large language models for comprehensive text analysis and beyond | npj Digital Medicine

Nature Publishing Group UK

21.

[2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

22.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

23.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

24.

The Challenges for Regulating Medical Use of ChatGPT and Other Large Language Models - PubMed

25.

https://arxiv.org/pdf/2307.15343

26.

Large Language Models in Healthcare: Are We There Yet? | Stanford HAI

27.

https://www.vals.ai/benchmarks/medqa-04-15-2025

28.

Medical foundation large language models for comprehensive text analysis and beyond | npj Digital Medicine

Nature Publishing Group UK

29.

[2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

30.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

31.

[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle