Bize Ulaşın
Sonuç bulunamadı.

8 Yapay Zeka Kod Modeli Karşılaştırmalı Test Edildi: LMC-Eval

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 22, 2026
Bakınız etik normlar

Yapay zekâ modelleri üzerinde gerçekleştirilen görevlerin %37'sinden fazlası bilgisayar programlama ve matematikle ilgilidir. 1

Kodlama için doğru yapay zeka modelini belirlemek amacıyla, en üst düzey yapay zeka modellerini mantıksal kodlama sorularındaki performanslarını değerlendirmek üzere test ettiğimiz yeni bir kıyaslama aracı olan LMC-Eval'i sunuyoruz:

LMC-Değerlendirme sonuçları

Yaptığımız karşılaştırmalı testin sonuçları, ChatGPT-o1 ve ChatGPT-o3-mini modellerinin kodlama alanında önde gelen yapay zeka modelleri olduğunu göstermektedir.

Loading Chart

LMC-Eval Metodolojisi

LMC-Eval'de (Mantıksal Matematik Kodlama Değerlendirmesi) ileri düzey bir lise öğrencisinin çözebileceği 100 matematik problemi kullandık. Bu problemler hem mantıksal düşünme hem de kodlama becerileri gerektiriyor. Buradaki amacımız, LLM'lerin akıl yürütme ve mantıksal düşünme yeteneklerinin yanı sıra kodlama becerilerini de incelemektir. Bu, sıfır örneklemli bir kıyaslamadır; modelleri benzer sorularla eğitmedik.

Veri kümesi

Bu sorunlar şunları kapsamaktadır:

  • Temel kavramlar: değişkenler, döngüler, koşullu ifadeler
  • Veri yapıları: diziler, listeler, kümeler, haritalar
  • Algoritmalar: sıralama, arama, optimizasyon
  • Matematik kavramları: geometri, cebir, aritmetik
  • Problem çözme stratejileri: ayrıştırma, örüntü tanıma, zaman ve tarih işleme
  • Kod organizasyonu: fonksiyonlar, sınıflar, modüller

Veri setini oluştururken şu hususlara dikkat ettik:

  1. Giriş ve çıkışlarınız net olsun.
  2. Farklı programlama kavramları gerektirir.
  3. Birden fazla yaklaşımla çözülebilir.
  4. Hem matematiksel hem de mantıksal düşünme yeteneğini test eder.
  5. Kolay/orta/zor sorular sorun.

Çabuk

Siz deneyimli bir Python programcısısınız. Lütfen aşağıdaki programlama problemini çözün:

{sorun}

Lütfen herhangi bir açıklama veya Markdown biçimlendirmesi kullanmadan yalnızca Python kod çözümünü sağlayın. "İşte Python kod çözümü:" vb. ifadeler kullanmayın.

Kodun eksiksiz ve çalıştırılabilir olması gerekmektedir. Soruda belirtilen sonucu yazdırın.

Veri setimizi gizli tutacağız ve yayınlandıkça ek modelleri test edeceğiz.

Örnek soruları görmek için lütfen aşağıdaki örnekler bölümüne bakın.

Örnekler

İşte tüm modellerin doğru yanıtladığı bir soruya benzer örnek bir soru:

Clara pozitif bir tamsayı seçer ve tüm rakamlarını toplayarak yeni bir sayı oluşturur. Eğer bu yeni sayının sadece bir basamağı varsa, işlemi durdurur. Aksi takdirde, tek basamaklı bir sonuç elde edene kadar önceki adımdaki sayının rakamlarını toplamaya devam eder.

Örneğin, Clara 536'yı seçtiğinde, ilk adımda 5+3+6=14, ikinci adımda ise 1+4=5 sonucunu elde eder ve böylece işlem ikinci adımdan sonra sona erer.

Buna göre, Clara 1 ile 150 arasındaki doğal sayılardan kaç tanesini seçebilirse, bu işlem ikinci adımın sonunda sona erer?

Kodlama alanında en iyi LLM programları

Şubat 2025 itibarıyla mevcut olan en son model sürümlerini kullandık.

Test edilen modeller:

  • OpenAI o1
  • OpenAI o3-mini
  • Anthropic Claude Sonnet 3.7
  • Google Gemini 2.0 Flash
  • OpenAI GPT-4o
  • Anthropic Claude Sonnet 3.5
  • Mistral Large

Modellerin performans testleri yapılırken sıcaklık 0 olarak ayarlanmıştır.

Modellerin API fiyatlandırması hakkında detaylı bilgi edinmek için LLM fiyatlandırması sayfasını okuyabilirsiniz.

Sonraki adımlar

Yapacağız:

  • Karşılaştırma testine DeepSeek R1 ve Llama gibi daha fazla model ekleyin.
  • Her modelin çözdüğü problemleri ortadan kaldırın ve mantıksal kodlama becerilerini daha iyi test etmek için daha gelişmiş problemler kullanın.

SSS'ler

Yapay zekâ kod üretimi, kullanıcının konuşma yoluyla verdiği komutlara dayanarak kod oluşturmak için yapay zekâ (YZ) ve makine öğreniminin (ML) kullanılmasıdır.
Kod, genel en iyi uygulamalara, kurumsal yönetişime ve hatta istenen kodun doğal dil açıklamasına dayanarak oluşturulabilir. Geliştiriciler, örneğin projeleri için ihtiyaç duydukları Python kodunu daha hızlı oluşturmak için yapay zeka araçlarını kullanabilirler.
Günümüzde yapay zeka modelleri, özellikle web geliştirme olmak üzere kodlama görevlerinde yaygın olarak kullanılmaktadır. Bir kodla eğitildiklerinde benzer kodlar üretebilirler; buradaki amacımız ise, eğitilmedikleri yeni sorularla onları test etmektir.

Tekrarlayan görevleri otomatikleştirin ve birden fazla programlama dili için kod üretin.
Yapay zekâ destekli önerilerle kod kalitesini artırın ve hataları azaltın.
Geliştirme süreçlerini kolaylaştırın, hataları azaltın ve kod kalitesini iyileştirin.
Geliştirici verimliliğini artırın ve daha hızlı kod yazmalarına yardımcı olun.

Kod üretecinin desteklediği programlama dilleri ve çerçeveleri göz önünde bulundurun.
Kod üretecinin yüksek kaliteli kod üretme ve mevcut kodu optimize etme yeteneğini değerlendirin.
CI/CD işlem hatlarına entegre olabilen ve test senaryoları üretebilen bir yapay zeka aracı arayın.
Kullanıcı dostu bir arayüz ve çeşitli geliştirme görevleri için özelleştirilebilir ayarlar sunan bir kod oluşturucu seçin.

Evet, yapabilirler.
– Python, JavaScript, Java, C++, PHP ve daha birçok programlama dilini kullanarak kod üretin.
– Daha iyi performans için kod parçacıkları oluşturun ve mevcut kodu optimize edin.
– Kod önerilerinde bulunmak ve kodun tamamlanmasına yardımcı olmak.
– CI/CD işlem hatlarıyla entegre olun ve test senaryoları oluşturun.

Yüksek kaliteli kod üretmek için net ve özlü komutlar kullanın; komutlarda birden fazla dil kullanabilirsiniz.
Kod oluşturma ayarlarını projenizin ihtiyaçlarına göre özelleştirin.
Doğruluk ve kaliteyi sağlamak için oluşturulan kodu gözden geçirin ve test edin.
Yapay zekâ kod oluşturma araçlarını insan gözetimi ve incelemesiyle birlikte kullanın.
Yapay zeka kod üreticisi tarafından oluşturulan kodu kullanmadan önce optimize edin.
Performansı artırmak için, tüm projeler yerine kod blokları yazmalarını sağlamaya çalışın.
Github Copilot ve Cursor gibi yapay zeka destekli kod yazma asistanlarından birini seçebilirsiniz.

Yapay zekâ tarafından üretilen kod, teknik borca ve kod kalitesinin düşmesine yol açabilir.
Yapay zekâ kod üretimiyle birlikte kod tekrarı ve kod yeniden kullanımının azalması gibi durumlar ortaya çıkabilir.
LLM kodlama araçları, insan tarafından yazılan kodun bağlamını ve inceliklerini her zaman anlayamayabilir.
Yapay zekâ kod üretimine aşırı güvenmek, insan uzmanlığı ve denetiminin eksikliğine yol açabilir.

Daha fazla okuma

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle
Araştıran
Şevval Alper
Şevval Alper
Yapay Zeka Araştırmacısı
Şevval, AIMultiple'da yapay zeka kodlama araçları, yapay zeka ajanları ve kuantum teknolojileri konusunda uzmanlaşmış bir sektör analistidir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450