Yapay zekâ modelleri üzerinde gerçekleştirilen görevlerin %37'sinden fazlası bilgisayar programlama ve matematikle ilgilidir. 1
Kodlama için doğru yapay zeka modelini belirlemek amacıyla, en üst düzey yapay zeka modellerini mantıksal kodlama sorularındaki performanslarını değerlendirmek üzere test ettiğimiz yeni bir kıyaslama aracı olan LMC-Eval'i sunuyoruz:
LMC-Değerlendirme sonuçları
Yaptığımız karşılaştırmalı testin sonuçları, ChatGPT-o1 ve ChatGPT-o3-mini modellerinin kodlama alanında önde gelen yapay zeka modelleri olduğunu göstermektedir.
LMC-Eval Metodolojisi
LMC-Eval'de (Mantıksal Matematik Kodlama Değerlendirmesi) ileri düzey bir lise öğrencisinin çözebileceği 100 matematik problemi kullandık. Bu problemler hem mantıksal düşünme hem de kodlama becerileri gerektiriyor. Buradaki amacımız, LLM'lerin akıl yürütme ve mantıksal düşünme yeteneklerinin yanı sıra kodlama becerilerini de incelemektir. Bu, sıfır örneklemli bir kıyaslamadır; modelleri benzer sorularla eğitmedik.
Veri kümesi
Bu sorunlar şunları kapsamaktadır:
- Temel kavramlar: değişkenler, döngüler, koşullu ifadeler
- Veri yapıları: diziler, listeler, kümeler, haritalar
- Algoritmalar: sıralama, arama, optimizasyon
- Matematik kavramları: geometri, cebir, aritmetik
- Problem çözme stratejileri: ayrıştırma, örüntü tanıma, zaman ve tarih işleme
- Kod organizasyonu: fonksiyonlar, sınıflar, modüller
Veri setini oluştururken şu hususlara dikkat ettik:
- Giriş ve çıkışlarınız net olsun.
- Farklı programlama kavramları gerektirir.
- Birden fazla yaklaşımla çözülebilir.
- Hem matematiksel hem de mantıksal düşünme yeteneğini test eder.
- Kolay/orta/zor sorular sorun.
Çabuk
Siz deneyimli bir Python programcısısınız. Lütfen aşağıdaki programlama problemini çözün:
{sorun}
Lütfen herhangi bir açıklama veya Markdown biçimlendirmesi kullanmadan yalnızca Python kod çözümünü sağlayın. "İşte Python kod çözümü:" vb. ifadeler kullanmayın.
Kodun eksiksiz ve çalıştırılabilir olması gerekmektedir. Soruda belirtilen sonucu yazdırın.
Veri setimizi gizli tutacağız ve yayınlandıkça ek modelleri test edeceğiz.
Örnek soruları görmek için lütfen aşağıdaki örnekler bölümüne bakın.
Örnekler
İşte tüm modellerin doğru yanıtladığı bir soruya benzer örnek bir soru:
Clara pozitif bir tamsayı seçer ve tüm rakamlarını toplayarak yeni bir sayı oluşturur. Eğer bu yeni sayının sadece bir basamağı varsa, işlemi durdurur. Aksi takdirde, tek basamaklı bir sonuç elde edene kadar önceki adımdaki sayının rakamlarını toplamaya devam eder.
Örneğin, Clara 536'yı seçtiğinde, ilk adımda 5+3+6=14, ikinci adımda ise 1+4=5 sonucunu elde eder ve böylece işlem ikinci adımdan sonra sona erer.
Buna göre, Clara 1 ile 150 arasındaki doğal sayılardan kaç tanesini seçebilirse, bu işlem ikinci adımın sonunda sona erer?
Kodlama alanında en iyi LLM programları
Şubat 2025 itibarıyla mevcut olan en son model sürümlerini kullandık.
Test edilen modeller:
- OpenAI o1
- OpenAI o3-mini
- Anthropic Claude Sonnet 3.7
- Google Gemini 2.0 Flash
- OpenAI GPT-4o
- Anthropic Claude Sonnet 3.5
- Mistral Large
Modellerin performans testleri yapılırken sıcaklık 0 olarak ayarlanmıştır.
Modellerin API fiyatlandırması hakkında detaylı bilgi edinmek için LLM fiyatlandırması sayfasını okuyabilirsiniz.
Sonraki adımlar
Yapacağız:
- Karşılaştırma testine DeepSeek R1 ve Llama gibi daha fazla model ekleyin.
- Her modelin çözdüğü problemleri ortadan kaldırın ve mantıksal kodlama becerilerini daha iyi test etmek için daha gelişmiş problemler kullanın.
SSS'ler
Yapay zekâ kod üretimi, kullanıcının konuşma yoluyla verdiği komutlara dayanarak kod oluşturmak için yapay zekâ (YZ) ve makine öğreniminin (ML) kullanılmasıdır.
Kod, genel en iyi uygulamalara, kurumsal yönetişime ve hatta istenen kodun doğal dil açıklamasına dayanarak oluşturulabilir. Geliştiriciler, örneğin projeleri için ihtiyaç duydukları Python kodunu daha hızlı oluşturmak için yapay zeka araçlarını kullanabilirler.
Günümüzde yapay zeka modelleri, özellikle web geliştirme olmak üzere kodlama görevlerinde yaygın olarak kullanılmaktadır. Bir kodla eğitildiklerinde benzer kodlar üretebilirler; buradaki amacımız ise, eğitilmedikleri yeni sorularla onları test etmektir.
Tekrarlayan görevleri otomatikleştirin ve birden fazla programlama dili için kod üretin.
Yapay zekâ destekli önerilerle kod kalitesini artırın ve hataları azaltın.
Geliştirme süreçlerini kolaylaştırın, hataları azaltın ve kod kalitesini iyileştirin.
Geliştirici verimliliğini artırın ve daha hızlı kod yazmalarına yardımcı olun.
Kod üretecinin desteklediği programlama dilleri ve çerçeveleri göz önünde bulundurun.
Kod üretecinin yüksek kaliteli kod üretme ve mevcut kodu optimize etme yeteneğini değerlendirin.
CI/CD işlem hatlarına entegre olabilen ve test senaryoları üretebilen bir yapay zeka aracı arayın.
Kullanıcı dostu bir arayüz ve çeşitli geliştirme görevleri için özelleştirilebilir ayarlar sunan bir kod oluşturucu seçin.
Evet, yapabilirler.
– Python, JavaScript, Java, C++, PHP ve daha birçok programlama dilini kullanarak kod üretin.
– Daha iyi performans için kod parçacıkları oluşturun ve mevcut kodu optimize edin.
– Kod önerilerinde bulunmak ve kodun tamamlanmasına yardımcı olmak.
– CI/CD işlem hatlarıyla entegre olun ve test senaryoları oluşturun.
Yüksek kaliteli kod üretmek için net ve özlü komutlar kullanın; komutlarda birden fazla dil kullanabilirsiniz.
Kod oluşturma ayarlarını projenizin ihtiyaçlarına göre özelleştirin.
Doğruluk ve kaliteyi sağlamak için oluşturulan kodu gözden geçirin ve test edin.
Yapay zekâ kod oluşturma araçlarını insan gözetimi ve incelemesiyle birlikte kullanın.
Yapay zeka kod üreticisi tarafından oluşturulan kodu kullanmadan önce optimize edin.
Performansı artırmak için, tüm projeler yerine kod blokları yazmalarını sağlamaya çalışın.
Github Copilot ve Cursor gibi yapay zeka destekli kod yazma asistanlarından birini seçebilirsiniz.
Yapay zekâ tarafından üretilen kod, teknik borca ve kod kalitesinin düşmesine yol açabilir.
Yapay zekâ kod üretimiyle birlikte kod tekrarı ve kod yeniden kullanımının azalması gibi durumlar ortaya çıkabilir.
LLM kodlama araçları, insan tarafından yazılan kodun bağlamını ve inceliklerini her zaman anlayamayabilir.
Yapay zekâ kod üretimine aşırı güvenmek, insan uzmanlığı ve denetiminin eksikliğine yol açabilir.
Daha fazla okuma
- Yapay Zeka Kod Asistanı Performans Testi
- Agentic AI Kod Düzenleyici Performans Testi: Windsurf vs Cursor vs Replit
- Yapay Zeka Ajanları Kıyaslama Testi
- Yapay Zeka Halüsinasyon Kıyaslaması
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.