Bize Ulaşın
Sonuç bulunamadı.

Makine Öğrenimi ve Yapay Zeka Modelleri için 57 Veri Kümesi

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 28, 2026
Bakınız etik normlar

Üretken yapay zeka veya diyalogsal yapay zeka çözümlerini kullanmak veya geliştirmek için verilere ihtiyaç duyulmaktadır . Piyasada bulunan mevcut veri kümelerini kullanabilir veya bir veri toplama hizmetiyle anlaşabilirsiniz.

Makine öğrenimi ve yapay zeka modellerini eğitmek ve değerlendirmek için 57 veri seti belirledik.

Büyük Dil Modelleri (LLM'ler) ve Ajan Tabanlı Yapay Zeka veri kümeleri

Veri Kümesi / Kıyaslama
Tanım
Ücretsiz / Ücretli
Son Güncelleme
MMLU (Çoklu Görev Dil Anlama)
Genel muhakeme ve akademik bilgi için ölçüt
Özgür
Devam ediyor
İnsanDeğerlendirmesi+
Üretken kod için Python kodlama performans testi
Özgür
Devam ediyor
FineWeb
Hugging Face'in LLM ön eğitimi için veri seti
Özgür
Devam ediyor
FineWeb-Edu
FineWeb'in eğitim alt kümesi
Özgür
Devam ediyor
Üstün Akıl Yürütme-SFT
Alibaba-Apsara'nın Uzun Süreli Ticaret Odaklı Akıl Yürütme Veri Kümesi
Özgür
2026
MMMU (Kapsamlı Çok Disiplinli Çok Modlu Anlayış)
Çok modlu kıyaslama (görüntü + metin mantığı)
Özgür
2025
İnsanlığın Son Sınavı (HLE)
MMLU'nun ötesindeki yeni nesil doğrusal modellemeleri test etmek için çok modlu kıyaslama
Özgür
2025
Yapay Zeka Fikir Tezgahı (2025)
Yüksek lisans öğrencilerinin yeni araştırma fikirlerini sentezleme yeteneğini test eder.
Ücretsiz (araştırma)
2025
Harvard Kamu Malı Kitaplar Veri Kümesi
Ön eğitim ve metin üretimi için 1 milyondan fazla kitap.
Özgür
2025
Generative-AI-Tools-Platforms-2025
MetaGenAI araçları ve API'leri hakkında veri
Özgür
2025

Bu kategori, gelişmiş dil ve çok modlu modellerin eğitimi ve değerlendirilmesi için tasarlanmış veri kümelerini ve kıyaslama ölçütlerini içerir. Bu veri kümeleri, modellerin akıl yürütme, metin oluşturma, soru cevaplama ve yaratıcı görevlerdeki yeteneklerini değerlendirmeye yardımcı olur.

  • MMLU ve GPQA gibi büyük dil modeli kıyaslama testleri, genel ve bilimsel muhakeme yeteneğini ölçer.
  • LAION-5B gibi çok modlu veri kümeleri , metin ve görüntüleri birleştirerek modeller eğitmek için kullanılır. Her iki formatı da işleyebilir.
  • İnsanlığın Son Sınavı ve Yapay Zeka Fikir Merkezi gibi öncü değerlendirmeler , modellerin yaratıcılığını, olgusal doğruluğunu ve karmaşık komutlara uyum sağlama yeteneğini test eder.

Yapay zeka kodlama ve yazılım mühendisliği veri kümeleri

Bu kategori, kod üretimi, anlama, hata ayıklama ve çeviri için kullanılan veri kümelerini kapsar. Bu veri kümeleri, programcılara yardımcı olan veya yazılım geliştirme görevlerini otomatikleştiren sistemlerin oluşturulmasında ve değerlendirilmesinde kullanılır.

  • The Heap ve MADE-WIC gibi veri kümeleri, kodlama doğruluğunu ve teknik borcu değerlendirmek için çok dilli ve açıklamalı kod içerir.
  • HumanEval ve APPS, kod üretim kalitesini kıyaslamak için referans çözümler içeren kodlama problemleri sunar.
  • Amazon CodeWhisperer ve GitHub Copilot gibi tescilli veri kümeleri, ticari kodlama yardımcılarını desteklemektedir.

Bu veri kümeleri, kodlama modellerinin tutarlı bir şekilde test edilmesini sağlar ve yazılımı verimli bir şekilde analiz edebilen veya üretebilen araçların oluşturulmasını destekler.

Siber güvenlik ve veri güvenliği veri kümeleri

Siber güvenlik veri kümeleri, dijital tehditleri tespit etme, sınıflandırma ve önleme konusunda bilgi sağlar. Bunlar arasında ağ trafiği kayıtları, kötü amaçlı yazılım örnekleri ve güvenlik açığı veritabanları yer alır.

  • CICIDS2017 ve TON_IoT , saldırı ve anormallik tespit sistemlerinin eğitimi için yaygın olarak kullanılmaktadır.
  • EMBER ve VirusShare veri kümeleri, model tabanlı sınıflandırma için etiketlenmiş kötü amaçlı yazılım verileri içermektedir.
  • CVE-MITRE veritabanı, bilinen yazılım güvenlik açıkları hakkında yapılandırılmış bilgiler sağlar.

Bu veri kümeleri siber güvenlik alanındaki araştırmaları ve model eğitimini destekleyerek sistemlerin gerçek saldırı modellerinden öğrenmesini ve tehdit tanımlamasını geliştirmesini sağlar.

Veri, sentetik veri ve gizlilik veri kümeleri

Bu kategori, kuruluşların veri gizliliğini ve kalitesini korurken modelleri eğitmelerine yardımcı olan açık ve sentetik veri kümelerini içerir. Sentetik veriler, kişisel veya tescilli bilgileri ifşa etmeden gerçek dünya dağılımlarını taklit eder.

  • Appen , Amazon Mechanical Turk ve Telus International gibi platformlar, denetimli öğrenme için insan tarafından oluşturulmuş veri kümeleri sağlamaktadır.
  • Hazy ve Gretel.ai, kurumsal kullanım için sentetik yapılandırılmış veri üretmektedir.
  • Kaggle Datasets ve Google Dataset Search gibi açık kaynak depoları, birden fazla alanda herkese açık veri sunmaktadır.

Bu veri kümeleri, makine öğrenimi modellerinin gizlilik standartlarına uyarken çeşitli ve temsili verilere erişebilmesini sağlar.

Alana özgü ve sektörel veri kümeleri

Alan odaklı veri kümeleri, sağlık , finans , robotik ve otonom sürüş gibi belirli sektörlerdeki uygulamalara odaklanır. Sektörle ilgili görevlerde modellerin eğitilmesi için özel, etiketlenmiş veriler sağlarlar.

Bu veri kümeleri, kuruluşların ve araştırmacıların sektör zorluklarına ve belirli veri ortamlarına uygun modeller geliştirmelerine yardımcı olur.

Makine öğrenimi veri kümeleri nedir?

Makine öğrenimi veri seti, makine öğrenimi modellerini eğitmek için özel olarak toplanmış ve hazırlanmış yapılandırılmış bir veri koleksiyonudur . Bu makine öğrenimi veri setleri, modelin kalıpları öğrenmesine, anlamlı özellikler çıkarmasına ve görülmemiş veriler üzerinde tahminlerde bulunmasına yardımcı olan örnekler görevi görür.

Göreve bağlı olarak, makine öğrenimi veri seti çeşitli veri türlerinden oluşabilir, bunlar arasında şunlar yer alabilir:

  • Metin verileri : Doğal dil işleme , duygu analizi ve makine çevirisi gibi uygulamalarda kullanılır.
  • Görüntü verileri : Genellikle bilgisayar görüşü ve evrimsel sinir ağlarında, el yazısı rakam tanıma veya çelik levha arıza tespiti gibi görevler için kullanılır.
  • Ses verileri : Konuşma tanıma veya ses sınıflandırma görevleri için.
  • Video verileri : Nesne takibi veya gerçek zamanlı video analizi için...
  • Sayısal veriler : Regresyon veya sınıflandırma görevlerinde kullanılır, bazen kütle spektrometresi verilerinden veya zaman damgası kayıtlarından gelir.

Çoğu makine öğrenimi projesi, daha sonra etiketlenen veya açıklama eklenen ham verilerle başlar. Bu etiketleme, makine öğrenimi sisteminin sınıflandırma, regresyon veya diğer tahmin görevleri için beklenen sonucu anlamasına yardımcı olur.

Açık, kamuya açık veya özel makine öğrenimi veri tabanlarından elde edilen iyi bir veri seti, model performansını önemli ölçüde artırabilir.

Makine öğrenimi için veri kümeleri neden hazırlanır?

Yüksek kaliteli veri kümeleri hazırlamak ve seçmek, yapay zeka sistemleri geliştirmenin en önemli adımlarından biridir. Birçok kuruluş, veri hazırlığının makine öğrenimi projelerinin başarısını veya başarısızlığını belirleyebileceğinin farkındadır.

Eğitim verilerinin kalitesi, modellerin gerçek dünya senaryolarına ne kadar iyi genelleme yaptığını ve belirli sorunları ne kadar doğru bir şekilde ele aldığını etkiler. Makine öğrenimi veri setinin üç temel amacı vardır:

Modeli eğitmek için

Eğitim veri seti, makineye veriler içindeki ilişkileri ve kalıpları öğretir. Bu, etiketlenmiş veya açıklama eklenmiş verilerin beslenmesini içerir ve modelin parametrelerini ayarlamasına ve benzer girdiler üzerindeki tahminlerini iyileştirmesine olanak tanır.

Model doğruluğunu ölçmek için

Eğitim tamamlandıktan sonra, modelin performansını değerlendirmek için test veri seti (veya test kümesi) kullanılır. Bu, modelin daha önce görülmemiş verileri ne kadar iyi işlediğini ve eğitim setine aşırı uyum sağlayıp sağlamadığını veya anlamlı kalıplar öğrenip öğrenmediğini belirlemeye yardımcı olur.

Modelin devreye alınmasından sonra iyileştirilmesi

Makine öğrenimi modelleri kullanıma alındıktan sonra, genellikle toplanan ek veriler kullanılarak iyileştirilir ve bu da onların yeni koşullara veya sınıflara uyum sağlamasına yardımcı olur. Doğrulama kümeleri ayrıca aşırı uyumun önlenmesine ve modelin ayarlanmasına da yardımcı olur.

Veri ortağıyla çalışmak

Veri kümelerinin hazırlanması, özellikle kapsamlı koleksiyonlar, eksik değerler veya karmaşık açıklamalar söz konusu olduğunda, kaynak yoğun bir süreç olabilir. Birçok kuruluş bu süreci veri toplama veya oluşturma hizmeti sağlayıcısı aracılığıyla yürütmektedir.

İster duygu analizi, metin sınıflandırması veya yüz bitki türünü tanımlamak gibi görüntü tabanlı görevler için makine öğrenimi veri kümelerine ihtiyacınız olsun, alana özgü veri kümeleri oluşturmak için bir veri kitle kaynak platformu veya veri bilimi hizmetlerinde uzmanlaşmış bir şirketle işbirliği yapabilirsiniz.

Bazen veriler web kazıma yoluyla toplanır veya Google Veri Kümesi Arama gibi araçlar veya açık veri girişimleri aracılığıyla erişilir.

Derin öğrenme modelleri veya bilgisayar görüş sistemleri gibi özel ihtiyaçlar için, derlenmiş kamuya açık veri kümelerine veya ücretsiz veri kümelerine güvenmek, eğitim verilerinin gerekli örnek ve sınıf aralığını kapsamasını sağlar.

Ayrıca belirli veri türlerine göre de veri ortağı seçebilirsiniz:

Makine öğrenimi veri kümelerinin türleri

Toplanan veri setinin tamamı aşağıdaki gibi üç alt kümeye ayrılmıştır:

1. Eğitim veri seti

Bu, tüm veri kümesinin en önemli alt kümelerinden biridir ve yaklaşık %60'ını oluşturur. Bu küme, modeli eğitmek için başlangıçta kullanılan verilerden oluşur. Başka bir deyişle, algoritmanın verilerde ne arayacağını öğrenmesine yardımcı olur.

Örneğin, bir araç plaka tanıma sistemi, araçların ve benzer nesnelerin plakalarının konumunu (örneğin, aracın önü veya arkası) ve veri formatını gösteren etiketler içeren görüntü verileriyle eğitilerek neyi tespit edip neyi önlemesi gerektiğini öğrenir.

Şekil 1. Plaka tespit sistemi için örnek veri seti. 1

2. Doğrulama veri seti

Bu alt küme, toplam veri setinin yaklaşık %20'sini oluşturur ve eğitim aşamasından sonra tüm model parametrelerini değerlendirmek için kullanılır. Doğrulama verileri, modeldeki eksiklikleri belirlemeye yardımcı olan bilinen verilerdir. Bu veriler ayrıca modelin aşırı uyum (overfitting) veya yetersiz uyum (underfitting) gösterip göstermediğini belirlemek için de kullanılır.

3. Test veri seti

Bu alt küme, eğitim sürecinin son aşamasında girdi olarak kullanılır ve veri kümesinin son %20'sini oluşturur. Bu alt kümedeki veriler model için bilinmezdir ve modelin doğruluğunu test etmek için kullanılır. Bu veri kümesi, modelinizin önceki iki alt kümeden ne kadar öğrendiğini gösterecektir.

Çözüm

Doğru veri setini seçmek, herhangi bir makine öğrenimi veya yapay zeka projesinde temel bir adımdır. İster insan tarafından oluşturulmuş veriler, ister makine tarafından oluşturulmuş sentetik veriler veya serbestçe erişilebilen açık veri setleri tercih edin, önemli olan veri seçiminizi projenizin özel hedefleri ve zorluklarıyla uyumlu hale getirmektir.

Yüksek kaliteli ve iyi hazırlanmış veri kümeleri, bir modelin öğrenme, genelleme ve gerçek dünya uygulamalarındaki performansının etkinliğini doğrudan etkiler.

Kuruluşlar ve uzmanlar, veri kümelerinin, eğitim, doğrulama ve test kümelerinin türlerini ve rollerini anlayarak ve mevcut veri kaynaklarının zengin ekosistemini keşfederek yapay zeka geliştirmenin karmaşıklıklarında daha iyi yol alabilirler.

Veri kalitesine, alaka düzeyine ve çeşitliliğine gösterilen özen, modellerin doğru ve değişen ihtiyaçlara uyarlanabilir olmasını sağlar.

SSS'ler

Veri bilimciler, makine öğrenimi için veri kümeleri bulmak amacıyla, demografik veriler, ekonomik ve finansal veriler ve kamuya ait devlet verileri de dahil olmak üzere çeşitli veri kümeleri sunan farklı veri depolarını inceleyebilirler. Bu derlenmiş veri kümeleri, doğal dil işleme, duygu analizi, bilgisayar görüşü ve sağlık hizmetleri gibi çeşitli uygulamaları kapsamaktadır.

Açık veri kümeleri, ücretsiz veri kümeleri ve kamuya açık veri kümeleri gibi kaynaklar, CSV dosyaları gibi çeşitli veri formatlarında yüksek kaliteli eğitim verileri, doğrulama veri kümeleri ve test veri kümeleri sağlar. Popüler kaynaklar arasında, makine öğrenimi projeleri, tahmin modelleri ve derin öğrenme algoritmaları için kapsamlı veri kümeleri koleksiyonları sunan devlet portalları, akademik kurumlar ve Uluslararası Para Fonu gibi kuruluşlar yer almaktadır.

İyi bir makine öğrenimi veri seti, doğal dil işleme, görüntü sınıflandırma veya duygu analizi gibi belirli görevler için uygun, zengin meta verilere sahip, yüksek kaliteli ve çeşitli bir veri setidir ve genellikle kamuya açık veri depolarından veya açık veri setlerinden elde edilebilir.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle
Araştıran
Sıla Ermut
Sıla Ermut
Sektör Analisti
Sıla Ermut, AIMultiple'da e-posta pazarlama ve satış videoları üzerine odaklanan bir sektör analistidir. Daha önce proje yönetimi ve danışmanlık firmalarında işe alım uzmanı olarak çalışmıştır. Sıla, Sosyal Psikoloji alanında Yüksek Lisans ve Uluslararası İlişkiler alanında Lisans derecesine sahiptir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450