Açık Dünya Değerlendirmesi

ML ve AI Modelleri İçin 57 Veri Seti

ile

Güncellenme tarihi: 10 Haz 2026

Veri, konuşma tabanlı AI çözümlerini kullanmak veya oluşturmak için gereklidir. Piyasada mevcut olan mevcut veri setlerini kullanabilir veya bir veri toplama hizmeti kiralayabilirsiniz.

Machine learning ve AI modellerini eğitmek ve değerlendirmek için 57 veri seti belirledik.

Büyük Dil Modelleri (LLM'ler) ve Ajan Tabanlı AI veri setleri

Veri Seti / Benchmark	Açıklama	Ücretsiz / Ücretli	Son Güncelleme
MMLU (Massive Multitask Language Understanding)	Genel akıl yürütme ve akademik bilgi için benchmark	Ücretsiz	Devam Ediyor
HumanEval+	Üretken kod için Python kodlama benchmark'ı	Ücretsiz	Devam Ediyor
FineWeb	Hugging Face'in LLM ön eğitimi için veri seti	Ücretsiz	Devam Ediyor
FineWeb-Edu	FineWeb'in eğitim alt kümesi	Ücretsiz	Devam Ediyor
Superior-Reasoning-SFT	Alibaba-Apsara'nın Long-CoT akıl yürütme veri seti	Ücretsiz	2026
MMMU (Massive Multi-disciplinary Multimodal Understanding)	Çok modlu benchmark (görsel + metin akıl yürütme)	Ücretsiz	2025
Humanity's Last Exam (HLE)	MMLU ötesindeki sınır LLM'leri test etmek için çok modlu benchmark	Ücretsiz	2025
AI Idea Bench (2025)	LLM'lerin yeni araştırma fikirlerini sentezleme yeteneğini test eder	Ücretsiz (araştırma)	2025
Harvard Public Domain Books Dataset	Ön eğitim ve metin üretimi için 1M+ kitap	Ücretsiz	2025
Generative-AI-Tools-Platforms-2025	GenAI araçları ve API'ler hakkında meta veri	Ücretsiz	2025

Bu kategori, gelişmiş eğitim ve değerlendirmesi için tasarlanmış veri setlerini ve benchmark'ları içerir dil ve çok modlu modeller. Bu veri setleri, modellerin akıl yürütme, metin üretimi, soru-cevap ve yaratıcı görevlerdeki yeteneklerini değerlendirmeye yardımcı olur.

Büyük dil modeli benchmark'ları gibi MMLU ve GPQA, genel ve bilimsel akıl yürütmeyi ölçer.
Çok modlu veri setleri, LAION-5B gibi, hem metin hem de görselleri birleştirerek her iki formatı da işleyebilen modeller eğitir.
Sınır değerlendirmeleri, örneğin Humanity's Last Exam ve AI Idea Bench, modellerin yaratıcılığını, gerçek doğruluğunu ve karmaşık prompt'lara uyumunu test eder.

AI kodlama ve yazılım mühendisliği veri setleri

Veri Seti	Açıklama	Ücretsiz / Ücretli	Son Güncelleme
CodeNet (IBM)	50+ dilde 14M kod örneği	Ücretsiz	Devam Ediyor
HumanEval	Kod üretimi değerlendirme benchmark'ı	Ücretsiz	Devam Ediyor
APPS (Code Problems Dataset)	Programlama problem-çözüm çiftleri	Ücretsiz	Devam Ediyor
CodeSearchNet	Kod + dokümantasyon veri seti	Ücretsiz	Devam Ediyor
Terminal-Bench	AI ajanları için CLI/terminal görevleri	Ücretsiz	2026
The Heap (2025)	Çok dilli kirlenme-ücretsiz kod veri seti	Ücretsiz	2025
Amazon CodeWhisperer Dataset	Tescilli kod öneri veri seti	Ücretli	2025
GitHub Copilot Telemetry Data	Tescilli; fine-tuning için dahili olarak kullanılır	Ücretli / Kapalı	2025
The Stack v2	619 dilden kaynak kod (GitHub PR'ları, Jupyter not defterleri, dokümantasyon)	Ücretsiz	2024
StarCoder2 Training Corpus	The Stack v2'den derlenen token'lar	Ücretsiz	2024

Bu kategori, kod üretimi, anlama, hata ayıklama ve çeviri için veri setlerini kapsar. Programcıları destekleyen veya yazılım geliştirme görevlerini otomatikleştiren sistemleri oluşturmak ve değerlendirmek için kullanılırlar.

The Heap ve MADE-WIC gibi veri setleri, kodlama doğruluğunu ve teknik borcu değerlendirmek için çok dilli ve işaretlenmiş kod içerir.
HumanEval ve APPS, kod üretimi kalitesini benchmarklamak için referans çözümleri olan kodlama problemleri sağlar.
Tescilli veri setleri, örneğin Amazon CodeWhisperer ve GitHub Copilot'tan olanlar, ticari kodlama asistanlarını destekler.

Bu veri setleri, kodlama modellerinin tutarlı test edilmesini sağlar ve verimli bir şekilde analiz edebilen veya üretebilen araçların oluşturulmasını destekler.

Siber güvenlik ve veri güvenliği veri setleri

Veri Seti	Açıklama	Ücretsiz / Ücretli	Son Güncelleme
VirusShare / VirusTotal	Kötü amaçlı yazılım ikili dosyaları ve meta verileri	Freemium / Ücretli	Devam Ediyor
CVE-MITRE Database	Halka açık güvenlik açığı ve exploit meta verileri	Ücretsiz	Devam Ediyor
CIC-IIoT-2025 (DataSense)	Sensör tabanlı benchmark veri seti	Ücretsiz	2025
Adversarial ML Threat Dataset (AdvBench)	Sentetik saldırılar (zehirleme, kaçınma)	Ücretsiz	2025
Defender AI Logs (Microsoft)	Kurumsal AI için güvenlik izleme verileri	Ücretli	2025
OWASP Top 10 for LLM's 2025	GenAI güvenliği için kılavuzlar/taksonomi	Ücretsiz	2024
CICIDS2017	Ağ saldırısı tespit veri seti	Ücretsiz	2024
TON_IoT	IoT güvenlik veri seti (ağ + izleme logları)	Ücretsiz	2024
EMBER	Statik analiz için kötü amaçlı yazılım özellik veri seti	Ücretsiz	2023
MalNet	Android kötü amaçlı yazılım fonksiyon çağrı grafikleri	Ücretsiz	2021

Siber güvenlik veri setleri, dijital tehditleri tespit etmek, sınıflandırmak ve önlemek için bilgi sağlar. Ağ trafiği logları, kötü amaçlı yazılım örnekleri ve güvenlik açığı veritabanlarını içerirler.

CICIDS2017 ve TON_IoT, saldırı ve anormallik tespit sistemlerini eğitmek için yaygın olarak kullanılır.
EMBER ve VirusShare veri setleri, model tabanlı sınıflandırma için etiketlenmiş kötü amaçlı yazılım verileri içerir.
CVE-MITRE veritabanı, bilinen yazılım güvenlik açıkları hakkında yapılandırılmış bilgi sağlar.

Bu veri setleri, siber güvenlik alanında araştırma ve model eğitimini destekler, böylece sistemler gerçek saldırı kalıplarından öğrenerek tehdit tanımlamasını iyileştirebilir.

Veri, sentetik veri ve gizlilik veri setleri

Veri Seti / Platform	Açıklama	Ücretsiz / Ücretli	Son Güncelleme
Kaggle Datasets	Çeşitli alanlarda açık veri	Ücretsiz	Devam Ediyor
Google Dataset Search	Açık veri setleri için arama motoru	Ücretsiz	Devam Ediyor
Data.gov / Data.gov.uk / EU Open Data Portal	Hükümet veri depoları	Ücretsiz	Devam Ediyor
Mostly AI / Gretel.ai	Sentetik veri platformları	Ücretli	2025
GitHub Datasets List	Karışık alan veri setleri kütüphanesi	Ücretsiz ve Ücretli	2025
Appen	ML için insan tarafından oluşturulan veri setleri	Ücretli	2025
Telus International	İnsan + sentetik veri seti sağlayıcısı	Ücretli	2024
Prolific	Araştırma için insan yanıt verisi	Ücretli	2024
LXT	Kalabalık kaynaklı veri toplama	Ücretli	2024
Hazy (Synthetic Data)	Kurumlar için sentetik yapılandırılmış veri	Ücretli	2024

Bu kategori, kuruluşların veri gizliliğini ve kalitesini koruyarak modeller eğitmesine yardımcı olan açık ve sentetik veri setlerini içerir. Sentetik veri, kişisel veya tescilli bilgileri ortaya çıkarmadan gerçek dünya dağılımlarını yeniden üretir.

Appen, Amazon Mechanical Turk, ve Telus International gibi platformlar, denetimli öğrenme için insan tarafından oluşturulan veri setleri sağlar.
Hazy ve Gretel.ai, kurumsal kullanım için sentetik yapılandırılmış veri üretir.
Kaggle Datasets ve Google Dataset Search gibi açık depolar, birden fazla alanda halka açık erişilebilir veri sağlar.

Bu veri setleri, makine öğrenimi modellerinin gizlilik standartlarına uyarken çeşitli, temsilci verilere erişimini sağlar.

Ekibimiz, iş süreçlerinizden birini yapay zeka ajanlarıyla ücretsiz olarak otomatikleştirsin.

Bir süreci otomatikleştir

Alan özelinde ve sektör veri setleri

Alan	Veri Seti	Açıklama	Ücretsiz / Ücretli	Son Güncelleme
Sağlık	MIMIC-IV	Yoğun bakım hasta kayıtları (kimliği gizlenmiş)	Ücretsiz (sadece araştırma)	Devam Ediyor
Sağlık	PhysioNet	Biyomedikal sinyaller ve fizyolojik veriler	Ücretsiz	Devam Ediyor
Sağlık	HealthData.gov	ABD hükümeti sağlık veri setleri	Ücretsiz	Devam Ediyor
Otonom Sürüş	Waymo Open Dataset	Etiketli video / LiDAR verileri	Ücretsiz (ticari olmayan)	Devam Ediyor
Otonom Sürüş	ApolloScape / KITTI / nuScenes	Yol sahnesi algılama	Ücretsiz	Devam Ediyor
Finans / Ekonomi	Dünya Bankası / IMF / OECD Açık Veri	Makroekonomik zaman serileri	Ücretsiz	Devam Ediyor
Eğitim / Dil	Common Voice	Kalabalık kaynaklı konuşma verisi	Ücretsiz	Devam Ediyor
Müzik / Ses	Free Music Archive (FMA)	Müzik parçaları + meta veriler	Ücretsiz	Devam Ediyor
İklim / Sürdürülebilirlik	NASA EarthData / Copernicus	İklim görüntüleri, çevresel metrikler	Ücretsiz	Devam Ediyor
Robotik	10Kh-RealOmin-OpenData	GenRobot AI'nın iki elle manipülasyon içeren embodied AI veri seti	Ücretsiz	2026

Alan özelinde veri setleri, sağlık, finans, robotik ve otonom sürüş gibi belirli sektörlerdeki uygulamalara odaklanır. Endüstri ile ilgili görevlerde modeller eğitmek için uzmanlaşmış, etiketlenmiş veri sağlarlar.

MIMIC-IV ve PhysioNet, tıbbi araştırma ve sağlık analitiği'ni destekler.
Waymo Open Dataset ve KITTI, bilgisayarlı görü için otonom araçlarda kullanılır.
Dünya Bankası Açık Veri ve OECD veri setleri, ekonomik ve finansal göstergeler sağlar.
Common Voice ve Free Music Archive, ses ve dil modeli geliştirme sürecini destekler.

Bu veri setleri, kuruluşların ve araştırmacıların endüstri zorluklarına ve belirli veri ortamlarına uygun modeller geliştirmelerine yardımcı olur.

ML veri setleri nedir?

Bir makine öğrenimi veri seti, makine öğrenimi modellerini eğitmek için özel olarak toplanmış ve hazırlanmış yapılandırılmış bir veri koleksiyonudur. ML için bu veri setleri, modelin kalıpları öğrenmesine, anlamlı özellikler çıkarmasına ve görmediği verilerde tahminler yapmasına yardımcı olan örnekler olarak hizmet eder.

Göreve bağlı olarak, makine öğrenimi veri seti aşağıdakiler dahil çeşitli veri türlerinden oluşabilir:

Metin verisi: doğal dil işleme, duygu analizi ve makine çevirisi gibi uygulamalarda kullanılır.
Görsel veri: El yazısı rakamlar tanıma veya çelik plaka hataları tespiti gibi görevler için bilgisayarlı görü ve konvolüsyonel sinir ağlarında yaygın olarak kullanılır.
Ses verisi: konuşma tanıma veya ses sınıflandırma görevleri için.
Video verisi: Nesne takibi veya gerçek zamanlı video analizi için
Sayısal veri: Regresyon veya sınıflandırma görevlerinde kullanılır, bazen kütle spektrometresi verilerinden veya zaman damgası loglarından gelir.

Çoğu makine öğrenimi projesi, ham veri ile başlar, daha sonra etiketlenir veya işaretlenir. Bu etiketleme, makine öğrenimi sisteminin sınıflandırma, regresyon veya diğer tahmin görevleri için beklenen sonucu anlamasına yardımcı olur.

Açık, halka açık veya özel makine öğrenimi depolarından sıkça kaynaklanan iyi bir veri seti, model performansını önemli ölçüde artırabilir.

Makine öğrenimi için veri setleri neden hazırlanır?

Yüksek kaliteli veri setlerini hazırlamak ve seçmek, yapay zeka sistemleri geliştirmedeki en kritik adımlardan biridir. Birçok kuruluş, veri hazırlamanın makine öğrenimi projelerini başarısız veya başarılı kabileceğini kabul eder.

Eğitim verisinin kalitesi, modellerin gerçek dünya senaryolarına ne kadar iyi genelleştirdiğini ve belirli sorunları ne kadar doğru ele aldığını etkiler. Bir makine öğrenimi veri setinin üç temel amacı vardır:

Modeli eğitmek için

Eğitim seti, makineye veri içindeki ilişkileri ve kalıpları öğretir. Bu, modelin parametrelerini ayarlamasına ve benzer girdilerdeki tahminlerini iyileştirmesine olanak tanıyan etiketlenmiş veya işaretlenmiş veri beslenmesini içerir.

Modelin doğruluğunu ölçmek için

Eğitimden sonra, test veri seti (veya test seti), modelin performansını değerlendirmek için kullanılır. Bu, modelin görmediği verileri ne kadar iyi ele aldığını ve eğitim setine aşırı uyum sağladığını mı yoksa anlamlı kalıpları mı öğrendiğini belirlemeye yardımcı olur.

Dağıtımdan sonra modeli iyileştirmek için

Bir kez dağıtıldığında, makine öğrenimi modelleri genellikle ek toplanan veriler kullanılarak rafine edilir, böylece yeni koşullara veya sınıflara uyum sağlamalarına yardımcı olur. Doğrulama setleri ayrıca ayarlamaya ve aşırı uyum sağlamayı önlemeye yardımcı olur.

Google Arama'da daha fazla kıyaslamamızı ve veri odaklı içgörülerimizi görün.

Tercih edilen kaynak olarak ekle

Bir veri ortağı ile çalışmak

Veri setlerini hazırlamak, özellikle kapsamlı koleksiyonlar, eksik değerler veya karmaşık işaretlemelerle uğraşırken kaynak yoğun olabilir. Birçok kuruluş bu süreci bir veri toplama veya üretim hizmet sağlayıcısı ile yönetir.

Duygu analizi, metin sınıflandırma veya yüz bitki türünü tanımlama gibi görüntü tabanlı görevler için makine öğrenimi veri setlerine ihtiyacınız olsun ya da olmasın, veri kalabalık kaynak platformu veya veri bilimi hizmetlerinde uzmanlaşmış bir şirket ile iş birliği yapabilirsiniz.

Bazen veri, web kazıma yoluyla toplanır veya Google Dataset Search veya açık veri girişimleri gibi araçlar aracılığıyla erişilir.

Derin öğrenme modelleri veya bilgisayarlı görü sistemleri için veri setleri gibi özel ihtiyaçlar için, eğitilmiş halka açık veri setlerine veya ücretsiz veri setlerine güvenmek, eğitim verisinin gerekli örnek ve sınıf aralığını kapsadığından emin olur.

Ayrıca belirli veri türlerine göre bir veri ortağı seçebilirsiniz:

ML veri seti türleri

Toplanan tüm veri seti aşağıdaki gibi üç alt küme olarak ayrılır:

1. Eğitim veri seti

ML için veri setleri ayrımı: eğitim seti %60'tır

Bu, tüm veri setinin en önemli alt kümelerinden biridir ve yaklaşık %60'ını oluşturur. Bu set, modeli eğitmek için başlangıçta kullanılan verilerden oluşur. Başka bir deyişle, algoritmanın veride ne araması gerektiğini öğretmeye yardımcı olur.

Örneğin, bir araç plakası tanıma sistemi, araç plakalarının ve benzeri nesnelerin konumunu (örn. aracın önü veya arkası) ve veri formatını belirten etiketlere sahip görsel verilerle eğitilecek ve neyi tespit edeceğini ve neyden kaçınacağını öğrenmek için.

Şekil 1. Bir araç plakası tespit sistemi için örnek veri seti.¹

2. Doğrulama veri seti

ML için veri setleri ayrımı: doğrulama seti %20'dir

Bu alt küme, toplam veri setinin yaklaşık %20'sidir ve eğitim aşamasından sonra tüm model parametrelerini değerlendirmek için kullanılır. Doğrulama verisi, modeldeki eksiklikleri belirlemeye yardımcı olan bilinen veridir. Bu veri ayrıca modelin aşırı uyum sağladığını mı yoksa yetersiz uyum sağladığını mı belirlemek için de kullanılır.

3. Test veri seti

ML için veri setleri ayrımı: test seti %20'dir

Bu alt küme, eğitim sürecinin son aşamasında girilir ve veri setinin son %20'sini oluşturur. Bu alt kümedeki veri model için bilinmeyen ve modelin doğruluğunu test etmek için kullanılır. Bu veri seti, modelinizin önceki iki alt kümeden ne kadar öğrendiğini gösterecektir.

Sonuç

Doğru veri setini seçmek, herhangi bir makine öğrenimi veya AI projesinde temel bir adımdır. İnsan tarafından oluşturulan veriyi, makine tarafından oluşturulan sentetik veriyi veya ücretsiz olarak mevcut açık veri setlerini seçseniz de, anahtar, veri seçiminizi projenizin belirli hedefleri ve zorluklarıyla hizalamaktır.

Yüksek kaliteli ve iyi hazırlanmış veri setleri, bir modelin gerçek dünya uygulamalarında ne kadar etkili öğrendiğini, genelleştirdiğini ve performans gösterdiğini doğrudan etkiler.

Kuruluşlar ve uygulayıcılar, veri setlerinin türlerini ve rollerini, eğitim, doğrulama ve test setlerini anlayarak ve mevcut veri kaynaklarının zengin ekosistemini keşfederek AI geliştirme karmaşıklıklarında daha iyi yol alabilirler.

Veri kalitesine, alakalılığa ve çeşitliliğe dikkat etmek, modellerin doğru ve değişen ihtiyaçlara uyum sağlayabilir olmasını sağlar.

SSS'ler

Makine öğrenimi için veri setleri bulmak için veri bilimcileri, demografik veri, ekonomik ve finansal veri ve halka açık hükümet verisi dahil olmak üzere çeşitli veri setleri sunan çeşitli veri depolarını keşfedebilir. Bu derlenmiş veri setleri, doğal dil işleme, duygu analizi, bilgisayarlı görü ve sağlık gibi çeşitli uygulamaları kapsar.

Açık veri setleri, ücretsiz veri setleri ve halka açık veri setleri gibi kaynaklar, CSV dosyaları gibi çeşitli veri formatlarında yüksek kaliteli eğitim verisi, doğrulama veri setleri ve test veri setleri sağlar. Popüler kaynaklar arasında hükümet portalları, akademik kurumlar ve ML projeleri, tahmin modelleri ve derin öğrenme algoritmaları için kapsamlı veri setleri koleksiyonları sunan Uluslararası Para Fonu gibi kuruluşlar yer alır.

İyi bir makine öğrenimi veri seti, doğal dil işleme, görsel sınıflandırma veya duygu analizi gibi belirli görevler için uygun, zengin meta veriye sahip yüksek kaliteli, çeşitli bir veri setidir ve genellikle halka açık veri depolarından veya açık veri setlerinden temin edilir.

Bu araştırmayı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Cem Dilmegani and Sıla Ermut (2026) - "ML ve AI Modelleri İçin 57 Veri Seti". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 10 Haziran 2026, kaynak: https://aimultiple.com/datasets-for-ml [Çevrimiçi Kaynak]

Dilmegani, C., & Ermut, S. (2026, 10 Haziran). ML ve AI Modelleri İçin 57 Veri Seti. AIMultiple. https://aimultiple.com/datasets-for-ml

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Ermut, Sıla},
  title  = {{ML ve AI Modelleri İçin 57 Veri Seti}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/datasets-for-ml}},
  note   = {AIMultiple. Erişim tarihi: 10 Haziran 2026}
}

Referans Linkleri

ResearchGate - Temporarily Unavailable

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, Fortune 500'ün %55'i dahil olmak üzere her ay yüz binlerce işletmeyi (similarWeb verilerine göre) bilgilendirmektedir. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslarüstü kuruluşlar tarafından alıntılanmıştır. AIMultiple'a atıfta bulunan daha fazla saygın şirketi ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yaptı. On yıldan fazla bir süre boyunca McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yaptı. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınladı. CEO'ya rapor verirken bir telekom şirketinin teknoloji stratejisini ve satın alımını yönetti. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetti. Cem'in Hypatos'taki çalışmaları, TechCrunch ve Business Insider gibi önde gelen teknoloji yayınları tarafından ele alındı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşma yapmaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisi olarak mezun olmuş ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Araştıran

Sıla Ermut

Sektör Analisti

Takip Et

Sıla Ermut, AIMultiple'ta e-posta pazarlama ve satış videolarına odaklanan bir sektör analistidir. Daha önce proje yönetimi ve danışmanlık firmalarında işe alım uzmanı olarak çalıştı. Sıla, Sosyal Psikoloji alanında Yüksek Lisans ve Uluslararası İlişkiler alanında Lisans derecesine sahiptir.

Tam Profili Görüntüle