Sonuç bulunamadı.

Yapay zeka Yapay Zeka Modelleri LLM'ler

Çerçevelerle Birlikte LLM Değerlendirme Ortamı

güncellendi May 22, 2026

Bakınız etik normlar

LLM modellerinin değerlendirilmesi, çok aşamalı akıl yürütmeyi, üretim performansını ve araç kullanımını değerlendiren araçlar gerektirir. Bir modelin beklenen davranıştan nasıl ve ne zaman saptığını belirlemek için yapılandırılmış ölçümler, kayıtlar ve izler sağlayan popüler LLM değerlendirme çerçevelerini incelemek için 2 gün harcadık. Özellikle şunları yaptık:

LLM değerlendirme araçlarının ajan davranış izleme analizi ve üretim izleme özelliklerini destekleyip desteklemediği kontrol edildi.
İşlevsel değerlendirme odağına göre gruplandırılmış araçlar.
Tek turlu testlerden çok turlu, gerçek dünya değerlendirmelerine kadar karşılaştırmalı değerlendirme yetenekleri .

LLM değerlendirme ortamı

Fonksiyonel kategori	Aletler	Birincil amaç
Çekirdek LLM değerlendirme çerçeveleri	OpenAI Değerlendirmeler, DeepEval, MLflow (LLM Değerlendirme), RAGAS, TruLens, Deepchecks, Inspect AI	LLM çıktısını kalite, doğruluk ve tutarlılık ölçütlerini kullanarak değerlendirin.
Hızlı test ve optimizasyon	Promptfoo, Humanloop, Opik	Model çıktısını iyileştirmek için komut istemlerini tasarlayın, test edin ve optimize edin.
Çerçeveye özgü değerlendirme	LangChain Evals, LangSmith, LlamaIndex Eval	LLM'leri LangChain veya LlamaIndex gibi belirli ekosistemler içinde değerlendirin.
LLM gözlemlenebilirlik ve izleme	Arize Phoenix, Langfuse, Langtrace AI, Lunary	Üretim aşamasındaki model performansının sürekli izlenmesi ve analizi.

LLM değerlendirme yetenekleri

Değerlendirme yeteneklerinin açıklaması:

Yapay zeka geçidi (çoklu model erişimi): Platformun, birleşik bir API arayüzü aracılığıyla birden fazla temel modeli değerlendirme yeteneği.
Tek turlu değerlendirmeler: Doğruluk, gerçeklik veya tutarlılık gibi ölçütler için model performansını tek tek sorular üzerinden ölçer.
Çok turlu değerlendirmeler: Bağlamsal muhakemeyi ve hafızayı test etmek için çok adımlı veya diyalogsal etkileşimlerin değerlendirilmesini destekler.
Çevrimdışı değerlendirmeler: Çevrimdışı değerlendirmeler, LLM uygulamasının üretime geçmeden önce sonuçlarını kontrol etmek için kullanılır. LLM uygulamanızın CI/CD kontrolleri için çevrimdışı değerlendirmeleri kullanın.
Özel LLM ölçütleri: Önceden belirlenmiş puanlama yöntemlerinin ötesinde, alana özgü veya göreve özgü değerlendirme ölçütleri tanımlamaya olanak tanır.

Ajan davranışı ve araç izleme yetenekleri

Değerlendirme araçları, özellikle "değerlendirme"nin kapsamını genişlettiğinizde (sadece komut veya yanıt değil, zaman içindeki temsilci davranışı, araç kullanımı, yan etkiler), temsilci davranışındaki uyumsuzlukların tespit edilmesine yardımcı olabilir.

Anthropic, bir modelin sadece ne söylediğini değil, nasıl davrandığını da değerlendirmenin, yeni nesil yapay zeka sistemlerinde güven ve emniyetin önemli bir boyutu haline gelebileceğini öne sürüyor. ¹

Üretim izleme ve sistem düzeyinde değerlendirme ile ilgileniyorsanız, değerlendirme yeteneklerine sahip gözlemlenebilirlik çerçeveleri bölümüne atlayabilirsiniz.
Daha fazla bilgi edinmek için LLM numaralı gözlemlenebilirlik ve değerlendirme platformları makalesini okuyun.
Eğer RAG veya görev tamamlama aracıları kullanıyorsanız, aracı değerlendirmesi hakkında ayrı bir kılavuzumuz bulunmaktadır.

Çekirdek LLM değerlendirme çerçeveleri

OpenAI Değerlendirmeler

OpenAI Evals, büyük dil modellerinin (LLM) performansını sistematik olarak değerlendirmek için OpenAI tarafından geliştirilen açık kaynaklı bir değerlendirme çerçevesidir.

Bu, kullanıcıların metin oluşturma ve mantıksal çıkarımdan kod veya SQL gibi yapılandırılmış çıktı üretimine kadar çok çeşitli görevlerde model kalitesini ölçmelerine olanak tanıyan genel amaçlı bir değerlendirme altyapısıdır.

İşte, bir modelin sözdizimsel olarak doğru SQL sorguları oluşturma yeteneğini değerlendirmek için tasarlanmış, OpenAI Evals ile oluşturulmuş örnek bir değerlendirme işlem hattı. Değerlendirme, GPT-4 ile oluşturulan sentetik verileri ve çerçeve içinde değerlendirmeyi kaydetmek için özel bir YAML yapılandırmasını kullanır:

Kaynak: OpenAI ²

DeepEval

Genellikle "LLM için pytest" olarak tanımlanan, Python öncelikli bir çerçevedir. Geniş araştırma destekli ölçüm kümesi ve tüm işlem hatlarını veya izole bileşenleri test etme yeteneğiyle öne çıkar.

Burada, LLM uygulamasının tek bir yürütülmesini temsil eden bir izleme değerlendirmesi örneği verilmiştir. İzlemeler üzerinde değerlendirmeler çalıştırmak, geliştirme sırasında yapılan tek seferlik değerlendirmelere benzer şekilde, model davranışının uçtan uca değerlendirilmesini sağlar:

Kaynak: ConfidentAI ³

MLflow (LLM Değerlendirme)

MLflow'u LLM değerlendirmesine genişletir. En önemli gücü, deney takibi ve çalıştırmalar ve sürümler arasında yan yana karşılaştırma yapabilmesidir.

İşte MLflow'un birden fazla çalıştırmanın sonuçlarını yan yana gösteren değerlendirme karşılaştırma görünümüne bir örnek. Bu örnekte, özlü puanlama metriği %33 oranında iyileşirken, kavram kapsamı %11 oranında azaldı.

Kaynak: MLflow ⁴

Ragalar

RAGAS (Retrieval-Augmented Generation Assessment Suite), özellikle Retrieval-Augmented Generation (RAG) ve ajan tabanlı LLM uygulamalarının performansını ölçmek için tasarlanmış açık kaynaklı bir değerlendirme çerçevesidir. Hızlı veri analizi için pandas kullanmaya benzer şekilde, hafif bir deney ortamı sağlar.

RAGAS, bir sistemin ilgili bağlamı ne kadar etkili bir şekilde alıp ürettiği yanıtlara entegre ettiğini değerlendirir. Bunu, aşağıdakiler de dahil olmak üzere, araştırmalarla desteklenen bir dizi ölçüt aracılığıyla yapar:

Doğruluk : Üretilen yanıtın, elde edilen bağlamı ne kadar doğru yansıttığı.
Bağlamsal uygunluk : Elde edilen belgelerin sorguyla ne kadar alakalı olduğu.
Yanıtın alaka düzeyi : Oluşturulan yanıtın kullanıcının sorusuyla ne kadar alakalı olduğu.
Bağlamsal hatırlama ve bağlamsal kesinlik : İlgili bilgilerin ne kadar eksiksiz ve kesin olarak geri çağrıldığı.

Bu ölçümler bir araya gelerek hem alma hem de oluşturma kalitesini ölçen genel bir RAG puanı üretir. RAG'un ötesinde, RAGAS artık Multimodal Faithfulness ve Noise Sensitivity gibi uzantılar aracılığıyla ajan tabanlı iş akışları, araç kullanımı, SQL değerlendirmesi ve hatta çok modlu görevler için ölçümleri desteklemektedir.

RAGAS ayrıca zaman içinde yeni ölçümler de sunmaktadır; bu ölçümlere RAGAS GitHub deposundan buradan ulaşabilirsiniz.

İşte RAGAS tarafından yapılan puan dağılımı analizi:

Kaynak: RAGAS ⁵

TruLens

TruLens, LLM çıktıların niteliksel analizi için tasarlanmış açık kaynaklı bir kütüphanedir. Her model çağrısından sonra yanıtı değerlendirmek için çalışan geri bildirim fonksiyonları enjekte ederek çalışır. Sadece doğruluk değil, aynı zamanda akıl yürütme analizi ve niteliksel değerlendirme için de oldukça uygundur.

Doğruluk testinin ötesinde, TruLens etik ve davranışsal değerlendirmeyi de destekler:

Derin kontroller (LLM)

Deepchecks (LLM), başlangıçta makine öğrenimi modeli doğrulaması için geliştirilmiş, şimdi ise büyük dil modelleri (LLM) ve RAG uygulamaları için genişletilmiş açık kaynaklı bir değerlendirme çerçevesidir. Özellikle LLM destekli arama işlem hatlarını değerlendirmek için özel olarak tasarlanmış modüller sunmaktadır.

Deepchecks (LLM), değerlendirme ölçütlerine ve otomasyon süreçlerine odaklanmasıyla öne çıkıyor:

Temsilci-Hakim
RAG değerlendirme
LLM değerlendirme çerçevesi
CI/CD işlem hatları

İşte modelin GVHD ile ilişkili ağrı hakkındaki tıbbi bir soruyu yanıtladığı bir soru-cevap kullanım örneği.

Kaynak: Deepchecks ⁶

Yapay Zekayı İncele

Inspect AI, araştırma düzeyinde değerlendirmelere odaklanılarak geliştirilmiş açık kaynaklı bir değerlendirme çerçevesidir. Hem model düzeyinde hem de ajan düzeyinde değerlendirmeyi destekleyerek kullanıcıların yalnızca tek adımlı model çıktılarını değil, aynı zamanda çok adımlı ajan davranışını, akıl yürütme zincirlerini ve zaman içindeki görev yürütmesini de değerlendirmelerini sağlar.

Bu çerçeve, Docker konteynerleri veya sanal makineler gibi izole ortamlarda kurulumu kolaydır ve bu da onu ana sistemi açığa çıkarmadan ajan tabanlı iş akışlarını güvenli bir şekilde değerlendirmek için uygun hale getirir. Inspect, net bir görev tanımlama ve yürütme modeli sağlayarak kullanıcıların değerlendirme görevlerini hızlı bir şekilde tanımlamasına, örneklem boyutlarını kontrol etmesine (örneğin, CI tarzı istatistiksel standartlar için) ve değerlendirmeleri otomatikleştirilmiş işlem hatlarına entegre etmesine olanak tanır.

Inspect ayrıca, gecikme süresi ve adım başına belirteç kullanımı da dahil olmak üzere, ayrıntılı adım adım değerlendirme kayıtları ve eylemler ile araç çağrılarına ilişkin bir rapor sunar. Bu ayrıntı düzeyi, bir modelin veya ajanın beklenen davranıştan nerede ve neden saptığını teşhis etmeyi kolaylaştırır.

Inspect AI'nin bir diğer iyi yönü de çevrimdışı değerlendirme için tasarlanmış olması ve gerçek zamanlı telemetri özelliklerinden ziyade doğruluk, şeffaflık ve tekrarlanabilirliğe öncelik vermesidir.

Hızlı test ve optimizasyon

Promptfoo

Promptfoo, komut istemi mühendisliği, test ve değerlendirmesi için açık kaynaklı bir araç setidir. Basit YAML veya komut satırı yapılandırmaları kullanarak komut istemlerinin ve LLM çıktılarının A/B testini sağlar ve LLM-hakem olarak değerlendirmeleri destekler.

Bu araç seti, bulut kurulumu veya SDK bağımlılıkları gerektirmeyen, hafif deneyler için tasarlanmıştır ve geliştiriciler tarafından hızlı yineleme ve otomatik sağlamlık testleri (örneğin, anlık enjeksiyon veya toksisite kontrolleri) için yaygın olarak kullanılmaktadır. Anlık değerlendirmeyi günlük geliştirme iş akışlarına entegre etmek için en uygunudur.

İnsan döngüsü

Humanloop, insan odaklı geri bildirime dayalı bir hızlı değerlendirme ve optimizasyon platformudur. Ekiplerin çıktılar üzerindeki insan değerlendirmelerini toplamasına ve analiz etmesine olanak tanıyarak, hızlı yanıt kalitesini, model uyumunu ve güvenilirliği artırmaya yardımcı olur.

Opik (Komet tarafından)

Opik, Comet tarafından geliştirilen açık kaynaklı bir değerlendirme ve izleme platformudur. Uygulamaların geliştirme ve üretim yaşam döngüsü boyunca izlenmesi, değerlendirilmesi ve denetlenmesi için araçlar sağlar.

Opik, komut istemi iş akışlarının tüm izlerini ve sürelerini kaydeder, otomatik ölçümleri (örneğin LLM-hakem olarak kullanılarak elde edilen olgusal doğruluk gibi karmaşık ölçümler de dahil) destekler ve komut istemi veya model sürümleri arasında performans karşılaştırmasına olanak tanır.

Onu diğerlerinden ayıran özellik, hızlı değerlendirmeyi deney yönetimi ve gözlemlenebilirlikle birleştirerek test ve üretim izleme arasındaki boşluğu doldurmasıdır.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Çerçeveye özgü değerlendirme

LangChain Değerlendirmeler

LangChain Evals, LangChain iş akışları için çerçeveye özgü bir değerlendirme aracıdır. Özellikle karmaşık LLM zincirlerini içeren LangChain uygulamalarının performansını değerlendirmek üzere özel olarak tasarlanmış bir dizi yerleşik değerlendirme şablonu ve ölçütü sağlar.

LangSmith

LangSmith, LangChain ekibi tarafından geliştirilen bir değerlendirme ve gözlemlenebilirlik platformudur. Önyargı tespiti ve güvenlik testi gibi görevler için özel değerlendirme yetenekleriyle birlikte, LLM etkileşimlerini kaydetmek ve analiz etmek için araçlar sağlar.

Tamamen açık kaynaklı bir araçtan ziyade, LangChain tabanlı uygulamalar için kurumsal düzeyde destek sunan, yönetilen (barındırılan) bir hizmettir.

LlamaIndex Değerlendirmesi

LlamaIndex Eval, LlamaIndex (eski adıyla GPT Index) çerçevesine entegre edilmiş, LlamaIndex üzerine kurulu RAG işlem hatlarını değerlendirmek için kullanılan bir değerlendirme araç setidir. Belirli bir sorgu için oluşturulan yanıtları referans yanıtlarla karşılaştıran bir Doğruluk Değerlendiricisi içerir ve ayrıca GPT-5'i referanssız bir şekilde yanıt kalitesini değerlendirmek için bir hakem olarak kullanabilir.

İşlevselliği RAGAS'ye benzer, ancak LlamaIndex iş akışına yerleşik olarak bulunur; bu da geliştiricilerin harici bağımlılıklar eklemeden veri alma ve oluşturma kalitesini değerlendirmelerine olanak tanır.

LLM değerlendirme yeteneklerine sahip gözlemlenebilirlik çerçeveleri

Arize Phoenix

Arize AI (bir makine öğrenimi gözlemlenebilirlik şirketi) tarafından geliştirilen Phoenix, üretim ortamlarındaki davranışları analiz etmek ve sorun gidermek için kullanılan açık kaynaklı bir araç setidir. Geleneksel değerlendirme çerçevelerinin aksine, Phoenix önceden tanımlanmış ölçütlerden ziyade gözlemlenebilirliğe ve keşifsel analize odaklanır.

Phoenix, devreye alınmış RAG veya LLM sistemlerini izlemek için kullanılabilir ve ardından belirlenen sorunların daha derinlemesine metrik düzeyinde değerlendirilmesi için RAGAS veya Giskard gibi çerçevelere başvurulabilir.

Langfuse

Langfuse öncelikle hem LLM (Büyük Dil Modeli) hem de RAG (Alma Destekli Üretim) sistemlerinin izlenmesine odaklanmıştır. Ekiplerin modellerin gerçek zamanlı üretim ortamlarında nasıl performans gösterdiğini izlemesine ve analiz etmesine yardımcı olur.

Model performansını çeşitli ölçütlerle değerlendirebilse de, asıl gücü LLM ve RAG işlem hatlarının çalışma sırasında nasıl davrandığına dair gözlemlenebilirlik sağlamasında yatmaktadır. Bu, LLM çıktıları, veri alma kalitesi ve model kayması genelinde performansı izlemeyi içerir ve modellerin dinamik veri kümeleriyle etkileşime girerken veya zaman içinde değişirken kalite standartlarını karşılamaya devam etmesini sağlar.

Langtrace AI

Langtrace AI, ayrıntılı izleme kayıtları ve performans ölçümleri yakalayarak uygulamaları değerlendirme konusunda uzmanlaşmıştır. Token kullanımı, gecikme süresi, doğruluk ve maliyet gibi temel unsurları izlemek için araçlar sunarak model davranışı ve performansına ilişkin kapsamlı bir görünüm sağlar.

Ay

Lunary, geliştiricilerin model davranışını gerçek zamanlı üretim ortamlarında izlemelerini ve değerlendirmelerini sağlayan, etkileşimlere ilişkin derinlemesine gözlemlenebilirlik sağlama konusunda uzmanlaşmıştır.

LLM değerlendirme ölçütleri

LLM değerlendirme ölçütleri, geleneksel istatistiksel puanlayıcılardan model tabanlı ve şimdi de LLM-hakem olarak yaklaşımlarına doğru evrim geçirmiştir; işte her biri için kısa bir açıklama:

İstatistiksel puanlayıcılar (referans tabanlı): Doğruluk, hassasiyet, geri çağırma, F1, BLEU ve ROUGE gibi metrikler, referans bir yanıtla örtüşmeyi ölçer. Yapılandırılmış görevler (örneğin, sınıflandırma, özetleme) için iyi çalışırlar, ancak açık uçlu çıktılarla başa çıkmakta zorlanırlar.
Model tabanlı puanlayıcılar (referanssız): Supert, BLANC, SummaC veya QAFactEval gibi ölçütler, kesin referanslar olmadan metin kalitesini, gerçekliğini veya mantıksal tutarlılığını değerlendirir.
LLM tabanlı puanlayıcılar (LLM-hakem olarak): Değerlendirmeler, bağlam içinde yanıt kalitesini değerlendirmek için başka bir model (örneğin, GPT-5 ) kullanır.

Daha fazla bilgi için bakınız: Agentic evals: How we evaluate LLM applications?

LLM değerlendirmelerinin neden zor olduğu

LLM'leri değerlendirmek hiç de basit değil. Kalite kriterlerinin kullanım durumuna göre değişmesinin ötesinde, değerlendirme süreci geleneksel yazılım testinden veya tahmine dayalı makine öğrenimi değerlendirmesinden temel olarak farklıdır.

En önemli zorluklardan biri deterministik olmama durumudur: LLM'ler olasılıksal çıktılar üretir, bu nedenle aynı girdi her seferinde farklı yanıtlar üretebilir, bu da tutarlılık ve tekrarlanabilirliğin ölçülmesini zorlaştırır.

Görsel kaynağı: AI world ⁷

LLM'lerin olasılıksal yapısı yaratıcı ve çeşitli yanıtlar vermeye olanak sağlarken, aynı zamanda test etmeyi de zorlaştırır; tek bir doğru cevabı kontrol etmek yerine, bir dizi çıktının beklentileri karşılayıp karşılamadığını belirlemeniz gerekir.

Tek bir doğru cevap yok: LLM sistemleri genellikle yazma, özetleme veya konuşma gibi ucu açık görevlerle ilgilenir. Bu durumlarda birçok geçerli cevap olabilir. Bu tür sistemleri değerlendirmek, yalnızca referans metniyle eşleştirmek değil, anlamsal benzerlik, ton, üslup veya olgusal doğruluğu ölçmeyi gerektirir.

Çeşitli girdi alanı: LLM uygulamalar çok çeşitli girdilerle karşı karşıya kalır; örneğin, bir müşteri destek botu iadeler, faturalama veya hesap güvenliğiyle ilgili soruları yanıtlayabilir. Etkili değerlendirme, bu çeşitliliği yakalayan senaryo tabanlı test setlerine ihtiyaç duyar.

İyi tasarlanmış çevrimdışı testler bile, kullanıcıların beklenmedik uyarılar ve uç durumlar ortaya koyduğu gerçek dünya uygulamalarında başarısız olabilir. Bu durum, zaman içinde tutarlı model kalitesini sağlamak için sürekli, üretim ortamında değerlendirme ve gözlemlenebilirliğin gerekliliğini vurgulamaktadır.

LLM değerlendirmesinde benzersiz riskler

Olasılıksal, talimatları izleyen sistemlerle çalışmak, geleneksel yapay zeka değerlendirmesinin nadiren ele aldığı yeni ve karmaşık riskleri beraberinde getirir:

Halüsinasyonlar: Model, yanlış veya yanıltıcı bilgiler üretebilir; örneğin, ürünler icat edebilir, var olmayan kaynaklara atıfta bulunabilir veya yanlış tıbbi veya hukuki tavsiyelerde bulunabilir.
Güvenlik açıklarından yararlanma: Kötü niyetli kullanıcılar, güvenlik kısıtlamalarını aşmak için uyarı mesajlarını kullanarak modeli zararlı, taraflı veya izin verilmeyen içerik üretmeye yönlendirebilirler.
Veri sızıntıları: Bir LLM cihazı, eğitim verilerinden veya bağlantılı sistemlerinden hassas veya tescilli bilgileri istemeden ifşa edebilir .

Bu sorunları hafifletmek için ekiplerin doğruluk ölçütlerinin ötesine geçen sağlam değerlendirme iş akışlarına ihtiyacı vardır:

Modelleri, düşmanca ve uç durum girdileriyle stres testine tabi tutarak güvenlik açıklarını ortaya çıkarın.
Modelin kötü amaçlı komutlara karşı dayanıklılığını test etmek için kırmızı ekip çalışmaları ve güvenlik değerlendirmeleri gerçekleştirin .
Üretim ortamında ortaya çıkan sapmalar, gizlilik ihlalleri veya güvenli olmayan çıktılar gibi sorunları tespit etmek için canlı etkileşimleri sürekli olarak izleyin .

LLM değerlendirme yöntemleri

LLM değerlendirme yöntemleri, bir dil modelinin akıl yürütme, özetleme ve diyalog gibi görevlerde ne kadar iyi performans gösterdiğini ölçmeye yardımcı olur. İstatistiksel ölçütler (örneğin, BLEU, ROUGE), başka bir modelin kalite, güvenlik ve olgusal doğruluğu değerlendirdiği LLM-hakim yaklaşımına yöneliktir. Ayrıca, modellerin zaman içinde nasıl davrandığını ve araçları nasıl kullandığını izleyen ajansal ve davranışsal test değerlendirme yöntemleri de vardır.

Temel yaklaşımlar ve bunların zorlukları hakkında daha ayrıntılı bilgi için, LLM değerlendirme yöntemleri hakkındaki tam makalemize göz atın.

Referans Linkleri

SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents \ Anthropic

Getting Started with OpenAI Evals

LLM Tracing Quickstart | Confident AI Docs

LLM Tracing Quickstart | Confident AI Docs

Compare LLMs using Ragas Evaluations - Ragas

Compare Between Versions

Why LLMs Can't Give the Same Answer Twice / AI World

Cem Dilmegani

Baş Analist

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

Sıradaki Okunma

Yapay Zeka AjanlarıMay 22

Agentic LLM Kıyaslaması: En İyi 13 LLM Karşılaştırması

Berk Kalelioğlu

LLM Gözlemlenebilirlik Araçları: Ağırlıklar ve Sapmalar, Langsmith

Yapay Zeka DonanımıNis 24

LLM Çıkarım Motorları: vLLM, LMDeploy ve SGLang Karşılaştırması

LLM Otomasyonu: En İyi 7 Araç ve 8 Örnek Olay İncelemesi

LCM'ler: LLM Tokenizasyonundan Kavram Düzeyinde Gösterime

İzleyici Simülasyonu: LLM'ler İnsan Davranışını Tahmin Edebilir mi?