Ekrem Sarı
Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und LLMOps für RAG-Frameworks.
Berufserfahrung
Während seiner Tätigkeit als Assessor bei Yandex bewertete er Suchergebnisse mithilfe firmeneigener Frameworks und automatisierter Protokolle. Er implementierte Qualitätssicherungstests durch Datenannotation, Relevanzbewertung und Nutzerintention-Mapping für monatlich über 10.000 Suchanfragen und führte gleichzeitig technische Bewertungen durch, darunter Leistungsüberwachung und Spam-Erkennung mithilfe von ML-Feedbackschleifen.Forschungsinteresse
Bei AIMultiple konzentriert sich seine Forschung auf den MLOps-Lebenszyklus sowie die Leistungsfähigkeit und das Benchmarking von End-to-End-KI-Systemen. Er wirkt an einer Vielzahl von Projekten mit, darunter die Optimierung von Retrieval-Augmented Generation (RAG), umfassende Benchmarking-Studien für große Sprachmodelle (LLM) und die Entwicklung agentenbasierter KI-Frameworks. Ekrem ist spezialisiert auf die Entwicklung datengetriebener Methoden zur Messung und Verbesserung der Leistungsfähigkeit von KI-Technologien anhand kritischer Kennzahlen wie Genauigkeit, Effizienz, API-Kosten und Skalierbarkeit. Seine Analysen umfassen den gesamten Technologie-Stack, von grundlegenden Komponenten wie Einbettungsmodellen und Vektordatenbanken bis hin zur leistungsstarken GPU- und Cloud-Infrastruktur, die für den Einsatz von KI-Agenten erforderlich ist.Ausbildung
Ekrem hat einen Bachelor-Abschluss der Hacettepe Üniversitesi und einen Master-Abschluss der Başkent Üniversitesi.Neueste Artikel von Ekrem
Überwachtes Feinabstimmen vs. Verstärkungslernen
Can large language models internalize decision rules that are never stated explicitly? To examine this, we designed an experiment in which a 14B parameter model was trained on a hidden “VIP override” rule within a credit decisioning task, without any prompt-level description of the rule itself.
DLP-Software-Benchmark
We benchmarked Acronis DeviceLock DLP and ManageEngine DLP Plus on identical Windows Server 2022 VMs with 28 scenarios: 23 data leak tests (including 12 adversarial evasion files), 3 agent security tests, and 2 tests under high CPU and memory consumption.
Embedding-Modelle: OpenAI vs Gemini vs Voyage
We benchmarked 15 English text-embedding models and a BM25 baseline on over 500 manually curated queries across three retrieval domains: legal contracts (CUAD), customer support (IBM TechQA), and healthcare (MedRAG PubMed). Voyage-3.5 ranks first overall. Perplexity Embed V1 0.6b reaches the upper-mid tier at the lowest price point in our benchmark.
Open-Source-Embedding-Model-Benchmark für RAG
We benchmarked 14 open-source embedding models, self-hosted on a single H100, across 500+ manually curated retrieval queries spanning legal contracts, customer support tech notes, and medical abstracts. NVIDIA Llama-Embed-Nemotron-8B leads in accuracy. On cost, Google’s EmbeddingGemma-300m runs roughly 4x cheaper than Nemotron at the cost of a small accuracy loss.
Graph-Datenbank-Benchmark: Neo4j vs FalkorDB vs Memgraph
We benchmarked Neo4j, FalkorDB, and Memgraph on a synthetic graph derived from 120,000 Amazon product reviews (381K nodes, 804K edges).
LLM Inferenz-Engines: vLLM vs LMDeploy vs SGLang
We benchmarked 3 leading LLM inference engines on NVIDIA H100: vLLM, LMDeploy, and SGLang. Each engine processed identical workloads: 1,000 ShareGPT prompts using Llama 3.1 8B-Instruct to isolate the true performance impact of their architectural choices and optimization strategies.
Top Vector Database für RAG: Qdrant vs Weaviate vs Pinecone
Vector databases power the retrieval layer in RAG workflows by storing document and query embeddings as high‑dimensional vectors. They enable fast similarity searches based on vector distances.
Text-to-SQL: Vergleich der LLM-Genauigkeit
I have relied on SQL for data analysis for 18 years, beginning in my days as a consultant. Translating natural-language questions into SQL makes data more accessible, allowing anyone, even those without technical skills, to work directly with databases.
Vergleich relationaler Fundamentaler Modelle
We benchmarked SAP-RPT-1-OSS against gradient boosting (LightGBM, CatBoost) on 17 tabular datasets spanning the semantic-numeral spectrum, small/high-semantic tables, mixed business datasets, and large low-semantic numerical datasets. Our goal is to measure where a relational LLM’s pretrained semantic priors may provide advantages over traditional tree models and where they face challenges under scale or low-semantic structure.
Top 10 mehrsprachige Embedding-Modelle für RAG
We benchmarked 10 multilingual embedding models on ~606k Amazon reviews across 6 languages (German, English, Spanish, French, Japanese, Chinese). We generated 1,800 queries (300 per language), each referencing concrete details from its source review.
AIMultiple Newsletter
1 kostenlose E-Mail pro Woche mit den neuesten B2B-Technachrichten und Experten Einblicken.