Ekrem Sarı
Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und LLMOps für RAG-Frameworks.
Berufserfahrung
Während seiner Tätigkeit als Assessor bei Yandex bewertete er Suchergebnisse mithilfe firmeneigener Frameworks und automatisierter Protokolle. Er implementierte Qualitätssicherungstests durch Datenannotation, Relevanzbewertung und Nutzerintention-Mapping für monatlich über 10.000 Suchanfragen und führte gleichzeitig technische Bewertungen durch, darunter Leistungsüberwachung und Spam-Erkennung mithilfe von ML-Feedbackschleifen.Forschungsinteresse
Bei AIMultiple konzentriert sich seine Forschung auf den MLOps-Lebenszyklus sowie die Leistungsfähigkeit und das Benchmarking von End-to-End-KI-Systemen. Er wirkt an einer Vielzahl von Projekten mit, darunter die Optimierung von Retrieval-Augmented Generation (RAG), umfassende Benchmarking-Studien für große Sprachmodelle (LLM) und die Entwicklung agentenbasierter KI-Frameworks. Ekrem ist spezialisiert auf die Entwicklung datengetriebener Methoden zur Messung und Verbesserung der Leistungsfähigkeit von KI-Technologien anhand kritischer Kennzahlen wie Genauigkeit, Effizienz, API-Kosten und Skalierbarkeit. Seine Analysen umfassen den gesamten Technologie-Stack, von grundlegenden Komponenten wie Einbettungsmodellen und Vektordatenbanken bis hin zur leistungsstarken GPU- und Cloud-Infrastruktur, die für den Einsatz von KI-Agenten erforderlich ist.Ausbildung
Ekrem hat einen Bachelor-Abschluss der Hacettepe Üniversitesi und einen Master-Abschluss der Başkent Üniversitesi.Neueste Artikel von Ekrem
Agentic Search: Benchmark 8 SuchAPIs für Agenten
Agentic search plays a crucial role in bridging the gap between traditional search engines and AI search capabilities. These systems enable AI agents to autonomously find, retrieve, and structure relevant information, powering applications from research assistance to real-time monitoring and multi-step reasoning.
Benchmark von 39 LLMs im Finanzwesen: Claude Opus 4.7, Gemini 3.1 Pro & Mehr
We evaluated 39 LLMs in finance on 238 hard questions from the FinanceReasoning benchmark to identify which models excel at complex financial reasoning tasks like statement analysis, forecasting, and ratio calculations. LLM finance benchmark overview We evaluated LLMs on 238 hard questions from the FinanceReasoning benchmark (Tang et al.).
Benchmark für Backup-Software: Acronis vs NinjaOne vs Comet vs MSP360
We benchmarked Acronis Cyber Protect Cloud Backup, Comet Backup, MSP360 Managed Backup, and NinjaOne Backup on identical AWS infrastructure. Each vendor ran a file-mode backup of the same 625,946-file / 50 GB workload and a full image backup of the system disk, then restored the 15 GB medium subdirectory.
Cloud GPU Mietpreisindex
On-demand rates for the newest-generation cloud GPUs (B200, B300, MI300X, RTX 5090) roughly doubled over the past year, while mainstream cards (H100, H200, A100) held a tight band. We compile the GPU index monthly from 58 providers and 17 GPU models, covering on-demand, spot, and 1-year reserved tiers.
Multimodale Embedding-Modelle: Apple vs Meta vs OpenAI
Multimodal embedding models excel at identifying objects but struggle with relationships. Current models struggle to distinguish “phone on a map” from “map on a phone.” We benchmarked 7 leading models across MS-COCO and Winoground to measure this specific limitation. To ensure a fair comparison, we evaluated every model under identical conditions using NVIDIA A40 hardware and bfloat16 precision.
Die 20+ besten Agentic RAG-Frameworks
Agentic RAG enhances traditional RAG by boosting LLM performance and enabling greater specialization. We conducted a benchmark to assess its performance on routing between multiple databases and generating queries. Explore agentic RAG frameworks and libraries, key differences from standard RAG, benefits, and challenges to unlock their full potential.
Cloud GPU Preisgestaltung, Leistung & Anbietervergleich
Cloud GPU list prices for the same model can differ several times over from one provider to another. We curated the lowest rate, provider, market range, and median for 40+ GPU configurations across all three pricing tiers, plus a throughput-per-dollar benchmark on 10 models.
Reranker-Benchmark: Top 8 Modelle verglichen
We benchmarked 8 reranker models on ~145k English Amazon reviews to measure how much a reranking stage improves dense retrieval. We retrieved top-100 candidates with multilingual-e5-base, reranked them with each model, and evaluated the top-10 results against 300 queries, each referencing concrete details from its source review. The best reranker lifted Hit@1 from 62.
Hybrides RAG: Steigerung der RAG-Genauigkeit
Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.
Top 60+ Cloud GPU Anbieter
Cloud GPU providers fall into three tiers. Hyperscalers run broad cloud platforms with GPU rental as one product among many. Specialist neoclouds focus on GPU and AI infrastructure as their core product. Community marketplaces aggregate inventory from many small operators, often at the floor of the published price spread.
AIMultiple Newsletter
1 kostenlose E-Mail pro Woche mit den neuesten B2B-Technachrichten und Experten Einblicken.