Ekrem Sarı
Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et le LLMOps pour les frameworks RAG.
Expérience professionnelle
Durant son poste d'évaluateur chez Yandex, il a analysé les résultats de recherche à l'aide de frameworks propriétaires et de protocoles automatisés. Il a mis en œuvre des tests d'assurance qualité par l'annotation de données, l'attribution de scores de pertinence et la cartographie de l'intention de l'utilisateur sur plus de 10 000 requêtes mensuelles, tout en réalisant des évaluations techniques, notamment le suivi des performances et la détection de spam grâce à des boucles de rétroaction d'apprentissage automatique.Intérêts de recherche
Chez AIMultiple, ses recherches portent sur le cycle de vie MLOps et l'évaluation des performances des systèmes d'IA de bout en bout. Il contribue à de nombreux projets, notamment l'optimisation de la génération augmentée par la recherche (RAG), l'évaluation comparative de modèles de langage étendus (LLM) et la conception de frameworks d'IA agentiques. Ekrem est spécialisé dans le développement de méthodologies basées sur les données pour mesurer et améliorer les performances des technologies d'IA selon des indicateurs opérationnels critiques tels que la précision, l'efficacité, le coût des API et la scalabilité. Son analyse couvre l'ensemble de la pile technologique, des composants fondamentaux comme les modèles embarqués et les bases de données vectorielles jusqu'à l'infrastructure GPU et cloud haute performance nécessaire au déploiement des agents d'IA.Éducation
Ekrem est titulaire d'un baccalauréat de l'université Hacettepe et d'une maîtrise de l'université Başkent.Derniers articles de Ekrem
LLM Quantification : BF16 vs FP8 vs INT4
We benchmarked Qwen3-32B at 4 precision levels (BF16, FP8, GPTQ-Int8, GPTQ-Int4) on a single NVIDIA H100 80GB GPU. Each configuration was evaluated on 2 benchmarks (~12.2K questions) covering knowledge and code generation, plus 2,000+ inference runs to measure throughput. Int4 is 2.
GPU Benchmark de concurrence : H100 vs H200 vs B200 vs MI300X
I have spent the last 20 years focusing on system-level computational performance optimization. We benchmarked the latest NVIDIA GPUs, including the NVIDIA’s H100, H200, and B200, and AMD’s MI300X, for concurrency scaling analysis. Using the vLLM framework with the gpt-oss-20b model, we tested how these GPUs handle concurrent requests, from 1 to 512.
Benchmark Multi-GPU : B200 vs H200 vs H100 vs MI300X
For over two decades, optimizing compute performance has been a cornerstone of my work. We benchmarked NVIDIA’s B200, H200, H100, and AMD’s MI300X to assess how well they scale for Large Language Model (LLM) inference. Using the vLLM framework with the meta-llama/Llama-3.1-8B-Instruct model, we ran tests on 1, 2, 4, and 8 GPUs.
Comparatif Graph RAG et Vector RAG
Vector RAG retrieves documents by semantic similarity. Graph RAG adds a knowledge graph on top of it, extracts entities and relationships from your documents, stores them in a graph database, and uses graph traversal alongside vector search at query time.
RAG Outil d'observabilité Benchmark
We benchmarked four RAG observability platforms on a 7-node LangGraph pipeline across three practical dimensions: latency overhead, integration effort, and platform trade-offs. Latency overhead metrics Metrics explained: Mean is the average latency across 150 measured graph.invoke() calls. LLM-judge evaluations run after the timer stops. Median is the 50th percentile latency.
RAG Outils d'évaluation : Weights & Biases vs Ragas vs DeepEval
When a RAG pipeline retrieves the wrong context, the LLM confidently generates the wrong answer. Context relevance scorers are the primary defense. We benchmarked five tools across 1,460 questions and 14,600+ scored contexts under identical conditions: same judge model (GPT-4o), default configurations, and no custom prompts.
Meilleurs outils, frameworks et bibliothèques RAG
La génération augmentée par récupération (RAG) améliore les réponses des modèles de langage naturel (LLM) en intégrant des sources de données externes. Nous avons comparé différents modèles d'intégration et testé séparément diverses tailles de segments afin de déterminer les combinaisons les plus performantes pour les systèmes RAG. Découvrez les principaux frameworks et outils RAG, apprenez-en davantage sur le fonctionnement, les avantages et le rôle de la RAG dans le paysage actuel des LLM.
Navigateurs distants : comparaison de l'infrastructure web pour les agents IA
AI agents rely on remote browsers to automate web tasks without being blocked by anti-scraping measures. The performance of this browser infrastructure is critical to an agent’s success. We benchmarked 8 providers on success rate, speed, and features.
RAG Frameworks: LangChain vs LangGraph vs LlamaIndex
We benchmarked 5 RAG frameworks: LangChain, LangGraph, LlamaIndex, Haystack, and DSPy, by building the same agentic RAG workflow with standardized components: identical models (GPT-4.1-mini), embeddings (BGE-small), retriever (Qdrant), and tools (Tavily web search). This isolates each framework’s true overhead and token efficiency.
Meilleures fonctions serverless : Vercel vs Azure vs AWS
Serverless functions enable developers to run code without having to manage a server. This allows them to focus on writing and deploying applications while infrastructure scaling and maintenance are handled automatically in the background. In this benchmark, we evaluated 7 popular cloud service providers following our methodology to test their serverless function performance.
Newsletter AIMultiple
Un e-mail gratuit par semaine contenant les dernières actualités technologiques B2B et des analyses d'experts pour accélérer la croissance de votre entreprise.