Ekrem Sarı
Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et le LLMOps pour les frameworks RAG.
Expérience professionnelle
Durant son poste d'évaluateur chez Yandex, il a analysé les résultats de recherche à l'aide de frameworks propriétaires et de protocoles automatisés. Il a mis en œuvre des tests d'assurance qualité par l'annotation de données, l'attribution de scores de pertinence et la cartographie de l'intention de l'utilisateur sur plus de 10 000 requêtes mensuelles, tout en réalisant des évaluations techniques, notamment le suivi des performances et la détection de spam grâce à des boucles de rétroaction d'apprentissage automatique.Intérêts de recherche
Chez AIMultiple, ses recherches portent sur le cycle de vie MLOps et l'évaluation des performances des systèmes d'IA de bout en bout. Il contribue à de nombreux projets, notamment l'optimisation de la génération augmentée par la recherche (RAG), l'évaluation comparative de modèles de langage étendus (LLM) et la conception de frameworks d'IA agentiques. Ekrem est spécialisé dans le développement de méthodologies basées sur les données pour mesurer et améliorer les performances des technologies d'IA selon des indicateurs opérationnels critiques tels que la précision, l'efficacité, le coût des API et la scalabilité. Son analyse couvre l'ensemble de la pile technologique, des composants fondamentaux comme les modèles embarqués et les bases de données vectorielles jusqu'à l'infrastructure GPU et cloud haute performance nécessaire au déploiement des agents d'IA.Éducation
Ekrem est titulaire d'un baccalauréat de l'université Hacettepe et d'une maîtrise de l'université Başkent.Derniers articles de Ekrem
Hybrid RAG : Amélioration de la précision RAG
La recherche vectorielle dense excelle dans la capture de l'intention sémantique, mais elle peine souvent avec les requêtes exigeant une grande précision des mots clés. Afin de quantifier cet écart, nous avons comparé un système de recherche dense standard à un système RAG hybride intégrant des vecteurs clairsemés SPLADE.
Analyse comparative des modèles de reclassement : Comparaison des 8 meilleurs modèles
Nous avons comparé 8 modèles de reclassement sur environ 145 000 avis Amazon en anglais afin de mesurer l'amélioration apportée par une étape de reclassement à la recherche dense. Nous avons extrait les 100 meilleurs résultats avec la base de données multilingue e5, les avons reclassés avec chaque modèle, puis avons évalué les 10 meilleurs résultats par rapport à 300 requêtes, chacune faisant référence à des détails précis de son avis source.
Comparer les modèles de fondation relationnels
Nous avons comparé les performances de SAP-RPT-1-OSS à celles du gradient boosting (LightGBM, CatBoost) sur 17 jeux de données tabulaires couvrant le spectre sémantique et numérique, des tables de petite taille à forte sémantique, des jeux de données d'entreprise mixtes et de grands jeux de données numériques à faible sémantique. Notre objectif est de déterminer dans quels cas les a priori sémantiques pré-entraînés d'un LLM relationnel peuvent offrir des avantages par rapport aux modèles arborescents traditionnels et dans quels cas ils rencontrent des difficultés en cas de forte échelle ou de faible sémantique.
Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI
Les modèles d'intégration multimodale excellent dans l'identification des objets, mais peinent à appréhender les relations. Les modèles actuels ont du mal à distinguer un « téléphone sur une carte » d'une « carte sur un téléphone ». Nous avons évalué sept modèles de pointe sur les bases de données MS-COCO et Winoground afin de mesurer cette limitation spécifique. Pour garantir une comparaison équitable, chaque modèle a été évalué dans des conditions identiques, avec un matériel A40 et une précision bfloat16.
Les 10 meilleurs modèles d'intégration multilingues pour RAG
Nous avons évalué 10 modèles d'embeddings multilingues sur environ 606 000 avis Amazon dans 6 langues (allemand, anglais, espagnol, français, japonais et chinois). Nous avons généré 1 800 requêtes (300 par langue), chacune faisant référence à des détails précis de l'avis source.
Quantification LLM : BF16 vs FP8 vs INT4
Nous avons évalué les performances de Qwen3-32B à 4 niveaux de précision (BF16, FP8, GPTQ-Int8, GPTQ-Int4) sur un seul GPU NVIDIA H100 de 80 Go. Chaque configuration a été évaluée sur 2 benchmarks (environ 12 200 questions) couvrant la génération de connaissances et de code, ainsi que sur plus de 2 000 inférences pour mesurer le débit.
Test de performance simultanée des GPU : H100 vs H200 vs B200 vs MI300X
J'ai consacré les 20 dernières années à l'optimisation des performances de calcul au niveau système. Nous avons évalué les performances des GPU les plus récents (référence NVIDIA), notamment les H100, H200 et B200 (référence NVIDIA) et le MI300X (référence AMD), afin d'analyser leur passage à l'échelle en cas de concurrence. À l'aide du framework vLLM et du modèle gpt-oss-20b, nous avons testé la gestion de 1 à 512 requêtes simultanées par ces GPU.
Comparatif multi-GPU : B200 vs H200 vs H100 vs MI300X
Depuis plus de vingt ans, l'optimisation des performances de calcul est au cœur de mon travail. Nous avons comparé les performances des GPU B200, H200 et H100 (référence NVIDIA) et MI300X (référence AMD) afin d'évaluer leur capacité à gérer l'inférence de modèles de langage de grande taille (LLM). À l'aide du framework vLLM et du modèle meta-llama/Llama-3.1-8B-Instruct, nous avons effectué des tests sur 1, 2, 4 et 8 GPU.
Comparaison des performances graphiques et vectorielles
Vector RAG récupère les documents par similarité sémantique. Graph RAG y ajoute un graphe de connaissances, extrait les entités et les relations des documents, les stocke dans une base de données de graphes et utilise le parcours de graphes conjointement à la recherche vectorielle lors de l'exécution de la requête.
Outils d'observabilité RAG - Analyse comparative
Nous avons évalué quatre plateformes d'observabilité RAG sur un pipeline LangGraph à 7 nœuds selon trois dimensions pratiques : la latence, l'effort d'intégration et les compromis entre les plateformes. Métriques de latence : Explication des métriques : La moyenne correspond à la latence moyenne mesurée sur 150 appels à `graph.invoke()`. Les évaluations LLM-judge sont exécutées après l'arrêt du chronomètre. La médiane correspond au 50e percentile de la latence.
Newsletter AIMultiple
Un e-mail gratuit par semaine contenant les dernières actualités technologiques B2B et des analyses d'experts pour accélérer la croissance de votre entreprise.