Ekrem Sarı
Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et le LLMOps pour les frameworks RAG.
Expérience professionnelle
Durant son poste d'évaluateur chez Yandex, il a analysé les résultats de recherche à l'aide de frameworks propriétaires et de protocoles automatisés. Il a mis en œuvre des tests d'assurance qualité par l'annotation de données, l'attribution de scores de pertinence et la cartographie de l'intention de l'utilisateur sur plus de 10 000 requêtes mensuelles, tout en réalisant des évaluations techniques, notamment le suivi des performances et la détection de spam grâce à des boucles de rétroaction d'apprentissage automatique.Intérêts de recherche
Chez AIMultiple, ses recherches portent sur le cycle de vie MLOps et l'évaluation des performances des systèmes d'IA de bout en bout. Il contribue à de nombreux projets, notamment l'optimisation de la génération augmentée par la recherche (RAG), l'évaluation comparative de modèles de langage étendus (LLM) et la conception de frameworks d'IA agentiques. Ekrem est spécialisé dans le développement de méthodologies basées sur les données pour mesurer et améliorer les performances des technologies d'IA selon des indicateurs opérationnels critiques tels que la précision, l'efficacité, le coût des API et la scalabilité. Son analyse couvre l'ensemble de la pile technologique, des composants fondamentaux comme les modèles embarqués et les bases de données vectorielles jusqu'à l'infrastructure GPU et cloud haute performance nécessaire au déploiement des agents d'IA.Éducation
Ekrem est titulaire d'un baccalauréat de l'université Hacettepe et d'une maîtrise de l'université Başkent.Derniers articles de Ekrem
Meilleure base de données vectorielles pour RAG : Qdrant vs Weaviate vs Pinecone
Les bases de données vectorielles alimentent la couche de recherche des flux de travail RAG en stockant les représentations vectorielles des documents et des requêtes sous forme de vecteurs de grande dimension. Elles permettent des recherches de similarité rapides basées sur les distances vectorielles. Nous avons comparé six fournisseurs de bases de données vectorielles, en nous concentrant sur leurs structures tarifaires et leurs performances : Comparaison des bases de données vectorielles : Tarification et performances.
Comparer les modèles de fondation relationnels
Nous avons comparé les performances de SAP-RPT-1-OSS à celles du gradient boosting (LightGBM, CatBoost) sur 17 jeux de données tabulaires couvrant le spectre sémantique et numérique, des tables de petite taille à forte sémantique, des jeux de données d'entreprise mixtes et de grands jeux de données numériques à faible sémantique. Notre objectif est de déterminer dans quels cas les a priori sémantiques pré-entraînés d'un LLM relationnel peuvent offrir des avantages par rapport aux modèles arborescents traditionnels et dans quels cas ils rencontrent des difficultés en cas de forte échelle ou de faible sémantique.
Les 10 meilleurs modèles d'intégration multilingues pour RAG
Nous avons évalué 10 modèles d'embeddings multilingues sur environ 606 000 avis Amazon dans 6 langues (allemand, anglais, espagnol, français, japonais et chinois). Nous avons généré 1 800 requêtes (300 par langue), chacune faisant référence à des détails précis de l'avis source.
Quantification LLM : BF16 vs FP8 vs INT4
Nous avons évalué les performances de Qwen3-32B à 4 niveaux de précision (BF16, FP8, GPTQ-Int8, GPTQ-Int4) sur un seul GPU NVIDIA H100 de 80 Go. Chaque configuration a été évaluée sur 2 benchmarks (environ 12 200 questions) couvrant la génération de connaissances et de code, ainsi que sur plus de 2 000 inférences pour mesurer le débit.
Test de performance simultanée des GPU : H100 vs H200 vs B200 vs MI300X
J'ai consacré les 20 dernières années à l'optimisation des performances de calcul au niveau système. Nous avons évalué les performances des GPU les plus récents (référence NVIDIA), notamment les H100, H200 et B200 (référence NVIDIA) et le MI300X (référence AMD), afin d'analyser leur passage à l'échelle en cas de concurrence. À l'aide du framework vLLM et du modèle gpt-oss-20b, nous avons testé la gestion de 1 à 512 requêtes simultanées par ces GPU.
Comparatif multi-GPU : B200 vs H200 vs H100 vs MI300X
Depuis plus de vingt ans, l'optimisation des performances de calcul est au cœur de mon travail. Nous avons comparé les performances des GPU B200, H200 et H100 (référence NVIDIA) et MI300X (référence AMD) afin d'évaluer leur capacité à gérer l'inférence de modèles de langage de grande taille (LLM). À l'aide du framework vLLM et du modèle meta-llama/Llama-3.1-8B-Instruct, nous avons effectué des tests sur 1, 2, 4 et 8 GPU.
Comparaison des performances graphiques et vectorielles
Vector RAG récupère les documents par similarité sémantique. Graph RAG y ajoute un graphe de connaissances, extrait les entités et les relations des documents, les stocke dans une base de données de graphes et utilise le parcours de graphes conjointement à la recherche vectorielle lors de l'exécution de la requête.
Outils d'évaluation RAG : Pondération et biais vs Ragas vs DeepEval
Lorsqu'un pipeline RAG récupère un contexte incorrect, le LLM génère une réponse erronée. Les outils d'évaluation de la pertinence du contexte constituent la principale défense. Nous avons comparé cinq outils sur 1 460 questions et plus de 14 600 contextes évalués dans des conditions identiques : même modèle de juge (GPT-4o), configurations par défaut et aucune invite personnalisée. Dans des conditions standard, WandB, TruLens et Ragas se sont avérés les plus performants.
Meilleurs outils, frameworks et bibliothèques RAG
La génération augmentée par récupération (RAG) améliore les réponses des modèles de langage naturel (LLM) en intégrant des sources de données externes. Nous avons comparé différents modèles d'intégration et testé séparément diverses tailles de segments afin de déterminer les combinaisons les plus performantes pour les systèmes RAG. Découvrez les principaux frameworks et outils RAG, apprenez-en davantage sur le fonctionnement, les avantages et le rôle de la RAG dans le paysage actuel des LLM.
Navigateurs distants : Comparaison des infrastructures web pour les agents d'IA
Les agents d'IA s'appuient sur des navigateurs distants pour automatiser les tâches web sans être bloqués par les mesures anti-scraping. La performance de cette infrastructure de navigateur est cruciale pour le succès d'un agent. Nous avons évalué 8 fournisseurs selon leur taux de réussite, leur vitesse et leurs fonctionnalités. Pour ce faire, nous avons exécuté 160 tâches automatisées, en répétant 4 scénarios distincts 5 fois pour chaque service.
Newsletter AIMultiple
Un e-mail gratuit par semaine contenant les dernières actualités technologiques B2B et des analyses d'experts pour accélérer la croissance de votre entreprise.