Ekrem Sarı
Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et le LLMOps pour les frameworks RAG.
Expérience professionnelle
Durant son poste d'évaluateur chez Yandex, il a analysé les résultats de recherche à l'aide de frameworks propriétaires et de protocoles automatisés. Il a mis en œuvre des tests d'assurance qualité par l'annotation de données, l'attribution de scores de pertinence et la cartographie de l'intention de l'utilisateur sur plus de 10 000 requêtes mensuelles, tout en réalisant des évaluations techniques, notamment le suivi des performances et la détection de spam grâce à des boucles de rétroaction d'apprentissage automatique.Intérêts de recherche
Chez AIMultiple, ses recherches portent sur le cycle de vie MLOps et l'évaluation des performances des systèmes d'IA de bout en bout. Il contribue à de nombreux projets, notamment l'optimisation de la génération augmentée par la recherche (RAG), l'évaluation comparative de modèles de langage étendus (LLM) et la conception de frameworks d'IA agentiques. Ekrem est spécialisé dans le développement de méthodologies basées sur les données pour mesurer et améliorer les performances des technologies d'IA selon des indicateurs opérationnels critiques tels que la précision, l'efficacité, le coût des API et la scalabilité. Son analyse couvre l'ensemble de la pile technologique, des composants fondamentaux comme les modèles embarqués et les bases de données vectorielles jusqu'à l'infrastructure GPU et cloud haute performance nécessaire au déploiement des agents d'IA.Éducation
Ekrem est titulaire d'un baccalauréat de l'université Hacettepe et d'une maîtrise de l'université Başkent.Derniers articles de Ekrem
Outils d'évaluation RAG : Pondération et biais vs RAG vs DeepEval
Lorsqu'un pipeline RAG récupère un contexte incorrect, le LLM génère une réponse erronée. Les outils d'évaluation de la pertinence du contexte constituent la principale défense. Nous avons comparé cinq outils sur 1 460 questions et plus de 14 600 contextes évalués dans des conditions identiques : même modèle de juge (GPT-4o), configurations par défaut et aucune invite personnalisée. Dans des conditions standard, WandB, TruLens et Ragas se sont avérés les plus performants.
Réglage fin supervisé vs apprentissage par renforcement
Les grands modèles de langage peuvent-ils internaliser des règles de décision jamais explicitement formulées ? Pour étudier cette question, nous avons conçu une expérience dans laquelle un modèle à 14 milliards de paramètres a été entraîné sur une règle cachée de « priorité VIP » au sein d’une tâche de décision de crédit, sans aucune description explicite de la règle.
Meilleurs outils, frameworks et bibliothèques RAG
La génération augmentée par récupération (RAG) améliore les réponses des modèles de langage naturel (LLM) en intégrant des sources de données externes. Nous avons comparé différents modèles d'intégration et testé séparément diverses tailles de segments afin de déterminer les combinaisons les plus performantes pour les systèmes RAG. Découvrez les principaux frameworks et outils RAG, apprenez-en davantage sur le fonctionnement, les avantages et le rôle de la RAG dans le paysage actuel des LLM.
Navigateurs distants : Comparaison des infrastructures web pour les agents d'IA
Les agents d'IA s'appuient sur des navigateurs distants pour automatiser les tâches web sans être bloqués par les mesures anti-scraping. La performance de cette infrastructure de navigateur est cruciale pour le succès d'un agent. Nous avons évalué 8 fournisseurs selon leur taux de réussite, leur vitesse et leurs fonctionnalités. Pour ce faire, nous avons exécuté 160 tâches automatisées, en répétant 4 scénarios distincts 5 fois pour chaque service.
Frameworks RAG : LangChain vs LangGraph vs LlamaIndex
Nous avons évalué cinq frameworks RAG : LangChain, LangGraph, LlamaIndex, Haystack et DSPy, en construisant le même flux de travail RAG multi-agents avec des composants standardisés : modèles identiques (GPT-4.1-mini), plongements lexicaux (BGE-small), récupérateur (Qdrant) et outils (recherche web Tavily). Cela permet d’isoler la surcharge réelle et l’efficacité de chaque framework en termes de jetons.
Meilleures fonctions sans serveur : Vercel vs Azure vs AWS
Les fonctions sans serveur permettent aux développeurs d'exécuter du code sans avoir à gérer de serveur. Ils peuvent ainsi se concentrer sur le développement et le déploiement d'applications, tandis que la mise à l'échelle et la maintenance de l'infrastructure sont gérées automatiquement en arrière-plan. Dans ce test comparatif, nous avons évalué sept fournisseurs de services cloud populaires en suivant notre méthodologie afin de tester les performances de leurs fonctions sans serveur.
Newsletter AIMultiple
Un e-mail gratuit par semaine contenant les dernières actualités technologiques B2B et des analyses d'experts pour accélérer la croissance de votre entreprise.