Contactez-nous
Aucun résultat trouvé.
Ekrem Sarı

Ekrem Sarı

Chercheur en IA
26 Articles
Restez informé des dernières technologies B2B

Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et le LLMOps pour les frameworks RAG.

Expérience professionnelle

Durant son poste d'évaluateur chez Yandex, il a analysé les résultats de recherche à l'aide de frameworks propriétaires et de protocoles automatisés. Il a mis en œuvre des tests d'assurance qualité par l'annotation de données, l'attribution de scores de pertinence et la cartographie de l'intention de l'utilisateur sur plus de 10 000 requêtes mensuelles, tout en réalisant des évaluations techniques, notamment le suivi des performances et la détection de spam grâce à des boucles de rétroaction d'apprentissage automatique.

Intérêts de recherche

Chez AIMultiple, ses recherches portent sur le cycle de vie MLOps et l'évaluation des performances des systèmes d'IA de bout en bout. Il contribue à de nombreux projets, notamment l'optimisation de la génération augmentée par la recherche (RAG), l'évaluation comparative de modèles de langage étendus (LLM) et la conception de frameworks d'IA agentiques. Ekrem est spécialisé dans le développement de méthodologies basées sur les données pour mesurer et améliorer les performances des technologies d'IA selon des indicateurs opérationnels critiques tels que la précision, l'efficacité, le coût des API et la scalabilité. Son analyse couvre l'ensemble de la pile technologique, des composants fondamentaux comme les modèles embarqués et les bases de données vectorielles jusqu'à l'infrastructure GPU et cloud haute performance nécessaire au déploiement des agents d'IA.

Éducation

Ekrem est titulaire d'un baccalauréat de l'université Hacettepe et d'une maîtrise de l'université Başkent.

Derniers articles de Ekrem

IAMar 23

Outils d'évaluation RAG : Pondération et biais vs RAG vs DeepEval

Lorsqu'un pipeline RAG récupère un contexte incorrect, le LLM génère une réponse erronée. Les outils d'évaluation de la pertinence du contexte constituent la principale défense. Nous avons comparé cinq outils sur 1 460 questions et plus de 14 600 contextes évalués dans des conditions identiques : même modèle de juge (GPT-4o), configurations par défaut et aucune invite personnalisée. Dans des conditions standard, WandB, TruLens et Ragas se sont avérés les plus performants.

IAMar 5

Réglage fin supervisé vs apprentissage par renforcement

Les grands modèles de langage peuvent-ils internaliser des règles de décision jamais explicitement formulées ? Pour étudier cette question, nous avons conçu une expérience dans laquelle un modèle à 14 milliards de paramètres a été entraîné sur une règle cachée de « priorité VIP » au sein d’une tâche de décision de crédit, sans aucune description explicite de la règle.

IAFév 4

Meilleurs outils, frameworks et bibliothèques RAG

La génération augmentée par récupération (RAG) améliore les réponses des modèles de langage naturel (LLM) en intégrant des sources de données externes. Nous avons comparé différents modèles d'intégration et testé séparément diverses tailles de segments afin de déterminer les combinaisons les plus performantes pour les systèmes RAG. Découvrez les principaux frameworks et outils RAG, apprenez-en davantage sur le fonctionnement, les avantages et le rôle de la RAG dans le paysage actuel des LLM.

DonnéesJan 30

Navigateurs distants : Comparaison des infrastructures web pour les agents d'IA

Les agents d'IA s'appuient sur des navigateurs distants pour automatiser les tâches web sans être bloqués par les mesures anti-scraping. La performance de cette infrastructure de navigateur est cruciale pour le succès d'un agent. Nous avons évalué 8 fournisseurs selon leur taux de réussite, leur vitesse et leurs fonctionnalités. Pour ce faire, nous avons exécuté 160 tâches automatisées, en répétant 4 scénarios distincts 5 fois pour chaque service.

IAJan 29

Frameworks RAG : LangChain vs LangGraph vs LlamaIndex

Nous avons évalué cinq frameworks RAG : LangChain, LangGraph, LlamaIndex, Haystack et DSPy, en construisant le même flux de travail RAG multi-agents avec des composants standardisés : modèles identiques (GPT-4.1-mini), plongements lexicaux (BGE-small), récupérateur (Qdrant) et outils (recherche web Tavily). Cela permet d’isoler la surcharge réelle et l’efficacité de chaque framework en termes de jetons.

Logiciel d'entrepriseJan 21

Meilleures fonctions sans serveur : Vercel vs Azure vs AWS

Les fonctions sans serveur permettent aux développeurs d'exécuter du code sans avoir à gérer de serveur. Ils peuvent ainsi se concentrer sur le développement et le déploiement d'applications, tandis que la mise à l'échelle et la maintenance de l'infrastructure sont gérées automatiquement en arrière-plan. Dans ce test comparatif, nous avons évalué sept fournisseurs de services cloud populaires en suivant notre méthodologie afin de tester les performances de leurs fonctions sans serveur.