Services
Contactez-nous
Ekrem Sarı

Ekrem Sarı

Chercheur en IA
31 Articles
Restez informé des dernières technologies B2B

Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et le LLMOps pour les frameworks RAG.

Expérience professionnelle

Durant son poste d'évaluateur chez Yandex, il a analysé les résultats de recherche à l'aide de frameworks propriétaires et de protocoles automatisés. Il a mis en œuvre des tests d'assurance qualité par l'annotation de données, l'attribution de scores de pertinence et la cartographie de l'intention de l'utilisateur sur plus de 10 000 requêtes mensuelles, tout en réalisant des évaluations techniques, notamment le suivi des performances et la détection de spam grâce à des boucles de rétroaction d'apprentissage automatique.

Intérêts de recherche

Chez AIMultiple, ses recherches portent sur le cycle de vie MLOps et l'évaluation des performances des systèmes d'IA de bout en bout. Il contribue à de nombreux projets, notamment l'optimisation de la génération augmentée par la recherche (RAG), l'évaluation comparative de modèles de langage étendus (LLM) et la conception de frameworks d'IA agentiques. Ekrem est spécialisé dans le développement de méthodologies basées sur les données pour mesurer et améliorer les performances des technologies d'IA selon des indicateurs opérationnels critiques tels que la précision, l'efficacité, le coût des API et la scalabilité. Son analyse couvre l'ensemble de la pile technologique, des composants fondamentaux comme les modèles embarqués et les bases de données vectorielles jusqu'à l'infrastructure GPU et cloud haute performance nécessaire au déploiement des agents d'IA.

Éducation

Ekrem est titulaire d'un baccalauréat de l'université Hacettepe et d'une maîtrise de l'université Başkent.

Derniers articles de Ekrem

IAMai 20

Indice des prix de location de GPU cloud

Les tarifs à la demande des GPU cloud de dernière génération (B200, B300, MI300X, RTX 5090) ont quasiment doublé au cours de l'année écoulée, tandis que ceux des cartes grand public (H100, H200, A100) sont restés relativement stables. Nous établissons mensuellement l'indice des GPU à partir des données de 58 fournisseurs et 17 modèles, couvrant les offres à la demande, au comptant et les réservations d'un an. Évolution des prix par génération de GPU.

IAMai 20

Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI

Les modèles d'intégration multimodale excellent dans l'identification des objets, mais peinent à appréhender les relations. Les modèles actuels ont du mal à distinguer un « téléphone sur une carte » d'une « carte sur un téléphone ». Nous avons évalué sept modèles de pointe sur les bases de données MS-COCO et Winoground afin de mesurer cette limitation. Pour garantir une comparaison équitable, chaque modèle a été évalué dans des conditions identiques, avec un matériel A40 et une précision de 16 bits (bfloat16).

IAMai 20

GPU cloud pour l'apprentissage profond : disponibilité et prix/performances

Si le choix du modèle de GPU vous importe peu, identifiez le GPU cloud le plus rentable grâce à notre comparatif de 10 modèles de GPU pour la génération et l'optimisation d'images et de textes. Prix des GPU cloud par débit : deux modèles de tarification courants sont proposés pour les GPU : les instances « à la demande » et les instances « spot ».

IAMai 14

Analyse comparative des modèles de reclassement : Comparaison des 8 meilleurs modèles

Nous avons comparé 8 modèles de reclassement sur environ 145 000 avis Amazon en anglais afin de mesurer l'amélioration apportée par une étape de reclassement à la recherche dense. Nous avons extrait les 100 meilleurs résultats avec la base de données multilingue e5, les avons reclassés avec chaque modèle, puis avons évalué les 10 meilleurs résultats par rapport à 300 requêtes, chacune faisant référence à des détails précis de son avis source.

IAMai 14

Hybrid RAG: Amélioration de la précision RAG

Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.

IAMai 13

Réglage fin supervisé vs apprentissage par renforcement

Les grands modèles de langage peuvent-ils internaliser des règles de décision jamais explicitement formulées ? Pour étudier cette question, nous avons conçu une expérience dans laquelle un modèle à 14 milliards de paramètres a été entraîné sur une règle cachée de « priorité VIP » au sein d’une tâche de décision de crédit, sans aucune description explicite de la règle.

IAMai 1

Modèles d'intégration : OpenAI vs Gemini vs Cohere

L'efficacité de tout système de génération augmentée par la recherche (RAG) dépend de la précision de son modèle de recherche. Nous avons évalué 11 modèles d'intégration de texte de pointe, notamment ceux de OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral et Voyage AI, à l'aide d'environ 500 000 avis Amazon. Nous avons évalué la capacité de chaque modèle à retrouver et à classer la bonne réponse en premier.

IAAvr 26

Modèles d'intégration open source de référence pour RAG

Nous avons comparé les performances de 14 modèles d'embeddings open source, hébergés sur un seul serveur H100, à travers plus de 500 requêtes de recherche sélectionnées manuellement, couvrant des contrats juridiques, des notes techniques de support client et des résumés médicaux. Llama-Embed-Nemotron-8B (NVIDIA) offre la meilleure précision. Côté coût, EmbeddingGemma-300m (Google) est environ quatre fois moins cher que Nemotron, au prix d'une légère perte de précision.

DonnéesAvr 24

Comparatif de bases de données graphiques : Neo4j vs FalkorDB vs Memgraph

Nous avons comparé les performances de Neo4j, FalkorDB et Memgraph sur un graphe synthétique dérivé de 120 000 avis de produits Amazon (381 000 nœuds, 804 000 arêtes). Nous avons exécuté 12 modèles de requêtes avec 1 000 mesures chacun, testé l’ingestion avec 6 tailles de lots différentes, maintenu une charge concurrente pendant 60 secondes avec jusqu’à 32 threads, et mesuré la mémoire, le temps de démarrage à froid, la charge de travail mixte et l’indexation.

IAAvr 24

Moteurs d'inférence LLM : vLLM vs LMDeploy vs SGLang

Nous avons comparé les performances de trois moteurs d'inférence LLM de pointe sur H100 (NVIDIA) : vLLM, LMDeploy et SGLang. Chaque moteur a traité une charge de travail identique : 1 000 requêtes ShareGPT avec Llama 3.1 8B-Instruct afin d'isoler l'impact réel de leurs choix architecturaux et stratégies d'optimisation sur les performances.