Ekrem Sarı
Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y las LLMOps para marcos RAG.
Experiencia profesional
Durante su etapa como evaluador en Yandex, evaluó los resultados de búsqueda utilizando marcos de trabajo propios y protocolos automatizados. Implementó pruebas de control de calidad mediante la anotación de datos, la puntuación de relevancia y el mapeo de la intención del usuario en más de 10 000 consultas mensuales, al tiempo que realizaba evaluaciones técnicas, incluyendo la monitorización del rendimiento y la detección de spam mediante bucles de retroalimentación de aprendizaje automático.Intereses de investigación
En AIMultiple, su investigación se centra en el ciclo de vida de MLOps y en el rendimiento y la evaluación comparativa de sistemas de IA de extremo a extremo. Colabora en una amplia gama de proyectos, incluyendo la optimización de la Generación Aumentada por Recuperación (RAG), la evaluación comparativa exhaustiva de Modelos de Lenguaje a Gran Escala (LLM) y el diseño de marcos de IA basados en agentes. Ekrem se especializa en el desarrollo de metodologías basadas en datos para medir y mejorar el rendimiento de la tecnología de IA en métricas operativas críticas como la precisión, la eficiencia, el coste de la API y la escalabilidad. Su análisis abarca toda la pila tecnológica, desde componentes fundamentales como los modelos de incrustación y las bases de datos vectoriales hasta la GPU de alto rendimiento y la infraestructura en la nube necesarias para implementar agentes de IA.Educación
Ekrem tiene una licenciatura de Hacettepe Üniversitesi y una maestría de Başkent Üniversitesi.Últimos artículos de Ekrem
Búsqueda Agéntica: Benchmark de 8 APIs de Búsqueda para Agentes
Agentic search plays a crucial role in bridging the gap between traditional search engines and AI search capabilities. These systems enable AI agents to autonomously find, retrieve, and structure relevant information, powering applications from research assistance to real-time monitoring and multi-step reasoning.
Prueba de referencia de 39 LLMs en Finanzas: Claude Opus 4.7, Gemini 3.1 Pro & Más
We evaluated 39 LLMs in finance on 238 hard questions from the FinanceReasoning benchmark to identify which models excel at complex financial reasoning tasks like statement analysis, forecasting, and ratio calculations. LLM finance benchmark overview We evaluated LLMs on 238 hard questions from the FinanceReasoning benchmark (Tang et al.).
Comparación de software de copia de seguridad: Acronis vs NinjaOne vs Comet vs MSP360
We benchmarked Acronis Cyber Protect Cloud Backup, Comet Backup, MSP360 Managed Backup, and NinjaOne Backup on identical AWS infrastructure. Each vendor ran a file-mode backup of the same 625,946-file / 50 GB workload and a full image backup of the system disk, then restored the 15 GB medium subdirectory.
Índice de precios de alquiler de GPU en la nube
On-demand rates for the newest-generation cloud GPUs (B200, B300, MI300X, RTX 5090) roughly doubled over the past year, while mainstream cards (H100, H200, A100) held a tight band. We compile the GPU index monthly from 58 providers and 17 GPU models, covering on-demand, spot, and 1-year reserved tiers.
Modelos de incrustación multimodal: Apple vs Meta vs OpenAI
Multimodal embedding models excel at identifying objects but struggle with relationships. Current models struggle to distinguish “phone on a map” from “map on a phone.” We benchmarked 7 leading models across MS-COCO and Winoground to measure this specific limitation. To ensure a fair comparison, we evaluated every model under identical conditions using NVIDIA A40 hardware and bfloat16 precision.
Principales 20+ Frameworks de RAG Agéntico
Agentic RAG enhances traditional RAG by boosting LLM performance and enabling greater specialization. We conducted a benchmark to assess its performance on routing between multiple databases and generating queries. Explore agentic RAG frameworks and libraries, key differences from standard RAG, benefits, and challenges to unlock their full potential.
Precios de GPU en la nube, rendimiento y comparación de proveedores
Cloud GPU list prices for the same model can differ several times over from one provider to another. We curated the lowest rate, provider, market range, and median for 40+ GPU configurations across all three pricing tiers, plus a throughput-per-dollar benchmark on 10 models.
Benchmark de Reranker: Comparación de los 8 Mejores Modelos
We benchmarked 8 reranker models on ~145k English Amazon reviews to measure how much a reranking stage improves dense retrieval. We retrieved top-100 candidates with multilingual-e5-base, reranked them with each model, and evaluated the top-10 results against 300 queries, each referencing concrete details from its source review. The best reranker lifted Hit@1 from 62.
RAG híbrido: Mejorando la precisión del RAG
La búsqueda vectorial densa es excelente para capturar la intención semántica, pero a menudo tiene dificultades con consultas que requieren una alta precisión de palabras clave. Para cuantificar esta brecha, comparamos un recuperador estándar basado únicamente en vectores densos con un sistema RAG híbrido que incorpora vectores dispersos SPLADE.
Principales 60+ proveedores de GPU en la nube
Cloud GPU providers fall into three tiers. Hyperscalers run broad cloud platforms with GPU rental as one product among many. Specialist neoclouds focus on GPU and AI infrastructure as their core product. Community marketplaces aggregate inventory from many small operators, often at the floor of the published price spread.
Boletín informativo de AIMultiple
Reciba un correo electrónico gratuito a la semana con las últimas noticias tecnológicas B2B y análisis de expertos para impulsar su empresa.