Ekrem Sarı
Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y las LLMOps para marcos RAG.
Experiencia profesional
Durante su etapa como evaluador en Yandex, evaluó los resultados de búsqueda utilizando marcos de trabajo propios y protocolos automatizados. Implementó pruebas de control de calidad mediante la anotación de datos, la puntuación de relevancia y el mapeo de la intención del usuario en más de 10 000 consultas mensuales, al tiempo que realizaba evaluaciones técnicas, incluyendo la monitorización del rendimiento y la detección de spam mediante bucles de retroalimentación de aprendizaje automático.Intereses de investigación
En AIMultiple, su investigación se centra en el ciclo de vida de MLOps y en el rendimiento y la evaluación comparativa de sistemas de IA de extremo a extremo. Colabora en una amplia gama de proyectos, incluyendo la optimización de la Generación Aumentada por Recuperación (RAG), la evaluación comparativa exhaustiva de Modelos de Lenguaje a Gran Escala (LLM) y el diseño de marcos de IA basados en agentes. Ekrem se especializa en el desarrollo de metodologías basadas en datos para medir y mejorar el rendimiento de la tecnología de IA en métricas operativas críticas como la precisión, la eficiencia, el coste de la API y la escalabilidad. Su análisis abarca toda la pila tecnológica, desde componentes fundamentales como los modelos de incrustación y las bases de datos vectoriales hasta la GPU de alto rendimiento y la infraestructura en la nube necesarias para implementar agentes de IA.Educación
Ekrem tiene una licenciatura de Hacettepe Üniversitesi y una maestría de Başkent Üniversitesi.Últimos artículos de Ekrem
Email Archiving Software Benchmark
We provisioned a Microsoft 365 tenant, populated it with a 10,000-mail synthetic corpus and 1,700 attachments across 8 file-type subtypes, then benchmarked NinjaOne SaaS Archiver, Barracuda Cloud Archiving Service, Acronis Cyber Protect Cloud Email Archiving, and MailPiler on the same tenant against 10 dimensions covering ingestion, search, attachment recall, export, immutability, legal hold, audit, encryption,
Conversión de texto a SQL: Comparación de la precisión de LLM
Llevo 18 años utilizando SQL para el análisis de datos, desde mis inicios como consultor. Traducir preguntas en lenguaje natural a SQL facilita el acceso a los datos, permitiendo que cualquier persona, incluso sin conocimientos técnicos, trabaje directamente con bases de datos.
Más de 20 marcos RAG agenciales
Agentic RAG mejora el RAG tradicional al optimizar el rendimiento de LLM y permitir una mayor especialización. Realizamos una prueba comparativa para evaluar su rendimiento en el enrutamiento entre múltiples bases de datos y la generación de consultas. Explore los marcos y bibliotecas de Agentic RAG, las principales diferencias con el RAG estándar, los beneficios y los desafíos para aprovechar todo su potencial.
Comparativa de 38 másteres en finanzas: Claude Opus 4.6, Gemini 3.1 Pro y más.
Evaluamos 38 modelos de aprendizaje por contrato (LLM) en finanzas con 238 preguntas difíciles del conjunto de datos de referencia FinanceReasoning para identificar qué modelos sobresalen en tareas complejas de razonamiento financiero, como el análisis de estados financieros, la previsión y el cálculo de ratios. Descripción general del conjunto de datos de referencia de LLM en finanzas: Evaluamos los LLM con 238 preguntas difíciles del conjunto de datos de referencia FinanceReasoning (Tang et al.).
Análisis de DLP: Pruebas comparativas de 6 productos DLP
Aprovechando mis dos décadas de experiencia como profesional de la ciberseguridad, seleccioné el mejor software DLP para proteger información confidencial y cumplir con las normativas. Probé seis soluciones DLP durante un mes, centrándome en características clave como la cobertura de canales, la facilidad de implementación y la precisión de la clasificación.
Evaluación comparativa de herramientas de observabilidad RAG
Realizamos pruebas comparativas de cuatro plataformas de observabilidad RAG en una canalización LangGraph de 7 nodos en tres dimensiones prácticas: sobrecarga de latencia, esfuerzo de integración y compensaciones entre plataformas. Métricas de sobrecarga de latencia Explicación de las métricas: La media es la latencia promedio en 150 llamadas a graph.invoke() medidas. Las evaluaciones de LLM-judge se ejecutan después de que finaliza el temporizador. La mediana es la latencia del percentil 50.
Marcos de trabajo RAG: LangChain vs LangGraph vs LlamaIndex
Realizamos una evaluación comparativa de 5 marcos RAG: LangChain, LangGraph, LlamaIndex, Haystack y DSPy, mediante la creación del mismo flujo de trabajo RAG con agentes y componentes estandarizados: modelos idénticos (GPT-4.1-mini), incrustaciones (BGE-small), recuperador (Qdrant) y herramientas (búsqueda web Tavily). Esto permite aislar la sobrecarga real y la eficiencia de tokens de cada marco. Resultados de la evaluación comparativa de los marcos RAG.
Búsqueda basada en agentes en: Evaluación comparativa de 8 API de búsqueda para agentes
La búsqueda automatizada desempeña un papel crucial para cerrar la brecha entre los motores de búsqueda tradicionales y las capacidades de búsqueda de la IA. Estos sistemas permiten a los agentes de IA encontrar, recuperar y estructurar de forma autónoma información relevante, impulsando aplicaciones que van desde la asistencia en investigación hasta la monitorización en tiempo real y el razonamiento multietapa.
Backup software benchmark: Acronis vs NinjaOne vs Comet vs MSP360
We benchmarked Acronis Cyber Protect Cloud Backup, Comet Backup, MSP360 Managed Backup, and NinjaOne Backup on identical AWS infrastructure. Each vendor ran a file-mode backup of the same 625,946-file / 50 GB workload and a full image backup of the system disk, then restored the 15 GB medium subdirectory.
Índice de precios de alquiler de GPU en la nube
Las tarifas bajo demanda para las GPU en la nube de última generación (B200, B300, MI300X, RTX 5090) prácticamente se duplicaron durante el último año, mientras que las tarjetas convencionales (H100, H200, A100) mantuvieron precios estables. Recopilamos mensualmente el índice de GPU de 58 proveedores y 17 modelos de GPU, que abarca niveles bajo demanda, spot y de reserva anual.
Boletín informativo de AIMultiple
Reciba un correo electrónico gratuito a la semana con las últimas noticias tecnológicas B2B y análisis de expertos para impulsar su empresa.