Ekrem Sarı
Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y las LLMOps para marcos RAG.
Experiencia profesional
Durante su etapa como evaluador en Yandex, evaluó los resultados de búsqueda utilizando marcos de trabajo propios y protocolos automatizados. Implementó pruebas de control de calidad mediante la anotación de datos, la puntuación de relevancia y el mapeo de la intención del usuario en más de 10 000 consultas mensuales, al tiempo que realizaba evaluaciones técnicas, incluyendo la monitorización del rendimiento y la detección de spam mediante bucles de retroalimentación de aprendizaje automático.Intereses de investigación
En AIMultiple, su investigación se centra en el ciclo de vida de MLOps y en el rendimiento y la evaluación comparativa de sistemas de IA de extremo a extremo. Colabora en una amplia gama de proyectos, incluyendo la optimización de la Generación Aumentada por Recuperación (RAG), la evaluación comparativa exhaustiva de Modelos de Lenguaje a Gran Escala (LLM) y el diseño de marcos de IA basados en agentes. Ekrem se especializa en el desarrollo de metodologías basadas en datos para medir y mejorar el rendimiento de la tecnología de IA en métricas operativas críticas como la precisión, la eficiencia, el coste de la API y la escalabilidad. Su análisis abarca toda la pila tecnológica, desde componentes fundamentales como los modelos de incrustación y las bases de datos vectoriales hasta la GPU de alto rendimiento y la infraestructura en la nube necesarias para implementar agentes de IA.Educación
Ekrem tiene una licenciatura de Hacettepe Üniversitesi y una maestría de Başkent Üniversitesi.Últimos artículos de Ekrem
RAG híbrido: Mejorando la precisión del RAG
La búsqueda vectorial densa es excelente para capturar la intención semántica, pero a menudo tiene dificultades con consultas que requieren una alta precisión de palabras clave. Para cuantificar esta brecha, comparamos un recuperador estándar basado únicamente en vectores densos con un sistema RAG híbrido que incorpora vectores dispersos SPLADE.
Comparativa de Reranker: Los 8 mejores modelos comparados
Comparamos 8 modelos de reordenamiento con aproximadamente 145.000 reseñas en inglés de Amazon para medir cuánto mejora la recuperación densa una etapa de reordenamiento. Recuperamos los 100 candidatos principales con multilingual-e5-base, los reordenamos con cada modelo y evaluamos los 10 mejores resultados frente a 300 consultas, cada una haciendo referencia a detalles concretos de su reseña original.
Comparar modelos de fundamentos relacionales
Comparamos SAP-RPT-1-OSS con el método de potenciación de gradiente (LightGBM, CatBoost) en 17 conjuntos de datos tabulares que abarcan todo el espectro semántico-numérico: tablas pequeñas/de alta semántica, conjuntos de datos empresariales mixtos y grandes conjuntos de datos numéricos de baja semántica. Nuestro objetivo es determinar dónde las distribuciones semánticas preentrenadas de un modelo LLM relacional pueden ofrecer ventajas sobre los modelos de árbol tradicionales y dónde presentan dificultades en escala o con estructuras de baja semántica.
Modelos de incrustación multimodal: Apple vs Meta vs OpenAI
Los modelos de incrustación multimodal destacan en la identificación de objetos, pero tienen dificultades con las relaciones. Los modelos actuales tienen problemas para distinguir entre "teléfono en un mapa" y "mapa en un teléfono". Realizamos una evaluación comparativa de 7 modelos líderes en MS-COCO y Winoground para medir esta limitación específica. Para garantizar una comparación justa, evaluamos cada modelo en condiciones idénticas utilizando hardware A40 y precisión bfloat16.
Los 10 mejores modelos de incrustación multilingüe para RAG
Evaluamos 10 modelos de incrustación multilingües con aproximadamente 606 000 reseñas de Amazon en 6 idiomas (alemán, inglés, español, francés, japonés y chino). Generamos 1800 consultas (300 por idioma), cada una haciendo referencia a detalles concretos de su reseña de origen.
Cuantización LLM: BF16 vs FP8 vs INT4
Realizamos pruebas de rendimiento de Qwen3-32B en 4 niveles de precisión (BF16, FP8, GPTQ-Int8, GPTQ-Int4) en una única GPU NVIDIA H100 de 80 GB. Cada configuración se evaluó en 2 pruebas de rendimiento (~12.200 preguntas) que abarcan conocimiento y generación de código, además de más de 2.000 ejecuciones de inferencia para medir el rendimiento.
Prueba de rendimiento de concurrencia de GPU: H100 vs H200 vs B200 vs MI300X
He dedicado los últimos 20 años a la optimización del rendimiento computacional a nivel de sistema. Realizamos pruebas de rendimiento con las últimas GPU NVIDIA, incluidas las H100, H200 y B200 de la NVIDIA, y la MI300X de la AMD, para el análisis de escalado de concurrencia. Utilizando el marco vLLM con el modelo gpt-oss-20b, probamos cómo estas GPU manejan las solicitudes concurrentes, desde 1 hasta 512.
Prueba de rendimiento multi-GPU: B200 vs H200 vs H100 vs MI300X
Durante más de dos décadas, la optimización del rendimiento computacional ha sido un pilar fundamental de mi trabajo. Realizamos pruebas comparativas de los procesadores B200, H200 y H100 de NVIDIA, y del procesador MI300X de AMD para evaluar su escalabilidad en la inferencia de modelos de lenguaje a gran escala (LLM). Utilizando el marco de trabajo vLLM con el modelo meta-llama/Llama-3.1-8B-Instruct, ejecutamos pruebas en 1, 2, 4 y 8 GPU.
Comparativa RAG gráfica frente a RAG vectorial
Vector RAG recupera documentos por similitud semántica. Graph RAG añade un grafo de conocimiento, extrae entidades y relaciones de los documentos, las almacena en una base de datos de grafos y utiliza el recorrido del grafo junto con la búsqueda vectorial en el momento de la consulta.
Evaluación comparativa de herramientas de observabilidad RAG
Realizamos pruebas comparativas de cuatro plataformas de observabilidad RAG en una canalización LangGraph de 7 nodos en tres dimensiones prácticas: sobrecarga de latencia, esfuerzo de integración y compensaciones entre plataformas. Métricas de sobrecarga de latencia Explicación de las métricas: La media es la latencia promedio en 150 llamadas a graph.invoke() medidas. Las evaluaciones de LLM-judge se ejecutan después de que finaliza el temporizador. La mediana es la latencia del percentil 50.
Boletín informativo de AIMultiple
Reciba un correo electrónico gratuito a la semana con las últimas noticias tecnológicas B2B y análisis de expertos para impulsar su empresa.