Servicios
Contáctanos
Ekrem Sarı

Ekrem Sarı

Investigador de IA
31 Artículos
Mantente al día sobre tecnología B2B.

Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y las LLMOps para marcos RAG.

Experiencia profesional

Durante su etapa como evaluador en Yandex, evaluó los resultados de búsqueda utilizando marcos de trabajo propios y protocolos automatizados. Implementó pruebas de control de calidad mediante la anotación de datos, la puntuación de relevancia y el mapeo de la intención del usuario en más de 10 000 consultas mensuales, al tiempo que realizaba evaluaciones técnicas, incluyendo la monitorización del rendimiento y la detección de spam mediante bucles de retroalimentación de aprendizaje automático.

Intereses de investigación

En AIMultiple, su investigación se centra en el ciclo de vida de MLOps y en el rendimiento y la evaluación comparativa de sistemas de IA de extremo a extremo. Colabora en una amplia gama de proyectos, incluyendo la optimización de la Generación Aumentada por Recuperación (RAG), la evaluación comparativa exhaustiva de Modelos de Lenguaje a Gran Escala (LLM) y el diseño de marcos de IA basados en agentes. Ekrem se especializa en el desarrollo de metodologías basadas en datos para medir y mejorar el rendimiento de la tecnología de IA en métricas operativas críticas como la precisión, la eficiencia, el coste de la API y la escalabilidad. Su análisis abarca toda la pila tecnológica, desde componentes fundamentales como los modelos de incrustación y las bases de datos vectoriales hasta la GPU de alto rendimiento y la infraestructura en la nube necesarias para implementar agentes de IA.

Educación

Ekrem tiene una licenciatura de Hacettepe Üniversitesi y una maestría de Başkent Üniversitesi.

Últimos artículos de Ekrem

AIAbr 24

Base de datos de vectores principal para RAG: Qdrant vs Weaviate vs Pinecone

Las bases de datos vectoriales impulsan la capa de recuperación en los flujos de trabajo RAG al almacenar incrustaciones de documentos y consultas como vectores de alta dimensión. Permiten búsquedas rápidas de similitud basadas en distancias vectoriales. Realizamos una evaluación comparativa de seis proveedores de bases de datos vectoriales, centrándonos en sus estructuras de precios y rendimiento: Comparación de bases de datos vectoriales: Precios y rendimiento.

AIAbr 15

Comparar modelos de fundamentos relacionales

Comparamos SAP-RPT-1-OSS con el método de potenciación de gradiente (LightGBM, CatBoost) en 17 conjuntos de datos tabulares que abarcan todo el espectro semántico-numérico: tablas pequeñas/de alta semántica, conjuntos de datos empresariales mixtos y grandes conjuntos de datos numéricos de baja semántica. Nuestro objetivo es determinar dónde las distribuciones semánticas preentrenadas de un modelo LLM relacional pueden ofrecer ventajas sobre los modelos de árbol tradicionales y dónde presentan dificultades en escala o con estructuras de baja semántica.

AIAbr 15

Los 10 mejores modelos de incrustación multilingüe para RAG

Evaluamos 10 modelos de incrustación multilingües con aproximadamente 606 000 reseñas de Amazon en 6 idiomas (alemán, inglés, español, francés, japonés y chino). Generamos 1800 consultas (300 por idioma), cada una haciendo referencia a detalles concretos de su reseña de origen.

AIAbr 15

Cuantización LLM: BF16 vs FP8 vs INT4

Realizamos pruebas de rendimiento de Qwen3-32B en 4 niveles de precisión (BF16, FP8, GPTQ-Int8, GPTQ-Int4) en una única GPU NVIDIA H100 de 80 GB. Cada configuración se evaluó en 2 pruebas de rendimiento (~12.200 preguntas) que abarcan conocimiento y generación de código, además de más de 2.000 ejecuciones de inferencia para medir el rendimiento.

AIAbr 15

Prueba de rendimiento de concurrencia de GPU: H100 vs H200 vs B200 vs MI300X

He dedicado los últimos 20 años a la optimización del rendimiento computacional a nivel de sistema. Realizamos pruebas de rendimiento con las últimas GPU NVIDIA, incluidas las H100, H200 y B200 de la NVIDIA, y la MI300X de la AMD, para el análisis de escalado de concurrencia. Utilizando el marco vLLM con el modelo gpt-oss-20b, probamos cómo estas GPU manejan las solicitudes concurrentes, desde 1 hasta 512.

AIAbr 15

Prueba de rendimiento multi-GPU: B200 vs H200 vs H100 vs MI300X

Durante más de dos décadas, la optimización del rendimiento computacional ha sido un pilar fundamental de mi trabajo. Realizamos pruebas comparativas de los procesadores B200, H200 y H100 de NVIDIA, y del procesador MI300X de AMD para evaluar su escalabilidad en la inferencia de modelos de lenguaje a gran escala (LLM). Utilizando el marco de trabajo vLLM con el modelo meta-llama/Llama-3.1-8B-Instruct, ejecutamos pruebas en 1, 2, 4 y 8 GPU.

AIMar 27

Comparativa RAG gráfica frente a RAG vectorial

Vector RAG recupera documentos por similitud semántica. Graph RAG añade un grafo de conocimiento, extrae entidades y relaciones de los documentos, las almacena en una base de datos de grafos y utiliza el recorrido del grafo junto con la búsqueda vectorial en el momento de la consulta.

AIMar 23

Herramientas de evaluación RAG: Pesos y sesgos frente a Ragas frente a DeepEval

Cuando una canalización RAG recupera el contexto incorrecto, el LLM genera con seguridad la respuesta incorrecta. Los evaluadores de relevancia de contexto son la principal defensa. Comparamos cinco herramientas con 1460 preguntas y más de 14 600 contextos evaluados en condiciones idénticas: mismo modelo de evaluación (GPT-4o), configuraciones predeterminadas y sin indicaciones personalizadas.

AIFeb 4

Las mejores herramientas, marcos de trabajo y bibliotecas RAG

RAG (Generación Aumentada por Recuperación) mejora las respuestas de LLM mediante la adición de fuentes de datos externas. Realizamos pruebas comparativas con diferentes modelos de incrustación y probamos por separado varios tamaños de fragmentos para determinar qué combinaciones funcionan mejor para los sistemas RAG. Explore los principales marcos y herramientas RAG, aprenda qué es RAG, cómo funciona, sus beneficios y su papel en el panorama actual de LLM.

DatosEne 30

Navegadores remotos: Comparativa de la infraestructura web para agentes de IA

Los agentes de IA dependen de navegadores remotos para automatizar tareas web sin ser bloqueados por medidas anti-scraping. El rendimiento de esta infraestructura de navegador es fundamental para el éxito del agente. Evaluamos a 8 proveedores en cuanto a tasa de éxito, velocidad y funcionalidades.