Servicios
Contáctanos
Ekrem Sarı

Ekrem Sarı

Investigador de IA
31 Artículos
Mantente al día sobre tecnología B2B.

Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y las LLMOps para marcos RAG.

Experiencia profesional

Durante su etapa como evaluador en Yandex, evaluó los resultados de búsqueda utilizando marcos de trabajo propios y protocolos automatizados. Implementó pruebas de control de calidad mediante la anotación de datos, la puntuación de relevancia y el mapeo de la intención del usuario en más de 10 000 consultas mensuales, al tiempo que realizaba evaluaciones técnicas, incluyendo la monitorización del rendimiento y la detección de spam mediante bucles de retroalimentación de aprendizaje automático.

Intereses de investigación

En AIMultiple, su investigación se centra en el ciclo de vida de MLOps y en el rendimiento y la evaluación comparativa de sistemas de IA de extremo a extremo. Colabora en una amplia gama de proyectos, incluyendo la optimización de la Generación Aumentada por Recuperación (RAG), la evaluación comparativa exhaustiva de Modelos de Lenguaje a Gran Escala (LLM) y el diseño de marcos de IA basados en agentes. Ekrem se especializa en el desarrollo de metodologías basadas en datos para medir y mejorar el rendimiento de la tecnología de IA en métricas operativas críticas como la precisión, la eficiencia, el coste de la API y la escalabilidad. Su análisis abarca toda la pila tecnológica, desde componentes fundamentales como los modelos de incrustación y las bases de datos vectoriales hasta la GPU de alto rendimiento y la infraestructura en la nube necesarias para implementar agentes de IA.

Educación

Ekrem tiene una licenciatura de Hacettepe Üniversitesi y una maestría de Başkent Üniversitesi.

Últimos artículos de Ekrem

AIMay 20

Modelos de incrustación multimodal: Apple vs Meta vs OpenAI

Los modelos de incrustación multimodal destacan en la identificación de objetos, pero tienen dificultades con las relaciones. Los modelos actuales tienen problemas para distinguir entre "teléfono en un mapa" y "mapa en un teléfono". Realizamos pruebas comparativas con 7 modelos líderes en MS-COCO y Winoground para medir esta limitación específica. Para garantizar una comparación justa, evaluamos cada modelo en condiciones idénticas utilizando hardware A40 (NVIDIA) y precisión bfloat16.

AIMay 20

GPU en la nube para aprendizaje profundo: disponibilidad y precio/rendimiento

Si tiene flexibilidad en cuanto al modelo de GPU, identifique la GPU en la nube más rentable según nuestra comparativa de 10 modelos de GPU en escenarios de generación y ajuste de imágenes y texto. Precio de la GPU en la nube por rendimiento. Dos modelos de precios comunes para las GPU son las instancias «bajo demanda» y las instancias «spot».

AIMay 14

Comparativa de Reranker: Los 8 mejores modelos comparados

Comparamos 8 modelos de reordenamiento con aproximadamente 145.000 reseñas en inglés de Amazon para medir cuánto mejora la recuperación densa una etapa de reordenamiento. Recuperamos los 100 candidatos principales con multilingual-e5-base, los reordenamos con cada modelo y evaluamos los 10 mejores resultados frente a 300 consultas, cada una haciendo referencia a detalles concretos de su reseña original.

AIMay 14

RAG híbrido: Mejora de la precisión RAG

Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.

AIMay 14

Los 30 principales proveedores de GPU en la nube y sus GPU en

Realizamos pruebas comparativas de las 10 GPU más comunes en escenarios típicos (por ejemplo, ajustando un LLM como Llama 3.2). Con base en estos aprendizajes, si usted: Clasificación: Los patrocinadores están enlazados y resaltados en la parte superior. Después, los proveedores de hiperescala se enumeran por cuota de mercado en EE. UU. Luego, los proveedores se ordenan por la cantidad de modelos que ofrecen.

AIMay 13

Ajuste fino supervisado frente a aprendizaje por refuerzo

¿Pueden los modelos de lenguaje complejos internalizar reglas de decisión que nunca se enuncian explícitamente? Para examinar esto, diseñamos un experimento en el que se entrenó un modelo de 14 mil millones de parámetros con una regla oculta de "anulación VIP" dentro de una tarea de decisión crediticia, sin ninguna descripción de la regla a nivel de mensaje.

AIMay 1

Modelos de incrustación: OpenAI vs Gemini vs Cohere

La efectividad de cualquier sistema de Generación Aumentada por Recuperación (RAG) depende de la precisión de su recuperador. Comparamos 11 modelos líderes de incrustación de texto, incluyendo los de OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral y Voyage AI, utilizando aproximadamente 500 000 reseñas de Amazon. Evaluamos la capacidad de cada modelo para recuperar y clasificar primero la respuesta correcta.

AIAbr 26

Evaluación comparativa de modelos de incrustación de código abierto para RAG

Realizamos pruebas comparativas de 14 modelos de incrustación de código abierto, alojados en un único H100, con más de 500 consultas de recuperación seleccionadas manualmente, que abarcan contratos legales, notas técnicas de atención al cliente y resúmenes médicos. Llama-Embed-Nemotron-8B (NVIDIA) destaca por su precisión. En cuanto al coste, EmbeddingGemma-300m (Google) resulta aproximadamente cuatro veces más económico que Nemotron, a costa de una ligera pérdida de precisión.

DatosAbr 24

Comparativa de bases de datos de grafos: Neo4j vs FalkorDB vs Memgraph

Realizamos pruebas comparativas de Neo4j, FalkorDB y Memgraph en un grafo sintético derivado de 120 000 reseñas de productos de Amazon (381 000 nodos, 804 000 aristas).

AIAbr 24

Motores de inferencia LLM: vLLM vs LMDemploy vs SGLang

Realizamos pruebas comparativas de 3 motores de inferencia LLM líderes en NVIDIA H100: vLLM, LMDeploy y SGLang. Cada motor procesó cargas de trabajo idénticas: 1000 solicitudes ShareGPT utilizando Llama 3.1 8B-Instruct para aislar el verdadero impacto en el rendimiento de sus elecciones arquitectónicas y estrategias de optimización.