Ekrem Sarı
Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y las LLMOps para marcos RAG.
Experiencia profesional
Durante su etapa como evaluador en Yandex, evaluó los resultados de búsqueda utilizando marcos de trabajo propios y protocolos automatizados. Implementó pruebas de control de calidad mediante la anotación de datos, la puntuación de relevancia y el mapeo de la intención del usuario en más de 10 000 consultas mensuales, al tiempo que realizaba evaluaciones técnicas, incluyendo la monitorización del rendimiento y la detección de spam mediante bucles de retroalimentación de aprendizaje automático.Intereses de investigación
En AIMultiple, su investigación se centra en el ciclo de vida de MLOps y en el rendimiento y la evaluación comparativa de sistemas de IA de extremo a extremo. Colabora en una amplia gama de proyectos, incluyendo la optimización de la Generación Aumentada por Recuperación (RAG), la evaluación comparativa exhaustiva de Modelos de Lenguaje a Gran Escala (LLM) y el diseño de marcos de IA basados en agentes. Ekrem se especializa en el desarrollo de metodologías basadas en datos para medir y mejorar el rendimiento de la tecnología de IA en métricas operativas críticas como la precisión, la eficiencia, el coste de la API y la escalabilidad. Su análisis abarca toda la pila tecnológica, desde componentes fundamentales como los modelos de incrustación y las bases de datos vectoriales hasta la GPU de alto rendimiento y la infraestructura en la nube necesarias para implementar agentes de IA.Educación
Ekrem tiene una licenciatura de Hacettepe Üniversitesi y una maestría de Başkent Üniversitesi.Últimos artículos de Ekrem
Herramientas de evaluación RAG: Pesos y sesgos frente a Ragas frente a DeepEval
Cuando una canalización RAG recupera el contexto incorrecto, el LLM genera con seguridad la respuesta incorrecta. Los evaluadores de relevancia de contexto son la principal defensa. Comparamos cinco herramientas con 1460 preguntas y más de 14 600 contextos evaluados en condiciones idénticas: mismo modelo de evaluación (GPT-4o), configuraciones predeterminadas y sin indicaciones personalizadas.
Ajuste fino supervisado frente a aprendizaje por refuerzo
¿Pueden los modelos de lenguaje complejos internalizar reglas de decisión que nunca se enuncian explícitamente? Para examinar esto, diseñamos un experimento en el que se entrenó un modelo de 14 mil millones de parámetros con una regla oculta de "anulación VIP" dentro de una tarea de decisión crediticia, sin ninguna descripción de la regla a nivel de mensaje.
Las mejores herramientas, marcos de trabajo y bibliotecas RAG
RAG (Generación Aumentada por Recuperación) mejora las respuestas de LLM mediante la adición de fuentes de datos externas. Realizamos pruebas comparativas con diferentes modelos de incrustación y probamos por separado varios tamaños de fragmentos para determinar qué combinaciones funcionan mejor para los sistemas RAG. Explore los principales marcos y herramientas RAG, aprenda qué es RAG, cómo funciona, sus beneficios y su papel en el panorama actual de LLM.
Navegadores remotos: Comparativa de la infraestructura web para agentes de IA
Los agentes de IA dependen de navegadores remotos para automatizar tareas web sin ser bloqueados por medidas anti-scraping. El rendimiento de esta infraestructura de navegador es fundamental para el éxito del agente. Evaluamos a 8 proveedores en cuanto a tasa de éxito, velocidad y funcionalidades.
Marcos de trabajo RAG: LangChain vs LangGraph vs LlamaIndex
Realizamos una evaluación comparativa de 5 marcos RAG: LangChain, LangGraph, LlamaIndex, Haystack y DSPy, mediante la creación del mismo flujo de trabajo RAG con agentes y componentes estandarizados: modelos idénticos (GPT-4.1-mini), incrustaciones (BGE-small), recuperador (Qdrant) y herramientas (búsqueda web Tavily). Esto permite aislar la sobrecarga real y la eficiencia de tokens de cada marco. Resultados de la evaluación comparativa de los marcos RAG.
Las mejores funciones sin servidor: Vercel vs Azure vs AWS
Las funciones sin servidor permiten a los desarrolladores ejecutar código sin tener que administrar un servidor. Esto les permite centrarse en escribir e implementar aplicaciones, mientras que el escalado y el mantenimiento de la infraestructura se gestionan automáticamente en segundo plano. En esta comparativa, evaluamos a 7 proveedores de servicios en la nube populares siguiendo nuestra metodología para probar el rendimiento de sus funciones sin servidor.
Boletín informativo de AIMultiple
Reciba un correo electrónico gratuito a la semana con las últimas noticias tecnológicas B2B y análisis de expertos para impulsar su empresa.