Ekrem Sarı
Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e LLMOps para frameworks RAG.
Experiência profissional
Durante sua atuação como Avaliador na Yandex, ele avaliou resultados de busca utilizando frameworks proprietários e protocolos automatizados. Implementou testes de controle de qualidade por meio de anotação de dados, pontuação de relevância e mapeamento da intenção do usuário em mais de 10.000 consultas mensais, além de conduzir avaliações técnicas, incluindo monitoramento de desempenho e detecção de spam utilizando ciclos de feedback de aprendizado de máquina.Interesse de pesquisa
Na AIMultiple, sua pesquisa se concentra no ciclo de vida de MLOps e no desempenho e benchmarking de sistemas de IA de ponta a ponta. Ele contribui para uma ampla gama de projetos, incluindo otimização de Geração Aumentada por Recuperação (RAG), benchmarking extensivo de Modelos de Linguagem Amplos (LLM) e o design de frameworks de IA para agentes. Ekrem se especializa no desenvolvimento de metodologias orientadas a dados para medir e aprimorar o desempenho da tecnologia de IA em métricas operacionais críticas, como precisão, eficiência, custo de API e escalabilidade. Sua análise abrange toda a pilha de tecnologia, desde componentes fundamentais, como modelos de incorporação e bancos de dados vetoriais, até a infraestrutura de nuvem e GPU de alto desempenho necessária para a implantação de agentes de IA.Educação
Ekrem é bacharel pela Hacettepe Üniversitesi e mestre pela Başkent Üniversitesi.Últimos artigos de Ekrem
Ferramentas de avaliação RAG: Weights & Biases vs Ragas vs DeepEval
Quando um pipeline RAG recupera o contexto errado, o LLM gera, com segurança, a resposta errada. Os avaliadores de relevância contextual são a principal defesa. Avaliamos cinco ferramentas em 1.460 questões e mais de 14.600 contextos avaliados sob condições idênticas: mesmo modelo de avaliação (GPT-4o), configurações padrão e sem prompts personalizados.
Ajuste fino supervisionado versus aprendizado por reforço
Será que grandes modelos de linguagem conseguem internalizar regras de decisão que nunca são explicitamente declaradas? Para examinar isso, projetamos um experimento no qual um modelo com 14 bilhões de parâmetros foi treinado em uma regra oculta de "prevalência VIP" dentro de uma tarefa de decisão de crédito, sem qualquer descrição da regra em si. Explore o desempenho de métodos de ajuste fino supervisionado e aprendizado por reforço, [...
Melhores ferramentas, frameworks e bibliotecas RAG
A Geração Aumentada por Recuperação (RAG, na sigla em inglês) aprimora as respostas de Modelos de Aprendizagem Baseados em Aprendizagem (LLM, na sigla em inglês) adicionando fontes de dados externas. Realizamos testes comparativos com diferentes modelos de incorporação e testamos separadamente vários tamanhos de blocos para determinar quais combinações funcionam melhor para sistemas RAG. Explore as principais estruturas e ferramentas RAG, aprenda o que é RAG, como funciona, seus benefícios e seu papel no cenário atual de LLM.
Navegadores remotos: Comparação da infraestrutura web para agentes de IA
Agentes de IA dependem de navegadores remotos para automatizar tarefas na web sem serem bloqueados por medidas anti-raspagem. O desempenho dessa infraestrutura de navegador é crucial para o sucesso de um agente. Avaliamos 8 provedores em termos de taxa de sucesso, velocidade e recursos.
Frameworks RAG: LangChain vs LangGraph vs LlamaIndex
Avaliamos o desempenho de 5 frameworks RAG: LangChain, LangGraph, LlamaIndex, Haystack e DSPy, construindo o mesmo fluxo de trabalho RAG agentivo com componentes padronizados: modelos idênticos (GPT-4.1-mini), embeddings (BGE-small), retriever (Qdrant) e ferramentas (busca na web Tavily). Isso isola a sobrecarga real e a eficiência de tokens de cada framework. Resultados da avaliação comparativa dos frameworks RAG.
Principais funções sem servidor: Vercel vs Azure vs AWS
As funções sem servidor permitem que os desenvolvedores executem código sem precisar gerenciar um servidor. Isso permite que eles se concentrem na criação e implantação de aplicativos, enquanto o dimensionamento e a manutenção da infraestrutura são gerenciados automaticamente em segundo plano. Neste benchmark, avaliamos 7 provedores populares de serviços em nuvem seguindo nossa metodologia para testar o desempenho de suas funções sem servidor.
Boletim informativo AIMultiple
Receba um e-mail gratuito por semana com as últimas notícias de tecnologia B2B e insights de especialistas para impulsionar o seu negócio.