Ekrem Sarı
Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e LLMOps para frameworks RAG.
Experiência profissional
Durante sua atuação como Avaliador na Yandex, ele avaliou resultados de busca utilizando frameworks proprietários e protocolos automatizados. Implementou testes de controle de qualidade por meio de anotação de dados, pontuação de relevância e mapeamento da intenção do usuário em mais de 10.000 consultas mensais, além de conduzir avaliações técnicas, incluindo monitoramento de desempenho e detecção de spam utilizando ciclos de feedback de aprendizado de máquina.Interesse de pesquisa
Na AIMultiple, sua pesquisa se concentra no ciclo de vida de MLOps e no desempenho e benchmarking de sistemas de IA de ponta a ponta. Ele contribui para uma ampla gama de projetos, incluindo otimização de Geração Aumentada por Recuperação (RAG), benchmarking extensivo de Modelos de Linguagem Amplos (LLM) e o design de frameworks de IA para agentes. Ekrem se especializa no desenvolvimento de metodologias orientadas a dados para medir e aprimorar o desempenho da tecnologia de IA em métricas operacionais críticas, como precisão, eficiência, custo de API e escalabilidade. Sua análise abrange toda a pilha de tecnologia, desde componentes fundamentais, como modelos de incorporação e bancos de dados vetoriais, até a infraestrutura de nuvem e GPU de alto desempenho necessária para a implantação de agentes de IA.Educação
Ekrem é bacharel pela Hacettepe Üniversitesi e mestre pela Başkent Üniversitesi.Últimos artigos de Ekrem
Principais bases de dados vetoriais para RAG: Qdrant vs Weaviate vs Pinecone
Bancos de dados vetoriais impulsionam a camada de recuperação em fluxos de trabalho RAG, armazenando embeddings de documentos e consultas como vetores de alta dimensão. Eles permitem buscas rápidas por similaridade com base em distâncias vetoriais. Realizamos um benchmark de seis fornecedores de bancos de dados vetoriais, com foco em suas estruturas de preços e desempenho: Comparação de bancos de dados vetoriais: Preços e desempenho.
Comparar modelos de fundamentos relacionais
Comparamos o desempenho do SAP-RPT-1-OSS com o de algoritmos de gradient boosting (LightGBM, CatBoost) em 17 conjuntos de dados tabulares que abrangem o espectro semântico-numérico, incluindo tabelas pequenas/com alta semântica, conjuntos de dados comerciais mistos e grandes conjuntos de dados numéricos com baixa semântica. Nosso objetivo é avaliar em que situações os priors semânticos pré-treinados de um modelo de árvore de decisão relacional (LLM) podem oferecer vantagens sobre os modelos de árvore tradicionais e em que situações enfrentam desafios em escala ou com baixa estrutura semântica.
Os 10 principais modelos de incorporação multilíngue para RAG
Avaliamos o desempenho de 10 modelos de incorporação multilíngues em aproximadamente 606 mil avaliações da Amazon em 6 idiomas (alemão, inglês, espanhol, francês, japonês e chinês). Geramos 1.800 consultas (300 por idioma), cada uma referenciando detalhes concretos da avaliação original.
Quantização LLM: BF16 vs FP8 vs INT4
Realizamos testes de desempenho com o modelo Qwen3-32B em 4 níveis de precisão (BF16, FP8, GPTQ-Int8, GPTQ-Int4) em uma única GPU NVIDIA H100 de 80 GB. Cada configuração foi avaliada em 2 benchmarks (~12.200 questões) abrangendo geração de conhecimento e código, além de mais de 2.000 execuções de inferência para medir o desempenho.
Teste comparativo de concorrência de GPUs: H100 vs H200 vs B200 vs MI300X
Passei os últimos 20 anos me dedicando à otimização do desempenho computacional em nível de sistema. Realizamos benchmarks das GPUs mais recentes, incluindo os modelos H100, H200 e B200, e a MI300X, para análise de escalabilidade em concorrência. Utilizando o framework vLLM com o modelo gpt-oss-20b, testamos como essas GPUs lidam com requisições simultâneas, de 1 a 512.
Comparativo Multi-GPU: B200 vs H200 vs H100 vs MI300X
Por mais de duas décadas, a otimização do desempenho computacional tem sido um pilar do meu trabalho. Realizamos benchmarks das GPUs B200, H200 e H100 da NVIDIA e da MI300X da AMD para avaliar seu desempenho em inferência de Modelos de Linguagem de Grande Porte (LLM). Usando o framework vLLM com o modelo meta-llama/Llama-3.1-8B-Instruct, executamos testes com 1, 2, 4 e 8 GPUs.
Comparação entre Graph RAG e Vector RAG
O Vector RAG recupera documentos por similaridade semântica. O Graph RAG adiciona um grafo de conhecimento sobre essa camada, extrai entidades e relacionamentos dos seus documentos, armazena-os em um banco de dados de grafos e utiliza a busca vetorial em conjunto com a busca vetorial no momento da consulta. Testamos se essa camada extra melhora a recuperação e a precisão das respostas em 3.
Ferramentas de avaliação RAG: Weights & Biases vs Ragas vs DeepEval
Quando um pipeline RAG recupera o contexto errado, o LLM gera, com segurança, a resposta errada. Os avaliadores de relevância contextual são a principal defesa. Avaliamos cinco ferramentas em 1.460 questões e mais de 14.600 contextos avaliados sob condições idênticas: mesmo modelo de avaliação (GPT-4o), configurações padrão e sem prompts personalizados.
Melhores ferramentas, frameworks e bibliotecas RAG
A Geração Aumentada por Recuperação (RAG, na sigla em inglês) aprimora as respostas de Modelos de Aprendizagem Baseados em Aprendizagem (LLM, na sigla em inglês) adicionando fontes de dados externas. Realizamos testes comparativos com diferentes modelos de incorporação e testamos separadamente vários tamanhos de blocos para determinar quais combinações funcionam melhor para sistemas RAG. Explore as principais estruturas e ferramentas RAG, aprenda o que é RAG, como funciona, seus benefícios e seu papel no cenário atual de LLM.
Navegadores remotos: Comparação da infraestrutura web para agentes de IA
Agentes de IA dependem de navegadores remotos para automatizar tarefas na web sem serem bloqueados por medidas anti-raspagem. O desempenho dessa infraestrutura de navegador é crucial para o sucesso de um agente. Avaliamos 8 provedores em termos de taxa de sucesso, velocidade e recursos.
Boletim informativo AIMultiple
Receba um e-mail gratuito por semana com as últimas notícias de tecnologia B2B e insights de especialistas para impulsionar o seu negócio.