Ekrem Sarı

Pesquisador de IA

32 Artigos

Mantenha-se atualizado sobre tecnologia B2B.

Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e LLMOps para frameworks RAG.

Experiência profissional

Durante sua atuação como Avaliador na Yandex, ele avaliou resultados de busca utilizando frameworks proprietários e protocolos automatizados. Implementou testes de controle de qualidade por meio de anotação de dados, pontuação de relevância e mapeamento da intenção do usuário em mais de 10.000 consultas mensais, além de conduzir avaliações técnicas, incluindo monitoramento de desempenho e detecção de spam utilizando ciclos de feedback de aprendizado de máquina.

Interesse de pesquisa

Na AIMultiple, sua pesquisa se concentra no ciclo de vida de MLOps e no desempenho e benchmarking de sistemas de IA de ponta a ponta. Ele contribui para uma ampla gama de projetos, incluindo otimização de Geração Aumentada por Recuperação (RAG), benchmarking extensivo de Modelos de Linguagem Amplos (LLM) e o design de frameworks de IA para agentes. Ekrem se especializa no desenvolvimento de metodologias orientadas a dados para medir e aprimorar o desempenho da tecnologia de IA em métricas operacionais críticas, como precisão, eficiência, custo de API e escalabilidade. Sua análise abrange toda a pilha de tecnologia, desde componentes fundamentais, como modelos de incorporação e bancos de dados vetoriais, até a infraestrutura de nuvem e GPU de alto desempenho necessária para a implantação de agentes de IA.

Educação

Ekrem é bacharel pela Hacettepe Üniversitesi e mestre pela Başkent Üniversitesi.

Últimos artigos de Ekrem

Benchmark

2 Jul

RAG Ferramentas de Avaliação: Weights & Biases vs Ragas vs DeepEval

Quando um pipeline de RAG recupera o contexto errado, o LLM gera confiantemente a resposta errada. Os avaliadores de relevância de contexto são a principal defesa. Comparamos cinco ferramentas em 1,460 perguntas e mais de 14,600 contextos pontuados sob condições idênticas: mesmo modelo juiz (GPT-4o), configurações padrão e sem prompts personalizados. Em condições padrão, WandB,…

Dados

Benchmark

2 Jul

Navegadores Remotos: Infraestrutura Web para Agentes de IA Comparada

Os agentes de IA dependem de navegadores remotos para automatizar tarefas web sem serem bloqueados por medidas anti-scraping. O desempenho desta infraestrutura de navegador é fundamental para o sucesso de um agente. Avaliámos 8 fornecedores quanto à taxa de sucesso, velocidade e funcionalidades. Para isso, executámos 160 tarefas automatizadas, executando 4 cenários distintos 5 vezes…

Dados

Benchmark

1 Jul

Teste de Referência de Banco de Dados de Grafos: Neo4j vs FalkorDB vs Memgraph

Realizamos testes de referência no Neo4j, FalkorDB e Memgraph em um grafo sintético derivado de 120.000 avaliações de produtos da Amazon (381K nós, 804K arestas). Executamos 12 modelos de consulta com 1.000 medições cada, testamos a ingestão em 6 tamanhos de lote, mantivemos carga concorrente por 60 segundos com até 32 threads e medimos memória,…

Benchmark

1 Jul

LLM Motores de Inferência: vLLM vs LMDeploy vs SGLang

Avaliamos o desempenho de 3 dos principais motores de inferência de LLM em NVIDIA H100: vLLM, LMDeploy e SGLang. Cada motor processou cargas de trabalho idênticas: 1.000 prompts do ShareGPT usando Llama 3.1 8B-Instruct para isolar o verdadeiro impacto de desempenho das suas escolhas arquiteturais e estratégias de otimização. Medimos a taxa de transferência em…

Benchmark

30 Jun

Os 10 melhores modelos de embedding multilíngues para RAG

Avaliamos 10 modelos de embedding multilíngues em aproximadamente 606k avaliações da Amazon em 6 idiomas (alemão, inglês, espanhol, francês, japonês, chinês). Geramos 1.800 consultas (300 por idioma), cada uma referenciando detalhes concretos da avaliação de origem. Modelos treinados para busca (separação entre consulta e documento) superam modelos maiores treinados para similaridade textual geral: e5_base (110M…

Benchmark

30 Jun

Múltiplo-GPU Benchmark: B200 vs H200 vs H100 vs MI300X

Por mais de duas décadas, otimizar o desempenho de computação tem sido uma pedra angular do meu trabalho. Realizamos benchmark das B200, H200, H100 da NVIDIA e MI300X da AMD para avaliar quão bem elas escalam para inferência de Modelo de Linguagem Grande (LLM). Usando o framework vLLM com o modelo meta-llama/Llama-3.1-8B-Instruct, executamos testes em…

Benchmark

29 Jun

Modelos de Embedding: OpenAI vs Gemini vs Voyage

Comparamos 15 modelos de embedding de texto em inglês e uma baseline BM25 em mais de 500 consultas manualmente curadas em três domínios de recuperação: contratos legais (CUAD), suporte ao cliente (IBM TechQA) e saúde (MedRAG PubMed). Voyage-3.5 ocupa o primeiro lugar geral. Perplexity Embed V1 0.6b atinge o nível médio-alto com o menor preço…

Benchmark

29 Jun

RAG Estruturas: LangChain vs LangGraph vs LlamaIndex

Comparamos 5 frameworks RAG: LangChain, LangGraph, LlamaIndex, Haystack e DSPy, construindo o mesmo fluxo de trabalho agêntico de RAG com componentes padronizados: modelos idênticos (GPT-4.1-mini), embeddings (BGE-small), recuperador (Qdrant) e ferramentas (pesquisa na web Tavily). Isto isola a verdadeira sobrecarga e eficiência de tokens de cada framework. O benchmark consistiu em 100 consultas, com cada…

Benchmark

29 Jun

Benchmark de Reranker: Top 8 Modelos Comparados

Fizemos benchmark de 8 modelos reranker em ~145k avaliações da Amazon em inglês para medir o quanto uma etapa de reranking melhora a recuperação densa. Recuperamos os 100 principais candidatos com multilingual-e5-base, reordenamos com cada modelo e avaliamos os 10 melhores resultados contra 300 consultas, cada uma referenciando detalhes concretos de sua avaliação de origem.…

IA Agêntica

Benchmark

29 Jun

Busca Agêntica: Benchmark 8 Search APIs para Agentes

A busca agêntica desempenha um papel crucial na ligação entre os motores de busca tradicionais e as capacidades de busca com IA. As APIs de busca são a primeira camada de uma ferramenta agêntica, onde o desempenho limita a qualidade de tudo a jusante. Avaliamos 8 APIs de busca em 100 consultas reais de IA/LLM,…

1 2 3 4

Mantenha-se à frente da concorrência com

Boletim informativo AIMultiple

Receba um e-mail gratuito por semana com as últimas notícias de tecnologia B2B e insights de especialistas para impulsionar o seu negócio.