Ekrem Sarı
Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e LLMOps para frameworks RAG.
Experiência profissional
Durante sua atuação como Avaliador na Yandex, ele avaliou resultados de busca utilizando frameworks proprietários e protocolos automatizados. Implementou testes de controle de qualidade por meio de anotação de dados, pontuação de relevância e mapeamento da intenção do usuário em mais de 10.000 consultas mensais, além de conduzir avaliações técnicas, incluindo monitoramento de desempenho e detecção de spam utilizando ciclos de feedback de aprendizado de máquina.Interesse de pesquisa
Na AIMultiple, sua pesquisa se concentra no ciclo de vida de MLOps e no desempenho e benchmarking de sistemas de IA de ponta a ponta. Ele contribui para uma ampla gama de projetos, incluindo otimização de Geração Aumentada por Recuperação (RAG), benchmarking extensivo de Modelos de Linguagem Amplos (LLM) e o design de frameworks de IA para agentes. Ekrem se especializa no desenvolvimento de metodologias orientadas a dados para medir e aprimorar o desempenho da tecnologia de IA em métricas operacionais críticas, como precisão, eficiência, custo de API e escalabilidade. Sua análise abrange toda a pilha de tecnologia, desde componentes fundamentais, como modelos de incorporação e bancos de dados vetoriais, até a infraestrutura de nuvem e GPU de alto desempenho necessária para a implantação de agentes de IA.Educação
Ekrem é bacharel pela Hacettepe Üniversitesi e mestre pela Başkent Üniversitesi.Últimos artigos de Ekrem
Modelos de Incorporação Multimodal: Apple vs Meta vs OpenAI
Os modelos de incorporação multimodal são excelentes na identificação de objetos, mas têm dificuldades com relacionamentos. Os modelos atuais têm dificuldade em distinguir "telefone em um mapa" de "mapa em um telefone". Comparamos 7 dos principais modelos do MS-COCO e do Winoground para medir essa limitação específica. Para garantir uma comparação justa, avaliamos cada modelo sob condições idênticas usando hardware A40 e precisão bfloat16.
GPUs na nuvem para aprendizado profundo: disponibilidade, preço e desempenho.
Se você tiver flexibilidade quanto ao modelo de GPU, identifique a GPU em nuvem mais econômica com base em nossa análise comparativa de 10 modelos de GPU em cenários de geração e ajuste fino de imagens e textos. Preço da GPU em nuvem por throughput. Dois modelos de precificação comuns para GPUs são instâncias "sob demanda" e "spot".
Análise comparativa do Reranker: Comparação dos 8 melhores modelos
Avaliamos 8 modelos de reclassificação em aproximadamente 145 mil avaliações em inglês da Amazon para medir o quanto uma etapa de reclassificação melhora a recuperação densa. Recuperamos os 100 melhores candidatos com o multilingual-e5-base, reclassificamos esses candidatos com cada modelo e avaliamos os 10 melhores resultados em relação a 300 consultas, cada uma referenciando detalhes concretos da avaliação original.
RAG Híbrido: Aumentando a Precisão RAG
Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.
Os 30 principais fornecedores de GPUs em nuvem e suas GPUs em
Realizamos testes comparativos com as 10 GPUs mais comuns em cenários típicos (por exemplo, otimização de um LLM como o Llama 3.2). Com base nesses aprendizados, se você: Classificação: Os patrocinadores são listados e destacados no topo. Em seguida, os provedores de hiperescala são listados por participação no mercado dos EUA. Depois, os provedores são classificados pelo número de modelos que oferecem.
Ajuste fino supervisionado versus aprendizado por reforço
Será que grandes modelos de linguagem conseguem internalizar regras de decisão que nunca são explicitamente declaradas? Para examinar isso, projetamos um experimento no qual um modelo com 14 bilhões de parâmetros foi treinado em uma regra oculta de "prevalência VIP" dentro de uma tarefa de decisão de crédito, sem qualquer descrição da regra em si. Explore o desempenho de métodos de ajuste fino supervisionado e aprendizado por reforço, [...
Modelos de incorporação: OpenAI vs Gemini vs Cohere
A eficácia de qualquer sistema de Geração Aumentada por Recuperação (RAG) depende da precisão de seu recuperador. Avaliamos 11 modelos líderes de incorporação de texto, incluindo os de OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, usando aproximadamente 500.000 avaliações da Amazon. Avaliamos a capacidade de cada modelo de recuperar e classificar a resposta correta em primeiro lugar.
Benchmark de modelos de incorporação de código aberto para RAG
Comparamos 14 modelos de incorporação de código aberto, hospedados em um único H100, em mais de 500 consultas de recuperação de informações selecionadas manualmente, abrangendo contratos legais, notas técnicas de suporte ao cliente e resumos médicos. O modelo NVIDIA Llama-Embed-Nemotron-8B apresentou o melhor desempenho em precisão. Em termos de custo, o modelo Google EmbeddingGemma-300m é aproximadamente 4 vezes mais barato que o Nemotron, com uma pequena perda de precisão.
Comparativo de bancos de dados de grafos: Neo4j vs FalkorDB vs Memgraph
Realizamos testes comparativos com Neo4j, FalkorDB e Memgraph em um grafo sintético derivado de 120.000 avaliações de produtos da Amazon (381 mil nós, 804 mil arestas). Executamos 12 modelos de consulta com 1.000 medições cada, testamos a ingestão em 6 tamanhos de lote, suportamos carga concorrente por 60 segundos com até 32 threads e medimos o consumo de memória, inicialização a frio, carga de trabalho mista e índices.
Mecanismos de inferência LLM: vLLM vs LMDeploy vs SGLang
Realizamos benchmarks de 3 mecanismos de inferência LLM líderes no H100: vLLM, LMDeploy e SGLang. Cada mecanismo processou cargas de trabalho idênticas: 1.000 solicitações ShareGPT usando Llama 3.1 8B-Instruct para isolar o verdadeiro impacto de desempenho de suas escolhas arquitetônicas e estratégias de otimização. Resultados do benchmark dos mecanismos de inferência: Medimos a taxa de transferência em lote offline em um total de 10.000 operações de inferência (1.
Boletim informativo AIMultiple
Receba um e-mail gratuito por semana com as últimas notícias de tecnologia B2B e insights de especialistas para impulsionar o seu negócio.