Contate-nos
Nenhum resultado encontrado.
Ekrem Sarı

Ekrem Sarı

Pesquisador de IA
26 Artigos
Mantenha-se atualizado sobre tecnologia B2B.

Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e LLMOps para frameworks RAG.

Experiência profissional

Durante sua atuação como Avaliador na Yandex, ele avaliou resultados de busca utilizando frameworks proprietários e protocolos automatizados. Implementou testes de controle de qualidade por meio de anotação de dados, pontuação de relevância e mapeamento da intenção do usuário em mais de 10.000 consultas mensais, além de conduzir avaliações técnicas, incluindo monitoramento de desempenho e detecção de spam utilizando ciclos de feedback de aprendizado de máquina.

Interesse de pesquisa

Na AIMultiple, sua pesquisa se concentra no ciclo de vida de MLOps e no desempenho e benchmarking de sistemas de IA de ponta a ponta. Ele contribui para uma ampla gama de projetos, incluindo otimização de Geração Aumentada por Recuperação (RAG), benchmarking extensivo de Modelos de Linguagem Amplos (LLM) e o design de frameworks de IA para agentes. Ekrem se especializa no desenvolvimento de metodologias orientadas a dados para medir e aprimorar o desempenho da tecnologia de IA em métricas operacionais críticas, como precisão, eficiência, custo de API e escalabilidade. Sua análise abrange toda a pilha de tecnologia, desde componentes fundamentais, como modelos de incorporação e bancos de dados vetoriais, até a infraestrutura de nuvem e GPU de alto desempenho necessária para a implantação de agentes de IA.

Educação

Ekrem é bacharel pela Hacettepe Üniversitesi e mestre pela Başkent Üniversitesi.

Últimos artigos de Ekrem

IAAbr 16

RAG Híbrido: Aumentando a Precisão do RAG

A busca por vetores densos é excelente para capturar a intenção semântica, mas frequentemente apresenta dificuldades com consultas que exigem alta precisão de palavras-chave. Para quantificar essa lacuna, comparamos um recuperador padrão baseado apenas em vetores densos com um sistema RAG híbrido que incorpora vetores esparsos SPLADE.

IAAbr 15

Análise comparativa do Reranker: Comparação dos 8 melhores modelos

Avaliamos 8 modelos de reclassificação em aproximadamente 145 mil avaliações em inglês da Amazon para medir o quanto uma etapa de reclassificação melhora a recuperação densa. Recuperamos os 100 melhores candidatos com o multilingual-e5-base, reclassificamos esses candidatos com cada modelo e avaliamos os 10 melhores resultados em relação a 300 consultas, cada uma referenciando detalhes concretos da avaliação original.

IAAbr 15

Comparar modelos de fundamentos relacionais

Comparamos o desempenho do SAP-RPT-1-OSS com o de algoritmos de gradient boosting (LightGBM, CatBoost) em 17 conjuntos de dados tabulares que abrangem o espectro semântico-numérico, incluindo tabelas pequenas/com alta semântica, conjuntos de dados comerciais mistos e grandes conjuntos de dados numéricos com baixa semântica. Nosso objetivo é avaliar em que situações os priors semânticos pré-treinados de um modelo de árvore de decisão relacional (LLM) podem oferecer vantagens sobre os modelos de árvore tradicionais e em que situações enfrentam desafios em escala ou com baixa estrutura semântica.

IAAbr 15

Modelos de Incorporação Multimodal: Apple vs Meta vs OpenAI

Os modelos de incorporação multimodal são excelentes na identificação de objetos, mas têm dificuldades com relacionamentos. Os modelos atuais têm dificuldade em distinguir "telefone em um mapa" de "mapa em um telefone". Comparamos 7 dos principais modelos do MS-COCO e do Winoground para medir essa limitação específica. Para garantir uma comparação justa, avaliamos cada modelo em condições idênticas usando hardware A40 e precisão bfloat16.

IAAbr 15

Os 10 principais modelos de incorporação multilíngue para RAG

Avaliamos o desempenho de 10 modelos de incorporação multilíngues em aproximadamente 606 mil avaliações da Amazon em 6 idiomas (alemão, inglês, espanhol, francês, japonês e chinês). Geramos 1.800 consultas (300 por idioma), cada uma referenciando detalhes concretos da avaliação original.

IAAbr 15

Quantização LLM: BF16 vs FP8 vs INT4

Realizamos testes de desempenho com o modelo Qwen3-32B em 4 níveis de precisão (BF16, FP8, GPTQ-Int8, GPTQ-Int4) em uma única GPU NVIDIA H100 de 80 GB. Cada configuração foi avaliada em 2 benchmarks (~12.200 questões) abrangendo geração de conhecimento e código, além de mais de 2.000 execuções de inferência para medir o desempenho.

IAAbr 15

Teste comparativo de concorrência de GPUs: H100 vs H200 vs B200 vs MI300X

Passei os últimos 20 anos me dedicando à otimização do desempenho computacional em nível de sistema. Realizamos benchmarks das GPUs mais recentes, incluindo os modelos H100, H200 e B200, e a MI300X, para análise de escalabilidade em concorrência. Utilizando o framework vLLM com o modelo gpt-oss-20b, testamos como essas GPUs lidam com requisições simultâneas, de 1 a 512.

IAAbr 15

Comparativo Multi-GPU: B200 vs H200 vs H100 vs MI300X

Por mais de duas décadas, a otimização do desempenho computacional tem sido um pilar do meu trabalho. Realizamos benchmarks das GPUs B200, H200 e H100 da NVIDIA e da MI300X da AMD para avaliar seu desempenho em inferência de Modelos de Linguagem de Grande Porte (LLM). Usando o framework vLLM com o modelo meta-llama/Llama-3.1-8B-Instruct, executamos testes com 1, 2, 4 e 8 GPUs.

IAMar 27

Comparação entre Graph RAG e Vector RAG

O Vector RAG recupera documentos por similaridade semântica. O Graph RAG adiciona um grafo de conhecimento sobre essa camada, extrai entidades e relacionamentos dos seus documentos, armazena-os em um banco de dados de grafos e utiliza a busca vetorial em conjunto com a busca vetorial no momento da consulta. Testamos se essa camada extra melhora a recuperação e a precisão das respostas em 3.

IAMar 23

Análise comparativa das ferramentas de observabilidade RAG

Comparamos quatro plataformas de observabilidade RAG em um pipeline LangGraph de 7 nós em três dimensões práticas: sobrecarga de latência, esforço de integração e compensações entre plataformas. Métricas de sobrecarga de latência Explicação das métricas: A média é a latência média em 150 chamadas graph.invoke() medidas. As avaliações do LLM-judge são executadas após a parada do temporizador. A mediana é o 50º percentil da latência.