Servizi
Contattaci
Ekrem Sarı

Ekrem Sarı

Ricercatore di intelligenza artificiale
31 Articoli
Rimani aggiornato sulle novità tecnologiche B2B.

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di IA e LLMOps per framework RAG.

Esperienza professionale

Durante il suo incarico come valutatore presso Yandex, ha analizzato i risultati di ricerca utilizzando framework proprietari e protocolli automatizzati. Ha implementato test di controllo qualità tramite annotazione dei dati, punteggio di pertinenza e mappatura dell'intento dell'utente su oltre 10.000 query al mese, conducendo al contempo valutazioni tecniche, tra cui il monitoraggio delle prestazioni e il rilevamento dello spam tramite cicli di feedback basati sull'apprendimento automatico.

Capacità di ricerca

Presso AIMultiple, la sua ricerca si concentra sul ciclo di vita MLOps e sulle prestazioni e il benchmarking di sistemi di intelligenza artificiale end-to-end. Contribuisce a una vasta gamma di progetti, tra cui l'ottimizzazione del Retrieval-Augmented Generation (RAG), un ampio benchmarking di Large Language Model (LLM) e la progettazione di framework di intelligenza artificiale agentica. Ekrem è specializzato nello sviluppo di metodologie basate sui dati per misurare e migliorare le prestazioni della tecnologia IA in base a metriche operative critiche come accuratezza, efficienza, costo delle API e scalabilità. La sua analisi copre l'intero stack tecnologico, dai componenti fondamentali come i modelli di embedding e i database vettoriali fino alle GPU ad alte prestazioni e all'infrastruttura cloud necessarie per implementare agenti IA.

Preparazione

Ekrem ha conseguito una laurea presso la Hacettepe Üniversitesi e un master presso la Başkent Üniversitesi.

Ultimi articoli di Ekrem

IAMag 20

Modelli di embedding multimodali: Apple vs Meta vs OpenAI

I modelli di embedding multimodale eccellono nell'identificazione degli oggetti ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo eseguito un benchmark su 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione. Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e una precisione bfloat16.

IAMag 20

GPU cloud per il deep learning: disponibilità e prezzo/prestazioni

Se non hai preferenze sul modello di GPU, individua la GPU cloud più conveniente in base al nostro benchmark di 10 modelli di GPU in scenari di generazione e ottimizzazione di immagini e testo. Prezzo della GPU cloud per throughput. Due modelli di prezzo comuni per le GPU sono le istanze "on-demand" e "spot".

IAMag 14

Benchmark di Reranker: confronto tra gli 8 migliori modelli

Abbiamo confrontato 8 modelli di riordinamento su circa 145.000 recensioni Amazon in inglese per misurare quanto una fase di riordinamento migliori il recupero denso. Abbiamo recuperato i primi 100 candidati con multilingual-e5-base, li abbiamo riordinati con ciascun modello e abbiamo valutato i primi 10 risultati rispetto a 300 query, ognuna delle quali faceva riferimento a dettagli concreti dalla recensione di origine.

IAMag 14

RAG ibrido: miglioramento della precisione RAG

Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.

IAMag 14

I 30 migliori fornitori di GPU cloud e le loro GPU nel

Abbiamo eseguito un benchmark delle 10 GPU più comuni in scenari tipici (ad esempio, la messa a punto di un LLM come Llama 3.2). Sulla base di questi risultati, se: Classifica: gli sponsor sono collegati ed evidenziati in alto. Dopodiché, gli hyperscaler sono elencati in base alla quota di mercato statunitense. Quindi, i fornitori sono ordinati in base al numero di modelli che offrono.

IAMag 13

Affinamento supervisionato vs. apprendimento per rinforzo

I modelli linguistici di grandi dimensioni possono interiorizzare regole decisionali che non vengono mai esplicitamente dichiarate? Per esaminare questo aspetto, abbiamo progettato un esperimento in cui un modello a 14 parametri è stato addestrato su una regola nascosta di "override VIP" all'interno di un compito di decisione del credito, senza alcuna descrizione a livello di prompt della regola stessa.

IAMag 1

Modelli di embedding: OpenAI vs Gemini vs Cohere

L'efficacia di qualsiasi sistema di generazione aumentata tramite recupero (RAG) dipende dalla precisione del suo recuperatore. Abbiamo confrontato 11 modelli di embedding di testo leader, inclusi quelli di OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, utilizzando circa 500.000 recensioni di Amazon. Abbiamo valutato la capacità di ciascun modello di recuperare e classificare prima la risposta corretta.

IAApr 26

Benchmark dei modelli di embedding open source per RAG

Abbiamo confrontato le prestazioni di 14 modelli di embedding open source, self-hosted su un singolo H100, su oltre 500 query di recupero curate manualmente, che spaziano da contratti legali, note tecniche di assistenza clienti e abstract medici. NVIDIA Llama-Embed-Nemotron-8B è il migliore in termini di accuratezza. Per quanto riguarda i costi, EmbeddingGemma-300m di Google risulta circa 4 volte più economico di Nemotron, a scapito di una leggera perdita di accuratezza.

DatiApr 24

Confronto tra database a grafo: Neo4j vs FalkorDB vs Memgraph

Abbiamo eseguito un benchmark di Neo4j, FalkorDB e Memgraph su un grafo sintetico derivato da 120.000 recensioni di prodotti Amazon (381.000 nodi, 804.000 archi). Abbiamo eseguito 12 modelli di query con 1.

IAApr 24

Motori di inferenza LLM: vLLM vs LMDeploy vs SGLang

Abbiamo eseguito il benchmark di 3 motori di inferenza LLM leader su NVIDIA H100: vLLM, LMDeploy e SGLang. Ogni motore ha elaborato carichi di lavoro identici: 1.000 prompt ShareGPT utilizzando Llama 3.1 8B-Instruct per isolare il vero impatto sulle prestazioni delle loro scelte architetturali e strategie di ottimizzazione. Risultati del benchmark dei motori di inferenza Abbiamo misurato il throughput batch offline su 10.000 operazioni di inferenza totali (1.