Ekrem Sarı
Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di IA e LLMOps per framework RAG.
Esperienza professionale
Durante il suo incarico come valutatore presso Yandex, ha analizzato i risultati di ricerca utilizzando framework proprietari e protocolli automatizzati. Ha implementato test di controllo qualità tramite annotazione dei dati, punteggio di pertinenza e mappatura dell'intento dell'utente su oltre 10.000 query al mese, conducendo al contempo valutazioni tecniche, tra cui il monitoraggio delle prestazioni e il rilevamento dello spam tramite cicli di feedback basati sull'apprendimento automatico.Capacità di ricerca
Presso AIMultiple, la sua ricerca si concentra sul ciclo di vita MLOps e sulle prestazioni e il benchmarking di sistemi di intelligenza artificiale end-to-end. Contribuisce a una vasta gamma di progetti, tra cui l'ottimizzazione del Retrieval-Augmented Generation (RAG), un ampio benchmarking di Large Language Model (LLM) e la progettazione di framework di intelligenza artificiale agentica. Ekrem è specializzato nello sviluppo di metodologie basate sui dati per misurare e migliorare le prestazioni della tecnologia IA in base a metriche operative critiche come accuratezza, efficienza, costo delle API e scalabilità. La sua analisi copre l'intero stack tecnologico, dai componenti fondamentali come i modelli di embedding e i database vettoriali fino alle GPU ad alte prestazioni e all'infrastruttura cloud necessarie per implementare agenti IA.Preparazione
Ekrem ha conseguito una laurea presso la Hacettepe Üniversitesi e un master presso la Başkent Üniversitesi.Ultimi articoli di Ekrem
Modelli di embedding multimodali: Apple vs Meta vs OpenAI
I modelli di embedding multimodale eccellono nell'identificazione degli oggetti ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo eseguito un benchmark su 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione. Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e una precisione bfloat16.
GPU cloud per il deep learning: disponibilità e prezzo/prestazioni
Se non hai preferenze sul modello di GPU, individua la GPU cloud più conveniente in base al nostro benchmark di 10 modelli di GPU in scenari di generazione e ottimizzazione di immagini e testo. Prezzo della GPU cloud per throughput. Due modelli di prezzo comuni per le GPU sono le istanze "on-demand" e "spot".
Benchmark di Reranker: confronto tra gli 8 migliori modelli
Abbiamo confrontato 8 modelli di riordinamento su circa 145.000 recensioni Amazon in inglese per misurare quanto una fase di riordinamento migliori il recupero denso. Abbiamo recuperato i primi 100 candidati con multilingual-e5-base, li abbiamo riordinati con ciascun modello e abbiamo valutato i primi 10 risultati rispetto a 300 query, ognuna delle quali faceva riferimento a dettagli concreti dalla recensione di origine.
RAG ibrido: miglioramento della precisione RAG
Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.
I 30 migliori fornitori di GPU cloud e le loro GPU nel
Abbiamo eseguito un benchmark delle 10 GPU più comuni in scenari tipici (ad esempio, la messa a punto di un LLM come Llama 3.2). Sulla base di questi risultati, se: Classifica: gli sponsor sono collegati ed evidenziati in alto. Dopodiché, gli hyperscaler sono elencati in base alla quota di mercato statunitense. Quindi, i fornitori sono ordinati in base al numero di modelli che offrono.
Affinamento supervisionato vs. apprendimento per rinforzo
I modelli linguistici di grandi dimensioni possono interiorizzare regole decisionali che non vengono mai esplicitamente dichiarate? Per esaminare questo aspetto, abbiamo progettato un esperimento in cui un modello a 14 parametri è stato addestrato su una regola nascosta di "override VIP" all'interno di un compito di decisione del credito, senza alcuna descrizione a livello di prompt della regola stessa.
Modelli di embedding: OpenAI vs Gemini vs Cohere
L'efficacia di qualsiasi sistema di generazione aumentata tramite recupero (RAG) dipende dalla precisione del suo recuperatore. Abbiamo confrontato 11 modelli di embedding di testo leader, inclusi quelli di OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, utilizzando circa 500.000 recensioni di Amazon. Abbiamo valutato la capacità di ciascun modello di recuperare e classificare prima la risposta corretta.
Benchmark dei modelli di embedding open source per RAG
Abbiamo confrontato le prestazioni di 14 modelli di embedding open source, self-hosted su un singolo H100, su oltre 500 query di recupero curate manualmente, che spaziano da contratti legali, note tecniche di assistenza clienti e abstract medici. NVIDIA Llama-Embed-Nemotron-8B è il migliore in termini di accuratezza. Per quanto riguarda i costi, EmbeddingGemma-300m di Google risulta circa 4 volte più economico di Nemotron, a scapito di una leggera perdita di accuratezza.
Confronto tra database a grafo: Neo4j vs FalkorDB vs Memgraph
Abbiamo eseguito un benchmark di Neo4j, FalkorDB e Memgraph su un grafo sintetico derivato da 120.000 recensioni di prodotti Amazon (381.000 nodi, 804.000 archi). Abbiamo eseguito 12 modelli di query con 1.
Motori di inferenza LLM: vLLM vs LMDeploy vs SGLang
Abbiamo eseguito il benchmark di 3 motori di inferenza LLM leader su NVIDIA H100: vLLM, LMDeploy e SGLang. Ogni motore ha elaborato carichi di lavoro identici: 1.000 prompt ShareGPT utilizzando Llama 3.1 8B-Instruct per isolare il vero impatto sulle prestazioni delle loro scelte architetturali e strategie di ottimizzazione. Risultati del benchmark dei motori di inferenza Abbiamo misurato il throughput batch offline su 10.000 operazioni di inferenza totali (1.
Newsletter AI Multiple
Una email gratuita a settimana con le ultime notizie tecnologiche B2B e approfondimenti di esperti per dare impulso alla tua azienda.