Ekrem Sarı
Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di IA e LLMOps per framework RAG.
Esperienza professionale
Durante il suo incarico come valutatore presso Yandex, ha analizzato i risultati di ricerca utilizzando framework proprietari e protocolli automatizzati. Ha implementato test di controllo qualità tramite annotazione dei dati, punteggio di pertinenza e mappatura dell'intento dell'utente su oltre 10.000 query al mese, conducendo al contempo valutazioni tecniche, tra cui il monitoraggio delle prestazioni e il rilevamento dello spam tramite cicli di feedback basati sull'apprendimento automatico.Capacità di ricerca
Presso AIMultiple, la sua ricerca si concentra sul ciclo di vita MLOps e sulle prestazioni e il benchmarking di sistemi di intelligenza artificiale end-to-end. Contribuisce a una vasta gamma di progetti, tra cui l'ottimizzazione del Retrieval-Augmented Generation (RAG), un ampio benchmarking di Large Language Model (LLM) e la progettazione di framework di intelligenza artificiale agentica. Ekrem è specializzato nello sviluppo di metodologie basate sui dati per misurare e migliorare le prestazioni della tecnologia IA in base a metriche operative critiche come accuratezza, efficienza, costo delle API e scalabilità. La sua analisi copre l'intero stack tecnologico, dai componenti fondamentali come i modelli di embedding e i database vettoriali fino alle GPU ad alte prestazioni e all'infrastruttura cloud necessarie per implementare agenti IA.Preparazione
Ekrem ha conseguito una laurea presso la Hacettepe Üniversitesi e un master presso la Başkent Üniversitesi.Ultimi articoli di Ekrem
RAG ibrido: miglioramento della precisione del RAG
La ricerca vettoriale densa è eccellente nel catturare l'intento semantico, ma spesso ha difficoltà con le query che richiedono un'elevata precisione delle parole chiave. Per quantificare questo divario, abbiamo confrontato un retriever standard basato esclusivamente su vettori densi con un sistema RAG ibrido che incorpora vettori sparsi SPLADE.
Benchmark di Reranker: confronto tra gli 8 migliori modelli
Abbiamo confrontato 8 modelli di riordinamento su circa 145.000 recensioni Amazon in inglese per misurare quanto una fase di riordinamento migliori il recupero denso. Abbiamo recuperato i primi 100 candidati con multilingual-e5-base, li abbiamo riordinati con ciascun modello e abbiamo valutato i primi 10 risultati rispetto a 300 query, ognuna delle quali faceva riferimento a dettagli concreti dalla recensione di origine.
Confronto tra modelli di fondamenti relazionali
Abbiamo confrontato SAP-RPT-1-OSS con il gradient boosting (LightGBM, CatBoost) su 17 dataset tabellari che coprono l'intero spettro semantico-numerico, tabelle piccole/ad alta semantica, dataset aziendali misti e grandi dataset numerici a bassa semantica. Il nostro obiettivo è misurare in quali casi i prior semantici pre-addestrati di un LLM relazionale possono offrire vantaggi rispetto ai modelli ad albero tradizionali e dove invece incontrano difficoltà in presenza di grandi dimensioni o di una struttura a bassa semantica.
Modelli di embedding multimodali: Apple vs Meta vs OpenAI
I modelli di embedding multimodale eccellono nell'identificazione degli oggetti ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo eseguito un benchmark su 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione. Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e una precisione bfloat16.
I 10 migliori modelli di embedding multilingue per RAG
Abbiamo testato 10 modelli di embedding multilingue su circa 606.000 recensioni di Amazon in 6 lingue (tedesco, inglese, spagnolo, francese, giapponese, cinese). Abbiamo generato 1.800 query (300 per lingua), ognuna delle quali faceva riferimento a dettagli concreti della recensione di origine.
Quantizzazione LLM: BF16 vs FP8 vs INT4
Abbiamo eseguito un benchmark di Qwen3-32B a 4 livelli di precisione (BF16, FP8, GPTQ-Int8, GPTQ-Int4) su una singola GPU NVIDIA H100 da 80 GB. Ogni configurazione è stata valutata su 2 benchmark (~12.200 domande) che coprono la generazione di conoscenza e codice, oltre a più di 2.000 esecuzioni di inferenza per misurare il throughput.
Benchmark di concorrenza GPU: H100 vs H200 vs B200 vs MI300X
Negli ultimi 20 anni mi sono concentrato sull'ottimizzazione delle prestazioni computazionali a livello di sistema. Abbiamo eseguito benchmark sulle più recenti GPU NVIDIA, incluse le H100, H200 e B200 di NVIDIA e la MI300X di AMD, per l'analisi della scalabilità della concorrenza. Utilizzando il framework vLLM con il modello gpt-oss-20b, abbiamo testato come queste GPU gestiscono le richieste concorrenti, da 1 a 512.
Benchmark multi-GPU: B200 vs H200 vs H100 vs MI300X
Per oltre due decenni, l'ottimizzazione delle prestazioni di calcolo è stata una pietra angolare del mio lavoro. Abbiamo eseguito benchmark sui modelli B200, H200 e H100 di NVIDIA e sul MI300X di AMD per valutare la loro scalabilità per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Utilizzando il framework vLLM con il modello meta-llama/Llama-3.1-8B-Instruct, abbiamo eseguito test su 1, 2, 4 e 8 GPU.
Confronto tra RAG grafico e RAG vettoriale
Vector RAG recupera i documenti in base alla similarità semantica. Graph RAG aggiunge un grafo della conoscenza, estrae entità e relazioni dai documenti, le memorizza in un database a grafo e utilizza l'attraversamento del grafo insieme alla ricerca vettoriale in fase di interrogazione. Abbiamo effettuato un benchmark per verificare se questo livello aggiuntivo migliora il recupero e l'accuratezza delle risposte su 3.
RAG Strumenti di osservabilità - Benchmark
Abbiamo eseguito un benchmark di quattro piattaforme di osservabilità RAG su una pipeline LangGraph a 7 nodi, considerando tre dimensioni pratiche: overhead di latenza, sforzo di integrazione e compromessi tra piattaforme. Metriche dell'overhead di latenza Spiegazione delle metriche: La media è la latenza media su 150 chiamate graph.invoke() misurate. Le valutazioni di LLM-judge vengono eseguite dopo l'arresto del timer. La mediana è la latenza al 50° percentile.
Newsletter AI Multiple
Una email gratuita a settimana con le ultime notizie tecnologiche B2B e approfondimenti di esperti per dare impulso alla tua azienda.