Ekrem Sarı

Ricercatore di intelligenza artificiale

26 Articoli

Rimani aggiornato sulle novità tecnologiche B2B.

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di IA e LLMOps per framework RAG.

Esperienza professionale

Durante il suo incarico come valutatore presso Yandex, ha analizzato i risultati di ricerca utilizzando framework proprietari e protocolli automatizzati. Ha implementato test di controllo qualità tramite annotazione dei dati, punteggio di pertinenza e mappatura dell'intento dell'utente su oltre 10.000 query al mese, conducendo al contempo valutazioni tecniche, tra cui il monitoraggio delle prestazioni e il rilevamento dello spam tramite cicli di feedback basati sull'apprendimento automatico.

Capacità di ricerca

Presso AIMultiple, la sua ricerca si concentra sul ciclo di vita MLOps e sulle prestazioni e il benchmarking di sistemi di intelligenza artificiale end-to-end. Contribuisce a una vasta gamma di progetti, tra cui l'ottimizzazione del Retrieval-Augmented Generation (RAG), un ampio benchmarking di Large Language Model (LLM) e la progettazione di framework di intelligenza artificiale agentica. Ekrem è specializzato nello sviluppo di metodologie basate sui dati per misurare e migliorare le prestazioni della tecnologia IA in base a metriche operative critiche come accuratezza, efficienza, costo delle API e scalabilità. La sua analisi copre l'intero stack tecnologico, dai componenti fondamentali come i modelli di embedding e i database vettoriali fino alle GPU ad alte prestazioni e all'infrastruttura cloud necessarie per implementare agenti IA.

Preparazione

Ekrem ha conseguito una laurea presso la Hacettepe Üniversitesi e un master presso la Başkent Üniversitesi.

Ultimi articoli di Ekrem

IAApr 16

RAG ibrido: miglioramento della precisione del RAG

La ricerca vettoriale densa è eccellente nel catturare l'intento semantico, ma spesso ha difficoltà con le query che richiedono un'elevata precisione delle parole chiave. Per quantificare questo divario, abbiamo confrontato un retriever standard basato esclusivamente su vettori densi con un sistema RAG ibrido che incorpora vettori sparsi SPLADE.

IAApr 15

Benchmark di Reranker: confronto tra gli 8 migliori modelli

Abbiamo confrontato 8 modelli di riordinamento su circa 145.000 recensioni Amazon in inglese per misurare quanto una fase di riordinamento migliori il recupero denso. Abbiamo recuperato i primi 100 candidati con multilingual-e5-base, li abbiamo riordinati con ciascun modello e abbiamo valutato i primi 10 risultati rispetto a 300 query, ognuna delle quali faceva riferimento a dettagli concreti dalla recensione di origine.

IAApr 15

Confronto tra modelli di fondamenti relazionali

Abbiamo confrontato SAP-RPT-1-OSS con il gradient boosting (LightGBM, CatBoost) su 17 dataset tabellari che coprono l'intero spettro semantico-numerico, tabelle piccole/ad alta semantica, dataset aziendali misti e grandi dataset numerici a bassa semantica. Il nostro obiettivo è misurare in quali casi i prior semantici pre-addestrati di un LLM relazionale possono offrire vantaggi rispetto ai modelli ad albero tradizionali e dove invece incontrano difficoltà in presenza di grandi dimensioni o di una struttura a bassa semantica.

IAApr 15

Modelli di embedding multimodali: Apple vs Meta vs OpenAI

I modelli di embedding multimodale eccellono nell'identificazione degli oggetti ma faticano a gestire le relazioni. I modelli attuali hanno difficoltà a distinguere "telefono su una mappa" da "mappa su un telefono". Abbiamo eseguito un benchmark su 7 modelli leader su MS-COCO e Winoground per misurare questa specifica limitazione. Per garantire un confronto equo, abbiamo valutato ogni modello in condizioni identiche utilizzando l'hardware NVIDIA A40 e una precisione bfloat16.

IAApr 15

I 10 migliori modelli di embedding multilingue per RAG

Abbiamo testato 10 modelli di embedding multilingue su circa 606.000 recensioni di Amazon in 6 lingue (tedesco, inglese, spagnolo, francese, giapponese, cinese). Abbiamo generato 1.800 query (300 per lingua), ognuna delle quali faceva riferimento a dettagli concreti della recensione di origine.

IAApr 15

Quantizzazione LLM: BF16 vs FP8 vs INT4

Abbiamo eseguito un benchmark di Qwen3-32B a 4 livelli di precisione (BF16, FP8, GPTQ-Int8, GPTQ-Int4) su una singola GPU NVIDIA H100 da 80 GB. Ogni configurazione è stata valutata su 2 benchmark (~12.200 domande) che coprono la generazione di conoscenza e codice, oltre a più di 2.000 esecuzioni di inferenza per misurare il throughput.

IAApr 15

Benchmark di concorrenza GPU: H100 vs H200 vs B200 vs MI300X

Negli ultimi 20 anni mi sono concentrato sull'ottimizzazione delle prestazioni computazionali a livello di sistema. Abbiamo eseguito benchmark sulle più recenti GPU NVIDIA, incluse le H100, H200 e B200 di NVIDIA e la MI300X di AMD, per l'analisi della scalabilità della concorrenza. Utilizzando il framework vLLM con il modello gpt-oss-20b, abbiamo testato come queste GPU gestiscono le richieste concorrenti, da 1 a 512.

IAApr 15

Benchmark multi-GPU: B200 vs H200 vs H100 vs MI300X

Per oltre due decenni, l'ottimizzazione delle prestazioni di calcolo è stata una pietra angolare del mio lavoro. Abbiamo eseguito benchmark sui modelli B200, H200 e H100 di NVIDIA e sul MI300X di AMD per valutare la loro scalabilità per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Utilizzando il framework vLLM con il modello meta-llama/Llama-3.1-8B-Instruct, abbiamo eseguito test su 1, 2, 4 e 8 GPU.

IAMar 27

Confronto tra RAG grafico e RAG vettoriale

Vector RAG recupera i documenti in base alla similarità semantica. Graph RAG aggiunge un grafo della conoscenza, estrae entità e relazioni dai documenti, le memorizza in un database a grafo e utilizza l'attraversamento del grafo insieme alla ricerca vettoriale in fase di interrogazione. Abbiamo effettuato un benchmark per verificare se questo livello aggiuntivo migliora il recupero e l'accuratezza delle risposte su 3.

IAMar 23

RAG Strumenti di osservabilità - Benchmark

Abbiamo eseguito un benchmark di quattro piattaforme di osservabilità RAG su una pipeline LangGraph a 7 nodi, considerando tre dimensioni pratiche: overhead di latenza, sforzo di integrazione e compromessi tra piattaforme. Metriche dell'overhead di latenza Spiegazione delle metriche: La media è la latenza media su 150 chiamate graph.invoke() misurate. Le valutazioni di LLM-judge vengono eseguite dopo l'arresto del timer. La mediana è la latenza al 50° percentile.

1 2 3

Rimani al passo con i tempi con

Newsletter AI Multiple

Una email gratuita a settimana con le ultime notizie tecnologiche B2B e approfondimenti di esperti per dare impulso alla tua azienda.

MCP

Programmazione AI

Hardware per l'intelligenza artificiale

Agenti di intelligenza artificiale

LLM

Fondamenti di intelligenza artificiale

STRACCIO

Framework di intelligenza artificiale agentiva

Sicurezza dei dati

Firewall

Strumenti di sicurezza

Gestione delle identità e degli accessi

Sicurezza di rete

SIEM

Proxy web

Estrazione di dati dal web

Raccolta dati

Scienza dei dati

Dati sintetici

Database

Automazione del carico di lavoro

Trasferimento file gestito

RMM

Osservabilità

E-Commerce

CRM

Software industriale

Ekrem Sarı

Esperienza professionale

Capacità di ricerca

Preparazione

Ultimi articoli di Ekrem

RAG ibrido: miglioramento della precisione del RAG

Benchmark di Reranker: confronto tra gli 8 migliori modelli

Confronto tra modelli di fondamenti relazionali

Modelli di embedding multimodali: Apple vs Meta vs OpenAI

I 10 migliori modelli di embedding multilingue per RAG

Quantizzazione LLM: BF16 vs FP8 vs INT4

Benchmark di concorrenza GPU: H100 vs H200 vs B200 vs MI300X

Benchmark multi-GPU: B200 vs H200 vs H100 vs MI300X

Confronto tra RAG grafico e RAG vettoriale

RAG Strumenti di osservabilità - Benchmark

Newsletter AI Multiple