Servizi
Contattaci
Ekrem Sarı

Ekrem Sarı

Ricercatore di intelligenza artificiale
31 Articoli
Rimani aggiornato sulle novità tecnologiche B2B.

Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di IA e LLMOps per framework RAG.

Esperienza professionale

Durante il suo incarico come valutatore presso Yandex, ha analizzato i risultati di ricerca utilizzando framework proprietari e protocolli automatizzati. Ha implementato test di controllo qualità tramite annotazione dei dati, punteggio di pertinenza e mappatura dell'intento dell'utente su oltre 10.000 query al mese, conducendo al contempo valutazioni tecniche, tra cui il monitoraggio delle prestazioni e il rilevamento dello spam tramite cicli di feedback basati sull'apprendimento automatico.

Capacità di ricerca

Presso AIMultiple, la sua ricerca si concentra sul ciclo di vita MLOps e sulle prestazioni e il benchmarking di sistemi di intelligenza artificiale end-to-end. Contribuisce a una vasta gamma di progetti, tra cui l'ottimizzazione del Retrieval-Augmented Generation (RAG), un ampio benchmarking di Large Language Model (LLM) e la progettazione di framework di intelligenza artificiale agentica. Ekrem è specializzato nello sviluppo di metodologie basate sui dati per misurare e migliorare le prestazioni della tecnologia IA in base a metriche operative critiche come accuratezza, efficienza, costo delle API e scalabilità. La sua analisi copre l'intero stack tecnologico, dai componenti fondamentali come i modelli di embedding e i database vettoriali fino alle GPU ad alte prestazioni e all'infrastruttura cloud necessarie per implementare agenti IA.

Preparazione

Ekrem ha conseguito una laurea presso la Hacettepe Üniversitesi e un master presso la Başkent Üniversitesi.

Ultimi articoli di Ekrem

IAApr 24

Principale database vettoriale per RAG: Qdrant vs Weaviate vs Pinecone

I database vettoriali alimentano il livello di recupero nei flussi di lavoro RAG memorizzando gli embedding di documenti e query come vettori ad alta dimensionalità. Consentono ricerche di similarità veloci basate su distanze vettoriali.

IAApr 15

Confronto tra modelli di fondamenti relazionali

Abbiamo confrontato SAP-RPT-1-OSS con il gradient boosting (LightGBM, CatBoost) su 17 dataset tabellari che coprono l'intero spettro semantico-numerico, tabelle piccole/ad alta semantica, dataset aziendali misti e grandi dataset numerici a bassa semantica. Il nostro obiettivo è misurare in quali casi i prior semantici pre-addestrati di un LLM relazionale possono offrire vantaggi rispetto ai modelli ad albero tradizionali e dove invece incontrano difficoltà in presenza di grandi dimensioni o di una struttura a bassa semantica.

IAApr 15

I 10 migliori modelli di embedding multilingue per RAG

Abbiamo testato 10 modelli di embedding multilingue su circa 606.000 recensioni di Amazon in 6 lingue (tedesco, inglese, spagnolo, francese, giapponese, cinese). Abbiamo generato 1.800 query (300 per lingua), ognuna delle quali faceva riferimento a dettagli concreti della recensione di origine.

IAApr 15

Quantizzazione LLM: BF16 vs FP8 vs INT4

Abbiamo eseguito un benchmark di Qwen3-32B a 4 livelli di precisione (BF16, FP8, GPTQ-Int8, GPTQ-Int4) su una singola GPU NVIDIA H100 da 80 GB. Ogni configurazione è stata valutata su 2 benchmark (~12.200 domande) che coprono la generazione di conoscenza e codice, oltre a più di 2.000 esecuzioni di inferenza per misurare il throughput.

IAApr 15

Benchmark di concorrenza GPU: H100 vs H200 vs B200 vs MI300X

Negli ultimi 20 anni mi sono concentrato sull'ottimizzazione delle prestazioni computazionali a livello di sistema. Abbiamo eseguito benchmark sulle più recenti GPU NVIDIA, incluse le H100, H200 e B200 di NVIDIA e la MI300X di AMD, per l'analisi della scalabilità della concorrenza. Utilizzando il framework vLLM con il modello gpt-oss-20b, abbiamo testato come queste GPU gestiscono le richieste concorrenti, da 1 a 512.

IAApr 15

Benchmark multi-GPU: B200 vs H200 vs H100 vs MI300X

Per oltre due decenni, l'ottimizzazione delle prestazioni di calcolo è stata una pietra angolare del mio lavoro. Abbiamo eseguito benchmark sui modelli B200, H200 e H100 di NVIDIA e sul MI300X di AMD per valutare la loro scalabilità per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Utilizzando il framework vLLM con il modello meta-llama/Llama-3.1-8B-Instruct, abbiamo eseguito test su 1, 2, 4 e 8 GPU.

IAMar 27

Confronto tra RAG grafico e RAG vettoriale

Vector RAG recupera i documenti in base alla similarità semantica. Graph RAG aggiunge un grafo della conoscenza, estrae entità e relazioni dai documenti, le memorizza in un database a grafo e utilizza l'attraversamento del grafo insieme alla ricerca vettoriale in fase di interrogazione. Abbiamo effettuato un benchmark per verificare se questo livello aggiuntivo migliora il recupero e l'accuratezza delle risposte su 3.

IAMar 23

Strumenti di valutazione RAG: pesi e pregiudizi vs Ragas vs DeepEval

Quando una pipeline RAG recupera il contesto sbagliato, l'LLM genera con sicurezza la risposta errata. I punteggi di rilevanza del contesto sono la principale difesa. Abbiamo confrontato cinque strumenti su 1.460 domande e oltre 14.600 contesti valutati in condizioni identiche: stesso modello di valutazione (GPT-4o), configurazioni predefinite e nessun prompt personalizzato.

IAFeb 4

I migliori strumenti, framework e librerie RAG

RAG (Retrieval-Augmented Generation) migliora le risposte LLM aggiungendo fonti di dati esterne. Abbiamo confrontato diversi modelli di embedding e testato separatamente varie dimensioni dei chunk per determinare quali combinazioni funzionano meglio per i sistemi RAG. Esplora i principali framework e strumenti RAG, scopri cos'è RAG, come funziona, i suoi vantaggi e il suo ruolo nel panorama LLM odierno.

DatiGen 30

Browser remoti: confronto tra infrastrutture web per agenti di intelligenza artificiale

Gli agenti di intelligenza artificiale si affidano ai browser remoti per automatizzare le attività web senza essere bloccati dalle misure anti-scraping. Le prestazioni di questa infrastruttura browser sono fondamentali per il successo di un agente. Abbiamo confrontato 8 fornitori in termini di tasso di successo, velocità e funzionalità.