Ekrem Sarı
Ekrem è un ricercatore di intelligenza artificiale presso AIMultiple, specializzato in automazione intelligente, GPU, agenti di IA e LLMOps per framework RAG.
Esperienza professionale
Durante il suo incarico come valutatore presso Yandex, ha analizzato i risultati di ricerca utilizzando framework proprietari e protocolli automatizzati. Ha implementato test di controllo qualità tramite annotazione dei dati, punteggio di pertinenza e mappatura dell'intento dell'utente su oltre 10.000 query al mese, conducendo al contempo valutazioni tecniche, tra cui il monitoraggio delle prestazioni e il rilevamento dello spam tramite cicli di feedback basati sull'apprendimento automatico.Capacità di ricerca
Presso AIMultiple, la sua ricerca si concentra sul ciclo di vita MLOps e sulle prestazioni e il benchmarking di sistemi di intelligenza artificiale end-to-end. Contribuisce a una vasta gamma di progetti, tra cui l'ottimizzazione del Retrieval-Augmented Generation (RAG), un ampio benchmarking di Large Language Model (LLM) e la progettazione di framework di intelligenza artificiale agentica. Ekrem è specializzato nello sviluppo di metodologie basate sui dati per misurare e migliorare le prestazioni della tecnologia IA in base a metriche operative critiche come accuratezza, efficienza, costo delle API e scalabilità. La sua analisi copre l'intero stack tecnologico, dai componenti fondamentali come i modelli di embedding e i database vettoriali fino alle GPU ad alte prestazioni e all'infrastruttura cloud necessarie per implementare agenti IA.Preparazione
Ekrem ha conseguito una laurea presso la Hacettepe Üniversitesi e un master presso la Başkent Üniversitesi.Ultimi articoli di Ekrem
Principale database vettoriale per RAG: Qdrant vs Weaviate vs Pinecone
I database vettoriali alimentano il livello di recupero nei flussi di lavoro RAG memorizzando gli embedding di documenti e query come vettori ad alta dimensionalità. Consentono ricerche di similarità veloci basate su distanze vettoriali.
Confronto tra modelli di fondamenti relazionali
Abbiamo confrontato SAP-RPT-1-OSS con il gradient boosting (LightGBM, CatBoost) su 17 dataset tabellari che coprono l'intero spettro semantico-numerico, tabelle piccole/ad alta semantica, dataset aziendali misti e grandi dataset numerici a bassa semantica. Il nostro obiettivo è misurare in quali casi i prior semantici pre-addestrati di un LLM relazionale possono offrire vantaggi rispetto ai modelli ad albero tradizionali e dove invece incontrano difficoltà in presenza di grandi dimensioni o di una struttura a bassa semantica.
I 10 migliori modelli di embedding multilingue per RAG
Abbiamo testato 10 modelli di embedding multilingue su circa 606.000 recensioni di Amazon in 6 lingue (tedesco, inglese, spagnolo, francese, giapponese, cinese). Abbiamo generato 1.800 query (300 per lingua), ognuna delle quali faceva riferimento a dettagli concreti della recensione di origine.
Quantizzazione LLM: BF16 vs FP8 vs INT4
Abbiamo eseguito un benchmark di Qwen3-32B a 4 livelli di precisione (BF16, FP8, GPTQ-Int8, GPTQ-Int4) su una singola GPU NVIDIA H100 da 80 GB. Ogni configurazione è stata valutata su 2 benchmark (~12.200 domande) che coprono la generazione di conoscenza e codice, oltre a più di 2.000 esecuzioni di inferenza per misurare il throughput.
Benchmark di concorrenza GPU: H100 vs H200 vs B200 vs MI300X
Negli ultimi 20 anni mi sono concentrato sull'ottimizzazione delle prestazioni computazionali a livello di sistema. Abbiamo eseguito benchmark sulle più recenti GPU NVIDIA, incluse le H100, H200 e B200 di NVIDIA e la MI300X di AMD, per l'analisi della scalabilità della concorrenza. Utilizzando il framework vLLM con il modello gpt-oss-20b, abbiamo testato come queste GPU gestiscono le richieste concorrenti, da 1 a 512.
Benchmark multi-GPU: B200 vs H200 vs H100 vs MI300X
Per oltre due decenni, l'ottimizzazione delle prestazioni di calcolo è stata una pietra angolare del mio lavoro. Abbiamo eseguito benchmark sui modelli B200, H200 e H100 di NVIDIA e sul MI300X di AMD per valutare la loro scalabilità per l'inferenza di modelli linguistici di grandi dimensioni (LLM). Utilizzando il framework vLLM con il modello meta-llama/Llama-3.1-8B-Instruct, abbiamo eseguito test su 1, 2, 4 e 8 GPU.
Confronto tra RAG grafico e RAG vettoriale
Vector RAG recupera i documenti in base alla similarità semantica. Graph RAG aggiunge un grafo della conoscenza, estrae entità e relazioni dai documenti, le memorizza in un database a grafo e utilizza l'attraversamento del grafo insieme alla ricerca vettoriale in fase di interrogazione. Abbiamo effettuato un benchmark per verificare se questo livello aggiuntivo migliora il recupero e l'accuratezza delle risposte su 3.
Strumenti di valutazione RAG: pesi e pregiudizi vs Ragas vs DeepEval
Quando una pipeline RAG recupera il contesto sbagliato, l'LLM genera con sicurezza la risposta errata. I punteggi di rilevanza del contesto sono la principale difesa. Abbiamo confrontato cinque strumenti su 1.460 domande e oltre 14.600 contesti valutati in condizioni identiche: stesso modello di valutazione (GPT-4o), configurazioni predefinite e nessun prompt personalizzato.
I migliori strumenti, framework e librerie RAG
RAG (Retrieval-Augmented Generation) migliora le risposte LLM aggiungendo fonti di dati esterne. Abbiamo confrontato diversi modelli di embedding e testato separatamente varie dimensioni dei chunk per determinare quali combinazioni funzionano meglio per i sistemi RAG. Esplora i principali framework e strumenti RAG, scopri cos'è RAG, come funziona, i suoi vantaggi e il suo ruolo nel panorama LLM odierno.
Browser remoti: confronto tra infrastrutture web per agenti di intelligenza artificiale
Gli agenti di intelligenza artificiale si affidano ai browser remoti per automatizzare le attività web senza essere bloccati dalle misure anti-scraping. Le prestazioni di questa infrastruttura browser sono fondamentali per il successo di un agente. Abbiamo confrontato 8 fornitori in termini di tasso di successo, velocità e funzionalità.
Newsletter AI Multiple
Una email gratuita a settimana con le ultime notizie tecnologiche B2B e approfondimenti di esperti per dare impulso alla tua azienda.