Ekrem Sarı

KI-Forscher

32 Artikel

Bleiben Sie über B2B-Technologie auf dem Laufenden

Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und LLMOps für RAG-Frameworks.

Berufserfahrung

Während seiner Tätigkeit als Assessor bei Yandex bewertete er Suchergebnisse mithilfe firmeneigener Frameworks und automatisierter Protokolle. Er implementierte Qualitätssicherungstests durch Datenannotation, Relevanzbewertung und Nutzerintention-Mapping für monatlich über 10.000 Suchanfragen und führte gleichzeitig technische Bewertungen durch, darunter Leistungsüberwachung und Spam-Erkennung mithilfe von ML-Feedbackschleifen.

Forschungsinteresse

Bei AIMultiple konzentriert sich seine Forschung auf den MLOps-Lebenszyklus sowie die Leistungsfähigkeit und das Benchmarking von End-to-End-KI-Systemen. Er wirkt an einer Vielzahl von Projekten mit, darunter die Optimierung von Retrieval-Augmented Generation (RAG), umfassende Benchmarking-Studien für große Sprachmodelle (LLM) und die Entwicklung agentenbasierter KI-Frameworks. Ekrem ist spezialisiert auf die Entwicklung datengetriebener Methoden zur Messung und Verbesserung der Leistungsfähigkeit von KI-Technologien anhand kritischer Kennzahlen wie Genauigkeit, Effizienz, API-Kosten und Skalierbarkeit. Seine Analysen umfassen den gesamten Technologie-Stack, von grundlegenden Komponenten wie Einbettungsmodellen und Vektordatenbanken bis hin zur leistungsstarken GPU- und Cloud-Infrastruktur, die für den Einsatz von KI-Agenten erforderlich ist.

Ausbildung

Ekrem hat einen Bachelor-Abschluss der Hacettepe Üniversitesi und einen Master-Abschluss der Başkent Üniversitesi.

Neueste Artikel von Ekrem

Benchmark

2. Jul

RAG Evaluierungswerkzeuge: Weights & Biases vs Ragas vs DeepEval

Wenn eine RAG-Pipeline den falschen Kontext abruft, generiert das LLM selbstbewusst die falsche Antwort. Scorer für die Kontextrelevanz sind die primäre Verteidigungslinie. Wir haben fünf Tools über 1,460 Fragen und über 14,600 bewertete Kontexte unter identischen Bedingungen getestet: gleiches Beurteilungsmodell (GPT-4o), Standardkonfigurationen und keine benutzerdefinierten Prompts. Unter Standardbedingungen erwiesen sich WandB, TruLens und Ragas als…

Daten

Benchmark

2. Jul

Remote-Browser: Web-Infrastruktur für KI-Agenten im Vergleich

KI-Agenten sind auf Remote-Browser angewiesen, um Webaufgaben zu automatisieren, ohne von Anti-Scraping-Maßnahmen blockiert zu werden. Die Leistung dieser Browser-Infrastruktur ist entscheidend für den Erfolg eines Agenten. Wir haben 8 Anbieter hinsichtlich Erfolgsquote, Geschwindigkeit und Funktionen bewertet. Dazu haben wir 160 automatisierte Aufgaben ausgeführt und 4 verschiedene Szenarien 5 Mal für jeden Dienst durchgetestet, um ihre…

Daten

Benchmark

1. Jul

Graph-Datenbank-Benchmark: Neo4j vs FalkorDB vs Memgraph

Wir haben Neo4j, FalkorDB und Memgraph an einem synthetischen Graphen getestet, der von 120.000 Amazon-Produktbewertungen abgeleitet ist (381K Knoten, 804K Kanten). Wir führten 12 Abfragevorlagen mit jeweils 1.000 Messungen aus, testeten die Ingestion bei 6 Batch-Größen, hielten eine gleichzeitige Last für 60 Sekunden bei bis zu 32 Threads aufrecht und maßen Speicher, Cold Start, gemischte…

Benchmark

1. Jul

LLM Inference-Engines: vLLM vs LMDeploy vs SGLang

Wir haben 3 führende LLM Inference-Engines auf NVIDIA H100 verglichen: vLLM, LMDeploy und SGLang. Jede Engine verarbeitete identische Workloads: 1.000 ShareGPT-Prompts mit Llama 3.1 8B-Instruct, um die tatsächliche Leistungsauswirkung ihrer Architekturentscheidungen und Optimierungsstrategien zu isolieren. Wir haben den Offline-Batch-Durchsatz über 10.000 gesamte Inferenzoperationen gemessen (1.000 Prompts × 10 Durchläufe pro Engine), um statistische Stabilität zu…

Benchmark

30. Jun

Top 10 Multilinguale Embedding-Modelle für RAG

Wir haben 10 multilinguale Embedding-Modelle anhand von ~606k Amazon-Bewertungen in 6 Sprachen (Deutsch, Englisch, Spanisch, Französisch, Japanisch, Chinesisch) verglichen. Wir haben 1.800 Abfragen (300 pro Sprache) generiert, die jeweils konkrete Details aus der ursprünglichen Bewertung referenzieren. Modelle, die für die Suche trainiert wurden (Trennung von Abfrage und Dokument), übertreffen größere Modelle, die für allgemeine Textähnlichkeit…

Benchmark

30. Jun

Mehr-GPU-Benchmark: B200 vs H200 vs H100 vs MI300X

Seit über zwei Jahrzehnten ist die Optimierung der Rechenleistung ein Eckpfeiler meiner Arbeit. Wir haben die GPUs von NVIDIA (B200, H200, H100) und AMD (MI300X) getestet, um zu bewerten, wie gut sie sich für die Inferenz von Large Language Models (LLM) skalieren lassen. Mit dem vLLM-Framework und dem Modell meta-llama/Llama-3.1-8B-Instruct führten wir Tests mit 1,…

Benchmark

29. Jun

Embedding-Modelle: OpenAI vs Gemini vs Voyage

Wir haben 15 englische Text-Embedding-Modelle und eine BM25-Baseline mit über 500 manuell kuratierten Abfragen in drei Retrieval-Domänen verglichen: Verträge (CUAD), Kundensupport (IBM TechQA) und Gesundheitswesen (MedRAG PubMed). Voyage-3.5 belegt insgesamt den ersten Platz. Perplexity Embed V1 0.6b erreicht das obere Mittelfeld zum niedrigsten Preis in unserem Benchmark. nDCG@3: Normalisierter diskontierter kumulierter Gewinn bei Cutoff 3.…

Benchmark

29. Jun

RAG-Frameworks: LangChain vs LangGraph vs LlamaIndex

Wir haben 5 RAG-Frameworks einem Benchmark unterzogen: LangChain, LangGraph, LlamaIndex, Haystack und DSPy, indem wir denselben agentischen RAG-Workflow mit standardisierten Komponenten aufgebaut haben: identische Modelle (GPT-4.1-mini), Embeddings (BGE-small), Retriever (Qdrant) und Tools (Tavily-Websuche). Dies isoliert den tatsächlichen Overhead und die Token-Effizienz jedes Frameworks. Der Benchmark bestand aus 100 Abfragen, wobei jedes Framework den vollständigen Satz…

Benchmark

29. Jun

Reranker-Benchmark: Top 8 Modelle verglichen

Wir haben 8 Reranker-Modelle an ~145k englischen Amazon-Bewertungen getestet, um zu messen, wie stark eine Reranking-Phase die dichte Suche verbessert. Wir haben die Top-100-Kandidaten mit multilingual-e5-base abgerufen, sie mit jedem Modell neu sortiert und die Top-10-Ergebnisse an 300 Abfragen evaluiert, die sich jeweils auf konkrete Details aus ihrer Quellbewertung bezogen. Der beste Reranker hob Hit@1…

Agentische KI

Benchmark

29. Jun

Agentic Search: Benchmark 8 SuchAPIs für Agenten

Agentic Search spielt eine entscheidende Rolle bei der Überbrückung der Lücke zwischen herkömmlichen Suchmaschinen und den Fähigkeiten der KI-Suche. Diese Systeme ermöglichen es KI-Agenten, autonom relevante Informationen zu finden, abzurufen und zu strukturieren, und unterstützen Anwendungen von der Forschungsunterstützung bis hin zur Echtzeitüberwachung und mehrstufigen Schlussfolgerung. SuchAPIs bilden die erste Ebene eines agentic-Suchwerkzeugs, wobei die…

1 2 3 4

Bleiben Sie voraus mit

AIMultiple Newsletter

1 kostenlose E-Mail pro Woche mit den neuesten B2B-Technachrichten und Experten Einblicken.