Dienstleistungen
Jetzt kontaktieren
Ekrem Sarı

Ekrem Sarı

KI-Forscher
31 Artikel
Bleiben Sie über B2B-Technologie auf dem Laufenden

Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und LLMOps für RAG-Frameworks.

Berufserfahrung

Während seiner Tätigkeit als Assessor bei Yandex bewertete er Suchergebnisse mithilfe firmeneigener Frameworks und automatisierter Protokolle. Er implementierte Qualitätssicherungstests durch Datenannotation, Relevanzbewertung und Nutzerintention-Mapping für monatlich über 10.000 Suchanfragen und führte gleichzeitig technische Bewertungen durch, darunter Leistungsüberwachung und Spam-Erkennung mithilfe von ML-Feedbackschleifen.

Forschungsinteresse

Bei AIMultiple konzentriert sich seine Forschung auf den MLOps-Lebenszyklus sowie die Leistungsfähigkeit und das Benchmarking von End-to-End-KI-Systemen. Er wirkt an einer Vielzahl von Projekten mit, darunter die Optimierung von Retrieval-Augmented Generation (RAG), umfassende Benchmarking-Studien für große Sprachmodelle (LLM) und die Entwicklung agentenbasierter KI-Frameworks. Ekrem ist spezialisiert auf die Entwicklung datengetriebener Methoden zur Messung und Verbesserung der Leistungsfähigkeit von KI-Technologien anhand kritischer Kennzahlen wie Genauigkeit, Effizienz, API-Kosten und Skalierbarkeit. Seine Analysen umfassen den gesamten Technologie-Stack, von grundlegenden Komponenten wie Einbettungsmodellen und Vektordatenbanken bis hin zur leistungsstarken GPU- und Cloud-Infrastruktur, die für den Einsatz von KI-Agenten erforderlich ist.

Ausbildung

Ekrem hat einen Bachelor-Abschluss der Hacettepe Üniversitesi und einen Master-Abschluss der Başkent Üniversitesi.

Neueste Artikel von Ekrem

KIApr 24

Top-Vektordatenbank für RAG: Qdrant vs Weaviate vs Pinecone

Vektordatenbanken bilden die Grundlage für die Abfrageschicht in RAG-Workflows, indem sie Dokument- und Abfrageeinbettungen als hochdimensionale Vektoren speichern. Sie ermöglichen schnelle Ähnlichkeitssuchen basierend auf Vektordistanzen. Wir haben sechs Anbieter von Vektordatenbanken hinsichtlich ihrer Preisstrukturen und Leistung verglichen: Vergleich von Vektordatenbanken: Preise & Leistung.

KIApr 15

Vergleich relationaler Fundamentmodelle

Wir haben SAP-RPT-1-OSS anhand von Gradient Boosting (LightGBM, CatBoost) auf 17 tabellarischen Datensätzen verglichen, die das semantisch-numerische Spektrum abdecken: kleine/hochsemantische Tabellen, gemischte Geschäftsdatensätze und große, niedrigsemantische numerische Datensätze. Unser Ziel ist es, zu ermitteln, wo die vortrainierten semantischen Priors eines relationalen LLM Vorteile gegenüber traditionellen Baummodellen bieten und wo sie bei großen Datenmengen oder niedrigsemantischen Strukturen an ihre Grenzen stoßen.

KIApr 15

Die 10 besten mehrsprachigen Einbettungsmodelle für RAG

Wir haben zehn mehrsprachige Einbettungsmodelle anhand von ca. 606.000 Amazon-Rezensionen in sechs Sprachen (Deutsch, Englisch, Spanisch, Französisch, Japanisch und Chinesisch) getestet. Dazu generierten wir 1.800 Suchanfragen (300 pro Sprache), die jeweils konkrete Details aus der zugehörigen Rezension enthielten.

KIApr 15

LLM-Quantisierung: BF16 vs FP8 vs INT4

Wir haben Qwen3-32B mit vier Genauigkeitsstufen (BF16, FP8, GPTQ-Int8, GPTQ-Int4) auf einer einzelnen NVIDIA H100 80GB GPU getestet. Jede Konfiguration wurde anhand von zwei Benchmarks (~12.200 Fragen) zur Wissens- und Codegenerierung sowie über 2.000 Inferenzläufen zur Messung des Durchsatzes evaluiert.

KIApr 15

GPU-Parallelitäts-Benchmark: H100 vs. H200 vs. B200 vs. MI300X

Ich habe die letzten 20 Jahre der Optimierung der Rechenleistung auf Systemebene gewidmet. Wir haben die neuesten GPUs der Serie NVIDIA, darunter die Modelle H100, H200 und B200 sowie die MI300X der Serie AMD, hinsichtlich ihrer Skalierungsfähigkeit bei gleichzeitigen Anfragen getestet. Mithilfe des vLLM-Frameworks und des gpt-oss-20b-Modells haben wir untersucht, wie diese GPUs mit 1 bis 512 gleichzeitigen Anfragen umgehen.

KIApr 15

Multi-GPU-Benchmark: B200 vs. H200 vs. H100 vs. MI300X

Seit über zwei Jahrzehnten ist die Optimierung der Rechenleistung ein zentraler Bestandteil meiner Arbeit. Wir haben die B200, H200, H100 und MI300X von NVIDIA hinsichtlich ihrer Skalierbarkeit für die Inferenz großer Sprachmodelle (LLM) getestet. Mithilfe des vLLM-Frameworks und des Modells meta-llama/Llama-3.1-8B-Instruct führten wir Tests auf 1, 2, 4 und 8 GPUs durch.

KIMär 27

Graph-RAG vs. Vektor-RAG-Benchmark

Vector RAG ruft Dokumente anhand semantischer Ähnlichkeit ab. Graph RAG ergänzt dies um einen Wissensgraphen, extrahiert Entitäten und Beziehungen aus den Dokumenten, speichert diese in einer Graphdatenbank und nutzt Graphdurchlauf in Verbindung mit Vektorsuche zur Abfragezeit. Wir haben anhand von 3.904 Amazon-Elektronikartikeln getestet, ob diese zusätzliche Ebene die Abruf- und Antwortgenauigkeit verbessert.

KIMär 23

RAG-Evaluierungsinstrumente: Gewichtungen & Verzerrungen vs. Ragas vs. DeepEval

Wenn eine RAG-Pipeline den falschen Kontext abruft, generiert das LLM mit Sicherheit die falsche Antwort. Kontextrelevante Bewertungsalgorithmen bilden die primäre Verteidigungslinie. Wir haben fünf Tools anhand von 1.460 Fragen und über 14.600 bewerteten Kontexten unter identischen Bedingungen verglichen: gleiches Bewertungsmodell (GPT-4o), Standardkonfigurationen und keine benutzerdefinierten Eingabeaufforderungen.

KIFeb 4

Die besten RAG-Tools, Frameworks und Bibliotheken

RAG (Retrieval-Augmented Generation) verbessert die Ergebnisse von LLM-Systemen durch die Einbindung externer Datenquellen. Wir haben verschiedene Einbettungsmodelle verglichen und separat unterschiedliche Chunk-Größen getestet, um die optimalen Kombinationen für RAG-Systeme zu ermitteln. Entdecken Sie führende RAG-Frameworks und -Tools, erfahren Sie, was RAG ist, wie es funktioniert, welche Vorteile es bietet und welche Rolle es in der heutigen LLM-Landschaft spielt.

DatenJan 30

Remote-Browser: Vergleich der Webinfrastruktur für KI-Agenten

KI-Agenten nutzen Remote-Browser, um Webaufgaben zu automatisieren, ohne von Anti-Scraping-Maßnahmen blockiert zu werden. Die Leistungsfähigkeit dieser Browserinfrastruktur ist entscheidend für den Erfolg eines Agenten. Wir haben acht Anbieter hinsichtlich Erfolgsquote, Geschwindigkeit und Funktionen verglichen. Dazu führten wir 160 automatisierte Aufgaben aus und testeten vier verschiedene Szenarien jeweils fünfmal pro Dienst.