Kontaktieren Sie uns
Keine Ergebnisse gefunden.
Ekrem Sarı

Ekrem Sarı

KI-Forscher
26 Artikel
Bleiben Sie über B2B-Technologie auf dem Laufenden

Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und LLMOps für RAG-Frameworks.

Berufserfahrung

Während seiner Tätigkeit als Assessor bei Yandex bewertete er Suchergebnisse mithilfe firmeneigener Frameworks und automatisierter Protokolle. Er implementierte Qualitätssicherungstests durch Datenannotation, Relevanzbewertung und Nutzerintention-Mapping für monatlich über 10.000 Suchanfragen und führte gleichzeitig technische Bewertungen durch, darunter Leistungsüberwachung und Spam-Erkennung mithilfe von ML-Feedbackschleifen.

Forschungsinteresse

Bei AIMultiple konzentriert sich seine Forschung auf den MLOps-Lebenszyklus sowie die Leistungsfähigkeit und das Benchmarking von End-to-End-KI-Systemen. Er wirkt an einer Vielzahl von Projekten mit, darunter die Optimierung von Retrieval-Augmented Generation (RAG), umfassende Benchmarking-Studien für große Sprachmodelle (LLM) und die Entwicklung agentenbasierter KI-Frameworks. Ekrem ist spezialisiert auf die Entwicklung datengetriebener Methoden zur Messung und Verbesserung der Leistungsfähigkeit von KI-Technologien anhand kritischer Kennzahlen wie Genauigkeit, Effizienz, API-Kosten und Skalierbarkeit. Seine Analysen umfassen den gesamten Technologie-Stack, von grundlegenden Komponenten wie Einbettungsmodellen und Vektordatenbanken bis hin zur leistungsstarken GPU- und Cloud-Infrastruktur, die für den Einsatz von KI-Agenten erforderlich ist.

Ausbildung

Ekrem hat einen Bachelor-Abschluss der Hacettepe Üniversitesi und einen Master-Abschluss der Başkent Üniversitesi.

Neueste Artikel von Ekrem

KIApr 16

Hybrid RAG: Steigerung der RAG-Genauigkeit

Die Suche mit dichten Vektoren eignet sich hervorragend zum Erfassen semantischer Intentionen, hat aber oft Schwierigkeiten bei Anfragen, die eine hohe Keyword-Genauigkeit erfordern. Um diese Lücke zu quantifizieren, haben wir einen Standard-Retriever, der ausschließlich auf dichten Vektoren basiert, mit einem hybriden RAG-System verglichen, das SPLADE-Sparse-Vektoren integriert.

KIApr 15

Reranker-Benchmark: Vergleich der 8 besten Modelle

Wir haben acht Reranker-Modelle anhand von ca. 145.000 englischen Amazon-Rezensionen verglichen, um zu messen, wie sehr ein Reranking-Schritt die Suche nach dichten Suchergebnissen verbessert. Wir ermittelten die 100 besten Kandidaten mit multilingual-e5-base, führten mit jedem Modell ein Reranking durch und evaluierten die Top-10-Ergebnisse anhand von 300 Anfragen, die jeweils konkrete Details aus der Originalrezension enthielten.

KIApr 15

Vergleich relationaler Fundamentmodelle

Wir haben SAP-RPT-1-OSS anhand von Gradient Boosting (LightGBM, CatBoost) auf 17 tabellarischen Datensätzen verglichen, die das semantisch-numerische Spektrum abdecken: kleine/hochsemantische Tabellen, gemischte Geschäftsdatensätze und große, niedrigsemantische numerische Datensätze. Unser Ziel ist es, zu ermitteln, wo die vortrainierten semantischen Priors eines relationalen LLM Vorteile gegenüber traditionellen Baummodellen bieten und wo sie bei großen Datensätzen oder niedrigsemantischen Strukturen an ihre Grenzen stoßen.

KIApr 15

Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI

Multimodale Einbettungsmodelle eignen sich hervorragend zur Objekterkennung, haben aber Schwierigkeiten mit Beziehungen. Aktuelle Modelle können beispielsweise nicht zwischen „Telefon auf einer Karte“ und „Karte auf einem Telefon“ unterscheiden. Wir haben sieben führende Modelle auf MS-COCO und Winoground verglichen, um diese spezifische Einschränkung zu untersuchen. Um einen fairen Vergleich zu gewährleisten, haben wir jedes Modell unter identischen Bedingungen mit A40-Hardware und bfloat16-Genauigkeit evaluiert.

KIApr 15

Die 10 besten mehrsprachigen Einbettungsmodelle für RAG

Wir haben zehn mehrsprachige Einbettungsmodelle anhand von ca. 606.000 Amazon-Rezensionen in sechs Sprachen (Deutsch, Englisch, Spanisch, Französisch, Japanisch und Chinesisch) getestet. Dazu generierten wir 1.800 Suchanfragen (300 pro Sprache), die jeweils konkrete Details aus der zugehörigen Rezension enthielten.

KIApr 15

LLM-Quantisierung: BF16 vs FP8 vs INT4

Wir haben Qwen3-32B mit vier Präzisionsstufen (BF16, FP8, GPTQ-Int8, GPTQ-Int4) auf einer einzelnen NVIDIA H100 80GB GPU getestet. Jede Konfiguration wurde anhand von zwei Benchmarks (~12.200 Fragen) zur Wissens- und Codegenerierung sowie über 2.000 Inferenzläufen zur Messung des Durchsatzes evaluiert.

KIApr 15

GPU-Parallelitäts-Benchmark: H100 vs. H200 vs. B200 vs. MI300X

Ich habe die letzten 20 Jahre der Optimierung der Rechenleistung auf Systemebene gewidmet. Wir haben die neuesten GPUs der Serie NVIDIA, darunter die Modelle H100, H200 und B200 sowie die MI300X der Serie AMD, hinsichtlich ihrer Skalierungsfähigkeit bei gleichzeitigen Anfragen getestet. Mithilfe des vLLM-Frameworks und des gpt-oss-20b-Modells haben wir untersucht, wie diese GPUs mit 1 bis 512 gleichzeitigen Anfragen umgehen.

KIApr 15

Multi-GPU-Benchmark: B200 vs. H200 vs. H100 vs. MI300X

Seit über zwei Jahrzehnten ist die Optimierung der Rechenleistung ein zentraler Bestandteil meiner Arbeit. Wir haben die B200, H200, H100 und MI300X von NVIDIA hinsichtlich ihrer Skalierbarkeit für die Inferenz großer Sprachmodelle (LLM) getestet. Mithilfe des vLLM-Frameworks und des Modells meta-llama/Llama-3.1-8B-Instruct führten wir Tests auf 1, 2, 4 und 8 GPUs durch.

KIMär 27

Graph-RAG vs. Vektor-RAG-Benchmark

Vector RAG ruft Dokumente anhand semantischer Ähnlichkeit ab. Graph RAG ergänzt dies um einen Wissensgraphen, extrahiert Entitäten und Beziehungen aus den Dokumenten, speichert diese in einer Graphdatenbank und nutzt Graphdurchlauf in Verbindung mit Vektorsuche zur Abfragezeit. Wir haben anhand von 3.904 Amazon-Elektronikartikeln getestet, ob diese zusätzliche Ebene die Abruf- und Antwortgenauigkeit verbessert.

KIMär 23

RAG Observability Tools Benchmark

Wir haben vier RAG-Observability-Plattformen in einer 7-Knoten-LangGraph-Pipeline anhand von drei praktischen Dimensionen verglichen: Latenz-Overhead, Integrationsaufwand und Plattform-Kompromisse. Metriken zum Latenz-Overhead: Erläuterung der Metriken: Der Mittelwert ist die durchschnittliche Latenz aus 150 gemessenen `graph.invoke()`-Aufrufen. Die LLM-Judge-Auswertungen erfolgen nach Ablauf des Timers. Der Median ist die Latenz des 50. Perzentils.