Dienstleistungen
Jetzt kontaktieren
Ekrem Sarı

Ekrem Sarı

KI-Forscher
31 Artikel
Bleiben Sie über B2B-Technologie auf dem Laufenden

Ekrem ist KI-Forscher bei AIMultiple und konzentriert sich auf intelligente Automatisierung, GPUs, KI-Agenten und LLMOps für RAG-Frameworks.

Berufserfahrung

Während seiner Tätigkeit als Assessor bei Yandex bewertete er Suchergebnisse mithilfe firmeneigener Frameworks und automatisierter Protokolle. Er implementierte Qualitätssicherungstests durch Datenannotation, Relevanzbewertung und Nutzerintention-Mapping für monatlich über 10.000 Suchanfragen und führte gleichzeitig technische Bewertungen durch, darunter Leistungsüberwachung und Spam-Erkennung mithilfe von ML-Feedbackschleifen.

Forschungsinteresse

Bei AIMultiple konzentriert sich seine Forschung auf den MLOps-Lebenszyklus sowie die Leistungsfähigkeit und das Benchmarking von End-to-End-KI-Systemen. Er wirkt an einer Vielzahl von Projekten mit, darunter die Optimierung von Retrieval-Augmented Generation (RAG), umfassende Benchmarking-Studien für große Sprachmodelle (LLM) und die Entwicklung agentenbasierter KI-Frameworks. Ekrem ist spezialisiert auf die Entwicklung datengetriebener Methoden zur Messung und Verbesserung der Leistungsfähigkeit von KI-Technologien anhand kritischer Kennzahlen wie Genauigkeit, Effizienz, API-Kosten und Skalierbarkeit. Seine Analysen umfassen den gesamten Technologie-Stack, von grundlegenden Komponenten wie Einbettungsmodellen und Vektordatenbanken bis hin zur leistungsstarken GPU- und Cloud-Infrastruktur, die für den Einsatz von KI-Agenten erforderlich ist.

Ausbildung

Ekrem hat einen Bachelor-Abschluss der Hacettepe Üniversitesi und einen Master-Abschluss der Başkent Üniversitesi.

Neueste Artikel von Ekrem

KIMai 20

Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI

Multimodale Einbettungsmodelle eignen sich hervorragend zur Objekterkennung, haben aber Schwierigkeiten mit Beziehungen. Aktuelle Modelle können beispielsweise nicht zwischen „Telefon auf einer Karte“ und „Karte auf einem Telefon“ unterscheiden. Wir haben sieben führende Modelle auf MS-COCO und Winoground verglichen, um diese spezifische Einschränkung zu untersuchen. Um einen fairen Vergleich zu gewährleisten, haben wir jedes Modell unter identischen Bedingungen mit A40-Hardware und bfloat16-Genauigkeit evaluiert.

KIMai 20

Cloud-GPUs für Deep Learning: Verfügbarkeit und Preis/Leistung

Wenn Sie bezüglich des GPU-Modells flexibel sind, ermitteln Sie die kostengünstigste Cloud-GPU anhand unseres Benchmarks von 10 GPU-Modellen in Szenarien zur Bild- und Textgenerierung und -optimierung. Cloud-GPU-Preis pro Durchsatz: Zwei gängige Preismodelle für GPUs sind „On-Demand“- und „Spot“-Instanzen.

KIMai 14

Reranker-Benchmark: Vergleich der 8 besten Modelle

Wir haben acht Reranker-Modelle anhand von ca. 145.000 englischen Amazon-Rezensionen verglichen, um zu messen, wie sehr ein Reranking-Schritt die Suche nach dichten Suchergebnissen verbessert. Wir ermittelten die 100 besten Kandidaten mit multilingual-e5-base, führten mit jedem Modell ein Reranking durch und evaluierten die Top-10-Ergebnisse anhand von 300 Anfragen, die jeweils konkrete Details aus der Originalrezension enthielten.

KIMai 14

Hybrid RAG: Steigerung RAG Genauigkeit

Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.

KIMai 14

Die 30 besten Cloud-GPU-Anbieter und ihre GPUs im Jahr

Wir haben die 10 gängigsten GPUs in typischen Szenarien getestet (z. B. Feinabstimmung eines LLM wie Llama 3.2). Basierend auf diesen Erkenntnissen: Ranking: Sponsoren sind verlinkt und oben hervorgehoben. Anschließend werden Hyperscaler nach ihrem US-Marktanteil aufgelistet. Danach werden die Anbieter nach der Anzahl der von ihnen angebotenen Modelle sortiert.

KIMai 13

Überwachtes Feintuning vs. Reinforcement Learning

Können große Sprachmodelle Entscheidungsregeln verinnerlichen, die nie explizit formuliert werden? Um dies zu untersuchen, haben wir ein Experiment konzipiert, in dem ein Modell mit 14 Milliarden Parametern anhand einer versteckten „VIP-Override“-Regel innerhalb einer Kreditentscheidungsaufgabe trainiert wurde, ohne dass die Regel selbst auf Prompt-Ebene beschrieben wurde.

KIMai 1

Einbettungsmodelle: OpenAI vs Gemini vs Cohere

Die Effektivität eines Retrieval-Augmented Generation (RAG)-Systems hängt von der Präzision seines Retrievers ab. Wir haben elf führende Text-Embedding-Modelle, darunter Modelle von OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral und Voyage AI, anhand von ca. 500.000 Amazon-Rezensionen verglichen. Wir bewerteten die Fähigkeit jedes Modells, die richtige Antwort zuerst abzurufen und zu priorisieren.

KIApr 26

Open Source Embedding Models Benchmark für RAG

Wir haben 14 Open-Source-Embedding-Modelle, die auf einem einzelnen H100-Server selbst gehostet wurden, anhand von über 500 manuell kuratierten Abfragen aus den Bereichen Rechtsverträge, technische Kundendienstdokumente und medizinische Abstracts verglichen. Llama-Embed-Nemotron-8B (NVIDIA) erzielt die höchste Genauigkeit. EmbeddingGemma-300m (Google) ist im Vergleich zu Nemotron etwa viermal günstiger, allerdings mit einem geringfügigen Genauigkeitsverlust.

DatenApr 24

Benchmark für Graphdatenbanken: Neo4j vs. FalkorDB vs. Memgraph

Wir haben Neo4j, FalkorDB und Memgraph anhand eines synthetischen Graphen, der aus 120.000 Amazon-Produktrezensionen (381.000 Knoten, 804.000 Kanten) erstellt wurde, getestet. Wir führten zwölf Abfragevorlagen mit jeweils 1.000 Messungen durch, testeten die Datenaufnahme mit sechs verschiedenen Batchgrößen, die gleichzeitige Last über 60 Sekunden mit bis zu 32 Threads und maßen Speicherverbrauch, Kaltstartverhalten, gemischte Arbeitslast und Indexnutzung.

KIApr 24

LLM-Inferenzmaschinen: vLLM vs. LMDeploy vs. SGLang

Wir haben drei führende LLM-Inferenz-Engines auf dem H100 (NVIDIA) getestet: vLLM, LMDeploy und SGLang. Jede Engine verarbeitete identische Workloads: 1.000 ShareGPT-Prompts mit Llama 3.1 8B-Instruct, um die tatsächlichen Auswirkungen ihrer Architektur und Optimierungsstrategien auf die Performance zu ermitteln. Benchmark-Ergebnisse der Inferenz-Engines: Wir haben den Offline-Batch-Durchsatz über insgesamt 10.000 Inferenzoperationen (1.000 Prompts ) gemessen.