Berk Kalelioğlu
Forschungsschwerpunkte
Berk konzentriert sich auf maschinelles Lernen, agentenbasierte KI-Tools sowie große und kleine Sprachmodelle (LLMs und SLMs). Er ist Mitglied des AIMultiple-Benchmark-Teams, wo er Bewertungen durchführt und Erkenntnisse liefert, um Lesern das Verständnis neuer Technologien und ihrer praktischen Anwendungen zu erleichtern.Berufserfahrung
Er begann seine Karriere als technischer Projektleiter am ODTU IVME-R, wo er ein Projekt zur Entwicklung physikalischer Quanten- und Pseudozufallszahlengeneratoren leitete. Nach seiner Zeit am IVME-R war er Mitbegründer eines Spieleentwicklungsunternehmens und veröffentlichte ein Spiel auf Steam. Später verlagerte er seinen Schwerpunkt auf KI und trat AIMultiple als Forscher bei.Ausbildung
Berk besitzt einen Bachelor-Abschluss in Mathematik von der Universität Ankara.Neueste Artikel von Berk
Agentic LLM Benchmark: Die 13 besten LLM-Programme im Vergleich
Wir haben 13 LLMs anhand von 10 Softwareentwicklungsaufgaben mit einem agentischen CLI-Tool verglichen. Pro Modell führten wir ca. 300 automatisierte Validierungsschritte durch, um die Performance auf API- und UI-Ebene zu messen. Die Ergebnisse des agentischen LLM-Benchmarks zeigen im Vergleich der Erfolgsraten, dass Claude 4.5 Sonnet und GPT-5.2 die höchsten Gesamtpunktzahlen und die konsistentesten Ergebnisse erzielten.
KI-Halluzination: Vergleiche Top-LLMs wie GPT-5.2
KI-Modelle können Antworten generieren, die plausibel erscheinen, aber falsch oder irreführend sind – sogenannte KI-Halluzinationen. 77 % der Unternehmen sind besorgt über KI-Halluzinationen. Wir haben 37 verschiedene Lernmodelle mit 60 Fragen verglichen, um ihre Halluzinationsraten zu messen: Ergebnisse des KI-Halluzinations-Benchmarks.
Agentic CLI-Tools: Codex vs. Claude Code
Agentic CLI-Tools sind KI-gestützte Codierungswerkzeuge, die Dateien erstellen und löschen, Befehle ausführen, die Codierung des gesamten Projekts planen und durchführen können. Wir haben die führenden Tools anhand von zehn realen Webentwicklungsszenarien verglichen und dabei pro Agenten ca. 600 atomare Validierungsprüfungen sowie insgesamt über 5.
Die besten LLMs für Extended Context Windows im Jahr
Wir haben einen eigens entwickelten Test mit 32 Nachrichten auf 22 führenden KI-Modellen durchgeführt, um zu überprüfen, wie effektiv die beworbenen Kontextfenster tatsächlich sind. Die Konversation beinhaltet Syntheseaufgaben, die das Abrufen von Informationen aus früheren Nachrichten erfordern und nicht nur das Wiederholen des zuletzt Gesagten. Die folgende Grafik zeigt die Effizienzwerte und gibt an, wie effektiv die einzelnen Modelle sind.
KI-Speicher: Die beliebtesten KI-Modelle mit dem besten Speicher
Intelligentere Modelle haben oft ein schlechteres Gedächtnis. Wir testeten 26 große Sprachmodelle in einer simulierten Geschäftskonversation mit 32 Nachrichten, um herauszufinden, welche Informationen tatsächlich behalten. Ergebnisse des KI-Gedächtnis-Benchmarks: Wir testeten 26 gängige große Sprachmodelle anhand einer simulierten Geschäftskonversation mit 32 Nachrichten und 43 Fragen.
Benchmark für tabellarische Modelle: Leistung in 19 Datensätzen bis
Wir haben sieben weit verbreitete tabellarische Lernmodelle anhand von 19 realen Datensätzen mit insgesamt ca. 260.000 Stichproben und über 250 Merkmalen getestet. Die Datensatzgrößen reichten von 435 bis fast 49.000 Zeilen. Unser Ziel war es, die leistungsstärksten Modellfamilien für Datensätze unterschiedlicher Größe und Struktur (z. B. numerisch vs. kategorisch) zu identifizieren, wie sie typischerweise in Unternehmen vorkommen.
VPS-Benchmark: Hetzner vs Digital Ocean
Wir haben sechs Anbieter virtueller privater Server (VPS) anhand von ca. 1.200 automatisierten Tests pro Server hinsichtlich CPU, Arbeitsspeicher, Festplatten-I/O und Netzwerkgeschwindigkeit mit sysbench, fio und speedtest-cli verglichen. Zudem haben wir den gesamten Anmelde- und SSH-Zugriffsprozess für jeden Anbieter dokumentiert. Ergebnisse des VPS-Benchmarks: Wir nutzten jeweils einen 4-vCPU-Tarif (Shared) mit 8 GB RAM von jedem Anbieter, ohne zusätzliche Kosten.
RL-Umgebungen: Die Infrastruktur hinter agentenbasierter KI
Reinforcement-Learning-Umgebungen sind kontrollierte Umgebungen, in denen KI-Agenten Aktionen ausführen, Ergebnisse beobachten und Feedback erhalten. Sie gewinnen zunehmend an Bedeutung, da Modelle von einmaligen Antworten zu mehrstufigen Aufgaben in Bereichen wie Programmierung, Browseranwendungen, Kundensupport und Unternehmenssoftware übergehen. Einige Unternehmen bieten maßgeschneiderte Umgebungen für Programmierung, Finanzwesen, Unternehmensprozesse oder computergestützte Aufgaben an.
OpenClaw (Moltbot/Clawdbot): Anwendungsfälle und Sicherheit
OpenClaw (ehemals Moltbot und Clawdbot) ist ein Open-Source-KI-Assistent, der auf dem Host-Rechner selbst gehostet wird und lokale Rechenaufgaben ausführt sowie über gängige Messaging-Plattformen mit Nutzern interagiert. Im Gegensatz zu herkömmlichen Chatbots, die als Berater fungieren und Texte generieren, agiert OpenClaw als autonomer Agent, der Shell-Befehle ausführen, Dateien verwalten und Browservorgänge auf dem Host-Rechner automatisieren kann.
Moltbook: Agent Driven Social Media
Das rasante Wachstum von OpenClaw hat ein ungewöhnliches soziales Experiment angestoßen: Moltbook, eine Reddit-ähnliche Plattform, auf der Agenten miteinander interagieren. Sie ging am 28. Januar 2026 an den Start und erregte innerhalb kürzester Zeit große Aufmerksamkeit. Bereits in der ersten Woche verzeichnete sie über 1,5 Millionen Agenten.
AIMultiple Newsletter
1 kostenlose E-Mail pro Woche mit den neuesten B2B-Technachrichten und Experten Einblicken.