Şevval Alper
Şevval ist KI-Forscherin bei AIMultiple. Sie verfügt über Forschungserfahrung im Bereich der Pseudozufallszahlengenerierung mithilfe chaotischer Systeme.
Forschungsschwerpunkte
Şevval konzentriert sich auf KI-Codierungswerkzeuge, KI-Agenten und Quantentechnologien.
Sie ist Teil des AIMultiple-Benchmark-Teams, führt Bewertungen durch und liefert Erkenntnisse, um den Lesern das Verständnis verschiedener neuer Technologien und ihrer Anwendungen zu erleichtern.
Berufserfahrung
Sie wirkte an der Organisation und Betreuung von Teilnehmern an drei „CERN International Masterclasses - hands-on particle physics“-Veranstaltungen in der Türkei mit und arbeitete dabei eng mit den Dozenten zusammen, um das Lernen zu erleichtern.
Ausbildung
Şevval besitzt einen Bachelor-Abschluss in Physik von der Technischen Universität des Nahen Ostens.
Neueste Artikel von Şevval
Benchmark für KI-Agentenplattformen: Claude Managed Agents vs. Vertex Agent Engine (Google)
Wir haben vier KI-Agentenplattformen anhand von drei Kriterien verglichen: Aufgabenerfüllung (10 Programmieraufgaben × 3 Durchläufe), spezifische Funktionen (Steuerung, Wiederverbindung, Wiedergabe langer Konversationen, Verarbeitung großer Dateien) und Kosten. Die Ergebnisse des KI-Agentenplattform-Benchmarks zeigen, dass sowohl Claude Managed Agents als auch die Vertex AI Agent Engine die Aufgaben vollständig bewältigen, wobei Vertex hinsichtlich der Kosten die Nase vorn hat.
MCP-Benchmark: Die besten MCP-Server für den Webzugriff
Wir haben acht MCP-Server hinsichtlich Websuche und -extraktion sowie Browserautomatisierung getestet, indem wir vier verschiedene Aufgaben jeweils fünfmal auf allen geeigneten MCPs ausgeführt haben. Zusätzlich führten wir einen Lasttest mit 250 gleichzeitig aktiven KI-Agenten durch.
E-Commerce AI Video Maker Benchmark: Veo 3 vs. Sora 2
Die Produktvisualisierung spielt eine entscheidende Rolle für den Erfolg im E-Commerce, doch die Erstellung hochwertiger Produktvideos stellt nach wie vor eine große Herausforderung dar. Jüngste Fortschritte in der KI-Videogenerierungstechnologie bieten vielversprechende Lösungen. Wir haben die sechs führenden KI-Videogeneratoren anhand von zwölf Bild- und Texteingaben verglichen, um ihre Fähigkeiten bei der Erstellung von Produktdemonstrationsvideos zu bewerten: Ergebnisse des KI-Videogenerator-Benchmarks (Abbildung ).
Benchmark für KI-Code-Review-Tools
Durch den vermehrten Einsatz von KI-gestützten Codierungstools sind Codebasen anfälliger für Sicherheitslücken geworden, was den Bedarf an effektiven Code-Reviews erhöht hat. Um dem zu begegnen, stellen wir RevEval (AI Code Review Eval) vor, das die vier führenden KI-Code-Review-Tools anhand von 309 Pull Requests aus Repositories unterschiedlicher Größe vergleicht und ihre Leistung bewertet.
AGI-Benchmark: Kann KI wirtschaftlichen Wert generieren?
KI wird ihre größte Wirkung entfalten, wenn KI-Systeme selbstständig wirtschaftlichen Wert schaffen. Wir haben untersucht, ob innovative Modelle dazu in der Lage sind. Dazu forderten wir sie auf, eine neue digitale Anwendung (z. B. Website oder mobile App) zu entwickeln, die sich über ein SaaS- oder werbebasiertes Modell monetarisieren lässt.
8 KI-Code-Modelle im Vergleich: LMC-Eval
Mehr als 37 % der Aufgaben, die KI-Modelle bearbeiten, betreffen Computerprogrammierung und Mathematik. Um das passende KI-Modell für Programmieraufgaben zu finden, führen wir einen neuen Benchmark ein: LMC-Eval. Darin testen wir führende KI-Modelle hinsichtlich ihrer Leistung bei logischen Programmieraufgaben.
OCR-Benchmark: Genauigkeit der Textextraktion / -erfassung
Die Genauigkeit der Texterkennung (OCR) ist für viele Dokumentenverarbeitungsaufgaben entscheidend, und moderne multimodale Spracherkennungssysteme (LLMs) bieten eine Alternative zur herkömmlichen OCR. Wir haben führende OCR-Dienste in DeltOCR Bench verglichen, um ihre Genauigkeit bei verschiedenen Dokumenttypen zu ermitteln: OCR-Benchmark: DeltOCR Bench.
Text-zu-Video-Generator-Benchmark
Ein Text-zu-Video-Generator ist ein KI-System, das schriftliche Anweisungen in kurze Videos umwandelt, indem es Bilder, Bewegungen und teilweise auch Ton direkt aus der natürlichen Sprache generiert. Wir verglichen die fünf besten Text-zu-Video-Generatoren anhand von zehn Aufgaben, die entwickelt wurden, um die Einhaltung der Anweisungen, die zeitliche Konsistenz, den physikalischen Realismus und bekannte Fehlerquellen wie Objektpermanenz und Feinmotorik zu testen.
Codeausführung mit MCP: Ein neuer Ansatz zur Steigerung der Effizienz von KI-Agenten
Anthropic stellte eine Methode vor, mit der KI-Agenten mit MCP-Servern (Model Context Protocol) interagieren, indem sie ausführbaren Code schreiben, anstatt Tools direkt aufzurufen. Der Agent behandelt Tools wie Dateien auf einem Computer, findet die benötigten Informationen und verwendet sie direkt im Code, sodass keine Zwischenspeicherdaten durch den Speicher des Modells geleitet werden müssen.
LLM-Parameter: GPT-5 Hoch, Mittel, Niedrig und Minimal
Neue LLMs, wie beispielsweise die OpenAI-Familie GPT-5, sind in verschiedenen Versionen (z. B. GPT-5, GPT-5-mini und GPT-5-nano) und mit unterschiedlichen Parametereinstellungen (hoch, mittel, niedrig und minimal) erhältlich. Im Folgenden untersuchen wir die Unterschiede zwischen diesen Modellversionen anhand ihrer Benchmark-Ergebnisse und der Kosten für die Durchführung der Benchmarks. Preis-Leistungs-Verhältnis: Wichtigste Erkenntnisse.
AIMultiple Newsletter
1 kostenlose E-Mail pro Woche mit den neuesten B2B-Technachrichten und Experten Einblicken.