Berk Kalelioğlu

Chercheur en IA

9 Articles

Restez informé des dernières technologies B2B

Berk est chercheur en IA chez AIMultiple. Il a une expérience préalable dans le développement de jeux et dans le développement de générateurs de nombres pseudo-aléatoires utilisant des systèmes chaotiques.

Intérêts de recherche

Berk se concentre sur l'apprentissage automatique, les outils d'IA agentique, et les grands et petits language models (LLMs et SLMs).

Il fait partie de l'équipe benchmark d'AIMultiple, effectuant des évaluations et fournissant des informations pour aider les lecteurs à comprendre les technologies émergentes et leurs applications dans le monde réel.

Expérience professionnelle

Il a commencé sa carrière en tant que chef de projet technique chez ODTU IVME-R, où il a dirigé un projet pour construire des générateurs de nombres quantiques et pseudo-aléatoires physiques.

Après son passage chez IVME-R, il a co-fondé une entreprise de développement de jeux et a sorti un jeu sur Steam.

Il a ensuite orienté sa carrière vers l'IA et a rejoint AIMultiple en tant que chercheur.

Formation

Berk est titulaire d'une licence en mathématiques de l'Université d'Ankara.

Derniers articles de Berk

Évaluation en Monde Ouvert

23 Juil

Meilleurs fournisseurs d'LLM API à tarif fixe

Les fournisseurs de LLM à tarif fixe proposent une utilisation illimitée des modèles pour un prix mensuel fixe au lieu d'une facturation au token. Ce modèle s'est répandu parce que les sessions de codage agentique peuvent consommer des dizaines de millions de tokens, ce qui rend une facture au token difficile à prévoir. Très peu…

Agentic AI

Benchmark

23 Juil

A-CODE-LLM Bench: Benchmark de Codage Agentique

Nous avons évalué les meilleurs Large Language Models (LLMs) sur 10 tâches de développement logiciel à l'aide d'un outil CLI agentique. Nous avons exécuté environ 3,500 étapes de validation automatisées par modèle sur les couches API et UI. Chaque alias a été exécuté 3 fois sur 10 tâches (30 échantillons par alias, 400 cellules par…

Agentic AI

Benchmark

21 Juil

Benchmark AIM Agentic Marketing

Nous présentons le Benchmark AIM Agentic Marketing, qui mesure les performances des agents en analyse des écarts concurrentiels et en préparation de listes de cibles ABM. Nous avons testé les performances de 11 modèles et mesuré l'exécution de bout en bout : Les scores des tâches sont normalisés sur une échelle de 0 à 100.…

Agentic AI

Benchmark

21 Juil

Benchmark IA VC: 11 agents IA sur des tâches réelles de capital-risque

En partenariat avec des VC early stage, nous avons converti deux flux de travail d'analyste en benchmarks avec une vérité terrain vérifiée humainement et avons évalué 11 agents IA sur ceux-ci. Découvrez les tâches, les résultats et la méthode de notation : Chacun des 11 modèles a exécuté chaque tâche une fois. Les scores sont…

Agentic AI16 Juil

Moltbook: Médias Sociaux Pilotés par des Agents

La croissance rapide d'OpenClaw a déclenché une expérience sociale inhabituelle : Moltbook, une plateforme sociale semblable à Reddit où les agents interagissent entre eux. Lancée le 28th janvier 2026, elle a commencé à attirer l'attention en peu de temps. Elle a atteint plus de 1.5m d'agents lors de sa première semaine. Pour d'autres plateformes destinées…

Agentic AI16 Juil

Cas d'utilisation et sécurité d'OpenClaw (Moltbot/Clawdbot)

OpenClaw (anciennement Moltbot et Clawdbot) est un assistant IA open source auto-hébergé conçu pour exécuter des tâches informatiques locales et interagir avec les utilisateurs via des plateformes de messagerie standard. Contrairement aux chatbots traditionnels qui fonctionnent comme des conseillers générant du texte, OpenClaw agit comme un agent autonome capable d’exécuter des commandes shell, de gérer…

Agentic AI

Benchmark

6 Juil

A-CODE-CLI Bench: Benchmark CLI Agentique

Les outils CLI agentiques sont des outils de codage IA qui peuvent créer et supprimer des fichiers, exécuter des commandes, planifier et réaliser le codage de l'ensemble du projet. Nous avons évalué les principaux outils sur 10 scénarios réels de développement web, en effectuant environ 600 vérifications de validation atomiques par agent et plus de…

Benchmark

3 Juil

Benchmark des modèles tabulaires: performances sur 19 jeux de données

Nous avons testé 8 modèles d’apprentissage tabulaire sur 19 jeux de données réels totalisant environ 260,000 échantillons, avec des tailles allant de 435 à 48,800 lignes. Chaque modèle a tourné sur la même machine avec une validation croisée en 5 plis et des partitions identiques. Chaque jeu de données est un tournoi en tête-à-tête entre…

Logiciel d'entreprise

Benchmark

14 Mai

Benchmark VPS: Hetzner vs Digital Ocean

Nous avons comparé 6 fournisseurs de serveurs privés virtuels (VPS) en exécutant environ 1 200 tests automatisés par serveur sur le CPU, la mémoire, les E/S disque et la vitesse réseau à l'aide de sysbench, fio et speedtest-cli. Nous avons également documenté l'expérience complète de l'inscription à SSH pour chaque fournisseur. Nous avons utilisé des…

Gardez une longueur d'avance avec

Newsletter AIMultiple

Un e-mail gratuit par semaine contenant les dernières actualités technologiques B2B et des analyses d'experts pour accélérer la croissance de votre entreprise.