Berk Kalelioğlu
Intérêts de recherche
Berk se spécialise dans l'apprentissage automatique, les outils d'IA agentielle et les modèles de langage de grande et de petite taille (LLM et SLM). Il fait partie de l'équipe de benchmark AIMultiple, où il réalise des évaluations et fournit des analyses pour aider les lecteurs à comprendre les technologies émergentes et leurs applications concrètes.Expérience professionnelle
Il a débuté sa carrière comme chef de projet technique à l'ODTU IVME-R, où il a dirigé un projet de construction de générateurs de nombres quantiques et pseudo-aléatoires physiques. Après son passage à l'IVME-R, il a cofondé une société de développement de jeux vidéo et a publié un jeu sur Steam. Il s'est ensuite orienté vers l'intelligence artificielle et a rejoint AIMultiple en tant que chercheur.Éducation
Berk est titulaire d'une licence en mathématiques de l'université d'Ankara.Derniers articles de Berk
Analyse comparative des LLM d'Agentic : Comparaison des 13 meilleurs LLM
Nous avons évalué les performances de 13 LLM sur 10 tâches de développement logiciel à l'aide de l'outil CLI Agentic. Nous avons exécuté environ 300 étapes de validation automatisées par modèle afin de mesurer les performances des couches API et UI. Résultats de l'évaluation des LLM Agentic : comparaison des taux de réussite. Claude (4,5), Sonnet et GPT-5.2 ont obtenu les scores globaux les plus élevés, avec les résultats les plus constants.
Hallucination par l'IA : Comparez les meilleurs LLM comme GPT-5.2
Les modèles d'IA peuvent générer des réponses qui semblent plausibles mais qui sont incorrectes ou trompeuses : c'est ce qu'on appelle des hallucinations de l'IA. 77 % des entreprises s'inquiètent de ces hallucinations. Nous avons comparé 37 modèles d'apprentissage automatique (LLM) différents, composés de 60 questions, afin de mesurer leurs taux d'hallucinations : résultats de l'analyse comparative des hallucinations de l'IA.
Outils CLI Agentic : Codex vs Claude Code
Les outils CLI d'Agentic sont des outils de codage IA capables de créer et de supprimer des fichiers, d'exécuter des commandes, de planifier et d'exécuter le codage de l'ensemble du projet.
Les meilleurs LLM pour les fenêtres de contexte étendues en
Nous avons mené un test de conversation propriétaire de 32 messages sur 22 modèles d'IA de pointe afin d'évaluer l'efficacité réelle de leurs fenêtres de contexte annoncées. La conversation inclut des tâches de synthèse nécessitant de se souvenir d'informations des messages précédents, et non de simplement répéter le dernier message prononcé.
Mémoire de l'IA : Les modèles d'IA les plus populaires avec la meilleure mémoire
Les modèles les plus performants ont souvent une mémoire moins performante. Nous avons testé 26 grands modèles de langage dans une conversation professionnelle de 32 messages afin de déterminer lesquels retiennent réellement les informations. Résultats du test de mémoire IA : Nous avons testé 26 grands modèles de langage populaires à travers une conversation professionnelle simulée de 32 messages et 43 questions.
Évaluation comparative des modèles tabulaires : performances sur 19 jeux de données
Nous avons évalué les performances de 7 modèles d'apprentissage tabulaire largement utilisés sur 19 jeux de données réels, couvrant environ 260 000 échantillons et plus de 250 caractéristiques, avec des tailles de jeux de données allant de 435 à près de 49 000 lignes. Notre objectif était d'identifier les familles de modèles les plus performantes pour des jeux de données de tailles et de structures différentes (par exemple, numériques ou catégorielles) qui constituent un jeu de données d'entreprise typique.
Comparatif VPS: Hetzner contre Digital Ocean
Nous avons comparé les performances de 6 fournisseurs de serveurs privés virtuels (VPS) en exécutant environ 1 200 tests automatisés par serveur, couvrant le processeur, la mémoire, les E/S disque et la vitesse réseau, à l'aide de sysbench, fio et speedtest-cli. Nous avons également documenté l'intégralité du processus d'inscription et de connexion SSH pour chaque fournisseur.
Environnements RL : L'infrastructure sous-jacente à l'IA agentique
Les environnements d'apprentissage par renforcement sont des environnements contrôlés où les agents d'IA agissent, observent les résultats et reçoivent un retour d'information. Leur utilité s'accroît à mesure que les modèles évoluent des réponses ponctuelles vers des tâches complexes en plusieurs étapes, notamment dans le développement, l'utilisation du navigateur, le support client et les logiciels d'entreprise. Certaines entreprises proposent des environnements personnalisés pour le développement, la finance, les flux de travail d'entreprise ou les tâches informatiques courantes.
Cas d'utilisation et sécurité d'OpenClaw (Moltbot/Clawdbot)
OpenClaw (anciennement Moltbot et Clawdbot) est un assistant IA open source et auto-hébergé, conçu pour exécuter des tâches informatiques locales et interagir avec les utilisateurs via des plateformes de messagerie standard. Contrairement aux chatbots traditionnels qui fonctionnent comme des conseillers générant du texte, OpenClaw fonctionne comme un agent autonome capable d'exécuter des commandes shell, de gérer des fichiers et d'automatiser les opérations du navigateur sur la machine hôte.
Moltbook : Médias sociaux pilotés par les agents
La croissance fulgurante d'OpenClaw a donné lieu à une expérience sociale inédite : Moltbook, une plateforme sociale de type Reddit où les agents interagissent entre eux. Lancée le 28 janvier 2026, elle a rapidement suscité l'intérêt, atteignant plus de 1,5 million d'agents dès sa première semaine. Pour découvrir d'autres plateformes pour agents IA, consultez la section « À l'intérieur » .
Newsletter AIMultiple
Un e-mail gratuit par semaine contenant les dernières actualités technologiques B2B et des analyses d'experts pour accélérer la croissance de votre entreprise.