Berk Kalelioğlu
Interesses de pesquisa
Berk se concentra em aprendizado de máquina, ferramentas de IA com agentes e modelos de linguagem grandes e pequenos (LLMs e SLMs). Ele faz parte da equipe de benchmarks do AIMultiple, realizando avaliações e fornecendo insights para ajudar os leitores a entender as tecnologias emergentes e suas aplicações no mundo real.Experiência profissional
Ele iniciou sua carreira como Líder de Projetos de Tecnologia no ODTU IVME-R, onde liderou um projeto para construir geradores físicos de números quânticos e pseudoaleatórios. Após sua passagem pelo IVME-R, cofundou uma empresa de desenvolvimento de jogos e lançou um jogo no Steam. Posteriormente, direcionou sua carreira para a Inteligência Artificial e ingressou na AIMultiple como pesquisador.Educação
Berk é bacharel em Matemática pela Universidade de Ankara.Últimos artigos de Berk
Análise comparativa dos 13 melhores programas de mestrado em Direito (LLM) da Agentic: comparação entre os 13 melhores.
Avaliamos o desempenho de 13 LLMs em 10 tarefas de desenvolvimento de software usando uma ferramenta CLI agética. Executamos cerca de 300 etapas de validação automatizadas por modelo para medir o desempenho nas camadas de API e UI. Resultados da avaliação comparativa de LLMs agéticos: Comparação da taxa de sucesso: Claude 4.5 Sonnet e GPT-5.2 obtiveram as maiores pontuações gerais com os resultados mais consistentes em todas as tarefas.
Alucinação de IA: Compare os melhores LLMs como GPT-5.2
Os modelos de IA podem gerar respostas que parecem plausíveis, mas são incorretas ou enganosas, um fenômeno conhecido como alucinações de IA. 77% das empresas estão preocupadas com as alucinações de IA. Realizamos um benchmark de 37 modelos de aprendizagem de linguagem (LLMs) diferentes, com 60 perguntas, para medir suas taxas de alucinação: Resultados do benchmark de alucinações de IA.
Ferramentas de linha de comando Agentic: Codex vs Claude Code
As ferramentas CLI agéticas são ferramentas de codificação com IA que podem criar e excluir arquivos, executar comandos, planejar e executar a codificação de todo o projeto. Avaliamos as principais ferramentas em 10 cenários reais de desenvolvimento web, realizando cerca de 600 verificações de validação atômica por agente e mais de 5.
Melhores LLMs para Janelas de Contexto Estendido em
Realizamos um teste proprietário de conversação com 32 mensagens em 22 dos principais modelos de IA para verificar o quanto de suas janelas de contexto anunciadas realmente funcionam. A conversa inclui tarefas de síntese que exigem a recuperação de informações de mensagens anteriores, e não apenas a repetição da última coisa dita.
Memória de IA: Os modelos de IA mais populares com a melhor memória
Modelos mais inteligentes geralmente têm pior desempenho na memória. Testamos 26 modelos de linguagem de grande porte em uma conversa comercial simulada de 32 mensagens para determinar quais realmente retêm informações. Resultados do benchmark de memória de IA: Testamos 26 modelos de linguagem populares de grande porte por meio de uma conversa comercial simulada de 32 mensagens com 43 perguntas.
Análise comparativa de modelos tabulares: desempenho em 19 conjuntos de dados até
Avaliamos 7 modelos de aprendizado tabular amplamente utilizados em 19 conjuntos de dados do mundo real, abrangendo aproximadamente 260.000 amostras e mais de 250 recursos no total, com tamanhos de conjuntos de dados variando de 435 a quase 49.000 linhas.
Comparativo de VPS: Hetzner vs Digital Ocean
Realizamos testes comparativos com 6 provedores de Servidores Virtuais Privados (VPS) executando aproximadamente 1.200 testes automatizados por servidor, abrangendo CPU, memória, E/S de disco e velocidade de rede, utilizando sysbench, fio e speedtest-cli. Também documentamos toda a experiência, desde o cadastro até o acesso SSH, para cada provedor.
Ambientes de Aprendizagem por Reforço: A Infraestrutura por Trás da IA Agentica
Ambientes de aprendizado por reforço são ambientes controlados onde agentes de IA executam ações, observam resultados e recebem feedback. Eles estão se tornando mais úteis à medida que os modelos evoluem de respostas instantâneas para tarefas complexas em programação, navegação na web, suporte ao cliente e software empresarial. Empresas de ambientes de aprendizado por reforço: Algumas empresas vendem ambientes personalizados para programação, finanças, fluxos de trabalho corporativos ou tarefas de uso de computador.
Casos de uso e segurança do OpenClaw (Moltbot/Clawdbot) em
O OpenClaw (anteriormente Moltbot e Clawdbot) é um assistente de IA de código aberto e auto-hospedado, projetado para executar tarefas computacionais locais e interagir com usuários por meio de plataformas de mensagens padrão. Ao contrário dos chatbots tradicionais que funcionam como consultores gerando texto, o OpenClaw opera como um agente autônomo que pode executar comandos de shell, gerenciar arquivos e automatizar operações do navegador na máquina host.
Moltbook: Mídias Sociais Orientadas por Agentes
O rápido crescimento do OpenClaw desencadeou um experimento social incomum: o Moltbook, uma plataforma social semelhante ao Reddit onde agentes interagem entre si. Lançado em 28 de janeiro de 2026, o Moltbook começou a atrair atenção rapidamente, alcançando mais de 1,5 milhão de agentes em sua primeira semana.
Boletim informativo AIMultiple
Receba um e-mail gratuito por semana com as últimas notícias de tecnologia B2B e insights de especialistas para impulsionar o seu negócio.