Berk Kalelioğlu
Interessi di ricerca
Berk si concentra sull'apprendimento automatico, sugli strumenti di intelligenza artificiale agentiva e sui modelli linguistici di grandi e piccole dimensioni (LLM e SLM). Fa parte del team di benchmark di AIMultiple, dove conduce valutazioni e fornisce approfondimenti per aiutare i lettori a comprendere le tecnologie emergenti e le loro applicazioni nel mondo reale.Esperienza professionale
Ha iniziato la sua carriera come responsabile di progetto tecnico presso l'ODTU IVME-R, dove ha guidato un progetto per la costruzione di generatori fisici di numeri quantici e pseudocasuali. Dopo l'esperienza all'IVME-R, ha co-fondato una società di sviluppo di videogiochi e ha pubblicato un gioco su Steam. Successivamente, ha orientato la sua carriera verso l'intelligenza artificiale ed è entrato a far parte di AIMultiple come ricercatore.Preparazione
Berk ha conseguito una laurea in matematica presso l'Università di Ankara.Ultimi articoli di Berk
Parametro di riferimento di Agentic LLM: confronto tra i 13 migliori LLM.
Abbiamo eseguito un benchmark di 13 LLM su 10 attività di sviluppo software utilizzando uno strumento CLI agentico. Abbiamo eseguito circa 300 passaggi di convalida automatizzati per modello per misurare le prestazioni sia a livello API che UI. Risultati del benchmark LLM agentico Confronto del tasso di successo Claude 4.5 Sonnet e GPT-5.
Allucinazione AI: confronta i migliori LLM come GPT-5.2
I modelli di intelligenza artificiale possono generare risposte che sembrano plausibili ma sono errate o fuorvianti, fenomeno noto come allucinazioni da IA. Il 77% delle aziende è preoccupato per le allucinazioni da IA. Abbiamo confrontato 37 diversi modelli di apprendimento basati su 60 domande per misurarne i tassi di allucinazione: risultati del benchmark sulle allucinazioni da IA.
Strumenti CLI di Agentic: Codex vs Claude Code
Gli strumenti CLI di Agentic sono strumenti di programmazione basati sull'intelligenza artificiale in grado di creare ed eliminare file, eseguire comandi, pianificare ed eseguire la programmazione dell'intero progetto. Abbiamo confrontato le prestazioni dei principali strumenti in 10 scenari di sviluppo web reali, eseguendo circa 600 controlli di validazione atomici per agente e oltre 5.
I migliori LLM per le finestre di contesto esteso nel
Abbiamo condotto un test di conversazione proprietario di 32 messaggi su 22 modelli di IA leader per verificare quanto delle finestre di contesto pubblicizzate funzionino effettivamente. La conversazione include attività di sintesi che richiedono di richiamare informazioni da messaggi precedenti, non solo di ripetere l'ultima cosa detta.
Memoria IA: i modelli IA più popolari con la migliore memoria
I modelli più intelligenti spesso hanno una memoria peggiore. Abbiamo testato 26 modelli linguistici di grandi dimensioni in una conversazione aziendale simulata di 32 messaggi per determinare quali effettivamente conservano le informazioni. Risultati del benchmark di memoria dell'IA Abbiamo testato 26 popolari modelli linguistici di grandi dimensioni attraverso una conversazione aziendale simulata di 32 messaggi con 43 domande.
Benchmark dei modelli tabulari: prestazioni su 19 set di dati
Abbiamo effettuato un benchmark di 7 modelli di apprendimento tabulare ampiamente utilizzati su 19 dataset reali, comprendenti circa 260.000 campioni e oltre 250 caratteristiche totali, con dimensioni dei dataset che variano da 435 a quasi 49.000 righe.
Benchmark VPS: Hetzner vs Digital Ocean
Abbiamo effettuato un benchmark di 6 provider di Virtual Private Server (VPS) eseguendo circa 1.200 test automatizzati per server su CPU, memoria, I/O del disco e velocità di rete utilizzando sysbench, fio e speedtest-cli. Abbiamo anche documentato l'intera esperienza di registrazione e accesso SSH per ciascun provider.
Ambienti RL: l'infrastruttura alla base dell'IA agentiva
Gli ambienti di apprendimento per rinforzo sono ambienti controllati in cui gli agenti di intelligenza artificiale eseguono azioni, osservano i risultati e ricevono feedback. Stanno diventando sempre più utili man mano che i modelli passano da risposte singole a processi a più fasi in ambiti come la programmazione, le attività del browser, l'assistenza clienti e i software aziendali. Alcune aziende che offrono ambienti di apprendimento per rinforzo vendono ambienti personalizzati per la programmazione, la finanza, i flussi di lavoro aziendali o le attività di utilizzo del computer.
Casi d'uso e sicurezza di OpenClaw (Moltbot/Clawdbot)
OpenClaw (precedentemente Moltbot e Clawdbot) è un assistente AI open-source, auto-ospitato, progettato per eseguire attività di elaborazione locale e interagire con gli utenti tramite piattaforme di messaggistica standard. A differenza dei chatbot tradizionali che funzionano come consulenti che generano testo, OpenClaw opera come un agente autonomo in grado di eseguire comandi shell, gestire file e automatizzare le operazioni del browser sulla macchina host.
Moltbook: Social media guidati da agenti
La rapida crescita di OpenClaw ha innescato un insolito esperimento sociale: Moltbook, una piattaforma social simile a Reddit in cui gli agenti interagiscono tra loro. Lanciata il 28 gennaio 2026, ha attirato l'attenzione in breve tempo, raggiungendo oltre 1,5 milioni di agenti nella prima settimana.
Newsletter AI Multiple
Una email gratuita a settimana con le ultime notizie tecnologiche B2B e approfondimenti di esperti per dare impulso alla tua azienda.