Berk Kalelioğlu

Ricercatore AI

9 Articoli

Rimani aggiornato sulle novità tecnologiche B2B.

Berk è un ricercatore AI presso AIMultiple. Ha esperienza pregressa nello sviluppo di giochi e nello sviluppo di generatori di numeri pseudocasuali utilizzando sistemi caotici.

Interessi di ricerca

Berk si concentra sull'apprendimento automatico, sugli strumenti di IA agentica e su modelli linguistici grandi e piccoli (LLM e SLM). Fa parte del team di benchmarking di AIMultiple, conducendo valutazioni e fornendo approfondimenti per aiutare i lettori a comprendere le tecnologie emergenti e le loro applicazioni nel mondo reale.

Esperienza professionale

Ha iniziato la sua carriera come Tech Project Lead presso ODTU IVME-R, dove ha guidato un progetto per costruire generatori di numeri quantistici fisici e generatori di numeri pseudocasuali. Dopo il suo periodo presso IVME-R, ha co-fondato una società di sviluppo di giochi e pubblicato un gioco su Steam. In seguito ha orientato la sua carriera verso l'IA ed è entrato in AIMultiple come Ricercatore.

Formazione

Berk possiede una laurea triennale in Matematica presso l'Università di Ankara.

Ultimi articoli di Berk

IA agentica

Benchmark

28 Lug

Benchmark di Marketing Agentico AIM

Stiamo introducendo il Benchmark di Marketing Agentico AIM, che misura le prestazioni degli agenti su tre flussi di lavoro di marketing: analisi dei gap competitivi, preparazione di un elenco target ABM e un mazzo di vendita personalizzato. Abbiamo testato le prestazioni di 11 modelli su tre compiti reali e misurato le prestazioni di esecuzione end-to-end:…

Valutazione in Mondo Aperto

23 Lug

I migliori fornitori di LLM API a tariffa fissa

I fornitori di LLM a tariffa fissa vendono un utilizzo illimitato dei modelli a un prezzo mensile fisso invece di fatturare per token. Questo modello si è diffuso perché le sessioni di codifica agentica possono consumare decine di milioni di token, rendendo difficile prevedere il costo per token. Pochissimi fornitori offrono una vera tariffa fissa;…

IA agentica

Benchmark

23 Lug

A-CODE-LLM Bench: Benchmark di Codifica Agentica

Abbiamo confrontato i migliori Large Language Models (LLMs) su 10 attività di sviluppo software utilizzando uno strumento CLI agentico. Abbiamo eseguito circa 3.500 fasi di validazione automatizzata per modello su entrambi i livelli API e UI. Ogni alias è stato eseguito 3 volte su 10 attività (30 campioni per alias, 400 celle per iterazione su…

IA agentica

Benchmark

21 Lug

IA VC Benchmark: 11 IA Agents su Compiti Reali di Venture Capital

Collaborando con VC in fase iniziale, abbiamo convertito due flussi di lavoro di analista in benchmark con verità fondante verificata da umani e valutato 11 agenti IA su di essi. Vedi i compiti, i risultati e il metodo di valutazione: Ciascuno dei 11 modelli ha eseguito ogni compito una volta. I punteggi sono su 100.…

IA agentica16 Lug

Moltbook: Social Media Guidato da Agenti

La rapida crescita di OpenClaw ha innescato un insolito esperimento sociale: Moltbook, una piattaforma social simile a Reddit dove gli agenti interagiscono tra loro. Lanciata il 28 gennaio 2026, ha iniziato a ricevere attenzione in breve tempo, raggiungendo oltre 1.5 milioni di agenti nella prima settimana. Per altre piattaforme per agenti IA, leggi Dentro l'Ecosistema…

IA agentica16 Lug

OpenClaw (Moltbot/Clawdbot) Casi d'uso e Sicurezza

OpenClaw (precedentemente Moltbot e Clawdbot) è un assistente IA open-source e self-hosted progettato per eseguire attività di calcolo locali e interfacciarsi con gli utenti attraverso piattaforme di messaggistica standard. A differenza dei chatbot tradizionali che funzionano come consulenti che generano testo, OpenClaw opera come un agente autonomo in grado di eseguire comandi shell, gestire file…

IA agentica

Benchmark

6 Lug

A-CODE-CLI Bench: Benchmark CLI Agentico

Gli strumenti CLI agentici sono strumenti di codifica IA che possono creare ed eliminare file, eseguire comandi, pianificare ed eseguire la codifica dell'intero progetto. Abbiamo confrontato i principali strumenti in 10 scenari reali di sviluppo web, eseguendo circa 600 controlli di validazione atomici per agente e oltre circa 5.000 esecuzioni totali di test automatizzati, inclusi…

Benchmark

3 Lug

Benchmark di Modelli Tabulari: Prestazioni su 19 Dataset

Abbiamo confrontato 8 modelli di apprendimento tabulare su 19 dataset reali per un totale di circa 260.000 campioni, con dimensioni dei dataset da 435 a 48.800 righe. Ogni modello è stato eseguito sulla stessa macchina con validazione incrociata a 5-fold e suddivisioni identiche. Ogni dataset è un torneo all'italiana di confronti diretti tra modelli, decisi…

Software aziendale

Benchmark

14 Mag

Confronto VPS: Hetzner vs Digital Ocean

Abbiamo confrontato 6 fornitori di Virtual Private Server (VPS) eseguendo circa 1.200 test automatizzati per server su CPU, memoria, I/O del disco e velocità di rete utilizzando sysbench, fio e speedtest-cli. Abbiamo anche documentato l'intera esperienza dall'iscrizione all'accesso SSH per ciascun fornitore. Abbiamo utilizzato piani da 4 vCPU (condivisi) / 8 GB di ciascun fornitore,…

Rimani al passo con i tempi con

Newsletter AI Multiple

Una email gratuita a settimana con le ultime notizie tecnologiche B2B e approfondimenti di esperti per dare impulso alla tua azienda.