Modelli di intelligenza artificiale
I modelli di intelligenza artificiale effettuano previsioni basandosi sui dati di addestramento. Possono funzionare in qualsiasi ambito, come numeri, testo o contenuti multimediali.
Intelligence Density of 69 LLMs: Smarter or More Efficient?
We tracked 69 LLMs released between February 2023 and May 2026 and collected 10 public benchmarks to measure intelligence density. We divided the capability score by the resource the model consumes (active parameters, training compute, and inference price).
Gateway AI per OpenAI: OpenRouter Alternative
Abbiamo eseguito un benchmark di OpenRouter, SambaNova, TogetherAI, Groq e AI/ML API su tre indicatori (latenza del primo token, latenza totale e numero di token di output), con 300 test utilizzando prompt brevi (circa 18 token) e prompt lunghi (circa 203 token) per la latenza totale.
Modelli di base per le serie temporali: casi d'uso e vantaggi
I modelli di base per serie temporali (TSFM) si basano sui progressi dei modelli di base nell'elaborazione del linguaggio naturale e nella visione artificiale. Utilizzando architetture basate su transformer e grandi quantità di dati di addestramento, raggiungono prestazioni zero-shot e si adattano a diversi settori come finanza, commercio al dettaglio, energia e sanità.
Da testo a SQL: confronto dell'accuratezza di LLM
Utilizzo SQL per l'analisi dei dati da 18 anni, fin dai tempi in cui lavoravo come consulente. Tradurre le domande in linguaggio naturale in SQL rende i dati più accessibili, consentendo a chiunque, anche a chi non possiede competenze tecniche, di lavorare direttamente con i database.
Benchmark di latenza LLM per casi d'uso nel
L'efficacia dei modelli linguistici di grandi dimensioni (LLM) è determinata non solo dalla loro accuratezza e capacità, ma anche dalla velocità con cui interagiscono con gli utenti. Abbiamo confrontato le prestazioni dei principali modelli linguistici in vari casi d'uso, misurando i loro tempi di risposta all'input dell'utente.
Valutazione comparativa di 38 LLM in Finanza: Claude Opus 4.6, Gemini 3.1 Pro e altri
Abbiamo valutato 38 LLM in ambito finanziario su 238 domande complesse del benchmark FinanceReasoning per identificare quali modelli eccellono in compiti di ragionamento finanziario complessi come l'analisi dei bilanci, le previsioni e il calcolo dei rapporti. Panoramica del benchmark LLM in finanza Abbiamo valutato gli LLM su 238 domande complesse del benchmark FinanceReasoning (Tang et al.).
Confronto tra modelli di IA multimodale sul ragionamento visivo
Abbiamo effettuato un benchmark di 15 modelli di IA multimodale leader nel ragionamento visivo utilizzando 200 domande basate su elementi visivi. La valutazione si è articolata in due percorsi: 100 domande sulla comprensione dei grafici per testare l'interpretazione della visualizzazione dei dati e 100 domande di logica visiva per valutare il riconoscimento di pattern e il ragionamento spaziale. Ogni domanda è stata eseguita 5 volte per garantire risultati coerenti e affidabili.
Confronto tra i modelli Large Vision: GPT-4o vs YOLOv8n
I modelli di visione su larga scala (LVM) possono automatizzare e migliorare attività visive come il rilevamento di difetti, la diagnosi medica e il monitoraggio ambientale. Abbiamo confrontato tre modelli di rilevamento di oggetti: YOLOv8n, DETR e GPT-4o Vision, su 1.000 immagini ciascuno, misurando metriche come mAP@0.5, velocità di inferenza, FLOPs e numero di parametri.
Modelli linguistici di grandi dimensioni nella sicurezza informatica
Abbiamo valutato 7 modelli linguistici di grandi dimensioni in 9 domini di sicurezza informatica utilizzando SecBench, un benchmark su larga scala e multiformato per attività di sicurezza. Abbiamo testato ciascun modello su 44.823 domande a risposta multipla (MCQ) e 3.087 domande a risposta breve (SAQ), che coprono aree come la sicurezza dei dati, la gestione delle identità e degli accessi, la sicurezza di rete, la gestione delle vulnerabilità e la sicurezza del cloud.
Allucinazione AI: confronta i migliori LLM come GPT-5.2
I modelli di intelligenza artificiale possono generare risposte che sembrano plausibili ma sono errate o fuorvianti, fenomeno noto come allucinazioni da IA. Il 77% delle aziende è preoccupato per le allucinazioni da IA. Abbiamo confrontato 37 diversi modelli di apprendimento basati su 60 domande per misurarne i tassi di allucinazione: risultati del benchmark sulle allucinazioni da IA.