Contattaci
Nessun risultato trovato.

AGI Benchmark: l'intelligenza artificiale può generare valore economico?

Cem Dilmegani
Cem Dilmegani
aggiornato il Mar 13, 2026
Guarda il nostro norme etiche

L'intelligenza artificiale avrà il suo impatto maggiore quando i sistemi di IA inizieranno a creare valore economico in modo autonomo.

Abbiamo valutato se i modelli di frontiera siano in grado di generare valore economico. Abbiamo chiesto loro di sviluppare una nuova applicazione digitale (ad esempio, un sito web o un'app per dispositivi mobili) che possa essere monetizzata con un modello SaaS o basato sulla pubblicità. I modelli presi in esame sono:

  1. Anthropic Claude Sonnet 3.5
  2. OpenAI ChatGPT-o1

Risultati

Entrambi i modelli hanno fornito risultati esaustivi in risposta alle nostre richieste, hanno determinato l'area focale del sito web e hanno fornito istruzioni all'editor di codice Cursor AI per la creazione del sito web.

Per correttezza nei confronti di entrambi i modelli, ci siamo basati su questo prompt senza apportare ulteriori modifiche. L'unica eccezione è stata che, quando Cursor ci chiedeva se continuare, gli rispondevamo con frasi come "sì, continua per favore".

Entrambi i siti web non sono stati completati interamente con Cursor. Sebbene il codice includa la maggior parte delle funzionalità principali, Cursor non è riuscito a creare un sito web completamente funzionante. Pertanto, non possiamo procedere con le fasi successive. Entrambi i siti hanno raggiunto il 2% dei nostri obiettivi.

Consulta la metodologia per scoprire come abbiamo misurato questi strumenti.

Passaggio 1: Scelta dell'obiettivo principale del sito web

Abbiamo chiesto ai modelli di punta di scegliere un dominio per la loro app:

la risposta di Claude Sonnet 3.5

Strumento di gestione dei progetti per freelance:

Struttura dei prezzi

  • Livello gratuito:
    • 2 progetti attivi
    • 1 cliente
    • Fatturazione di base
  • Livello Pro (15 $ al mese):
    • Progetti illimitati
    • Clienti illimitati
    • Fatturazione personalizzata
    • Assistenza prioritaria
    • Analisi avanzata

La nostra valutazione

I concorrenti offrono: Uno dei principali concorrenti in questo settore, ClickUp, offre le stesse funzionalità a un prezzo inferiore. Un altro fornitore leader del settore, Asana, offre attività, progetti, messaggi, registri attività e spazio di archiviazione file illimitati (100 MB per file) nel suo piano gratuito.

Il prodotto Claude Sonnet 3.5 non è riuscito a offrire prezzi competitivi o una caratteristica interessante che lo differenziasse dai fornitori già presenti sul mercato.

ChatGPT-o1

Una bacheca di annunci di lavoro specializzata per aziende che assumono creatori di contenuti esperti di intelligenza artificiale (scrittori, esperti di marketing, gestori di social media che utilizzano strumenti di IA, ecc.).

Struttura dei prezzi:

  • Piano per datori di lavoro : 199 $ al mese per un numero illimitato di annunci OPPURE 49 $ per ogni annuncio di lavoro.
  • Candidati in cerca di lavoro : creazione del profilo e navigazione gratuite.

La nostra valutazione

Questo modello di prezzo presenta una struttura semplice a tariffa fissa che potrebbe risultare conveniente per i datori di lavoro con frequenti esigenze di assunzione, offrendo un numero illimitato di annunci a una tariffa mensile fissa. Tuttavia, per i datori di lavoro con un numero di annunci inferiore o per coloro che preferiscono pagare commissioni proporzionali all'importo delle transazioni, piattaforme già esistenti come Upwork, con costi iniziali minimi e commissioni basate su una percentuale, potrebbero risultare più economiche.

Pertanto, il suggerimento di ChatGPT-o1 potrebbe non risultare gradito né ai datori di lavoro né ai dipendenti.

La nostra ricerca ha rivelato che questi modelli non sono in grado di condurre ricerche di alta qualità, poiché il loro risultato non solo è un'idea nuova, ma non offre nemmeno funzionalità migliori rispetto ai modelli concorrenti. Richiedono ancora l'intervento di ricercatori umani per migliorare gli strumenti esistenti.

Inoltre, Cursor (con Claude Sonnet 3.5 come LLM utilizzato nella codifica per entrambi i progetti) non è stato in grado di codificare un intero sito web. Questo fallimento potrebbe essere attribuito ai limiti di Cursor o a istruzioni inadeguate. In ogni caso, senza partecipanti umani, non è stato possibile generare l'idea e codificare l'intero sito web in questo benchmark.

È inoltre possibile consultare il nostro benchmark di ragionamento basato sull'IA per valutare la capacità di ragionamento del modello.

Parametri di riferimento e risultati di ARC-AGI

Loading Chart

I parametri di riferimento ARC-AGI 1 sono stati creati per valutare la capacità di ragionamento generale nei sistemi artificiali utilizzando compiti basati su griglia che richiedono di inferire regole non esplicite da esempi.

ARC-AGI-1 (2019–2024)

ARC-AGI-1 è stato introdotto nel 2019 per misurare l'intelligenza fluida nei sistemi artificiali. Consisteva in compiti di ragionamento basati su griglia in cui il risolutore doveva dedurre una regola implicita da alcuni esempi di input-output e applicarla a input di test mai visti prima.

I compiti si basavano esclusivamente su conoscenze cognitive di base come la persistenza degli oggetti, la simmetria e il conteggio, e non richiedevano linguaggio o conoscenze specialistiche.

Le competizioni svoltesi nel corso di diversi anni hanno dimostrato progressi graduali ma limitati:

  • Nel 2020, la migliore proposta ha raggiunto un'accuratezza del 20% sul set di valutazione nascosto.
  • Dal 2020 all'inizio del 2024, le prestazioni sono rimaste intorno al 34% nonostante la significativa espansione dei modelli linguistici di grandi dimensioni.
  • Nel 2024, nuovi approcci, come l'adattamento in fase di test, hanno migliorato i risultati. Il team più qualificato ha raggiunto il 53,5%, mentre un altro team ha raggiunto il 55,5% ma non ha pubblicato il proprio modello.
  • Un'anteprima del modello o3 di OpenAI ha superato le prestazioni a livello umano in condizioni di calcolo molto elevate, ottenendo un punteggio del 76% a costi inferiori e dell'88% a costi superiori. Le versioni pubbliche successive hanno ottenuto punteggi inferiori, con o3-medium che ha raggiunto il 53%.

Sebbene ARC-AGI-1 abbia stimolato l'attività di ricerca, ha mostrato delle debolezze come benchmark. Molti compiti erano vulnerabili a strategie di forza bruta, mancavano parametri di riferimento umani coerenti, la difficoltà dei compiti era disomogenea tra i sottoinsiemi e il riutilizzo ripetuto di compiti nascosti introduceva rischi di fuga di informazioni.

ARC-AGI-2

ARC-AGI-2 è stato creato per ovviare ai limiti del suo predecessore, pur mantenendo lo stesso formato del compito. Il suo obiettivo era ridurre la dipendenza da soluzioni basate sulla forza bruta, calibrare la difficoltà dei compiti tra i diversi set di valutazione e stabilire parametri di riferimento chiari per le prestazioni umane.

Il processo di sviluppo ha comportato un'ampia fase di test con 407 partecipanti, per un totale di oltre 13.000 tentativi. Il tasso di successo medio è stato del 66%, con ogni compito risolto da almeno due partecipanti entro due tentativi. Il tempo medio di completamento per tentativo è stato di circa 2,2 minuti.

I risultati ottenuti con ARC-AGI-2 evidenziano l'attuale divario tra le prestazioni umane e quelle delle macchine:

  • I modelli di punta, come il o3-mini e il o3-medium, hanno ottenuto un punteggio di circa il 3%.
  • Il team vincitore dell'ARC Prize 2024 ha raggiunto il 2,5%.
  • Altri sistemi, tra cui Claude 3.7 e Icecuber, hanno ottenuto un punteggio inferiore al 2%.
  • I punteggi inferiori al 5% sono considerati troppo vicini al rumore per essere significativi.

Rispetto ad ARC-AGI-1, dove i sistemi migliori superavano il 50% di precisione, ARC-AGI-2 rappresenta un livello di difficoltà significativamente più elevato.

I suoi compiti sono più specifici, presentano griglie più grandi e un maggior numero di oggetti, e pongono l'accento sul ragionamento compositivo, come trasformazioni a più fasi, applicazione di regole contestuali e definizione di simboli.

benchmark GDPval

GDPval è stato creato per valutare le prestazioni dei modelli di intelligenza artificiale in compiti reali che hanno un valore economico misurabile. Si concentra su 44 professioni appartenenti a nove settori principali che contribuiscono in modo significativo al PIL degli Stati Uniti, tra cui sanità, finanza, industria manifatturiera, settore immobiliare e pubblica amministrazione.

Il benchmark comprende 1.320 attività nella sua versione completa, con circa 30 attività per ciascuna professione. Un sottoinsieme di 220 attività, considerato il gold standard, è stato reso pubblico a scopo di ricerca e test.

A differenza dei benchmark tradizionali che valutano il ragionamento in contesti accademici o artificiali, i compiti di GDPval si basano su risultati concreti prodotti da professionisti del settore.

Questi compiti possono includere documenti, fogli di calcolo, presentazioni, file CAD, audio, video o registrazioni di assistenza clienti. Ogni compito è progettato e validato da esperti con una media di 14 anni di esperienza professionale, garantendo che il contenuto rispecchi le reali esigenze del mondo del lavoro.

Figura 1: Il grafico che mostra i confronti a coppie effettuati dagli esseri umani suggerisce che i modelli si stanno avvicinando alle prestazioni degli esperti del settore sul sottoinsieme GDPval gold. 2

Cosa misura

GDPval valuta tre aspetti principali delle prestazioni dell'IA:

  • Qualità dei risultati : i risultati vengono confrontati direttamente con quelli di esperti umani tramite una valutazione a coppie in cieco. Valutatori professionisti giudicano quale risultato meglio soddisfa i requisiti, considerando correttezza, struttura, stile, formattazione e pertinenza. Questo produce un tasso di successo, che indica con quale frequenza l'output di un modello viene valutato uguale o migliore di quello di un risultato prodotto da un essere umano.
  • Velocità ed efficienza dei costi : il benchmark registra il tempo e il costo necessari per completare le attività. Gli esperti umani in genere impiegano circa 7 ore, ovvero 404 minuti, per un'attività, il che si traduce in circa 361 dollari di retribuzione. I modelli di intelligenza artificiale completano le attività molto più velocemente e a costi inferiori, ma il risparmio dipende dalla quantità di revisione e correzione richiesta da parte degli esseri umani.
  • Adattabilità tramite ragionamento e suggerimenti : il benchmark verifica anche se le prestazioni del modello migliorano quando ai modelli viene richiesto un maggiore sforzo di ragionamento, suggerimenti più semplici o tecniche di scaffolding. Questo aiuta a misurare non solo la capacità pura, ma anche quanto bene i modelli possono essere guidati a svolgere compiti complessi e a più fasi.

Nel loro insieme, queste misure colgono sia i potenziali benefici sia i limiti attuali dell'IA nello svolgimento di compiti che si allineano con il lavoro economicamente redditizio.

Risultati del benchmark

a) Prestazioni del modello rispetto a quelle degli esperti umani

  • I modelli migliori si stanno avvicinando alla parità con gli esperti . Ad esempio, Claude Opus 4.1 ha raggiunto un tasso di vittorie-pareggi di circa il 48%, il che significa che in quasi la metà dei compiti i suoi risultati sono stati valutati pari o superiori a quelli di un esperto umano.
  • GPT-5 eccelleva nell'accuratezza (seguire le istruzioni, calcoli), mentre Claude eccelleva nell'estetica (formattazione, diapositive, layout).
  • I modelli di OpenAI hanno mostrato un miglioramento lineare attraverso le versioni (ad esempio, GPT-4o → o3 → GPT-5), con prestazioni in costante aumento verso la qualità di un esperto.

c) Velocità e risparmio sui costi

  • Ingenuamente, i modelli sono da 90 a 300 volte più veloci e centinaia di volte più economici degli esseri umani.
  • Considerando anche le revisioni e le correzioni, i risparmi realistici sono più modesti , con un'accelerazione di circa 1,1-1,6 volte e un costo inferiore nei flussi di lavoro in cui gli esperti rivedono e perfezionano gli output dell'IA.
  • Ciò suggerisce che l'intelligenza artificiale può già potenziare in modo significativo i flussi di lavoro professionali, anziché sostituirli completamente.

d) Modalità di guasto

  • I modelli falliscono più spesso a causa di:
    • Errori nel seguire le istruzioni (in particolare Claude, Gemini, Grok).
    • Problemi di formattazione (in particolare GPT-5).
    • Allucinazioni occasionali o errori di calcolo .
  • La maggior parte dei guasti sono "accettabili ma al di sotto della media" piuttosto che catastrofici, sebbene circa il 3% dei guasti di GPT-5 siano stati considerati catastrofici (output pericolosi o altamente inappropriati).

L'intelligenza artificiale può/potrà generare valore economico?

Secondo un rapporto Anthropic, 3 L'intelligenza artificiale sta già generando un valore economico misurabile grazie alla rapida adozione, al miglioramento della produttività e all'automazione. Individui e imprese utilizzano sempre più Claude per attività come la programmazione, la ricerca, la formazione e l'amministrazione, con le imprese che automatizzano circa il 77% delle interazioni basate su API.

Le aziende spesso danno priorità alle attività in cui le capacità dell'IA sono più forti, anche quando queste attività sono più costose, il che suggerisce che i vantaggi in termini di efficienza superano le considerazioni di prezzo.

Ci sono delle limitazioni?

I benefici rimangono distribuiti in modo diseguale, poiché le regioni ad alto reddito, i settori predisposti all'automazione e i lavoratori con competenze specializzate si accaparrano una quota sproporzionata del valore, sollevando preoccupazioni circa l'aumento delle disuguaglianze parallelamente al progresso economico.

Lo studio di Anthropic sull'impatto dell'IA sul mercato del lavoro ha introdotto una metrica di "esposizione osservata" che combina le capacità teoriche dell'IA con i dati di utilizzo nel mondo reale per stimare quanti compiti dei lavoratori sono effettivamente automatizzati.

Lo studio rileva che l'utilizzo dell'IA attualmente copre solo una frazione dei compiti che i modelli potrebbero teoricamente svolgere, indicando che l'adozione e l'implementazione sono in ritardo rispetto alle capacità tecniche. Nel complesso, i dati suggeriscono che l'IA non ha ancora causato grandi sconvolgimenti nel mercato del lavoro, nemmeno nelle professioni con un'elevata esposizione teorica. 4

Approcci alternativi

Un'altra prospettiva proviene dai ricercatori che esplorano percorsi alternativi verso l'intelligenza artificiale generale. Ad esempio, la startup AMI Labs (Advanced Machine Learning) , fondata dall'ex responsabile scientifico per l'IA di Yann LeCun, si concentra sullo sviluppo di " modelli del mondo " piuttosto che sull'ampliamento dei modelli linguistici.

Questi sistemi mirano ad apprendere dai dati sensoriali del mondo reale e a modellare le relazioni di causa-effetto negli ambienti fisici. Tali architetture potrebbero essere necessarie affinché i sistemi di intelligenza artificiale possano pianificare, ragionare e interagire autonomamente con il mondo reale.

Se questa ipotesi si rivelasse corretta, gli attuali modelli linguistici su larga scala potrebbero continuare a generare valore economico principalmente attraverso l'aumento della produttività piuttosto che attraverso la piena autonomia economica, suggerendo che un'attività economica realmente autonoma guidata dall'IA potrebbe richiedere architetture di IA radicalmente diverse. 5

Metodologia

Abbiamo selezionato le tappe fondamentali necessarie affinché i sistemi di intelligenza artificiale generino valore economico attraverso la creazione di nuove applicazioni:

  • Identificazione del dominio (%1)
  • Preparazione delle specifiche (%1)
  • Programmazione dell'app (8%)
  • Distribuzione dell'app (5%)
  • Test dell'app (5%)
  • Marketing (5%)
  • Ottimizzazione (%5)
  • Generazione di ricavi (70%)

Ad ogni traguardo è stato assegnato un budget specifico e i risultati sono stati valutati da un gruppo di esperti umani.

Gli strumenti potevano essere utilizzati entro il budget assegnato a ciascun modello. Abbiamo creato account in vari sistemi per testare i modelli.

Il nostro primo suggerimento: creare un sito web con obiettivi di fatturato specifici. Questo processo comprenderà diverse fasi: selezione della nicchia di mercato, programmazione e pubblicazione, e marketing.

  • Obiettivo aziendale: generare 2.000 dollari di entrate ricorrenti mensili (MRR) entro 2 mesi dall'implementazione.
  • Budget iniziale per il marketing: 500 dollari
  • Impossibile implementare alcun requisito di conformità e certificazione (nessun HIPAA, SOC2, PCI, ecc.). Per la Fase 1: Analizzare e selezionare un mercato di nicchia promettente che possa:
  • Raggiungere realisticamente $2k MRR entro 2 mesi
  • Il progetto dovrà essere realizzato e commercializzato nel rispetto dei vincoli di budget.
  • Hanno un chiaro potenziale di monetizzazione
  • Dimostrare una domanda di mercato sufficiente
  • Per la Fase 2: programmerò il prodotto con un editor di codice basato sull'intelligenza artificiale, come Cursor, v0 ecc.
    • Dovresti fornirmi una traccia da trasmettere all'editore. La traccia dovrebbe includere tutte le funzioni del prodotto. Dopodiché, proseguiremo con il marketing, ma per ora, fornisci solo i risultati relativi a queste.

Poiché i modelli lasciavano alcune scelte all'utente, gliele abbiamo richieste nuovamente.

Il nostro secondo prompt: C'è uno specifico assistente di programmazione basato sull'IA che desideri che io utilizzi? Cursor, Replit, V0, Lovable ecc. Assicurati inoltre che il prompt che forniamo a questi strumenti copra tutti i dettagli del progetto. Non lasciare che sia l'assistente di programmazione basato sull'IA o io a prendere decisioni sul progetto, sarai tu a decidere tutti i dettagli.

FAQ

L'intelligenza artificiale generale (AGI) è un concetto della ricerca informatica che descrive un sistema di intelligenza artificiale in grado di svolgere almeno lo stesso numero di compiti di un essere umano.

L'AGI è un sistema in grado di acquisire in modo efficiente nuove competenze al di fuori dei dati di addestramento utilizzati.
La competenza risiede in abilità ampie o di uso generale, caratterizzate dall'acquisizione e dalla generalizzazione delle competenze, piuttosto che nell'abilità in sé.
Tali modelli possono svolgere compiti che richiedono l'intelligenza umana, come la ricerca di alta qualità, il lavoro economicamente redditizio e le attività di ingegneria.

Questo benchmark si differenzia da quelli esistenti, come il benchmark ARC-AGI, poiché il nostro obiettivo è misurare le sfide del mondo reale in modo più diretto. Il test ARC-AGI include una griglia di input e una griglia di output e richiede ai modelli di intelligenza artificiale di individuare lo schema nella griglia di input e, seguendolo, risolvere il puzzle di output. 6

Le sole capacità dell'AGI non determinano il destino in termini di rischio, ma devono essere considerate in combinazione con i dettagli contestuali.
Le funzionalità delle interfacce utente per i sistemi AGI hanno un impatto sostanziale sui profili di rischio.
Scelte ponderate in merito all'interazione uomo-IA sono fondamentali per l'implementazione sicura e responsabile dei modelli di IA all'avanguardia.
L'intelligenza artificiale generale (AGI) è un concetto con conseguenze sia a livello aspirazionale che pratico.
Lo sviluppo di parametri di riferimento e framework per l'intelligenza artificiale generale (AGI) è fondamentale per valutare i rischi e i progressi nella ricerca sull'IA.
Sono necessarie ulteriori ricerche per comprendere i potenziali rischi e benefici dell'intelligenza artificiale generale (AGI) e per sviluppare sistemi di intelligenza artificiale sicuri e responsabili.
Poiché i ricercatori rischiano di sviluppare modelli capaci di un'intelligenza sempre più generale, diventa fondamentale stabilire protocolli di sicurezza avanzati e linee guida etiche prima che emergano potenziali sistemi di intelligenza artificiale generale (AGI).
Le valutazioni tecniche hanno dimostrato che il modello di IA ha ottenuto risultati variabili a seconda dei diversi compiti di ricerca, con i modelli di frontiera significativamente più veloci rispetto alle iterazioni precedenti. La capacità del sistema di iterare sul proprio codice di addestramento ha acceso il dibattito sui passi concreti verso l'AGI, sebbene permangano sfide significative per garantirne la sicurezza e la robustezza.

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo
Ricercato da
Şevval Alper
Şevval Alper
Ricercatore di intelligenza artificiale
Şevval è un analista di settore di AIMultiple specializzato in strumenti di programmazione per l'IA, agenti di IA e tecnologie quantistiche.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450