Benchmark delle piattaforme di agenti AI: Claude Managed Agents vs Google Vertex Agent Engine
Abbiamo confrontato 4 piattaforme di agenti AI in base a 3 dimensioni: completamento delle attività (10 attività di programmazione × 3 esecuzioni), funzionalità specifiche dell'infrastruttura (guida, riconnessione, memorizzazione di conversazioni lunghe, gestione di file di grandi dimensioni) e costo.
Risultati del benchmark delle piattaforme di agenti IA
Piattaforma | Modello | Tasso di superamento | Tempo di muro | Costo | Token |
|---|---|---|---|---|---|
Claude Managed Agents | Claude Sonnet 4.6 | 30/30 (100%) | 1.172 secondi | $2,50 | 93.000 |
Vertex AI Agent Engine | Gemini 2.5 Pro | 30/30 (100%) | 1.447 secondi | $1,45 | 159k |
OpenAI Risposte + CI | GPT-5.4 | 27/30 (90%) | 522s | $1,54 | 113k |
Controllo (autogestito) | Claude Sonnet 4.6 | 30/30 (100%) | 794s | $1,96 | 464k |
Sia Claude Managed Agents che Vertex AI Agent Engine raggiungono un tasso di successo del 100% nella suite di attività, con Vertex che si distingue per il costo (1,45 $ contro 2,50 $). Per le funzionalità specifiche di ogni framework, disponibili solo nelle piattaforme gestite, come la gestione a metà flusso, la disconnessione/riconnessione e la compressione di conversazioni lunghe, Claude Managed Agents è il più performante, ma Vertex Agent Engine lo eguaglia nei test di portabilità (compressione e gestione di file di grandi dimensioni).
Principali risultati emersi dal benchmark del compito
- Claude MA e Vertex AE hanno ottenuto lo stesso tasso di successo con 30/30 (100%). Entrambi gestiscono tutti i tipi di attività, comprese le attività di rete (06, 10) che hanno attivato OpenAI.
- I fallimenti di OpenAI derivano dalla sua politica di sandbox. Le attività 06 (API REST) e 10 (downloader simultaneo) richiedono entrambe HTTP in uscita. La sandbox di Code Interpreter lo impedisce, e entrambe le attività hanno fallito rispettivamente 2/3 e 1/3. Abbiamo visto che GPT-5.4 può scrivere il codice, ma la sandbox non lo esegue in modo affidabile.
- Vertex AE è il più economico, con un costo totale di 1,45 dollari. Claude MA è il più costoso, con un prezzo di 2,50 dollari. Costa il 72% in più rispetto a Vertex per la stessa suite di attività e con la stessa percentuale di successo.
- Vertex AE è il più lento. L'orchestrazione ADK gestita aggiunge un sovraccarico.
Capacità specifiche del cablaggio
Vengono confrontate due piattaforme in base a funzionalità che esistono solo grazie a un sistema di gestione centralizzato.
Si veda la metodologia di benchmarking riportata di seguito.
piattaforme di agenti di intelligenza artificiale
Claude Managed Agents
Claude Managed Agents di Anthropic offre un runtime per agenti ospitato che combina sessioni con stato, esecuzione di strumenti integrati, streaming basato su eventi e compattazione automatica per carichi di lavoro autonomi di lunga durata. La piattaforma si distingue per primitive uniche non disponibili in offerte comparabili, come l'iniezione di eventi utente a metà flusso per la gestione in tempo reale, flussi SSE ripristinabili per la disconnessione/riconnessione e l'integrazione nativa con il server MCP. Il tutto viene fornito come servizio completamente gestito, senza che gli sviluppatori debbano predisporre alcuna infrastruttura. 1
Il prezzo è di 0,08 dollari per ora di sessione, in aggiunta al costo standard del token API di Claude.
Vantaggi:
- Le sessioni con stato e iniezione di eventi a metà flusso consentono ai nuovi messaggi utente di guidare gli agenti durante l'esecuzione in corso.
- Supporto per la disconnessione e la riconnessione tramite flussi SSE persistenti; le sessioni continuano a essere eseguite lato server anche in caso di interruzioni di rete e i client possono riprendere il consumo degli eventi al momento della riconnessione.
- Il set di strumenti integrato dell'agente include bash, operazioni sui file (lettura, scrittura, modifica, glob, grep) e strumenti web (web_fetch, web_search) accessibili tramite un singolo parametro di configurazione, eliminando la necessità di cablaggi personalizzati.
- Integrazione nativa del server MCP (Model Context Protocol) per estensioni di strumenti personalizzate senza modificare il set di strumenti integrato dell'agente.
Svantaggi:
- Attualmente in versione beta; tutte le richieste richiedono l'intestazione beta managed-agents-2026-04-01 e il comportamento potrebbe essere migliorato tra le versioni successive.
- Claude è disponibile solo, senza flessibilità di modello rispetto a piattaforme come AWS Bedrock AgentCore o Northflank che supportano più provider di modelli.
Salesforce Agentforce
Salesforce Agentforce si distingue per l'accesso nativo ai dati CRM tramite il motore di ragionamento Atlas e per gli agenti preconfigurati per i flussi di lavoro di vendita, assistenza, marketing e commercio. 2
La piattaforma si integra con MuleSoft Agent Fabric per l'orchestrazione tra sistemi e offre partnership con Agentforce 360 per AWS.
Agentforce si rivolge alle organizzazioni che necessitano di flussi di lavoro autonomi rivolti ai clienti, integrati direttamente nella loro infrastruttura cloud esistente.
Vantaggi:
– L'accesso nativo ai dati CRM tramite Atlas Reasoning Engine consente azioni degli agenti basate sul contesto.
– Gli agenti preconfigurati disponibili per vendite, assistenza, marketing e commercio riducono i tempi di implementazione.
– Autorizzazione FedRAMP su Salesforce Cloud governativo per i settori regolamentati.
– Il piano base gratuito include 1.000 conversazioni e 200.000 Flex Credits per i test iniziali.
Svantaggi:
– SaaS esclusivamente basato su cloud, senza possibilità di implementazione in locale.
– Agnosticismo del modello limitato; utilizza di default modelli gestiti da Salesforce con supporto limitato da parte di fornitori esterni.
– Richiede investimenti nell'ecosistema Salesforce esistenti per realizzare il pieno valore.
Microsoft Copilot Studio
Vantaggi:
– Incluse con Microsoft 365 licenze Copilot per uso interno degli agenti senza costi aggiuntivi. 3
– Agenti vocali in tempo reale e supporto telefonico IVR per scenari di assistenza clienti.
– FedRAMP autorizzato tramite il governo (991259_1978) per implementazioni nel settore pubblico.
– Supporta i modelli OpenAI, Anthropic e i framework open-source all'interno di un unico ambiente di compilazione.
Svantaggi:
– Funzionalità limitate al di fuori dell'ecosistema Microsoft; richiede un abbonamento a Azure o M365 per usufruire di tutte le funzionalità.
– Non esiste un livello gratuito permanente autonomo; richiede un abbonamento M365 Copilot esistente per l'utilizzo incluso.
– Modello di intelligenza artificiale vocale in tempo reale ospitato solo in Nord America a partire da aprile 2026.
Copilot Studio è la soluzione più conveniente per le organizzazioni che già utilizzano Microsoft 365, Teams e Microsoft Office, offrendo un'automazione per i dipendenti che eredita le configurazioni esistenti in materia di identità, sicurezza e conformità.
Google Agentspace e Vertex AI Agent Builder
La doppia offerta di Google combina Agentspace per la gestione della conoscenza aziendale e Vertex AI Agent Builder per lo sviluppo low-code, differenziandosi per l'integrazione del modello Gemini, il contesto cross-product di Google Workspace e il supporto di input multimodale per testo, voce e immagini. 4
La piattaforma offre 300 dollari di crediti gratuiti ai nuovi utenti e un prezzo a consumo per Vertex AI Agent Engine.
Vantaggi:
– Un credito gratuito di 300 dollari per i nuovi utenti consente di realizzare prototipi in modo approfondito senza investimenti iniziali.
– Implementazione on-premise supportata tramite Google Cloud distribuito per ambienti regolamentati.
– Autorizzazione FedRAMP tramite Google Cloud.
– Google ADK (Agent Development Kit) supporta lo sviluppo code-first in Python, TypeScript, Go e Java.
Svantaggi:
– Gemini-la progettazione primaria limita la flessibilità del modello rispetto alle piattaforme completamente agnostiche.
Agenti AWS Bedrock e AgentCore
AWS Bedrock Agents e la più recente piattaforma AgentCore offrono la gestione dell'infrastruttura serverless per agenti di livello enterprise, lanciati in occasione di re:Invent 2025. 5
Tra gli elementi distintivi figurano la tariffazione a consumo di 0,0895 dollari per ora di vCPU per il runtime di AgentCore, le opzioni di throughput predefinite e Mem0 come fornitore di memoria esclusivo.
Vantaggi:
– Autorizzazione FedRAMP di livello elevato su AWS GovCloud per carichi di lavoro sensibili.
– Lo streaming bidirezionale supporta gli agenti vocali con parlato simultaneo da parte dell'utente e dell'agente.
– È disponibile un livello gratuito per i nuovi clienti AWS per la fase di sperimentazione iniziale.
– Accesso ai modelli di Anthropic, Amazon, Meta, Mistral e AI21 tramite il catalogo Bedrock.
Svantaggi:
– Non sono disponibili modelli di agente predefiniti specifici per il dominio; è necessario crearli da zero utilizzando l'SDK.
– Non è prevista alcuna opzione di installazione in locale; funziona esclusivamente sull'infrastruttura AWS.
– La creazione di agenti richiede una programmazione API/SDK significativamente maggiore rispetto ai costruttori visivi.
AWS Bedrock è la soluzione ideale per le aziende che necessitano di un'infrastruttura serverless scalabile e profondamente integrata nell'ecosistema AWS, offrendo efficienza in termini di costi grazie a una fatturazione granulare basata sull'utilizzo.
IBM Watsonx Orchestra
Watsonx Orchestrate si rivolge alle aziende regolamentate con oltre 150 agenti preconfigurati specifici per settore, come risorse umane, acquisti, vendite e finanza, oltre a Skills Studio per la creazione di competenze personalizzate. 6
La piattaforma offre flessibilità di implementazione ibrida cloud e on-premise tramite IBM Cloud Pak for Data and Software Hub.
Vantaggi:
– Installazione on-premise supportata tramite IBM Cloud Pak for Data per i requisiti di residenza dei dati.
– Oltre 150 agenti e strumenti preconfigurati di IBM e partner, con oltre 80 integrazioni con applicazioni aziendali tra cui SAP, Salesforce e Workday.
– L'autorizzazione FedRAMP è stata estesa nell'aprile 2026 alle installazioni federali.
– Vera agnosticità del modello, a supporto di più fornitori di LLM senza vincoli con un singolo fornitore.
Svantaggi:
– Non esiste un piano gratuito permanente; per un utilizzo continuativo è necessario un abbonamento a pagamento Essentials o Standard.
– Le funzionalità vocali e telefoniche sono disponibili all'interno di watsonx Orchestrate tramite la configurazione vocale nativa nell'ADK e le integrazioni con provider come Deepgram e ElevenLabs, sebbene la telefonia avanzata possa richiedere una configurazione aggiuntiva.
– Struttura tariffaria complessa che richiede preventivi personalizzati per le funzionalità aziendali.
Agenti AI di ServiceNow
Gli agenti AI di ServiceNow si integrano direttamente nella piattaforma Now, distinguendosi per l'integrazione nativa con i flussi di lavoro IT, delle risorse umane e del servizio clienti, anziché operare come piattaforma autonoma.
La piattaforma include una torre di controllo AI per la governance, flussi di lavoro agentici preconfigurati per ITSM e HRSD e un motore di contesto che collega la cronologia delle policy alle azioni degli agenti. 7
Vantaggi:
– Eredita la governance, le regole SLA e i flussi di lavoro di approvazione esistenti della piattaforma Now.
– Gli agenti vocali basati sull'IA supportano Genesys Cloud, Twilio e 3CLogic come fornitori di CCaaS.
– Gli agenti web basati sull'intelligenza artificiale apprendono dalle dimostrazioni umane per automatizzare le attività basate sul browser.
Svantaggi:
– Non esiste un piano gratuito permanente; i nuovi clienti ricevono solo 100 chiamate gratuite con un agente di supporto.
– L'autorizzazione FedRAMP High per AI Agents, AI Agent Orchestrator e AI Agent Studio è stata confermata per i clienti di Government Community Cloud (GCC) a partire da marzo 2026.
– Valore limitato per le organizzazioni che non utilizzano già ServiceNow per la gestione dei servizi IT o delle risorse umane.
Corea.ai
Kore.ai si concentra sull'intelligenza artificiale conversazionale per le aziende, offrendo oltre 300 agenti preconfigurati, più di 250 integrazioni aziendali e un'architettura indipendente dal modello che supporta implementazioni sia in cloud che on-premise.
La piattaforma serve sei settori verticali, tra cui quello bancario, sanitario e della vendita al dettaglio, con implementazioni comprovate presso aziende come Eli Lilly (il 70% delle richieste di assistenza tecnica è automatizzato). 8
Vantaggi:
– Infrastruttura vocale nativa che offre interazioni vocali globali a bassa latenza.
– Implementazione flessibile, con opzioni sia on-premise che in cloud privato.
– Supporto per più fornitori di LLM.
Svantaggi:
– Non esiste un piano gratuito permanente; offre solo 500 dollari di credito una tantum per i test iniziali.
LangGraph
Vantaggi:
– La licenza open-source MIT consente l'uso commerciale e la modifica senza restrizioni.
– Il controllo deterministico del flusso di lavoro tramite architettura a grafo garantisce percorsi di esecuzione riproducibili.
– L'integrazione di osservabilità di LangSmith fornisce monitoraggio e tracciamento della produzione.
Svantaggi:
– Non è presente un generatore di codice visuale senza codice; richiede codice Python o JavaScript per definire i grafici degli agenti.
– Nessuna integrazione nativa per voce o telefonia; richiede una programmazione personalizzata per i canali vocali.
– Curva di apprendimento ripida per i team che non hanno familiarità con i paradigmi di programmazione basati sui grafi.
LangGraph è ideale per i team di ingegneri che sviluppano agenti di livello produttivo che richiedono una logica condizionale complessa, il recupero dagli errori e la tracciabilità delle singole fasi di esecuzione.
CrewAI
Vantaggi:
– L'astrazione basata sui ruoli rispecchia le strutture dei team umani per un coordinamento intuitivo degli agenti.
– Core open-source gratuito senza costi di licenza per le implementazioni self-hosted.
– Editor visuale e copilota AI disponibili nel piano gratuito per i membri del team non tecnici.
Svantaggi:
– Non esiste un marketplace ufficiale di modelli gestito da un fornitore; si basa sui contributi della community.
– L'approccio code-first richiede la conoscenza di Python per la creazione dell'agente.
– I prezzi del piano Enterprise sono disponibili solo su richiesta, il che potrebbe creare incertezza di budget per i piccoli team rispetto ad altre opzioni open source.
CrewAI consente la prototipazione rapida di pipeline di agenti basate sui ruoli, particolarmente adatte all'elaborazione di documenti, ai flussi di lavoro di ricerca e alle attività di generazione di contenuti a più fasi.
n8n
n8n opera con una licenza fair-code (Sustainable Use License), offrendo oltre 400 connettori per app native con nodi di intelligenza artificiale visiva e un'infrastruttura auto-ospitabile.
Vantaggi:
– L'edizione Community self-hosted include SSO SAML, LDAP, RBAC e archivi di segreti crittografati senza costi aggiuntivi.
– Supporto nativo per LangChain e LlamaIndex all'interno di flussi di lavoro visivi.
– L'editor di flussi di lavoro visivo consente l'automazione complessa senza bisogno di programmazione.
Svantaggi:
– La licenza Fair Code richiede una licenza a pagamento per l'hosting commerciale o i prodotti SaaS.
– Nessun nodo nativo per voce o telefonia; richiede l'integrazione con API esterne per la voce.
– Nessuna autorizzazione FedRAMP confermata.
n8n unisce l'automazione tradizionale dei flussi di lavoro con gli agenti di intelligenza artificiale, offrendo soluzioni ad analisti aziendali tecnici e team DevOps che necessitano di un'implementazione self-hosted per la residenza dei dati, mantenendo al contempo funzionalità di creazione visiva.
Dify
Dify è una piattaforma LLMOps open-source con oltre 114.000 stelle su GitHub, il che la colloca tra i primi 100 progetti open-source a livello globale.
La piattaforma supporta pipeline RAG, strumenti di ingegneria rapida e un'architettura indipendente dal modello.
Vantaggi:
– La Community Edition self-hosted è permanentemente gratuita con pieno controllo dei dati tramite distribuzione Docker.
– Il generatore di flussi di lavoro visivi consente la creazione di agenti complessi senza bisogno di programmazione.
– Supporta centinaia di modelli lineari latenti (LLM) proprietari e open-source di decine di fornitori di inferenza.
Svantaggi:
– Il supporto vocale richiede plugin acquistabili tramite marketplace come Agora o Tencent RTC; non è presente la telefonia PSTN nativa.
– Nessuna autorizzazione FedRAMP.
– Il piano Cloud Team da 159 dollari al mese potrebbe risultare costoso per i team di piccole dimensioni.
Dify è ideale per i team di prodotto e operativi che necessitano di agenti in grado di riconoscere i documenti e dotati di solide funzionalità RAG, in particolare per coloro che danno priorità al controllo dei dati tramite l'hosting autonomo.
Voiceflow
Voiceflow si distingue come l'unica piattaforma importante a considerare la progettazione di agenti vocali come una componente di primaria importanza, anziché un semplice componente aggiuntivo, offrendo un'area di progettazione appositamente creata sia per gli agenti vocali che per quelli di chat, con una latenza inferiore a 500 ms.
La piattaforma è specializzata nell'automazione dei ticket di assistenza clienti e nei sistemi IVR.
Vantaggi:
– Canali vocali e telefonici nativi con supporto IVR e latenza inferiore a 500 ms.
– Funzionalità di estrazione di entità per le query della knowledge base.
– Il piano gratuito include 2 agenti e 100 token AI mensili senza scadenza.
– Tela visiva progettata specificamente per i flussi di lavoro di intelligenza artificiale conversazionale.
Svantaggi:
– L'implementazione in locale è disponibile solo tramite accordi aziendali personalizzati.
Voiceflow è pensato per i team di Customer Experience e di supporto che creano agenti conversazionali per i clienti, da implementare su canali vocali, chat e messaggistica, il tutto da un'unica interfaccia di progettazione.
Intelligenza artificiale pertinente
Relevance AI offre la flessibilità di utilizzare il proprio modello di linguaggio naturale (BYOLLM) con un modello di fatturazione basato sulle azioni, consentendo ai team non tecnici di creare team multi-agente tramite descrizioni in linguaggio naturale.
Vantaggi:
– Il piano gratuito include 100 crediti al giorno senza scadenza.
– Oltre 2.000 integrazioni, tra cui HubSpot, Salesforce, Slack e Gmail.
– Vero agnosticismo del modello a supporto di molteplici fornitori di LLM.
Svantaggi:
– Nessuna opzione di self-hosting o implementazione on-premise; solo SaaS in cloud.
– Nessuna autorizzazione FedRAMP per i settori regolamentati.
– Le funzionalità vocali richiedono l'integrazione con Vapi o Twilio anziché la telefonia nativa.
Lindy AI
Lindy AI offre oltre 5.000 integrazioni tramite Pipedream, modelli di agente predefiniti per la gestione e la pianificazione delle email e funzionalità di agente per le chiamate telefoniche tramite la funzione vocale Gaia. 9
La piattaforma utilizza un modello di esecuzione basato su crediti con un livello gratuito disponibile.
Vantaggi:
– Il piano gratuito include 400 crediti al mese e una base di conoscenza di 1 milione di caratteri.
– Vera agnosticità del modello e ampia libreria di integrazione.
Svantaggi:
– L'implementazione in locale è disponibile solo tramite accordi aziendali personalizzati per i settori regolamentati.
Ideale per singoli utenti aziendali, fondatori e team operativi che necessitano di automatizzare rapidamente i flussi di lavoro di email, calendario e CRM senza dover ricorrere a risorse di sviluppo.
Metodologia
Quali vantaggi concreti offre una piattaforma di agenti AI gestiti rispetto alla concorrenza e all'alternativa di creare un proprio framework per agenti? Il settore degli strumenti per l'IA presenta un persistente punto cieco in questo ambito. I prodotti "agenti gestiti" vengono regolarmente confrontati utilizzando gli stessi parametri di valutazione del completamento delle attività impiegati per i modelli linguistici grezzi, confondendo così due aspetti molto diversi: la capacità del modello di generare codice corretto e la capacità del framework di eseguire tale codice in modo affidabile in un ambiente di runtime gestito con stato, strumenti e isolamento. Abbiamo progettato questo benchmark per distinguere questi due elementi.
Che cos'è una piattaforma di agenti gestiti?
Stiamo confrontando una categoria specifica: runtime ospitati che integrano inferenza LLM, orchestrazione degli agenti ed esecuzione di codice in ambiente sandbox in un unico servizio gestito. Questo si distingue da (1) API di inferenza LLM pure, (2) framework di orchestrazione degli agenti che si ospitano autonomamente e (3) sandbox di calcolo che si abbinano al proprio modello. Le quattro piattaforme in fase di test assumono ciascuna una forma leggermente diversa di questo pacchetto:
- Claude Managed Agents (Anthropic): Soluzione completa e gestita. Definizione degli agenti, sessioni, streaming basato su eventi, compattazione ed esecuzione degli strumenti sono tutti lato server. Uno dei due veri concorrenti in questa categoria.
- Vertex AI Agent Engine (Google): infrastruttura completamente gestita. Distribuisce un agente definito da ADK in un ambiente di runtime gestito; la distribuzione ospita lo stato dell'agente e l'esecuzione degli strumenti. Accessibile tramite l'SDK vertexai.agent_engines.
- OpenAI API di risposta con interprete di codice : categoria adiacente. API di inferenza con uno strumento sandbox Python integrato, ma senza stato di sessione multi-turno persistente o guida a metà flusso.
- Controllo: API Claude Messages con ciclo di strumenti locale : incluso come riferimento. Stesso modello di Claude MA (claude-sonnet-4-6), ma implementiamo il ciclo dell'agente localmente in circa 150 righe di Python. Gli strumenti (bash, scrittura, lettura, modifica) vengono eseguiti in una directory temporanea per attività sulla macchina di benchmark. Questo isola il contributo del framework gestito oltre al "modello più ciclo di strumenti". L'esecuzione dell'API Messages con un ciclo di agenti locale produce un confronto in cui il modello è identico ma il framework è assente. Qualsiasi differenza tra Claude MA e il controllo è attribuibile interamente al framework, non alle capacità del modello.
La suite di attività
Dieci compiti di programmazione suddivisi in tre livelli di difficoltà. Ogni compito prevede un prompt fisso che specifica il risultato finale e uno script di verifica che codifica criteri deterministici di superamento/fallimento. Ogni compito viene eseguito tre volte per piattaforma al fine di misurare la varianza.
prove di stress specifiche per le imbracature
La suite di test misura la correttezza end-to-end. Non può misurare funzionalità che esistono solo grazie a un framework gestito: persistenza della sessione con stato, instradamento in corso di flusso, ripresa della connessione, compattazione automatica del contesto e gestione degli artefatti del filesystem gestito. Per queste funzionalità, abbiamo progettato due suite di test aggiuntive.
Suite A: Sterzo e interruzione
Tre test che mettono in pratica le primitive specifiche dell'imbracatura.
A1 avvia un agente su un'attività di codifica, quindi inietta un nuovo evento utente tramite POST /events dopo 10 secondi modificando i requisiti e verifica, ispezionando il filesystem del contenitore, che l'artefatto finale rifletta il nuovo requisito anziché quello originale.
A2 apre un flusso SSE, interrompe la connessione dopo quattro eventi, si riconnette e verifica che la sessione raggiunga ancora lo stato_idle.
A3 invia un prompt volutamente contraddittorio e verifica se l'agente chiede chiarimenti o sceglie silenziosamente un'interpretazione.
Solo A3 è portabile su diverse piattaforme. L'iniezione di eventi a metà flusso di A1 non ha un equivalente diretto su OpenAI Responses (singola richiesta/risposta) o Vertex Agent Engine (il modello di sessione non prevede l'iniezione di messaggi in corso). Analogamente, la disconnessione/riconnessione di A2 non ha un equivalente altrove. Questi sono vantaggi strutturali reali del modello di sessione event-driven di Claude MA, non misurabili con le alternative. Abbiamo eseguito A1 e A2 solo su Claude MA e A3 sia su Claude MA che su Vertex Agent Engine.
Suite B: Compattazione e contesto
Due test che mettono alla prova le funzionalità di contesto gestito.
B1 inserisce una stringa canary univoca (un token derivato da un UUID) al primo turno di una sessione, esegue 23 turni di riempimento con piccole attività di codifica non correlate, ognuna delle quali produce chiamate di strumenti e risultati degli strumenti, quindi chiede all'agente di richiamare la stringa canary dalla memoria al 25° turno senza consentire la ricerca su file. Il richiamo riuscito dopo 23 turni di riempimento dimostra che il sistema preserva il contesto iniziale attraverso qualsiasi politica di compattazione utilizzi.
Il test B2 richiede all'agente di generare un file di testo di 50.000 righe con un marcatore nascosto, quindi di rispondere a una domanda che richiede di individuare il marcatore. Questo test verifica se l'agente è in grado di ragionare su artefatti più grandi della sua finestra di contesto senza tentare di leggere l'intero file.
Sia B1 che B2 sono stati eseguiti su Claude MA e Vertex Agent Engine, utilizzando gli stessi prompt e protocolli.
LLM come strumento di valutazione del comportamento
Per la Suite A3 (contraddizioni), il superamento/fallimento non è una verifica deterministica; abbiamo trattato la domanda "l'agente ha chiesto chiarimenti?" come un giudizio qualitativo sul comportamento conversazionale. Utilizziamo un modello LLM come giudice con tre controlli metodologici:
- Il modello del giudice è diverso dal modello testato: Claude Opus 4.6 è il giudice per evitare il bias di autovalutazione.
- Rubrica strutturata con 4 dimensioni booleane: il giudice restituisce un punteggio in formato JSON: contraddizione riconosciuta, richiesta di chiarimenti, proceduto con presupposti, presupposti documentati e una motivazione di un paragrafo.
- Verifica di coerenza a 3 iterazioni: ogni giudizio viene eseguito 3 volte. Riportiamo il consenso di maggioranza per ciascuna dimensione e il tasso di concordanza per ciascuna dimensione. Se la concordanza per una qualsiasi dimensione scende al di sotto del 67%, il giudice viene segnalato come incoerente per quella dimensione e il risultato viene trattato come a bassa affidabilità.
Un'euristica basata su parole chiave viene eseguita in parallelo come verifica di coerenza. Le divergenze tra l'euristica e il giudizio vengono registrate per una revisione manuale.
Punteggio
Per ogni attività eseguita su ogni piattaforma:
- Superato/non superato
- Tempo di esecuzione : secondi trascorsi dall'invio del prompt alla ricezione dell'evento terminale (status_idle per Claude MA, completamento dell'attività per Vertex AE, completamento della risposta per OpenAI, uscita dal ciclo di lavoro per il controllo).
- Conteggio delle chiamate agli strumenti : Invocazioni distinte degli strumenti. Utile come impronta digitale comportamentale; meno utile come metrica di efficienza perché la granularità degli strumenti varia significativamente tra le piattaforme.
- Utilizzo del token : analizzato dagli eventi model_request_end su Claude MA, usage_metadata su Vertex AE, response.usage su OpenAI, accumulo per turno nel ciclo di messaggi del controllo. Suddiviso in input, output, lettura della cache e creazione della cache.
- Costo in USD : Calcolato in base all'utilizzo dei token rispetto ai prezzi pubblicati: claude-sonnet-4-6 a $3/$15/$0,30/$3,75 per milione; gpt-5.4 a $2,50/$15/$0,25; gemini-2.5-pro a $1,25/$10/$0,13. Vengono aggiunte le commissioni infrastrutturali specifiche della piattaforma: Claude MA $0,08/ora di sessione riproporzionata in base al tempo di utilizzo, OpenAI $0,03/container quando si verifica una chiamata di strumento, Vertex AE circa $0,35/ora di hosting riproporzionata in base al tempo di attività del deployment.
I risultati delle Suite A e B includono anche metriche a livello di sessione (turni, richiamo canary, consenso e accordo dei giudici).
Considerazioni di equità e limitazioni note
Diverse asimmetrie nella configurazione influenzano il modo in cui i numeri devono essere letti; le segnaliamo esplicitamente:
Il controllo esegue l'esecuzione dello strumento sulla macchina di benchmark senza alcun passaggio di andata e ritorno nel cloud. Questo gli conferisce un vantaggio sleale in termini di tempo di esecuzione, che non riflette tanto la velocità dell'agente quanto l'asimmetria dovuta al passaggio di rete. Quando osserviamo che il controllo completa le attività circa il 25% più velocemente di Claude MA sullo stesso modello, circa la metà di questo divario è dovuto all'asimmetria del passaggio di andata e ritorno.
L'interprete di codice OpenAI opera in una sandbox con accesso limitato alla rete. Le attività 06 (API REST) e 10 (downloader concorrente) richiedono HTTP in uscita, che CI consente solo in modo intermittente. Gli errori di OpenAI in queste attività sono dovuti a violazioni delle policy della sandbox, non a problemi di funzionalità del modello. GPT-5.4 è in grado di scrivere codice HTTP concorrente corretto; la piattaforma non è sempre in grado di eseguirlo. I lettori non devono interpretare "OpenAI fallisce nelle attività di rete" come un'affermazione sul modello.
Gemini 3.1-pro-preview è accessibile solo tramite una lista di autorizzazione di anteprima a livello di progetto. Abbiamo tentato di eseguire il benchmark di questo modello sia sull'API Vertex diretta che su Vertex Agent Engine. Le chiamate API dirette hanno restituito un errore 404; le implementazioni di Agent Engine con il modello sono andate a buon fine in fase di implementazione, ma le chiamate di inferenza hanno restituito zero eventi senza errori. Siamo quindi tornati a gemini-2.5-pro.
Una serie di attività di refactoring di diverse ore, il debug in codebase sconosciute o flussi di lavoro autonomi di lunga durata metterebbero alla prova i diversi strumenti in modo differente e probabilmente distinguerebbero più nettamente le opzioni di livello superiore.
Non abbiamo misurato la latenza di provisioning, il comportamento a freddo, le prestazioni delle sessioni simultanee o i limiti massimi di velocità. Questi aspetti sono importanti per i carichi di lavoro di produzione ad alto throughput, ma non rientravano nell'ambito di questa analisi.
Caratteristiche comuni a tutte le piattaforme di agenti di intelligenza artificiale
Ciascuna piattaforma in questo confronto offre funzionalità di base che definiscono la categoria degli agenti di intelligenza artificiale. Queste caratteristiche comuni stabiliscono il prodotto minimo indispensabile per l'automazione agentiva, mentre le caratteristiche distintive determinano la scelta della piattaforma.
Orchestrazione multi-agente: tutte le piattaforme supportano l'orchestrazione multi-agente, sebbene l'implementazione vari (vedere le sezioni relative alle singole piattaforme sopra).
Utilizzo degli strumenti e integrazioni esterne: gli agenti su tutte le piattaforme possono richiamare API esterne, database e applicazioni aziendali. Il numero di connettori predefiniti varia da circa 50 (Dify) a oltre 9.000 (Relevance AI), con tutte le piattaforme che supportano definizioni API personalizzate.
Gestione della memoria persistente e del contesto: la conservazione delle informazioni all'interno delle sessioni (memoria a breve termine) e tra le sessioni (memoria a lungo termine) è una funzionalità standard, ottenuta tramite database vettoriali, oggetti di sessione o finestre di contesto configurabili a seconda della piattaforma.
Monitoraggio e osservabilità: ogni piattaforma espone log, tracce o strumenti di analisi per ispezionare l'esecuzione degli agenti, monitorare l'utilizzo dei token e la latenza e identificare i guasti.
Supervisione umana e controlli di approvazione: i meccanismi di revisione, approvazione o annullamento delle azioni degli agenti da parte di un essere umano sono presenti su ogni piattaforma. Esempi includono i gate di approvazione per strumento di n8n, le primitive di interruzione e ripresa di LangGraph, i controlli delle policy di Bedrock AgentCore, ServiceNow AI Control Tower e l'escalation automatica di Lindy.
Base di conoscenza e generazione potenziata dal recupero (RAG): ancorare gli agenti alla conoscenza personalizzata attraverso l'indicizzazione e il recupero di documenti è una funzionalità di base in questa categoria. Le implementazioni includono la pipeline RAG di Dify, la base di conoscenza di Voiceflow, le basi di conoscenza di Bedrock, il motore RAG di Vertex AI e l'intelligenza artificiale di ricerca di Kore.ai.
Interfaccia di creazione agenti senza codice o a basso codice: su ogni piattaforma sono disponibili interfacce grafiche o in linguaggio naturale per la creazione di agenti. Le piattaforme enterprise offrono studi senza codice (Agentforce Builder, Copilot Studio, watsonx Orchestrate), mentre i framework per sviluppatori forniscono strumenti visivi complementari (LangGraph Studio, AutoGen Studio, CrewAI Studio).
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.