Contattaci
Nessun risultato trovato.

Oltre 10 framework e strumenti per l'orchestrazione di agenti

Hazal Şimşek
Hazal Şimşek
aggiornato il Gen 27, 2026
Guarda il nostro norme etiche

Abbiamo effettuato un benchmark di quattro principali framework agentici utilizzando un flusso di lavoro identico per la pianificazione di viaggi con cinque agenti e impostazioni LLM coerenti. Ciascun framework è stato eseguito 100 volte e abbiamo misurato la latenza della pipeline, l'utilizzo dei token, le transizioni da agente ad agente e il divario di esecuzione tra agente e strumento per isolare il vero overhead di orchestrazione.

benchmark di orchestrazione agentica

Loading Chart

Tutti i framework hanno completato con successo l'attività su 100 esecuzioni ciascuno. Tuttavia, LangGraph ha terminato 2,2 volte più velocemente di CrewAI, mentre LangChain e AutoGen hanno mostrato differenze di efficienza dei token pari a 8-9 volte. Ciò riflette decisioni architetturali fondamentali su come ciascun framework orchestra i flussi di lavoro multi-agente a partire dal livello di orchestrazione, su come instrada i messaggi, gestisce lo stato e coordina il passaggio di consegne tra gli agenti.

Per comprenderne il motivo, abbiamo misurato ciascuna fase del ciclo di vita dell'agente.

Prestazioni degli agenti

Agente di analisi sintattica: l'agente esegue una semplice estrazione di testo con una complessità minima. Tutti i framework mostrano una latenza simile.

Agente di ricerca voli : Possiamo notare differenze significative nella latenza e nell'utilizzo dei token. Questo agente utilizza lo strumento API per i voli e osserviamo un notevole "intervallo tra agente e strumento", ovvero il tempo che intercorre tra l'avvio dell'agente e la sua effettiva chiamata allo strumento. Analizzeremo questo intervallo in dettaglio più avanti nella nostra analisi, dove vedremo che 5 secondi dei 9 secondi di latenza di CrewAI derivano proprio da questo intervallo.

Agente di segnalazione meteo: osserviamo che lo stesso schema di classificazione per latenza e utilizzo dei token si ripete, come già riscontrato nell'agente di ricerca voli.

LangChain genera un numero significativamente maggiore di token e una latenza più elevata rispetto ad altri framework, ad eccezione di CrewAI, il cui overhead deriva principalmente dal divario tra agente e strumento. Ciò è dovuto all'approccio di gestione della memoria di LangChain, che mantiene i passaggi intermedi e l'intera cronologia della conversazione, creando un overhead nei flussi di lavoro multi-agente.

LangGraph emerge come il framework più veloce con il minor numero di token. La sua architettura basata sui grafi trasmette solo i delta di stato necessari tra i nodi anziché le cronologie complete delle conversazioni, risultando in un numero minimo di token.
utilizzo e latenza ridotta.

Agente di attività: la maggior parte dei framework dimostra prestazioni relativamente simili. Senza chiamate di strumenti, tutti i framework convergono in intervalli simili (6-8 sec per la latenza, 650-744 per i token), suggerendo che
La variazione riguarda principalmente il tempo di generazione LLM con un sovraccarico di orchestrazione minimo. Tuttavia, il vero divario prestazionale emerge nell'agente Travel Planner.

Agente di pianificazione viaggi : l'agente riceve e sintetizza gli output da tutti e quattro gli agenti precedenti (analizzatore sintattico, cercatore di voli, meteorologo e raccomandatore di attività) in ogni framework. Tuttavia, come ogni framework
gestisce questo contesto l'aggregazione rivela differenze architettoniche fondamentali.

CrewAI passa l'output completo e non modificato di ogni attività precedente direttamente nel contesto del pianificatore attraverso il suo sistema di parametri di contesto. L'LLM riceve i token completi degli output precedenti dell'agente più l'attività
la descrizione stessa. Questo approccio non è una limitazione ma una filosofia di progettazione fondamentale: CrewAI dà priorità alla sintesi completa e consapevole del contesto in cui gli agenti hanno una visibilità completa sul lavoro precedente.
Il risultato è un itinerario dettagliato di 5.339 token che integra in modo completo tutte le informazioni disponibili.

LangChain, AutoGen e LangGraph gestiscono il contesto in modo diverso. Sebbene tutti e tre i framework trasmettano al pianificatore gli output precedenti degli agenti, implementano varie strategie di ottimizzazione che riducono il carico contestuale cumulativo. La gestione della memoria di LangChain può comprimere o riassumere gli output intermedi e il framework potrebbe non preservare la verbosità completa della risposta di ciascun agente quando li concatena. Ciò si traduce in un output di 3.187 token più conciso di CrewAI, ma comunque consistente.

AutoGen mostra un comportamento simile con 3.316 token, suggerendo approcci di gestione del contesto comparabili tra questi due framework. La gestione dello stato basata su grafi di LangGraph passa solo lo stato necessario
differenze tra i nodi, che si traducono nell'output più efficiente di 2.589 token grazie alle transizioni di stato ottimizzate.

Agente per lo spazio vuoto

Il divario tra agente e strumento è il tempo che intercorre tra il momento in cui un agente riceve il suo compito e il momento in cui effettivamente richiama lo strumento.

L'intervallo di 5 secondi nel Flight Finder di CrewAI rappresenta il tempo effettivo di valutazione, mentre altri framework mostrano chiamate agli strumenti quasi istantanee.

L'architettura di CrewAI incarna una filosofia di agente autonomo. Quando l'agente Flight Finder riceve il suo compito, non esegue immediatamente lo strumento get_flights. Segue invece un processo di ragionamento:

  1. Comprensione del compito: l'agente analizza quali informazioni gli servono per raggiungere l'obiettivo
  2. Valutazione delle opzioni: prende in considerazione gli strumenti disponibili e determina quale sia il più appropriato.
  3. Pianificazione dell'approccio: l'agente decide i parametri e la strategia di esecuzione.
  4. Passaggio all'azione: Infine, il sistema richiama lo strumento con i parametri determinati. Questo intervallo di 5 secondi rappresenta letteralmente il "pensiero" di CrewAI prima dell'azione, una scelta progettuale che privilegia la qualità delle decisioni e il ragionamento autonomo rispetto alla pura velocità. All'agente non viene detto "usa questo strumento specifico"; determina autonomamente la migliore linea d'azione.

CrewAI non offre la possibilità di disabilitare la deliberazione e passare alla chiamata diretta degli strumenti.

Al contrario, i framework LangGraph, LangChain e Autogen utilizzano approcci di esecuzione diretta degli strumenti, ottenendo intervalli di esecuzione inferiori al millisecondo.

LangChain e LangGraph supportano agenti in stile ReAct, che mostrano il ragionamento secondo lo schema "pensiero → azione → osservazione". Tuttavia, la componente "Pensiero" in ReAct è un prompt puramente testuale. Ad esempio, l'LLM potrebbe generare "Pensiero: dovrei...". Questo introduce una generazione di token aggiuntiva, ma non crea un ciclo di deliberazione separato come l'intervallo di 5 secondi di CrewAI. Questi passaggi di "pensiero" vengono generati all'interno della stessa chiamata LLM, come parte di un unico processo di generazione.

sovraccarico di orchestrazione agente-agente

Abbiamo misurato la latenza tra gli agenti calcolando il tempo medio intercorso tra il completamento di un'operazione da parte di un agente e l'inizio dell'operazione successiva, su un totale di 100 esecuzioni, ma le differenze sono risultate minime, dell'ordine dei millisecondi. Ciò dimostra che l'architettura del framework è fondamentale per i modelli di esecuzione degli strumenti e la gestione del contesto, non per il passaggio di consegne tra gli agenti. Le differenze di prestazioni tra i framework derivano dalla fase di elaborazione degli strumenti e dalla sintesi del contesto, non dal tempo impiegato per passare da un agente all'altro.

Che cos'è l'orchestrazione agentica?

L'orchestrazione agentica coordina agenti di intelligenza artificiale autonomi all'interno di un sistema unificato per completare compiti complessi e strutturati in più sistemi e domini.

La multi-orchestrazione consente a più agenti di collaborare come un team virtuale, in cui ciascun agente svolge un ruolo specifico: alcuni raccolgono dati, altri li analizzano e alcuni prendono decisioni. Il livello di orchestrazione garantisce che questi agenti comunichino, pianifichino le attività e lavorino insieme.

A differenza degli script di automazione statici, l'orchestrazione agentiva sfrutta l'intelligenza artificiale generativa e i modelli di IA per adattarsi al contesto, ridurre al minimo la necessità di intervento umano e consentire un'esecuzione senza interruzioni su sistemi diversi.

Orchestrazione agentica vs orchestrazione LLM

I termini vengono talvolta usati in modo intercambiabile perché entrambi implicano il coordinamento di sistemi di intelligenza artificiale, ma differiscono per l'obiettivo:

  • L'orchestrazione LLM è incentrata sul modello e ottimizza le interazioni e i flussi di lavoro tra più modelli linguistici.
  • L'orchestrazione agentica coordina agenti autonomi per risolvere compiti complessi in più fasi attraverso diversi sistemi, con un intervento umano minimo.

Principi fondamentali

  1. Autonomia: gli agenti possono agire in modo indipendente all'interno dei ruoli definiti, supportati dalla chiamata di funzioni a sistemi esterni.
  2. Collaborazione: più agenti di intelligenza artificiale comunicano tra loro per risolvere problemi complessi, distribuire compiti multipli e realizzare un'automazione completa.
  3. Allineamento: I sistemi mantengono obiettivi coerenti e garantiscono la conformità ai requisiti organizzativi e normativi nei settori altamente regolamentati.
  4. Osservabilità: i registri, gli strumenti di monitoraggio e le valutazioni consentono il monitoraggio continuo e l'ottimizzazione continua.
  5. Supervisione umana: gli approcci "human-in-the-loop" combinano l'automazione con l'intervento umano in contesti ad alto rischio o ambigui.

Schemi di orchestrazione

L'orchestrazione degli agenti può essere classificata in diversi modelli in base a come gli agenti vengono coordinati all'interno di un sistema. Questi modelli determinano il flusso dei compiti, la comunicazione tra gli agenti e l'architettura complessiva del sistema.

Figura 1: Approcci di orchestrazione centralizzata vs. decentralizzata 1

Orchestrazione centralizzata

In questo modello, un singolo gestore o agente di instradamento è responsabile dell'assegnazione dei compiti, del controllo del flusso di lavoro e del raggiungimento degli obiettivi. Il gestore funge da hub centrale, indirizzando i compiti ad agenti specializzati in base a regole predefinite o a un piano dinamico.

Tra i modelli specifici all'interno di questa categoria si annoverano:

  • Orchestrazione sequenziale: una pipeline lineare in cui un responsabile dirige le attività attraverso una sequenza fissa e graduale di agenti. Questa soluzione è ideale per processi con dipendenze ben definite, come le pipeline di elaborazione dati.
Figura 2: Esempio di orchestrazione sequenziale 2
  • Orchestrazione gerarchica: una struttura scalabile e a livelli in cui la relazione manager-subordinato viene utilizzata per gestire compiti complessi in più reparti o team.
Figura 3: Esempio di orchestrazione magnetica 3

Orchestrazione decentralizzata

Questo modello elimina il singolo punto di controllo, consentendo a più agenti di interagire direttamente e completare un compito complesso. Questo approccio migliora la resilienza e offre maggiore flessibilità per la risoluzione collaborativa dei problemi.

Tra i modelli specifici all'interno di questa categoria si annoverano:

  • Gestione delle chat di gruppo: gli agenti collaborano attraverso una conversazione condivisa, basandosi sui contributi reciproci per giungere a una decisione o risolvere un problema. Un gestore della chat può facilitare la discussione, ma gli agenti comunicano direttamente per raggiungere un consenso.
Figura 4: Esempio di orchestrazione di una chat di gruppo 4
  • Gestione del passaggio di consegne: gli agenti si delegano dinamicamente i compiti a vicenda senza bisogno di un responsabile centrale. Ciascun agente può valutare il compito e decidere se gestirlo autonomamente o trasferirlo a un altro agente con competenze più appropriate, in modo simile a un sistema di referral.
Figura 5: Esempio di orchestrazione del passaggio di consegne tra agenti 5

Orchestrazione federata

Questo modello è utile in ambienti altamente regolamentati o distribuiti. Consente la collaborazione tra diversi sistemi o compartimenti stagni organizzativi, mantenendo al contempo la governance e la sicurezza dei dati. Spesso combina elementi di approcci sia centralizzati che decentralizzati per gestire una rete più ampia di agenti e sistemi.

Figura 6: Approccio di orchestrazione federata 6

Strumenti e framework

Diversi framework per agenti di intelligenza artificiale forniscono l'infrastruttura per i flussi di lavoro agentici e l'orchestrazione multi-agente. Alcuni di essi includono:

Ecco un elenco completo di questi strumenti in ordine alfabetico:

  • LangGraph di LangChain: offre un design modulare e flussi di lavoro basati su grafi per flussi di lavoro complessi e attività strutturate.
  • MetaGPT di FoundationAgents: codifica la collaborazione basata sui ruoli (ad esempio, ingegnere del software, QA) per coordinare più agenti nello sviluppo del software.
  • AutoGen di Microsoft: si concentra sulla collaborazione conversazionale tra agenti digitali, spesso configurati come cicli pianificatore-esecutore-critico.
  • CrewAI : Organizza agenti specializzati in "squadre" con obiettivi specifici per ruolo, utili per i processi aziendali e le operazioni di routine.
  • SDK per agenti di OpenAI: Consente l'orchestrazione leggera e il passaggio di consegne tra agenti con chiamata di funzioni a strumenti esterni.
  • CAMEL-AI : Fornisce società modulari di agenti di intelligenza artificiale autonomi con coordinatori per simulazioni su larga scala e processi complessi.
  • Kit di sviluppo agente di Google: supporta l'orchestrazione multi-agente con funzionalità integrate di valutazione, debug e distribuzione.
  • Langroid : Implementa uno stile di modello ad attori per l'orchestrazione multi-agente, ponendo l'accento sulla modularità e la delega.
  • BeeAI : pone l'accento sull'interoperabilità attraverso il protocollo di contesto del modello e l'integrazione di agenti di terze parti per un'integrazione senza soluzione di continuità.
  • Servizio Agenti di Azure AI Foundation: consente il funzionamento degli agenti in fase di sviluppo, distribuzione e produzione, semplificando la complessità dell'infrastruttura.

Confronta questi framework e scopri le loro funzionalità principali:

Protocolli di comunicazione tra agenti

I framework di orchestrazione agenti open-source come LangGraph, CrewAI e AutoGen implementano ciascuno le proprie convenzioni per la comunicazione tra agenti. Ciò crea problemi di interoperabilità quando si combinano agenti provenienti da framework diversi all'interno dello stesso livello di orchestrazione. Due protocolli emergenti mirano a colmare questa lacuna.

Il Model Context Protocol (MCP) di Anthropic standardizza il modo in cui gli agenti si connettono a strumenti e fonti di dati esterni. Invece di far implementare a ciascun framework un proprio livello di integrazione con gli strumenti, MCP fornisce un'interfaccia comune che le piattaforme di orchestrazione possono sfruttare per una comunicazione coerente tra agenti e strumenti.

Il protocollo Agent-to-Agent (A2A) di Google consente agli agenti basati su framework diversi di scoprire le reciproche capacità e scambiarsi messaggi. A2A è progettato per integrare MCP: mentre MCP gestisce le interazioni tra agenti e strumenti, A2A si concentra sulla collaborazione tra agenti. Gli agenti pubblicizzano le proprie capacità tramite "Agent Cards", documenti di metadati JSON che descrivono identità, endpoint e modalità supportate.

Perché i protocolli sono importanti per l'orchestrazione:

  • Interoperabilità: A2A ha ottenuto il supporto di oltre 150 organizzazioni, tra cui LangChain, Salesforce e SAP, consentendo agli agenti di diversi fornitori di lavorare insieme.
  • Scoperta: gli agenti possono individuare e comprendere dinamicamente le reciproche capacità in fase di esecuzione tramite meccanismi standardizzati.
  • Progettazione complementare: un sistema orchestrato potrebbe utilizzare A2A per la comunicazione tra agenti, mentre ciascun agente utilizza internamente MCP per accedere ai propri strumenti.
  • Complessità ridotta: i protocolli standardizzati riducono la necessità di adattatori personalizzati quando si combinano agenti provenienti da ecosistemi diversi

I framework che adottano A2A o MCP possono integrarsi più facilmente con agenti e strumenti esterni, riducendo la dipendenza da un singolo fornitore e semplificando le implementazioni multi-framework.

Applicazioni di orchestrazione agentica

L'orchestrazione degli agenti è la capacità fondamentale che trasforma i singoli agenti in un sistema coeso e orientato agli obiettivi. Di seguito sono riportate alcune applicazioni reali in cui i sistemi multi-agente si coordinano per generare valore aziendale.

processi aziendali

L'orchestrazione basata su agenti consente l'automazione end-to-end tra più reparti e sistemi. Coordina agenti specializzati per gestire flussi di lavoro complessi e a più fasi senza passaggi manuali.

  • Risorse umane: Coordina un team di agenti per gestire l'intero ciclo di vita del dipendente, dall'inserimento e dalla definizione delle politiche aziendali alla gestione della forza lavoro e alla cessazione del rapporto di lavoro.
  • Onboarding del cliente:
  • Gestione delle interazioni con i clienti: i sistemi orchestrati migliorano la qualità del servizio gestendo le interazioni con i clienti su diversi canali, con un gruppo di agenti che si occupano delle richieste iniziali, forniscono informazioni da diversi database e inoltrano i problemi più complessi a un operatore umano per la verifica.

Esplora gli agenti di intelligenza artificiale per l'automazione dei flussi di lavoro

Catena di fornitura

L'orchestrazione degli agenti migliora la gestione della catena di approvvigionamento coordinando molteplici agenti specializzati per gestire e ottimizzare una rete complessa di pianificazione, approvvigionamento, logistica e gestione delle scorte.

  • Manutenzione predittiva: una piattaforma di orchestrazione coordina gli agenti per analizzare i dati delle apparecchiature in tempo reale, prevedere potenziali guasti e attivare automaticamente un addetto alla manutenzione per programmare una riparazione o ordinare nuovi pezzi di ricambio.
  • Gestione dell'inventario: gli agenti sono programmati per monitorare i livelli di scorte, riordinare automaticamente le forniture al raggiungimento di una determinata soglia e comunicare con gli addetti alla logistica per gestire in tempo reale eventuali interruzioni, come i ritardi nelle spedizioni.
  • Onboarding dei fornitori: un sistema coordinato di agenti digitali gestisce l'intero processo, dall'esecuzione dei controlli di conformità e dalla generazione dei contratti all'integrazione dei nuovi fornitori nei flussi di lavoro aziendali esistenti.

Sistemi aziendali

L'orchestrazione agentica fornisce la logica di base per i processi basati sull'intelligenza artificiale che richiedono una collaborazione senza soluzione di continuità tra diverse piattaforme aziendali, come ERP, CRM e RPA.

  • Dal processo di acquisto al pagamento: una serie di agenti coordinati gestisce l'intero ciclo di approvvigionamento, dall'ordine effettuato dall'addetto agli acquisti all'elaborazione della fattura da parte dell'addetto alla contabilità fornitori, riducendo i tempi di ciclo e aumentando la trasparenza.
  • Dall'ordine all'incasso: un sistema multi-agente velocizza l'intero processo, dalla ricezione dell'ordine al pagamento, coordinando gli agenti che si occupano dell'elaborazione degli ordini, dell'evasione e della gestione dei crediti, migliorando il flusso di cassa e la soddisfazione del cliente.
  • Risoluzione delle controversie: un flusso di lavoro orchestrato automatizza il monitoraggio dei reclami e degli storni, prevedendo che un agente raccolga le informazioni, un altro analizzi la controversia e un terzo comunichi la soluzione, semplificando e velocizzando il processo.

Scopri come gli agenti di intelligenza artificiale vengono utilizzati nei sistemi aziendali, ad esempio:

Servizi bancari e finanziari

In questo settore, l'orchestrazione viene utilizzata per flussi di lavoro complessi e sensibili al rischio, che richiedono la collaborazione di più agenti per garantire accuratezza e conformità.

  • Conformità normativa: un sistema coordinato di agenti garantisce la conformità convalidando le informazioni dei clienti rispetto alle liste di controllo, segnalando le discrepanze e mantenendo una traccia di controllo trasparente di ogni azione ai fini della revisione normativa.
  • Gestione di prestiti e mutui: un flusso di lavoro coordinato consente a un gruppo di agenti di gestire l'intero processo di approvazione del prestito, dalla raccolta e verifica dei documenti all'applicazione di modelli finanziari e all'autorizzazione finale per la revisione da parte di un analista umano.
  • Rilevamento e prevenzione delle frodi: questo è un classico esempio di coordinamento, in cui un agente monitora le transazioni, un altro identifica e segnala le attività sospette e un terzo blocca l'account e genera un rapporto sull'incidente per un team di sicurezza umano.

Scopri come gli agenti di intelligenza artificiale e i modelli lineari basati su agenti vengono utilizzati nel settore finanziario:

Energia e servizi di pubblica utilità

L'orchestrazione agentica consente la gestione di sistemi altamente distribuiti e complessi, come le reti elettriche e la gestione della forza lavoro, permettendo ad agenti specializzati di comunicare e agire in tempo reale.

  • Gestione della rete: un sistema multi-agente con agenti distinti per centrali di generazione, centri di distribuzione, contatori intelligenti individuali e soluzioni di rete intelligente lavora in sinergia per bilanciare domanda e offerta di energia, ottimizzare la distribuzione e prevenire interruzioni di corrente.
  • Dal contatore all'incasso: un processo orchestrato che va dal contatore all'incasso può automatizzare l'intero ciclo di fatturazione, coordinando gli operatori che si occupano della lettura automatica dei contatori, della generazione delle bollette e della riscossione dei pagamenti, migliorando così la precisione e l'efficienza.
  • Gestione della forza lavoro: un sistema di orchestrazione ottimizza la pianificazione e l'impiego dei tecnici sul campo, consentendo agli agenti di coordinarsi per monitorare la disponibilità dei tecnici, assegnare i compiti in base alla posizione e alle competenze e fornire aggiornamenti in tempo reale sull'avanzamento dei lavori.

Telecom

Nel settore delle telecomunicazioni, l'orchestrazione viene utilizzata per gestire e automatizzare reti complesse e su larga scala, nonché operazioni rivolte ai clienti.

  • Gestione della rete: un sistema coordinato di agenti monitora diverse parti della rete per rilevare automaticamente i guasti, diagnosticare il problema e attivare una serie di azioni per risolverlo, garantendo l'affidabilità della rete e riducendo al minimo i tempi di inattività.
  • Onboarding del cliente: l'orchestrazione velocizza il processo consentendo agli agenti di coordinarsi per gestire l'attivazione della SIM, la configurazione del dispositivo e l'abilitazione del servizio, offrendo un'esperienza cliente fluida dall'inizio alla fine.
  • Gestione della fatturazione e dei ricavi: un flusso di lavoro orchestrato automatizza complesse rettifiche di fatturazione, pagamenti e rimborsi, affidando ogni fase a operatori specializzati, il che aumenta la precisione e la soddisfazione del cliente.

Benefici

Il 79% dei dirigenti ha adottato agenti basati sull'intelligenza artificiale. Tuttavia, il 19% delle aziende riscontra difficoltà di coordinamento. 7 L'orchestrazione agentica aiuta a gestire gli agenti in diverse applicazioni. Ecco alcuni vantaggi dell'orchestrazione agentica:

  • Efficienza operativa : semplifica le operazioni di routine, riduce i costi e migliora la scalabilità.
  • Agilità operativa: consente di rispondere dinamicamente ai dati in tempo reale e alle interruzioni.
  • Collaborazione senza soluzione di continuità: garantisce la cooperazione tra agenti, esseri umani e sistemi multipli.
  • Vantaggi competitivi: supporta l'innovazione consentendo ai sistemi di intelligenza artificiale di operare a fianco del personale umano.
  • Maggiore soddisfazione: favorisce esperienze cliente di livello superiore e miglioramenti misurabili nella qualità del servizio.

Sfide

  • Governance : Richiede una solida governance dei dati per prevenire i rischi derivanti dall'interazione di più agenti con sistemi diversi.
  • Conformità : i sistemi devono garantire la conformità nei settori altamente regolamentati, in particolare in quelli finanziario e sanitario.
  • Supervisione umana : un'implementazione efficace richiede soglie chiare per l'intervento umano e le procedure di escalation.
  • La perfetta integrazione con i flussi di lavoro esistenti e i sistemi legacy rimane un ostacolo significativo. Questi sistemi più datati potrebbero essere basati su architetture obsolete non compatibili con le moderne tecnologie di intelligenza artificiale.

Metodologia di benchmarking

Architettura del flusso di lavoro


Il nostro flusso di lavoro sequenziale con agenti elabora le richieste di viaggio attraverso cinque fasi:

  1. Agente di analisi sintattica: estrae dati strutturati da input in linguaggio naturale ("Voglio viaggiare da Berlino a Roma il 25 ottobre 2025. Rimarrò per 3 giorni") per identificare origine, destinazione, date e durata.
  2. Agente di ricerca voli : richiama l'API di Amadeus per recuperare i voli disponibili utilizzando i codici IATA e le date di partenza estratti.
  3. Agente di rilevamento meteo: recupera le previsioni del tempo per la destinazione per tutta la durata del soggiorno utilizzando WeatherAPI.
  4. Agente di raccomandazione attività: abbina le attività alle condizioni meteorologiche (musei in caso di pioggia, tour all'aperto in caso di sole).
  5. Agente di pianificazione viaggi: sintetizza tutti i risultati precedenti in un itinerario completo giorno per giorno con
    voli, previsioni meteo e attività consigliate.

Variabili controllate

Per garantire un confronto equo, abbiamo mantenuto componenti identici in tutti i framework:
Configurazione LLM:

  • Modello: Claude Haiku 4.5 tramite OpenRouter
  • Temperatura: 0,1
  • Nessun limite massimo di token imposto ad alcun agente

Funzioni dello strumento:

  • Implementazioni Python identiche di get_flights() e get_weather() su tutti i framework
  • Chiamate API esterne ad Amadeus (voli) e WeatherAPI (meteo)

Parametri di prova

  • Dimensione del campione : 100 esecuzioni per framework
  • Modalità di esecuzione : esecuzione sequenziale degli agenti (nessuna elaborazione parallela)
  • Aggregazione delle metriche: valori medi su tutte le esecuzioni

metriche misurate

  1. Latenza della pipeline: tempo totale di esecuzione end-to-end, dall'input all'itinerario finale.
  2. Transizioni da agente ad agente : sovraccarico del framework tra passaggi sequenziali di agenti.
  3. Latenza per agente: tempo di esecuzione individuale per ciascuno dei cinque agenti
  4. Intervallo tra agente e strumento: tempo trascorso dall'inizializzazione dell'agente alla prima invocazione dello strumento.
  5. Utilizzo dei token: output dei token generati.

Implementazione del timing: tutti i timing sono stati acquisiti utilizzando time.time() di Python con precisione al millisecondo. Per ogni agente, abbiamo registrato l'ora di inizio prima dell'esecuzione e l'ora di fine dopo il completamento, calcolando la latenza come
differenza. Per l'esecuzione dello strumento, abbiamo misurato il tempo immediatamente prima di chiamare l'API e immediatamente dopo aver ricevuto la risposta. Le transizioni da agente ad agente hanno catturato il divario tra quando un agente completa e
Quando il framework avvia l'agente successivo, questo overhead puro del framework esclude il tempo di esecuzione di LLM e degli strumenti.

Conteggio dei token: per garantire la precisione, abbiamo utilizzato un approccio a doppia fonte.

  1. Tracciamento integrato nel framework (ove disponibile):
  • LangChain: cb.total_tokens dai callback
  • LangGraph: Utilizzo dei token dai checkpoint di stato
  • AutoGen: agent.get_total_usage() dai risultati della chat
  1. Stima del TikToken (fallback per Claude tramite OpenRouter)
    Poiché Claude non espone il conteggio dei token tramite OpenRouter in tutti i framework, abbiamo utilizzato tiktoken come approssimazione coerente tra le implementazioni.

Infrastruttura di osservabilità: tutte le metriche sono validate tramite strumenti di osservabilità .

  • Laminar: Raccolta di tracce in tempo reale, misurazioni della latenza e tracciamento dei token.
  • AgentOps: Tracciamento dell'esecuzione degli agenti, monitoraggio delle prestazioni.
    Queste piattaforme hanno fornito una convalida sul campo per la nostra strumentazione manuale, garantendo la misurazione
    accuratezza in diversi contesti.

Risultati aggregati come medie su 100 prove.

Ulteriori letture sull'orchestrazione agentica

Scopri di più sull'IA agenteica consultando:

Hazal Şimşek
Hazal Şimşek
Analista di settore
Hazal è un analista di settore presso AIMultiple, specializzato in process mining e automazione IT.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450