Contattaci
Nessun risultato trovato.

Agenti di IA: Operatore vs Utilizzo tramite browser vs Progetto Mariner

Cem Dilmegani
Cem Dilmegani
aggiornato il Gen 22, 2026
Guarda il nostro norme etiche

Gli agenti di intelligenza artificiale vengono sempre più spesso commercializzati come assistenti digitali completi, ma le loro prestazioni nel mondo reale possono variare notevolmente a seconda del compito, degli strumenti e dell'ambiente di esecuzione. Per comprendere cosa questi sistemi siano realmente in grado di offrire oggi, abbiamo condotto un'analisi comparativa pratica in scenari aziendali concreti.

Abbiamo trascorso più di 40 ore a testare i 5 migliori agenti IA per vedere se possono aiutarci in

Risultati del benchmark dei flussi di lavoro aziendali

ChatGPT Agent è l'agente di maggior successo in questo benchmark, avendo completato l'80% delle attività previste.

Loading Chart

Agente ChatGPT

ChatGPT Agent è progettato per connettere l'operatore OpenAI e la ricerca approfondita, consentendo all'agente di eseguire attività di lunga durata che richiedono capacità analitiche. L'operatore OpenAI è obsoleto con il rilascio di ChatGPT Agent.

Consente all'utente di assumere il controllo dell'accesso agli account o di eseguire attività che risultano complesse per l'operatore.

Mostra il browser in uso in tempo reale e spiega le azioni che sta eseguendo.

L'agente ha gestito correttamente la navigazione, la biforcazione e gli aggiornamenti dei grafici, ma non è riuscito ad aggiornare la configurazione dei pulsanti come richiesto, ovvero creando pulsanti per ciascuna categoria di dati mantenendo lo stile e la funzionalità esistenti.

Google Progetto Mariner

Google Il progetto Mariner non è ancora disponibile al pubblico, ma può essere testato previa autorizzazione dopo la lista d'attesa. Funziona direttamente nel browser come estensione di Chrome. Può essere utilizzato in un processo con intervento umano. Ad esempio, quando sullo schermo compare un CAPTCHA, Mariner chiede all'utente di intervenire e risolverlo.

Utilizzo del browser

Browser Use è un agente AI open-source che puoi utilizzare con le tue chiavi API.

È possibile monitorare le azioni dell'agente nella scheda del browser che si apre, e inoltre è possibile leggere alcuni output delle sue azioni sul terminale. 1

Ha effettuato l'accesso a observablehq.com e ha duplicato correttamente il template. Tuttavia, subito dopo, ha eliminato il template originale. Non è riuscito a dare un nome corretto al notebook duplicato. Gli abbiamo chiesto di mantenere la cella di stile così com'è, ma non ci è riuscito e ha scritto il codice dati in quella cella. Non è stato possibile modificare il codice del grafico e il codice del pulsante.

Abbiamo utilizzato Browser Use con la chiave API ChatGPT-4o.

L'utilizzo del browser è possibile anche in un'interfaccia utente web, ma in questo caso non è stato utilizzato. 2

Anthropic Uso del computer

Anthropic si concentra sulla sicurezza dell'IA e abbiamo osservato questi sforzi nel loro agente. Abbiamo provato in tutti i modi possibili, ma l'agente non ha effettuato l'accesso al nostro account observablehq. Ha rifiutato l'accesso per motivi di sicurezza.

Inoltre, non è possibile subentrare al processo dell'agente e lasciarlo proseguire poiché abbiamo utilizzato l'ambiente virtuale raccomandato da Anthropic.

Pertanto, l'agente ha ottenuto 0 punti dal nostro compito poiché non è stato in grado di procedere.

Prezzi degli agenti AI per il benchmark del flusso di lavoro aziendale

Anthropic L'utilizzo del computer richiede chiavi API, il che lo rende potenzialmente più costoso per attività di lunga durata rispetto ad altre opzioni.

ChatGPT Agent può essere utilizzato con un account ChatGPT.

Browser Use è uno strumento open-source il cui unico costo è rappresentato dalle chiamate API.

Metodologia per il benchmarking dei flussi di lavoro aziendali

Il nostro obiettivo era verificare se gli agenti potessero essere d'aiuto nel nostro flusso di lavoro aziendale. Volevamo testare un esempio concreto tratto dalla nostra azienda, quindi abbiamo deciso di verificare se fossero in grado di preparare i grafici interattivi che avevamo creato su observablehq.com.

Con questo compito, ci siamo proposti di valutare il loro utilizzo degli strumenti e le loro capacità di programmazione.

Sebbene disponiamo di alcuni modelli di grafico, la modifica dei dati richiede la modifica dei frammenti di codice sia per i grafici che per i pulsanti.

Abbiamo fornito loro il seguente suggerimento:

# Istruzioni per l'aggiornamento del modello osservabile

Ho un modello di grafico su observablehq.com e, utilizzandolo, vorrei che creaste nuovi grafici con i nuovi dati che vi fornirò. Ecco le istruzioni:

1. Accesso e configurazione

– Visita observablehq.com

– Individua il modello denominato "vis_template" e crea una copia (fork), rinominando la copia "new_graph1", nella sezione notebook.

2. Struttura del modello

– Cella stile: non modificare (contiene le impostazioni del carattere)

– Cella pulsanti: deve essere aggiornata in base ai nuovi dati

– Cella del grafico: deve essere aggiornata in base ai nuovi dati

3. Gestione dei dati

– Riceverai dati con le piattaforme e i relativi punteggi per diverse categorie

– Sia i nomi delle piattaforme che i nomi delle categorie nei dati possono essere diversi dal modello

– La struttura dei dati sarà sempre la seguente: piattaforme con punteggi (0-1) per ciascuna categoria

4. Aggiornamenti richiesti

– Pulsanti:

* Crea un pulsante per ogni categoria nei nuovi dati

* Mantieni "Generale" come primo pulsante

* Mantenere lo stile dei pulsanti esistenti e il design responsivo

– Grafico:

* Aggiorna i nomi delle piattaforme sull'asse y

* Aggiorna tutti i valori dei punteggi e i calcoli

* Mantieni la combinazione di colori e le animazioni esistenti

* Mantenere la reattività su dispositivi mobili (punto di interruzione < 500px)

5. Requisiti di collaudo

– Verificare che tutti i pulsanti funzionino correttamente

– Verifica gli aggiornamenti del grafico quando vengono selezionate le categorie

– Testa il layout responsivo su dispositivi mobili e desktop.

– Assicurarsi che il posizionamento del logo rimanga corretto anche con i nuovi dati

Ricorda: la struttura e lo stile del template devono rimanere invariati; aggiorna solo i dati e gli elementi necessari relativi alla categoria.

Ecco i nuovi dati da utilizzare: dati = [

{ piattaforma: “AcmeOCR”, Documenti scansionati: 0,95, Testo digitale: 0,99 },

{ piattaforma: “TextPro”, Documenti scansionati: 0,92, Testo digitale: 0,97 },

{ piattaforma: “DocReader”, Documenti scansionati: 0,88, Testo digitale: 0,96 },

{ piattaforma: “SmartScan”, documenti scansionati: 0,85, testo digitale: 0,94 }

]

Per mantenere l'obiettività, non abbiamo fornito ulteriori domande. Abbiamo risposto solo con " " quando ci è stato chiesto se volevamo continuare e abbiamo inserito le nostre credenziali per accedere a observablehq.com.

Criteri di valutazione :

  1. Accedi o fai in modo che l'utente effettui l'accesso al nostro account observablehq.com. (10 punti)
  2. Trovare il modello (10 punti)
  3. Forchetta (10 punti)
  4. Cambia il suo nome (10 punti)
  5. Non toccare la cella di styling. (5 punti)
  6. Aggiornamento dei dati nel codice (15 punti)
  7. Aggiornamento del codice del grafico (20 punti)
  8. Aggiornamento del codice del pulsante (20 punti)

Si raccomanda la massima cautela nell'utilizzo di agenti basati sull'intelligenza artificiale sui propri account. Ciò potrebbe causare problemi di sicurezza o attività indesiderate.

Risultati del benchmark di ricerca web

Per analizzare i casi d'uso aziendali degli agenti AI, abbiamo utilizzato 2 diverse attività di web scraping. Tutti gli agenti hanno fallito la maggior parte delle attività. Anthropic L'utilizzo del computer e Dendrite hanno ottenuto risultati leggermente migliori rispetto a Phidata.

Per saperne di più sul web scraping, puoi leggere "Roadmap to Web Scraping: Use Cases, Methods & Tools" e "RPA Web Scraping ".

Compito 1:

Richiesta: Fornisci tutti i provider di GPU cloud che offrono H100. Abbiamo bisogno di ogni offerta H100 per ciascun provider. Pertanto, un provider di GPU potrebbe essere presente in più righe se offre più GPU H100 (ad esempio, un'offerta con una singola H100 e un'altra con due H100). Per ogni riga, abbiamo bisogno dei seguenti dati: URL in cui è condivisa l'offerta, numero di GPU come numero intero, prezzo orario come numero decimale in $. Output in formato JSON.

Abbiamo valutato le loro capacità per

  • Trova tutte le fonti corrette (Figura 1)

  • Fornire informazioni corrette (Figura 2).

Figura 1: Percentuale delle fonti fornite correttamente dai prodotti.
Figura 2: Percentuale di accuratezza delle informazioni fornite dai prodotti.

Compito 2:

Richiesta: Trova aziende private del settore tecnologico B2B che hanno raccolto finanziamenti nell'ottobre 2024. Formatta ogni risultato come: [Company name] ha raccolto [amount] nel [settore/industria].

In questo compito, Anthropic L'uso del computer (Figura 3) e Phidata (Figura 4) non sono riusciti a fornire risposte.

Figura 3: La risposta dell'uso del computer al nostro compito.
Figura 4: La risposta di Phidata al nostro quesito: ha fornito risorse pertinenti, ma non le risposte.

La ricerca di ChatGPT ha restituito 7 aziende, di cui 6 sono corrette. Tuttavia, una di queste aziende risulta aver effettuato una raccolta fondi nell'agosto 2024, il che non soddisfa il nostro requisito di aziende che abbiano effettuato una raccolta fondi nell'ottobre 2024. Pertanto, questa informazione è errata.

Dendrite ha indicato correttamente 2 aziende, sebbene ce ne siano molte di più. Questo perché si è basata su risultati di ricerca incompleti.

Perplexity ha fornito 6 aziende e, sebbene i loro nomi, gli importi raccolti e i settori siano corretti, nessuna di esse ha completato la raccolta fondi nell'ottobre 2024. Pertanto, queste informazioni non soddisfano i nostri requisiti.

Quindi i leader di questo compito sono ChatGPT search e Dendrite.

Anthropic Uso del computer

L'utilizzo del computer comporta numerose chiamate API per una singola attività. L'esecuzione di un agente con utilizzo del computer è lenta.

Inizialmente abbiamo riscontrato problemi a causa dei limiti di frequenza di Anthropic. Nel Livello 1, Anthropic consente agli utenti di effettuare 50 richieste API al minuto. Questo non era sufficiente per completare le nostre attività, quindi abbiamo dovuto eseguire il prompt più volte.

Successivamente, abbiamo richiesto un limite API più elevato e lo abbiamo ottenuto nel giro di poche ore, il che ha facilitato il benchmarking.

Perplexity

Lo strumento di ricerca di Perplexity è accessibile direttamente sul suo sito web. Come la ricerca di ChatGPT, non si tratta di un'IA agentiva, ma abbiamo scelto di includerlo nei nostri test poiché il nostro compito di benchmark prevede lo scraping web.

La funzione di ricerca di ChatGPT è disponibile per gli utenti Pro e Team direttamente all'interno dell'interfaccia di ChatGPT. Sebbene non si tratti di un'IA agente, l'abbiamo inclusa nei nostri test perché l'obiettivo di questo benchmark è il web scraping.

Dendrite

Dendrite fornisce sul proprio sito web esempi di agenti, come ad esempio agenti di estrazione dati, che facilitano la creazione di nuovi agenti.

Gli agenti di Dendrite risultano più lenti rispetto alla maggior parte degli altri agenti in questo benchmark.

A differenza di altri agenti, richiede agli utenti di inserire la query di ricerca.

Phidata

Phidata fornisce esempi, come ad esempio agenti di ricerca web, sul proprio sito web per semplificare la creazione di nuovi agenti. Abbiamo sviluppato un agente in pochi minuti.

I risultati allucinatori ottenuti dagli agenti di Phidata nel nostro benchmark contenevano link a pagine e informazioni sui prezzi inesistenti.

Prezzi degli agenti di intelligenza artificiale per la ricerca web di riferimento

Il prezzo dell'utilizzo del computer Anthropic si basa sulle richieste API. Ad esempio, abbiamo speso circa 2,5 dollari per eseguire queste 2 attività, ripetendo ciascuna attività un paio di volte. 0,5 dollari per l'esecuzione di un'attività è un costo elevato. Se si desidera utilizzare l'automazione dei processi agentici , è possibile trovare opzioni più economiche.

La funzionalità di ricerca di ChatGPT è disponibile per gli utenti abbonati ai piani Plus e Team, al prezzo rispettivamente di 20 dollari al mese e 25 dollari per utente al mese (fatturati annualmente).

Dendrite offre un piano gratuito con funzionalità limitate e un piano per sviluppatori al prezzo di 30 dollari. I dettagli specifici relativi alle limitazioni del piano gratuito verranno aggiornati non appena saranno pubblicati ufficialmente.

Phidata offre piani gratuiti, professionali e aziendali. Al momento non sono disponibili piani diversi da quello gratuito. Inoltre, l'azienda afferma che fornirà un piano professionale gratuito per studenti, insegnanti e startup.

La nostra metodologia per il benchmarking della ricerca web

Versioni : La versione più recente è disponibile dal 1° novembre 2024.

Ambiente di distribuzione:

  • Dendrite e Phidata sono stati eseguiti sul nostro portatile.

  • Anthropic L'utilizzo del computer è stato implementato su una macchina virtuale cloud poiché si sconsigliava l'implementazione sui dispositivi degli utenti.

  • La funzione di ricerca ChatGPT e Perplexity sono disponibili direttamente sui rispettivi siti web.

Processo:

  • Per valutare le capacità di ricerca web dei fornitori, abbiamo innanzitutto compilato un elenco di riferimento dei provider H100 del cloud . Successivamente, lo abbiamo confrontato con i risultati degli agenti di intelligenza artificiale.

  • Per valutare l'accuratezza delle informazioni, abbiamo controllato tutti i link forniti per verificare se le informazioni in questione fossero corrette o meno.

  • Non abbiamo tentato di utilizzare tecniche di ingegneria rapida per ottenere risultati più accurati.

Punteggio:

Poiché il numero di output forniti varia, abbiamo cercato di mantenere il sistema di punteggio il più semplice possibile. Per il compito 1, se un prodotto restituisce un URL che non proviene da una fonte affidabile, riceve un punteggio di 0.

Inoltre, il numero di output varia da 6 a 28, quindi è importante notare che un prodotto con 3 risposte corrette su 6 output e un altro con 14 risposte corrette su 24 output ricevono lo stesso punteggio nella Figura 2.

Non abbiamo assegnato un punteggio ai prodotti per il Task 2, poiché i risultati di ricerca variano significativamente in base al browser utilizzato e alla posizione dell'utente, e i prodotti estraggono i dati di conseguenza da queste fonti. Tuttavia, poiché ChatGPT e Dendrite hanno fornito risultati accurati, sono considerati i migliori per questo compito.

Disclaimer

Poiché gli agenti utilizzano browser e si trovano in posizioni diverse, questi modelli possono incontrare fonti differenti durante lo scraping web. Per correttezza nei confronti di tutti gli agenti, tutte le potenziali fonti sono state incluse nei nostri dati di riferimento.

Poiché questi prodotti sono in versione 1 o beta, presentano diverse limitazioni. Continueremo a effettuare test comparativi e ad aggiornare i risultati man mano che si evolvono.

Poiché questi modelli sono di recente sviluppo, potrebbero presentare vulnerabilità di sicurezza, pertanto si consiglia di utilizzarli in una macchina virtuale o in un container. Anche il documento Anthropic menziona la necessità di adottare questa precauzione durante l'utilizzo del computer. 3

Figura 5: Avviso di Anthropic sull'utilizzo del computer.

FAQ

Gli agenti basati sull'intelligenza artificiale possono automatizzare flussi di lavoro complessi, riducendo la necessità di intervento umano e aumentando l'efficienza. Sono in grado di gestire eccezioni e casi limite, risultando più affidabili rispetto alle soluzioni di automazione tradizionali.
Gli agenti di intelligenza artificiale possono svolgere compiti che risulterebbero difficili o noiosi per gli esseri umani. Possono inoltre essere utilizzati per l'elaborazione del linguaggio naturale, l'elaborazione e l'analisi dei dati.

Scegliete un fornitore tenendo conto delle vostre esigenze, capacità e budget.
Possono essere integrati con sistemi esterni tramite chiamate API e possono accedere a un'ampia gamma di fonti di dati.
Quando progetti il compito per il tuo agente di intelligenza artificiale, dovresti essere in grado di fornire un'istruzione orientata all'obiettivo e che non crei confusione al modello.

Gli agenti di intelligenza artificiale devono essere progettati tenendo conto della privacy e della sicurezza dei dati, utilizzando tecniche come la crittografia e i controlli di accesso. Allo stato attuale dello sviluppo, si consiglia di non condividere dati sensibili con gli agenti di intelligenza artificiale.

Gli agenti basati sull'intelligenza artificiale possono aumentare l'efficienza e la produttività, automatizzando le attività ripetitive e consentendo agli operatori umani di concentrarsi su compiti più complessi.
Possono analizzare i dati aziendali e automatizzare i processi aziendali. Per saperne di più, consulta la sezione sull'automazione dei processi tramite agenti. Creando agenti autonomi, è possibile automatizzare i processi e far svolgere un maggior numero di attività.

Se nella tua azienda utilizzi un agente, usa metriche come efficienza, produttività e soddisfazione del cliente per misurare il successo degli agenti basati sull'intelligenza artificiale.
Monitorare le prestazioni degli agenti di intelligenza artificiale nel tempo, apportando le modifiche necessarie.
Utilizzare dati e analisi per ottenere informazioni approfondite sui processi decisionali e sull'affidabilità degli agenti di intelligenza artificiale.

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo
Ricercato da
Şevval Alper
Şevval Alper
Ricercatore di intelligenza artificiale
Şevval è un analista di settore di AIMultiple specializzato in strumenti di programmazione per l'IA, agenti di IA e tecnologie quantistiche.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450