Contattaci
Nessun risultato trovato.

Ricerca approfondita sull'IA: Claude contro ChatGPT contro Grok

Cem Dilmegani
Cem Dilmegani
aggiornato il Apr 8, 2026
Guarda il nostro norme etiche

La ricerca approfondita basata sull'IA è una funzionalità presente in alcune piattaforme di apprendimento online che offre agli utenti una gamma più ampia di risultati di ricerca rispetto ai motori di ricerca basati sull'IA . Per valutare le prestazioni dei diversi strumenti di ricerca approfondita basati sull'IA, introduciamo tre nuovi benchmark:

DR-50 (Deep Research 50) Bench , che valuta gli strumenti attraverso 50 domande suddivise in sei tipologie, DR-2T (Deep Research 2 Task) Bench , che valuta gli strumenti attraverso due attività di ricerca reali incentrate sulla qualità della generazione di report, sulla copertura delle fonti e sulla presentazione strutturata dei dati, e Agent vs Deep Research Models , che valuta se gli agenti siano più adatti a scopi di ricerca.

Risultati dei test al banco del DR-50

Confronto tra accuratezza e latenza

Loading Chart

Abbiamo testato strumenti di ricerca approfondita basati sull'IA su 50 domande, suddivise in 6 tipologie distinte. Consulta la nostra metodologia di benchmark.

Perplexity Sonar Deep Research mostra la massima precisione al 34% con latenza moderata. Parallel Ultra e o4 mini deep research dimostrano livelli di precisione simili intorno al 22-24%, sebbene Parallel Ultra richieda molto più tempo. o3-deep-research mostra la precisione più bassa con latenza estesa.

Costo e latenza per la singola operazione completata con successo

Abbiamo misurato costi e latenza su una singola domanda in cui tutti gli strumenti hanno avuto successo. o4 mini deep research e Perplexity Ultra occupano la regione efficiente con costi bassi e tempi di completamento più rapidi. o3 deep research opera a costi più elevati con latenza maggiore. Parallel mostra la latenza più elevata nonostante costi moderati.

Citazioni

La quantità di citazioni varia indipendentemente dal costo e dalla latenza. o4 mini deep research fornisce un numero significativamente maggiore di citazioni pur mantenendo l'efficienza, suggerendo approcci diversi per reperire e citare le informazioni. Il numero minimo di citazioni in o3 deep research, nonostante il costo elevato, indica che il numero di citazioni non è legato al consumo di risorse.

Risultati del test al banco DR-2T

Abbiamo inoltre condotto un secondo benchmark sui 7 migliori strumenti di ricerca approfondita basati sull'IA, utilizzando due compiti e valutandoli in base a cinque dimensioni.

Le abbiamo valutate in base all'accuratezza e al numero di fonti. Consulta la metodologia per scoprire come abbiamo valutato queste soluzioni.

Gemini è leader nell'accuratezza dei dati forniti:

Claude è in testa alla classifica in base al numero di fonti indicizzate:

Compito 1:

Abbiamo chiesto loro di creare delle tabelle sui software di gestione delle password aziendali, seguendo le nostre istruzioni. Vedi le istruzioni complete.

Quasi tutti gli strumenti fornivano tabelle dettagliate contenenti le informazioni richieste, sebbene i loro approcci alla presentazione dei dati variassero notevolmente.

Per la generazione di report completi:

  • Gemini e Claude si sono affermati come le soluzioni leader, fornendo report analitici esaustivi con approfondimenti sintetizzati e analisi contestuali.
  • Al contrario, Bright Data Deep Lookup* si concentrava principalmente sull'estrazione dei dati, fornendo tabelle strutturate con un contenuto narrativo limitato.

I ricercatori dovrebbero scegliere gli strumenti in base alle proprie specifiche esigenze di ricerca. Chi necessita di analisi complete e soluzioni orientate alla redazione di report troverà Gemini e Claude i più adatti, poiché questi strumenti sono maggiormente focalizzati sulla sintesi delle informazioni in report dettagliati.

Al contrario, i ricercatori che danno priorità alla raccolta di dati grezzi e che necessitano di ricerche web su larga scala trarranno maggior vantaggio da Bright Data , che fornisce un'ampia copertura di dati web con livelli di confidenza e spiegazioni dettagliate sulla rilevanza e l'affidabilità delle fonti.

Questo approccio incentrato sui dati rende Bright Data prezioso per le revisioni sistematiche che richiedono la verifica di un elevato volume di fonti.

Kimi utilizza una metodologia particolare per la generazione di report, producendo un report interattivo che include riepiloghi per i dirigenti, sezioni mirate "ideali per" e raccomandazioni strategiche.

Il report include visualizzazioni integrate dei dati e attribuzione delle fonti, risultando in un prodotto completo e pronto per l'implementazione immediata senza ulteriori modifiche.

Nota: Perplexity ha fornito un report dettagliato ma non è riuscito a creare una tabella con le informazioni raccolte. Poiché la nostra richiesta specificava la creazione di una tabella, ha ricevuto zero punti per tale compito.

Aggiorneremo Bright Data Deep Lookup quando il prodotto uscirà dalla fase beta.

Compito 2:

L'obiettivo di questo compito è valutare la loro velocità e copertura nella ricerca. Abbiamo richiesto un report dettagliato sull'adozione della RPA per determinare il numero di pagine indicizzate e il tempo necessario per generare un report.

Naturalmente, il numero di fonti non è necessariamente correlato alla qualità della ricerca. Tuttavia, poiché questi strumenti sono progettati per velocizzare la ricerca, lo abbiamo considerato un parametro importante.

Va inoltre notato che i tempi di ricerca variano significativamente tra questi strumenti. Grok Deep Search è circa 10 volte più veloce di ChatGPT Deep Research e analizza circa 3 volte più pagine web.

Claude Deep Search è anche molto reattivo, avendo analizzato 261 fonti in poco più di 6 minuti. Gemini , invece, potrebbe non essere la scelta ideale per chi cerca una soluzione rapida e reattiva, dato che ha analizzato 62 fonti in oltre 15 minuti.

Confronto tra modelli di ricerca basati su agenti e modelli di ricerca approfondita

Agenti di intelligenza artificiale come Claude Code e Codex possono effettuare ricerche sul web, recuperare pagine specifiche ed estrarre dati tramite chiamate mirate a determinati strumenti. Abbiamo verificato se questo approccio agentivo eguaglia le prestazioni di modelli di deep learning appositamente creati per la ricerca di dati fattuali. Sei strumenti sono stati valutati su 5 attività con 33 punti di controllo di riferimento, che spaziavano da eventi aziendali a fusioni e acquisizioni, documentazione software e ricerca sull'IA. Consulta la nostra metodologia .

Parallel Ultra e Claude Code si sono piazzati al primo posto a pari merito con una precisione del 97%. Codex ha seguito con il 93,9%. Perplexity Sonar ha ottenuto un punteggio dell'87,9%. I modelli di ricerca approfondita OpenAI (o3 e o4-mini) hanno ottenuto punteggi tra il 75,8% e l'81,8%, nonostante eseguissero da 27 a 125 ricerche web per attività e costassero da 2 a 6 volte di più di Sonar.

I migliori strumenti seguono uno schema preciso: consultano fonti primarie e le leggono attentamente. Codex ha utilizzato il documento SEC 8-K per l'Attività 2 e la dichiarazione di delega SEC per l'Attività 3. Claude Code ha recuperato direttamente le pagine della documentazione di Unity per l'Attività 1. Parallel ha trovato la cifra specifica del pagamento a Zaslav ($886,8 milioni) che altri tre strumenti non avevano rilevato. o3 e o4-mini hanno effettuato ricerche generiche, ma hanno estratto informazioni meno precise dalle pagine trovate.

Claude Code e Codex occupano l'angolo in alto a destra: alta precisione a basso costo (rispettivamente 1,54 e 1,30 dollari). Parallel raggiunge la stessa precisione per 2,10 dollari. o3 costa 10,92 dollari per una precisione del 75,8%. Nella scheda della latenza, Claude Code è il più veloce con una media di 1,7 minuti per attività. Parallel è il più lento con 16,7 minuti ma eguaglia la precisione migliore. Sonar si posiziona in una solida posizione intermedia con 2,3 minuti e l'87,9%.

Sonar produce in media 5.253 parole per attività. Gli agenti ne producono da 398 a 483. Sonar ha scritto 4.509 parole sulla struttura Unity EntityId, ma è riuscito a nominare solo uno dei suoi cinque metodi pubblici. Codex ha scritto 248 parole e ha nominato tutti e cinque. Parallel ha scritto 1.037 parole e le ha nominate correttamente. Un maggior numero di parole e di citazioni non prediceva una maggiore accuratezza.

Analisi approfondita: migrazione da Unity 2022.3 a Unity 6 (Attività 5)

Il compito 5 è il più complesso del benchmark. Richiede a ciascuno strumento di creare una guida di transizione da Unity 2022.3 LTS a Unity 6.3 LTS. Il prompt specificava i numeri di versione esatti: 2022.3.62f3, 2022.3.74f1 e 6000.3.12f1. Una risposta corretta richiede la lettura della pagina dei requisiti di sistema di Unity 6.3, della pagina del ciclo di vita del supporto e di quattro guide di aggiornamento separate (6.0, 6.1, 6.2, 6.3).

Tre dei sei strumenti hanno restituito requisiti di sistema per Unity 6.0 anziché per Unity 6.3.

o3, o4-mini e Claude Code hanno tutti fatto riferimento alla pagina della documentazione di Unity 6.0 anziché a quella di Unity 6.3, nonostante il prompt specificasse "Unity 6.3" e il numero di build "6000.3.12f1".

Un team che seguisse la guida di o3 punterebbe all'API Android 23 (Android 6.0). Unity 6.3 richiede l'API 25 (Android 7.1). La build fallirebbe o verrebbe distribuita con un target di piattaforma non supportata. La guida in sé sembra professionale: tabelle chiare, struttura sensata, tono appropriato. I numeri sono sbagliati.

Sia Codex che Parallel hanno azzeccato tutti i numeri. Codex ha navigato direttamente alla pagina dei requisiti di sistema di iOS 6.3 e l'ha confrontata riga per riga con la pagina di iOS 2022.3. Ha persino rilevato che il requisito minimo di iOS è passato da 12 a 13 nella versione 2022.3.72f1, prima di salire a 15 in iOS 6.3. Parallel ha prodotto una guida completa con i numeri corretti e 35 fonti citate.

Come ogni strumento ha affrontato il problema:

Claude Code ha generato 4 sotto-agenti paralleli, ognuno dei quali gestiva una parte diversa della domanda: date di supporto, percorso di aggiornamento, modifiche incompatibili e requisiti di sistema. Veloce (3 minuti e 59 secondi), ma il sotto-agente dei requisiti di sistema ha recuperato la pagina di documentazione sbagliata.

Codex ha eseguito 90 ricerche web consecutive in 6 minuti e 17 secondi. Ha recuperato singolarmente la guida all'aggiornamento alla versione 6.3, la pagina dei requisiti di sistema per la versione 6.3 e la pagina dei requisiti di sistema per la versione 2022.3. Un processo più lento ma metodico. Ogni numero era corretto.

o3 ha impiegato 8 minuti e effettuato 32 ricerche sul web. Ha prodotto 2.132 parole di consigli generali sulla migrazione, ma ha tratto le tempistiche di supporto e i requisiti di sistema dalla documentazione della versione 6.0. Non ha menzionato alcuna modifica incompatibile specifica della versione 6.3 (rimozione della modalità di compatibilità URP, deprecazione del netcode 1.x, deprecazione di Relay/Lobby).

Nessuno strumento ha letto tutte e quattro le guide di aggiornamento (6.0, 6.1, 6.2, 6.3) in sequenza. La documentazione di Unity afferma che gli sviluppatori dovrebbero seguirle in ordine perché ognuna contiene modifiche incompatibili con le versioni precedenti. Ogni strumento ha individuato la pagina più rilevante ed estratto le informazioni da lì. Questa è una limitazione strutturale per qualsiasi attività di ricerca che richieda di esaminare una serie di documenti correlati anziché trovare un'unica risposta.

Sviluppi negli strumenti di ricerca approfondita sull'IA

Kimi K2.5

Kimi K2.5 è in grado di elaborare testo, immagini e video, generare codice pronto per la produzione ed eseguire flussi di lavoro complessi utilizzando un'architettura a sciame di agenti.

Agent Swarm è il meccanismo di Kimi K2.5 per la gestione di attività complesse, che trasforma un singolo modello in un team coordinato di agenti IA. Invece di eseguire un'attività in sequenza, Kimi crea più sub-agenti specializzati, a ciascuno dei quali viene assegnato un ruolo specifico, come ricerca, analisi, codifica, verifica o strutturazione dei contenuti. Questi agenti operano in parallelo, utilizzano strumenti in modo indipendente e condividono i risultati intermedi, riducendo significativamente i tempi di esecuzione per i flussi di lavoro a lungo termine.

L'algoritmo di ottimizzazione collettiva scompone un obiettivo di alto livello in sotto-compiti, li assegna ad agenti, monitora i progressi e integra i risultati in un risultato finale coerente. Questo approccio è particolarmente utile per la ricerca approfondita, la creazione di documenti su larga scala, l'elaborazione in batch e la risoluzione di problemi complessi, in cui diverse fasi del lavoro possono procedere simultaneamente.

Ricerca approfondita su Kimi K2.5

Kimi K2.5 Deep Research supporta la ricerca end-to-end e la generazione di report per quesiti complessi. Raccoglie informazioni da diverse fonti, analizza gli argomenti da molteplici prospettive e sintetizza i risultati in report visivi.

La ricerca approfondita è concepita principalmente per l'analisi degli investimenti, la ricerca di settore, il lavoro accademico e la pianificazione strategica, ambiti in cui è richiesta un'analisi orientata al processo decisionale.

Figura 1: Un esempio di ricerca di Kimi K2.5 Deep Research sulle metriche ESG e i rendimenti degli investimenti. 1

Claude per le scienze della vita

Claude for Life Sciences è progettato per supportare il lavoro scientifico lungo tutto il ciclo di vita dello sviluppo di farmaci e dispositivi per organizzazioni biotecnologiche, farmaceutiche e di ricerca. I recenti aggiornamenti ne estendono l'ambito oltre la ricerca preclinica, includendo le operazioni di sperimentazione clinica e i flussi di lavoro normativi, aggiungendo nuovi connettori dati e funzionalità specifiche per i casi d'uso reali nel settore delle scienze della vita.

Caratteristiche e funzionalità principali:

  • Connettori scientifici ampliati: accesso a piattaforme come Medidata, ClinicalTrials.gov, bioRxiv/medRxiv, Open Targets, ChEMBL, ToolUniverse e Owkin, oltre alle integrazioni esistenti con Benchling, PubMed, 10x Genomics, BioRender, Synapse.org e Wiley.
  • Informazioni sugli studi clinici: utilizzo sicuro dei dati storici relativi all'arruolamento dei pazienti e alle prestazioni dei centri di sperimentazione a supporto dell'analisi di fattibilità, della pianificazione del reclutamento dei pazienti e del monitoraggio degli studi.
  • Supporto alla fase di scoperta precoce: strumenti per agevolare l'identificazione dei target, l'analisi dei composti e la verifica delle ipotesi, utilizzando database scientifici selezionati e strumenti computazionali.
  • Flussi di lavoro bioinformatici: competenze degli agenti e pacchetti di strumenti a supporto delle pipeline di elaborazione e analisi dei dati, inclusi gli strumenti scVI e le implementazioni di Nextflow.
  • Redazione e pianificazione del protocollo: una competenza nella redazione del protocollo di uno studio clinico che integra i percorsi normativi, il contesto competitivo, le raccomandazioni sugli endpoint e le linee guida pertinenti della FDA.
  • Preparazione normativa: Assistenza nell'individuazione di lacune nei documenti normativi, nella stesura di risposte alle domande delle agenzie e nella consultazione delle linee guida applicabili. 2

Integrazione di Gemini Deep Research con Gmail, Documenti, Drive e Chat.

Gemini Deep Research ha introdotto un importante aggiornamento, ampliando la sua capacità di accedere ai dati provenienti dall'intero ecosistema di Google. Lo strumento ora può connettersi a Gmail, Google Drive (inclusi Documenti, Presentazioni, Fogli e PDF) e Google Chat, consentendo agli utenti di includere fonti private e condivise direttamente nel loro processo di ricerca.

Con questo aggiornamento, gli utenti possono:

  • Crea report completi combinando dati provenienti da email, documenti e chat con informazioni reperite sul web.
  • Effettuare un'analisi comparativa che integri piani di progetto, fogli di calcolo comparativi e discussioni di gruppo.
  • Avviare un piano di ricerca in più fasi per un nuovo prodotto, analizzando i materiali iniziali del brainstorming e i relativi flussi di comunicazione.

Questa funzionalità consente a Gemini Deep Research di supportare sia le revisioni della letteratura accademica che le ricerche di mercato. Combinando diverse fonti di dati, gli utenti possono generare analisi più dettagliate e scoprire informazioni chiave in modo più efficiente. 3

Gemini in Chrome: navigazione automatica

Google sta aggiornando Gemini in Chrome su macOS, Windows e Chromebook Plus con Gemini 3, aggiungendo un pannello laterale, un supporto più integrato per le app Google e funzionalità agentiche come la navigazione automatica:

  • Navigazione e azioni automatizzate in più fasi: la nuova funzionalità Navigazione automatica di Chrome utilizza Gemini 3 per agire come un agente web in grado di svolgere autonomamente attività complesse e articolate in più fasi, come la ricerca di opzioni di viaggio, la compilazione di moduli, il confronto di prodotti e la navigazione tra siti web, interpretando le istruzioni e interagendo con le pagine per conto dell'utente.
  • Disponibilità: Auto Browse è attualmente in fase di implementazione in anteprima per gli abbonati a AI Pro e AI Ultra negli Stati Uniti e richiede Chrome su piattaforme come Windows, macOS o Chromebook Plus.
  • Copertura delle app connesse: la versione aggiornata di Gemini in Chrome supporta le integrazioni delle app connesse con servizi come Gmail, Calendar, YouTube, Maps, Shopping e Flights.
    • Per le azioni che implicano passaggi delicati o ad alto rischio, come il completamento di un acquisto o la pubblicazione su un social media, il sistema si ferma e richiede una conferma esplicita da parte dell'utente prima di procedere. 4

Microsoft introduce la ricerca approfondita nel servizio Azure AI Foundry Agent.

Microsoft ha lanciato l'anteprima pubblica di Deep Research all'interno di Azure AI Foundry Agent Service, offrendo la tecnologia di ricerca agentica di OpenAI attraverso la piattaforma aziendale di Azure. Il servizio consente l'automazione di attività di ricerca complesse, l'integrazione con i sistemi aziendali e la creazione di risultati di ricerca trasparenti e verificabili. 5

Le caratteristiche principali sono:

  • Ricerca automatizzata a più fasi: utilizza il modello o3-deep-research per pianificare, analizzare e sintetizzare i dati provenienti dal web e dai sistemi aziendali.
  • Affidamento alle fonti online con Bing Search: garantisce che le informazioni siano basate su fonti verificate e aggiornate.
  • Risultati trasparenti: ogni rapporto include le fonti citate, le fasi del ragionamento e i chiarimenti.
  • Integrazione con gli strumenti di Azure: funziona con Logic Apps, Azure Functions e altri connettori per la creazione di report e l'automazione dei flussi di lavoro.
  • Flessibilità di programmazione: disponibile tramite API e SDK, consente agli sviluppatori di integrare strumenti di ricerca approfondita basati sull'IA in app e flussi di lavoro.

Come funziona

  1. Chiarimento dell'intento della ricerca: il sistema utilizza GPT-4o e GPT-4.1 per definire la domanda di ricerca.
  2. Raccolta dati: Bing Search raccoglie dati web affidabili per la validazione.
  3. Analisi dei risultati: il modello di ricerca approfondita esegue ragionamenti e sintesi per produrre report completi con spunti chiave.
  4. Garantire la conformità: ogni risultato è tracciabile e verificabile per l'utilizzo aziendale.

Vantaggi degli strumenti di ricerca approfondita basati sull'intelligenza artificiale

Maggiore efficienza e produttività

  • Revisioni della letteratura: gli strumenti di ricerca basati sull'intelligenza artificiale fungono da assistenti alla ricerca, eseguendo una ricerca bibliografica approfondita su vasti database di articoli scientifici. Identificano gli articoli pertinenti e sono in grado di sintetizzare le informazioni per generare riassunti concisi, riducendo significativamente il tempo e lo sforzo necessari per una revisione manuale della letteratura.
  • Raccolta e analisi dei dati: un assistente di ricerca basato sull'intelligenza artificiale può automatizzare la raccolta dei dati analizzando grandi database e pagine web. Questi strumenti possiedono profonde capacità di ricerca che consentono loro di elaborare e analizzare enormi set di dati molto più velocemente rispetto ai metodi tradizionali. Possono identificare modelli e tendenze che potrebbero sfuggire a un'analisi manuale, aspetto fondamentale per attività di ricerca complesse come l'analisi di mercato o la creazione di un report di ricerca approfondito.
  • Automazione delle attività ripetitive: l'intelligenza artificiale può gestire attività ripetitive come l'inserimento dati e la formattazione delle citazioni bibliografiche. Automatizzando questi processi che richiedono molto tempo, i ricercatori possono concentrarsi su argomenti più complessi e sugli aspetti creativi del loro lavoro.

Approfondimenti e scoperte più accurate

  • Individuazione delle lacune nella ricerca: analizzando la letteratura accademica esistente, gli strumenti di intelligenza artificiale possono aiutare i ricercatori a individuare le lacune nelle conoscenze attuali. Questo è un passaggio fondamentale per formulare una nuova domanda di ricerca o sviluppare un piano di ricerca articolato in più fasi. Questi strumenti forniscono informazioni di facile lettura in un formato strutturato e ben organizzato.
  • Sintesi delle informazioni: gli assistenti di ricerca basati sull'IA possono sintetizzare informazioni provenienti da diverse fonti, generando un report completo ed evidenziando i risultati chiave. Ciò offre ai ricercatori una panoramica generale senza la necessità di leggere ogni singolo articolo per intero, con un conseguente risparmio di tempo e un'analisi comunque approfondita.
    • Ad esempio, lo strumento di ricerca approfondita di Claude ha generato un report dettagliato. Il report può essere pubblicato come artefatto, accessibile online e visibile sui motori di ricerca.
  • Esplorare le connessioni: gli strumenti che visualizzano le reti di citazioni possono aiutare i ricercatori a capire come diversi articoli scientifici siano interconnessi. Questo può portare a scoperte e a una comprensione più completa di un campo di ricerca.

Ad esempio, Grok ha indicizzato più di 100 pagine diverse nel nostro secondo compito. Normalmente, una persona impiega ore a leggere e raccogliere informazioni da tutte queste pagine, ma a Grok sono bastati circa 2 minuti.

Pertanto, questi strumenti possono accelerare il processo di ricerca. Tuttavia, gli utenti devono sempre ricordare che questi strumenti possono indurre allucinazioni e generare informazioni errate, quindi è necessario essere cauti quando si utilizzano informazioni tratte direttamente da un LLM .

Sfide e limiti degli strumenti di ricerca approfondita basati sull'IA

Accuratezza e affidabilità

La maggior parte delle persone nutre sospetti sull'accuratezza delle informazioni generate dagli LLM e le verifica personalmente, sapendo che gli LLM possono avere allucinazioni. Il problema con le ricerche approfondite è che, poiché conducono ricerche più complete rispetto alle chat standard e forniscono fonti, gli utenti potrebbero erroneamente presumere che forniscano sempre informazioni accurate. Gli LLM (anche con ricerche approfondite) tendono comunque ad avere allucinazioni, e questo può portare a gravi fraintendimenti.

  • Mancanza di contesto e sfumature: un assistente di ricerca basato sull'IA potrebbe avere difficoltà a cogliere il contesto completo di un'attività di ricerca, riassumendo potenzialmente le informazioni senza comprenderne il significato più profondo. Ciò può portare a conclusioni incomplete o errate.
  • Informazioni obsolete: i dati di addestramento di alcuni modelli di intelligenza artificiale potrebbero non essere aggiornati, il che potrebbe comportare la mancata inclusione dei recenti sviluppi pubblicati in articoli scientifici o altra letteratura accademica.
  • Credibilità delle fonti: gli strumenti di intelligenza artificiale spesso faticano a distinguere tra fonti autorevoli e inaffidabili, trattando tutte le informazioni provenienti dal web pubblico come ugualmente valide. Il giudizio umano è essenziale per valutare la credibilità delle fonti ai fini di una ricerca approfondita.

Pregiudizi e questioni etiche

  • Pregiudizi algoritmici: se i set di dati utilizzati per addestrare i modelli di IA contengono pregiudizi sociali, l'IA li apprenderà e li perpetuerà. Ciò può comportare risultati distorti nei confronti di specifici gruppi demografici, compromettendo l'integrità della ricerca approfondita.
  • Privacy dei dati: l'utilizzo di strumenti di intelligenza artificiale comporta l'elaborazione di grandi quantità di dati, il che solleva significative preoccupazioni in materia di privacy e sicurezza. I dati proprietari o riservati inseriti da un ricercatore potrebbero essere utilizzati per addestrare modelli futuri, con conseguente rischio di fuga di dati.
  • Proprietà e diritto d'autore: quando uno strumento di intelligenza artificiale sintetizza informazioni provenienti da più fonti, sorgono interrogativi in merito alla proprietà intellettuale e alla corretta attribuzione. Spesso è difficile determinare la proprietà del risultato finale e garantire che tutte le citazioni delle fonti siano corrette.

Abilità umana e eccessiva dipendenza

  • L'illusione della competenza: gli strumenti di intelligenza artificiale possono produrre report ben strutturati e rifiniti, creando la falsa impressione di un'analisi completa e specialistica. Lo strumento è un assistente alla ricerca, non un sostituto del giudizio, della competenza e dell'accuratezza che un ricercatore umano apporta a compiti di ricerca complessi. Questo è particolarmente rilevante per chi deve prendere decisioni di grande importanza.
  • Erosione del pensiero critico: un eccessivo affidamento sugli strumenti di ricerca basati sull'intelligenza artificiale può compromettere le capacità di pensiero critico e di analisi di un ricercatore. Fornire tutte le risposte può ridurre il coinvolgimento dell'utente nei complessi processi di ricerca, essenziali per la produzione di articoli accademici di alta qualità.
  • Curva di apprendimento ripida: nonostante il design intuitivo, molti strumenti di ricerca presentano una leggera curva di apprendimento, soprattutto per le funzionalità avanzate. I ricercatori potrebbero aver bisogno di tempo per sfruttare appieno le capacità di ricerca avanzate dello strumento.

Gary Marcus ha inoltre avvertito che ciò può causare un calo della qualità degli articoli scientifici. 6

Metodologia

Nel nostro benchmark DR-50, abbiamo valutato gli strumenti di ricerca sull'IA utilizzando 50 domande suddivise in sei diverse tipologie:

1. Ricerca semplice di fatti

Le domande a singolo passaggio richiedono un recupero dati semplice da un'unica fonte.

Esempio: "Qual è il prezzo di input di 1 milione di token per il modello llama-3-70b di DeepInfra?"

2. Analisi comparativa

La valutazione incrociata richiede la raccolta di dati da più fornitori per confrontare prodotti o servizi.

Esempio: "Quale fornitore offre llama-3.2-1b al prezzo medio più basso?"

3. Ragionamento multi-salto

Le catene di ragionamento sequenziale richiedono molteplici passaggi interdipendenti di recupero delle informazioni.

Esempio: "Qual è il prezzo di input per 1 milione di token su OpenRouter per il modello che si è classificato al 1° posto nel benchmark AIMultiple Finance Reasoning?"

4. Basato sul calcolo

Le operazioni matematiche vengono eseguite sui dati numerici recuperati.

Esempio: "Qual è la differenza di prezzo medio tra i due modelli Mistral AI più economici?"

5. Estrazione di JSON strutturato

La raccolta dei dati richiede una formattazione JSON rigorosa con valori strutturati multipli.

Esempio: "Quali sono l'architettura, la memoria e la larghezza di banda del NVIDIA H200 SXM? Formato: {"architettura": "...", "memoria": "...", "larghezza di banda": "..."}"

6. Elenco per categoria

Elenco completo di tutti gli articoli all'interno di una specifica categoria.

Esempio: "Fornisci tutti i server MCP nella categoria blockchain."

Metriche di valutazione

Precisione

Abbiamo confrontato ogni risposta con risposte di riferimento predefinite utilizzando GPT-4o-mini come giudice automatico tramite OpenRouter. Il punteggio di accuratezza finale rappresenta la percentuale di risposte corrette su tutte le 50 domande.

Conteggio dei token

Abbiamo utilizzato la libreria tiktoken per misurare i token lato client e abbiamo convalidato queste misurazioni incrociandole con i conteggi dei token riportati dalle API e dalle interfacce utente dei provider, laddove disponibili.

Latenza

Abbiamo misurato la latenza come tempo effettivo, dall'avvio della richiesta alla ricezione della risposta completa, espresso in secondi. Abbiamo convalidato queste misurazioni confrontandole con le metriche di latenza fornite dalle API e dalle interfacce utente dei provider, laddove disponibili.

Costo

Abbiamo monitorato i costi manualmente tramite la dashboard di fatturazione di ciascun fornitore.

Citazioni

Abbiamo estratto automaticamente le citazioni dai metadati di risposta di ciascuna API e contato gli URL univoci citati per ogni risposta.

Configurazione tecnica

Abbiamo eseguito il benchmark in sequenza, con ogni API che completava tutte le 50 query prima che iniziasse l'API successiva. Abbiamo implementato un ritardo di 5 secondi tra query consecutive per evitare limitazioni di frequenza e non abbiamo imposto alcun limite di timeout, consentendo alle richieste di attendere indefinitamente il completamento.

Per il benchmark DR-2T basato su diverse attività, ogni dato fornito nel prompt ha ricevuto 1 punto. Se l'output non era in formato tabellare, è stato assegnato un punteggio di 0.

Richiesta del compito 1

Ricerca e valuta le 5 migliori soluzioni di gestione delle password aziendali in base ai seguenti criteri, al fine di individuare la soluzione più efficace per l'implementazione in azienda.

criteri

1. Funzionalità di sicurezza

  • Standard di crittografia utilizzato
  • Implementazione dell'architettura a conoscenza zero
  • Opzioni MFA supportate
  • Certificazioni di sicurezza di terze parti
  • Funzionalità di monitoraggio dello stato della password

2. Implementazione e integrazione

  • Opzioni di implementazione
  • Funzionalità di integrazione con le directory
  • Disponibilità e funzionalità delle API
  • Integrazione SSO

3. Esperienza utente

  • Compatibilità con le estensioni del browser
  • Disponibilità e valutazione dell'app mobile
  • Funzionalità di accesso offline
  • funzionalità di creazione password

4. Amministrazione

  • Opzioni di applicazione delle policy relative alle password
  • Automazione del provisioning/deprovisioning degli utenti
  • Funzionalità di reporting e conformità
  • protocolli di accesso di emergenza

5. Costi e scalabilità

  • Confronta i prezzi utilizzando scenari aziendali standardizzati (100 utenti, 500 utenti, oltre 1000 utenti).

Formato di consegna

  1. Tabella dettagliata per ciascun criterio
  2. Tabella comparativa dei costi con scenari standardizzati

Richiesta per l'attività 2

Nel nostro secondo compito, ci siamo proposti di scoprire la portata della ricerca condotta. A tal fine, abbiamo confrontato il numero di riferimenti citati. Il confronto tra articoli non è un metodo oggettivo in questo caso, poiché stabilire una verità definitiva non è fattibile.

Tuttavia, il numero di riferimenti può darci un'idea della loro capacità di fornire informazioni, dato che il punto di forza di questi strumenti è la loro capacità di indicizzare centinaia di pagine web in pochi minuti.

Metodologia di riferimento per la ricerca approfondita vs. agente

Abbiamo creato 5 compiti di ricerca in diversi ambiti. Ogni compito prevede domande dirette con risposte fattuali e verificabili. Ogni punto di controllo è valutato in modo binario: corretto o errato.

Ogni domanda si riferisce a informazioni pubblicate dopo le date limite per l'addestramento dei modelli. Il benchmark è stato eseguito nella prima settimana di aprile 2026.

La verità di base è stata ricavata da fonti primarie: la documentazione ufficiale di Unity 6.4, il documento SEC 8-K di Atlassian, i comunicati stampa di Paramount, l'articolo ARC-AGI-3 su arXiv e le guide di aggiornamento di Unity. Ogni strumento ha ricevuto le stesse istruzioni. Tutte le istruzioni terminavano con "Cita tutte le fonti utilizzate con i relativi URL".

Valutazione: corrispondenza automatica di modelli per numeri, date e nomi. Giudice LLM (GPT-4o) per i punti di controllo della qualità della spiegazione. Un revisore umano ha convalidato tutti i risultati.

I modelli di ricerca approfondita sono stati richiamati tramite l'API OpenRouter (o3, o4-mini, Sonar) e l'API parallela. Gli agenti sono stati eseguiti tramite le loro interfacce CLI con la ricerca web abilitata, senza strumenti MCP.

In Claude Code abbiamo utilizzato Opus 4.6, mentre in Codex abbiamo utilizzato GPT 5.4. Entrambi con uno sforzo medio, e il calcolo dei costi viene effettuato in base all'utilizzo dei token per entrambi gli agenti.

FAQ

Gli strumenti di ricerca basati sull'intelligenza artificiale trasformano il modo in cui gli scienziati conducono la ricerca, rendendola più rapida ed efficiente. Gli strumenti di ricerca avanzata, in particolare, hanno il potenziale per avere un impatto significativo sulla comunità scientifica. Possono contribuire ad accelerare il processo, ma gli utenti devono prestare attenzione agli errori prima di pubblicare le informazioni.
Studi e report di settore hanno dimostrato che gli strumenti di intelligenza artificiale possono essere estremamente efficaci in determinati ambiti, come l'analisi dei dati e le revisioni della letteratura. Questi strumenti utilizzano modelli di intelligenza artificiale avanzati per sintetizzare informazioni provenienti da diverse fonti, fornendo risultati e spunti fondamentali.
Questi modelli utilizzano modelli di ragionamento e intelligenza artificiale generativa per sintetizzare le informazioni e fornire spunti di riflessione. Possono anche affrontare argomenti complessi e fornire risposte dettagliate. Gli utenti professionali possono sfruttare gli strumenti di intelligenza artificiale per ottenere un vantaggio competitivo nella loro ricerca.
Analogamente a Deep Research, stanno emergendo nuovi modelli e tecnologie, come gli strumenti di intelligenza artificiale in Python e i sottoinsiemi di solo testo, e l'integrazione di tutti questi strumenti aumenterà la portata e l'affidabilità di Deep Research.

Gli strumenti di intelligenza artificiale possono essere d'aiuto in diversi aspetti delle revisioni della letteratura, tra cui l'identificazione di articoli pertinenti, la sintesi dei risultati chiave e l'organizzazione dei temi di ricerca. Questi strumenti possono elaborare rapidamente grandi volumi di letteratura accademica e aiutare i ricercatori a individuare lacune o modelli ricorrenti tra gli studi. Tuttavia, l'IA non può sostituire completamente il giudizio umano nella valutazione della qualità delle fonti, nella sintesi di argomentazioni complesse o nell'analisi critica. I ricercatori devono comunque rivedere, verificare e interpretare i contenuti generati dall'IA per garantirne l'accuratezza e mantenere il rigore accademico nelle loro revisioni della letteratura.

Gli strumenti di intelligenza artificiale possono essere d'aiuto nell'analisi dei dati e nel lavoro statistico, ad esempio pulendo i set di dati, eseguendo test statistici, creando visualizzazioni e identificando modelli in grandi insiemi di dati. Questi strumenti possono suggerire metodi statistici appropriati in base al tipo di dati e alle domande di ricerca. Tuttavia, i ricercatori devono comprendere il contesto dei propri dati e convalidare i risultati, poiché l'IA potrebbe non cogliere sfumature specifiche del settore o formulare ipotesi inappropriate.

La maggior parte dei moderni strumenti di ricerca basati sull'intelligenza artificiale utilizza interfacce in linguaggio naturale che non richiedono competenze di programmazione. Tuttavia, una conoscenza di base dei dati e la comprensione dei concetti fondamentali della ricerca aiutano gli utenti a formulare query migliori e a interpretare i risultati in modo più efficace. Le applicazioni avanzate possono trarre vantaggio da conoscenze tecniche per analisi personalizzate o flussi di lavoro specializzati.

I ricercatori dovrebbero confrontare i risultati dell'IA con le fonti originali e la letteratura scientifica sottoposta a revisione paritaria. Le citazioni e i riferimenti forniti dall'IA richiedono verifica, poiché potrebbero essere inaccurati o falsificati. I risultati chiave dovrebbero essere confermati utilizzando più fonti, con particolare cautela per gli sviluppi recenti o gli argomenti di nicchia. Le analisi statistiche traggono vantaggio dalla validazione tramite diversi strumenti e, ove possibile, gli output complessi dovrebbero essere esaminati da esperti del settore.

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450