L'efficacia dei modelli linguistici di grandi dimensioni (LLM) è determinata non solo dalla loro accuratezza e dalle loro capacità, ma anche dalla velocità con cui interagiscono con gli utenti.
Abbiamo confrontato le prestazioni dei principali modelli linguistici in diversi casi d'uso, misurando i loro tempi di risposta all'input dell'utente. Ci siamo concentrati su due metriche chiave: la latenza del primo token , ovvero il tempo necessario al modello per iniziare a generare il primo token di una risposta, e la latenza per token , ovvero il tempo impiegato per generare ciascun token all'interno della risposta.
Benchmark di latenza LLM
Qui potete trovare i dettagli su come abbiamo misurato la latenza.
Risultati del benchmark sulla latenza del primo token
Il tempo di generazione del primo token (TTFT) misura il tempo impiegato da un modello per generare il suo primo token dopo aver ricevuto un prompt, riflettendo la rapidità con cui inizia a rispondere.
Quando i risultati vengono generalizzati a tutti i casi d'uso valutati, Mistral Large 2512 e GPT-5.2 raggiungono costantemente latenze del primo token inferiori al secondo, indicando un comportamento di risposta iniziale molto rapido.
Claude 4.5 Sonnet mostra una latenza del primo token notevolmente più alta, ma comunque stabile, collocandosi in una fascia intermedia. Al contrario, Grok 4.1 Fast Reasoning e DeepSeek V3.2 presentano ritardi significativamente più lunghi prima di produrre il primo token, e questo schema rimane costante in tutte le attività.
Risultati del benchmark di latenza per token
La latenza per token misura il tempo medio necessario per generare ogni token successivo al primo, riflettendo la velocità di generazione sostenuta del modello.
Mistral Large 2512 e GPT-5.2 raggiungono costantemente latenze del primo token inferiori al secondo, indicando un comportamento di risposta iniziale molto rapido.
Claude 4.5 Sonnet mostra una latenza del primo token notevolmente più alta, ma comunque stabile, collocandosi in una fascia intermedia. Al contrario, Grok 4.1 Fast Reasoning e DeepSeek V3.2 presentano ritardi significativamente più lunghi prima di produrre il primo token, e questo schema rimane costante in tutte le attività.
Confronto della velocità di LLM per caso d'uso
Osserviamo che le variazioni di latenza dipendono dal tipo di attività, il che indica che questi modelli presentano profili di prestazioni differenti a seconda dei casi d'uso.
Domande e risposte
Negli scenari di domande e risposte, come ad esempio l'assistenza clienti, gli assistenti virtuali e gli strumenti di gestione della conoscenza aziendale, la velocità e i tempi di risposta hanno un impatto diretto sull'esperienza utente.
- Mistral Large 2512 offre la risposta iniziale più veloce, con una latenza del primo token di 0,30 secondi, risultando ideale per i sistemi di supporto in tempo reale che richiedono risposte immediate. La sua latenza per token di 0,025 secondi offre un'eccellente efficienza nella generazione di risposte di qualsiasi lunghezza.
- GPT-5.2 segue a ruota con una latenza del primo token di 0,60 secondi e una latenza per token di 0,020 secondi. Pur essendo leggermente più lento all'avvio, la sua minore latenza per token lo rende altamente efficiente per risposte più lunghe e dettagliate.
- Claude 4.5 Sonnet , con una latenza del primo token di 2 secondi e una latenza per token di 0,030 secondi, mostra una reattività iniziale moderata. Il ritardo prima del primo token può influire sulle interazioni in tempo reale, sebbene la sua velocità di generazione costante mantenga prestazioni complessive ragionevoli.
- Grok 4.1 Fast Reasoning ha una latenza del primo token di 3 secondi e un'eccellente latenza per token di 0,010 secondi. Nonostante l'avvio più lento, una volta avviata la generazione, produce token in tempi estremamente rapidi, risultando adatto ad applicazioni in cui il tempo totale di generazione è più importante della risposta immediata.
- DeepSeek V3.2 , con una latenza del primo token di 7 secondi e una latenza per token di 0,032 secondi, è il modello più lento in assoluto. L'attesa significativa prima del primo token lo rende meno adatto ai sistemi di domande e risposte in cui la velocità è un fattore critico.
Generazione del riepilogo
La generazione di riassunti riveste un ruolo fondamentale nelle applicazioni in cui gli utenti devono comprendere rapidamente testi lunghi. Ad esempio, in scenari in cui i team di assistenza clienti devono riassumere la registrazione di una chiamata in pochi secondi e intervenire, la latenza del primo token ha un impatto diretto sull'esperienza utente.
- Mistral Large 2512 offre una latenza del primo token di 0,45 secondi e una latenza per token di 0,025 secondi, risultando un'opzione efficace per scenari che richiedono una rapida sintesi dei documenti.
- GPT-5.2 segue con una latenza del primo token di 0,60 secondi e la latenza per token più veloce a 0,020 secondi, consentendogli di mantenere la velocità anche con contenuti più lunghi.
- Claude 4.5 Sonnet presenta un tempo di risposta iniziale più lento, con una latenza del primo token di 2 secondi. Tuttavia, la sua latenza per token di 0,030 secondi offre comunque prestazioni complessive discrete per le attività di riassunto.
- Grok 4.1 Fast Reasoning mostra una latenza del primo token di 4 secondi, ma compensa con un'eccellente latenza per token di 0,010 secondi, risultando efficiente una volta avviata la generazione.
- DeepSeek V3.2 si distingue come il modello più lento, con una latenza del primo token di 7,5 secondi e una latenza per token di 0,025 secondi.
Traduzione linguistica
In base ai nostri parametri di riferimento, le attività di traduzione rivelano interessanti compromessi prestazionali tra tempo di risposta iniziale e velocità di generazione sostenuta.
- Mistral Large 2512 offre la risposta iniziale più veloce, con una latenza del primo token di 0,40 secondi e una latenza per token di 0,020 secondi, risultando ideale per scenari di traduzione in tempo reale.
- GPT-5.2 inizia a 0,55 secondi con la latenza per token più bassa di 0,010 secondi, fornendo un'efficienza eccezionale per traduzioni più lunghe una volta avviata la generazione.
- Claude 4.5 Sonnet , con una latenza del primo token di 2 secondi e una latenza per token di 0,015 secondi, bilancia una reattività iniziale moderata con una velocità di generazione sostenuta elevata.
- Grok 4.1 Fast Reasoning ha una latenza del primo token di 6 secondi. Ciononostante, mantiene un'eccellente latenza per token di 0,005 secondi, la più veloce in questa categoria, risultando estremamente efficiente per le attività di traduzione in batch.
- DeepSeek V3.2 presenta la latenza del primo token più elevata, pari a 7,5 secondi, con una latenza per token di 0,025 secondi, limitandone l'applicabilità nei flussi di lavoro di traduzione sensibili al tempo.
Analisi aziendale
In base ai risultati osservati nel caso d'uso di analisi aziendale, i modelli presentano profili di prestazioni variabili, adatti a diversi scenari analitici.
- Mistral Large 2512 offre una risposta iniziale forte, con una latenza del primo token di 0,40 secondi, sebbene la sua latenza per token di 0,040 secondi sia superiore rispetto ad altri casi d'uso. Rimane comunque adatto per attività di analisi aziendale di routine.
- GPT-5.2 ha un tempo di avvio di 0,50 secondi con una latenza per token di 0,020 secondi, il che lo rende adatto per attività di analisi aziendale che richiedono sia avvii rapidi che output efficienti di lunga durata, come report giornalieri o dashboard.
- Claude 4.5 Sonnet risponde con una latenza del primo token di 2 secondi e una latenza per token di 0,035 secondi. Sebbene il ritardo iniziale possa causare rallentamenti nei flussi di lavoro in tempo reale, garantisce una velocità di output costante per le revisioni batch dei dati o per la generazione di report programmati.
- Grok 4.1 Fast Reasoning mostra una latenza del primo token di 4 secondi, ma mantiene un'eccellente efficienza per token di 0,010 secondi, risultando efficace per report analitici completi in cui il tempo totale di completamento è più importante della risposta immediata.
- DeepSeek V3.2 è risultato il modello più lento, con una latenza del primo token di 8 secondi e una latenza per token di 0,030 secondi, risultando quindi meno adatto a scenari di analisi aziendale in cui il tempo è un fattore critico.
Programmazione
Le attività di programmazione rivelano caratteristiche prestazionali distinte, con modelli ottimizzati per diversi aspetti della generazione del codice.
- Mistral Large 2512 ha avuto la latenza del primo token più bassa a 0,30 secondi, con una latenza per token di 0,025 secondi, risultando il modello più veloce ad avviare la generazione del codice e a mantenere un throughput solido per tutto il tempo.
- GPT-5.2 ha registrato una latenza del primo token di 0,50 secondi e la migliore latenza per token di 0,015 secondi. Questa combinazione consente a GPT-5.2 di recuperare rapidamente dopo un avvio leggermente più lento, rendendolo altamente efficiente nella gestione di attività di codifica più lunghe o complesse in cui la velocità di generazione dei token è fondamentale.
- Claude 4.5 Sonnet , con una latenza del primo token di 2 secondi e una latenza per token di 0,028 secondi, ha dimostrato una reattività moderata. Pur non essendo il più veloce all'avvio, mantiene una velocità di generazione ragionevole per i tipici flussi di lavoro di programmazione.
- Grok 4.1 Fast Reasoning ha mostrato una latenza del primo token di 11 secondi, ma la latenza per token più bassa è stata di soli 0,005 secondi. Nonostante il notevole ritardo iniziale, una volta avviata la generazione, il codice viene prodotto in tempi estremamente rapidi, il che lo rende potenzialmente adatto per attività di generazione di codice in batch.
- DeepSeek V3.2 ha registrato la latenza del primo token più elevata, pari a 19 secondi, con una latenza per token di 0,030 secondi, risultando il più lento del gruppo per le attività di programmazione e limitandone l'applicabilità in ambienti di sviluppo interattivi dove è essenziale un feedback immediato.
Il ragionamento LLM e il suo effetto sulla velocità
I modelli di ragionamento impiegano più tempo ad avviarsi perché si impegnano in un processo di pensiero sequenziale, "analizzando" il problema internamente passo dopo passo prima di produrre una risposta. Questo ulteriore ragionamento interno è la causa del ritardo iniziale.
Il motivo di questo avvio più lento è che questi modelli non si limitano a generare testo; prima eseguono un'analisi più approfondita e un'inferenza logica, che richiede un tempo di elaborazione maggiore. Questo "pensiero" interno porta a risultati più accurati e ponderati.
Ad esempio, nel nostro benchmark, Grok 4.1 Fast Reasoning ha mostrato un Time To First Token più elevato rispetto a modelli generativi più semplici perché impiega più tempo per il ragionamento interno. Nonostante l'avvio più lento, la qualità e la precisione delle sue risposte sono risultate significativamente migliori.
Cos'è la latenza LLM e perché è importante?
La latenza di un modello linguistico di grandi dimensioni (LLM) si riferisce al tempo necessario affinché un modello linguistico di grandi dimensioni generi una risposta dopo aver ricevuto l'input dell'utente. In pratica, la latenza non è un singolo valore numerico, ma un insieme di parametri che descrivono la velocità con cui un sistema reagisce e completa la generazione dell'output.
Una delle distinzioni più importanti è la latenza end-to-end (latenza E2E) . La latenza E2E misura il tempo totale che intercorre tra la ricezione di una richiesta da parte del server e il completamento dell'invio della risposta, incluso il token finale. Questo valore riflette il tempo di attesa effettivo percepito dall'utente ed è strettamente correlato a ciò che gli utenti percepiscono come reattività.
La latenza viene comunemente suddivisa in metriche chiave quali:
- Tempo al primo token (TTFT) o latenza del primo token , che indica quanto tempo occorre prima che il modello inizi a generare output.
- Latenza inter-token (ITL) , che misura il ritardo tra i token generati durante la risposta
- Tempo totale di generazione , che va dall'invio della richiesta al completamento della risposta
Una bassa latenza è fondamentale nelle applicazioni interattive come chatbot , assistenti di programmazione e strumenti di assistenza clienti. Un'elevata latenza può interrompere il flusso naturale dell'interazione, ridurre il coinvolgimento e influire negativamente sulla soddisfazione dell'utente. Nel tempo, una latenza costantemente elevata può anche limitare l'adozione di soluzioni basate sull'intelligenza artificiale, soprattutto in casi d'uso in tempo reale o a diretto contatto con il cliente.
Perché è importante che la latenza di LLM sia alta o bassa per l'esperienza utente?
L'impatto della latenza sull'esperienza utente va ben oltre il semplice disagio. Gli utenti percepiscono i tempi di risposta in modo diverso a seconda del contesto, della complessità della richiesta e delle aspettative generate dall'applicazione. Un breve ritardo può essere accettabile per attività di ragionamento complesse, mentre anche ritardi minimi possono risultare fastidiosi nelle interfacce conversazionali.
- Nei sistemi di intelligenza artificiale interattivi, le risposte ritardate possono interrompere il flusso della conversazione.
- Tempi di risposta costanti spesso portano a una maggiore soddisfazione dell'utente rispetto a tempi di risposta molto variabili.
- Una velocità di risposta leggermente più lenta ma più prevedibile è spesso preferibile a risposte rapide occasionali intervallate da lunghi ritardi.
Questo aspetto psicologico dell'attesa spiega perché la reattività percepita sia importante tanto quanto i tempi di risposta effettivi. In molti casi, mantenere prestazioni costanti è più importante che ottenere la latenza più bassa possibile per una singola richiesta.
Fattori che influenzano la latenza LLM
La latenza di LLM varia in base a diversi fattori tecnici e operativi. Comprendere questi fattori chiave aiuta i team a identificare i colli di bottiglia delle prestazioni e ad applicare strategie mirate di ottimizzazione della latenza.
Dimensioni e configurazione del modello
Le dimensioni del modello influiscono direttamente sulla velocità di elaborazione. I modelli più grandi in genere richiedono maggiori risorse di calcolo e più tempo per elaborare gli stessi token di input. Sebbene i modelli più grandi possano offrire una migliore qualità dell'output, spesso aumentano la latenza del primo token e la latenza complessiva dei token.
Tra gli aspetti importanti da considerare figurano:
- Dimensioni del modello e architettura interna
- Configurazioni del modello, come la lunghezza della finestra di contesto
- Compromessi tra qualità della risposta e bassa latenza
La selezione di un modello che si allinei ai requisiti prestazionali dell'applicazione è una parte fondamentale dell'ottimizzazione del modello.
Architettura hardware e di sistema
L'hardware gioca un ruolo fondamentale nel determinare i tempi di risposta. GPU potenti o acceleratori AI possono ridurre significativamente i tempi di calcolo, diminuendo la latenza sia nel TTFT (Time To First Time) che nella latenza tra i token. Tra i principali fattori che contribuiscono a questo miglioramento figurano:
- Utilizzo e disponibilità della GPU
- Larghezza di banda della memoria ed efficienza del trasferimento dati
- Architettura generale del sistema e risorse di calcolo
La velocità di elaborazione del sistema, in genere misurata in token al secondo (TPS), indica la quantità di output che un sistema può generare sotto carico simultaneo. Metriche di elevata velocità di elaborazione sono essenziali per gestire più richieste contemporaneamente senza compromettere i tempi di risposta.
Concorrenza, raggruppamento e carico di sistema
La latenza si comporta in modo diverso negli scenari a richiesta singola e a richieste simultanee. Se da un lato l'elaborazione in batch può migliorare la velocità di elaborazione, dall'altro può anche introdurre ritardi di accodamento che aumentano il tempo di risposta iniziale.
I fattori che influenzano la latenza in questo caso includono:
- Numero di richieste simultanee
- Politiche di raggruppamento e pianificazione
- Carico di sistema attuale e modelli di utilizzo
I sistemi ottimizzati esclusivamente per la velocità di trasmissione dati potrebbero presentare un'elevata latenza durante i picchi di utilizzo, anche se le prestazioni medie appaiono accettabili.
Effetti di rete e di implementazione
La latenza di rete può introdurre ritardi significativi, soprattutto nei sistemi distribuiti o basati su cloud. La comunicazione tra servizi, regioni e utenti contribuisce alla latenza end-to-end complessiva.
Un altro fattore critico è rappresentato dagli avvii a freddo. Quando i modelli vengono ridimensionati a zero durante i periodi di inattività, la prima richiesta deve attendere il caricamento del modello, il che può aumentare significativamente la latenza. Gli effetti degli avvii a freddo possono distorcere le misurazioni accurate della latenza se non vengono considerati separatamente dalle prestazioni a regime.
Strategie per ridurre la latenza LLM
Ridurre la latenza richiede modifiche coordinate a livello di modelli, infrastrutture e progettazione delle applicazioni. Un'ottimizzazione efficace della latenza si concentra sia sulla reattività effettiva che su quella percepita.
Approcci di ottimizzazione del modello
Le tecniche di ottimizzazione del modello mirano a migliorare la velocità di elaborazione mantenendo al contempo una qualità di risposta accettabile. I metodi più comuni includono:
- Quantizzazione e potatura per ridurre le dimensioni del modello
- Messa a punto di modelli più piccoli per compiti specifici
- Regolazione delle configurazioni del modello per dare priorità alla bassa latenza
L'ottimizzazione dei processi di modellazione può ridurre significativamente la latenza e diminuire i costi operativi.
Progettazione rapida ed efficienza dei token
La progettazione dei prompt influisce direttamente sulla latenza. Prompt più lunghi aumentano il numero di token di input che il modello deve elaborare, rallentando sia il TTFT (Time To First Time) che la generazione dell'output.
Le migliori prassi includono:
- Utilizzando solo il contesto pertinente
- Ridurre la complessità dei prompt e le istruzioni non necessarie.
- Limitare i token generati quando non è richiesta una risposta completa
Gestione dello streaming, della memorizzazione nella cache e delle risposte.
Le tecniche di risposta in streaming consentono al modello di iniziare a generare output non appena il primo token è pronto, anziché attendere l'ultimo. Ciò migliora la reattività percepita anche quando il tempo totale di generazione rimane invariato.
Tra le tecniche aggiuntive si annoverano:
- Memorizzazione nella cache delle risposte per query di input ripetute o identiche
- Memorizzazione nella cache semantica di prompt simili con intenti sovrapposti
- Ottimizzazione delle infrastrutture e della produttività
L'ottimizzazione dell'infrastruttura è essenziale per mantenere prestazioni elevate su larga scala. Ciò include:
- Bilanciare le metriche di throughput e le misure di latenza
- Garantire risorse di calcolo sufficienti per i picchi di domanda
- Riduzione dei ritardi di accodamento durante le richieste simultanee
Misurazione e monitoraggio della latenza LLM in produzione
Misurazioni accurate della latenza sono essenziali per diagnosticare i problemi e convalidare i miglioramenti. I diversi metodi di test servono a scopi diversi:
- I processi di test sincroni elaborano una richiesta alla volta, fornendo dati di latenza puliti e isolati.
- I test asincroni simulano scenari reali con più richieste simultanee, sebbene possano rendere più difficile isolare le singole latenze.
Il monitoraggio dei principali indicatori di prestazione aiuta i team a identificare i colli di bottiglia, a tracciare le tendenze e a mantenere le prestazioni nel tempo. Il monitoraggio continuo è fondamentale, poiché i modelli di utilizzo sono in continua evoluzione.
Gli strumenti comunemente utilizzati nella produzione includono:
- NVIDIA GenAI-Perf e LLMPerf per l'acquisizione di metriche di latenza
- Prometheus e Grafana per il monitoraggio e la visualizzazione delle distribuzioni di latenza
Questi strumenti supportano l'ottimizzazione continua e contribuiscono a garantire prestazioni costanti in presenza di carichi di lavoro variabili.
Perché la costanza conta più della sola velocità.
Sebbene una bassa latenza sia essenziale, la coerenza è spesso più importante per la soddisfazione dell'utente. I sistemi con tempi di risposta molto variabili tendono a sembrare inaffidabili, anche se alcune risposte sono rapide. Al contrario, tempi di risposta coerenti creano interazioni prevedibili e migliorano la percezione di reattività.
Nelle applicazioni interattive di intelligenza artificiale, la velocità di risposta influenza la fiducia, l'usabilità e l'adozione a lungo termine. Ottimizzare la latenza di LLM non significa quindi solo ridurre al minimo i millisecondi, ma garantire prestazioni stabili e prevedibili in linea con le aspettative degli utenti.
Grazie alla combinazione di misurazioni accurate, un'attenta progettazione del sistema e un monitoraggio continuo, i team possono ridurre significativamente la latenza, mantenendo al contempo prestazioni, qualità di risposta ed efficienza dei costi.
Metodologia di benchmark della latenza LLM
Configurazioni di benchmark
Abbiamo misurato le prestazioni di latenza di diversi LLM in cinque casi d'uso. Il benchmark è stato eseguito su un server remoto per garantire condizioni di rete uniformi. Tutti i modelli sono stati testati utilizzando le rispettive API ufficiali. Abbiamo impostato la temperatura a 0,1.
Raccolta dati
È stata eseguita una singola sessione con un totale di 500 domande (100 domande per caso d'uso). Ogni domanda è stata inviata all'endpoint API di streaming del modello e le misurazioni temporali sono state acquisite in tre punti critici:
- Richiesta inviata : data e ora di avvio della richiesta API
- Primo token ricevuto : timestamp di quando è arrivato il primo token di risposta.
- Token finale ricevuto : timestamp al termine della risposta in streaming.
Metrica
Tempo di generazione del primo token (TTFT)
Misura la latenza di risposta iniziale, ovvero il tempo necessario affinché il modello inizi a generare una risposta.
Latenza per token (PTL)
Misura il tempo medio (in millisecondi) necessario per generare ciascun token dopo la risposta iniziale.
Domande e risposte
Abbiamo testato i modelli su una serie di 10 domande che coprivano una varietà di argomenti fattuali e concettuali comuni in ambito tecnico, commerciale e di cultura generale. Questi input erano in media di circa 13 token per domanda, risultando quindi relativamente brevi.
Questo caso d'uso valuta la capacità dei modelli di generare risposte chiare, accurate e informative, adatte a contesti didattici, di documentazione e di assistenza clienti. Le risposte richieste prevedono in genere spiegazioni di lunghezza moderata che bilanciano dettaglio e chiarezza.
Programmazione
Abbiamo valutato i modelli su una serie di 10 attività di programmazione distinte, che spaziavano da semplici funzioni allo sviluppo di API più avanzate. Queste attività prevedevano la generazione di frammenti di codice Python, come script di base, applicazioni web utilizzando Flask o FastAPI e script per l'elaborazione dei dati.
Questo caso d'uso valuta la capacità dei modelli di produrre codice strutturato, funzionale e coerente, che spesso richiede output più lunghi e complessi rispetto alla tipica generazione di testo. I prompt di input erano composti in media da circa 20 token ciascuno , a indicare richieste di programmazione concise ma descrittive.
Traduzione linguistica
Abbiamo testato i modelli utilizzando un set di 10 diversi input di traduzione che coprivano più lingue (spagnolo, cinese, russo) e tipologie di testo, tra cui lunghi brani accademici, brevi frasi di uso quotidiano, abstract scientifici, email aziendali ed estratti letterari. Questi input variavano significativamente in lunghezza e complessità, da brevi frasi di circa 10 token a testi dettagliati di più paragrafi che superavano diverse centinaia di token.
Questo caso d'uso valuta la capacità dei modelli di comprendere accuratamente e riprodurre fedelmente il significato in diverse lingue e ambiti, preservando sfumature, stile e contenuto tecnico. Utilizzando testi di varia tipologia e lunghezza, abbiamo testato sia la qualità generale della traduzione sia la capacità dei modelli di gestire il linguaggio specialistico o formale.
Analisi aziendale
Abbiamo valutato i modelli utilizzando 10 diversi quesiti di analisi aziendale, ognuno dei quali simulava scenari decisionali reali in ambiti quali performance di vendita, fidelizzazione dei clienti, colli di bottiglia nella catena di approvvigionamento, ROI del marketing, produttività dei dipendenti e strategia competitiva. I quesiti includevano dati tabellari strutturati e domande analitiche aperte, che richiedevano ai modelli di interpretare molteplici metriche aziendali e generare insight concisi e utilizzabili. La complessità degli input variava, con una lunghezza media di circa 105 token.
Questo caso d'uso verifica la capacità di un modello di sintetizzare dati quantitativi, applicare il ragionamento logico e comunicare raccomandazioni in modo chiaro in un contesto aziendale.
Generazione del riepilogo
Abbiamo incaricato i modelli di produrre riassunti in stile accademico (~500 token) di articoli tecnici su diversi argomenti, tra cui l'intelligenza artificiale in ambito sanitario, i cambiamenti climatici, le energie rinnovabili, la blockchain, il lavoro a distanza, i veicoli elettrici, la sicurezza informatica, i social media, l'urbanizzazione e l'informatica quantistica. Ogni riassunto era strutturato in argomentazioni principali, idee di supporto e conclusioni, con i termini chiave evidenziati e brevemente spiegati.
Questo caso d'uso verifica la capacità di un modello di comprendere articoli tecnici dettagliati e di generare riassunti chiari, strutturati e in stile accademico, con spiegazioni dei termini chiave.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.