Test del Benchmark di Analisi del Sentiment: ChatGPT, Claude e DeepSeek

aggiornato il 15 giu. 2026

Ottenere un'etichettatura precisa delle emozioni e dei sentimenti, così come rilevare ironia, odio e offensività, rimane una sfida che richiede ulteriori test e perfezionamenti. Abbiamo sottoposto a benchmark otto LLM, Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 e Grok 4, su cinque compiti chiave legati al sentiment.

I risultati evidenziano chiare distinzioni tra gli strumenti:

Claude 3.7 ha raggiunto la migliore accuratezza complessiva (79%),
ChatGPT 4.5 e DeepSeek V3 (70%) hanno registrato le prestazioni complessive più basse.

Risultati sperimentali: benchmark di analisi del sentiment

Loading Chart

Classifica: Gli strumenti sono classificati in base ai loro tassi di accuratezza media aggregati su tutte le categorie testate: emozione, odio, ironia, offensività e sentiment.

Per ulteriori dettagli, consulta la metodologia del nostro benchmark.

Accuratezza complessiva

Combinando tutti i compiti, i punteggi di accuratezza totale dei modelli offrono una visione olistica delle loro capacità:

Claude 3.7 ha superato tutti gli altri strumenti in tutte le categorie tranne la rilevazione dell'ironia. L'accuratezza media di Claude 3.7 per le 5 categorie è quasi dell'80%.
Claude 3.5 ha mostrato prestazioni comprese tra il 67% e il 98%, con notevoli miglioramenti nei test con volumi ridotti.
ChatGPT 5.o Auto ha raggiunto una media complessiva del 75%, posizionandosi come un performer equilibrato in tutte le categorie.
Claude 4.5 ha raggiunto un'accuratezza complessiva del 75%. Ha mostrato forza nella rilevazione di emozioni, ironia e offensività, ma ha sottoperformato nella classificazione dell'odio, riducendo il suo equilibrio.
ChatGPT 4.o, con un'accuratezza di etichettatura generale compresa tra il 64% e il 98%, ha più successo di qualsiasi altro strumento nella categoria della rilevazione dell'ironia.
Grok 4 ha raggiunto un'accuratezza complessiva del 71%. Pur avendo buone prestazioni nella rilevazione delle emozioni, i suoi limiti nella classificazione di ironia, offensività e sentiment ne hanno ridotto la competitività.
DeepSeek V3 presenta un'accuratezza nel rilevare diverse emozioni/sentiment compresa tra il 52% e il 92%.
ChatGPT 4.5 registra le peggiori prestazioni nell'analisi del sentiment per il nostro campione, con una media del 70%.

1. Rilevamento delle emozioni

Il rilevamento delle emozioni è un compito impegnativo nell'analisi del sentiment, che spesso richiede ai modelli di discernere indizi sottili nel linguaggio. Ecco come hanno performato i modelli:

ChatGPT 4.o ha raggiunto un'accuratezza del 72% analizzando 50 affermazioni.
ChatGPT 4.5 ha condiviso la più alta accuratezza nel rilevamento delle emozioni con Claude 3.7, con un tasso di successo di circa l'80% analizzando 50 affermazioni.
ChatGPT 5.o Auto ha eguagliato il più alto tasso di successo con un'accuratezza dell'80%, ponendosi alla pari con Claude 3.7 e ChatGPT 4.5.
Claude 3.5, d'altra parte, ha ottenuto un punteggio del 77,5%.
Claude 3.7 ha raggiunto il più alto tasso di successo di circa l'80% nel rilevamento delle emozioni analizzando 50 affermazioni.
Claude 4.5 ha leggermente superato tutti gli altri in questo compito, raggiungendo il punteggio più alto con un'accuratezza dell'82%.
DeepSeek V3 analizza le emozioni nelle 50 affermazioni fornite con un'accuratezza di circa il 76%.
Grok 4 ha dimostrato una forte performance, raggiungendo un'accuratezza dell'80% nel rilevamento delle emozioni.

2. Rilevamento dell'odio

Rilevare contenuti d'odio è cruciale per la classificazione del sentiment su Twitter e altri compiti di moderazione. I risultati hanno rivelato differenze notevoli:

ChatGPT 4.o ha mostrato un'accuratezza del 64%.
ChatGPT 4.5 ha presentato un tasso di successo di circa il 57% di accuratezza nel rilevamento dell'odio nel nostro campione.
ChatGPT 5.o Auto ha mostrato un successo limitato in questo compito con un'accuratezza del 54%.
Claude 3.5 ha mostrato un successo del 67,5% nel rilevamento dell'odio.
Claude 3.7, con un tasso di successo del 78%, ha valutato i tweet per rilevare affermazioni d'odio con la massima accuratezza tra gli altri strumenti.
Claude 4.5 ha registrato il risultato più debole tra tutti i modelli, con un tasso di accuratezza del 50% nel rilevamento di contenuti d'odio.
DeepSeek V3 ha raggiunto il punteggio più basso nel benchmark, con solo il 52% di successo nel rilevamento dell'odio.
Grok 4 ha ottenuto un punteggio moderato del 65%.

3. Rilevamento dell'ironia

Il rilevamento dell'ironia è un'area in cui la valutazione semantica gioca un ruolo fondamentale. Entrambi i modelli hanno offerto elevate prestazioni nel benchmark di analisi del sentiment, ma GPT-4o è emerso come leader indiscusso:

ChatGPT 4.o ha mantenuto un'eccezionale accuratezza del 98% nell'identificare espressioni ironiche. Questo successo può essere attribuito alla sua capacità di interpretare la polarità negativa in scenari complessi di classificazione del testo.
ChatGPT 4.5, con un tasso di successo dell'87%, ha previsto l'ironia del testo dato nel modo meno efficace tra gli altri strumenti che abbiamo testato in questo confronto per il rilevamento di emozioni/sentiment.
ChatGPT 5.o Auto ha dimostrato una solida capacità di rilevare l'ironia, raggiungendo un'accuratezza del 93%.
Claude 3.5 ha ottenuto un punteggio leggermente inferiore a ChatGPT 4.o, raggiungendo un'accuratezza del 97% con 50 affermazioni.
Claude 3.7 ha rilevato l'ironia con un'accuratezza di circa il 96% per il testo dato.
Claude 4.5 ha offerto una delle migliori prestazioni nel rilevamento dell'ironia, con un tasso di accuratezza del 95%.
DeepSeek V3 ha raggiunto un tasso di successo di circa il 92% nel rilevamento dell'ironia per i tweet forniti.
Grok 4 è rimasto indietro in quest'area, ottenendo l'83%, il punteggio più basso tra tutti i modelli testati.

Data l'elevata accuratezza complessiva dei modelli, tutti sono adatti per messaggi Twitter che coinvolgono contenuti ironici o sarcastici. Tuttavia, il successo di GPT-4o gli conferisce un vantaggio significativo per le applicazioni che richiedono un benchmark di affidabilità standard per il sentiment.

4. Rilevamento dell'offensività

Rilevare contenuti offensivi è fondamentale per mantenere comunità online sane. Le prestazioni dei modelli nel benchmark di analisi del sentiment per questo compito sono state le seguenti:

ChatGPT 4.o ha ottenuto un punteggio del 76% con 50 affermazioni. Ciò è in linea con i suoi solidi approcci di machine learning e la capacità di adattarsi alle variazioni nel volume dei dati.
ChatGPT 4.5 ha raggiunto circa il 75% di tasso di successo nel rilevamento dell'offensività per i tweet forniti.
ChatGPT 5.o Auto ha raggiunto il più alto tasso di successo tra tutti gli strumenti per il rilevamento dell'offensività, con un'accuratezza dell'82%.
Claude 3.5 ha presentato l'accuratezza più bassa nel rilevamento dell'offensività tra tutti e cinque gli strumenti, con un tasso di successo di circa il 67% di accuratezza con 50 affermazioni.
Claude 3.7 ha ottenuto il miglior rilevamento dell'offensività nel nostro campione con un tasso di successo di circa il 77%.
Claude 4.5 ha rilevato l'offensività con l'81%, rafforzando la sua forza in questo compito.
DeepSeek V3 ha rilevato affermazioni offensive con un'accuratezza del 69%.
Grok 4 ha raggiunto un modesto 67%, classificandosi tra i performer più deboli in questa categoria.

Questi risultati sottolineano l'importanza del contesto e dell'addestramento nella progettazione di modelli per il rilevamento del linguaggio offensivo, dove i pattern nel dataset possono influenzare significativamente i risultati.

5. Analisi del sentiment

Il compito generale di analisi del sentiment si è concentrato sulla classificazione dei dati in sentiment positivi, negativi e neutri. I punteggi di accuratezza per questo compito sono variati significativamente tra i modelli:

ChatGPT 4.o ha ottenuto un tasso di successo del 64%.
ChatGPT 4.5, con il tasso di successo più basso, inferiore al 54%, ha presentato l'accuratezza più bassa nella classificazione del sentiment su Twitter.
ChatGPT 5.o Auto ha ottenuto un punteggio del 67% nella classificazione generale del sentiment, collocandosi nella fascia media rispetto agli altri strumenti.
Claude 3.5 ha mostrato prestazioni migliori con 50 affermazioni, con un'accuratezza del 68%.
Claude 3.7, con un tasso di successo di circa il 68%, ha condiviso la migliore prestazione con Claude 3.5 nel rilevamento del sentiment.
Claude 4.5 ha raggiunto la massima prestazione con un tasso di accuratezza del 69%.
DeepSeek V3 ha ottenuto un tasso di accuratezza del 64% nel rilevare sentiment positivi, negativi e neutri.
Grok 4 ha mostrato basse prestazioni, con solo il 60% di accuratezza.

Nessuno dei modelli ha dimostrato competenza nel gestire la classificazione del sentiment, il cui tasso di successo è variato da circa il 54% al 69%.

Osservazioni e approfondimenti

Impatto del volume di input

Entrambi i modelli hanno mostrato prestazioni migliori nel benchmark di analisi del sentiment con volumi di input ridotti in alcuni compiti, sottolineando l'importanza di ridurre il rumore nei dati di training per compiti come il rilevamento dell'odio e la classificazione del sentiment.

Punti di forza specifici per compito

GPT-4o ha dominato nel rilevamento dell'ironia e ha performato costantemente bene in tutti i compiti. Claude 3.5, sebbene leggermente meno costante, ha eccelso in compiti come il rilevamento delle emozioni, specialmente con volumi di input più grandi.

Implicazioni più ampie

Questi risultati sperimentali confermano l'efficacia dell'utilizzo di dataset di benchmark come TweetEval per la ricerca sulla classificazione del testo. I risultati possono guidare la comunità di ricerca nella scelta del modello più adatto in base al proprio caso d'uso specifico, che si tratti di rilevare l'intensità sfumata del sentiment o di analizzare la polarità negativa nei messaggi Twitter.

Dataset di benchmark e metodologia

Dataset di analisi

Il dataset TweetEval è stato selezionato per la sua rilevanza per le tecniche di analisi del sentiment applicate a messaggi Twitter reali.¹ Il dataset fa parte dell'iniziativa dell'Association for Computational Linguistics (ACL) ed è ampiamente utilizzato in compiti di valutazione semantica e classificazione del testo. È composto da dati di training pre-etichettati e set di test che coprono diverse dimensioni del sentiment e della comprensione contestuale:

Rilevamento delle emozioni: Identificare toni emotivi come rabbia, gioia, ottimismo o tristezza nei tweet.

Tweet di esempio ed etichetta: Il tweet «#Deppression is real. Partners w/ #depressed people truly dont understand the depth in which they affect us. Add in #anxiety &makes it worse» è etichettato come triste.²

Rilevamento dell'odio: Valutare la presenza di incitamento all'odio nei tweet forniti.

Tweet di esempio ed etichetta: Il tweet «Trump wants to deport illegal aliens with 'no judges or court cases' #MeTooI am solidly behind this actionThe thought of someone illegally entering a country & showing no respect for its laws,should be protected by same laws is ludacris!#DeportThemAll» è etichettato come odioso.³

Rilevamento dell'ironia: Riconoscere l'intento ironico nel contenuto testuale.

Tweet di esempio ed etichetta: Il tweet «People who tell people with anxiety to "just stop worrying about it" are my favorite kind of people #not #educateyourself» è etichettato come ironico.⁴

Rilevamento dell'offensività: Classificare tweet con linguaggio offensivo.

Tweet di esempio ed etichetta: Il tweet «#ConstitutionDay It's very odd for the alt right conservatives to say that we are ruining the constitution just because we want #GunControlNow but they are the ones ruining the constitution getting upset because foreigners are coming to this land who are not White wanting to live» è etichettato come offensivo.⁵

Classificazione del sentiment: Assegnare etichette positive, negative o neutre ai tweet.

Tweet di esempio ed etichetta: Il tweet «Can't wait to try this – Google Earth VR – this stuff really is the future of exploration….» è etichettato come positivo.⁶

Questi compiti sono in linea con gli approcci di machine learning del mondo reale, rendendoli ideali per valutare i risultati sperimentali dei due modelli.

Metodologia di analisi

Questo benchmark mette a confronto otto modelli linguistici di grandi dimensioni (LLM) all'avanguardia: Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 e Grok 4.

Configurazione sperimentale

Per garantire coerenza e affidabilità negli esperimenti, è stata impiegata la seguente metodologia:

Volume di input

Sono stati testati due volumi di input: 50 tweet e 10 tweet per compito.
Questa variazione mirava a determinare in che modo la dimensione dell'input influisce sulle prestazioni del modello, in particolare in compiti come l'analisi del sentiment basata su dati e il rilevamento dell'odio, dove il volume dei dati può influenzare l'accuratezza.

Valutazione specifica per compito

Ogni compito del dataset TweetEval è stato testato separatamente. I compiti e i risultati corrispondenti sono stati analizzati utilizzando i modelli di analisi del sentiment, e i punteggi di accuratezza sono stati registrati.

Metriche utilizzate

Sono stati calcolati punteggi di accuratezza per ciascun compito al fine di garantire risultati sperimentali affidabili.

Limitazioni della configurazione

Abbiamo utilizzato dataset in cui le verità di riferimento erano pubblicamente disponibili. Ciò potrebbe aver portato a data poisoning (ovvero gli LLM addestrati sulle verità di riferimento). Tuttavia, abbiamo presupposto che non fosse così, poiché le accuratezze non erano vicine alla perfezione. Per la prossima versione, potremmo considerare l'utilizzo di tweet per i quali le verità di riferimento non sono state pubblicate.

Panoramica dettagliata degli LLM

Tutti gli strumenti, ChatGPT 4.o, 4.5, Claude 3.5, 3.7 e DeepSeek V3, rappresentano progressi significativi nel campo dell'elaborazione del linguaggio naturale (NLP), con applicazioni che spaziano dall'analisi del sentiment all'IA conversazionale. Questi modelli sono tra i più ampiamente riconosciuti per la loro capacità di interpretare, elaborare e generare testo simile a quello umano. Di seguito è riportata una descrizione dettagliata di ciascun modello, che evidenzia le loro capacità uniche e la rilevanza per la classificazione del sentiment e i relativi compiti di machine learning.

ChatGPT 4.o

ChatGPT 4.o, sviluppato da OpenAI, è una versione migliorata del suo predecessore, GPT-3.5, e presenta miglioramenti significativi nell'architettura di deep learning e nella comprensione del linguaggio. Questo modello è ottimizzato per un'ampia gamma di compiti di NLP, inclusi modelli di analisi del sentiment e analisi del sentiment basata sugli aspetti.

Applicazioni nell'analisi del sentiment

ChatGPT 4.o è frequentemente utilizzato nella comunità di ricerca e nell'industria per compiti come:

Analisi del sentiment dei messaggi Twitter per il monitoraggio dei social media.
Classificazione del sentiment del feedback dei clienti nell'e-commerce.
Rilevamento delle emozioni nelle applicazioni per la salute mentale.
Analisi del sentiment basata sugli aspetti per recensioni di prodotti e sondaggi.

Limitazioni

Nonostante i suoi punti di forza, ChatGPT 4.o può occasionalmente sovradattarsi a pattern di sentiment specifici, portando a un'accuratezza ridotta in contesti altamente specifici del dominio.

ChatGPT 4.5

ChatGPT 4.5, un ulteriore sviluppo della serie GPT di OpenAI, offre solide prestazioni in vari compiti di analisi del sentiment. Dimostra una buona comprensione della categorizzazione delle emozioni, ma le sue prestazioni nel rilevamento dell'odio e nella classificazione del sentiment sono relativamente inferiori, il che potrebbe limitarne l'applicazione in determinati contesti altamente sensibili.

Applicazioni nell'analisi del sentiment

ChatGPT 4.5 è spesso utilizzato in:

Strumenti di moderazione per rilevare linguaggio offensivo e incitamento all'odio.
Rilevamento dell'ironia nelle discussioni online e nei commenti alle notizie.
Analisi del sentiment sui social media per valutare l'opinione pubblica su vari argomenti.
Analisi del feedback dei clienti per piattaforme e-commerce, con enfasi sulle emozioni.

Limitazioni

Le prestazioni di ChatGPT 4.5 nell'analisi del sentiment sono ostacolate dalla sua accuratezza relativamente inferiore nella classificazione del sentiment e nel rilevamento dell'odio.

ChatGPT 5.o

ChatGPT 5.o rappresenta la più recente generazione di modelli di OpenAI, con miglioramenti nel ragionamento contestuale, nel rilevamento delle sfumature e nella moderazione dei contenuti. Sebbene la sua accuratezza media corrisponda a quella di Claude 4.5 (75%), il modello si distingue per le sue eccezionali prestazioni nel rilevamento dell'offensività (82%) e nel rilevamento dell'ironia (93%).

Applicazioni nell'analisi del sentiment

ChatGPT 5.o è particolarmente efficace per:

Rilevamento dell'offensività nei forum online e nelle piattaforme di social media, dove la sua accuratezza supera tutti gli altri strumenti.
Analisi dell'ironia e del sarcasmo, supportando ricercatori e aziende nella comprensione di contenuti complessi generati dagli utenti.
Riconoscimento delle emozioni nel feedback del servizio clienti, nel monitoraggio della salute mentale e nel tracciamento del sentiment sui social media.
Classificazione generale del sentiment in dati di sondaggi su larga scala, dove si preferiscono prestazioni equilibrate tra le categorie.

Limitazioni

Nonostante i suoi punti di forza, i risultati più deboli di ChatGPT 5.o nel rilevamento dell'odio (54%) ne riducono l'idoneità per la moderazione ad alto rischio che coinvolge linguaggio tossico o discriminatorio.

Claude 3.7

Claude 3.7 si basa sui punti di forza del suo predecessore, Claude 3.5, offrendo miglioramenti nella comprensione del contesto e nell'accuratezza del sentiment. Con una forte attenzione alle pratiche di IA sicure ed etiche, Claude 3.7 eccelle nel rilevare sentiment complessi, tra cui emozioni, ironia e incitamento all'odio, rendendolo una scelta ideale per applicazioni che richiedono elevati livelli di sensibilità e contesto.

Applicazioni nell'analisi del sentiment

Claude Sonnet 3.7 è altamente efficace per compiti come:

Rilevamento delle emozioni nel feedback dei clienti e nelle applicazioni per la salute mentale.
Rilevamento dell'odio e dell'offensività per la moderazione dei contenuti online, garantendo spazi sicuri sulle piattaforme digitali.
Classificazione del sentiment nelle ricerche di mercato e nella business intelligence.

Limitazioni

Sebbene Claude 3.7 superi tutti i modelli nelle aree chiave del sentiment, le sue prestazioni in scenari altamente specifici del dominio potrebbero ancora incontrare sfide, specialmente con forme sottili di sentiment. Inoltre, la sua accuratezza nel rilevare sentiment legati a indizi contestuali più sfumati o minori potrebbe richiedere ulteriori perfezionamenti.

Claude 3.5

Claude 3.5, creato da Anthropic, è un modello NLP progettato con un'attenzione particolare alla sicurezza, al comportamento etico e alla generazione precisa del testo. È particolarmente adatto per compiti che richiedono sensibilità al contesto e tecniche sfumate di analisi del sentiment.

Applicazioni nell'analisi del sentiment

Claude 3.5 per scenari lavorativi come:

Rilevamento dell'odio per il monitoraggio dei social media e delle piattaforme online.
Rilevamento dell'offensività nei sistemi di moderazione dei contenuti.
Interazioni con il servizio clienti, con enfasi sulla classificazione del sentiment per migliorare l'esperienza utente.
Analisi del sentiment basata sugli aspetti per identificare tendenze di sentiment nella business intelligence.

Limitazioni

Sebbene Claude 3.5 eccella nella comprensione etica e contestuale, a volte sottoperforma nel rilevare sentiment altamente sottili o impliciti rispetto ai suoi concorrenti. Inoltre, il suo dataset di training è meno diversificato di quello di ChatGPT 4.o, il che potrebbe comportare una minore robustezza in alcuni dataset di benchmark.

Claude 4.5

Claude 4.5 si basa sulla serie Claude di Anthropic con miglioramenti nella sensibilità contestuale e nell'interpretabilità. Con una media del 75% nei compiti di analisi del sentiment, Claude 4.5 ha raggiunto la massima accuratezza nel rilevamento delle emozioni (82%), solide prestazioni nell'ironia (95%) e nel rilevamento dell'offensività (81%), ma è risultato carente nel rilevamento dell'odio (50%), il più basso tra tutti i modelli testati.

Applicazioni nell'analisi del sentiment

Claude 4.5 è adatto per:

Rilevamento delle emozioni in applicazioni in cui gli indizi sottili sono fondamentali, come il feedback sanitario o le app per il benessere.
Identificazione di ironia e sarcasmo nel monitoraggio dei social media e nell'opinion mining, dove un'interpretazione sfumata è essenziale.
Rilevamento dell'offensività nella moderazione dei contenuti, fornendo risultati competitivi per costruire spazi online più sicuri.
Classificazione del sentiment nelle ricerche di mercato e nell'analisi del brand, beneficiando del suo rilevamento della polarità equilibrato ma leggermente più forte (69%).

Limitazioni

La bassa accuratezza di Claude 4.5 nel rilevamento dell'odio (50%) limita significativamente la sua utilità in scenari che coinvolgono linguaggio dannoso o tossico. Inoltre, sebbene eccella in alcune categorie, le sue prestazioni non sono uniformi tra i compiti, rendendolo meno affidabile per progetti che richiedono un'accuratezza uniforme in tutte le dimensioni del sentiment.

DeepSeek V3

DeepSeek V3 offre risultati solidi in un'ampia gamma di compiti di analisi del sentiment, ma la sua accuratezza complessiva è inferiore ad altri modelli, specialmente nel rilevamento dell'odio.

Applicazioni nell'analisi del sentiment

DeepSeek V3 è ampiamente utilizzato per:

Rilevamento delle emozioni nelle app per la salute mentale e nel tracciamento del sentiment dei clienti.
Rilevamento dell'ironia nelle conversazioni informali, incluse piattaforme di social media e contenuti generati dagli utenti.
Classificazione di base del sentiment per sondaggi di ricerche di mercato e moduli di feedback.
Moderazione dei contenuti per filtrare il linguaggio offensivo nei forum online.

Limitazioni

Le prestazioni inferiori di DeepSeek V3 nel rilevare contenuti d'odio e le sue capacità di classificazione del sentiment complessivamente più deboli lo rendono meno adatto per applicazioni ad alto rischio come la moderazione dei contenuti su piattaforme sensibili.

Grok 4

Grok è un modello di IA conversazionale sviluppato con un'attenzione particolare all'umorismo, all'interazione sociale e al coinvolgimento dinamico. Nei benchmark di analisi del sentiment, Grok ha raggiunto un'accuratezza media del 71%, classificandosi all'ultimo posto tra tutti i modelli testati.

Applicazioni nell'analisi del sentiment

Grok può essere applicato a:

Rilevamento delle emozioni in applicazioni interattive, dove identificare tono e umore migliora il coinvolgimento dell'utente.
Strumenti di moderazione, in particolare per rilevare contenuti d'odio a un livello di accuratezza moderato (65%).
Rilevamento leggero dell'ironia nel discorso online, sebbene con limitazioni rispetto a modelli più avanzati.
Analisi esplorativa del sentiment in contesti creativi o informali, dove il flusso conversazionale è prioritario rispetto all'alta precisione.

Limitazioni

La debolezza di Grok nella classificazione del sentiment (60%) e la minore accuratezza nel rilevamento dell'ironia (83%) ne limitano l'uso nella ricerca ad alta precisione o nell'analisi commerciale. La sua enfasi progettuale sulla reattività conversazionale rispetto all'accuratezza del benchmark lo rende meno adatto per compiti che richiedono un'affidabilità costante nella categorizzazione del sentiment.

Scopri altri nostri benchmark e approfondimenti basati sui dati nella Ricerca Google.

Aggiungi come fonte preferita

Ulteriori letture

Cita questo benchmark

Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.

Ezgi Arslan, PhD. (2026) - "Test del Benchmark di Analisi del Sentiment: ChatGPT, Claude e DeepSeek". Pubblicato online su AIMultiple.com. Consultato il 15 Giugno 2026, da: https://aimultiple.com/sentiment-analysis-benchmark [Risorsa online]

PhD., E. A. (2026, 15 Giugno). Test del Benchmark di Analisi del Sentiment: ChatGPT, Claude e DeepSeek. AIMultiple. https://aimultiple.com/sentiment-analysis-benchmark

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Test del Benchmark di Analisi del Sentiment: ChatGPT, Claude e DeepSeek}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/sentiment-analysis-benchmark}},
  note   = {AIMultiple. Consultato il 15 Giugno 2026}
}

Collegamenti di riferimento

Cardiff NLP · GitHub

SemEval-2018 Task 1: Affect in Tweets - ACL Anthology

SemEval-2019 Task 5: Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter - ACL Anthology

SemEval-2018 Task 3: Irony Detection in English Tweets - ACL Anthology

SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval) - ACL Anthology

SemEval-2017 Task 4: Sentiment Analysis in Twitter - ACL Anthology

Ezgi Arslan, PhD.

Analista di settore

Segui

Ezgi ha conseguito un dottorato di ricerca in amministrazione aziendale con specializzazione in finanza e lavora come analista di settore presso AIMultiple. Si occupa di ricerca e analisi all'intersezione tra tecnologia e business, con competenze che spaziano dalla sostenibilità all'analisi di sondaggi e sentiment, dalle applicazioni di agenti di intelligenza artificiale in ambito finanziario all'ottimizzazione dei motori di risposta, dalla gestione dei firewall alle tecnologie di approvvigionamento.

Visualizza il profilo completo