Benchmark

Teste de Benchmark de Análise de Sentimentos: ChatGPT, Claude & Qwen

atualizado em 15 jun. 2026

Alcançar uma rotulagem precisa de emoções e sentimentos, bem como detectar ironia, discurso de ódio e ofensividade, continua sendo um desafio, exigindo mais testes e refinamento. Testamos 10 grandes language models em cinco tarefas de sentimento: emoção, discurso de ódio, ironia, ofensividade e sentimento. Classificamo-los pela precisão média nas cinco.

Os resultados destacam distinções claras entre as ferramentas:

GPT 5.5 alcançou a melhor precisão geral (80%),
Minimax M2.7 (72%) registrou o desempenho geral mais baixo.

Resultados experimentais: benchmark de análise de sentimentos

Loading Chart

Classificação: As ferramentas são classificadas de acordo com suas taxas de precisão médias agregadas em todas as categorias testadas: emoção, discurso de ódio, ironia, ofensividade e sentimento.

Para mais detalhes, leia a metodologia do nosso benchmark.

Precisão geral

Combinando todas as tarefas, as pontuações totais de precisão dos modelos oferecem uma visão holística de suas capacidades:

GPT 5.5 ficou em primeiro lugar com 80%. Nunca caiu abaixo de 73% em nenhuma tarefa, o que o tornou o modelo mais consistente no teste.
Claude Sonnet 4.6 ficou em segundo lugar com 79%. Obteve o resultado individual mais alto do benchmark: 82% em discurso de ódio.
Qwen 3.6 Plus e ChatGPT 5.4 mini empataram em terceiro com 78%. O ChatGPT 5.4 mini é o menor modelo próximo ao topo, mas liderou a detecção de ofensividade e empatou em primeiro em ironia.
Kimi k2.6 pontuou 77%, com resultados estáveis e nenhuma tarefa claramente fraca.
Gemini 3.1-pro e GLM 5.1 empataram com 76%. O Gemini 3.1-pro empatou em primeiro na detecção de emoção, mas ficou mal classificado em discurso de ódio.
Claude Opus 4.8 pontuou 74%. Foi prejudicado pela detecção de emoção (68%), sua categoria mais fraca.
Gemini 3.5 Flash pontuou 73%. Seu resultado em discurso de ódio (65%) foi o mais baixo nessa tarefa.
Minimax M2.7 ficou em último com 72%. Pontuou mais baixo em emoção, ironia e ofensividade.

1. Detecção de emoção

A detecção de emoção é uma tarefa desafiadora na análise de sentimentos, muitas vezes exigindo que os modelos discernam pistas sutis na linguagem. Veja como os modelos se saíram:

GPT 5.5 e Gemini 3.1-pro empataram em primeiro com 80%.
Qwen 3.6 Plus seguiu com 79%.
Kimi k2.6 pontuou 78%, e GLM 5.1 pontuou 77%.
ChatGPT 5.4 mini alcançou 76%, e Claude Sonnet 4.6 alcançou 75%.
Gemini 3.5 Flash pontuou 73%.
Claude Opus 4.8 pontuou 68%.
Minimax M2.7 pontuou mais baixo com 66%.

A detecção de emoção teve uma ampla dispersão: 14 pontos entre os modelos melhor e pior. Isso a torna uma das duas tarefas que mais claramente separam os modelos.

2. Detecção de discurso de ódio

Detectar conteúdo odioso é crucial para a classificação de sentimentos no Twitter e outras tarefas de moderação. Os resultados revelaram diferenças notáveis:

Claude Sonnet 4.6 liderou com 82%, a pontuação individual mais alta do benchmark.
GPT 5.5 seguiu de perto com 80%.
Qwen 3.6 Plus pontuou 77%.
Kimi k2.6 e GLM 5.1 ambos pontuaram 76%.
Minimax M2.7 pontuou 75%.
ChatGPT 5.4 mini pontuou 72%.
Gemini 3.1-pro e Claude Opus 4.8 ambos pontuaram 71%.
Gemini 3.5 Flash pontuou mais baixo com 65%.

O discurso de ódio teve a maior dispersão de todas as tarefas: 17 pontos. Se moderação é o seu caso de uso, escolha do topo desta coluna em vez da classificação média.

3. Detecção de ironia

A detecção de ironia é uma área onde a avaliação semântica desempenha um papel fundamental. Ambos os modelos apresentaram alto desempenho no benchmark de análise de sentimentos, mas o GPT-4o emergiu como um líder claro:

GPT 5.5, Claude Sonnet 4.6, Qwen 3.6 Plus e ChatGPT 5.4 mini empataram em primeiro com 91%.
Gemini 3.1-pro, GLM 5.1 e Gemini 3.5 Flash pontuaram cada um 87%.
Claude Opus 4.8 pontuou 86%, e Kimi k2.6 pontuou 85%.
Minimax M2.7 pontuou mais baixo com 82%.

Esta foi a tarefa mais fácil do conjunto. Até a pontuação mais baixa foi 82%. Para trabalhos que dependem de captar ironia ou sarcasmo, qualquer um desses modelos é um ponto de partida seguro.

4. Detecção de ofensividade

Detectar conteúdo ofensivo é fundamental para manter comunidades online saudáveis. Os desempenhos dos modelos no benchmark de análise de sentimentos nesta tarefa foram os seguintes:

ChatGPT 5.4 mini liderou com 75%.
GPT 5.5 pontuou 73%, e Claude Sonnet 4.6 pontuou 72%. Claude Opus 4.8 pontuou 70%.
Qwen 3.6 Plus, Kimi k2.6, Gemini 3.1-pro e GLM 5.1 todos pontuaram 69%.
Gemini 3.5 Flash pontuou 68%.
Minimax M2.7 pontuou mais baixo com 65%.

Nenhum modelo atingiu 76% na métrica de ofensividade. Todo o campo variou de 65% a 75%. O contexto impulsiona esta tarefa, e os casos limítrofes do dataset confundem todos os modelos.

5. Análise de sentimentos

A tarefa abrangente de análise de sentimentos concentrou-se em classificar dados em sentimentos positivos, negativos e neutros. As pontuações de precisão para esta tarefa variaram significativamente entre os modelos:

GPT 5.5, Qwen 3.6 Plus, ChatGPT 5.4 mini e Gemini 3.1-pro empataram em primeiro com 75%.
Kimi k2.6, Claude Opus 4.8, Gemini 3.5 Flash e Minimax M2.7 todos pontuaram 74%.
Claude Sonnet 4.6 pontuou 73%.
GLM 5.1 pontuou mais baixo com 72%.

O intervalo total foi de 3 pontos, de 72% a 75%. Nenhum modelo lidou bem com o sentimento de três vias. Se o projeto precisa de rótulos confiáveis de positivo, negativo e neutro, nenhum desses modelos está pronto para funcionar sem uma verificação humana.

Observações e percepções

As tarefas não são igualmente difíceis

A ironia foi fácil para todos os modelos (82% a 91%). Sentimento e ofensividade foram difíceis para todos os modelos, com todas as pontuações entre 65% e 75%. Escolha um modelo para a tarefa que você realmente tem, não para sua classificação média.

Emoção e discurso de ódio separam melhor os modelos

Essas duas tarefas tiveram as maiores diferenças de pontuação: 14 e 17 pontos. Se o seu caso de uso é rastreamento de emoções ou moderação, a escolha do modelo importa mais aqui do que em qualquer outro lugar.

Uma média alta pode esconder uma tarefa fraca

O GPT 5.5 ficou em primeiro lugar geral e permaneceu forte em todos os aspectos. Mas o Claude Opus 4.8 ficou em oitavo lugar geral, pontuando 86% em ironia. Leia a coluna da sua tarefa, não a média.

Dataset e metodologia do benchmark

Dataset de análise

Usamos o dataset TweetEval, criado para análise de sentimentos em mensagens reais do Twitter.¹ Ele faz parte do trabalho da Association for Computational Linguistics (ACL) sobre avaliação semântica. O dataset vem com conjuntos de treinamento e teste pré-rotulados em cinco tipos de tarefas:

Detecção de emoção: nomear o sentimento em um tweet, como raiva, alegria, otimismo ou tristeza. Exemplo de tweet e rótulo: “#Deppression is real. Partners w/ #depressed people truly dont understand the depth in which they affect us. Add in #anxiety &makes it worse” é rotulado como triste.²
Detecção de discurso de ódio: sinalizar discurso de ódio em um tweet. Exemplo de tweet e rótulo: “Trump wants to deport illegal aliens with ‘no judges or court cases’ #MeToo I am solidly behind this action The thought of someone illegally entering a country & showing no respect for its laws, should be protected by same laws is ludacris! #DeportThemAll” é rotulado como odioso.³
Detecção de ironia: identificar intenção irônica. Exemplo de tweet e rótulo: “People who tell people with anxiety to ‘just stop worrying about it’ are my favorite kind of people #not #educateyourself” é rotulado como ironia.⁴
Detecção de ofensividade: classificar tweets com linguagem ofensiva. Exemplo de tweet e rótulo: “#ConstitutionDay It’s very odd for the alt right conservatives to say that we are ruining the constitution because we want #GunControlNow but they are the ones ruining the constitution getting upset because foreigners are coming to this land who are not White wanting to live” é rotulado como ofensivo.⁵
Classificação de sentimento: atribuir um rótulo positivo, negativo ou neutro. Exemplo de tweet e rótulo: “Can’t wait to try this – Google Earth VR – this stuff really is the future of exploration….” é rotulado como positivo.⁶

Essas tarefas se alinham com abordagens reais de aprendizado de máquina, tornando-as ideais para avaliar os resultados experimentais dos dois modelos.

Modelos testados

Testamos 10 grandes language models, todos através da OpenRouter API para que a configuração fosse a mesma para cada um:

GPT 5.5, ChatGPT 5.4 mini, Claude Sonnet 4.6, Claude Opus 4.8, Gemini 3.1-pro, Gemini 3.5 Flash, Qwen 3.6 Plus, Kimi k2.6, GLM 5.1 e Minimax M2.7.

Configuração experimental

Mantivemos todas as configurações iguais em todos os 10 modelos.

Amostra

Usamos os primeiros 200 tweets do conjunto de teste oficial de cada tarefa, com os rótulos gold do próprio dataset. Os mesmos 200 tweets foram enviados a todos os modelos, então a comparação é de igual para igual.

Prompting

Usamos prompts zero-shot: uma instrução simples de tarefa e o tweet bruto, sem exemplos trabalhados. O modelo retornava um rótulo e nada mais.

Escrevemos os prompts para que não entregassem nada. Não nomeamos o benchmark, não chamamos o modelo de “anotador” nem sugerimos que estava sendo avaliado. Nomear o teste pode mudar a forma como um modelo responde, então deixamos de fora. O prompt de emoção, por exemplo, pedia ao modelo para escolher um entre raiva, alegria, otimismo ou tristeza e responder com essa palavra.

Configurações de geração

Definimos a temperatura como 0, o que torna a saída tão estável quanto o modelo permite. Definimos o limite de tokens como 4.096. O limite alto é importante para modelos de raciocínio: com um limite pequeno, eles gastam todo o orçamento em raciocínio oculto e retornam uma resposta em branco. O espaço extra permite que terminem o raciocínio e ainda imprimam o rótulo. Modelos que não raciocinam respondem em uma palavra curta, então o limite não custa nada ali.

Leitura das respostas

Mapeamos cada resposta para um rótulo em etapas: primeiro uma correspondência exata, depois uma lista curta de sinônimos (por exemplo, “feliz” mapeia para alegria), depois uma busca por qualquer rótulo dentro de uma resposta mais longa. As respostas que não pudemos ler foram contadas como erradas.

Métrica

A pontuação para cada tarefa não é a precisão bruta. Usamos a métrica que os autores do TweetEval definiram para cada tarefa:

Emoção: macro-F1
Sentimento: macro-recall
Discurso de ódio: macro-F1
Ironia: F1 da classe de ironia
Ofensividade: macro-F1

Macro-F1 e macro-recall ponderam cada classe igualmente, não importa com que frequência aparece. Esta é a escolha certa aqui porque classes como ódio ou ironia são raras, e a precisão bruta permitiria que um modelo parecesse bom simplesmente escolhendo o rótulo comum. A coluna da média é a média dessas cinco pontuações.

Confiabilidade

Alguns modelos atingiram limites de taxa durante a execução e perderam algumas chamadas. Reexecutamos as linhas com falha em baixa velocidade para evitar os limites e repetimos isso até que nada falhasse. Os resultados finais não têm chamadas com falha e nem respostas ilegíveis.

Limitações da configuração

Usamos uma fatia de 200 tweets de cada conjunto de teste, não o conjunto completo, então esses números não se alinham com o leaderboard publicado do TweetEval. A comparação entre nossos 10 modelos ainda é válida, porque todos os modelos viram os mesmos tweets.

A fatia de 200 tweets é fixa, não aleatória, então é reproduzível, mas não é uma amostra aleatória. Cada tarefa também usou um único prompt com temperatura 0. Um prompt diferente, ou exemplos few-shot, mudaria os números absolutos.

Usamos datasets com rótulos gold públicos. Isso traz o risco de contaminação, onde um modelo viu os rótulos durante o treinamento. Não podemos descartá-lo, mas as pontuações ficaram bem abaixo do perfeito, o que sugere que não foi um fator importante. Para a próxima versão, planejamos testar tweets cujos rótulos não foram publicados.

Como a amostra é de 200 tweets por tarefa, pequenas diferenças carregam ruído amostral. Tratamos uma diferença de um a dois pontos como empate em vez de classificação.

Deixe nossa equipe automatizar um dos seus processos de negócio com agentes de IA, gratuitamente.

Automatizar um processo

Qual modelo escolher

As pontuações completas estão na tabela acima. Esta seção é mais curta: mapeia necessidades comuns para o modelo que se encaixa.

Melhor escolha geral: GPT 5.5. Ficou em primeiro lugar e permaneceu forte em todas as tarefas, então é a opção padrão segura quando seu trabalho mistura várias tarefas de sentimento.
Moderação de conteúdo e discurso de ódio: Claude Sonnet 4.6. Pontuou mais alto do que qualquer modelo em discurso de ódio. O GPT 5.5 é um segundo colocado próximo.
Detecção de linguagem ofensiva com orçamento limitado: ChatGPT 5.4 mini. Liderou em ofensividade e igualou as melhores pontuações em ironia, o que é raro para um modelo menor e mais barato.
Rastreamento de emoção e sentimento: Gemini 3.1-pro ou Qwen 3.6 Plus. Ambos estão no topo dessas duas colunas. Use-os para trabalho de humor e opinião em vez de moderação.
Ironia e sarcasmo: quase qualquer modelo aqui. As pontuações variaram de 82% a 91%, então esta tarefa raramente define a escolha. Escolha o modelo mais barato que atenda às suas outras necessidades.
Uso estável e geral: Kimi k2.6. Nenhuma tarefa de destaque, mas também nenhuma fraca.
Use com cuidado para trabalhos de alto risco: Gemini 3.5 Flash e Minimax M2.7 ficaram na parte inferior. O Gemini 3.5 Flash foi o mais fraco em discurso de ódio, então evite-o para moderação em particular.

Um lembrete que percorre tudo isso: leia a coluna da sua tarefa, não a média. Um modelo pode ficar no meio da tabela geral e ainda liderar a única tarefa que importa para você.

Leitura adicional

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.

Adicionar como fonte preferencial

Cite este benchmark

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Ezgi Arslan, PhD. (2026) - "Teste de Benchmark de Análise de Sentimentos: ChatGPT, Claude & Qwen". Publicado on-line em AIMultiple.com. Acessado em 15 Junho 2026, em: https://aimultiple.com/sentiment-analysis-benchmark [Recurso on-line]

PhD., E. A. (2026, 15 Junho). Teste de Benchmark de Análise de Sentimentos: ChatGPT, Claude & Qwen. AIMultiple. https://aimultiple.com/sentiment-analysis-benchmark

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Teste de Benchmark de Análise de Sentimentos: ChatGPT, Claude & Qwen}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/sentiment-analysis-benchmark}},
  note   = {AIMultiple. Acessado em 15 Junho 2026}
}

Links de referência

Cardiff NLP · GitHub

SemEval-2018 Task 1: Affect in Tweets - ACL Anthology

SemEval-2019 Task 5: Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter - ACL Anthology

SemEval-2018 Task 3: Irony Detection in English Tweets - ACL Anthology

SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval) - ACL Anthology

SemEval-2017 Task 4: Sentiment Analysis in Twitter - ACL Anthology

Ezgi Arslan, PhD.

Analista do Setor

Ezgi é doutora em Administração de Empresas com especialização em finanças e atua como Analista do Setor na AIMultiple. Ela impulsiona pesquisas e insights na interseção entre tecnologia e negócios, com expertise abrangendo sustentabilidade, análise de pesquisas e sentimentos, aplicações de agentes de IA em finanças, otimização de mecanismos de resposta, gerenciamento de firewall e tecnologias de procurement.

Ver perfil completo