Alcançar o rotulagem precisa de emoções e sentimentos, bem como detectar ironia, hostilidade e ofensividade, continua sendo um desafio, exigindo mais testes e refinamento. Avaliamos oito LLMs, Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 e Grok 4, em cinco tarefas-chave relacionadas ao sentimento.
Os resultados destacam distinções claras entre as ferramentas:
- Claude 3.7 alcançou a melhor precisão geral (79%),
- ChatGPT 4.5 e DeepSeek V3 (70%) registraram o menor desempenho geral.
Resultados experimentais: benchmark de análise de sentimento
Classificação: As ferramentas são classificadas de acordo com suas taxas de precisão média agregadas em todas as categorias testadas: emoção, hostilidade, ironia, ofensividade e sentimento.
Para mais detalhes, leia o metodologia do nosso benchmark.
Precisão geral
Combinando todas as tarefas, as pontuações de precisão total dos modelos fornecem uma visão holística de suas capacidades:
- Claude 3.7 superou todas as outras ferramentas em todas as categorias, exceto detecção de ironia. A precisão média do Claude 3.7 para as 5 categorias é de quase 80%.
- Claude 3.5‘s desempenho variou entre 67%-98%, mostrando melhorias notáveis em testes de menor volume.
- ChatGPT 5.o Auto atingiu uma média geral de 75%, posicionando-se como um desempenho equilibrado em todas as categorias.
- Claude 4.5 alcançou uma precisão geral de 75%. Mostrou força na detecção de emoção, ironia e ofensividade, mas teve desempenho inferior na classificação de hostilidade, o que reduziu seu equilíbrio.
- ChatGPT 4.o, com precisão de rotulagem geral variando entre 64%-98%, é mais bem-sucedido do que qualquer outra ferramenta na categoria de detecção de ironia.
- Grok 4 atingiu uma precisão geral de 71%. Embora tenha se saído bem na detecção de emoção, suas limitações na classificação de ironia, ofensividade e sentimento reduziram sua competitividade.
- DeepSeek V3‘s precisão na detecção de diferentes emoções/sentimentos varia entre 52%-92%.
- ChatGPT 4.5 traz o pior desempenho em análise de sentimento para nossa amostra, com média de 70%.
1. Detecção de emoção
A detecção de emoção é uma tarefa desafiadora em análise de sentimento, muitas vezes exigindo que os modelos discernam pistas sutis na linguagem. Veja como os modelos se saíram:
- ChatGPT 4.o alcançou 72% de precisão ao analisar 50 declarações.
- ChatGPT 4.5 compartilhou a maior precisão na detecção de emoção com Claude 3.7, com uma taxa de sucesso de ~80% ao analisar 50 declarações.
- ChatGPT 5.o Auto igualou a maior taxa de sucesso com 80% de precisão, colocando-o no mesmo nível do Claude 3.7 e do ChatGPT 4.5.
- Claude 3.5, por outro lado, marcou 77,5%.
- Claude 3.7 alcançou a maior taxa de sucesso de ~80% na detecção de emoção ao analisar 50 declarações.
- Claude 4.5 superou ligeiramente todos os outros nesta tarefa, atingindo a pontuação máxima de 82% de precisão.
- DeepSeek V3 analisa emoções nas 50 declarações dadas de cada vez com uma precisão de ~76%.
- Grok 4 demonstrou forte desempenho, alcançando 80% de precisão na detecção de emoção.
2. Detecção de hostilidade
Detectar conteúdo hostil é crucial para a classificação de sentimento no Twitter e outras tarefas de moderação. Os resultados revelaram diferenças notáveis:
- ChatGPT 4.o exibiu uma precisão de 64%.
- ChatGPT 4.5 apresentou uma taxa de sucesso de ~57% de precisão na detecção de hostilidade em nossa amostra.
- ChatGPT 5.o Auto mostrou sucesso limitado nesta tarefa com 54% de precisão.
- Claude 3.5 mostrou um sucesso de 67,5% na detecção de hostilidade.
- Claude 3.7, com uma taxa de sucesso de 78%, avaliou os tweets para detectar declarações hostis com a maior precisão entre as outras ferramentas.
- Claude 4.5 registrou o resultado mais fraco entre todos os modelos, com uma taxa de precisão de 50% na detecção de conteúdo hostil.
- DeepSeek V3 alcançou a menor pontuação no benchmark, com apenas 52% de sucesso na detecção de hostilidade.
- Grok 4 pontuou moderadamente bem com 65%.
3. Detecção de ironia
A detecção de ironia é uma área onde a avaliação semântica desempenha um papel fundamental. Ambos os modelos entregaram alto desempenho de benchmark de análise de sentimento, mas GPT-4o emergiu como um líder claro:
- ChatGPT 4.o manteve uma precisão excepcional de 98% na identificação de expressões irônicas. Este sucesso pode ser atribuído à sua capacidade de interpretar polaridade negativa dentro de cenários complexos de classificação de texto.
- ChatGPT 4.5, com uma taxa de sucesso de 87%, previu a ironia do texto dado da maneira menos bem-sucedida entre as outras ferramentas que testamos nesta comparação para detecção de emoção/sentimento.
- ChatGPT 5.o Auto demonstrou uma capacidade sólida de detectar ironia, alcançando 93% de precisão.
- Claude 3.5 marcou ligeiramente abaixo do ChatGPT 4.o, alcançando 97% de precisão com 50 declarações.
- Claude 3.7 detectou ironia com uma precisão de ~96% para o texto dado.
- Claude 4.5 entregou um dos maiores desempenhos na detecção de ironia, com uma taxa de precisão de 95%.
- DeepSeek V3 alcançou uma taxa de sucesso de ~92% na detecção de ironia para os tweets dados.
- Grok 4 ficou para trás nesta área, marcando 83%, o menor de todos os modelos testados.
Dada a alta precisão geral dos modelos, todos são bem adequados para mensagens do Twitter envolvendo conteúdo irônico ou sarcástico. No entanto, o sucesso do GPT-4o lhe dá uma vantagem significativa para aplicações que exigem um benchmark de confiabilidade padrão para sentimento.
4. Detecção de ofensividade
Detectar conteúdo ofensivo é crítico para manter comunidades online saudáveis. Os desempenhos de benchmark de análise de sentimento dos modelos nesta tarefa foram os seguintes:
- ChatGPT 4.o marcou 76% com tamanhos de 50 declarações. Isso está alinhado com suas fortes abordagens de aprendizado de máquina e capacidade de se adaptar a variações no volume de dados.
- ChatGPT 4.5 alcançou ~75% de taxa de sucesso na detecção de ofensividade para Tweets dados.
- ChatGPT 5.o Auto alcançou a maior taxa de sucesso entre todas as ferramentas para detecção de ofensividade, com uma precisão de 82%
- Claude 3.5 apresentou a menor precisão na detecção de ofensividade entre todas as cinco ferramentas, com uma taxa de sucesso de ~67% de precisão com 50 declarações.
- Claude 3.7 marcou a maior detecção de ofensividade em nossa amostra com uma taxa de sucesso de ~77%.
- Claude 4.5 detectou ofensividade com 81%, reforçando sua força nesta tarefa.
- DeepSeek V3 detectou declarações ofensivas com uma precisão de 69%.
- Grok 4 alcançou um modesto 67%, classificando-se entre os desempenhos mais fracos nesta categoria.
Estes resultados sublinham a importância do contexto e do treinamento no design de modelos para detecção de linguagem ofensiva, onde padrões no conjunto de dados podem impactar significativamente os resultados.
5. Análise de sentimento
A tarefa abrangente de análise de sentimento focou na classificação de dados em sentimentos positivos, negativos e neutros. As pontuações de precisão para esta tarefa variaram significativamente entre os modelos:
- ChatGPT 4.o marcou uma taxa de sucesso de 64%.
- ChatGPT 4.5, com a menor taxa de sucesso de menos de 54%, apresentou a menor precisão na classificação de sentimento no Twitter.
- ChatGPT 5.o Auto marcou 67% na classificação geral de sentimento, colocando-o na faixa intermediária em comparação com outras ferramentas.
- Claude 3.5 mostrou melhor desempenho em 50 declarações, com uma precisão de 68%.
- Claude 3.7, com uma taxa de sucesso de ~68%, compartilhou o melhor desempenho com Claude 3.5 na detecção de sentimento.
- Claude 4.5 alcançou o maior desempenho com uma taxa de precisão de 69%.
- DeepSeek V3 marcou uma taxa de precisão de 64% na detecção de sentimentos positivos, negativos e neutros.
- Grok 4 mostrou baixo desempenho, com apenas 60% de precisão.
Nenhum dos modelos demonstrou competência no manuseio da classificação de sentimento, cuja taxa de sucesso variou de ~54% a 69%.
Observações e insights
Impacto do volume de entrada
Ambos os modelos mostraram desempenho de benchmark de análise de sentimento melhorado com volumes de entrada menores em algumas tarefas, enfatizando a importância de reduzir o ruído em dados de treinamento para tarefas como detecção de hostilidade e classificação de sentimento.
Forças específicas da tarefa
GPT-4o dominou na detecção de ironia e se saiu consistentemente bem em todas as tarefas. Claude 3.5, embora ligeiramente menos consistente, se destacou em tarefas como detecção de emoção, especialmente com volumes de entrada maiores.
Implicações mais amplas
Estes resultados experimentais validam a eficácia do uso de conjuntos de dados de benchmark como TweetEval para pesquisa de classificação de texto. As descobertas podem orientar a comunidade de pesquisa na seleção do modelo certo com base em seu caso de uso específico, seja envolvendo a detecção de intensidade de sentimento matizada ou analisando polaridade negativa em mensagens do Twitter.
Conjunto de dados de benchmark e metodologia
Conjunto de dados de análise
O conjunto de dados TweetEval foi selecionado devido à sua relevância para técnicas de análise de sentimento aplicadas a mensagens reais do Twitter.1 O conjunto de dados faz parte da iniciativa da associação de linguística computacional (ACL) e é amplamente utilizado em avaliação semântica e tarefas de classificação de texto. Consiste em dados de treinamento pré-rotulados e conjuntos de teste cobrindo várias dimensões de sentimento e compreensão contextual:
- Detecção de emoção: Identificar tons emocionais como raiva, alegria, otimismo ou tristeza em tweets.
Exemplo de tweet e rótulo: O tweet “#Deppression é real. Parceiros com #depressed pessoas realmente não entendem a profundidade na qual eles nos afetam. Adicione #anxiety & torna pior” é rotulado como triste.2
- Detecção de hostilidade: Avaliar a presença de discurso de ódio em tweets dados.
Exemplo de tweet e rótulo: O tweet “Trump quer deportar imigrantes ilegais com 'sem juízes ou processos judiciais' #MeTooEu estou firmemente atrás desta açãoO pensamento de alguém entrando ilegalmente em um país & mostrando nenhum respeito por suas leis, deve ser protegido pelas mesmas leis é ridículo!#DeportThemAll” é rotulado como hostil.3
- Detecção de ironia: Reconhecer intenção irônica em conteúdo textual.
Exemplo de tweet e rótulo: O tweet “Pessoas que dizem às pessoas com ansiedade para 'apenas parar de se preocupar com isso' são o meu tipo favorito de pessoas #not #educateyourself” é rotulado como ironia.4
- Detecção de ofensividade: Classificar tweets com linguagem ofensiva.
Exemplo de tweet e rótulo: O tweet “#ConstitutionDay É muito estranho para os conservadores da direita alternativa dizer que estamos arruinando a constituição apenas porque queremos #GunControlNow mas eles são os que estão arruinando a constituição ficando chateados porque estrangeiros estão vindo para esta terra que não são Brancos querendo viver” é rotulado como ofensivo.5
- Classificação de sentimento: Atribuir rótulos positivos, negativos ou neutros a tweets.
Exemplo de tweet e rótulo: O tweet “Mal posso esperar para experimentar isso – Google Earth VR – isso realmente é o futuro da exploração….” é rotulado como positivo.6
Estas tarefas alinham-se com abordagens reais de aprendizado de máquina, tornando-as ideais para avaliar os resultados experimentais dos dois modelos.
Metodologia de análise
Este benchmark compara oito modelos de linguagem grandes de última geração (LLMs): Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.o, ChatGPT 4.5, ChatGPT 5.o, DeepSeek V3 e Grok 4.
Configuração experimental
Para garantir consistência e confiabilidade nos experimentos, a seguinte metodologia foi empregada:
Volume de entrada
- Dois volumes de entrada foram testados: 50 tweets e 10 tweets por tarefa.
- Esta variação visou determinar como o tamanho da entrada impacta o desempenho do modelo, particularmente em tarefas como análise de sentimento baseada e detecção de hostilidade, onde o volume de dados pode influenciar a precisão.
Avaliação específica da tarefa
Cada tarefa do conjunto de dados TweetEval foi testada separadamente. As tarefas e saídas correspondentes foram analisadas usando os modelos de análise de sentimento dos modelos, e as pontuações de precisão foram registradas.
Métricas utilizadas
Pontuações de precisão foram computadas para cada tarefa para garantir resultados experimentais confiáveis.
Limitações da configuração
Utilizamos conjuntos de dados onde as verdades fundamentais estavam publicamente disponíveis. Isso pode ter levado ao envenenamento de dados (ou seja, LLMs sendo treinados na verdade fundamental). No entanto, assumimos que este não é o caso, já que as precisões não estavam próximas do perfeito. Para a próxima versão, podemos considerar usar tweets para os quais a verdade fundamental não foi publicada.
Visão geral detalhada dos LLMs
Todas as ferramentas, ChatGPT 4.o, 4.5, Claude 3.5, 3.7 e DeepSeek V3, representam avanços significativos no campo do processamento de linguagem natural (NLP), com aplicações que vão desde análise de sentimento até IA conversacional. Estes modelos estão entre os mais amplamente reconhecidos por sua capacidade de interpretar, processar e gerar texto semelhante ao humano. Abaixo está uma descrição detalhada de cada modelo, destacando suas capacidades únicas e relevância para classificação de sentimento e tarefas relacionadas de aprendizado de máquina.
ChatGPT 4.o
ChatGPT 4.o, desenvolvido pela OpenAI, é uma versão aprimorada de seu predecessor, GPT-3.5, e apresenta melhorias significativas na arquitetura de aprendizado profundo e compreensão de linguagem. Este modelo é otimizado para uma ampla gama de tarefas de NLP, incluindo modelos de análise de sentimento e análise de sentimento baseada em aspecto.
Aplicações em análise de sentimento
ChatGPT 4.o é frequentemente usado na comunidade de pesquisa e indústria para tarefas como:
- Mensagens do Twitter análise de sentimento para monitoramento de mídia social.
- Classificação de sentimento de feedback de clientes no comércio eletrônico.
- Detecção de emoção em aplicações de saúde mental.
- Análise de sentimento baseada em aspecto para avaliações de produtos e pesquisas.
Limitações
Apesar de suas forças, ChatGPT 4.o pode ocasionalmente superajustar a padrões de sentimento específicos, levando a uma precisão reduzida em contextos altamente específicos de domínio.
ChatGPT 4.5
ChatGPT 4.5, um desenvolvimento adicional da série GPT da OpenAI, oferece desempenho sólido em várias tarefas de análise de sentimento. Demonstra uma boa compreensão da categorização de emoção, mas seu desempenho na detecção de hostilidade e classificação de sentimento é relativamente mais baixo, o que pode limitar sua aplicação em certos contextos altamente sensíveis.
Aplicações em análise de sentimento
ChatGPT 4.5 é frequentemente usado em:
- Ferramentas de moderação para detectar linguagem ofensiva e discurso de ódio.
- Detecção de ironia em discussões online e comentários de notícias.
- Análise de sentimento de mídia social para avaliar a opinião pública sobre vários tópicos.
- Análise de feedback de clientes para plataformas de comércio eletrônico, com ênfase em emoções.
Limitações
O desempenho do ChatGPT 4.5 em análise de sentimento é prejudicado por sua precisão relativamente mais baixa na classificação de sentimento e detecção de hostilidade.
ChatGPT 5.o
ChatGPT 5.o representa a mais nova geração de modelos da OpenAI, com melhorias no raciocínio contextual, detecção de nuances e moderação de conteúdo. Embora sua precisão média corresponda à do Claude 4.5 (75%), o modelo se destaca pelo desempenho excepcional na detecção de ofensividade (82%) e detecção de ironia (93%).
Aplicações em análise de sentimento
ChatGPT 5.o é particularmente eficaz para:
- Detecção de ofensividade em fóruns online e plataformas de mídia social, onde sua precisão supera todas as outras ferramentas.
- Análise de ironia e sarcasmo, apoiando pesquisadores e empresas na compreensão de conteúdo gerado pelo usuário complexo.
- Reconhecimento de emoção em feedback de atendimento ao cliente, monitoramento de saúde mental e rastreamento de sentimento em mídia social.
- Classificação geral de sentimento em dados de pesquisa em grande escala, onde o desempenho equilibrado entre categorias é preferido.
Limitações
Apesar de suas forças, os resultados mais fracos do ChatGPT 5.o na detecção de hostilidade (54%) reduzem sua adequação para moderação de alto risco envolvendo linguagem tóxica ou discriminatória.
Claude 3.7
Claude 3.7 constrói sobre as forças de seu predecessor, Claude 3.5, oferecendo melhorias na compreensão de contexto e precisão de sentimento. Com um forte foco em práticas de IA seguras e éticas, Claude 3.7 se destaca na detecção de sentimento complexo, incluindo emoção, ironia e discurso de ódio, tornando-o uma escolha ideal para aplicações que exigem altos níveis de sensibilidade e contexto.
Aplicações em análise de sentimento
Claude Sonnet 3.7 é altamente eficaz para tarefas como:
- Detecção de emoção em feedback de clientes e aplicações de saúde mental.
- Detecção de hostilidade e ofensividade para moderação de conteúdo online, garantindo espaços seguros em plataformas digitais.
- Classificação de sentimento em pesquisa de mercado e inteligência de negócios.
Limitações
Embora Claude 3.7 supere todos os modelos em áreas-chave de sentimento, seu desempenho em cenários altamente específicos de domínio ainda pode enfrentar desafios, especialmente com formas sutis de sentimento. Além disso, sua precisão na detecção de sentimento relacionada a pistas contextuais mais nuances ou menores pode exigir mais refinamento.
Claude 3.5
Claude 3.5, criado pela Anthropic, é um modelo de NLP projetado com foco em segurança, comportamento ético e geração de texto precisa. É particularmente adequado para tarefas que exigem sensibilidade ao contexto e técnicas de análise de sentimento matizadas.
Aplicações em análise de sentimento
Claude 3.5 para trabalhar em cenários como:
- Detecção de hostilidade para monitoramento de mídia social e plataformas online.
- Detecção de ofensividade em sistemas de moderação de conteúdo.
- Atendimento ao cliente interações, com ênfase na classificação de sentimento para melhorar a experiência do usuário.
- Análise de sentimento baseada em aspecto para identificar tendências de sentimento em inteligência de negócios.
Limitações
Embora Claude 3.5 se destaque na compreensão ética e contextual, às vezes tem desempenho inferior na detecção de sentimentos altamente sutis ou implícitos em comparação com seus concorrentes. Além disso, seu conjunto de dados de treinamento é menos diversificado do que o do ChatGPT 4.o, o que pode resultar em robustez reduzida em alguns conjuntos de dados de benchmark.
Claude 4.5
Claude 4.5 constrói sobre a série Anthropic Claude com melhorias na sensibilidade contextual e interpretabilidade. Com uma média de 75% em tarefas de análise de sentimento, Claude 4.5 alcançou a maior precisão na detecção de emoção (82%), forte desempenho em ironia (95%) e detecção de ofensividade (81%), mas ficou aquém na detecção de hostilidade (50%), o menor entre todos os modelos testados.
Aplicações em análise de sentimento
Claude 4.5 é bem adequado para:
- Detecção de emoção em aplicações onde pistas sutis são críticas, como feedback de saúde ou aplicativos de bem-estar.
- Identificação de ironia e sarcasmo em monitoramento de mídia social e mineração de opinião, onde a interpretação matizada é essencial.
- Detecção de ofensividade em moderação de conteúdo, fornecendo resultados competitivos para construir espaços online mais seguros.
- Classificação de sentimento em pesquisa de mercado e análise de marca, beneficiando-se de sua detecção de polaridade equilibrada, mas ligeiramente mais forte (69%).
Limitações
A baixa precisão do Claude 4.5 na detecção de hostilidade (50%) limita significativamente sua utilidade em cenários que envolvem discurso prejudicial ou tóxico. Além disso, embora se destaque em certas categorias, seu desempenho é desigual entre as tarefas, tornando-o menos confiável para projetos que exigem precisão uniforme em todas as dimensões de sentimento.
DeepSeek V3
DeepSeek V3 oferece resultados sólidos em uma ampla gama de tarefas de análise de sentimento, mas sua precisão geral fica atrás de outros modelos, especialmente na detecção de hostilidade.
Aplicações em análise de sentimento
DeepSeek V3 é amplamente utilizado para:
- Detecção de emoção em aplicativos de saúde mental e rastreamento de sentimento de clientes.
- Detecção de ironia em conversas casuais, incluindo plataformas de mídia social e conteúdo gerado pelo usuário.
- Classificação básica de sentimento para pesquisas de pesquisa de mercado e formulários de feedback.
- Moderação de conteúdo para filtrar linguagem ofensiva em fóruns online.
Limitações
O desempenho mais baixo do DeepSeek V3 na detecção de conteúdo hostil e suas capacidades de classificação de sentimento geral relativamente mais fracas o tornam menos adequado para aplicações de alto risco, como moderação de conteúdo em plataformas sensíveis.
Grok 4
Grok é um modelo de IA conversacional desenvolvido com foco em humor, interação social e engajamento dinâmico. Em benchmarks de análise de sentimento, Grok alcançou uma precisão média de 71%, onde ficou em último lugar entre todos os modelos testados.
Aplicações em análise de sentimento
Grok pode ser aplicado a:
- Detecção de emoção em aplicações interativas, onde identificar tom e humor melhora o engajamento do usuário.
- Ferramentas de moderação, particularmente para detectar conteúdo hostil em um nível de precisão moderado (65%).
- Detecção de ironia leve em discurso online, embora com limitações em comparação com modelos mais avançados.
- Análise de sentimento exploratória em configurações criativas ou informais, onde o fluxo conversacional é priorizado sobre alta precisão.
Limitações
A fraqueza do Grok na classificação de sentimento (60%) e a menor precisão na detecção de ironia (83%) restringem seu uso em pesquisa de alta precisão ou análises comerciais. Seu ênfase de design na responsividade conversacional sobre precisão de benchmark o torna menos adequado para tarefas que exigem confiabilidade consistente na categorização de sentimento.
Leitura adicional
- Análise de Sentimento
- Análise de Sentimento ChatGPT
- Serviços de Análise de Sentimento
- Detecção de Resenha Falsa
Cite este benchmark
Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.
@misc{phd2026,
author = {PhD., Ezgi Arslan,},
title = {{Teste de Benchmark de Análise de Sentimento: ChatGPT, Claude & DeepSeek}},
year = {2026},
month = jun,
howpublished = {\url{https://aimultiple.com/sentiment-analysis-benchmark}},
note = {AIMultiple. Retrieved Junho 15, 2026}
}
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios. Os comentários são deixados em seu idioma original.