A obtenção de uma rotulagem precisa de emoções e sentimentos, bem como a detecção de ironia, ódio e ofensividade, continua sendo um desafio, exigindo mais testes e aprimoramento. Avaliamos oito modelos de linguagem (LLMs): Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 e Grok 4, em cinco tarefas principais relacionadas a sentimentos.
Os resultados destacam distinções claras entre as ferramentas:
- Claude 3.7 alcançou a melhor precisão geral (79%),
- ChatGPT 4.5 e DeepSeek V3 (70%) registraram o desempenho geral mais baixo.
Resultados experimentais: avaliação comparativa de análise de sentimentos
Classificação : As ferramentas são classificadas de acordo com suas taxas médias de precisão, agregadas em todas as categorias testadas: emoção, ódio, ironia, ofensividade e sentimento.
Para obter mais detalhes, leia a metodologia de nossa avaliação comparativa .
Precisão geral
Ao combinar todas as tarefas, as pontuações de precisão total dos modelos fornecem uma visão holística de suas capacidades:
- A ferramenta Claude 3.7 superou todas as outras ferramentas em todas as categorias, exceto na detecção de ironia. A precisão média da ferramenta Claude 3.7 para as 5 categorias é de quase 80%.
- O desempenho do Claude 3.5 variou entre 67% e 98%, mostrando melhorias notáveis em testes com menor volume de dados.
- O ChatGPT 5.0 Auto alcançou uma média geral de 75%, posicionando-se como um produto de desempenho equilibrado em todas as categorias.
- Claude 4.5 alcançou uma precisão geral de 75%. Demonstrou força na detecção de emoções, ironia e ofensividade, mas teve um desempenho inferior na classificação de ódio, o que reduziu seu equilíbrio.
- O ChatGPT 4.0 , com uma precisão geral de rotulagem que varia entre 64% e 98%, é mais eficaz do que qualquer outra ferramenta na categoria de detecção de ironia.
- O Grok 4 alcançou uma precisão geral de 71%. Embora tenha apresentado bom desempenho na detecção de emoções, suas limitações na classificação de ironia, ofensividade e sentimento reduziram sua competitividade.
- A precisão do modelo DeepSeek V3 na detecção de diferentes emoções/sentimentos varia entre 52% e 92%.
- O ChatGPT 4.5 apresentou o pior desempenho em análise de sentimentos em nossa amostra, com uma média de 70%.
1. Detecção de emoções
A detecção de emoções é uma tarefa desafiadora na análise de sentimentos , frequentemente exigindo que os modelos discernam nuances sutis na linguagem. Veja como os modelos se saíram:
- O ChatGPT 4.0 alcançou uma precisão de 72% ao analisar 50 declarações.
- O ChatGPT 4.5 compartilhou a maior precisão na detecção de emoções com Claude 3.7, com uma taxa de sucesso de aproximadamente 80% ao analisar 50 declarações.
- O ChatGPT 5.0 Auto obteve a maior taxa de sucesso com 80% de precisão, ficando em pé de igualdade com Claude 3.7 e ChatGPT 4.5.
- Claude 3.5 , por outro lado, obteve 77,5%.
- Claude 3.7 alcançou a maior taxa de sucesso, de aproximadamente 80%, na detecção de emoções ao analisar 50 declarações.
- Claude 4.5 teve um desempenho ligeiramente superior aos demais nesta tarefa, alcançando a pontuação máxima de 82% de precisão.
- DeepSeek V3 analisa as emoções em 50 afirmações por vez com uma precisão de aproximadamente 76%.
- O Grok 4 demonstrou um desempenho sólido, atingindo 80% de precisão na detecção de emoções.
2. Detecção de ódio
A detecção de conteúdo odioso é crucial para a classificação de sentimentos no Twitter e outras tarefas de moderação. Os resultados revelaram diferenças notáveis:
- O ChatGPT 4.0 apresentou uma precisão de 64%.
- O ChatGPT 4.5 apresentou uma taxa de sucesso de aproximadamente 57% de precisão na detecção de discurso de ódio em nossa amostra.
- O ChatGPT 5.0 Auto apresentou sucesso limitado nessa tarefa, com uma precisão de 54%.
- Claude 3.5 apresentou uma taxa de sucesso de 67,5% na detecção de sentimentos de ódio.
- Claude 3.7 , com uma taxa de sucesso de 78%, avaliou os tweets para detectar declarações de ódio com a maior precisão entre outras ferramentas.
- Claude 4.5 apresentou o pior resultado entre todos os modelos, com uma taxa de acerto de 50% na detecção de conteúdo de ódio.
- DeepSeek V3 obteve a pontuação mais baixa no teste de referência, com apenas 52% de sucesso na detecção de discurso de ódio.
- Grok 4 obteve uma pontuação razoavelmente boa, de 65%.
3. Detecção de ironia
A detecção de ironia é uma área em que a avaliação semântica desempenha um papel fundamental. Ambos os modelos apresentaram alto desempenho em análises de sentimento, mas o modelo GPT-4o se destacou como o melhor.
- O ChatGPT 4.0 manteve uma precisão excepcional de 98% na identificação de expressões irônicas. Esse sucesso pode ser atribuído à sua capacidade de interpretar polaridade negativa em cenários complexos de classificação de texto.
- O ChatGPT 4.5 , com uma taxa de sucesso de 87%, previu a ironia do texto fornecido da maneira menos eficaz entre as outras ferramentas que testamos nesta comparação para detecção de emoções/sentimentos.
- O ChatGPT 5.0 Auto demonstrou uma sólida capacidade de detectar ironia, atingindo 93% de precisão.
- Claude 3.5 obteve uma pontuação ligeiramente inferior à do ChatGPT 4.0, alcançando 97% de precisão com 50 afirmações.
- Claude 3.7 detectou ironia com uma precisão de aproximadamente 96% para o texto fornecido.
- Claude 4.5 apresentou um dos melhores desempenhos na detecção de ironia, com uma taxa de precisão de 95%.
- DeepSeek V3 alcançou uma taxa de sucesso de aproximadamente 92% na detecção de ironia para os tweets fornecidos.
- O Grok 4 ficou para trás nesta área, obtendo 83%, a pontuação mais baixa entre todos os modelos testados.
Dada a alta precisão geral dos modelos, todos são adequados para mensagens do Twitter que envolvam conteúdo irônico ou sarcástico. No entanto, o sucesso do modelo GPT-4o confere-lhe uma vantagem significativa para aplicações que exigem um padrão de confiabilidade para análise de sentimentos.
4. Detecção de ofensividade
A detecção de conteúdo ofensivo é crucial para a manutenção de comunidades online saudáveis. O desempenho dos modelos de análise de sentimento nesta tarefa foi o seguinte:
- O ChatGPT 4.0 obteve uma pontuação de 76% com 50 tamanhos de declaração. Isso está em consonância com suas sólidas abordagens de aprendizado de máquina e sua capacidade de adaptação a variações no volume de dados.
- O ChatGPT 4.5 alcançou uma taxa de sucesso de aproximadamente 75% na detecção de conteúdo ofensivo em Tweets específicos.
- O ChatGPT 5.0 Auto obteve a maior taxa de sucesso entre todas as ferramentas para detecção de conteúdo ofensivo, com uma precisão de 82%.
- Claude 3.5 apresentou a menor precisão na detecção de conteúdo ofensivo entre todas as cinco ferramentas, com uma taxa de sucesso de aproximadamente 67% em 50 declarações.
- Claude 3.7 obteve a maior pontuação de detecção de ofensividade em nossa amostra, com uma taxa de sucesso de aproximadamente 77%.
- Claude 4.5 detectou ofensividade com 81% de precisão, reforçando sua eficácia nessa tarefa.
- DeepSeek V3 detectou declarações ofensivas com uma precisão de 69%.
- Grok 4 alcançou uma modesta pontuação de 67%, ficando entre os jogos com pior desempenho nesta categoria.
Esses resultados reforçam a importância do contexto e do treinamento no desenvolvimento de modelos para detecção de linguagem ofensiva, onde padrões no conjunto de dados podem impactar significativamente os resultados.
5. Análise de sentimentos
A tarefa geral de análise de sentimentos focou na classificação dos dados em sentimentos positivos, negativos e neutros. Os índices de precisão para essa tarefa variaram significativamente entre os modelos:
- O ChatGPT 4.0 obteve uma taxa de sucesso de 64%.
- O ChatGPT 4.5 , com a menor taxa de sucesso, inferior a 54%, apresentou a menor precisão na classificação de sentimentos no Twitter.
- O ChatGPT 5.0 Auto obteve 67% de acerto na classificação geral de sentimentos, posicionando-se em uma posição intermediária em comparação com outras ferramentas.
- O Claude 3.5 apresentou melhor desempenho com 50 afirmações, com uma precisão de 68%.
- Claude 3.7 , com uma taxa de sucesso de aproximadamente 68%, apresentou o melhor desempenho em detecção de sentimentos, juntamente com Claude 3.5.
- Claude 4.5 obteve o melhor desempenho, com uma taxa de precisão de 69%.
- DeepSeek V3 obteve uma taxa de precisão de 64% na detecção de sentimentos positivos, negativos e neutros.
- O Grok 4 apresentou baixo desempenho, com apenas 60% de precisão.
Nenhum dos modelos demonstrou competência no processamento da classificação de sentimentos, cuja taxa de sucesso variou de aproximadamente 54% a 69%.
Observações e percepções
Impacto do volume de entrada
Ambos os modelos apresentaram melhor desempenho em análises de sentimento com volumes de entrada menores em algumas tarefas, enfatizando a importância de reduzir o ruído nos dados de treinamento para tarefas como detecção de ódio e classificação de sentimentos.
pontos fortes específicos da tarefa
O modelo GPT-4o dominou na detecção de ironia e teve um desempenho consistentemente bom em todas as tarefas. O modelo Claude 3.5, embora ligeiramente menos consistente, se destacou em tarefas como detecção de emoções, especialmente com volumes de entrada maiores.
Implicações mais amplas
Esses resultados experimentais validam a eficácia do uso de conjuntos de dados de referência como o TweetEval para pesquisas de classificação de texto. As descobertas podem orientar a comunidade científica na seleção do modelo mais adequado para cada caso de uso específico, seja para detectar nuances de sentimento ou analisar a polaridade negativa em mensagens do Twitter.
Conjunto de dados e metodologia de referência
Conjunto de dados de análise
O conjunto de dados TweetEval foi selecionado devido à sua relevância para técnicas de análise de sentimento aplicadas a mensagens reais do Twitter. 1 O conjunto de dados faz parte da iniciativa da Associação para Linguística Computacional (ACL) e é amplamente utilizado em tarefas de avaliação semântica e classificação de texto. Consiste em dados de treinamento pré-rotulados e conjuntos de teste que abrangem diversas dimensões de sentimento e compreensão contextual:
- Detecção de emoções : Identificação de tons emocionais como raiva, alegria, otimismo ou tristeza em tweets.
Exemplo de tweet e etiqueta: O tweet “#Depressão é real. Parceiros com pessoas #deprimidas realmente não entendem a profundidade com que elas nos afetam. Adicione #ansiedade e piora tudo” foi etiquetado como triste. 2
- Detecção de discurso de ódio : Avaliação da presença de discurso de ódio em tweets específicos.
Exemplo de tweet e etiqueta: O tweet “Trump quer deportar imigrantes ilegais sem 'juízes ou processos judiciais' #MeTooEu apoio totalmente essa ação. A ideia de alguém entrar ilegalmente em um país e não demonstrar respeito por suas leis, e ainda assim ser protegido pelas mesmas leis, é ridícula! #DeportemTodos” foi etiquetado como discurso de ódio. 3
- Detecção de ironia : Reconhecer a intenção irônica em conteúdo textual.
Exemplo de tweet e etiqueta: O tweet “Pessoas que dizem para pessoas com ansiedade 'simplesmente pararem de se preocupar com isso' são o meu tipo favorito de pessoas #não #seinforme” foi etiquetado como ironia. 4
- Detecção de conteúdo ofensivo : Classificação de tweets com linguagem ofensiva.
Exemplo de tweet e etiqueta: O tweet “#ConstitutionDay É muito estranho os conservadores da extrema-direita dizerem que estamos destruindo a Constituição só porque queremos #GunControlNow, mas são eles que estão destruindo a Constituição, ficando chateados porque estrangeiros que não são brancos estão vindo para esta terra querendo morar aqui” foi etiquetado como ofensivo. 5
- Classificação de sentimentos : Atribuição de rótulos positivos, negativos ou neutros a tweets.
Exemplo de tweet e etiqueta: O tweet “Mal posso esperar para experimentar isto – Google Earth VR – isto é realmente o futuro da exploração…” está etiquetado como positivo. 6
Essas tarefas estão alinhadas com abordagens de aprendizado de máquina do mundo real, tornando-as ideais para avaliar os resultados experimentais dos dois modelos.
Metodologia de análise
Este benchmark compara oito modelos de linguagem de última geração (LLMs): Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 e Grok 4.
Configuração experimental
Para garantir a consistência e a confiabilidade dos experimentos, foi empregada a seguinte metodologia:
Volume de entrada
- Foram testados dois volumes de entrada: 50 tweets e 10 tweets por tarefa.
- Esta variação teve como objetivo determinar como o tamanho da entrada impacta o desempenho do modelo, particularmente em tarefas como análise de sentimento e detecção de discurso de ódio, onde o volume de dados pode influenciar a precisão.
Avaliação específica da tarefa
Cada tarefa do conjunto de dados TweetEval foi testada separadamente. As tarefas e os respectivos resultados foram analisados usando os modelos de análise de sentimento dos próprios modelos, e as pontuações de precisão foram registradas.
Métricas utilizadas
Para garantir resultados experimentais confiáveis, foram calculadas as pontuações de precisão para cada tarefa.
Limitações de configuração
Utilizamos conjuntos de dados cujas verdades fundamentais estavam disponíveis publicamente. Isso pode ter levado à contaminação dos dados (ou seja, modelos de aprendizado de máquina sendo treinados com base nas verdades fundamentais). No entanto, presumimos que esse não seja o caso, visto que as precisões não foram perfeitas. Para a próxima versão, podemos considerar o uso de tweets para os quais as verdades fundamentais não foram publicadas.
Visão geral detalhada dos LLMs
Todas as ferramentas, ChatGPT 4.0, 4.5, Claude 3.5, 3.7 e DeepSeek V3, representam avanços significativos no campo do processamento de linguagem natural (PLN), com aplicações que vão desde a análise de sentimentos até a inteligência artificial conversacional. Esses modelos estão entre os mais reconhecidos por sua capacidade de interpretar, processar e gerar textos semelhantes aos humanos. Abaixo, segue uma descrição detalhada de cada modelo, destacando suas capacidades únicas e sua relevância para a classificação de sentimentos e tarefas relacionadas de aprendizado de máquina.
ChatGPT 4.o
O ChatGPT 4.o, desenvolvido por OpenAI, é uma versão aprimorada de seu antecessor, GPT-3.5, e apresenta melhorias significativas na arquitetura de aprendizado profundo e na compreensão da linguagem. Este modelo é otimizado para uma ampla gama de tarefas de PNL (Processamento de Linguagem Natural), incluindo modelos de análise de sentimentos e análise de sentimentos baseada em aspectos.
Aplicações na análise de sentimentos
O ChatGPT 4.0 é frequentemente utilizado na comunidade de pesquisa e na indústria para tarefas como:
- Análise de sentimento em mensagens do Twitter para monitoramento de mídias sociais.
- Classificação de sentimentos em feedbacks de clientes no comércio eletrônico.
- Detecção de emoções em aplicações de saúde mental.
- Análise de sentimento baseada em aspectos para avaliações e pesquisas de produtos.
Limitações
Apesar de seus pontos fortes, o ChatGPT 4.0 pode ocasionalmente se ajustar em excesso a padrões de sentimento específicos, levando a uma menor precisão em contextos altamente específicos de domínio.
ChatGPT 4.5
O ChatGPT 4.5, um desenvolvimento adicional da série GPT de OpenAI, oferece um desempenho sólido em diversas tarefas de análise de sentimentos. Ele demonstra uma boa compreensão da categorização de emoções, mas seu desempenho na detecção de ódio e na classificação de sentimentos é relativamente inferior, o que pode limitar sua aplicação em certos contextos altamente sensíveis.
Aplicações na análise de sentimentos
O ChatGPT 4.5 é frequentemente usado em:
- Ferramentas de moderação para detecção de linguagem ofensiva e discurso de ódio.
- Detecção de ironia em discussões online e comentários de notícias.
- Análise de sentimento nas redes sociais para avaliar a opinião pública sobre diversos tópicos.
- Análise do feedback de clientes para plataformas de comércio eletrônico, com ênfase nas emoções.
Limitações
O desempenho do ChatGPT 4.5 na análise de sentimentos é prejudicado por sua precisão relativamente menor na classificação de sentimentos e na detecção de discurso de ódio.
ChatGPT 5.0
O ChatGPT 5.0 representa a geração mais recente de modelos de OpenAI, com melhorias no raciocínio contextual, detecção de nuances e moderação de conteúdo. Embora sua precisão média seja semelhante à do Claude 4.5 (75%), o modelo se destaca por seu desempenho excepcional na detecção de conteúdo ofensivo (82%) e na detecção de ironia (93%).
Aplicações na análise de sentimentos
O ChatGPT 5.0 é particularmente eficaz para:
- Detecção de conteúdo ofensivo em fóruns online e plataformas de mídia social, cuja precisão supera a de todas as outras ferramentas.
- Análise de ironia e sarcasmo , auxiliando pesquisadores e empresas na compreensão de conteúdo complexo gerado pelo usuário.
- Reconhecimento de emoções em feedbacks de atendimento ao cliente, monitoramento da saúde mental e rastreamento de sentimentos em mídias sociais.
- Classificação geral de sentimentos em dados de pesquisas em larga escala, onde se prefere um desempenho equilibrado entre as categorias.
Limitações
Apesar de seus pontos fortes, os resultados mais fracos do ChatGPT 5.0 na detecção de discurso de ódio (54%) reduzem sua adequação para moderação de alto risco envolvendo linguagem tóxica ou discriminatória.
Claude 3.7
O Claude 3.7 baseia-se nos pontos fortes de seu antecessor, o Claude 3.5, oferecendo melhorias na compreensão do contexto e na precisão da análise de sentimentos. Com um forte foco em práticas de IA seguras e éticas, o Claude 3.7 se destaca na detecção de sentimentos complexos, incluindo emoções, ironia e discurso de ódio, tornando-o uma escolha ideal para aplicações que exigem altos níveis de sensibilidade e contexto.
Aplicações na análise de sentimentos
Claude Sonnet 3.7 é altamente eficaz para tarefas como:
- Detecção de emoções em feedbacks de clientes e aplicações de saúde mental.
- Detecção de discurso de ódio e ofensas para moderação de conteúdo online, garantindo espaços seguros em plataformas digitais.
- Classificação de sentimentos em pesquisas de mercado e inteligência de negócios.
Limitações
Embora o modelo Claude 3.7 supere todos os outros em áreas-chave de análise de sentimentos, seu desempenho em cenários altamente específicos de domínio ainda pode enfrentar desafios, especialmente com formas sutis de sentimento. Além disso, sua precisão na detecção de sentimentos relacionados a nuances contextuais mais sutis ou menos relevantes pode exigir aprimoramentos adicionais.
Claude 3.5
Claude 3.5, criado por Anthropic, é um modelo de PNL (Processamento de Linguagem Natural) projetado com foco em segurança, comportamento ético e geração de texto preciso. É particularmente adequado para tarefas que exigem sensibilidade ao contexto e técnicas de análise de sentimento refinadas.
Aplicações na análise de sentimentos
Claude 3.5 para trabalhar em cenários como:
- Detecção de discurso de ódio para monitoramento de mídias sociais e plataformas online.
- Detecção de conteúdo ofensivo em sistemas de moderação de conteúdo.
- Interações de atendimento ao cliente , com ênfase na classificação de sentimentos para melhorar a experiência do usuário.
- Análise de sentimento baseada em aspectos para identificar tendências de sentimento em inteligência de negócios.
Limitações
Embora o Claude 3.5 se destaque na compreensão ética e contextual, por vezes apresenta desempenho inferior aos seus concorrentes na detecção de sentimentos altamente sutis ou implícitos. Além disso, seu conjunto de dados de treinamento é menos diversificado do que o do ChatGPT 4.0, o que pode resultar em menor robustez em alguns conjuntos de dados de referência.
Claude 4.5
Claude 4.5 baseia-se na série Claude de Anthropic com melhorias na sensibilidade contextual e interpretabilidade. Com uma média de 75% em tarefas de análise de sentimentos, Claude 4.5 alcançou a maior precisão na detecção de emoções (82%), um desempenho sólido na detecção de ironia (95%) e ofensividade (81%), mas ficou aquém na detecção de ódio (50%), o menor resultado entre todos os modelos testados.
Aplicações na análise de sentimentos
Claude 4.5 é ideal para:
- Detecção de emoções em aplicações onde nuances são cruciais, como feedback na área da saúde ou aplicativos de bem-estar.
- Identificação de ironia e sarcasmo no monitoramento de mídias sociais e na análise de opiniões, onde a interpretação matizada é essencial.
- Detecção de conteúdo ofensivo na moderação de conteúdo, proporcionando resultados competitivos para a construção de espaços online mais seguros.
- Classificação de sentimentos em pesquisas de mercado e análises de marca, beneficiando-se de sua detecção de polaridade equilibrada, porém ligeiramente mais forte (69%).
Limitações
A baixa precisão do Claude 4.5 na detecção de discurso de ódio (50%) limita significativamente sua utilidade em cenários que envolvem fala prejudicial ou tóxica. Além disso, embora se destaque em certas categorias, seu desempenho é irregular entre as tarefas, tornando-o menos confiável para projetos que exigem precisão uniforme em todas as dimensões de sentimento.
DeepSeek V3
O modelo DeepSeek V3 oferece resultados sólidos em uma ampla gama de tarefas de análise de sentimentos, mas sua precisão geral fica atrás de outros modelos, especialmente na detecção de discurso de ódio.
Aplicações na análise de sentimentos
DeepSeek V3 é amplamente utilizado para:
- Detecção de emoções em aplicativos de saúde mental e monitoramento do sentimento do cliente.
- Detecção de ironia em conversas informais, incluindo plataformas de mídia social e conteúdo gerado pelo usuário.
- Classificação básica de sentimentos para pesquisas de mercado e formulários de feedback.
- Moderação de conteúdo para filtrar linguagem ofensiva em fóruns online.
Limitações
O desempenho inferior do DeepSeek V3 na detecção de conteúdo odioso e suas capacidades relativamente mais fracas de classificação de sentimentos o tornam menos adequado para aplicações de alto risco, como a moderação de conteúdo em plataformas sensíveis.
Grok 4
Grok é um modelo de IA conversacional desenvolvido com foco em humor, interação social e engajamento dinâmico. Em testes de análise de sentimentos, o Grok alcançou uma precisão média de 71%, ficando em último lugar entre todos os modelos testados.
Aplicações na análise de sentimentos
O Grok pode ser aplicado a:
- Detecção de emoções em aplicações interativas, onde a identificação do tom e do humor aumenta o envolvimento do usuário.
- Ferramentas de moderação , em particular para detecção de conteúdo odioso, com um nível de precisão moderado (65%).
- Detecção simplificada de ironia em discursos online, embora com limitações em comparação com modelos mais avançados.
- Análise exploratória de sentimentos em contextos criativos ou informais, onde a fluidez da conversa é priorizada em detrimento da alta precisão.
Limitações
A fragilidade do Grok na classificação de sentimentos (60%) e a menor precisão na detecção de ironia (83%) restringem seu uso em pesquisas de alta precisão ou análises comerciais. Seu foco na responsividade conversacional em detrimento da precisão de benchmarks o torna menos adequado para tarefas que exigem confiabilidade consistente na categorização de sentimentos.
Leitura complementar
- Análise de Sentimentos
- Análise de sentimento do ChatGPT
- Serviços de Análise de Sentimentos
- Detecção de avaliações falsas
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.