Benchmark

Pruebas de referencia de análisis de sentimientos: ChatGPT, Claude y Qwen

actualizado el 15 de jun. de 2026

Lograr un etiquetado preciso de emociones y sentimientos, así como detectar ironía, odio y ofensividad, sigue siendo un desafío, que requiere más pruebas y refinamiento. Probamos 10 modelos de lenguaje grandes en cinco tareas de sentimiento: emoción, odio, ironía, ofensividad y sentimiento. Los clasificamos por precisión media en las cinco.

Los resultados destacan claras diferencias entre las herramientas:

GPT 5.5 logró la mejor precisión general (80%),
Minimax M2.7 (72%) registró el rendimiento general más bajo.

Resultados experimentales: benchmark de análisis de sentimientos

Loading Chart

Clasificación: Las herramientas se clasifican según sus tasas de precisión media agregadas en todas las categorías probadas: emoción, odio, ironía, ofensividad y sentimiento.

Para más detalles, lea la metodología de nuestro benchmark.

Precisión general

Combinando todas las tareas, las puntuaciones de precisión total de los modelos ofrecen una visión holística de sus capacidades:

GPT 5.5 se clasificó primero con 80%. Nunca bajó de 73% en ninguna tarea, lo que lo convirtió en el modelo más consistente de la prueba.
Claude Sonnet 4.6 quedó segundo con 79%. Obtuvo el resultado más alto del benchmark: 82% en odio.
Qwen 3.6 Plus y ChatGPT 5.4 mini empataron en tercer lugar con 78%. ChatGPT 5.4 mini es el modelo más pequeño entre los primeros, pero lideró la detección de ofensividad y empató en el primer puesto en ironía.
Kimi k2.6 obtuvo 77%, con resultados estables y sin una tarea claramente débil.
Gemini 3.1-pro y GLM 5.1 empataron con 76%. Gemini 3.1-pro empató en el primer puesto en detección de emociones, pero se clasificó bajo en odio.
Claude Opus 4.8 obtuvo 74%. Se vio lastrado por la detección de emociones (68%), su categoría más débil.
Gemini 3.5 Flash obtuvo 73%. Su resultado en odio (65%) fue el más bajo en esa tarea.
Minimax M2.7 quedó último con 72%. Obtuvo las puntuaciones más bajas en emoción, ironía y ofensividad.

1. Detección de emociones

La detección de emociones es una tarea desafiante en el análisis de sentimientos, que a menudo requiere que los modelos disciernan pistas sutiles en el lenguaje. Así es como se desempeñaron los modelos:

GPT 5.5 y Gemini 3.1-pro empataron en el primer puesto con 80%.
Qwen 3.6 Plus le siguió con 79%.
Kimi k2.6 obtuvo 78%, y GLM 5.1 obtuvo 77%.
ChatGPT 5.4 mini alcanzó 76%, y Claude Sonnet 4.6 alcanzó 75%.
Gemini 3.5 Flash obtuvo 73%.
Claude Opus 4.8 obtuvo 68%.
Minimax M2.7 obtuvo la puntuación más baja con 66%.

La detección de emociones tuvo una amplia dispersión: 14 puntos entre los modelos superior e inferior. Esto la convierte en una de las dos tareas que más claramente separan a los modelos.

2. Detección de odio

Detectar contenido de odio es crucial para la clasificación de sentimientos en Twitter y otras tareas de moderación. Los resultados revelaron diferencias notables:

Claude Sonnet 4.6 lideró con 82%, la puntuación más alta del benchmark.
GPT 5.5 le siguió de cerca con 80%.
Qwen 3.6 Plus obtuvo 77%.
Kimi k2.6 y GLM 5.1 ambos obtuvieron 76%.
Minimax M2.7 obtuvo 75%.
ChatGPT 5.4 mini obtuvo 72%.
Gemini 3.1-pro y Claude Opus 4.8 ambos obtuvieron 71%.
Gemini 3.5 Flash obtuvo la puntuación más baja con 65%.

La detección de odio tuvo la mayor dispersión de todas las tareas: 17 puntos. Si la moderación es su caso de uso, elija entre los primeros de esta columna en lugar de la clasificación media.

3. Detección de ironía

La detección de ironía es un área donde la evaluación semántica juega un papel fundamental. Ambos modelos ofrecieron un alto rendimiento en el benchmark de análisis de sentimientos, pero GPT-4o surgió como un claro líder:

GPT 5.5, Claude Sonnet 4.6, Qwen 3.6 Plus y ChatGPT 5.4 mini empataron en el primer puesto con 91%.
Gemini 3.1-pro, GLM 5.1 y Gemini 3.5 Flash cada uno obtuvo 87%.
Claude Opus 4.8 obtuvo 86%, y Kimi k2.6 obtuvo 85%.
Minimax M2.7 obtuvo la puntuación más baja con 82%.

Esta fue la tarea más fácil del conjunto. Incluso la puntuación más baja fue 82%. Para trabajos que dependen de detectar ironía o sarcasmo, cualquiera de estos modelos es un punto de partida seguro.

4. Detección de ofensividad

Detectar contenido ofensivo es fundamental para mantener comunidades en línea saludables. Los rendimientos de los modelos en esta tarea del benchmark de análisis de sentimientos fueron los siguientes:

ChatGPT 5.4 mini lideró con 75%.
GPT 5.5 obtuvo 73%, y Claude Sonnet 4.6 obtuvo 72%. Claude Opus 4.8 obtuvo 70%.
Qwen 3.6 Plus, Kimi k2.6, Gemini 3.1-pro y GLM 5.1 todos obtuvieron 69%.
Gemini 3.5 Flash obtuvo 68%.
Minimax M2.7 obtuvo la puntuación más baja con 65%.

Ningún modelo alcanzó 76% en la métrica de ofensividad. Todo el campo osciló entre 65% y 75%. El contexto impulsa esta tarea, y los casos límite del conjunto de datos hacen tropezar a todos los modelos.

5. Análisis de sentimientos

La tarea general de análisis de sentimientos se centró en clasificar los datos en sentimientos positivos, negativos y neutros. Las puntuaciones de precisión para esta tarea variaron significativamente entre los modelos:

GPT 5.5, Qwen 3.6 Plus, ChatGPT 5.4 mini y Gemini 3.1-pro empataron en el primer puesto con 75%.
Kimi k2.6, Claude Opus 4.8, Gemini 3.5 Flash y Minimax M2.7 todos obtuvieron 74%.
Claude Sonnet 4.6 obtuvo 73%.
GLM 5.1 obtuvo la puntuación más baja con 72%.

El rango completo fue de 3 puntos, desde 72% hasta 75%. Ningún modelo manejó bien el sentimiento de tres clases. Si el proyecto necesita etiquetas fiables de positivo, negativo y neutro, ninguno de estos modelos está listo para funcionar sin una verificación humana.

Observaciones y percepciones

Las tareas no son igual de difíciles

La ironía fue fácil para todos los modelos (82% a 91%). El sentimiento y la ofensividad fueron difíciles para todos los modelos, con todas las puntuaciones entre 65% y 75%. Elija un modelo para la tarea que realmente tiene, no por su clasificación media.

La emoción y el odio separan mejor a los modelos

Estas dos tareas tuvieron las mayores brechas de puntuación: 14 y 17 puntos. Si su caso de uso es el seguimiento de emociones o la moderación, la elección del modelo importa más aquí que en cualquier otro lugar.

Una media alta puede ocultar una tarea débil

GPT 5.5 se clasificó primero en general y se mantuvo fuerte en todos los aspectos. Pero Claude Opus 4.8 se clasificó octavo en general, obteniendo 86% en ironía. Lea la columna de su tarea, no la media.

Conjunto de datos y metodología del benchmark

Conjunto de datos de análisis

Utilizamos el conjunto de datos TweetEval, diseñado para el análisis de sentimientos de mensajes reales de Twitter.¹ Es parte del trabajo de la Association for Computational Linguistics (ACL) sobre evaluación semántica. El conjunto de datos incluye conjuntos de entrenamiento y prueba preetiquetados en cinco tipos de tareas:

Detección de emociones: nombrar el sentimiento en un tweet, como ira, alegría, optimismo o tristeza. Tweet y etiqueta de ejemplo: “#Deppression es real. Las parejas de personas #deprimidas realmente no entienden la profundidad con la que nos afectan. Añade #ansiedad y lo empeora” está etiquetado como tristeza.²
Detección de odio: marcar el discurso de odio en un tweet. Tweet y etiqueta de ejemplo: “Trump quiere deportar a extranjeros ilegales ‘sin jueces ni casos judiciales’ #MeToo Estoy totalmente a favor de esta acción La idea de que alguien que entra ilegalmente a un país y no muestra respeto por sus leyes deba ser protegido por las mismas leyes es ¡ridícula! #DeportThemAll” está etiquetado como odio.³
Detección de ironía: detectar la intención irónica. Tweet y etiqueta de ejemplo: “Las personas que le dicen a la gente con ansiedad que ‘simplemente deje de preocuparse’ son mi tipo de personas favoritas #no #edúcate” está etiquetado como ironía.⁴
Detección de ofensividad: clasificar tweets con lenguaje ofensivo. Tweet y etiqueta de ejemplo: “#DíaDeLaConstitución Es muy extraño que los conservadores de la extrema derecha digan que estamos arruinando la constitución porque queremos #ControlDeArmasYa pero ellos son los que arruinan la constitución enfadándose porque extranjeros que no son blancos vienen a esta tierra queriendo vivir” está etiquetado como ofensivo.⁵
Clasificación de sentimientos: asignar una etiqueta positiva, negativa o neutra. Tweet y etiqueta de ejemplo: “No puedo esperar a probar esto – Google Earth VR – esto realmente es el futuro de la exploración….” está etiquetado como positivo.⁶

Estas tareas se alinean con enfoques de aprendizaje automático del mundo real, lo que las hace ideales para evaluar los resultados experimentales de los dos modelos.

Modelos probados

Probamos 10 modelos de lenguaje grandes, todos a través de la OpenRouter API, por lo que la configuración fue la misma para cada uno:

GPT 5.5, ChatGPT 5.4 mini, Claude Sonnet 4.6, Claude Opus 4.8, Gemini 3.1-pro, Gemini 3.5 Flash, Qwen 3.6 Plus, Kimi k2.6, GLM 5.1 y Minimax M2.7.

Configuración experimental

Mantuvimos cada configuración igual en los 10 modelos.

Muestra

Utilizamos los primeros 200 tweets del conjunto de prueba oficial de cada tarea, con las etiquetas doradas del propio conjunto de datos. Los mismos 200 tweets se enviaron a cada modelo, por lo que la comparación es directa.

Indicaciones

Utilizamos indicaciones de tipo zero-shot: una instrucción de tarea simple y el tweet sin procesar, sin ejemplos trabajados. El modelo devolvió una etiqueta y nada más.

Escribimos las indicaciones para que no revelaran nada. No nombramos el benchmark, no llamamos al modelo “anotador” ni insinuamos que estaba siendo calificado. Nombrar la prueba puede cambiar la forma en que un modelo responde, así que lo omitimos. La indicación de emoción, por ejemplo, pedía al modelo que eligiera una de las siguientes: ira, alegría, optimismo o tristeza y respondiera con esa palabra.

Configuración de generación

Establecimos la temperatura en 0, lo que hace que la salida sea tan estable como el modelo lo permite. Establecimos el límite de tokens en 4,096. Un límite alto es importante para los modelos de razonamiento: con un límite pequeño gastan todo el presupuesto en razonamiento oculto y devuelven una respuesta en blanco. El espacio adicional les permite terminar de razonar y aún así imprimir la etiqueta. Los modelos que no razonan responden con una palabra corta, por lo que el límite no tiene coste allí.

Lectura de las respuestas

Asignamos cada respuesta a una etiqueta en pasos: primero una coincidencia exacta, luego una lista corta de sinónimos (por ejemplo, “feliz” se asigna a alegría), después una búsqueda de cualquier etiqueta dentro de una respuesta más larga. Las respuestas que no pudimos leer se contaron como incorrectas.

Métrica

La puntuación de cada tarea no es la precisión bruta. Utilizamos la métrica que los autores de TweetEval establecieron para cada tarea:

Emoción: macro-F1
Sentimiento: macro-recall
Odio: macro-F1
Ironía: F1 de la clase de ironía
Ofensividad: macro-F1

Tanto macro-F1 como macro-recall ponderan cada clase por igual, sin importar la frecuencia con la que aparezca. Esta es la elección correcta aquí porque clases como odio o ironía son raras, y la precisión simple permitiría que un modelo pareciera bueno al elegir siempre la etiqueta común. La columna de promedio es la media de estas cinco puntuaciones.

Fiabilidad

Unos pocos modelos alcanzaron los límites de velocidad durante la ejecución y descartaron algunas llamadas. Volvimos a ejecutar las filas fallidas a baja velocidad para evitar los límites y repetimos esto hasta que no falló nada. Los resultados finales no tienen llamadas fallidas ni respuestas ilegibles.

Limitaciones de la configuración

Utilizamos una porción de 200 tweets de cada conjunto de prueba, no el conjunto completo, por lo que estas cifras no coinciden con la tabla de clasificación publicada de TweetEval. La comparación entre nuestros 10 modelos sigue siendo válida, porque cada modelo vio los mismos tweets.

La porción de 200 tweets es fija, no aleatoria, por lo que es reproducible pero no una muestra aleatoria. Cada tarea también utilizó una única indicación a temperatura 0. Una indicación diferente, o ejemplos de tipo few-shot, cambiarían las cifras absolutas.

Utilizamos conjuntos de datos con etiquetas doradas públicas. Esto conlleva un riesgo de contaminación, donde un modelo ha visto las etiquetas durante el entrenamiento. No podemos descartarlo, pero las puntuaciones estuvieron lejos de ser perfectas, lo que sugiere que no fue un factor importante. Para la próxima versión, planeamos probar tweets cuyas etiquetas no se hayan publicado.

Dado que la muestra es de 200 tweets por tarea, las pequeñas diferencias conllevan ruido de muestreo. Consideramos una diferencia de uno a dos puntos como un empate en lugar de una clasificación.

Deja que nuestro equipo automatice uno de tus procesos de negocio con agentes de IA, sin coste alguno.

Automatizar un proceso

Qué modelo elegir

Las puntuaciones completas están en la tabla anterior. Esta sección es más breve: asigna necesidades comunes al modelo que se ajusta.

Mejor opción integral: GPT 5.5. Se clasificó primero y se mantuvo fuerte en cada tarea, por lo que es la opción predeterminada segura cuando su trabajo mezcla varios trabajos de sentimiento.
Moderación de contenido y discurso de odio: Claude Sonnet 4.6. Obtuvo la puntuación más alta de cualquier modelo en odio. GPT 5.5 es un segundo cercano.
Detección de lenguaje ofensivo con presupuesto limitado: ChatGPT 5.4 mini. Lideró la ofensividad y empató las puntuaciones más altas en ironía, lo cual es raro para un modelo más pequeño y económico.
Seguimiento de emociones y sentimientos: Gemini 3.1-pro o Qwen 3.6 Plus. Ambos se sitúan en la cima de estas dos columnas. Úselos para trabajos de estado de ánimo y opinión en lugar de moderación.
Ironía y sarcasmo: casi cualquier modelo aquí. Las puntuaciones oscilaron entre 82% y 91%, por lo que esta tarea rara vez impulsa la elección. Elija el modelo más barato que satisfaga sus otras necesidades.
Uso estable y de propósito general: Kimi k2.6. Sin tarea destacada, pero tampoco ninguna débil.
Usar con precaución para trabajos de alto riesgo: Gemini 3.5 Flash y Minimax M2.7 se clasificaron en la parte inferior. Gemini 3.5 Flash fue el más débil en discurso de odio, por lo que debe evitarse especialmente para moderación.

Un recordatorio que recorre todo esto: lea la columna de su tarea, no el promedio. Un modelo puede clasificarse en la mitad de la tabla general y aún liderar la única tarea que le importa.

Lecturas adicionales

No te pierdas nuestros análisis comparativos e insights basados en datos. El botón abre Google; seleccionar AIMultiple confirma que deseas ver AIMultiple con más frecuencia en los resultados de búsqueda de Google.

Añadir como fuente preferida

Cita este benchmark

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Ezgi Arslan, PhD. (2026) - "Pruebas de referencia de análisis de sentimientos: ChatGPT, Claude y Qwen". Publicado en línea en AIMultiple.com. Recuperado el 15 de Junio de 2026, de: https://aimultiple.com/sentiment-analysis-benchmark [Recurso en línea]

PhD., E. A. (2026, 15 de Junio). Pruebas de referencia de análisis de sentimientos: ChatGPT, Claude y Qwen. AIMultiple. https://aimultiple.com/sentiment-analysis-benchmark

@misc{phd2026,
  author = {PhD., Ezgi Arslan,},
  title  = {{Pruebas de referencia de análisis de sentimientos: ChatGPT, Claude y Qwen}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/sentiment-analysis-benchmark}},
  note   = {AIMultiple. Recuperado el 15 de Junio de 2026}
}

Enlaces de referencia

Cardiff NLP · GitHub

SemEval-2018 Task 1: Affect in Tweets - ACL Anthology

SemEval-2019 Task 5: Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter - ACL Anthology

SemEval-2018 Task 3: Irony Detection in English Tweets - ACL Anthology

SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval) - ACL Anthology

SemEval-2017 Task 4: Sentiment Analysis in Twitter - ACL Anthology

Ezgi Arslan, PhD.

Analista de Industria

Ezgi tiene un doctorado en Administración de Empresas con especialización en finanzas y se desempeña como Analista de Industria en AIMultiple. Impulsa la investigación y los conocimientos en la intersección de la tecnología y los negocios, con experiencia en sostenibilidad, análisis de encuestas y sentimientos, aplicaciones de agentes de IA en finanzas, optimización de motores de respuestas, gestión de firewalls y tecnologías de adquisiciones.

Ver perfil completo