Pruebas de referencia de análisis de sentimientos: ChatGPT, Claude y DeepSeek
Lograr un etiquetado preciso de emociones y sentimientos, así como detectar la ironía, el odio y la ofensa, sigue siendo un desafío que requiere más pruebas y perfeccionamiento. Evaluamos ocho modelos de lenguaje de programación (LLM), Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 y Grok 4, en cinco tareas clave relacionadas con el análisis de sentimientos.
Los resultados ponen de manifiesto claras diferencias entre las herramientas:
- Claude 3.7 logró la mejor precisión general (79%),
- ChatGPT 4.5 y DeepSeek V3 (70%) registraron el rendimiento general más bajo.
Resultados experimentales: prueba comparativa de análisis de sentimientos
Clasificación : Las herramientas se clasifican según sus tasas de precisión promedio agregadas en todas las categorías probadas: emoción, odio, ironía, ofensa y sentimiento.
Para obtener más detalles, lea la metodología de nuestro estudio comparativo .
Precisión general
Al combinar todas las tareas, las puntuaciones de precisión total de los modelos proporcionan una visión integral de sus capacidades:
- Claude 3.7 superó a todas las demás herramientas en todas las categorías, excepto en la detección de ironía. La precisión promedio de Claude 3.7 para las 5 categorías es de casi el 80%.
- El rendimiento de Claude 3.5 osciló entre el 67% y el 98%, mostrando mejoras notables en las pruebas de menor volumen.
- ChatGPT 5.0 Auto alcanzó un promedio general del 75%, posicionándose como un producto con un rendimiento equilibrado en todas las categorías.
- Claude 4.5 alcanzó una precisión general del 75%. Demostró ser eficaz en la detección de emociones, ironía y ofensas, pero tuvo un rendimiento inferior en la clasificación de odio, lo que redujo su balance.
- ChatGPT 4.0 , con una precisión de etiquetado general que oscila entre el 64 % y el 98 %, tiene más éxito que cualquier otra herramienta en la categoría de detección de ironía.
- Grok 4 alcanzó una precisión general del 71%. Si bien tuvo un buen desempeño en la detección de emociones, sus limitaciones en la clasificación de ironía, ofensa y sentimiento redujeron su competitividad.
- La precisión de DeepSeek V3 para detectar diferentes emociones/sentimientos oscila entre el 52% y el 92%.
- ChatGPT 4.5 ofrece el peor rendimiento en el análisis de sentimientos para nuestra muestra, con un promedio del 70%.
1. Detección de emociones
La detección de emociones es una tarea compleja en el análisis de sentimientos , que a menudo requiere que los modelos disciernan señales sutiles en el lenguaje. Así es como se desempeñaron los modelos:
- ChatGPT 4.0 logró una precisión del 72% al analizar 50 declaraciones.
- ChatGPT 4.5 compartió la mayor precisión en la detección de emociones con Claude 3.7, con una tasa de éxito de ~80% al analizar 50 declaraciones.
- ChatGPT 5.0 Auto igualó la tasa de éxito más alta con un 80% de precisión, lo que lo pone a la par con Claude 3.7 y ChatGPT 4.5.
- Por otro lado, Claude 3.5 obtuvo una puntuación del 77,5%.
- Claude 3.7 logró la tasa de éxito más alta, de aproximadamente el 80%, en la detección de emociones al analizar 50 declaraciones.
- Claude 4.5 superó ligeramente a todos los demás en esta tarea, alcanzando la puntuación máxima de un 82% de precisión.
- DeepSeek V3 analiza las emociones en las 50 declaraciones dadas a la vez con una precisión de ~76%.
- Grok 4 demostró un rendimiento sólido, alcanzando una precisión del 80% en la detección de emociones.
2. Detección de odio
Detectar contenido de odio es crucial para la clasificación de sentimientos en Twitter y otras tareas de moderación. Los resultados revelaron diferencias notables:
- ChatGPT 4.0 mostró una precisión del 64%.
- ChatGPT 4.5 presentó una tasa de éxito de aproximadamente el 57 % de precisión en la detección de odio en nuestra muestra.
- ChatGPT 5.0 Auto mostró un éxito limitado en esta tarea, con una precisión del 54%.
- Claude 3.5 demostró un éxito del 67,5% en la detección de odio.
- Claude 3.7 , con una tasa de éxito del 78%, evaluó los tweets para detectar declaraciones de odio con la mayor precisión entre otras herramientas.
- Claude 4.5 registró el resultado más débil entre todos los modelos, con una tasa de precisión del 50% en la detección de contenido de odio.
- DeepSeek V3 obtuvo la puntuación más baja en la prueba comparativa, con solo un 52% de éxito en la detección de odio.
- Grok 4 obtuvo una puntuación moderadamente buena, del 65%.
3. Detección de ironía
La detección de ironía es un área donde la evaluación semántica juega un papel fundamental. Ambos modelos ofrecieron un alto rendimiento en el análisis de sentimientos, pero GPT-4o emergió como un claro líder:
- ChatGPT 4.0 mantuvo una excepcional precisión del 98 % en la identificación de expresiones irónicas. Este éxito se atribuye a su capacidad para interpretar la polaridad negativa en escenarios complejos de clasificación de texto.
- ChatGPT 4.5 , con una tasa de éxito del 87%, predijo la ironía del texto dado de la manera menos exitosa entre las demás herramientas que hemos probado en esta comparación para la detección de emociones/sentimientos.
- ChatGPT 5.0 Auto demostró una sólida capacidad para detectar la ironía, alcanzando una precisión del 93%.
- Claude 3.5 obtuvo una puntuación ligeramente inferior a la de ChatGPT 4.0, alcanzando una precisión del 97% con 50 afirmaciones.
- Claude 3.7 detectó ironía con una precisión de ~96% para el texto dado.
- Claude 4.5 ofreció uno de los mejores resultados en la detección de ironía, con una tasa de precisión del 95%.
- DeepSeek V3 logró una tasa de éxito de ~92% en la detección de ironía para los tweets dados.
- El Grok 4 se quedó atrás en este aspecto, obteniendo una puntuación del 83%, la más baja de todos los modelos probados.
Dada la alta precisión general de los modelos, todos son idóneos para mensajes de Twitter con contenido irónico o sarcástico. Sin embargo, el éxito de GPT-4o le otorga una ventaja significativa para aplicaciones que requieren un estándar de fiabilidad para el análisis de sentimientos.
4. Detección de carácter ofensivo
La detección de contenido ofensivo es fundamental para mantener comunidades en línea saludables. El rendimiento de referencia de los modelos en el análisis de sentimientos para esta tarea fue el siguiente:
- ChatGPT 4.0 obtuvo una puntuación del 76 % con 50 tamaños de sentencia. Esto concuerda con sus sólidos métodos de aprendizaje automático y su capacidad para adaptarse a las variaciones en el volumen de datos.
- ChatGPT 4.5 logró una tasa de éxito de aproximadamente el 75 % en la detección de contenido ofensivo en los tuits analizados.
- ChatGPT 5.0 Auto logró la tasa de éxito más alta entre todas las herramientas para la detección de contenido ofensivo, con una precisión del 82%.
- Claude 3.5 presentó la menor precisión en la detección de contenido ofensivo entre las cinco herramientas, con una tasa de éxito de aproximadamente el 67 % con 50 afirmaciones.
- Claude 3.7 obtuvo la puntuación más alta en detección de ofensas dentro de nuestra muestra, con una tasa de éxito de ~77%.
- Claude 4.5 detectó la ofensividad con un 81%, lo que refuerza su fortaleza en esta tarea.
- DeepSeek V3 detectó declaraciones ofensivas con una precisión del 69%.
- Grok 4 obtuvo un modesto 67%, situándose entre los de peor rendimiento en esta categoría.
Estos resultados subrayan la importancia del contexto y la formación a la hora de diseñar modelos para la detección de lenguaje ofensivo, donde los patrones del conjunto de datos pueden influir significativamente en los resultados.
5. Análisis de sentimientos
La tarea principal de análisis de sentimientos se centró en clasificar los datos en sentimientos positivos, negativos y neutros. Los índices de precisión para esta tarea variaron significativamente entre los modelos:
- ChatGPT 4.0 obtuvo una tasa de éxito del 64%.
- ChatGPT 4.5 , con la tasa de éxito más baja, inferior al 54%, presentó la menor precisión en la clasificación de sentimientos en Twitter.
- ChatGPT 5.0 Auto obtuvo una puntuación del 67% en la clasificación general de sentimientos, lo que lo sitúa en un rango medio en comparación con otras herramientas.
- Claude 3.5 mostró un mejor rendimiento con 50 afirmaciones, con una precisión del 68%.
- Claude 3.7 , con una tasa de éxito de aproximadamente el 68%, compartió el mejor rendimiento con Claude 3.5 en detección de sentimientos.
- Claude 4.5 logró el mejor rendimiento con una tasa de precisión del 69%.
- DeepSeek V3 obtuvo una tasa de precisión del 64% en la detección de sentimientos positivos, negativos y neutros.
- Grok 4 mostró un rendimiento bajo, con una precisión de tan solo el 60%.
Ninguno de los modelos demostró competencia en el manejo de la clasificación de sentimientos, cuya tasa de éxito osciló entre el 54 % y el 69 %.
Observaciones y reflexiones
Impacto del volumen de entrada
Ambos modelos mostraron un mejor rendimiento en las pruebas de referencia de análisis de sentimientos con volúmenes de entrada más pequeños en algunas tareas, lo que subraya la importancia de reducir el ruido en los datos de entrenamiento para tareas como la detección de odio y la clasificación de sentimientos.
Fortalezas específicas para la tarea
GPT-4o dominó en la detección de ironía y tuvo un desempeño consistentemente bueno en todas las tareas. Claude 3.5, aunque un poco menos consistente, sobresalió en tareas como la detección de emociones, especialmente con mayores volúmenes de entrada.
Implicaciones más amplias
Estos resultados experimentales validan la eficacia del uso de conjuntos de datos de referencia como TweetEval para la investigación en clasificación de texto. Los hallazgos pueden guiar a la comunidad investigadora en la selección del modelo adecuado según su caso de uso específico, ya sea para detectar matices de intensidad de sentimiento o para analizar la polaridad negativa en los mensajes de Twitter.
Conjunto de datos de referencia y metodología
Conjunto de datos de análisis
El conjunto de datos TweetEval fue seleccionado debido a su relevancia para las técnicas de análisis de sentimientos aplicadas a mensajes reales de Twitter. 1 El conjunto de datos forma parte de la iniciativa de la Asociación para la Lingüística Computacional (ACL) y se utiliza ampliamente en tareas de evaluación semántica y clasificación de textos. Consta de datos de entrenamiento preetiquetados y conjuntos de prueba que abarcan varias dimensiones de sentimiento y comprensión contextual:
- Detección de emociones : Identificación de tonos emocionales como ira, alegría, optimismo o tristeza en los tuits.
Ejemplo de tuit y etiqueta: El tuit “#LaDepresiónEsReal. Las parejas de personas #deprimidas realmente no entienden la profundidad con la que nos afectan. Si a eso le sumamos #ansiedad, la cosa empeora” está etiquetado como triste. 2
- Detección de discurso de odio : Evaluación de la presencia de discurso de odio en determinados tuits.
Ejemplo de tuit y etiqueta: El tuit “Trump quiere deportar a inmigrantes ilegales sin jueces ni juicios #MeToo. Apoyo firmemente esta acción. ¡La idea de que alguien que entra ilegalmente a un país y no muestra respeto por sus leyes deba estar protegido por las mismas leyes es ridícula! #DeportThemAll” está etiquetado como odioso. 3
- Detección de ironía : Reconocer la intención irónica en el contenido textual.
Ejemplo de tuit y etiqueta: El tuit “Las personas que les dicen a las personas con ansiedad que “simplemente dejen de preocuparse por eso” son mi tipo de personas favoritas #no #infórmate” está etiquetado como ironía. 4
- Detección de contenido ofensivo : Clasificación de tuits con lenguaje ofensivo.
Ejemplo de tuit y etiqueta: El tuit “#DíaDeLaConstitución Es muy extraño que los conservadores de la derecha alternativa digan que estamos arruinando la constitución solo porque queremos #ControlDeArmasAhora, pero son ellos los que están arruinando la constitución al molestarse porque los extranjeros que vienen a esta tierra que no son blancos quieren vivir” está etiquetado como ofensivo. 5
- Clasificación de sentimientos : Asignar etiquetas positivas, negativas o neutrales a los tuits.
Ejemplo de tuit y etiqueta: El tuit “No puedo esperar a probar esto – Google Earth VR – esto realmente es el futuro de la exploración…” está etiquetado como positivo. 6
Estas tareas se ajustan a los enfoques de aprendizaje automático del mundo real, lo que las hace ideales para evaluar los resultados experimentales de los dos modelos.
Metodología de análisis
Este benchmark compara ocho modelos de lenguaje grandes (LLM) de última generación: Claude 3.5, Claude 3.7, Claude 4.5, ChatGPT 4.0, ChatGPT 4.5, ChatGPT 5.0, DeepSeek V3 y Grok 4.
Configuración experimental
Para garantizar la coherencia y la fiabilidad de los experimentos, se empleó la siguiente metodología:
Volumen de entrada
- Se probaron dos volúmenes de entrada: 50 tweets y 10 tweets por tarea.
- Esta variación tenía como objetivo determinar cómo el tamaño de la entrada afecta el rendimiento del modelo, particularmente en tareas como el análisis de sentimientos y la detección de odio, donde el volumen de datos puede influir en la precisión.
Evaluación específica de la tarea
Cada tarea del conjunto de datos TweetEval se probó por separado. Las tareas y sus resultados correspondientes se analizaron utilizando los modelos de análisis de sentimiento, y se registraron las puntuaciones de precisión.
Métricas utilizadas
Se calcularon índices de precisión para cada tarea con el fin de garantizar la fiabilidad de los resultados experimentales.
Limitaciones de configuración
Hemos utilizado conjuntos de datos con información de referencia disponible públicamente. Esto podría haber provocado un sesgo de datos (es decir, que los modelos LLM se entrenaran con información de referencia). Sin embargo, asumimos que no fue así, ya que la precisión no fue casi perfecta. Para la próxima versión, podríamos considerar el uso de tweets cuya información de referencia no se haya publicado.
Descripción detallada de los LLM
Todas las herramientas, ChatGPT 4.0, 4.5, Claude 3.5, 3.7 y DeepSeek V3, representan avances significativos en el campo del procesamiento del lenguaje natural (PLN), con aplicaciones que abarcan desde el análisis de sentimientos hasta la IA conversacional. Estos modelos se encuentran entre los más reconocidos por su capacidad para interpretar, procesar y generar texto similar al humano. A continuación, se presenta una descripción detallada de cada modelo, destacando sus capacidades únicas y su relevancia para la clasificación de sentimientos y tareas relacionadas de aprendizaje automático.
ChatGPT 4.0
ChatGPT 4.0, desarrollado por OpenAI, es una versión mejorada de su predecesor, GPT-3.5, y presenta mejoras significativas en la arquitectura de aprendizaje profundo y la comprensión del lenguaje. Este modelo está optimizado para una amplia gama de tareas de PLN, incluidos los modelos de análisis de sentimientos y el análisis de sentimientos basado en aspectos.
Aplicaciones en el análisis de sentimientos
ChatGPT 4.0 se utiliza con frecuencia en la comunidad investigadora y en la industria para tareas como:
- Análisis de sentimiento de mensajes de Twitter para el monitoreo de redes sociales.
- Clasificación del sentimiento en las opiniones de los clientes en el comercio electrónico.
- Detección de emociones en aplicaciones de salud mental.
- Análisis de sentimiento basado en aspectos para reseñas y encuestas de productos.
Limitaciones
A pesar de sus puntos fuertes, ChatGPT 4.0 puede, en ocasiones, sobreajustarse a patrones de sentimiento específicos, lo que conlleva una menor precisión en contextos muy específicos de un dominio.
ChatGPT 4.5
ChatGPT 4.5, una evolución de la serie GPT de OpenAI, ofrece un rendimiento sólido en diversas tareas de análisis de sentimientos. Demuestra una buena comprensión de la categorización de emociones, pero su rendimiento en la detección de odio y la clasificación de sentimientos es relativamente inferior, lo que puede limitar su aplicación en ciertos contextos altamente sensibles.
Aplicaciones en el análisis de sentimientos
ChatGPT 4.5 se usa frecuentemente en:
- Herramientas de moderación para detectar lenguaje ofensivo y discursos de odio.
- Detección de la ironía en debates en línea y comentarios de noticias.
- Análisis de sentimiento en redes sociales para medir la opinión pública sobre diversos temas.
- Análisis de las opiniones de los clientes en plataformas de comercio electrónico, con especial énfasis en las emociones.
Limitaciones
El rendimiento de ChatGPT 4.5 en el análisis de sentimientos se ve obstaculizado por su precisión relativamente menor en la clasificación de sentimientos y la detección de odio.
ChatGPT 5.0
ChatGPT 5.0 representa la última generación de modelos de OpenAI, con mejoras en el razonamiento contextual, la detección de matices y la moderación de contenido. Si bien su precisión promedio coincide con la de Claude 4.5 (75%), el modelo destaca por su excepcional desempeño en la detección de contenido ofensivo (82%) y la detección de ironía (93%).
Aplicaciones en el análisis de sentimientos
ChatGPT 5.0 es particularmente eficaz para:
- Detección de contenido ofensivo en foros en línea y plataformas de redes sociales, donde su precisión supera a la de todas las demás herramientas.
- Análisis de la ironía y el sarcasmo , que ayuda a investigadores y empresas a comprender el contenido complejo generado por los usuarios.
- Reconocimiento de emociones en la retroalimentación del servicio al cliente, el monitoreo de la salud mental y el seguimiento del sentimiento en las redes sociales.
- Clasificación general de sentimientos en datos de encuestas a gran escala, donde se prefiere un rendimiento equilibrado entre las categorías.
Limitaciones
A pesar de sus puntos fuertes, los resultados más débiles de ChatGPT 5.0 en la detección de discursos de odio (54%) reducen su idoneidad para la moderación de alto riesgo que involucre lenguaje tóxico o discriminatorio.
Claude 3.7
Claude 3.7 se basa en las fortalezas de su predecesor, Claude 3.5, ofreciendo mejoras en la comprensión del contexto y la precisión en la detección de sentimientos. Con un fuerte enfoque en prácticas de IA seguras y éticas, Claude 3.7 destaca en la detección de sentimientos complejos, incluyendo emociones, ironía y discursos de odio, lo que lo convierte en una opción ideal para aplicaciones que requieren altos niveles de sensibilidad y contexto.
Aplicaciones en el análisis de sentimientos
Claude Sonnet 3.7 es altamente efectivo para tareas como:
- Detección de emociones en la retroalimentación de los clientes y en aplicaciones de salud mental.
- Detección de contenido odioso y ofensivo para la moderación de contenido en línea, garantizando espacios seguros en las plataformas digitales.
- Clasificación de sentimientos en la investigación de mercados y la inteligencia empresarial.
Limitaciones
Si bien el modelo Claude 3.7 supera a todos los demás en áreas clave de análisis de sentimiento, su desempeño en escenarios altamente específicos del dominio aún podría presentar dificultades, especialmente con formas sutiles de sentimiento. Además, su precisión para detectar el sentimiento relacionado con señales contextuales más matizadas o menores podría requerir un mayor perfeccionamiento.
Claude 3.5
Claude 3.5, creado por Anthropic, es un modelo de PLN diseñado para priorizar la seguridad, el comportamiento ético y la generación precisa de texto. Resulta especialmente adecuado para tareas que requieren sensibilidad al contexto y técnicas sofisticadas de análisis de sentimientos.
Aplicaciones en el análisis de sentimientos
Claude 3.5 para trabajar en escenarios como:
- Detección de contenido de odio para la monitorización de redes sociales y plataformas en línea.
- Detección de contenido ofensivo en sistemas de moderación de contenido.
- Interacciones de servicio al cliente , con énfasis en la clasificación de sentimientos para mejorar la experiencia del usuario.
- Análisis de sentimiento basado en aspectos para identificar tendencias de sentimiento en inteligencia empresarial.
Limitaciones
Si bien Claude 3.5 destaca por su comprensión ética y contextual, en ocasiones presenta un rendimiento inferior al de sus competidores a la hora de detectar sentimientos muy sutiles o implícitos. Además, su conjunto de datos de entrenamiento es menos diverso que el de ChatGPT 4.0, lo que podría resultar en una menor robustez en algunos conjuntos de datos de referencia.
Claude 4.5
Claude 4.5 se basa en la serie Claude de Anthropic con mejoras en la sensibilidad contextual y la interpretabilidad. Con un promedio del 75 % en las tareas de análisis de sentimientos, Claude 4.5 logró la mayor precisión en la detección de emociones (82 %), un sólido desempeño en la detección de ironía (95 %) y ofensa (81 %), pero se quedó corto en la detección de odio (50 %), el más bajo entre todos los modelos probados.
Aplicaciones en el análisis de sentimientos
Claude 4.5 es muy adecuado para:
- Detección de emociones en aplicaciones donde las señales sutiles son fundamentales, como por ejemplo en aplicaciones de retroalimentación sanitaria o de bienestar.
- La identificación de la ironía y el sarcasmo en el monitoreo de redes sociales y la minería de opiniones, donde la interpretación matizada es esencial.
- Detección de contenido ofensivo en la moderación de contenido, que proporciona resultados competitivos para la creación de espacios en línea más seguros.
- Clasificación de sentimientos en investigación de mercado y análisis de marca, beneficiándose de su detección de polaridad equilibrada pero ligeramente más fuerte (69%).
Limitaciones
La baja precisión de Claude 4.5 en la detección de discursos de odio (50%) limita significativamente su utilidad en escenarios que involucran discursos dañinos o tóxicos. Además, si bien destaca en ciertas categorías, su desempeño es irregular en todas las tareas, lo que lo hace menos confiable para proyectos que requieren una precisión uniforme en todas las dimensiones de sentimiento.
DeepSeek V3
El modelo DeepSeek V3 ofrece resultados sólidos en una amplia gama de tareas de análisis de sentimientos, pero su precisión general se queda atrás con respecto a otros modelos, especialmente en la detección de odio.
Aplicaciones en el análisis de sentimientos
DeepSeek V3 se utiliza ampliamente para:
- Detección de emociones en aplicaciones de salud mental y seguimiento del sentimiento del cliente.
- Detección de ironía en conversaciones informales, incluidas las plataformas de redes sociales y el contenido generado por los usuarios.
- Clasificación básica de sentimientos para encuestas de investigación de mercado y formularios de comentarios.
- Moderación de contenido para filtrar el lenguaje ofensivo en foros en línea.
Limitaciones
El menor rendimiento de DeepSeek V3 en la detección de contenido de odio y sus capacidades de clasificación de sentimientos generales relativamente más débiles lo hacen menos adecuado para aplicaciones de alto riesgo, como la moderación de contenido en plataformas sensibles.
Comprender 4
Grok es un modelo de IA conversacional desarrollado con un enfoque en el humor, la interacción social y la participación dinámica. En las pruebas de análisis de sentimientos, Grok obtuvo una precisión promedio del 71%, la más baja entre todos los modelos evaluados.
Aplicaciones en el análisis de sentimientos
Grok se puede aplicar a:
- Detección de emociones en aplicaciones interactivas, donde la identificación del tono y el estado de ánimo mejora la participación del usuario.
- Herramientas de moderación , en particular para detectar contenido de odio con un nivel de precisión moderado (65%).
- Detección de ironía sencilla en el discurso en línea, aunque con limitaciones en comparación con modelos más avanzados.
- Análisis exploratorio de sentimientos en entornos creativos o informales, donde se prioriza la fluidez de la conversación sobre la alta precisión.
Limitaciones
La debilidad de Grok en la clasificación de sentimientos (60 %) y su menor precisión en la detección de ironía (83 %) limitan su uso en investigación de alta precisión o análisis comerciales. Su diseño, que prioriza la capacidad de respuesta conversacional sobre la precisión de referencia, lo hace menos adecuado para tareas que requieren una fiabilidad constante en la categorización de sentimientos.
Lecturas adicionales
- Análisis de sentimientos
- Análisis de sentimiento de ChatGPT
- Servicios de análisis de sentimientos
- Detección de reseñas falsas
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.