Contáctanos
No se encontraron resultados.

Comparación de modelos de IA multimodales en razonamiento visual

Sıla Ermut
Sıla Ermut
actualizado el Feb 20, 2026
Vea nuestra normas éticas

Evaluamos el rendimiento de 15 modelos líderes de IA multimodal en razonamiento visual mediante 200 preguntas basadas en imágenes. La evaluación constó de dos partes: 100 preguntas de comprensión de gráficos que evaluaban la interpretación de visualizaciones de datos y 100 preguntas de lógica visual que evaluaban el reconocimiento de patrones y el razonamiento espacial. Cada pregunta se ejecutó 5 veces para garantizar resultados consistentes y fiables.

Prueba de referencia de razonamiento visual

Loading Chart

Consulte nuestra metodología de referencia para conocer nuestros procedimientos de prueba.

gemini-3.1-pro-preview y gemini-3-pro-preview lideran la clasificación. Les siguen gpt-5.2 , kimi-k2.5 y gpt-5.2-pro , que encabezan el siguiente grupo de modelos. Si bien la mayoría de los modelos tienen un buen desempeño en tareas basadas en datos, llama-4-maverick aún presenta deficiencias al conectar entradas visuales con pasos lógicos.

Lógica visual

La lógica visual requiere reconocimiento de patrones y razonamiento espacial. gemini-3.1-pro-preview lidera la prueba de lógica visual, mostrando el mejor rendimiento en tareas de razonamiento abstracto. Muchos modelos muestran una disminución en el rendimiento en comparación con los resultados del análisis de gráficos. llama-4-maverick muestra una limitación en estas tareas.

Comprensión de gráficos

Los modelos demuestran mayor competencia en la interpretación de gráficos que en la lógica visual. gemini-3.1-pro-preview obtiene la puntuación más alta en las pruebas de comprensión de gráficos, seguido de cerca por gemini-3-pro-preview y gemini-2.5-pro , lo que demuestra una gran capacidad para decodificar datos estructurados y visualizaciones. claude-opus-4.6 y claude-sonnet-4.6 muestran mejores resultados al interpretar gráficos en comparación con sus puntuaciones de lógica. Las tareas visuales basadas en datos son más accesibles para los modelos multimodales actuales que el reconocimiento de patrones.

Fiabilidad estadística del rendimiento en el razonamiento visual (IC del 95 %)

Calculamos los intervalos de confianza del 95 % (IC) mediante 10 000 remuestreos bootstrap para definir el margen de error de cada modelo, mostrando el rango dentro del cual es probable que se encuentre su verdadero rendimiento.

Preguntas de referencia sobre dónde destacan y dónde tienen más dificultades los programas de LLM.

Pregunta del gráfico con la tasa de éxito más baja en el programa LLM.

Figura 1: Gráfico de barras que muestra los volúmenes de ventas de Star durante 12 meses con cuatro barras agrupadas por mes (datos de 1998-2000). Cada mes muestra barras sólidas, blancas y rayadas agrupadas muy juntas.

Nota: Todos los gráficos se obtuvieron de Hitbullseye. 1

Pregunta: Si las ventas de tres años consecutivos aumentan o disminuyen de forma constante, se habla de una tendencia constante. ¿Qué meses muestran una tendencia creciente de forma constante durante tres años consecutivos?

Por ejemplo, en junio de 1999, el valor real fue inferior al de 1998, lo que indica una disminución, pero el modelo lo interpretó erróneamente como un aumento constante. La mayoría de los modelos cometen el mismo error en este aspecto.

Cuando se agrupan 4 barras por mes, los modelos tienen dificultades para relacionar las barras con los años y para percibir su altura relativa. No pueden distinguir con precisión a qué año pertenece cada barra rayada, sólida o blanca, lo que provoca que las barras se lean en el orden incorrecto o que se confundan sus alturas.

Esto reveló una limitación fundamental en el razonamiento visoespacial: los modelos actuales carecían de la percepción precisa a nivel de píxel necesaria para medir y secuenciar correctamente las barras densamente agrupadas, lo que conllevaba una identificación errónea sistemática de las tendencias.

Pregunta del gráfico con la mayor tasa de éxito en el programa LLM.

Figura 2: Gráfico de barras que muestra los porcentajes de participación electoral en las elecciones generales de la India desde 1952 hasta 1998. Una barra por año electoral con un espacio claro entre las barras.

Pregunta: ¿En qué años se registraron, respectivamente, la mayor y la menor participación electoral de la historia (en porcentaje)?

Todos los modelos respondieron correctamente a esta pregunta. Este éxito demuestra que los modelos destacan en la identificación simple de mínimos y máximos, encontrando las barras más altas y más bajas.

A diferencia de los grupos de cuatro barras agrupadas, que resultan confusos, este gráfico presenta una sola barra por año con un espaciado claro, lo que facilita la comparación visual directa. Los modelos funcionan bien en tareas puramente observacionales que no requieren una correspondencia compleja entre barras y categorías.

Pregunta de lógica visual con la mayor tasa de éxito en el programa LLM.

Dos cuadrículas alineadas de 3x3 que muestran patrones algebraicos. La cuadrícula superior contiene variables y sus operaciones (multiplicación, división, exponentes). La cuadrícula inferior muestra valores numéricos con algunas celdas rellenas (6, 36, 3/4) y dos incógnitas (A, B). La pregunta consiste en hallar B-A.

Figura 3: Dos cuadrículas alineadas de 3×3 que muestran la coincidencia de patrones algebraicos. La cuadrícula superior contiene variables y sus operaciones (multiplicación, división, exponentes). La cuadrícula inferior muestra valores numéricos, con algunas celdas rellenas (6, 36, 3/4) y dos incógnitas (A, B). El problema consiste en hallar BA.

El éxito radicó en el claro patrón matemático visible en la estructura de la tabla (relaciones algebraicas como a×b, c×d). El diseño sencillo de la cuadrícula, sin complejidad visual, permitió que los modelos se centraran exclusivamente en la inferencia numérica y la deducción lógica.

Los modelos destacan cuando los problemas implican patrones matemáticos explícitos que pueden resolverse mediante un razonamiento paso a paso, demostrando su eficacia en la lógica simbólica y el reconocimiento de patrones cuando las distracciones visuales son mínimas.

Pregunta de lógica visual con la tasa de éxito más baja en LLM.

Rompecabezas de reconocimiento de patrones con círculos que contienen diferentes patrones de líneas internas y formas geométricas. En la parte superior se muestran dos secuencias de ejemplo con flechas, seguidas de una pregunta que pide completar la tercera secuencia a partir de cinco opciones de respuesta múltiple.

Figura 4: Rompecabezas de reconocimiento de patrones con círculos que contienen diferentes patrones de líneas internas y formas geométricas. Dos secuencias de ejemplo con flechas en la parte superior, seguidas de una pregunta que pide completar la tercera secuencia a partir de cinco opciones de respuesta múltiple.

La dificultad radica en que se requiere el reconocimiento de patrones visuales abstractos, identificando reglas de transformación geométrica en múltiples ejemplos.

Esto exige un razonamiento espacial puro para comprender cómo las formas rotan, se transforman y se relacionan entre sí. Los modelos tienen dificultades para inferir reglas a partir de secuencias visuales cuando no se dispone de una guía numérica o textual explícita, sino únicamente de patrones espaciales.

¿Qué es el razonamiento visual?

El razonamiento visual es la capacidad de un modelo para interpretar imágenes, conectar elementos visuales y responder preguntas que requieren la comprensión de información tanto visual como textual. Esta capacidad va más allá del simple reconocimiento de objetos e incluye tareas como el análisis de visualizaciones de datos, la identificación de patrones espaciales y la comprensión de las relaciones entre elementos visuales.

Nuestro sistema de evaluación comparativa analizó esto mediante dos vías distintas para probar diferentes aspectos cognitivos: comprensión de gráficos, donde los modelos interpretaron gráficos de barras, gráficos de líneas y diagramas de dispersión para evaluar su capacidad de extraer información estructurada de visualizaciones de datos; y lógica visual, donde abordaron rompecabezas de reconocimiento de patrones y problemas de razonamiento espacial para medir el razonamiento abstracto sin guía numérica explícita. Esta división refleja la distinción fundamental en cómo los modelos procesan datos explícitos frente a patrones implícitos.

Los modelos logran el razonamiento visual mediante diferentes enfoques arquitectónicos. Por ejemplo, el marco Cola coordina múltiples modelos de lenguaje visual, donde cada uno proporciona descripciones y respuestas plausibles; luego, un modelo central de lenguaje natural evalúa estas opciones y selecciona la respuesta más precisa.

Figura 5: Gráfico que muestra cómo Cola aprovecha un modelo de lenguaje coordinativo para el razonamiento visual. 2

Otro ejemplo es el marco CVR-LLM, que mejora el razonamiento al convertir imágenes en descripciones contextuales mediante el método CaID y seleccionar ejemplos relevantes con el procedimiento CVR-ICL. Este marco trata la información de las imágenes como representaciones basadas en texto, lo que permite al LLM analizar asociaciones de manera más eficaz en diversos tipos de tareas multimodales . 3

Cómo funciona el razonamiento visual en los másteres jurídicos

Los modelos de lenguaje natural (LLM) no perciben las imágenes directamente. Se basan en codificadores visuales que las convierten en representaciones estructuradas adaptadas a dichos modelos. El codificador identifica objetos, texturas, relaciones espaciales y patrones visuales. A continuación, el LLM combina esta representación con la consulta de texto para construir una cadena de razonamiento.

Coordinación o refinamiento

Existen dos mecanismos principales para escenarios visuales complejos: la coordinación, donde un modelo de lenguaje natural (LLM) integra los resultados de múltiples modelos de visión para contrastar interpretaciones; y el refinamiento, donde el LLM mejora iterativamente las descripciones de las imágenes mediante bucles de retroalimentación que identifican la información faltante. Ambos abordan las limitaciones que presentan los modelos individuales al no poder analizar escenarios complejos.

Aprendizaje contextualizado para el razonamiento multimodal

Algunos marcos de trabajo recuperan ejemplos similares de los datos de entrenamiento, proporcionando al modelo plantillas para interpretar las entradas visuales. Estas demostraciones ayudan al modelo a aplicar los patrones de razonamiento aprendidos a nuevos problemas.

Elaborar la explicación final

El LLM produce una respuesta respaldada por un proceso de razonamiento, que explica cómo interpretó la imagen, en qué elementos visuales se basó y las conexiones lógicas que estableció.

Razonamiento en cadena en tareas visuales

El razonamiento en cadena (CoT, por sus siglas en inglés) se ha consolidado como un enfoque importante en el razonamiento visual. En lugar de analizar una imagen de una sola vez, los modelos actuales descomponen los problemas visuales en pasos secuenciales más pequeños, de forma similar a como los humanos resuelven problemas complejos razonándolos paso a paso.

Visual CoT permite que los modelos ajusten dinámicamente el enfoque en diferentes regiones espaciales de una imagen, solucionando una limitación clave que suponía el procesamiento de imágenes con granularidad fija. Por ejemplo, al analizar un gráfico complejo, el modelo podría identificar primero los ejes, luego examinar los puntos de datos individuales y, finalmente, comparar las tendencias, en lugar de intentar comprenderlo todo simultáneamente.

Este enfoque integra el aprendizaje por refuerzo y el aprendizaje por imitación para alinear los modelos con mayor precisión a los patrones de razonamiento humano. Esto representa un cambio fundamental, pasando del reconocimiento pasivo de patrones a la resolución activa de problemas visuales, donde los modelos exploran y razonan activamente sobre lo que ven. 4

Aplicaciones empresariales del razonamiento visual en los másteres jurídicos

Los modelos de lógica descriptiva (LLM) con capacidades visuales pueden dar soporte a múltiples escenarios empresariales. Estas aplicaciones dependen de la capacidad del modelo para analizar imágenes, vincularlas con datos de texto y generar información fiable.

Análisis de documentos y contenido

Las empresas manejan diagramas, planos de ingeniería, figuras de revistas científicas y diversos tipos de datos visuales. Un modelo de razonamiento visual puede:

  • Detectar elementos faltantes o incorrectos.
  • Identifique objetos o señales en la parte inferior o en las esquinas de los diagramas.
  • Conecte los segmentos de texto e imagen para realizar controles de calidad.
  • Extraer información estructurada para su posterior implementación o elaboración de informes.

Por ejemplo, Intuit integró los modelos Doc AI y Gemini de Cloud (Google) para rellenar automáticamente las declaraciones de impuestos en los formularios fiscales comunes de EE. UU., mejorando tanto la velocidad como la precisión en el procesamiento de documentos. 5

Inspección de calidad y operaciones

En la fabricación y la logística , los modelos pueden inspeccionar productos o paquetes. El razonamiento visual ayuda a detectar defectos, desalineaciones o patrones inusuales. El modelo puede comparar imágenes con una referencia y generar una explicación de lo que ha cambiado o lo que falta.

Por ejemplo, Intel utiliza sistemas de inspección visual con IA que ahorran 2 millones de dólares anuales, y los fabricantes suelen obtener un retorno de la inversión en un plazo de 6 a 12 meses gracias a la reducción de desperdicios y a la disminución de las devoluciones de los clientes. 6

Comercio minorista y comercio electrónico

Los modelos analizan las imágenes de los productos, identifican los atributos clave y los comparan con los datos del catálogo. Las funciones de búsqueda visual permiten a los clientes subir imágenes para encontrar productos similares mediante visión artificial, mientras que los sistemas de recomendación de tallas basados en IA han reducido las tasas de devolución entre un 20 % y un 30 %. Estos sistemas también detectan inconsistencias entre las descripciones de los productos y las imágenes. 7

Seguridad y vigilancia

El razonamiento visual facilita las tareas de inspección de vídeo e imágenes mediante el análisis de secuencias de fotogramas y la detección de patrones inusuales. Cambridge Industries implementó un sistema de seguridad basado en IA para obras de construcción que redujo los costes de reparación de emergencia en casi un 50 %. 8

Marketing y experiencia de usuario

El razonamiento visual ayuda a los equipos a comprender cómo interactúan los usuarios con el contenido digital. Un modelo puede evaluar capturas de pantalla o elementos creativos y proporcionar información sobre el diseño, la ubicación de los objetos y los posibles problemas. Esto es especialmente relevante al evaluar diferentes categorías de recursos visuales.

Por ejemplo, Comeen utiliza Gemini AI para generar subtítulos multilingües para vídeos de trabajo en 40 idiomas con un solo clic, eliminando el proceso de varios días y múltiples proveedores que anteriormente hacía que el contenido quedara obsoleto antes de su publicación. 9

Panorama comparativo: principales actores y sus enfoques

IA de probabilidad

Chance AI es una de las primeras herramientas comerciales diseñadas para comprender la información visualmente. Su sistema de razonamiento visual analiza las imágenes desde perspectivas culturales, históricas, funcionales y estéticas. En lugar de asignar simples etiquetas, ofrece información estructurada que explica la importancia de un objeto, figura o escena, considerando aspectos como el estilo, el simbolismo y el contexto histórico de la obra, además de su temática.

El diseño prioriza la experiencia del usuario al permitir la exploración basada en el significado a través de imágenes sin necesidad de escribir consultas. Esto va más allá dela visión artificial tradicional, acercándose a la interpretación, la narración y la explicación humana, lo que lo hace especialmente relevante para las industrias creativas, la educación y el turismo, donde el contexto aporta un valor incalculable. 10

Meta IA

El marco UniBench de Meta introdujo un enfoque unificado para evaluar el razonamiento visual al combinar más de cincuenta puntos de referencia para la comprensión espacial, el razonamiento compositivo y el conteo. Al probar casi sesenta modelos de lenguaje visual, Meta descubrió que escalar los datos y el tamaño del modelo mejora la percepción, pero no el razonamiento, e incluso los modelos avanzados fallan en tareas simples como el reconocimiento de dígitos y el conteo de objetos.

Estos hallazgos transformaron la forma de medir el progreso del razonamiento visual, resaltando la necesidad de datos de mayor calidad, objetivos específicos y un aprendizaje estructurado, en lugar de depender únicamente de modelos más complejos. Para las empresas, UniBench ofrece una manera transparente de comparar el rendimiento del razonamiento en tareas multimodales antes de su implementación. 11

Figura 6: El gráfico muestra el rendimiento medio de 59 VLM en 53 pruebas de referencia, lo que revela que, a pesar del progreso, muchos modelos aún rinden a un nivel cercano al azar, particularmente en tareas como Winoground, iNaturalist, DSPR y otras (azul: mediana de cero disparos; gris: nivel de azar). 12

OpenAI

OpenAI razonamiento visual avanzado con los modelos o3 y o4-mini, que pueden pensar con imágenes integrando la manipulación de imágenes en su razonamiento. Durante el análisis, amplían, recortan o rotan las imágenes para centrarse en los detalles relevantes, imitando cómo los humanos ajustan la atención visual al interpretar diagramas o dibujos.

Sometidos a pruebas multimodales como la interpretación de gráficos, la resolución visual de problemas y el razonamiento matemático, los modelos mostraron mejoras significativas en precisión y comprensión contextual. Sin embargo, los resultados también revelaron limitaciones, como un razonamiento inconsistente y errores perceptivos ocasionales, lo que subraya el desafío constante que supone la fiabilidad en los sistemas de razonamiento visual.

Figura 7: El gráfico muestra los resultados de todos los modelos evaluados bajo configuraciones de alto “esfuerzo de razonamiento”. 13

Esfuerzos académicos y de investigación abierta

VisuLogic: Un referente para evaluar el razonamiento visual en modelos de lenguaje multimodales de gran tamaño.

Este artículo presenta VisuLogic , un conjunto de datos de referencia para evaluar el rendimiento de modelos multimodales en tareas de razonamiento visual. Combina más de cincuenta conjuntos de datos que abarcan diversos tipos de razonamiento, incluyendo relaciones espaciales, lógica compositiva y conteo de objetos.

Los autores analizan decenas de modelos existentes y descubren que aumentar el tamaño o la escala de los datos mejora el reconocimiento de imágenes, pero no el razonamiento. Los modelos suelen detectar patrones sin comprender las relaciones entre los objetos. El artículo subraya que el entrenamiento específico para el razonamiento, una mejor calidad de los datos y una evaluación detallada son esenciales para lograr un progreso significativo.

VisuLogic ofrece un marco unificado que ayuda a investigadores y empresas a analizar las capacidades de razonamiento en lugar de basarse únicamente en métricas de percepción, lo que lo convierte en un recurso valioso para evaluar sistemas de razonamiento multimodal. 14

Explica antes de responder: Un estudio sobre el razonamiento visual compositivo

Este estudio analiza los enfoques actuales del razonamiento visual compositivo, centrándose en cómo los modelos combinan pistas visuales y textuales para llegar a la respuesta correcta. Asimismo, identifica las deficiencias de los métodos existentes que se basan en el reconocimiento en lugar del razonamiento estructurado.

Los autores proponen entrenar modelos para que expliquen antes de responder, garantizando así que cada proceso de razonamiento sea transparente e interpretable. Analizan técnicas para alinear las representaciones visuales y lingüísticas, de modo que los modelos puedan comprender mejor diagramas, figuras y asociaciones de objetos.

El artículo concluye que el razonamiento coherente y explicable mejora la fiabilidad y la interpretabilidad en tareas multimodales. Destaca que el futuro de la investigación sobre razonamiento visual depende de la integración del aprendizaje basado en explicaciones en el diseño de modelos. 15

Desafíos en las habilidades de razonamiento visual de LLM

Los avances en el razonamiento visual también plantean desafíos técnicos y éticos que deben tenerse en cuenta.

La fiabilidad sigue siendo una preocupación fundamental. Como se observa en nuestra evaluación comparativa, los modelos presentan dificultades con visualizaciones densas, fallando en la correspondencia entre barras y años y en la percepción de la altura relativa en gráficos complejos, lo que genera errores sistemáticos en la identificación de tendencias. Incluso los modelos avanzados fallan en tareas sencillas como el reconocimiento de dígitos y el conteo de objetos, y el escalado de datos mejora la percepción, pero no el razonamiento.

Los sesgos y los problemas de interpretación son generalizados. Los modelos de razonamiento visual aprenden y reflejan los sesgos presentes en sus datos de entrenamiento al interpretar imágenes. Estos modelos reflejan suposiciones culturales y estereotipos derivados de dichos datos, incluyendo sesgos de género, raza, edad y discapacidad. Por ejemplo, al predecir las profesiones de las personas en una imagen o al interpretar escenarios, estos sesgos pueden distorsionar los resultados.

La explicabilidad es fundamental para generar confianza. Los modelos deben explicar su proceso de razonamiento de forma transparente, especialmente en aplicaciones de alto riesgo como la atención médica, la contratación y la justicia penal, donde los resultados sesgados pueden causar daño.

Metodología de evaluación comparativa

Todos los modelos se evaluaron mediante la API OpenRouter con parámetros estandarizados: la temperatura se estableció en 0,8 y el parámetro de tokens máximos no se configuró para evitar limitar las capacidades de razonamiento. Se les indicó a los modelos que respondieran con una sola letra (AE) sin explicación, aunque algunos modelos proporcionaron un razonamiento detallado, que analizamos para extraer las respuestas finales. La evaluación se ejecutó en paralelo en todos los modelos simultáneamente. Cada pregunta se ejecutó 5 veces para garantizar resultados consistentes y fiables.

La prueba de referencia constaba de 200 preguntas divididas en dos categorías: Comprensión de gráficos (100 preguntas), que abarcaba gráficos de barras, gráficos lineales, diagramas de dispersión y visualizaciones de datos complejas, y Lógica visual (10 preguntas), que evaluaba el reconocimiento de patrones, el razonamiento espacial y la lógica visual matemática. Todas las preguntas se presentaban en formato de opción múltiple con cinco opciones (AE), lo que requería que los modelos analizaran imágenes y seleccionaran la respuesta correcta.

Questions:

1. Comprensión de gráficos Evaluamos los modelos en función de su capacidad para extraer, interpretar y analizar información de diversas visualizaciones de datos:

  • Gráficos de barras : configuraciones horizontales y verticales, formatos apilados y agrupados.
  • Gráficos de líneas : tendencias de series simples y múltiples, datos de series temporales
  • Diagramas de dispersión : análisis de correlación, identificación de patrones con ejes etiquetados.
  • Gráficos circulares : Distribuciones porcentuales y razonamiento proporcional
  • Visualizaciones complejas : gráficos combinados, gráficos de doble eje y pantallas multipanel.

2. Lógica visual Evaluamos el razonamiento abstracto y la inteligencia espacial a través de:

  • Reconocimiento de patrones : Identificar secuencias y completar patrones visuales.
  • Razonamiento espacial : visualización 3D, redes cúbicas y transformaciones geométricas.
  • Lógica matemática : Patrones numéricos, razonamiento algebraico y combinatoria.
  • Pensamiento abstracto : manipulación de símbolos, deducción lógica e inferencia de reglas.

Formato de preguntas

  • Formato de respuesta : Opción múltiple (A, B, C, D, E)
Sıla Ermut
Sıla Ermut
Analista de la industria
Sıla Ermut es analista de la industria en AIMultiple, especializada en marketing por correo electrónico y vídeos de ventas. Anteriormente trabajó como reclutadora en empresas de gestión de proyectos y consultoría. Sıla es licenciada en Psicología Social y en Relaciones Internacionales.
Ver perfil completo
Investigado por
Nazlı Şipi
Nazlı Şipi
Investigador de IA
Nazlı es analista de datos en AIMultiple. Cuenta con experiencia previa en análisis de datos en diversos sectores, donde se dedicó a transformar conjuntos de datos complejos en información útil para la toma de decisiones.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450