Avaliamos o desempenho de 15 modelos líderes de IA multimodal em raciocínio visual usando 200 questões baseadas em recursos visuais. A avaliação consistiu em duas vertentes: 100 questões de compreensão de gráficos, que testavam a interpretação de visualizações de dados, e 100 questões de lógica visual, que avaliavam o reconhecimento de padrões e o raciocínio espacial. Cada questão foi executada 5 vezes para garantir resultados consistentes e confiáveis.
Avaliação de raciocínio visual
Consulte nossa metodologia de avaliação comparativa para conhecer nossos procedimentos de teste.
Os modelos gemini-3.1-pro-preview e gemini-3-pro-preview lideram a tabela de classificação. Eles são seguidos por gpt-5.2 , kimi-k2.5 e gpt-5.2-pro , que lideram o próximo grupo de modelos. Embora a maioria dos modelos tenha um bom desempenho em tarefas baseadas em dados, o modelo llama-4-maverick ainda apresenta uma lacuna na conexão de entradas visuais com etapas lógicas.
Lógica visual
A lógica visual requer reconhecimento de padrões e raciocínio espacial. gemini-3.1-pro-preview lidera o teste de lógica visual, apresentando o melhor desempenho em tarefas de raciocínio abstrato. Muitos modelos mostram uma queda no desempenho quando comparados aos resultados na análise de gráficos. llama-4-maverick demonstra uma limitação nessas tarefas.
Compreensão de gráficos
Os modelos demonstram maior proficiência na interpretação de gráficos do que na lógica visual. O modelo gemini-3.1-pro-preview obteve a maior pontuação nos testes de compreensão de gráficos, seguido de perto pelos modelos gemini-3-pro-preview e gemini-2.5-pro , demonstrando forte capacidade de decodificar dados estruturados e visualizações. Os modelos claude-opus-4.6 e claude-sonnet-4.6 apresentaram resultados superiores na interpretação de gráficos em comparação com suas pontuações em lógica. Tarefas visuais baseadas em dados são mais acessíveis aos modelos multimodais atuais do que o reconhecimento de padrões.
Confiabilidade estatística do desempenho no raciocínio visual (IC 95%)
Calculamos os Intervalos de Confiança (IC) de 95% por meio de 10.000 reamostragens bootstrap para definir a margem de erro de cada modelo, mostrando a faixa na qual seu desempenho real provavelmente se encontra.
Questões de referência sobre os pontos fortes e as maiores dificuldades dos mestres em Direito (LLMs).
Questão gráfica com a menor taxa de aprovação no LLM
Figura 1: Gráfico de barras mostrando os volumes de vendas da Star ao longo de 12 meses, com quatro barras agrupadas por mês (dados de 1998 a 2000). Cada mês exibe barras sólidas, brancas e listradas agrupadas próximas umas das outras.
Nota: Todos os gráficos foram obtidos do Hitbullseye. 1
Pergunta: Se as vendas durante três anos consecutivos aumentam ou diminuem de forma constante, isso é chamado de tendência estável. Quais meses apresentam uma tendência de aumento constante ao longo de três anos consecutivos?
Por exemplo, em junho de 1999, o valor real foi menor do que em 1998, mostrando uma queda, mas o modelo interpretou erroneamente como um aumento constante. A maioria dos modelos comete o mesmo erro nessa questão.
Quando 4 barras são agrupadas por mês, os modelos têm dificuldades com o mapeamento barra-ano e a percepção da altura relativa. Eles não conseguem distinguir com precisão qual barra listrada/sólida/branca pertence a qual ano, o que leva à leitura das barras na ordem errada ou à confusão de suas alturas.
Isso revelou uma limitação fundamental no raciocínio visoespacial: os modelos atuais não possuíam a percepção precisa em nível de pixel necessária para medir e sequenciar corretamente barras densamente agrupadas, o que levava à identificação errônea sistemática de tendências.
Questão de gráfico com a maior taxa de sucesso no LLM
Figura 2: Gráfico de barras mostrando as porcentagens de comparecimento às urnas nas eleições gerais indianas de 1952 a 1998. Uma barra por ano eleitoral com espaçamento claro entre as barras.
Pergunta: Em que anos ocorreram, respectivamente, a maior e a menor participação eleitoral de sempre (em percentagem)?
Todos os modelos responderam corretamente a esta pergunta. Este sucesso demonstra que os modelos são excelentes na identificação simples de mínimo e máximo, encontrando as barras mais altas e mais baixas.
Ao contrário dos grupos de 4 barras agrupadas, que são confusos, este gráfico apresenta uma única barra por ano com espaçamento claro, facilitando a comparação visual direta. Os modelos têm um bom desempenho em tarefas puramente observacionais que não exigem mapeamento complexo de barras para categorias.
Questão de lógica visual com a maior taxa de aprovação no LLM

Figura 3: Duas grades 3×3 alinhadas mostrando a correspondência de padrões algébricos. A grade superior contém variáveis e suas operações (multiplicação, divisão, exponenciação). A grade inferior mostra valores numéricos, com algumas células preenchidas (6, 36, 3/4) e duas incógnitas (A, B). O problema pede para encontrar BA.
O sucesso adveio do padrão matemático claro visível na estrutura da tabela (relações algébricas como a×b, c×d). O layout simples da grade, sem complexidade visual, permitiu que os modelos se concentrassem exclusivamente na inferência numérica e na dedução lógica.
Os modelos se destacam quando os problemas envolvem padrões matemáticos explícitos que podem ser resolvidos por meio de raciocínio passo a passo, demonstrando sua força na lógica simbólica e no reconhecimento de padrões quando as distrações visuais são mínimas.
Questão de lógica visual com a menor taxa de aprovação no LLM

Figura 4: Quebra-cabeça de reconhecimento de padrões com círculos contendo diferentes padrões de linhas internas e formas geométricas. Duas sequências de exemplo com setas são mostradas na parte superior, seguidas por uma pergunta que pede para completar a terceira sequência a partir de cinco opções de múltipla escolha.
A dificuldade reside na necessidade de reconhecimento de padrões visuais abstratos, identificando regras de transformação geométrica em múltiplos exemplos.
Isso exige raciocínio espacial puro para entender como as formas giram, se transformam e se relacionam umas com as outras. Os modelos têm dificuldade em inferir regras a partir de sequências visuais quando não há orientação numérica ou textual explícita disponível, apenas padrões espaciais.
O que é raciocínio visual?
O raciocínio visual é a capacidade de um modelo interpretar imagens, conectar elementos visuais e responder a perguntas que exigem a compreensão de informações visuais e textuais. Essa capacidade vai além do simples reconhecimento de objetos, abrangendo tarefas como a análise de visualizações de dados, a identificação de padrões espaciais e a compreensão das relações entre elementos visuais.
Nosso teste de referência avaliou isso por meio de duas vertentes distintas para testar diferentes aspectos cognitivos: compreensão de gráficos, em que os modelos interpretaram gráficos de barras, gráficos de linhas e diagramas de dispersão para avaliar sua capacidade de extrair informações estruturadas de visualizações de dados; e lógica visual, em que eles resolveram quebra-cabeças de reconhecimento de padrões e problemas de raciocínio espacial para medir o raciocínio abstrato sem orientação numérica explícita. Essa divisão reflete a distinção fundamental em como os modelos processam dados explícitos versus padrões implícitos.
Os modelos alcançam o raciocínio visual por meio de diferentes abordagens arquitetônicas. Por exemplo, a estrutura Cola coordena múltiplos modelos de visão-linguagem, onde cada um fornece legendas e respostas plausíveis; em seguida, um modelo de linguagem latente central avalia essas opções e seleciona a resposta mais precisa.
Figura 5: Gráfico que mostra como o Cola utiliza um modelo de linguagem coordenativa para o raciocínio visual. 2
Outro exemplo é a estrutura CVR-LLM, que aprimora o raciocínio convertendo imagens em descrições sensíveis ao contexto usando o método CaID e selecionando exemplos relevantes com o procedimento CVR-ICL. Essa estrutura trata as informações da imagem como representações textuais, permitindo que o LLM analise associações de forma mais eficaz em diversos tipos de tarefas multimodais . 3
Como funciona o raciocínio visual em LLMs
Os LLMs não percebem imagens diretamente. Eles dependem de codificadores de visão que convertem imagens em representações estruturadas, adaptadas para modelos de linguagem. O codificador identifica objetos, texturas, relações espaciais e padrões visuais. O LLM então combina essa representação com a consulta textual para construir uma cadeia de raciocínio.
Coordenação ou refinamento
Existem dois mecanismos principais para cenários visuais complexos: coordenação, onde um LLM integra as saídas de múltiplos modelos de visão para verificar as interpretações; e refinamento, onde o LLM aprimora iterativamente as descrições das imagens por meio de ciclos de feedback que identificam informações faltantes. Ambos abordam as limitações em que modelos individuais falham na análise de cenários complexos.
Aprendizagem contextualizada para raciocínio multimodal
Algumas estruturas recuperam exemplos semelhantes dos dados de treinamento, fornecendo ao modelo modelos para interpretar entradas visuais. Essas demonstrações ajudam o modelo a aplicar padrões de raciocínio aprendidos a novos problemas.
Apresentando a explicação final
O LLM produz uma resposta apoiada por um processo de raciocínio, explicando como interpretou a imagem, em quais elementos visuais se baseou e as conexões lógicas que estabeleceu.
Raciocínio em cadeia em tarefas visuais
O raciocínio em cadeia (CoT, do inglês Chain-of-Thought) emergiu como uma abordagem importante no raciocínio visual. Em vez de analisar uma imagem de uma só vez, os modelos agora dividem os problemas visuais em etapas menores e sequenciais, de forma semelhante à maneira como os humanos resolvem problemas complexos, pensando neles passo a passo.
O Visual CoT permite que os modelos ajustem dinamicamente o foco em diferentes regiões espaciais de uma imagem, resolvendo uma limitação importante em modelos que anteriormente dependiam do processamento de imagens com granularidade fixa. Por exemplo, ao analisar um gráfico complexo, o modelo pode primeiro identificar os eixos, depois examinar os pontos de dados individuais e, finalmente, comparar as tendências, em vez de tentar entender tudo simultaneamente.
Essa abordagem integra aprendizado por reforço e aprendizado por imitação para alinhar os modelos mais estreitamente aos padrões de raciocínio humano. Isso representa uma mudança fundamental do reconhecimento passivo de padrões para a resolução ativa de problemas visuais, em que os modelos exploram e raciocinam ativamente sobre o que veem. 4
Aplicações comerciais do raciocínio visual em mestrados em direito
Modelos de aprendizagem de linguagem (LLMs) com recursos visuais podem dar suporte a diversos cenários de negócios. Essas aplicações dependem da capacidade do modelo de analisar imagens, vinculá-las a dados textuais e gerar insights confiáveis.
Análise de documentos e conteúdo
As empresas lidam com diagramas, desenhos de engenharia, figuras de periódicos científicos e várias formas de dados visuais. Um modelo de raciocínio visual pode:
- Detectar elementos ausentes ou incorretos.
- Identifique objetos ou sinais na parte inferior ou nos cantos dos diagramas.
- Conecte segmentos de texto e imagem para verificações de qualidade.
- Extrair informações estruturadas para posterior implementação ou elaboração de relatórios.
Por exemplo, a Intuit integrou os modelos Doc AI e Gemini da Cloud para preencher automaticamente declarações de impostos em formulários fiscais comuns dos EUA, melhorando a velocidade e a precisão no processamento de documentos. 5
Inspeção e operações de qualidade
Na área de manufatura e logística , os modelos podem inspecionar produtos ou embalagens. O raciocínio visual ajuda a detectar defeitos, desalinhamentos ou padrões incomuns. O modelo pode comparar imagens com uma referência e gerar uma explicação sobre o que mudou ou o que está faltando.
A empresa Intel, por exemplo, utiliza sistemas de inspeção por visão com IA que economizam US$ 2 milhões anualmente, com os fabricantes normalmente obtendo retorno do investimento em 6 a 12 meses por meio da redução de desperdício e menos devoluções de clientes. 6
Varejo e comércio eletrônico
Os modelos analisam imagens de produtos, identificam atributos-chave e os comparam com dados de catálogo. Recursos de busca visual permitem que os clientes carreguem imagens para encontrar produtos similares usando visão computacional, enquanto mecanismos de recomendação de tamanho com inteligência artificial reduziram as taxas de devolução em 20 a 30%. Esses sistemas também detectam inconsistências entre as descrições e as imagens dos produtos. 7
Segurança e monitoramento
O raciocínio visual auxilia em tarefas de inspeção de vídeo e imagem, analisando sequências de quadros e detectando padrões incomuns. A Cambridge Industries implementou um sistema de segurança baseado em IA para canteiros de obras que reduziu os custos de reparos emergenciais em quase 50%. 8
Marketing e experiência do usuário
O raciocínio visual ajuda as equipes a entender como os usuários interagem com o conteúdo digital. Um modelo pode avaliar capturas de tela ou peças criativas e fornecer insights sobre layout, posicionamento de objetos e possíveis problemas. Isso é especialmente relevante ao avaliar diferentes categorias de recursos visuais.
Por exemplo, a Comeen usa a IA Gemini para gerar legendas multilíngues para vídeos corporativos em 40 idiomas com um único clique, eliminando o processo de vários dias e vários fornecedores que antes tornava o conteúdo obsoleto antes da publicação. 9
Panorama comparativo: principais intervenientes e suas abordagens.
IA de chance
A Chance AI está entre as primeiras ferramentas comerciais construídas com base na compreensão visual. Seu sistema de raciocínio visual analisa imagens por meio de lentes culturais, históricas, funcionais e estéticas. Em vez de atribuir rótulos simples, ela fornece insights estruturados que explicam por que um objeto, figura ou cena é importante, como o estilo da obra de arte, o simbolismo e o contexto histórico, além do seu tema.
O design prioriza a experiência do usuário, permitindo a exploração de imagens com base no significado, sem a necessidade de consultas digitadas. Isso vai alémda visão computacional tradicional, rumo à interpretação, à narrativa e à explicação em linguagem humana, tornando-se especialmente relevante para as indústrias criativas, a educação e o turismo, onde o contexto agrega valor que vai além do reconhecimento. 10
Meta IA
A estrutura UniBench de Meta introduziu uma abordagem unificada para avaliar o raciocínio visual, combinando mais de cinquenta benchmarks para compreensão espacial, raciocínio composicional e contagem. Testando quase sessenta modelos de visão-linguagem, Meta descobriu que o dimensionamento dos dados e do tamanho do modelo melhora a percepção, mas não o raciocínio, com até mesmo modelos avançados falhando em tarefas simples como reconhecimento de dígitos e contagem de objetos.
Essas descobertas mudaram a forma como o progresso do raciocínio visual é medido, destacando a necessidade de dados de maior qualidade, objetivos específicos e aprendizado estruturado, em vez de depender exclusivamente de modelos mais amplos. Para empresas, o UniBench oferece uma maneira transparente de comparar o desempenho do raciocínio em tarefas multimodais antes da implementação. 11
Figura 6: O gráfico mostra o desempenho mediano de 59 VLMs em 53 benchmarks, revelando que, apesar do progresso, muitos modelos ainda apresentam desempenho próximo ao aleatório, particularmente em tarefas como Winoground, iNaturalist, DSPR e outras (azul: mediana zero-shot; cinza: nível aleatório). 12
OpenAI
OpenAI raciocínio visual avançado com os modelos o3 e o4-mini, que conseguem pensar com imagens integrando a manipulação de imagens ao seu raciocínio. Durante a análise, eles ampliam, recortam ou giram as imagens para focar em detalhes relevantes, espelhando como os humanos ajustam a atenção visual ao interpretar diagramas ou desenhos.
Testados em diversas modalidades, como interpretação de gráficos, resolução de problemas visuais e raciocínio matemático, os modelos demonstraram ganhos claros em precisão e compreensão contextual. No entanto, os resultados também revelaram limitações, incluindo raciocínio inconsistente e erros perceptivos ocasionais, ressaltando o desafio contínuo da confiabilidade em sistemas de raciocínio visual.
Figura 7: O gráfico mostra os resultados de todos os modelos avaliados em configurações de alto "esforço de raciocínio". 13
Esforços de pesquisa acadêmica e aberta
VisuLogic: Um parâmetro de avaliação para raciocínio visual em grandes modelos de linguagem multimodais.
Este artigo apresenta o VisuLogic , um benchmark para avaliar o desempenho de modelos multimodais em tarefas de raciocínio visual. Ele combina mais de cinquenta conjuntos de dados que abrangem vários tipos de raciocínio, incluindo relações espaciais, lógica composicional e contagem de objetos.
Os autores analisam dezenas de modelos existentes e descobrem que aumentar o tamanho ou a escala dos dados melhora o reconhecimento de imagens, mas não o raciocínio. Os modelos frequentemente detectam padrões sem compreender as relações entre os objetos. O artigo enfatiza que o treinamento específico para o raciocínio, a melhor qualidade dos dados e a avaliação detalhada são essenciais para um progresso significativo.
A VisuLogic oferece uma estrutura unificada que ajuda pesquisadores e empresas a analisar as capacidades de raciocínio, em vez de depender exclusivamente de métricas de percepção, tornando-se um recurso valioso para avaliar sistemas de raciocínio multimodal. 14
Explique antes de responder: uma pesquisa sobre raciocínio visual composicional.
Este estudo analisa as abordagens atuais ao raciocínio visual composicional, com foco em como os modelos combinam pistas visuais e textuais para chegar a uma resposta correta. Ele identifica fragilidades nos métodos existentes que se baseiam no reconhecimento em vez do raciocínio estruturado.
Os autores propõem o treinamento de modelos para explicar antes de responder, garantindo que cada processo de raciocínio seja transparente e interpretável. Eles discutem técnicas para alinhar representações visuais e linguísticas, de modo que os modelos possam compreender melhor diagramas, figuras e associações de objetos.
O artigo conclui que o raciocínio alinhado e explicável aumenta a confiabilidade e a interpretabilidade em tarefas multimodais. Ele destaca que o futuro da pesquisa em raciocínio visual depende da integração da aprendizagem baseada em explicações ao design de modelos. 15
Desafios nas habilidades de raciocínio visual do LLM
Os avanços no raciocínio visual também trazem desafios técnicos e éticos que precisam ser considerados.
A confiabilidade continua sendo uma preocupação fundamental. Como observado em nosso teste comparativo, os modelos apresentam dificuldades com visualizações densamente agrupadas, falhando no mapeamento de barras para anos e na percepção da altura relativa em gráficos complexos, o que leva a erros sistemáticos na identificação de tendências. Mesmo modelos avançados falham em tarefas simples, como reconhecimento de dígitos e contagem de objetos, e o escalonamento dos dados melhora a percepção, mas não o raciocínio.
Viéses e problemas de interpretação são generalizados. Os modelos de raciocínio visual aprendem e refletem vieses presentes em seus dados de treinamento ao interpretar imagens. Esses modelos refletem pressupostos culturais e estereótipos provenientes dos dados de treinamento, incluindo vieses de gênero, raça, idade e deficiência. Por exemplo, ao prever as profissões de pessoas em uma imagem ou ao interpretar cenários, esses vieses podem distorcer os resultados.
A explicabilidade é fundamental para a confiança. Os modelos devem explicar seu processo de raciocínio de forma transparente, especialmente em aplicações de alto risco, como saúde, recrutamento e justiça criminal, onde resultados tendenciosos causam danos.
Metodologia de referência
Todos os modelos foram avaliados por meio da API OpenRouter com parâmetros padronizados: temperatura definida como 0,8 e o parâmetro de número máximo de tokens não foi definido para evitar limitações na capacidade de raciocínio. Os modelos foram instruídos a responder com apenas uma única letra (AE), sem explicação, embora alguns modelos ainda tenham fornecido raciocínios detalhados, que foram analisados para extrair as respostas finais. A avaliação foi executada em paralelo em todos os modelos simultaneamente. Cada pergunta foi executada 5 vezes para garantir resultados consistentes e confiáveis.
O teste de avaliação consistia em 200 questões divididas em duas categorias: Compreensão de Gráficos (100 questões), abrangendo gráficos de barras, gráficos de linhas, diagramas de dispersão e visualizações de dados complexas, e Lógica Visual (10 questões), testando reconhecimento de padrões, raciocínio espacial e lógica visual matemática. Todas as questões foram apresentadas em formato de múltipla escolha com cinco opções (AE), exigindo que os modelos analisassem imagens e selecionassem a resposta correta.
Questions:
1. Compreensão de gráficos Avaliamos os modelos quanto à sua capacidade de extrair, interpretar e analisar informações de diversas visualizações de dados:
- Gráficos de barras : configurações horizontais e verticais, formatos empilhados e agrupados.
- Gráficos de linhas : Tendências de séries únicas e múltiplas, dados de séries temporais
- Gráficos de dispersão : análise de correlação, identificação de padrões com eixos rotulados.
- Gráficos de pizza : Distribuições percentuais e raciocínio proporcional
- Visualizações complexas : gráficos combinados, gráficos de eixo duplo e exibições com vários painéis.
2. Lógica visual. Avaliamos o raciocínio abstrato e a inteligência espacial por meio de:
- Reconhecimento de padrões : Identificar sequências e completar padrões visuais.
- Raciocínio espacial : visualização 3D, redes cúbicas e transformações geométricas.
- Lógica matemática : padrões numéricos, raciocínio algébrico e combinatória.
- Pensamento abstrato : manipulação de símbolos, dedução lógica e inferência de regras.
Formato da pergunta
- Formato da resposta : Múltipla escolha (A, B, C, D, E)
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.