Contactez-nous
Aucun résultat trouvé.

Comparaison de modèles d'IA multimodaux en matière de raisonnement visuel

Sıla Ermut
Sıla Ermut
mis à jour le Fév 20, 2026
Consultez notre normes éthiques

Nous avons évalué les performances de 15 modèles d'IA multimodaux de pointe en matière de raisonnement visuel à l'aide de 200 questions visuelles. L'évaluation comportait deux volets : 100 questions de compréhension de graphiques testant l'interprétation de visualisations de données, et 100 questions de logique visuelle évaluant la reconnaissance de formes et le raisonnement spatial. Chaque question a été posée 5 fois afin de garantir des résultats cohérents et fiables.

Référence de raisonnement visuel

Loading Chart

Consultez notre méthodologie de référence pour découvrir nos procédures de test.

Les modèles gemini-3.1-pro-preview et gemini-3-pro-preview dominent le classement. Ils sont suivis par gpt-5.2 , kimi-k2.5 et gpt-5.2-pro , qui constituent le groupe de modèles suivant. Bien que la plupart des modèles soient performants pour les tâches basées sur les données, le modèle llama-4-maverick présente encore des lacunes dans la liaison des entrées visuelles aux étapes logiques.

Logique visuelle

La logique visuelle requiert la reconnaissance de formes et le raisonnement spatial. gemini-3.1-pro-preview obtient les meilleurs résultats au test de logique visuelle, notamment dans les tâches de raisonnement abstrait. De nombreux modèles présentent une baisse de performance par rapport aux résultats d'analyse graphique. llama-4-maverick montre une limitation dans ces tâches.

Compréhension des graphiques

Les modèles démontrent une meilleure maîtrise de l'interprétation des graphiques que de la logique visuelle. gemini-3.1-pro-preview obtient le meilleur score aux tests de compréhension des graphiques, suivi de près par gemini-3-pro-preview et gemini-2.5-pro , ce qui témoigne d'une forte capacité à décoder les données structurées et les visualisations. claude-opus-4.6 et claude-sonnet-4.6 affichent de meilleurs résultats en interprétation des graphiques qu'en logique. Les tâches visuelles basées sur les données sont plus accessibles aux modèles multimodaux actuels que la reconnaissance de formes.

Fiabilité statistique des performances de raisonnement visuel (IC à 95 %)

Nous avons calculé les intervalles de confiance (IC) à 95 % à travers 10 000 rééchantillonnages bootstrap pour définir la marge d'erreur de chaque modèle, montrant la plage dans laquelle leurs performances réelles se situent probablement.

Questions de référence sur les points forts et les difficultés des LLM

Question graphique avec le taux de réussite LLM le plus faible

Figure 1 : Graphique à barres présentant les volumes de ventes de Star sur 12 mois, avec quatre barres groupées par mois (données de 1998 à 2000). Chaque mois affiche des barres pleines, blanches et rayées regroupées.

Remarque : Toutes les cartes ont été obtenues auprès de Hitbullseye. 1

Question : Si les ventes augmentent ou diminuent régulièrement pendant trois années consécutives, on parle de tendance stable. Quels mois présentent une tendance à la hausse constante sur trois années consécutives ?

Par exemple, en juin 1999, la valeur réelle était inférieure à celle de 1998, indiquant une baisse, mais le modèle l'a interprétée à tort comme une augmentation constante. La plupart des modèles commettent la même erreur sur ce point.

Lorsque quatre barres sont regroupées par mois, les modèles ont rencontré des difficultés pour associer les barres aux années et pour percevoir leur hauteur relative. Ils ne parvenaient pas à distinguer avec précision quelle barre rayée, pleine ou blanche correspondait à quelle année, ce qui entraînait une lecture incorrecte des barres ou une confusion quant à leur hauteur.

Cela a révélé une limitation fondamentale du raisonnement visuo-spatial : les modèles actuels ne possédaient pas la perception précise au pixel près nécessaire pour mesurer et séquencer correctement des barres densément regroupées, ce qui entraînait une identification erronée systématique des tendances.

Question graphique avec le taux de réussite le plus élevé pour le LLM

Figure 2 : Graphique à barres montrant les pourcentages de participation des électeurs aux élections générales indiennes de 1952 à 1998. Une barre par année électorale avec un espacement clair entre les barres.

Question : Les taux de participation électorale les plus élevés et les plus faibles jamais enregistrés (en pourcentage) ont été respectivement enregistrés en quelles années ?

Tous les modèles ont répondu correctement à cette question. Ce succès démontre leur capacité à identifier les valeurs minimales et maximales de manière simple, en trouvant les barres les plus hautes et les plus basses.

Contrairement aux groupes de quatre barres superposées, qui prêtent à confusion, ce graphique présente une seule barre par année avec un espacement clair, facilitant ainsi la comparaison visuelle directe. Les modèles sont performants pour les tâches purement observationnelles ne nécessitant aucune correspondance complexe entre les barres et les catégories.

Question de logique visuelle avec le taux de réussite le plus élevé au LLM

Deux grilles 3x3 alignées présentent un exercice de correspondance de motifs algébriques. La grille supérieure contient les variables et leurs opérations (multiplication, division, exponentiation). La grille inférieure affiche des valeurs numériques, certaines cases étant remplies (6, 36, 3/4), ainsi que deux inconnues (A, B). La question demande de calculer B - A.

Figure 3 : Deux grilles 3×3 alignées illustrant la correspondance de motifs algébriques. La grille supérieure contient les variables et leurs opérations (multiplication, division, exponentiation). La grille inférieure présente des valeurs numériques, certaines cases étant remplies (6, 36, 3/4), ainsi que deux inconnues (A, B). L’énoncé demande de trouver BA.

Le succès reposait sur la clarté du modèle mathématique visible dans la structure du tableau (relations algébriques telles que a×b, c×d). La simplicité de la grille, sans complexité visuelle, a permis aux modèles de se concentrer exclusivement sur l'inférence numérique et la déduction logique.

Les modèles excellent lorsque les problèmes impliquent des schémas mathématiques explicites qui peuvent être résolus par un raisonnement étape par étape, démontrant ainsi leur force en matière de logique symbolique et de reconnaissance de formes lorsque les distractions visuelles sont minimales.

Question de logique visuelle avec le taux de réussite le plus faible au LLM

Jeu de reconnaissance de formes avec des cercles contenant différents motifs de lignes internes et des formes géométriques. Deux exemples de séquences avec des flèches sont présentés en haut, suivis d'une question demandant de compléter la troisième séquence parmi cinq options à choix multiples.

Figure 4 : Puzzle de reconnaissance de formes avec des cercles contenant différents motifs de lignes internes et des formes géométriques. Deux exemples de séquences avec des flèches sont présentés en haut, suivis d’une question demandant de compléter la troisième séquence à partir de cinq options à choix multiples.

La difficulté provient de la nécessité de reconnaître des formes visuelles abstraites, d'identifier des règles de transformation géométrique à travers de multiples exemples.

Cela exige un raisonnement purement spatial pour comprendre comment les formes pivotent, se transforment et interagissent. Les modèles peinent à déduire des règles à partir de séquences visuelles lorsqu'aucune indication numérique ou textuelle explicite n'est disponible, seulement des motifs spatiaux.

Qu'est-ce que le raisonnement visuel ?

Le raisonnement visuel est la capacité d'un modèle à interpréter des images, à relier des éléments visuels et à répondre à des questions nécessitant la compréhension d'informations à la fois visuelles et textuelles. Cette capacité s'étend au-delà de la simple reconnaissance d'objets et englobe des tâches telles que l'analyse de visualisations de données, l'identification de motifs spatiaux et la compréhension des relations entre les éléments visuels.

Notre évaluation comparative s'est déroulée selon deux axes distincts afin de tester différents aspects cognitifs : la compréhension de graphiques, où les modèles interprétaient des diagrammes à barres, des graphiques linéaires et des nuages de points pour évaluer leur capacité à extraire des informations structurées à partir de visualisations de données ; et la logique visuelle, où ils résolvaient des problèmes de reconnaissance de formes et de raisonnement spatial pour mesurer le raisonnement abstrait sans indication numérique explicite. Cette distinction reflète la différence fondamentale entre le traitement explicite et implicite des données par les modèles.

Les modèles réalisent un raisonnement visuel grâce à différentes approches architecturales. Par exemple, le cadre Cola coordonne plusieurs modèles vision-langage, chacun fournissant des légendes et des réponses plausibles ; un modèle LLM central évalue ensuite ces options et sélectionne la réponse la plus appropriée.

Figure 5 : Graphique montrant comment Cola exploite un modèle de langage coordinatif pour le raisonnement visuel. 2

Un autre exemple est le cadre CVR-LLM, qui améliore le raisonnement en convertissant les images en descriptions contextuelles grâce à la méthode CaID et en sélectionnant les exemples pertinents avec la procédure CVR-ICL. Ce cadre traite les informations des images comme des représentations textuelles, permettant ainsi au LLM d'analyser plus efficacement les associations dans différents types de tâches multimodales . 3

Comment fonctionne le raisonnement visuel dans les LLM

Les modèles de langage (LLM) ne perçoivent pas directement les images. Ils s'appuient sur des encodeurs visuels qui convertissent les images en représentations structurées adaptées aux modèles de langage. L'encodeur identifie les objets, les textures, les relations spatiales et les motifs visuels. Le LLM combine ensuite cette représentation avec la requête textuelle pour construire une chaîne de raisonnement.

Coordination ou perfectionnement

Deux mécanismes principaux existent pour les scénarios visuels complexes : la coordination, où un modèle linéaire étendu (LLM) intègre les résultats de plusieurs modèles de vision pour recouper les interprétations ; et le raffinement, où le LLM améliore itérativement les descriptions d’images grâce à des boucles de rétroaction qui identifient les informations manquantes. Ces deux mécanismes pallient les limitations des modèles uniques incapables d’analyser des scénarios complexes.

Apprentissage en contexte pour le raisonnement multimodal

Certains frameworks extraient des exemples similaires des données d'entraînement, fournissant ainsi au modèle des modèles pour interpréter les entrées visuelles. Ces démonstrations aident le modèle à appliquer les schémas de raisonnement appris à de nouveaux problèmes.

Produire l'explication finale

Le LLM produit une réponse étayée par un raisonnement, expliquant comment il a interprété l'image, sur quels éléments visuels il s'est appuyé et les liens logiques qu'il a établis.

Raisonnement par chaîne de pensée dans les tâches visuelles

Le raisonnement par chaîne de pensée (CoT) s'est imposé comme une approche importante du raisonnement visuel. Au lieu d'analyser une image dans son ensemble, les modèles décomposent désormais les problèmes visuels en étapes séquentielles plus petites, à l'image de la façon dont les humains résolvent des problèmes complexes en les décomposant étape par étape.

La technologie Visual CoT permet aux modèles d'ajuster dynamiquement la mise au point sur différentes régions spatiales d'une image, palliant ainsi une limitation majeure des modèles précédents qui reposaient sur un traitement d'image à granularité fixe. Par exemple, lors de l'analyse d'un graphique complexe, le modèle peut d'abord identifier les axes, puis examiner les points de données individuels et enfin comparer les tendances, au lieu de tenter de tout comprendre simultanément.

Cette approche intègre l'apprentissage par renforcement et l'apprentissage par imitation afin d'aligner plus étroitement les modèles sur les schémas de raisonnement humains. Elle représente un changement fondamental, passant d'une reconnaissance passive de formes à une résolution active de problèmes visuels, où les modèles explorent et raisonnent activement sur ce qu'ils voient. 4

Applications commerciales du raisonnement visuel dans les LLM

Les modèles linguistiques dotés de capacités visuelles peuvent prendre en charge de nombreux scénarios d'affaires. Ces applications reposent sur la capacité du modèle à analyser des images, à les relier à des données textuelles et à produire des informations fiables.

Analyse de documents et de contenus

Les entreprises utilisent des diagrammes, des dessins techniques, des figures de revues scientifiques et diverses formes de données visuelles. Un modèle de raisonnement visuel peut :

  • Détecter les éléments manquants ou incorrects.
  • Identifiez les objets ou les symboles situés dans la partie inférieure ou les coins des schémas.
  • Associer les segments de texte et d'image pour effectuer des contrôles de qualité.
  • Extraire des informations structurées pour un déploiement ou un reporting ultérieur.

Par exemple, Intuit a intégré les modèles Doc AI et Gemini de Cloud pour remplir automatiquement les déclarations de revenus sur les formulaires fiscaux américains courants, améliorant ainsi la vitesse et la précision du traitement des documents. 5

Inspection et opérations de qualité

Dans les secteurs de la production et de la logistique , les modèles peuvent inspecter les produits ou les emballages. Le raisonnement visuel permet de détecter les défauts, les désalignements ou les anomalies. Le modèle peut comparer des images à une référence et fournir une explication des modifications ou des éléments manquants.

Intel, par exemple, utilise des systèmes d'inspection par vision IA qui permettent d'économiser 2 millions de dollars par an, les fabricants atteignant généralement un retour sur investissement en 6 à 12 mois grâce à la réduction des rebuts et à la diminution des retours clients. 6

Commerce de détail et commerce électronique

Les modèles analysent les images des produits, identifient leurs attributs clés et les associent aux données du catalogue. La recherche visuelle permet aux clients de télécharger des images pour trouver des produits similaires grâce à la vision par ordinateur, tandis que les moteurs de recommandation de tailles basés sur l'IA ont permis de réduire les taux de retour de 20 à 30 %. Ces systèmes détectent également les incohérences entre les descriptions et les images des produits. 7

Sécurité et surveillance

Le raisonnement visuel facilite l'inspection des vidéos et des images en analysant les séquences d'images et en détectant les anomalies. Cambridge Industries a mis en œuvre un système de sécurité basé sur l'IA pour les chantiers de construction, ce qui a permis de réduire de près de 50 % les coûts de réparation d'urgence. 8

Marketing et expérience utilisateur

Le raisonnement visuel aide les équipes à comprendre comment les utilisateurs interagissent avec le contenu numérique. Un modèle peut analyser des captures d'écran ou des visuels et fournir des informations sur la mise en page, le placement des objets et les problèmes potentiels. Ceci est particulièrement pertinent pour l'évaluation de différentes catégories de ressources visuelles.

Par exemple, Comeen utilise l'IA Gemini pour générer en un clic des sous-titres multilingues pour les vidéos professionnelles dans 40 langues, éliminant ainsi le processus de plusieurs jours et de plusieurs fournisseurs qui rendait auparavant le contenu obsolète avant même sa publication. 9

Paysage comparatif : les principaux acteurs et leurs approches

Chance IA

Chance AI figure parmi les premiers outils commerciaux conçus autour d'une approche visuelle novatrice. Son système de raisonnement visuel analyse les images selon des critères culturels, historiques, fonctionnels et esthétiques. Au lieu de se contenter d'attribuer des étiquettes, il fournit des analyses structurées expliquant l'importance d'un objet, d'une figure ou d'une scène, notamment le style, le symbolisme et le contexte historique de l'œuvre, en plus de son sujet.

Cette conception privilégie l'expérience utilisateur en permettant une exploration intuitive des images, sans requêtes écrites. Elle dépasse ainsila vision par ordinateur traditionnelle pour s'orienter vers l'interprétation, la narration et une explication plus naturelle, la rendant particulièrement pertinente pour les industries créatives, l'éducation et le tourisme, où le contexte apporte une valeur ajoutée qui va au-delà de la simple reconnaissance. 10

Meta IA

Le cadre UniBench de Meta a introduit une approche unifiée de l'évaluation du raisonnement visuel en combinant plus de cinquante benchmarks pour la compréhension spatiale, le raisonnement compositionnel et le comptage. Testant près de soixante modèles vision-langage, Meta a constaté que l'augmentation de la taille des données et du modèle améliore la perception mais pas le raisonnement, même des modèles avancés échouant à des tâches simples comme la reconnaissance de chiffres et le comptage d'objets.

Ces résultats ont modifié la façon dont on mesure les progrès du raisonnement visuel, soulignant la nécessité de données de meilleure qualité, d'objectifs ciblés et d'un apprentissage structuré, plutôt que de se fier uniquement à des modèles de grande taille. Pour les entreprises, UniBench offre une méthode transparente pour comparer les performances de raisonnement sur des tâches multimodales avant leur déploiement. 11

Figure 6 : Le graphique montre les performances médianes de 59 VLM sur 53 benchmarks, révélant que, malgré les progrès, de nombreux modèles ont encore des performances proches du niveau du hasard, en particulier sur des tâches comme Winoground, iNaturalist, DSPR et autres (bleu : médiane zéro-shot ; gris : niveau du hasard). 12

OpenAI

OpenAI Raisonnement visuel avancé grâce aux modèles o3 et o4-mini, capables de raisonner à partir d'images en intégrant la manipulation d'images à leur raisonnement. Lors de l'analyse, ils effectuent un zoom, un recadrage ou une rotation des images pour se concentrer sur les détails pertinents, à l'image de la façon dont les humains ajustent leur attention visuelle lorsqu'ils interprètent des diagrammes ou des dessins.

Testés à l'aide de tests multimodaux de référence, tels que l'interprétation de graphiques, la résolution de problèmes visuels et le raisonnement mathématique, les modèles ont démontré des gains significatifs en termes de précision et de compréhension contextuelle. Toutefois, les résultats ont également mis en évidence des limites, notamment des raisonnements incohérents et des erreurs de perception occasionnelles, soulignant ainsi le défi persistant que représente la fiabilité des systèmes de raisonnement visuel.

Figure 7 : Le graphique montre les résultats de tous les modèles évalués dans des paramètres d’« effort de raisonnement » élevés. 13

efforts de recherche académiques et ouverts

VisuLogic : un banc d’essai pour l’évaluation du raisonnement visuel dans les grands modèles de langage multimodaux

Cet article présente VisuLogic , un banc d'essai permettant d'évaluer les performances des modèles multimodaux pour les tâches de raisonnement visuel. Il combine plus de cinquante jeux de données couvrant différents types de raisonnement, notamment les relations spatiales, la logique compositionnelle et le comptage d'objets.

Les auteurs analysent des dizaines de modèles existants et constatent qu'augmenter la taille ou l'échelle des données améliore la reconnaissance d'images, mais pas le raisonnement. Les modèles détectent souvent des motifs sans comprendre les relations entre les objets. L'article souligne que l'entraînement spécifique au raisonnement, une meilleure qualité des données et une évaluation détaillée sont essentiels pour progresser significativement.

VisuLogic offre un cadre unifié qui aide les chercheurs et les entreprises à analyser les capacités de raisonnement plutôt que de se fier uniquement aux mesures de perception, ce qui en fait une ressource précieuse pour l'évaluation des systèmes de raisonnement multimodaux. 14

Expliquez avant de répondre : une étude sur le raisonnement visuel compositionnel

Cette étude passe en revue les approches actuelles du raisonnement visuel compositionnel, en s'intéressant à la manière dont les modèles combinent indices visuels et textuels pour parvenir à une réponse correcte. Elle met en évidence les faiblesses des méthodes existantes qui reposent sur la reconnaissance plutôt que sur un raisonnement structuré.

Les auteurs proposent des modèles d'apprentissage qui expliquent le raisonnement avant de répondre, garantissant ainsi la transparence et l'interprétabilité de chaque étape. Ils abordent des techniques d'alignement des représentations visuelles et linguistiques afin que les modèles comprennent mieux les diagrammes, les figures et les associations d'objets.

L'article conclut qu'un raisonnement aligné et explicable améliore la fiabilité et l'interprétabilité des tâches multimodales. Il souligne que l'avenir de la recherche sur le raisonnement visuel repose sur l'intégration de l'apprentissage par l'explication dans la conception des modèles. 15

Défis liés aux capacités de raisonnement visuel du LLM

Les progrès en matière de raisonnement visuel soulèvent également des défis techniques et éthiques qu'il convient de prendre en compte.

La fiabilité demeure un enjeu majeur. Comme le montre notre analyse comparative, les modèles peinent avec les visualisations denses, notamment pour la correspondance barre-année et la perception de la hauteur relative dans les graphiques complexes, ce qui entraîne des erreurs systématiques dans l'identification des tendances. Même les modèles avancés échouent à des tâches simples comme la reconnaissance de chiffres et le comptage d'objets, et la mise à l'échelle des données améliore la perception mais pas le raisonnement.

Les biais et les problèmes d'interprétation sont très répandus. Les modèles de raisonnement visuel apprennent et reflètent les biais présents dans leurs données d'entraînement lorsqu'ils interprètent des images. Ces modèles intègrent des présupposés culturels et des stéréotypes issus de ces données, notamment des biais liés au genre, à l'origine ethnique, à l'âge et au handicap. Par exemple, lors de la prédiction des professions des personnes figurant sur une image ou de l'interprétation de scénarios, ces biais peuvent fausser les résultats.

L'explicabilité est essentielle à la confiance. Les modèles doivent expliquer leur processus de raisonnement de manière transparente, notamment dans les applications à forts enjeux comme la santé, le recrutement et la justice pénale, où des résultats biaisés peuvent être préjudiciables.

Méthodologie de référence

Tous les modèles ont été évalués via l'API OpenRouter avec des paramètres standardisés : la température a été fixée à 0,8 et le nombre maximal de jetons n'a pas été défini afin de ne pas limiter les capacités de raisonnement. Les modèles devaient répondre par une seule lettre (AE) sans explication, bien que certains aient fourni un raisonnement détaillé, que nous avons analysé pour extraire les réponses finales. L'évaluation a été menée en parallèle sur tous les modèles simultanément. Chaque question a été posée cinq fois afin de garantir des résultats cohérents et fiables.

Le test de référence comportait 200 questions réparties en deux catégories : Compréhension de graphiques (100 questions) portant sur les diagrammes à barres, les graphiques linéaires, les nuages de points et les visualisations de données complexes, et Logique visuelle (10 questions) évaluant la reconnaissance de formes, le raisonnement spatial et la logique visuelle mathématique. Toutes les questions étaient présentées sous forme de questions à choix multiple avec cinq options (AE), exigeant des participants qu’ils analysent les images et sélectionnent la bonne réponse.

Questions:

1. Compréhension des graphiques Nous avons évalué les modèles sur leur capacité à extraire, interpréter et analyser les informations issues de diverses visualisations de données :

  • Graphiques à barres : configurations horizontales et verticales, formats empilés et groupés
  • Graphiques linéaires : tendances mono- et multi-séries, données chronologiques
  • Diagrammes de dispersion : analyse de corrélation, identification de tendances avec axes étiquetés
  • Diagrammes circulaires : répartition en pourcentage et raisonnement proportionnel
  • Visualisations complexes : graphiques combinés, graphiques à double axe et affichages multi-panneaux

2. Logique visuelle Nous avons évalué le raisonnement abstrait et l'intelligence spatiale à travers :

  • Reconnaissance de formes : Identification de séquences et complétion de motifs visuels
  • Raisonnement spatial : visualisation 3D, patrons de cubes et transformations géométriques
  • Logique mathématique : Modèles numériques, raisonnement algébrique et combinatoire
  • Pensée abstraite : manipulation de symboles, déduction logique et inférence de règles

Format de question

  • Format de réponse : Choix multiple (A, B, C, D, E)
Sıla Ermut
Sıla Ermut
Analyste du secteur
Sıla Ermut est analyste chez AIMultiple, spécialisée dans le marketing par e-mail et les vidéos de vente. Auparavant, elle travaillait comme recruteuse dans des cabinets de conseil et de gestion de projets. Sıla est titulaire d'un master en psychologie sociale et d'une licence en relations internationales.
Voir le profil complet
Recherche effectuée par
Nazlı Şipi
Nazlı Şipi
Chercheur en IA
Nazlı est analyste de données chez AIMultiple. Elle possède une expérience préalable en analyse de données dans divers secteurs, où elle a travaillé à transformer des ensembles de données complexes en informations exploitables.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450