Benchmark

Comparer les modèles d'IA multimodaux sur le raisonnement visuel

Sıla Ermut

avec

Nazlı Şipi

mis à jour le 20 févr. 2026

Consultez nos normes éthiques

Citer Ce Benchmark

Nous avons évalué 15 modèles d’IA multimodaux de pointe sur le raisonnement visuel à l’aide de 200 questions visuelles. L’évaluation comprenait deux volets : 100 questions de compréhension de graphiques testant l’interprétation de visualisations de données, et 100 questions de logique visuelle évaluant la reconnaissance de motifs et le raisonnement spatial. Chaque question a été exécutée 5 fois pour garantir des résultats cohérents et fiables.

Benchmark de raisonnement visuel

Loading Chart

Consultez notre méthodologie de benchmark pour connaître nos procédures de test.

gemini-3.1-pro-preview et gemini-3-pro-preview dominent le classement. Ils sont suivis par gpt-5.2, kimi-k2.5 et gpt-5.2-pro qui mènent le groupe suivant de modèles. Alors que la plupart des modèles obtiennent de bons résultats sur les tâches basées sur les données, un écart subsiste pour llama-4-maverick dans la connexion des entrées visuelles avec les étapes logiques.

Logique visuelle

La logique visuelle nécessite la reconnaissance de motifs et le raisonnement spatial. gemini-3.1-pro-preview mène le test de logique visuelle, affichant les meilleures performances dans les tâches de raisonnement abstrait. De nombreux modèles montrent une baisse de performance par rapport aux résultats de l’analyse de graphiques. llama-4-maverick montre une limitation dans ces tâches.

Compréhension de graphiques

Les modèles démontrent une meilleure maîtrise de l’interprétation des graphiques que de la logique visuelle. gemini-3.1-pro-preview a le score le plus élevé dans les tests de compréhension de graphiques, suivi de près par gemini-3-pro-preview et gemini-2.5-pro, montrant une forte capacité à décoder des données structurées et des visualisations. claude-opus-4.6 et claude-sonnet-4.6 affichent de meilleurs résultats lors de l’interprétation des graphiques par rapport à leurs scores de logique. Les tâches visuelles basées sur les données sont plus accessibles aux modèles multimodaux actuels que la reconnaissance de motifs.

Fiabilité statistique de la performance de raisonnement visuel (95% IC)

Nous avons calculé les 95% intervalles de confiance (IC) à l’aide de 10,000 rééchantillonnages bootstrap pour définir la marge d’erreur de chaque modèle, indiquant la plage dans laquelle leurs performances réelles se situent probablement.

Modèle	Global (95% IC)	Logique visuelle (95% IC)	Compréhension de graphiques (95% IC)
gemini-3.1-pro-preview	71 (65.20, 77.00)	58 (49.20, 66.80)	84 (77.60, 90.60)
gemini-3-pro-preview	69 (62.80-74.70)	55 (46.40-63.80)	82 (75.20-89.20)
gpt-5.2	67 (61.10-73.30)	56 (47.00-64.40)	79 (70.80-86.20)
gpt-5.2-pro	66 (59.60-71.90)	53 (44.20-61.40)	79 (70.80-86.40)
kimi-k2.5	66 (59.80-71.30)	53 (44.60-61.00)	78 (71.00-85.20)
gemini-2.5-pro	63 (56.90-68.90)	46 (37.80-53.80)	80 (72.40-87.00)
claude-opus-4.6	55 (48.50-61.40)	36 (27.80-44.00)	74 (65.60-82.20)
gpt-5.1-codex	53 (47.50-58.70)	33 (26.20-39.60)	73 (66.00-80.60)
claude-sonnet-4.6	52 (45.70-58.10)	31 (23.00-38.60)	73 (65.20-80.80)
qwen3-vl-8b-thinking	50 (44.40-56.00)	34 (26.40-41.00)	67 (58.60-74.20)

Questions de benchmark sur où les LLMs excellent et rencontrent le plus de difficultés

Question de graphique avec le plus faible taux de réussite des LLM

Graphique à barres montrant les volumes de ventes Star sur 12 mois avec quatre barres groupées par mois (données 1998-2000). Chaque mois affiche des barres pleines, blanches et rayées en regroupement serré.

Figure 1 : Graphique à barres montrant les volumes de ventes Star sur 12 mois avec quatre barres groupées par mois (données 1998-2000). Chaque mois affiche des barres pleines, blanches et rayées en regroupement serré.

Remarque : Tous les graphiques proviennent de Hitbullseye.¹

Question : Si les ventes de trois années consécutives sont en augmentation constante ou en diminution constante, cela s’appelle une tendance stable. Quels mois montrent une tendance à la hausse constante sur trois années consécutives ?

Par exemple, en juin 1999, la valeur Actual était inférieure à celle de 1998, indiquant une diminution, mais le modèle l’a interprétée à tort comme une augmentation constante. La plupart des modèles font la même erreur sur cette question.

Lorsque 4 barres sont groupées par mois, les modèles ont eu des difficultés avec la correspondance barre-année et la perception de la hauteur relative. Ils ne pouvaient pas distinguer avec précision quelle barre rayée/pleine/blanche appartenait à quelle année, ce qui entraînait une lecture des barres dans le mauvais ordre ou une confusion de leurs hauteurs.

Cela a révélé une limitation fondamentale du raisonnement visuo-spatial : les modèles actuels manquaient de la perception pixel par pixel nécessaire pour mesurer et séquencer correctement des barres densément regroupées, entraînant une identification erronée systématique des tendances.

Question de graphique avec le plus haut taux de réussite des LLM

Graphique à barres montrant les taux de participation aux élections générales indiennes de 1952 à 1998. Une barre par année électorale avec un espacement clair entre les barres.

Figure 2 : Graphique à barres montrant les taux de participation aux élections générales indiennes de 1952 à 1998. Une barre par année électorale avec un espacement clair entre les barres.

Question : Les taux de participation les plus élevés et les plus bas jamais enregistrés (en pourcentage) ont été respectivement en quelles années ?

Tous les modèles ont répondu correctement à cette question. Ce succès montre que les modèles excellent dans l’identification simple des minimums et maximums, en trouvant les barres les plus hautes et les plus basses.

Contrairement aux groupes groupés de 4 barres, qui prêtent à confusion, ce graphique comporte une seule barre par an avec un espacement clair, ce qui rend la comparaison visuelle directe simple. Les modèles obtiennent de bons résultats sur les tâches purement observationnelles qui ne nécessitent pas de correspondance complexe barre-catégorie.

Question de logique visuelle avec le plus haut taux de réussite des LLM

Deux grilles 3×3 alignées montrant une correspondance de motifs algébriques. La grille supérieure contient des variables et leurs opérations (multiplication, division, exposants). La grille inférieure montre des valeurs numériques, avec certaines cellules remplies (6, 36, 3/4) et deux inconnues (A, B). La question demande de trouver B-A.

Figure 3 : Deux grilles 3×3 alignées montrant une correspondance de motifs algébriques. La grille supérieure contient des variables et leurs opérations (multiplication, division, exposants). La grille inférieure montre des valeurs numériques, avec certaines cellules remplies (6, 36, 3/4) et deux inconnues (A, B). La question demande de trouver B-A.

Le succès est venu du motif mathématique clair visible dans la structure du tableau (relations algébriques comme a×b, c×d). La disposition simple de la grille, sans complexité visuelle, a permis aux modèles de se concentrer uniquement sur l’inférence numérique et la déduction logique.

Les modèles excellent lorsque les problèmes impliquent des motifs mathématiques explicites qui peuvent être résolus par un raisonnement étape par étape, démontrant leur force en logique symbolique et en reconnaissance de motifs lorsque les distractions visuelles sont minimales.

Question de logique visuelle avec le plus faible taux de réussite des LLM

Puzzle de reconnaissance de motifs avec des cercles contenant différents motifs de lignes internes et formes géométriques. Deux séquences d’exemple avec des flèches affichées en haut, suivies d’une question demandant de compléter la troisième séquence parmi cinq options à choix multiple.

Figure 4 : Puzzle de reconnaissance de motifs avec des cercles contenant différents motifs de lignes internes et formes géométriques. Deux séquences d’exemple avec des flèches affichées en haut, suivies d’une question demandant de compléter la troisième séquence parmi cinq options à choix multiple.

La difficulté provient de la nécessité d’une reconnaissance abstraite des motifs visuels, d’identifier les règles de transformation géométrique à travers plusieurs exemples.

Cela exige un raisonnement spatial pur pour comprendre comment les formes tournent, se transforment et se rapportent les unes aux autres. Les modèles ont du mal à inférer des règles à partir de séquences visuelles lorsqu’aucune indication numérique ou textuelle explicite n’est disponible, seulement des motifs spatiaux.

Qu’est-ce que le raisonnement visuel ?

Le raisonnement visuel est la capacité d’un modèle à interpréter des images, à relier des éléments visuels et à répondre à des questions qui nécessitent de comprendre à la fois des informations visuelles et textuelles. Cette capacité s’étend au-delà de la simple reconnaissance d’objets à des tâches telles que l’analyse de visualisations de données, l’identification de motifs spatiaux et la compréhension des relations entre les éléments visuels.

Notre benchmark a évalué cela à travers deux pistes distinctes pour tester différents aspects cognitifs : la compréhension de graphiques, où les modèles interprétaient des diagrammes à barres, des graphiques linéaires et des nuages de points pour évaluer leur capacité à extraire des informations structurées de visualisations de données ; et la logique visuelle, où ils s’attaquaient à des puzzles de reconnaissance de motifs et à des problèmes de raisonnement spatial pour mesurer le raisonnement abstrait sans guidance numérique explicite. Cette division reflète la distinction fondamentale dans la manière dont les modèles traitent les données explicites par rapport aux motifs implicites.

Les modèles réalisent le raisonnement visuel par différentes approches architecturales. Par exemple, le framework Cola coordonne plusieurs modèles vision-langage où chacun fournit des légendes et des réponses plausibles, puis un LLM central évalue ces options et sélectionne la réponse la plus précise.

Figure 5 : Graphique montrant comment Cola exploite un modèle de langage coordinatif pour le raisonnement visuel.²

Un autre exemple est le framework CVR-LLM, qui améliore le raisonnement en convertissant les images en descriptions contextuelles à l’aide de la méthode CaID et en sélectionnant des exemples pertinents avec la procédure CVR-ICL. Ce framework traite l’information d’image comme des représentations textuelles, permettant au LLM d’analyser les associations plus efficacement à travers divers types de tâches multimodales.³

Comment le raisonnement visuel fonctionne-t-il dans les LLMs

Les LLMs ne perçoivent pas les images directement. Ils s’appuient sur des encodeurs de vision qui convertissent les images en représentations structurées adaptées aux modèles de langage. L’encodeur identifie les objets, les textures, les relations spatiales et les motifs visuels. Le LLM combine ensuite cette représentation avec la requête textuelle pour construire une chaîne de raisonnement.

Deux mécanismes principaux existent pour les scénarios visuels complexes : la coordination, où un LLM intègre les sorties de plusieurs modèles de vision pour vérifier les interprétations ; et le raffinement, où le LLM améliore itérativement les descriptions d’images par des boucles de rétroaction qui identifient les informations manquantes. Les deux abordent les limitations où les modèles uniques échouent à analyser des scénarios complexes.

Apprentissage en contexte pour le raisonnement multimodal

Certains frameworks récupèrent des exemples similaires à partir des données d’entraînement, fournissant au modèle des modèles pour interpréter les entrées visuelles. Ces démonstrations aident le modèle à appliquer les schémas de raisonnement appris à de nouveaux problèmes.

Produire l’explication finale

Le LLM produit une réponse étayée par un processus de raisonnement, expliquant comment il a interprété l’image, sur quels éléments visuels il s’est appuyé et les connexions logiques qu’il a établies.

Laissez notre équipe automatiser l'un de vos processus métier avec des agents IA, gratuitement.

Automatiser un processus

Raisonnement par chaîne de pensée dans les tâches visuelles

Le raisonnement par chaîne de pensée (CoT) est devenu une approche importante dans le raisonnement visuel. Au lieu d’analyser une image d’un seul coup, les modèles décomposent désormais les problèmes visuels en étapes plus petites et séquentielles, similaires à la façon dont les humains résolvent des problèmes complexes en y réfléchissant étape par étape.

Le CoT visuel permet aux modèles d’ajuster dynamiquement leur attention sur différentes régions spatiales d’une image, résolvant une limitation clé où les modèles s’appuyaient auparavant sur un traitement d’image à granularité fixe. Par exemple, lors de l’analyse d’un graphique complexe, le modèle peut d’abord identifier les axes, puis examiner les points de données individuels, et enfin comparer les tendances, plutôt que d’essayer de tout comprendre simultanément.

Cette approche intègre l’apprentissage par renforcement et l’apprentissage par imitation pour aligner plus étroitement les modèles sur les schémas de raisonnement humains. Cela représente un changement fondamental, passant de la reconnaissance passive de motifs à la résolution active de problèmes visuels, où les modèles explorent et raisonnent activement sur ce qu’ils voient.⁴

Applications commerciales du raisonnement visuel dans les LLMs

Les LLMs dotés de capacités visuelles peuvent prendre en charge plusieurs scénarios commerciaux. Ces applications dépendent de la capacité du modèle à analyser des images, à les relier à des données textuelles et à produire des informations fiables.

Analyse de documents et de contenu

Les entreprises traitent des diagrammes, des dessins techniques, des figures de revues scientifiques et diverses formes de données visuelles. Un modèle de raisonnement visuel peut :

Détecter les éléments manquants ou incorrects.
Identifier des objets ou des signes dans la partie inférieure ou les coins des diagrammes.
Relier les segments de texte et d’image pour des contrôles qualité.
Extraire des informations structurées pour un déploiement ou un rapport ultérieur.

Par exemple, Intuit a intégré les modèles Doc IA et Gemini de Google Cloud pour remplir automatiquement les déclarations de revenus à travers les formulaires fiscaux américains courants, améliorant à la fois la vitesse et la précision du traitement des documents.⁵

Inspection qualité et opérations

Dans la fabrication et la logistique, les modèles peuvent inspecter les produits ou les colis. Le raisonnement visuel aide à détecter les défauts, les désalignements ou les motifs inhabituels. Le modèle peut comparer les images à une référence et générer une explication de ce qui a changé ou de ce qui manque.

Intel, par exemple, utilise des systèmes d’inspection par vision IA qui permettent d’économiser 2 millions de dollars par an, les fabricants atteignant généralement un ROI en 6-12 mois grâce à la réduction des rebuts et à la diminution des retours clients.⁶

Commerce de détail et e-commerce

Les modèles analysent les images de produits, identifient les attributs clés et les font correspondre aux données du catalogue. Les capacités de recherche visuelle permettent aux clients de télécharger des images pour trouver des produits similaires en utilisant la vision par ordinateur, tandis que les moteurs de recommandation de taille alimentés par l’IA ont réduit les taux de retour de 20-30%. Ces systèmes détectent également les incohérences entre les descriptions de produits et les images.⁷

Sécurité et surveillance

Le raisonnement visuel prend en charge les tâches d’inspection vidéo et d’image en analysant les séquences d’images et en détectant les motifs inhabituels. Cambridge Industries a mis en place un système de sécurité alimenté par l’IA pour les chantiers de construction qui a réduit les coûts de réparation d’urgence de près de 50%. ⁸

Marketing et expérience utilisateur

Le raisonnement visuel aide les équipes à comprendre comment les utilisateurs interagissent avec le contenu numérique. Un modèle peut évaluer des captures d’écran ou des créations et fournir des informations sur la mise en page, le placement des objets et les problèmes potentiels. Cela est particulièrement pertinent lors de l’évaluation de différentes catégories d’actifs visuels.

Par exemple, Comeen utilise l’IA Gemini pour générer des sous-titres multilingues pour des vidéos d’entreprise en 40 langues en un seul clic, éliminant ainsi le processus multi-jours et multi-fournisseurs qui rendait auparavant le contenu obsolète avant sa publication. ⁹

Découvrez davantage de nos benchmarks et analyses basées sur les données dans la recherche Google.

Ajouter comme source préférée

Paysage comparatif : principaux acteurs et leurs approches

Chance IA

Chance IA fait partie des premiers outils commerciaux construits autour d’une compréhension vision-first. Son système de raisonnement visuel analyse les images à travers des lentilles culturelles, historiques, fonctionnelles et esthétiques. Au lieu d’attribuer des étiquettes simples, il fournit des informations structurées qui expliquent pourquoi un objet, une figure ou une scène est important, comme le style de l’œuvre d’art, le symbolisme et le contexte historique, en plus de son sujet.

La conception donne la priorité à l’expérience utilisateur en permettant une exploration axée sur le sens à travers les images sans requête textuelle. Cela va au-delà de la vision par ordinateur traditionnelle vers l’interprétation, la narration et l’explication de type humain, ce qui la rend particulièrement pertinente pour les industries créatives, l’éducation et le tourisme, où le contexte ajoute de la valeur au-delà de la reconnaissance.¹⁰

Meta IA

Le framework UniBench de Meta a introduit une approche unifiée pour évaluer le raisonnement visuel en combinant plus de cinquante benchmarks pour la compréhension spatiale, le raisonnement compositionnel et le comptage. En testant près de soixante modèles vision-langage, Meta a constaté que l’échelle des données et la taille du modèle améliorent la perception mais pas le raisonnement, même les modèles avancés échouant à des tâches simples comme la reconnaissance de chiffres et le comptage d’objets.

Ces résultats ont changé la façon dont les progrès du raisonnement visuel sont mesurés, soulignant le besoin de données de meilleure qualité, d’objectifs ciblés et d’apprentissage structuré plutôt que de se fier uniquement à des modèles plus grands. Pour les entreprises, UniBench offre un moyen transparent de comparer les performances de raisonnement à travers les tâches multimodales avant le déploiement.¹¹

Le graphique montre la performance médiane de 59 VLMs sur 53 benchmarks, révélant que, malgré les progrès, de nombreux modèles fonctionnent encore au niveau du hasard, en particulier sur des tâches comme Winoground, iNaturalist, DSPR et d’autres (bleu : médiane zero-shot ; gris : niveau du hasard).

Figure 6 : Le graphique montre la performance médiane de 59 VLMs sur 53 benchmarks, révélant que, malgré les progrès, de nombreux modèles fonctionnent encore au niveau du hasard, en particulier sur des tâches comme Winoground, iNaturalist, DSPR et d’autres (bleu : médiane zero-shot ; gris : niveau du hasard).¹²

OpenAI

OpenAI a fait progresser le raisonnement visuel avec les modèles o3 et o4-mini, qui peuvent penser avec des images en intégrant la manipulation d’image dans leur raisonnement. Pendant l’analyse, ils zooment, recadrent ou font pivoter les images pour se concentrer sur les détails pertinents, reflétant la façon dont les humains ajustent leur attention visuelle lors de l’interprétation de diagrammes ou de dessins.

Testés à travers des benchmarks multimodaux tels que l’interprétation de graphiques, la résolution de problèmes visuels et le raisonnement mathématique, les modèles ont montré des gains clairs en précision et en compréhension contextuelle. Cependant, les résultats ont également exposé des limitations, notamment un raisonnement incohérent et des erreurs perceptives occasionnelles, soulignant le défi continu de la fiabilité dans les systèmes de raisonnement visuel.

Figure 7 : Le graphique montre les résultats de tous les modèles évalués sous des paramètres d’« effort de raisonnement » élevé.¹³

Efforts de recherche académique et ouverte

Cet article présente VisuLogic, un benchmark pour évaluer les performances des modèles multimodaux sur des tâches de raisonnement visuel. Il combine plus de cinquante jeux de données couvrant divers types de raisonnement, y compris les relations spatiales, la logique compositionnelle et le comptage d’objets.

Les auteurs analysent des dizaines de modèles existants et constatent que l’augmentation de la taille ou de l’échelle des données améliore la reconnaissance d’images mais pas le raisonnement. Les modèles détectent souvent des motifs sans comprendre les relations entre les objets. L’article souligne que l’entraînement spécifique au raisonnement, une meilleure qualité des données et une évaluation détaillée sont essentiels pour des progrès significatifs.

VisuLogic offre un cadre unifié qui aide les chercheurs et les entreprises à analyser les capacités de raisonnement plutôt que de se fier uniquement aux métriques de perception, ce qui en fait une ressource précieuse pour évaluer les systèmes de raisonnement multimodaux.¹⁴

Expliquer avant de répondre : une enquête sur le raisonnement visuel compositionnel

Cette enquête passe en revue les approches actuelles du raisonnement visuel compositionnel, en se concentrant sur la manière dont les modèles combinent des indices visuels et textuels pour arriver à une réponse correcte. Elle identifie les faiblesses des méthodes existantes qui s’appuient sur la reconnaissance plutôt que sur le raisonnement structuré.

Les auteurs proposent d’entraîner les modèles à expliquer avant de répondre, en veillant à ce que chaque processus de raisonnement soit transparent et interprétable. Ils discutent des techniques d’alignement des représentations visuelles et linguistiques afin que les modèles puissent mieux comprendre les diagrammes, les figures et les associations d’objets.

L’article conclut que le raisonnement aligné et explicable améliore la fiabilité et l’interprétabilité dans les tâches multimodales. Il souligne que l’avenir de la recherche sur le raisonnement visuel dépend de l’intégration de l’apprentissage basé sur l’explication dans la conception des modèles.¹⁵

Défis des capacités de raisonnement visuel des LLM

Les progrès du raisonnement visuel entraînent également des défis techniques et éthiques qui doivent être pris en compte.

La fiabilité reste une préoccupation majeure. Comme nous l’avons constaté dans notre benchmark, les modèles ont du mal avec les visualisations densément regroupées, échouant dans la correspondance barre-année et la perception de la hauteur relative dans les graphiques complexes, ce qui conduit à des erreurs systématiques dans l’identification des tendances. Même les modèles avancés échouent à des tâches simples comme la reconnaissance de chiffres et le comptage d’objets, et l’échelle des données améliore la perception mais pas le raisonnement.

Les problèmes de biais et d’interprétation sont répandus. Les modèles de raisonnement visuel apprennent et reflètent les biais présents dans leurs données d’entraînement lors de l’interprétation des images. Les modèles reflètent les hypothèses culturelles et les stéréotypes issus des données d’entraînement, y compris les biais de genre, de race, d’âge et de handicap. Par exemple, lors de la prédiction de la profession de personnes sur une image ou de l’interprétation de scénarios, ces biais peuvent fausser les résultats.

L’explicabilité est essentielle pour la confiance. Les modèles devraient expliquer leur processus de raisonnement de manière transparente, en particulier dans les applications à enjeux élevés comme la santé, le recrutement et la justice pénale où des résultats biaisés causent des préjudices.

Méthodologie du benchmark

Tous les modèles ont été évalués via l’API OpenRouter avec des paramètres standardisés : la température réglée à 0.8 et le paramètre de tokens max n’a pas été défini pour éviter de limiter les capacités de raisonnement. Les modèles ont reçu l’instruction de répondre avec une seule lettre (A-E) sans explication, bien que certains modèles aient quand même fourni un raisonnement détaillé, que nous avons analysé pour extraire les réponses finales. L’évaluation s’est déroulée en parallèle sur tous les modèles simultanément. Chaque question a été exécutée 5 fois pour garantir des résultats cohérents et fiables.

Le benchmark comprenait 200 questions réparties en deux catégories : la compréhension de graphiques (100 questions) couvrant les diagrammes à barres, les graphiques linéaires, les nuages de points et les visualisations de données complexes, et la logique visuelle (10 questions) testant la reconnaissance de motifs, le raisonnement spatial et la logique visuelle mathématique. Toutes les questions étaient présentées sous forme de choix multiple avec cinq options (A-E), obligeant les modèles à analyser les images et à sélectionner la bonne réponse.

Questions:

1. Compréhension de graphiques Nous avons évalué les modèles sur leur capacité à extraire, interpréter et analyser des informations à partir de diverses visualisations de données :

Diagrammes à barres : Configurations horizontales et verticales, formats empilés et groupés
Graphiques linéaires : Tendances à série unique et à séries multiples, données chronologiques
Nuages de points : Analyse de corrélation, identification de motifs avec axes étiquetés
Diagrammes circulaires : Répartitions en pourcentage et raisonnement proportionnel
Visualisations complexes : Graphiques combinés, graphiques à deux axes et affichages multi-panneaux

2. Logique visuelle Nous avons évalué le raisonnement abstrait et l’intelligence spatiale à travers :

Reconnaissance de motifs : Identification de séquences et complétion de motifs visuels
Raisonnement spatial : Visualisation 3D, patrons de cubes et transformations géométriques
Logique mathématique : Schémas numériques, raisonnement algébrique et combinatoire
Pensée abstraite : Manipulation de symboles, déduction logique et inférence de règles

Format des questions

Format de réponse : Choix multiple (A, B, C, D, E)

Citez ce benchmark

Choisissez le format qui correspond à votre lieu de publication. Coller la version avec lien dans votre CMS préserve le lien retour.

Sıla Ermut and Nazlı Şipi (2026) - "Comparer les modèles d'IA multimodaux sur le raisonnement visuel". Publié en ligne sur AIMultiple.com. Consulté le 20 Février 2026, à : https://aimultiple.com/visual-reasoning [Ressource en ligne]

Ermut, S., & Şipi, N. (2026, 20 Février). Comparer les modèles d'IA multimodaux sur le raisonnement visuel. AIMultiple. https://aimultiple.com/visual-reasoning

@misc{ermut2026,
  author = {Ermut, Sıla and Şipi, Nazlı},
  title  = {{Comparer les modèles d'IA multimodaux sur le raisonnement visuel}},
  year   = {2026},
  month  = feb,
  howpublished    = {\url{https://aimultiple.com/visual-reasoning}},
  note   = {AIMultiple. Consulté le 20 Février 2026}
}

Liens de référence

Hitbullseye: Transforming Education with Cutting Edge Technology

https://papers.neurips.cc/paper_files/paper/2023/file/ddfe6bae7b869e819f842753009b94ad-Paper-Conference.pdf

https://arxiv.org/pdf/2409.13980

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

Google Cloud

100% Accuracy AI Vision: The Real Cost of Defects

Overview.ai

Top AI Use Cases Transforming Industries in 2025 | Databricks Blog

WEF highlights 32 AI case studies with real-world business impact | CIO

CIO

Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

Google Cloud

10.

Introducing Visual Reasoning: A New Way to Understand What You See

Chance AI

11.

UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling | Research - AI at Meta

12.

https://proceedings.neurips.cc/paper_files/paper/2024/file/96271227d3e204501d199433e56af289-Paper-Datasets_and_Benchmarks_Track.pdf

13.

Pensar con imágenes | OpenAI

14.

https://arxiv.org/pdf/2504.15279

15.

https://arxiv.org/pdf/2508.17298

Sıla Ermut

Analyste Sectorielle

Suivre

Sıla Ermut est analyste sectorielle chez AIMultiple, spécialisée dans le marketing par email et les vidéos de vente. Elle a précédemment travaillé comme recruteuse dans des cabinets de gestion de projet et de conseil. Sıla est titulaire d'un Master of Science en psychologie sociale et d'un Bachelor of Arts en relations internationales.

Voir le profil complet

Recherche effectuée par

Nazlı Şipi

Chercheuse en IA

Nazlı est analyste de données chez AIMultiple. Elle a une expérience préalable en analyse de données dans divers secteurs, où elle a travaillé à la transformation d'ensembles de données complexes en informations exploitables.

Voir le profil complet