Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI

avec

mis à jour le Mai 20, 2026

Les modèles d'intégration multimodale excellent dans l'identification des objets, mais peinent à appréhender les relations entre eux. Les modèles actuels ont du mal à distinguer un « téléphone sur une carte » d'une « carte sur un téléphone ». Nous avons comparé les performances de sept modèles de pointe sur les bases de données MS-COCO et Winoground afin d'évaluer cette limitation.

Pour garantir une comparaison équitable, nous avons évalué chaque modèle dans des conditions identiques, en utilisant le matériel A40 et une précision bfloat16. Cette configuration déterministe permet de distinguer les modèles qui comprennent réellement la structure de la scène de ceux qui ne sont que des systèmes sophistiqués de correspondance de mots-clés.

résultats de référence des modèles d'intégration multimodaux

Loading Chart

Explication des indicateurs

Rappel texte-image à 1 (T2I R@1) : Étant donné une légende, le modèle peut-il classer l’image correcte en première position parmi 5 000 candidats ? Il s’agit de la métrique de recherche la plus difficile, car aucun point n’est attribué pour un classement en deuxième position.
I2T R@1 (Rappel image-texte@1) : Étant donné une image, le modèle peut-il classer l’une des cinq légendes de référence comme numéro un parmi 25 000 ? Les scores sont environ 20 points de pourcentage supérieurs à ceux de T2I car il y a cinq réponses valides au lieu d’une seule.
Image Winoground : Étant donné deux images et deux légendes qui ne diffèrent que par leur structure (« téléphone sur une carte » versus « carte sur un téléphone »), le modèle peut-il associer correctement les deux paires ? La probabilité aléatoire est de 25 %.

Principales conclusions

Apple DFN5B-H atteint la plus grande précision de récupération (50,1 pour cent T2I R@1) et le score de raisonnement compositionnel le plus élevé (35,2 pour cent sur Winoground).
Le raisonnement compositionnel reste médiocre sur tous les modèles. Même les performances d'Apple (35,2 %) dépassent à peine le niveau de référence aléatoire de 25 %.
OpenAI CLIP montre son âge, étant en retard de 10 à 16 points de pourcentage sur les modèles modernes malgré une architecture similaire.

Remarque : Les scores I2T sont supérieurs d’environ 20 points de pourcentage aux scores T2I en raison d’un artefact de protocole. Chaque image possède cinq légendes valides, mais chaque légende ne correspond qu’à une seule image valide. Consultez la section Méthodologie pour plus de détails.

Comment fonctionnent les modèles d'intégration multimodaux

Avant d'examiner en détail les analyses comparatives, il est essentiel de comprendre ce que font réellement ces modèles et où ils présentent des limites.

Le mécanisme central

Un modèle d'intégration multimodale convertit les images et le texte en vecteurs numériques, c'est-à-dire des listes de nombres occupant le même espace géométrique. Les concepts similaires se regroupent, tandis que les concepts dissemblables sont plus éloignés.

Pour effectuer une recherche, vous calculez quel vecteur image est le plus proche de votre vecteur texte. C'est pourquoi la recherche par plongement est rapide : vous comparez des nombres, et non vous tentez de « comprendre » le sens au sens humain.

Là où ça se casse

Observez ce qui se passe avec des légendes de composition différente :

Les vecteurs sont quasiment identiques. Les deux légendes contiennent les mêmes concepts : {téléphone, carte, allumé}. Le modèle encode les éléments présents, mais ne saisit pas leurs relations.

C’est le problème du sac de mots . Le modèle identifie les mêmes « ingrédients » et produit des représentations similaires, même si les scènes sont totalement différentes. Dans l’une, le téléphone est au premier plan ; dans l’autre, c’est la carte. La structure relationnelle disparaît lors de l’encodage.

Tâches d'évaluation : récupération vs raisonnement

MS-COCO : Trouver une aiguille dans une botte de foin

La mise en place :
Une galerie de 5 000 images regroupe des contenus similaires, notamment des centaines de scènes extérieures, des dizaines de véhicules et de nombreux espaces et structures de stockage. Chaque image est accompagnée de cinq légendes différentes, rédigées par différents annotateurs, pour un total de 25 000 légendes.

La question : « Une moto garée sous une structure en bois avec d'autres objets. »

L'image :

La même image pourrait également être décrite comme suit :

« Une moto noire garée sous un auvent à l'extérieur. »
« Moto garée sous un abri dans une cour clôturée. »

Chaque légende est testée séparément, et le modèle doit trouver l'image correcte quelle que soit la formulation.

La tâche :
Trouvez l'image précise qui correspond. Pas n'importe quelle moto, pas n'importe quelle structure en bois, mais cette scène exacte parmi 5 000 images.

La métrique : Rappel@1
Binaire et sans pitié. Image correcte classée n° 1 = Réussie. Image classée n° 2 = Échec. Aucun point partiel.

Winoground : Comprendre qui a fait quoi à qui

La mise en place :
400 paires adverses. Chacune contient 2 images et 2 légendes ne différant que par leur structure compositionnelle.

La question :

Légende A : « Il y a un téléphone sur une carte »
Légende B : « Il y a une carte sur un téléphone »

Les deux légendes contiennent exactement les mêmes concepts : {téléphone, carte, allumé}. La seule différence réside dans l’ordre de superposition des objets .

L'image :

La tâche :
Associez simultanément les deux légendes aux images correspondantes. La légende A doit correspondre à l'image A (téléphone posé sur la carte), et la légende B à l'image B (carte affichée sur le téléphone). Aucun point partiel ne sera attribué : une seule bonne réponse sera considérée comme un échec.

L'indicateur : Score d'image
Binaire et sans pitié. Deux paires correctes = succès. Une ou aucune bonne réponse = échec. Probabilité aléatoire : 25 %.

Autres exemples de Winoground :

Pourquoi les modèles échouent à la composition

Les faibles scores obtenus avec Winoground (30 à 40 % contre 25 % pour une référence aléatoire) indiquent que les modèles actuels peinent à traiter ce type spécifique de raisonnement compositionnel. Cependant, plusieurs réserves s'imposent :

Taille réduite de l'échantillon : Winoground ne contient que 400 exemples, ce qui donne des intervalles de confiance d'environ ±5 points de pourcentage. Cela en fait un indicateur utile, mais pas une preuve définitive des capacités de composition.
Portée de la tâche spécifique mais diversifiée : Winoground teste plusieurs types de raisonnement compositionnel, notamment les relations spatiales (sur/au-dessus/en dessous), les inversions agent-patient (qui fait quoi à qui), la liaison des attributs (attribution de couleur/taille), les quantificateurs (plus/moins, comptage), la coordination des actions (assis/debout), l’ordre temporel (avant/après), la négation (avec/sans) et l’ambiguïté de portée. Cette diversité fait de Winoground un outil efficace pour sonder la compréhension compositionnelle à travers de multiples phénomènes linguistiques.

Analyse technique et recommandations de déploiement

La qualité des données prime sur l'échelle du modèle

Apple, LAION et MetaCLIP utilisent tous la même structure de base ViT-H/14 (630M de paramètres).

L'avantage de +3,8 points de pourcentage d'Apple semble provenir principalement de son approche de réseau de filtrage des données (DFN).

Sélection automatisée : plutôt que d’utiliser des légendes synthétiques, Apple a entraîné un modèle d’apprentissage à filtrer rigoureusement les données d’entraînement. Ce modèle a appris à identifier et à éliminer les paires image-texte parasites parmi l’immense quantité de données disponibles sur le Web.
La conséquence : à la pointe de la recherche, les améliorations proviennent de la qualité de la curation (le choix des données pertinentes) plutôt que de la simple synthèse ou de l’échelle brute.

La conséquence : à la pointe de la technologie, les améliorations proviennent de meilleures données, et non d’architectures plus imposantes.

Comprendre le niveau de performance de 50 %

MS-COCO a été conçu avec des images distinctes et soigneusement sélectionnées, chaque légende décrivant une scène spécifique. Malgré quelques ambiguïtés mineures (par exemple, deux scènes de parking similaires), les créateurs de l'ensemble de données ont intentionnellement choisi des images visuellement distinctes.

Le taux de précision de 50 % reflète de véritables échecs des modèles à classer l'image correcte en premier, et non une pénalisation injuste pour avoir sélectionné des alternatives tout aussi valables.

Pourquoi le clip OpenAI présente-t-il des traînées de 10 à 16 pages ?

Le modèle CLIP-L (2021) de OpenAI obtient un score de 34,4 % T2I R@1, tandis que les modèles modernes utilisant des architectures ViT similaires atteignent 44 à 50 %. Cet écart de 10 à 16 points de pourcentage reflète trois années de progrès.

Bien que les principes architecturaux fondamentaux soient restés similaires (transformateurs de vision avec apprentissage contrastif), la taille des modèles modernes a doublé. Cependant, les gains de performance proviennent principalement de l'amélioration des techniques de curation et d'entraînement des données, plutôt que de la seule innovation architecturale.

ColPali : privilégier la flexibilité architecturale à la vitesse

ColPali représente une approche architecturale différente : au lieu d’encoder chaque image dans un seul vecteur, il produit 1 030 embeddings de patchs grâce à une interaction tardive. Ce choix de conception engendre plusieurs compromis :

Avantages :

Récupération plus symétrique : ColPali ne présente qu’un écart de 3,9 pp entre I2T (48,8 %) et T2I (44,9 %), contre 16 à 24 pp pour les modèles denses. Cela suggère un encodage plus uniforme de la structure de l’image.
Flexibilité architecturale : L'interaction tardive permet une correspondance précise entre les jetons de texte et les zones d'image, ce qui peut être bénéfique pour les domaines spécialisés.

Inconvénients :

Surcharge de stockage : Chaque image nécessite 1 030 vecteurs au lieu d'un seul, ce qui augmente la taille de l'index d'environ 1 000×.

Performances globales inférieures : ColPali se classe 4ème dans notre benchmark (44,9% T2I), derrière les meilleurs modèles denses de 5,2 pp (contre Apple DFN5B-H à 50,1%).

Coût de calcul : Nécessite des lots quatre fois plus petits (4 au lieu de 32) en raison de la surcharge mémoire liée aux 1 030 embeddings par image. Cela se traduit par un indexage plus lent et des coûts de diffusion plus élevés à grande échelle.

Quel modèle devez-vous utiliser ?

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Méthodologie

Matériel et logiciel

GPU : NVIDIA A40 (48 Go de VRAM) via RunPod
Précision : bfloat16
Cadre : PyTorch 2.4.0, CUDA 12.1
Bibliothèques : transformers==4.44.0 , datasets==2.20.0

Modèles évalués

Nous avons utilisé les pondérations de modèle spécifiques suivantes provenant du Hub Hugging Face. Tous les modèles ont été chargés en précision bfloat16 directement depuis ces dépôts sans modification.

Protocole d'inférence

Les modèles denses (CLIP/SigLIP) ont été évalués avec une taille de lot de 32, car un seul vecteur par image permet un parallélisme élevé. ColPali a utilisé une taille de lot de 4, car ses 1 030 plongements de patch par image nécessitent beaucoup plus de mémoire.

Protocole d'évaluation

Zero-Shot : Modèles évalués sans modification préalable à l’aide des pondérations Hugging Face. Aucun réglage fin.
Déterministe : Graine aléatoire fixée à 42. Même ordre des ensembles de données pour tous les modèles.
Divisions standard : test yerevann/coco-karpathy (5 000 images), validation facebook/winoground.

L'écart entre I2T et T2I

Les scores I2T sont systématiquement supérieurs d'environ 20 points de pourcentage aux scores T2I en raison d' une probabilité statistique , et non d'une erreur de modèle.

T2I (Texte-Image) : Le modèle doit trouver 1 image spécifique parmi 5 000. (Ensemble cible = 1).
I2T (Image-to-Text) : Le modèle peut faire correspondre n'importe laquelle des 5 légendes valides associées à cette image. (Cible = 5).

Étant donné que la tâche I2T offre cinq réponses « correctes » distinctes pour chaque requête, le taux de réussite est naturellement gonflé par rapport à la correspondance stricte un à un requise dans T2I.

Limites

taille de l'échantillon Winoground

400 échantillons permettent d'obtenir des intervalles de confiance d'environ ±5 points de pourcentage avec une précision de 35 %. Ces résultats sont indicatifs et non définitifs. Des benchmarks plus importants existent (ARO, SugarCrepe), mais nécessitent une infrastructure différente.

Zéro coup seulement

Aucun réglage fin du domaine. Les applications médicales, juridiques ou satellitaires pourraient bénéficier d'améliorations de 5 à 10 points de pourcentage grâce à une formation spécifique au domaine.

Limites de l'ensemble de données :

MS-COCO et Winoground évaluent des aspects spécifiques de la compréhension multimodale. Les performances obtenues sur ces benchmarks ne garantissent pas des résultats similaires sur des tâches spécifiques à un domaine ou d'autres tests de raisonnement compositionnel.

Conclusion

Les modèles d'intégration multimodaux actuels sont performants en matière de reconnaissance d'objets, mais peinent à appréhender le raisonnement compositionnel.

Pour les recherches classiques (« trouver des photos de motos »), n'importe quel modèle de recherche à trois résultats principaux convient. Pour les requêtes relationnelles (« téléphone sur une carte » vs « carte sur un téléphone »), il faut s'attendre à une précision de 30 à 40 % au mieux.

D’après nos conclusions et les tendances actuelles de la recherche, plusieurs approches pourraient améliorer les performances :

La qualité des données prime sur l'échelle : l'avantage de +3,8 points de pourcentage d'Apple avec la même architecture ViT-H suggère que la curation des données d'entraînement y contribue de manière significative, bien que cela soit basé sur une seule comparaison.
Données d'entraînement compositionnelles : L'inclusion de négatifs durs avec des variations relationnelles pendant l'entraînement pourrait théoriquement améliorer la sensibilité compositionnelle, bien que cela reste largement non testé à grande échelle.
Architectures hybrides : Les pipelines à deux étapes (récupération dense → réorganisation tardive des interactions) combinent vitesse et précision, bien que notre test de performance montre que cela ne surpasse pas encore les modèles denses sur ces tâches.

Tant que les paradigmes de formation resteront inchangés, la compréhension de la composition demeurera un domaine d'étude ouvert.

Pour en savoir plus

Explorez d'autres indicateurs RAG, tels que :

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par

Ekrem Sarı

Chercheur en IA

Suivre

Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et les frameworks RAG.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI

résultats de référence des modèles d'intégration multimodaux

Explication des indicateurs

Principales conclusions

Comment fonctionnent les modèles d'intégration multimodaux

Le mécanisme central

Là où ça se casse

Tâches d'évaluation : récupération vs raisonnement

MS-COCO : Trouver une aiguille dans une botte de foin

Winoground : Comprendre qui a fait quoi à qui

Pourquoi les modèles échouent à la composition

Analyse technique et recommandations de déploiement

La qualité des données prime sur l'échelle du modèle

Comprendre le niveau de performance de 50 %

Pourquoi le clip OpenAI présente-t-il des traînées de 10 à 16 pages ?

ColPali : privilégier la flexibilité architecturale à la vitesse

Quel modèle devez-vous utiliser ?

Méthodologie

Matériel et logiciel

Modèles évalués

Protocole d'inférence

Protocole d'évaluation

L'écart entre I2T et T2I

Limites

taille de l'échantillon Winoground

Zéro coup seulement

Limites de l'ensemble de données :

Conclusion

Pour en savoir plus

Soyez le premier à commenter

À lire ensuite

Les 10 meilleurs modèles d'intégration multilingues pour RAG

Meilleurs jeux de données YouTube : Bright Data, Oxylabs et Grepsr

Comparaison de modèles d'IA multimodaux en matière de raisonnement visuel

Modèles d'intégration open source de référence pour RAG

Frameworks RAG : LangChain vs LangGraph vs LlamaIndex

Les 7 meilleurs agents de test IA pour l'assurance qualité