Modèles multimodaux de grande taille (LMM) vs LLM

mis à jour le Mai 22, 2026

Nous avons évalué les performances de modèles multimodaux de grande taille (LMM) pour des tâches de raisonnement financier à l'aide d'un ensemble de données soigneusement sélectionné. En analysant un sous-ensemble d'échantillons financiers de haute qualité, nous avons évalué les capacités de ces modèles à traiter et à raisonner avec des données multimodales dans le domaine financier.

Loading Chart

La section méthodologie fournit des informations détaillées sur l'ensemble de données et le cadre d'évaluation utilisés.

Explorez les grands modèles multimodaux et comparez-les aux grands modèles de langage .

Pourquoi les modèles ont-ils eu des performances différentes ?

La variation des taux de réussite reflète les différences de traitement des tâches financières multimodales par chaque modèle. Le test de performance utilisant des échantillons du jeu de données FinMME, qui nécessitent l'intégration de texte et de visuels financiers tels que des graphiques et des documents structurés, les résultats dépendent fortement de l'architecture du modèle, de la qualité de son entraînement et de son alignement multimodal.

Conception de l'architecture du modèle et des paramètres

Les modèles diffèrent par la manière dont ils combinent les encodeurs de texte et d'image, le nombre de paramètres actifs et la complexité de leur routage expert.

Llama 4 Maverick, par exemple, utilise une conception plus large basée sur l'expertise, permettant un raisonnement plus robuste.
Les modèles plus petits ou axés sur l'efficacité possèdent moins de paramètres alignés sur le raisonnement multimodal, ce qui limite leurs performances.

Ces distinctions architecturales influent sur la capacité de chaque modèle à interpréter les relations numériques, les structures graphiques et les visualisations spécifiques au domaine.

Couverture des données d'entraînement

Certains modèles sont entraînés sur de vastes ensembles de données multimodales, tandis que d'autres s'appuient principalement sur des données à usage général.

Les modèles des familles Claude 4 et Qwen 2.5 intègrent des données visuelles et textuelles à grande échelle, améliorant ainsi leur capacité à aligner les indices numériques et visuels.
Les modèles entraînés sur des corpus multimodaux plus limités ont des difficultés avec les graphiques financiers et les diagrammes structurés.

Les données d'entraînement influencent directement la fiabilité avec laquelle un modèle traite les concepts financiers intermodaux.

Ce référentiel exige une coordination entre l'interprétation d'images et le raisonnement textuel.

Les modèles Claude 4 sont décrits comme performants pour les tâches impliquant des graphiques et des diagrammes.
Les modèles sans réglage fin intermodal dédié peuvent détecter correctement les caractéristiques visuelles, mais échouent lorsqu'il s'agit de les relier au langage ou à la logique financière.

La stratégie de réglage fin d'un modèle influence sa capacité à fusionner les signaux textuels et visuels lors de l'analyse.

Capacité de traitement du contexte

Les exemples financiers contiennent souvent de multiples éléments qui doivent être lus ensemble, tels que des graphiques en plusieurs parties ou de longues descriptions.

Les modèles dotés de fenêtres de contexte plus larges peuvent conserver les relations sur de longues périodes d'entrée.
Les modèles plus contraints peuvent ne pas détecter certaines dépendances, ce qui réduit la précision des tâches nécessitant le suivi de plusieurs composantes visuelles et textuelles.

La taille de la fenêtre de contexte influence la capacité d'un modèle à maintenir l'alignement entre les détails quantitatifs et visuels.

Priorités en matière de taille et d'efficacité du modèle

Certains modèles sont délibérément conçus pour un déploiement léger plutôt que pour un raisonnement de haute complexité.

Le modèle multimodal Phi-4 et les modèles similaires privilégient l'efficacité, limitant ainsi la profondeur du traitement multimodal.
Les modèles plus grands offrent une capacité supérieure pour les tâches de raisonnement impliquant une compréhension fine des graphiques.

Ce compromis se traduit par des scores plus faibles pour les modèles plus petits.

Différences de compréhension visuelle

L'évaluation comprend des tâches qui requièrent une lecture précise des graphiques, l'identification d'objets dans les documents financiers et l'extraction de détails visuels.

Les modèles dotés de pipelines visuels avancés, tels que les variantes Qwen 2.5-VL, gèrent ces tâches plus efficacement.
D'autres peuvent bien gérer les images génériques, mais leurs performances sont inégales avec les visuels financiers structurés.

La force du raisonnement visuel influence fortement les résultats sur les échantillons de type FinMME.

Caractéristiques de l'ensemble de données d'évaluation

L'ensemble de données se concentre sur le raisonnement financier multimodal plutôt que sur des tâches à usage général.

Les modèles entraînés ou optimisés pour des tâches financières, numériques ou graphiques sont plus performants.
Les modèles généralistes sans exposition au domaine présentent une précision moindre sur les ensembles de données financières.

La spécialisation des ensembles de données rend les performances plus sensibles à la qualité du raisonnement intermodal.

Que sont les grands modèles multimodaux open source ?

Modèles linéaires mixtes open source et leur nombre d'étoiles sur GitHub :

Le graphique montre que la popularité de divers modèles linéaires mixtes open source sur GitHub a augmenté, certains modèles connaissant une adoption rapide peu après leur publication.

Janus-Series (DeepSeek) a récolté des milliers d'étoiles sur GitHub quelques jours seulement après la sortie de Janus-Pro le 27 janvier 2025, surpassant ainsi ses concurrents qui avaient mis des mois à atteindre un niveau similaire. Cette ascension fulgurante est due non seulement au succès de Janus-Pro, mais aussi à la dynamique créée par DeepSeek-R1 .

Gemma 3 (par Google) : Gemma 3 est une famille de modèles ouverts, légers et performants, dérivés de la technologie Gemini 2.0. Ces modèles offrent des capacités avancées de raisonnement textuel et visuel, une fenêtre de contexte de 128 000 jetons, la prise en charge des appels de fonctions et des versions quantifiées pour des performances optimisées. Ils incluent ShieldGemma 2 pour la sécurité des images et sont compatibles avec divers outils et options de déploiement. ¹
Janus-Pro (par DeepSeek ) : Janus-Pro est une version avancée du modèle Janus, conçue pour comprendre et générer du texte et des images. Elle intègre une stratégie d'apprentissage optimisée, des données d'entraînement étendues et un modèle plus volumineux, ce qui renforce ses capacités multimodales. ²
Qwen2.5-VL d'Alibaba : Qwen2.5-VL d'Alibaba est une extension multimodale du modèle de langage Qwen2.5, conçue pour la compréhension de textes et d'images. Elle offre un pré-entraînement à grande échelle (jusqu'à 18 000 tokens), une fenêtre de contexte étendue (jusqu'à 128 000 tokens), un suivi des instructions amélioré et une prise en charge multilingue robuste, ce qui la rend adaptée à des tâches telles que la génération de légendes d'images et la réponse à des questions visuelles. ³
- S'appuyant sur la série Qwen2.5-VL, Alibaba a optimisé et mis à disposition en open source Qwen2.5-VL-32B-Instruct, un modèle VL 32 bits intégrant une compréhension et un raisonnement d'image plus précis. Il en résulte des performances accrues et une analyse détaillée pour des tâches telles que l'analyse syntaxique d'images, la reconnaissance de contenu et la déduction logique visuelle. ⁴
CLIP (Contrastive Language–Image Pretraining) par OpenAI : CLIP est conçu pour comprendre les images dans le contexte du langage naturel. Il peut effectuer des tâches telles que la classification d'images sans apprentissage préalable, où il peut classer avec précision des images même dans des catégories pour lesquelles il n'a pas été explicitement entraîné, en comprenant les descriptions textuelles. ⁵
Flamingo de DeepMind : Flamingo est conçu pour tirer parti des atouts de la compréhension linguistique et visuelle, ce qui lui permet d’effectuer des tâches nécessitant l’interprétation et l’intégration d’informations provenant à la fois de textes et d’images. ⁶

Figure 1 : Un exemple tiré de Chip Huyen ⁷

Quels sont les principaux LMM ?

Fonctionnalités d'interface utilisateur et d'API des LLM à usage général

Les fournisseurs sont sélectionnés parmi les LLM multimodaux les plus populaires en fonction de la comparabilité, de la disponibilité des données et de l'actualité.

LMM et leur prix par jeton :

Pour sélectionner le modèle le plus adapté, tenez compte de facteurs tels que votre budget, les capacités et le niveau de performance requis, ainsi que le volume attendu de jetons d'entrée/sortie nécessaires pour votre cas d'utilisation spécifique.

Vous pouvez en savoir plus sur les tarifs des LLM.

Quelles sont les dernières avancées en matière de modèles multimodaux ?

Les progrès récents en matière de modèles multimodaux ont introduit de nouvelles capacités et des gains d'efficacité dans le développement de l'IA.

Modèles de fondation multimodaux axés sur la vidéo

Les modèles de base multimodaux axés sur la vidéo ne se contentent plus de générer des légendes ou des résumés de haut niveau, mais apprennent désormais à localiser explicitement les preuves à l'intérieur des vidéos.

Plutôt que de dire ce qui se passe, ils peuvent identifier quand cela se produit (horodatages) et où cela se produit (cadres englobants autour des objets ou des régions).

Ce passage à une approche spatio-temporelle rend la compréhension vidéo plus précise et vérifiable. Il permet également d'effectuer des tâches telles que la recherche d'instants précis, le suivi d'objets dans le temps, le montage vidéo en langage naturel et le support de la robotique et des systèmes critiques pour la sécurité.

Par exemple, Vidi ⁸ est un projet open-source de ByteDance axé sur de grands modèles multimodaux pour la compréhension et l'édition vidéo.

Le dépôt héberge le code et les ressources d'une famille de modèles (par exemple, Vidi-7B, Vidi1.5-9B, Vidi2 et Vidi2.5) qui utilisent la vision, l'audio et le texte comme entrées pour effectuer des tâches telles que :

Recherche temporelle (trouver les segments temporels d'une vidéo correspondant à une requête textuelle)
Ancrage spatio-temporel (localisation d'objets au fil du temps à l'aide de boîtes englobantes)
Questions-réponses vidéo

Mistral 3 multimodale Frontier Release

Mistral AI a développé une nouvelle famille de modèles d'IA open-source appelée Mistral 3. La suite Mistral 3 comprend à la fois des modèles multimodaux/multilingues de pointe et des modèles plus petits et efficaces conçus pour fonctionner sur une gamme d'appareils, du cloud à la périphérie, et même sur des GPU uniques.

Publiés sous une licence open-source permissive (Apache 2.0), ces modèles visent à démocratiser l'accès à l'IA avancée, à permettre la personnalisation et la flexibilité de déploiement, et à renforcer la position de l'Europe dans le développement de l'IA, où l'on craint un retard par rapport aux États-Unis et à la Chine dans les technologies de pointe. ⁹

Modèles de vision et de langage open source du ministère de l'Éducation

Kimi-VL (de Moonshot AI) est un modèle de vision-langage multimodal open-source construit avec une architecture Mixture-of-Experts (MoE), fonctionnant sur des tâches qui combinent texte, images et vidéo tout en gardant un calcul efficace.

Il possède une architecture de base de 16 milliards de paramètres au total, mais n'active généralement que ~2,8 milliards de paramètres lors de l'inférence, ce qui permet d'équilibrer les capacités et les coûts.

Kimi-VL est conçu pour le raisonnement multimodal avancé, la compréhension de contextes longs (jusqu'à ~128 K jetons) et les interactions de type agent, et il rivalise bien avec des modèles plus grands sur des benchmarks tels que la compréhension vidéo, la reconnaissance optique de caractères (OCR) , le raisonnement mathématique et les tâches multi-images.

Des variantes telles que Kimi-VL-A3B-Thinking sont encore plus précises pour les tâches de chaîne de pensée et de raisonnement, tandis que l'encodeur visuel MoonViT prend en charge la compréhension des entrées haute résolution.

Figure 2 : Conception architecturale de Kimi-VL. ¹⁰

Série Claude 4 de Anthropic

La série Claude 4 de Anthropic intègre une compréhension visuelle avancée à son moteur de raisonnement textuel, intégrant la vision directement dans les flux de travail de résolution de problèmes.

Les modèles Claude 4 affichent d'excellentes performances sur les tests de raisonnement multimodal tels que MMMU, notamment pour l'interprétation de graphiques, de diagrammes et de données visuelles complexes. Une caractéristique distinctive de Claude Opus 4.1 est sa capacité à évaluer les qualités esthétiques des images, allant au-delà de la simple reconnaissance pour proposer des analyses plus nuancées.

Ces capacités, combinées aux fonctions d'agent de Claude, rendent la série efficace pour des tâches telles que la synthèse de recherches à partir de rapports mêlant texte et visuels ou l'assistance à la conception d'interfaces par l'analyse de maquettes visuelles.

GPT-5 par OpenAI

GPT-5 introduit une multimodalité native améliorée pour le texte, la voix, l'image et la vidéo. Contrairement aux systèmes précédents qui reposaient largement sur des plugins, GPT-5 intègre ces modalités au sein d'une architecture unifiée, offrant ainsi une interaction plus fluide. Le modèle s'adapte avec souplesse aux différents types d'entrée et peut passer de l'un à l'autre.

L'une de ses caractéristiques les plus remarquables est son mode vocal en temps réel, qui ajuste le ton, le rythme et le style selon les instructions de l'utilisateur. Il en résulte une expérience conversationnelle plus naturelle et adaptative. Le traitement visuel a également été amélioré, réduisant les hallucinations lors de l'interprétation ou de la génération d'images, de diagrammes et de graphiques. Autre avancée majeure : ses capacités de mémorisation, qui permettent au système de se souvenir des interactions précédentes et de conserver le contexte lors d'interactions prolongées.

Ces améliorations rendent GPT-5 particulièrement précieux pour les interfaces multimodales accessibles, notamment pour les personnes souffrant de déficiences sensorielles.

Google Modèles multimodaux de DeepMind axés sur la robotique

DeepMind a développé Gemini Robotics et Gemini Robotics-ER, des modèles conçus pour intégrer la vision, le langage et l'action au sein des systèmes robotiques. Ces modèles permettent aux robots d'effectuer des tâches dans des environnements non structurés, comme plier du papier ou dévisser des bouchons de bouteille.

L'un des principaux atouts de ces modèles réside dans leur mécanisme de sécurité. Avant toute action, le système effectue des contrôles intégrés afin de minimiser les risques et de garantir le bon déroulement des tâches. Cette approche répond à l'un des défis majeurs de la robotique : concilier le raisonnement avancé de l'IA avec une exécution sûre et fiable dans le monde réel.

Llama 4 Scout et Llama 4 Maverick par Meta IA

Llama 4 Scout est un modèle multimodal doté de 17 milliards de paramètres actifs et de 16 experts. Ce modèle surpasse les modèles Llama de génération précédente et est conçu pour fonctionner sur un seul GPU H100. Il dispose d'une fenêtre de contexte de 10 millions de jetons pour le traitement de grandes quantités d'informations. Les résultats des tests de performance indiquent que Llama 4 Scout obtient de meilleurs résultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur un large éventail de benchmarks largement publiés.

Llama 4 Maverick est un modèle multimodal doté de 17 milliards de paramètres actifs et de 128 experts. Ce modèle se distingue par ses performances exceptionnelles, surpassant GPT-4o et Gemini 2.0 Flash sur de nombreux tests de performance. Il atteint des performances comparables à DeepSeek v3 en matière de raisonnement et de codage, tout en utilisant moins de paramètres actifs. Une version expérimentale de Llama 4 Maverick, dédiée à la conversation, a obtenu un score ELO de 1417 sur la plateforme LMArena.

Génération d'image 4o par OpenAI

Le modèle de génération d'images le plus récent de OpenAI, intégré à GPT-4o , combine création de texte et d'images au sein d'un système unifié. Cette capacité multimodale permet à GPT-4 de générer des images en s'appuyant sur ses connaissances textuelles et le contexte de la conversation, créant ainsi une interaction entre le langage et les images.

Grâce à la génération en plusieurs étapes, les utilisateurs peuvent affiner les images de manière conversationnelle, comme illustré dans les figures ci-dessous. Le modèle s'appuie sur les textes et les images précédemment saisis pour garantir la cohérence. En analysant les éléments visuels fournis par l'utilisateur et en apprenant du contexte, GPT-4o s'adapte aux détails spécifiques, améliorant ainsi sa capacité à produire des images contextuelles.

Figure 3 : Inciter à la création d'un dessin à l'aide de références et donner des instructions sur les caractéristiques textuelles de l'image.

Figure 4 : Incitation à la création d'une photo à partir du dessin et son placement dans une scène. ¹¹

Qwen2.5-VL-32B-Instruction par Alibaba

Le modèle Qwen2.5-VL-32B-Instruct d'Alibaba s'appuie sur le modèle de langage Qwen2.5 et intègre des fonctionnalités de traitement visuel. Ce modèle à 32 milliards de paramètres est axé sur la compréhension et le raisonnement à partir d'images. Pré-entraîné sur 18 000 jetons avec une fenêtre de contexte de 128 000 jetons, il prend en charge plusieurs langues. Ce modèle améliore l'analyse syntaxique des images, la reconnaissance de contenu et le raisonnement visuel, ce qui le rend particulièrement utile pour les applications combinant analyse d'images et de texte.

Gemma 3 par Google

Gemma 3 de Google s'appuie sur la technologie de leurs modèles Gemini 2.0. Disponible en quatre tailles (1B, 4B, 12B et 27B) pour s'adapter aux différentes configurations matérielles, il offre une fenêtre de contexte de 128 000 jetons. Gemma 3 fonctionne efficacement sur les configurations à un seul accélérateur et intègre le raisonnement textuel et visuel, l'appel de fonctions et la prise en charge de plus de 35 langues, avec un pré-entraînement pour plus de 140. Les versions quantifiées permettent de réduire la taille du modèle et les besoins de calcul. Le système ShieldGemma 2 assure la classification de la sécurité du contenu.

Phi-4-multimodal par Microsoft

Le modèle Phi-4-multimodal de Microsoft est un modèle à 5,6 milliards de paramètres qui traite la parole, la vision et le texte dans une architecture unifiée. Il utilise l'apprentissage intermodal pour des interactions contextuelles entre différents types d'entrée. Ce modèle gère de multiples formats d'entrée sans nécessiter de systèmes de traitement distincts et est conçu pour le déploiement sur appareils et l'informatique de périphérie. Ses applications incluent l'IA pour smartphones, les systèmes automobiles et les services multilingues.

Qu'est-ce qu'un modèle multimodal de grande taille (LMM) ?

Un modèle multimodal de grande taille est un type avancé de modèle d'intelligence artificielle capable de traiter et de comprendre de multiples modalités de données. Ces données multimodales peuvent inclure du texte, des images, de l'audio, de la vidéo, et potentiellement d'autres types de données. La principale caractéristique d'un modèle multimodal est sa capacité à intégrer et à interpréter les informations provenant de ces différentes sources de données, souvent simultanément.

On peut les considérer comme des versions plus avancées des grands modèles de langage (LLM), capables de traiter du texte et divers types de données. De plus, les sorties des modèles de langage multimodaux sont conçues pour être non seulement textuelles, mais aussi visuelles, auditives, etc.

Les modèles de langage multimodaux sont considérés comme la prochaine étape vers la réalisation d'une intelligence artificielle générale .

Qu'est-ce qu'un agent d'IA multimodal ?

Les agents d'IA multimodaux sont des systèmes conçus pour interagir avec le monde à l'aide de divers types de données, notamment des images, des vidéos et du texte, ce qui leur permet d'opérer dans des environnements numériques et physiques. Les modèles multimodaux constituent le cœur de ces agents, leur permettant de percevoir et de comprendre des informations provenant de sources diverses.

Par exemple, des modèles comme Magma utilisent la compréhension vision-langage et l'intelligence spatiale, obtenues grâce à des techniques comme Set-of-Mark et Trace-of-Mark lors du pré-entraînement sur des ensembles de données multimodaux.

Cela permet à l'agent d'effectuer des tâches allant de la compréhension de contenu vidéo et la réponse à des questions à la navigation dans des interfaces utilisateur et au contrôle de robots, démontrant ainsi la polyvalence des modèles multimodaux qui, grâce à l'exploitation de différentes modalités de données, enrichissent les agents d'IA. L'illustration ci-dessous montre Magma planifiant les trajectoires de robots pour accomplir des tâches, mettant en évidence son intelligence spatiale. ¹²

Quelle est la différence entre les LMM et les LLM ?

1. Modalités des données

Les modèles linéaires multimodales (LMM ) sont conçus pour comprendre et traiter de multiples types de données, ou modalités. Cela inclut le texte, les images, l'audio, la vidéo et parfois d'autres types de données comme les données sensorielles. Leur principal atout réside dans leur capacité à intégrer et à interpréter ces différents formats de données, souvent simultanément.
Modèles de langage (LLM) : Ces modèles sont spécialisés dans le traitement et la génération de données textuelles. Ils sont principalement entraînés sur de vastes corpus de textes et excellent dans la compréhension et la génération du langage humain dans divers contextes. Ils ne traitent pas intrinsèquement les données non textuelles telles que les images ou l’audio.

2. Applications et tâches

Modèles linéaires mixtes ( LMM) : De par leur nature multimodale, ces modèles peuvent être appliqués à des tâches nécessitant la compréhension et l’intégration d’informations provenant de différents types de données. Par exemple, un LMM pourrait analyser un article de presse (texte), les photographies qui l’accompagnent (images) et les extraits vidéo associés afin d’en obtenir une compréhension globale.
Masters en droit (LLM) : Leurs applications sont axées sur des tâches impliquant du texte, telles que la rédaction d’articles, la traduction de langues, la réponse à des questions, la synthèse de documents et la création de contenu textuel.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Quelles sont les modalités de données des grands modèles multimodaux ?

Texte

Cela inclut tout type de contenu écrit, comme les livres, les articles, les pages web et les publications sur les réseaux sociaux. Le modèle peut comprendre, interpréter et générer du contenu textuel, notamment pour des tâches de traitement automatique du langage naturel telles que la traduction, la synthèse et la réponse aux questions.

Images

Ces modèles peuvent analyser et générer des données visuelles. Cela inclut la compréhension du contenu et du contexte des photographies, des illustrations et autres représentations graphiques. Des tâches telles que la classification d'images , la détection d'objets et la génération d'images à partir de descriptions textuelles relèvent de cette catégorie.

Audio

Cela englobe les enregistrements sonores, la musique et le langage parlé. Les modèles peuvent être entraînés à reconnaître la parole , la musique, les sons ambiants et d'autres entrées auditives. Ils peuvent transcrire la parole, comprendre les commandes vocales et même générer de la parole ou de la musique de synthèse.

Vidéo

Le traitement vidéo, qui combine les éléments visuels et auditifs, consiste à comprendre les images en mouvement et les sons qui les accompagnent. Cela peut inclure l'analyse du contenu vidéo, la reconnaissance d'actions ou d'événements dans les vidéos et la génération de clips vidéo.

Alors que la plupart des grands modèles de langage multimodaux actuels ne peuvent traiter que du texte et des images, les recherches futures visent à inclure des données audio et vidéo.

Comment entraîne-t-on les grands modèles multimodaux ?

L’entraînement de grands modèles multimodaux (LMM) diffère considérablement de l’entraînement de grands modèles de langage (LLM) sur plusieurs points clés :

1. Collecte et préparation des données

LLM : L'accent est mis sur les données textuelles provenant de livres, de sites web et de sources écrites, avec une attention particulière portée à la diversité linguistique des sources de données de formation pour les LLM .
Les modèles linéaires mixtes (LMM ) nécessitent des données textuelles, visuelles, audio et vidéo. La collecte est plus complexe en raison de la diversité des formats. L'annotation des données et l'alignement entre les modalités sont essentiels.

2. Conception de l'architecture du modèle

LLM : Utilisez des architectures de transformateurs optimisées pour le traitement séquentiel de texte.
LMM : Utilisent des architectures plus complexes qui intègrent plusieurs types de réseaux neuronaux (CNN pour les images, transformateurs pour le texte) avec des mécanismes permettant de connecter ces modalités.

3. Pré-formation

LLM : Pré-entraînement sur des corpus de textes à l’aide de techniques telles que la modélisation du langage masqué.
LMM : Pré-entraînement sur plusieurs types de données, apprentissage de la corrélation du texte avec des images ou de la compréhension des séquences vidéo.

4. Mise au point

LLM : Ajustement précis sur des ensembles de données textuelles spécialisés pour des tâches spécifiques.
Modèles linéaires mixtes : nécessitent un réglage fin sur des ensembles de données spécifiques à chaque modalité et sur des ensembles de données intermodaux pour établir des relations entre différents types de données.

5. Évaluation et itération

LLM : Les indicateurs d’évaluation portent sur les tâches de compréhension et de production du langage, notamment la fluidité, la cohérence et la pertinence.
LMM : Évaluation sur des métriques plus larges couvrant la reconnaissance d’images, le traitement audio et les capacités d’intégration intermodale.

Comment fonctionnent les LLM ?

Les grands modèles multimodaux présentent des similitudes avec les grands modèles de langage en termes de processus d'entraînement, de conception et de fonctionnement. Ils utilisent la même architecture de type Transformer et les mêmes stratégies d'entraînement. Les grands modèles multimodaux sont entraînés sur :

Données textuelles
Des millions, voire des milliards d'images accompagnées de descriptions textuelles.
clips vidéo
Extraits audio
D'autres données d'entrée, comme le code

Cette formation implique l'apprentissage simultané de plusieurs modalités de données, permettant au modèle de :

Reconnaître une photo de chat
Identifiez un mot dans un extrait audio.
Comprendre les concepts et les détails sensoriels au-delà du texte

Ainsi, les utilisateurs peuvent télécharger :

Une image à :
- Obtenez une description de ce qui se passe
- Utilisez l'image comme élément d'une invite pour générer du texte ou des images
- Posez des questions complémentaires sur des éléments spécifiques de l'image.
- Traduire le texte de l'image dans une autre langue (par exemple, Menu).

Figure 5 : Téléchargement d'une image de chat sur ChatGPT pour le décrire.

Graphiques et diagrammes à :
- Posez des questions de suivi complexes sur ce qu'ils montrent
Maquette de conception à :
- Obtenez le code HTML et CSS nécessaire à sa création.

Figure 6 : Génération d’une image dans le style des films de Wes Anderson. ChatGPT transmet la requête à un modèle de génération d’images (comme DALL·E), qui interprète la demande et produit l’image stylisée.

Après la formation, les modèles peuvent intégrer des stéréotypes malsains et des idées toxiques. Pour les corriger, on utilise des techniques telles que :

Apprentissage par renforcement avec retour d'information humain (RLHF)
Modèles d'IA de supervision
L'équipe rouge (test de robustesse du modèle) peut être utilisée.

De plus, les outils de gouvernance et d'IA responsable, qui servent de solutions de conformité, permettent d'optimiser l'inventaire des IA, contribuant ainsi à prévenir les biais et autres dilemmes éthiques. Voici un exemple de la manière dont ces outils répondent aux préoccupations liées au droit d'auteur de l'IA :

Figure 7 : ChatGPT rejette ma demande en raison des directives relatives à la politique de contenu visant à protéger les droits d'auteur.

L’objectif est de développer un système multimodal fonctionnel capable de gérer :

Synthèse de texte en image
légende d'image
Recherche d'images à partir de texte
Réponse visuelle aux questions.

Ainsi, l'IA multimodale peut intégrer différentes modalités, offrant des capacités avancées pour les tâches impliquant à la fois le langage et la vision.

Quelles sont les limites des grands modèles de langage ?

Données requises et biais : Ces modèles nécessitent des ensembles de données massifs et diversifiés pour leur entraînement. Or, la disponibilité et la qualité de ces données peuvent poser problème. De plus, si les données d’entraînement contiennent des biais, le modèle risque de les hériter et potentiellement de les amplifier, ce qui peut conduire à des résultats inéquitables ou contraires à l’éthique.
Ressources informatiques : L'entraînement et l'exécution de grands modèles multimodaux nécessitent d'importantes ressources informatiques, ce qui les rend coûteux et moins accessibles aux petites organisations ou aux chercheurs indépendants.
Interprétabilité et explicabilité : Comme pour les modèles d’IA complexes, comprendre leur processus de décision peut s’avérer difficile. Ce manque de transparence peut constituer un problème majeur, notamment dans des applications sensibles telles que la santé ou les forces de l’ordre.
Intégration des modalités : Intégrer efficacement différents types de données (texte, images, audio, etc.) en saisissant les nuances de chaque modalité représente un défi de taille. Le modèle risque de ne pas toujours appréhender avec précision le contexte ni les subtilités de la communication humaine qui résultent de la combinaison de ces modalités.
Généralisation et surapprentissage : Bien que ces modèles soient entraînés sur de vastes ensembles de données, ils peuvent avoir des difficultés à se généraliser à de nouvelles données ou à des scénarios inédits, très différents de leurs données d’entraînement. À l’inverse, ils peuvent surapprendre les données d’entraînement, en interprétant le bruit et les anomalies comme des motifs.

Pour en savoir plus, explorez les défis et les risques associés aux modèles génératifs et linguistiques .

Méthodologie de référence pour les LMM

Nous avons évalué les performances des grands modèles multimodaux (LMM) en utilisant un sous-ensemble de l'ensemble de données FinMME. FinMME ¹³ est un référentiel complet conçu pour évaluer les capacités de raisonnement multimodal financier. Il comprend plus de 11 000 échantillons financiers de haute qualité répartis dans 18 domaines financiers et 6 classes d’actifs, offrant ainsi un cadre robuste pour l’évaluation des modèles linéaires mixtes dans le domaine financier.

Pour cette évaluation comparative, nous avons utilisé une sélection de 100 échantillons tirés de l'ensemble de données FinMME afin d'analyser la capacité des modèles à traiter et à raisonner avec des données financières multimodales.

Clause de non-responsabilité

Cette évaluation a utilisé un sous-ensemble de 100 échantillons sélectionnés parmi un ensemble de données plus vaste pour comparer les modèles linéaires mixtes (LMM). Pour une évaluation complète des performances du modèle, tous les échantillons de l'ensemble de données de référence complet doivent être pris en compte.

Conclusion

Les grands modèles multimodaux (LMM) intègrent divers types de données, comme le texte, les images, l'audio et la vidéo, surpassant ainsi les capacités textuelles des grands modèles de langage (LLM). Grâce à des avancées telles que Llama 4 d'IA, o d'Alibaba et VL d'Alibaba, les LMM permettent des applications plus riches, allant du raisonnement visuel à la génération d'images contextuelles.

Cependant, leur complexité, leurs exigences élevées en matière de calcul et les difficultés liées à l'intégration des données et à la réduction des biais demeurent des obstacles. À mesure que les modèles linéaires mixtes (LMM) évoluent, ils ouvrent la voie à des agents d'IA plus polyvalents, nous rapprochant ainsi de l'intelligence artificielle générale. Pour les organisations et les chercheurs, le choix du modèle approprié implique de trouver un équilibre entre performance, coût et besoins spécifiques du cas d'utilisation.

Liens de référence

Gemma 3: Google’s new open model based on Gemini 2.0

Google

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models · GitHub

GitHub - QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. · GitHub

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

CLIP: Connecting text and images | OpenAI

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

[2204.14198] Flamingo: a Visual Language Model for Few-Shot Learning

Multimodality and Large Multimodal Models (LMMs)

GitHub - bytedance/vidi: The official repo for "Vidi: Large Multimodal Models for Video Understanding and Editing" · GitHub

GitHub - MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities · GitHub

12.

Gemini 3: Introducing the latest Gemini AI model from Google

Google

13.

Introducing 4o Image Generation | OpenAI

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Modèles multimodaux de grande taille (LMM) vs LLM

Pourquoi les modèles ont-ils eu des performances différentes ?

Conception de l'architecture du modèle et des paramètres

Couverture des données d'entraînement

Réglage fin pour le raisonnement intermodal

Capacité de traitement du contexte

Priorités en matière de taille et d'efficacité du modèle

Différences de compréhension visuelle

Caractéristiques de l'ensemble de données d'évaluation

Que sont les grands modèles multimodaux open source ?

Modèles linéaires mixtes open source et leur nombre d'étoiles sur GitHub :

Quels sont les principaux LMM ?

Fonctionnalités d'interface utilisateur et d'API des LLM à usage général

LMM et leur prix par jeton :

Quelles sont les dernières avancées en matière de modèles multimodaux ?

Modèles de fondation multimodaux axés sur la vidéo

Mistral 3 multimodale Frontier Release

Modèles de vision et de langage open source du ministère de l'Éducation

Série Claude 4 de Anthropic

GPT-5 par OpenAI

Google Modèles multimodaux de DeepMind axés sur la robotique

Llama 4 Scout et Llama 4 Maverick par Meta IA

Génération d'image 4o par OpenAI

Qwen2.5-VL-32B-Instruction par Alibaba

Gemma 3 par Google

Phi-4-multimodal par Microsoft

Qu'est-ce qu'un modèle multimodal de grande taille (LMM) ?

Qu'est-ce qu'un agent d'IA multimodal ?

Quelle est la différence entre les LMM et les LLM ?

1. Modalités des données

2. Applications et tâches

Quelles sont les modalités de données des grands modèles multimodaux ?

Texte

Images

Audio

Vidéo

Comment entraîne-t-on les grands modèles multimodaux ?

1. Collecte et préparation des données

2. Conception de l'architecture du modèle

3. Pré-formation

4. Mise au point

5. Évaluation et itération

Comment fonctionnent les LLM ?

Quelles sont les limites des grands modèles de langage ?

Méthodologie de référence pour les LMM

Clause de non-responsabilité

Conclusion

Liens de référence

Soyez le premier à commenter

À lire ensuite

Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI

Comparaison de modèles d'IA multimodaux en matière de raisonnement visuel

Modèles quantitatifs de grande taille : applications et défis

Modèles de monde à grande échelle : cas d'utilisation et exemples

Modèles de langage à grande échelle en cybersécurité ['26]

Maquettes articulées grand format : effet de mode ou réalité ?