Comparaison des modèles de langage visuel avec la reconnaissance d'images

avec

mis à jour le Fév 27, 2026

Les modèles de langage visuel avancés (VLM) peuvent-ils remplacer les modèles de reconnaissance d'images traditionnels ? Pour le savoir, nous avons comparé 16 modèles de pointe répartis en trois paradigmes : les CNN traditionnels (ResNet, EfficientNet), les VLM (tels que GPT-4.1, Gemini 2.5) et les API Cloud (AWS, Google, Azure).

La précision moyenne (mAP) a servi de principale mesure de précision, complétée par une analyse de la latence, du coût et des performances spécifiques à chaque classe.

Vous pouvez consulter la méthodologie de référence ici.

Comparaison de la précision et de la latence

Dans notre évaluation comparative, nous avons analysé les modèles selon quatre dimensions : la latence, la précision moyenne (mAP), le prix et le taux de réussite. La latence mesure le temps nécessaire au modèle pour traiter une image, tandis que la mAP reflète la précision globale de la classification. Le taux de réussite vérifie si le modèle a renvoyé une sortie JSON valide, un critère particulièrement pertinent pour les modèles de vision par ordinateur qui interprètent les images en langage naturel plutôt qu’en données structurées.

Loading Chart

Les modèles de reconnaissance d'images traditionnels, tels qu'EfficientNet, ResNet18, ResNet50, ResNet101 et DenseNet121, affichent systématiquement une faible latence (0,03 à 0,2 seconde) et une précision compétitive (mAP de 0,75 à 0,81). Parmi eux, DenseNet121 et ResNet18 obtiennent les meilleurs scores mAP (0,81 et 0,80 respectivement), suivis de près par EfficientNet (0,78). ResNet50 et ResNet101 présentent des performances modérées au sein de ce groupe (0,75 et 0,77), mais tous les modèles traditionnels surpassent nettement les outils de reconnaissance d'images basés sur le cloud comme AWS Rekognition, Cloud Vision et Vision, qui atteignent une précision modérée (mAP de 0,61 à 0,64) avec des latences comprises entre 2 et 3,5 secondes. Ceci démontre la supériorité des modèles traditionnels en termes de rapidité et de précision.

Pour les modèles de langage visuel, notamment OpenAI GPT-4.1, Claude Opus 4.1, X-AI Grok 2 Vision, Meta-Llama/LLama-3.2-11B Vision Instruct et Google Gemini 2.5 Flash, les latences sont nettement plus élevées, allant de 1 à 12 secondes, avec des valeurs mAP comprises entre 0,60 et 0,75. Google Gemini 2.5 Flash atteint une mAP de 0,75, ce qui en fait le modèle de langage visuel le plus précis de notre test. Parmi les autres logiciels de visualisation, GPT-4.1 se distingue par une mAP de 0,73, suivi de Claude Opus 4.1 (0,71) et de X-AI Grok 2 Vision (0,70). GPT-4o-mini affiche des performances modérées (mAP de 0,66), tandis que Meta-Llama Vision Instruct est nettement en retrait (mAP de 0,60).

La plupart des modèles de langage de vision renvoient de manière fiable des sorties JSON avec un succès proche de 100 %, à l'exception de Meta-Llama Vision Instruct , qui n'a réussi que 36 % du temps, et de Gemini 2.5 Pro , qui a systématiquement échoué (0 % de succès), limitant considérablement leur applicabilité pratique dans les pipelines automatisés.

Bien que les modèles de langage visuel soient généralement moins performants que les modèles de reconnaissance d'images traditionnels en termes de vitesse brute, les modèles les plus performants, tels que Google Gemini 2.5 Flash (0,75 mAP) et GPT-4.1 (0,73 mAP), atteignent une précision de classification proche des performances des CNN classiques et supérieure à celle des API cloud comme AWS Rekognition et Azure Vision. En termes de latence, la plupart des modèles de langage visuel se situent autour de 3 à 4 secondes, à l'exception de Meta-Llama, nettement plus lent avec 12 secondes, ce qui souligne l'importance de l'architecture et de l'optimisation du modèle.

Globalement, les modèles de reconnaissance d'images traditionnels restent performants en termes de rapidité et de précision. Les modèles VLM, quant à eux, se révèlent prometteurs pour le raisonnement multimodal et les sorties structurées ; leur latence est certes plus élevée, mais les meilleurs modèles atteignent une précision comparable à celle des CNN classiques et supérieure à celle des services de reconnaissance d'images basés sur le cloud.

Performances spécifiques à chaque classe : points forts et points faibles des modèles

Notre évaluation a utilisé sept classes qui se chevauchent et qui testent différents aspects de la détection d'objets :

visage : Représente uniquement la région du visage. Le modèle doit détecter le visage d’une personne, ce qui peut s’avérer complexe en raison de sa petite taille et de ses détails fins.
Tête : Couvre l'ensemble de la tête, à l'exception du visage. Se concentre sur la détection de la forme et de la structure de la tête.
tête_avec_casque : Représente une tête portant un casque. Le modèle doit détecter simultanément la tête et le casque, testant ainsi sa capacité à reconnaître leur relation.
Casque : Représente uniquement le casque, indépendamment de la présence d’une personne ou d’une tête. Important pour la détection de l’équipement.
Personne : Détecte la présence d'une personne, avec ou sans casque. Sert de classe générale de détection humaine.
personne_sans_casque : Représente une personne ne portant pas de casque. Le modèle doit identifier à la fois la présence humaine et l’absence de casque.
personne_avec_casque : Représente une personne portant un casque. Nécessite de distinguer à la fois la présence humaine et le port d'un casque, et est étroitement liée à personne_sans_casque.

Ces classes qui se chevauchent et sont étroitement liées peuvent représenter un défi pour les modèles de langage visuel, car ils interprètent l'information visuelle à travers le langage naturel plutôt que de capturer directement les différences fines au niveau des pixels.

Performances traditionnelles de CNN

Classe de visage
- Meilleures performances : EfficientNet et DenseNet121 (100 %)
- Plus faible : ResNet101 (95 %) La détection des visages est très précise parmi les CNN, surpassant la plupart des VLM.
Classe de tête
- Meilleurs résultats : ResNet18 et DenseNet121 (69 %)
- Plus faible : ResNet50 (50 %) Performances modérées ; les CNN ont plus de difficultés avec la détection de la tête qu'avec les classes de visage et de casque.
Tête et Tête_avec_casque
- Meilleures performances : EfficientNet et ResNet18 (Head_with_helmet 98 %, Head 65–69 %)
- Le modèle ResNet50 (Tête : 50 %, Tête avec casque : 96 %) obtient d'excellents résultats avec les CNN sur les têtes casquées, avec une précision de 96 à 98 % pour tous les modèles. La détection des têtes nues est plus complexe, avec une précision moindre (50 à 69 %), ce qui indique que les CNN distinguent mieux les objets saillants comme les casques que les zones moins distinctes comme les têtes sans casque.
Classe de personnes
- Tous les modèles : précision de 0 %
Personne sans casque
- Meilleur : DenseNet121 (72 %)
- Plus faible : ResNet50 (53 %) Les CNN gèrent mieux cette classe difficile que les VLM, soulignant leur capacité à capturer des détails fins.
Personne avec un casque
- Meilleur : EfficientNet (98 %)
- Plus faible : DenseNet121 (96 %) Haute précision sur tous les modèles ; les personnes casquées sont reconnues de manière constante.

performances du modèle de langage Vision

Classe de visage (détection de visage)
- Meilleure performance : Claude Opus 4.1 (83 %)
- Les plus faibles : Meta-Llama Vision Instruct (4 %) et GPT-4o-mini (12 %). Les VLM sont généralement moins performants sur les petits objets détaillés comme les visages ; Meta-Llama et GPT-4o-mini ont du mal avec les détails fins.
Tête et Tête_avec_casque
- Tête : Claude Opus 4.1 (96 %) la plus élevée, Meta-Llama (30 %) la plus basse
- Head_with_helmet: GPT-4.1 (99%) et Gemini 2.5 Flash (98%) le plus élevé, Meta-Llama (50%) le plus bas. Les modèles fonctionnent bien sur la détection de la tête avec ou sans casque ; la plupart atteignent une précision de plus de 90%, sauf Meta-Llama.
Classe de casque
- Valeurs maximales : Grok 2 Vision (100 %), GPT-4.1 (99 %), Gemini 2.5 Flash (98 %)
- Le plus faible : Meta-Llama (52%) Il est généralement plus facile de distinguer les objets casqués des objets non casqués, mais Meta-Llama est moins performant.
Classe de personnes
- Tous les modèles atteignent 100 %, probablement grâce à la présence d'objets grands et nets.
Personne sans casque
- Meilleurs résultats : GPT-4.1 et Gemini 2.5 Flash (58 %)
- Plus bas : Meta-Llama (18 %) et GPT-4o-mini (29 %) Détecter des détails fins comme l'absence de casque est difficile ; certains modèles excellent sur les objets proéminents mais sont à la traîne sur les classes nuancées.
Personne avec un casque
- Meilleures performances : GPT-4.1 (98 %) et Gemini 2.5 Flash (98 %)
- Plus bas : Meta-Llama (55%)La plupart des modèles fonctionnent très bien ici.

performances de l'API cloud

Classe de visage
- Meilleur : AWS Rekognition (22 %)
- Plus bas : Google Cloud Vision (0 %) La détection des visages est généralement mauvaise sur les API Cloud ; les distinctions fines comme les visages sont difficiles.
Tête et Tête_avec_casque
- Tête : AWS Rekognition (24 %) meilleur, Azure Vision le plus faible (0 %)
- Head_with_helmet: AWS Rekognition (10%) meilleur, Azure Vision (1%) plus faible La détection des têtes, en particulier avec ou sans casque, est limitée ; les API Cloud se concentrent sur des objets plus larges plutôt que sur des détails fins.
Classe de casque
- Meilleur : AWS Rekognition (94 %)
- Plus bas : Azure Vision (37%) La détection du casque est moyennement réussie pour certaines API (AWS), mais incohérente selon les fournisseurs.
Classe de personnes
- Tous les modèles : Les objets de grande taille et nets, comme les personnes entières, sont détectés de manière fiable par toutes les API Cloud.
Personne sans casque
- Meilleur : Azure Vision (78 %)
- Plus bas : Google Cloud Vision (26 %) Les performances varient considérablement ; certaines API peuvent gérer les classes difficiles de manière assez satisfaisante.
Personne avec un casque
- Meilleur : AWS Rekognition (94 %)
- Plus bas : Azure Vision (37 %) Les personnes casquées sont détectées de manière fiable par AWS mais de manière incohérente par d'autres fournisseurs.

Pour les visages , les CNN atteignent la plus grande précision, suivis des VLM, tandis que les API Cloud sont peu performantes. Dans les classes « tête » et « tête avec casque » , les CNN restent performants, les VLM sont bons pour les têtes casquées mais moins performants pour les têtes nues, et les API Cloud rencontrent des difficultés dans les deux cas. Pour les casques , les CNN et les VLM sont généralement très performants, tandis que les API Cloud affichent des résultats variables. Dans la classe « personne » , tous les paradigmes détectent les personnes entières de manière fiable. Pour la classe « personne sans casque » , les CNN surpassent les VLM et les API Cloud, démontrant une meilleure gestion des détails fins. Enfin, pour la classe « personne avec casque » , les CNN et les VLM conservent une précision élevée, tandis que les performances des API Cloud sont inconstantes selon le fournisseur.

Précision, rappel et score F1

La précision mesure le nombre de prédictions positives d'un modèle qui sont réellement correctes. Autrement dit, elle répond à la question : « Parmi les prédictions que le modèle a qualifiées de positives, combien sont réellement correctes ? »

Le rappel mesure le nombre de cas positifs réels que le modèle identifie correctement. Il répond à la question : « Parmi tous les cas positifs réels, combien le modèle en a-t-il détectés ? »

Le score F1 est un résumé équilibré de la précision et du rappel. Il fournit une mesure unique reflétant à la fois l'exactitude et la couverture, particulièrement utile lorsque l'on souhaite trouver un équilibre entre précision et rappel.

Les modèles basés sur les réseaux de neurones convolutifs (ResNet50, ResNet101, DenseNet121) affichent d'excellentes performances en termes de précision (0,93–0,95) et de rappel (0,91–0,94), ce qui se traduit par des scores F1 élevés (0,92–0,93). Cela indique leur grande précision de prédiction et leur capacité à identifier la majorité des vrais positifs. EfficientNet présente également un score F1 élevé (0,92), garantissant des performances constantes et fiables.

Les API cloud (AWS Rekognition, Google Cloud Vision, Azure Vision) présentent une précision et un rappel inférieurs, avec des scores F1 allant de 0,32 à 0,58. Cela suggère que, bien que les services cloud soient optimisés pour les tâches à usage général, leur précision dans les distinctions de classes fines est limitée.

Les modèles vision-langage présentent des performances plus variables. GPT-4.1, X-AI Grok 2 Vision et Claude Opus 4.1 atteignent exactement un score F1 de 0,76, tandis que Google Gemini 2.5 Flash obtient des résultats légèrement meilleurs avec un score F1 de 0,80. Bien que ces modèles affichent de bonnes performances dans certaines classes, ils restent généralement en retrait par rapport aux CNN en termes de précision globale. Meta-Llama Vision Instruct obtient un score F1 de 0,47, avec une faible précision et un faible rappel, ce qui signifie que le modèle peine à la fois à effectuer des prédictions correctes et à identifier les vrais positifs.

Raisons potentielles des différences de performance

avantage de l'architecture CNN

Les CNN traditionnels sont spécialisés dans l'extraction de caractéristiques au niveau du pixel, permettant une détection rapide et précise d'objets fins. Leurs couches convolutionnelles optimisées et leurs cartes de caractéristiques hiérarchiques garantissent une faible latence et un mAP élevé pour les tâches de reconnaissance d'images standard.

Surcharge multimodale dans les VLM

Les modèles de langage visuel traitent à la fois les images et le texte, en ajoutant des étapes d'attention croisée et d'alignement des plongements lexicaux. Ceci permet le raisonnement et des sorties contextuelles, mais augmente le temps d'inférence, ce qui entraîne une latence plus élevée que pour les réseaux de neurones convolutifs (CNN).

Détection de classe fine

Les classes qui se chevauchent ou sont subtiles (par exemple, personne_sans_casque vs personne_avec_casque) mettent en évidence les différences entre les modèles. Les CNN capturent systématiquement ces détails, les VLM sont performants sur les objets principaux mais peinent à saisir les distinctions subtiles, et les API Cloud se concentrent sur des classes générales, ce qui limite leur précision.

Fiabilité de la sortie structurée

La génération incohérente de JSON affecte les performances de VLM. Les modèles présentant de faibles taux de réussite semblent moins efficaces dans les pipelines, tandis que les CNN et les API Cloud produisent des résultats prévisibles et déterministes.

Alors, lequel choisir ?

Les réseaux de neurones convolutifs ( CNN) traditionnels sont idéaux pour les applications critiques en termes de vitesse, où les temps de réponse de l'ordre de la milliseconde sont essentiels, comme le traitement vidéo en temps réel, les véhicules autonomes ou les systèmes de sécurité industrielle. Grâce à leur précision supérieure (mAP de 0,75 à 0,81) et à leur inférence ultrarapide (0,03 à 0,2 s), ces modèles d'IA traditionnels excellent lorsqu'il est nécessaire d'obtenir des performances fiables et constantes, sans la surcharge liée au traitement du langage naturel ni à la complexité du modèle. Les CNN se concentrent sur les données visuelles et les tâches de classification d'images , comme la détection d'objets, offrant à la fois précision et efficacité visuelles sans nécessiter de réglages fins pour les modèles multimodaux.

Les modèles de langage visuel (VLM) excellent lorsqu'une compréhension contextuelle et des sorties flexibles sont nécessaires. Ces modèles fonctionnent à la fois avec des modalités visuelles et textuelles, permettant ainsi à de grands modèles de langage de traiter simultanément des images et des descriptions textuelles. Idéaux pour les applications nécessitant des explications en langage naturel, la génération de légendes d'images, le raisonnement visuel ou encore la réponse à des questions visuelles, ils exploitent des encodeurs visuels et des couches d'attention croisée pour aligner les paires image-texte dans un même espace dimensionnel. Bien qu'une latence plus élevée (3 à 12 secondes) soit à accepter, leurs capacités de raisonnement pour la compréhension d'images, d'éléments visuels et d'instructions visuelles les rendent parfaits pour des tâches aval plus spécifiques telles que la modération intelligente de contenu, la génération d'images, le raisonnement mathématique visuel ou les assistants visuels interactifs. Grâce à un réglage fin et efficace des paramètres et à des données d'entraînement de haute qualité, les modèles de langage visuel (VLM) deviennent de puissants modèles d'apprentissage automatique qui unifient les informations visuelles et textuelles dans un espace d'intégration partagé.

Les API cloud fournissent des réponses détaillées et complètes, enrichies de métadonnées et de scores de confiance, ce qui les rend idéales pour obtenir des informations approfondies allant au-delà de la simple classification. Ces API s'appuient souvent sur des composants d'encodage visuel pré-entraînés et des encodeurs visuels entraînés sur de vastes ensembles de données publics de légendes conceptuelles et de photos pertinentes. Parfaites pour les applications nécessitant des sorties JSON structurées, des boîtes englobantes, la localisation d'objets ou la compréhension de longues vidéos, elles constituent des solutions prêtes à l'emploi, sans nécessiter d'entraînement de modèle complexe ni de gestion d'infrastructure. Bien que leur précision soit modérée (mAP 0,61–0,66), elles réduisent les détails techniques et les coûts d'infrastructure, permettant des tâches telles que la génération automatisée de rapports, l'extraction de sens sémantique et l'intégration d'un cadre unifié avec des modèles génératifs existants.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Calculateur de prix

Modèles de langage visuel (VLM) – Principales caractéristiques et avantages

Raisonnement multimodal

Les modèles de vision et de langage (VLM) sont des modèles multimodaux puissants capables de traiter simultanément les modalités visuelles et textuelles, ce qui leur permet d'interpréter ces informations de manière plus riche et contextuelle. En associant les images à des instructions en langage naturel, ils rendent possibles des tâches avancées telles que la génération automatique de légendes d'images, la détection de casques dans les enregistrements de vidéosurveillance, le raisonnement visuel, la réponse à des questions visuelles et même l'explication de contenus visuels en langage naturel. Contrairement aux modèles d'IA traditionnels qui se concentrent uniquement sur les données visuelles, les VLM combinent les capacités de vision avec un raisonnement basé sur de vastes modèles de langage, ce qui les rend idéaux pour les tâches complexes en aval.

Sortie structurée et génération de JSON

De nombreux modèles de langage visuel peuvent générer des sorties structurées, comme du JSON, précieuses pour les pipelines automatisés et les applications nécessitant des descriptions textuelles en plus des caractéristiques des images. Lors de nos tests, ChatGPT-5 et Gemini 2.5 Pro ont systématiquement échoué, tandis que Meta-Llama Vision Instruct n'a réussi que dans environ 36 % des cas. Les sorties structurées sont particulièrement utiles pour les assistants visuels, permettant des tâches telles que la détection et la localisation d'objets, ainsi que la production de données fiables pour les modèles d'apprentissage automatique sans nécessiter de réglages complexes.

Capacités de réglage fin

Les modèles de langage visuel (VLM) permettent un réglage fin et efficace des paramètres avec des données d'entraînement relativement peu nombreuses, ce qui facilite leur adaptation rapide aux tâches de raisonnement visuel spécifiques à un domaine. Par exemple, ils peuvent être ajustés pour distinguer les personnes casquées de celles qui ne le sont pas, ou encore les équipements de sécurité spécialisés dans les images. Grâce à l'utilisation d'architectures d'encodeurs visuels pré-entraînées et de techniques d'entraînement robustes, ils offrent une meilleure généralisation avec un nombre réduit de légendes conceptuelles ou de paires image-texte.

Limites des modèles de langage visuel

Latence et vitesse

Comparativement aux CNN traditionnels ou aux modèles de vision plus simples, les modèles de langage visuel présentent généralement une latence plus élevée, ce qui peut limiter les applications en temps réel telles que la compréhension de longues vidéos. Certains modèles multimodaux, comme X-AI Vision et 2.5 Flash, sont plus proches des API cloud en termes de vitesse, mais Llama est nettement plus lent. Ce compromis résulte de la conception globale du modèle et des couches d'attention croisée, qui améliorent les capacités de raisonnement mais augmentent le temps d'inférence.

Défis par classe

Les modèles de langage visuel rencontrent parfois des difficultés avec les classes qui se chevauchent et la reconnaissance fine des objets, comme la distinction entre une « tête » et une « tête avec casque » ou entre une « personne sans casque » et une « personne avec casque ». Si certains modèles sont performants pour les objets casqués, leurs performances sont moindres dans d'autres tâches de raisonnement visuel, telles que la détection des visages ou d'éléments visuels subtils. Ceci souligne l'importance de données d'entraînement de haute qualité et d'un réglage fin et précis pour des tâches aval plus spécifiques.

Fiabilité de la sortie structurée

La cohérence des sorties structurées, telles que JSON, est très variable. Si certains modèles de langage visuel (VLM) génèrent des sorties valides de manière fiable, d'autres échouent dans certains cas d'utilisation, ce qui limite leur utilité dans les chaînes de traitement entièrement automatisées. Même avec des architectures d'encodeurs visuels pré-entraînées et des approches d'espace d'intégration partagé, certains modèles ne parviennent toujours pas à préserver le sens sémantique des sorties structurées. Cette incohérence souligne la nécessité d'un entraînement robuste des modèles, de photos pertinentes dans l'ensemble de données et d'améliorations continues des modèles génératifs pour les modalités visuelles et linguistiques.

Méthodologie de référence

Nous avons mené notre évaluation complète à l'aide du jeu de données SHEL5K pour la détection de casques de sécurité, en utilisant plus précisément les 500 premières images afin de garantir une comparaison cohérente entre toutes les architectures de modèles. Ce jeu de données comprend sept classes partiellement superposées, conçues pour tester les capacités de détection d'objets fines : visage, tête, tête avec casque, casque, personne, personne sans casque et personne avec casque.

prétraitement des données

Les annotations du jeu de données SHEL5K original étaient fournies au format XML. Nous avons développé un pipeline de prétraitement pour convertir ces annotations en un format CSV multi-étiquettes adapté à une évaluation systématique :

Chaque image a été associée à ses étiquettes de vérité terrain correspondantes, créant ainsi un cadre d'évaluation standardisé. Pour les CNN traditionnels, les images ont été prétraitées à une résolution de 224 × 224 pixels avec une normalisation standard. Les modèles de langage visuel et les API cloud ont reçu les images dans leur format d'origine afin de préserver les informations contextuelles.

Protocole d'évaluation CNN traditionnel

Les réseaux neuronaux convolutifs traditionnels (EfficientNet, variantes ResNet, DenseNet121) ont subi un réglage fin supervisé en utilisant les meilleures pratiques établies :

Configuration de l'entraînement :

Architecture : Modèles pré-entraînés avec des têtes de classification modifiées
Fonction de perte : BCEWithLogitsLoss pour la classification multi-étiquettes
Optimiseur : Adam avec un taux d'apprentissage de 1e-4
Époques d'entraînement : 5
Répartition des données : 80 % pour l’entraînement, 20 % pour la validation
Taille du lot : 16

cadre de test du modèle de langage Vision

Les modèles d'apprentissage virtuel (VLM) ont été évalués au moyen de questions structurées avec soin, conçues pour obtenir des réponses cohérentes et lisibles par machine. Notre approche de conception des questions exigeait des scores de confiance au format JSON pour chaque classe.

Configuration de l'API :

Température : 0,1 (basse température pour une meilleure homogénéité)
Nombre maximum de jetons : 800
Modèles testés via l'intégration de l'API OpenRouter
Analyse JSON avec gestion des erreurs et validation du format

Suivi du taux de réussite : nous avons surveillé le pourcentage de réponses JSON valides, car les VLM génèrent parfois des explications en langage naturel au lieu d’une sortie structurée. Cet indicateur s’est avéré crucial pour évaluer la faisabilité pratique du déploiement.

Intégration de l'API Cloud et mappage des étiquettes

Les API cloud ont présenté des défis uniques en raison de leur nature généraliste et de leurs taxonomies différentes. Nous avons développé des stratégies de mappage complètes pour chaque service :

Stratégie de mappage des étiquettes :

Les API cloud présentent un défi fondamental : elles n’ont pas été conçues pour notre taxonomie spécifique à sept classes. Ces services renvoient des étiquettes génériques comme « personne », « casque », « ouvrier du bâtiment » ou « équipement de sécurité », plutôt que les combinaisons précises dont nous avons besoin pour l’évaluation (telles que « personne_avec_casque » ou « tête_avec_casque »).

Pour pallier cette limitation, nous avons développé des dictionnaires de correspondance complets pour chaque service cloud, basés sur leurs résultats. La correspondance pour Computer Vision (référence 991259_1982) comprenait plus de 50 variantes d'étiquettes couvrant les différentes manières dont l'API pouvait décrire les personnes (personne, homme, femme, travailleur, individu), les casques (casque, casque de chantier, casque de sécurité, casquette) et les traits du visage (visage, visage humain, portrait). Des correspondances tout aussi exhaustives ont été créées pour AWS Rekognition et Cloud Vision (référence 991259_1855), chacune étant adaptée au vocabulaire et aux modèles d'étiquetage spécifiques à ce service.

Logique d'inférence de classe combinée :

L'aspect le plus complexe de notre évaluation d'API cloud a consisté à déduire les classes combinées que les API ne reconnaissent pas explicitement. Nous avons implémenté une logique basée sur des règles pour détecter l'apparition simultanée de plusieurs éléments de base.

Lorsque les termes « personne » et « casque » sont détectés simultanément sur une même image avec un niveau de confiance suffisant, le système en déduit « personne_avec_casque » en utilisant le score de confiance minimal entre les deux détections (approche conservatrice). De même, la détection simultanée des termes « tête » et « casque » déclenche la classification « tête_avec_casque ».

Pour les classifications négatives, lorsqu'une personne est détectée mais qu'aucun casque n'est trouvé, le système infère « personne_sans_casque » avec une confiance légèrement réduite (90 % de la confiance initiale de la personne) pour tenir compte de l'incertitude inhérente à l'inférence négative.

Cette approche reconnaît que les API cloud excellent dans la détection d'objets individuels, mais peinent à établir un raisonnement relationnel sur les combinaisons d'objets – une limitation majeure lors de l'évaluation de tâches de classification fines et dépendantes du contexte.

Métriques d'évaluation et analyse statistique

Indicateurs principaux :

Précision moyenne (mAP) : Mesure de précision principale utilisant une macro-moyenne sur les classes
Précision, rappel, score F1 : micro-moyennés pour l’évaluation globale des performances
Précision par classe : Analyse détaillée des performances de chaque classe
Latence : Temps de traitement de bout en bout par image
Taux de réussite : pourcentage de résultats valides (particulièrement pertinent pour les VLM)

Sélection du seuil : Un seuil de classification de 0,5 a été appliqué de manière cohérente à tous les modèles, les VLM utilisant des scores de confiance et les modèles traditionnels utilisant des logits activés par la fonction sigmoïde.

Robustesse statistique : chaque modèle a été évalué sur des ensembles d’images identiques, avec un prétraitement uniforme, afin de garantir une comparaison équitable. Les mesures de latence ont été moyennées sur plusieurs essais pour tenir compte de la variabilité du système.

Contrôles et limitations expérimentaux

Contrôles mis en œuvre :

Ensemble de test identique de 500 images pour tous les modèles
Métriques et seuils d'évaluation cohérents
Procédures standardisées de gestion des erreurs et de délai d'attente
Rotation multiple des clés API pour gérer les limites de débit

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par

Nazlı Şipi

Chercheur en IA

Nazlı est analyste de données chez AIMultiple. Elle possède une expérience préalable en analyse de données dans divers secteurs, où elle a travaillé à transformer des ensembles de données complexes en informations exploitables.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Comparaison des modèles de langage visuel avec la reconnaissance d'images

Comparaison de la précision et de la latence

Performances spécifiques à chaque classe : points forts et points faibles des modèles

Performances traditionnelles de CNN

performances du modèle de langage Vision

performances de l'API cloud

Précision, rappel et score F1

Raisons potentielles des différences de performance

avantage de l'architecture CNN

Surcharge multimodale dans les VLM

Détection de classe fine

Fiabilité de la sortie structurée

Alors, lequel choisir ?

Calculateur de prix

Modèles de langage visuel (VLM) – Principales caractéristiques et avantages

Raisonnement multimodal

Sortie structurée et génération de JSON

Capacités de réglage fin

Limites des modèles de langage visuel

Latence et vitesse

Défis par classe

Fiabilité de la sortie structurée

Méthodologie de référence

prétraitement des données

Protocole d'évaluation CNN traditionnel

cadre de test du modèle de langage Vision

Intégration de l'API Cloud et mappage des étiquettes

Stratégie de mappage des étiquettes :

Logique d'inférence de classe combinée :

Métriques d'évaluation et analyse statistique

Contrôles et limitations expérimentaux

Soyez le premier à commenter

À lire ensuite

Modèles de langage à grande échelle en cybersécurité ['26]

Modèles d'intégration : OpenAI vs Gemini vs Cohere

Maquettes articulées grand format : effet de mode ou réalité ?

Modèles multimodaux de grande taille (LMM) vs LLM

Comparaison des modèles Large Vision : GPT-4o vs YOLOv8n

Comparaison de 9 grands modèles de langage dans le domaine de la santé