Nous avons évalué les performances réelles des principaux outils de reconnaissance d'images dans le cloud pour les tâches de détection d'objets en comparant leurs configurations API par défaut sur 5 classes à l'aide de 100 images. Cette évaluation comprenait la comparaison des performances, l'analyse des fonctionnalités et la comparaison des offres de services en fonction des prix.
Résultats de référence
Aperçu des performances à IoU=0,5
Les performances de trois plateformes de reconnaissance d'images ont été évaluées à un seuil d'intersection sur union (IoU) de 0,5, en comparant la mAP, le score F1, le rappel et la précision. Bien que toutes les plateformes aient atteint des taux de précision supérieurs à 89 %, cette méthodologie d'évaluation a révélé des différences notables au niveau du rappel et d'autres indicateurs.
La mAP (précision moyenne) est la principale mesure d'évaluation à prendre en compte pour les tâches de détection d'objets, car elle fournit une mesure complète de la qualité de la détection à travers différents seuils de confiance et classes d'objets.
Vous pouvez en savoir plus sur les indicateurs .
Précision moyenne par classe (AP) à IoU=0,5
Amazon Rekognition, Cloud Vision et Azure AI Vision présentent tous de bonnes capacités de détection de personnes, mais peinent à identifier les équipements de protection. La précision diminue considérablement pour les casques sur toutes les plateformes.
Alors qu'Amazon et Google affichent une faible précision dans la détection des gants et des chapeaux, Microsoft Azure AI Vision atteint une précision de 0 % pour les deux catégories. Il est important de noter qu'Azure AI Vision ne détecte pas les objets de petite taille (moins de 5 % de l'image) ni ceux disposés très près les uns des autres, ce qui pourrait expliquer la faible précision observée dans la détection des gants et des chapeaux. 1
Aucun de ces services ne parvient à détecter les masques (précision de 0 %), ce qui met en évidence une lacune critique dans leurs capacités de reconnaissance d'objets lorsqu'ils sont utilisés avec les paramètres par défaut sans étiquetage personnalisé.
Vous pouvez en savoir plus sur les limites de la reconnaissance d'images .
mAP à différents seuils d'IoU [0,5:0,05:0,95]
Les performances de précision moyenne (mAP) d'Amazon Rekognition, de Cloud Vision et d'Azure AI Vision varient considérablement en fonction de l'augmentation des seuils d'intersection sur union (IoU) de 0,5 à 0,95. Amazon Rekognition maintient des performances plus élevées sur toute la plage d'évaluation, les trois services affichant la baisse de précision attendue à mesure que les critères de détection deviennent plus stricts.
Facteurs potentiels susceptibles d'affecter les différences de performance
Les différences observées dans les résultats des tests de performance d'Amazon Rekognition, de Cloud Vision et d'Azure AI Vision s'expliquent par plusieurs facteurs interdépendants liés à la conception du modèle, à l'orientation produit et à la méthodologie d'évaluation. Ces différences ne reflètent pas nécessairement la supériorité globale d'un modèle, mais plutôt la manière dont chaque service est optimisé et accessible via ses API par défaut.
Objectifs de la formation des modèles et étendue du produit
- Amazon Rekognition inclut des fonctionnalités dédiées aux EPI, ce qui devrait permettre une meilleure couverture de la formation et une représentation plus fidèle des caractéristiques d'objets tels que les casques et les gants.
- Google Cloud Vision et Azure AI Vision privilégient les tâches générales de compréhension d'images (par exemple, OCR, points de repère, marques, détection Web), rendant les EPI et les objets similaires secondaires dans leurs objectifs de formation.
- Ces différences correspondent au mAP plus élevé et aux performances plus stables d'Amazon Rekognition sur des seuils d'IoU plus stricts.
Configuration API par défaut et compromis précision-rappel
- Tous les services ont été évalués en utilisant les paramètres par défaut, qui privilégient généralement une précision élevée afin de minimiser les faux positifs.
- Ce choix de conception permet d'obtenir des scores de précision élevés chez tous les fournisseurs, mais un rappel nettement inférieur, en particulier pour les objets moins visibles.
- L'impact est plus visible dans les indicateurs sensibles au rappel tels que l'AP et le mAP.
limitations de la détection des petits objets
- Les objets tels que les gants, les chapeaux et les casques n'occupent souvent qu'une petite partie de l'image, ce qui les rend difficiles à détecter avec certitude.
- Le sous-échantillonnage et la variabilité d'échelle dans les réseaux neuronaux convolutifs réduisent la sensibilité aux détails fins.
- Azure AI Vision, dont les performances sont connues pour être inférieures sur les objets petits ou rapprochés, présente la dégradation la plus prononcée dans ces catégories.
Taxonomie des étiquettes et cartographie d'évaluation
- Les étiquettes spécifiques à chaque fournisseur ont dû être mises en correspondance avec une taxonomie de référence unifiée.
- Les détections valides utilisant des étiquettes non correspondantes ou plus granulaires ont pu être exclues de l'évaluation.
- Ce processus de cartographie peut affecter négativement le rappel et la précision moyenne sans pour autant indiquer un véritable échec de détection.
Absence de détection de masque
- Aucun des services évalués n'expose d'étiquettes d'objets liées aux masques dans ses API par défaut.
- En conséquence, tous les fournisseurs ont enregistré une précision de 0 % pour les masques, ce qui reflète une limitation structurelle de l'API plutôt qu'une faiblesse comparative.
Sensibilité et qualité de localisation de l'IoU
- Les différences de performances augmentent à des seuils d'IoU plus élevés, où un alignement plus strict des boîtes englobantes est requis.
- Amazon Rekognition maintient un mAP relativement plus élevé à ces seuils, ce qui suggère une précision de localisation plus forte.
Méthodologie
Nous avons testé les performances de ces fournisseurs, avec leurs solutions prêtes à l'emploi (c'est-à-dire sans étiquetage personnalisé), dans des cas concrets.
Nous avons utilisé 100 images. Nous les avons redimensionnées à 512×512 pixels tout en préservant les régions essentielles contenant les instances, car l'ensemble de données original comportait des dimensions variables.
Nous souhaitons reproduire ce test sans que les fournisseurs n'entraînent leurs solutions sur cet ensemble de données. Par conséquent, nous ne divulguons pas l'ensemble de données utilisé pour ce test de performance.
Nous avons traité les réponses des API des fournisseurs de services de la manière suivante :
- Les étiquettes des fournisseurs de services ont été mises en correspondance avec les catégories de référence définies dans le tableau ci-dessus. Les étiquettes de fournisseurs de services qui ne correspondaient pas à ces catégories de référence ont été exclues de l'évaluation.
- formats de boîtes englobantes normalisés provenant de différents fournisseurs
- IoU calculé entre les boîtes prédites et les boîtes de vérité terrain
- Les prédictions ont été comparées à la vérité terrain en fonction du seuil d'IoU.
- Métriques calculées : précision, rappel, F1 et AP par catégorie
- mAP de style COCO calculé en utilisant des seuils de 0,5 à 0,95
Un exemple de calcul de l'IoU, de la précision, du rappel et du score F1 est donné dans la figure ci-dessous :
Métriques de référence
Précision
La précision mesure l'exactitude des prédictions positives du modèle. En reconnaissance d'images, pour une classe donnée (par exemple, « personne »), elle répond à la question : « Parmi toutes les images que le modèle a identifiées comme contenant une personne, combien en contiennent réellement ? ». Ceci est crucial dans les situations où les faux positifs (images incorrectement identifiées comme positives) sont préjudiciables.
Rappel
Le rappel mesure l'exhaustivité des prédictions positives, en répondant à la question : « Parmi toutes les images qui contiennent effectivement la classe, combien le modèle a-t-il correctement identifiées ? » Ceci est vital lorsque le fait de manquer une instance positive (faux négatif) est critique.
Score F1
Le score F1 est la moyenne harmonique de la précision et du rappel, offrant une mesure équilibrée particulièrement utile en cas de répartition inégale des classes (par exemple, peu d'images de casques par rapport aux images sans casque). Il s'agit d'une métrique unique qui prend en compte à la fois les faux positifs et les faux négatifs.
carte
La mAP, ou précision moyenne, est une métrique principalement utilisée pour la détection d'objets en reconnaissance d'images. Elle évalue la précision du modèle pour différentes classes en calculant la moyenne des précisions moyennes (AP) de chaque classe. L'AP correspond à l'aire sous la courbe précision-rappel, obtenue en faisant varier le seuil de confiance des détections.
Cet outil interactif vous permet de comparer les résultats de détection de différents fournisseurs à l'aide d'images d'exemple issues du jeu de données. Utilisez les boutons du haut pour sélectionner Amazon, Google, Microsoft ou tous les fournisseurs. Cochez ou masquez les données de référence. Naviguez entre les images de test grâce aux boutons numérotés situés à gauche. Chaque détection est affichée dans un encadré de couleur, accompagné de son score de confiance.
Meilleures API de reconnaissance d'images
Reconnaissance Amazon
Amazon Rekognition offre des fonctionnalités avancées de reconnaissance d'images pour l'analyse d'images et de données visuelles, notamment la détection et la reconnaissance faciales. Il propose la classification d'images, la détection d'objets et l'étiquetage d'images pour l'analyse de contenu grâce à l'intelligence artificielle.
Amazon Rekognition s'intègre aux services AWS, notamment S3, Lambda et SageMaker, et prend en charge l'entraînement de modèles personnalisés pour développer vos propres modèles. Leurs offres sont classées en deux groupes de fonctionnalités : le groupe 1 et le groupe 2.
- Les fonctionnalités du groupe 1 sont axées sur la détection des visages (CompareFaces, IndexFaces, SearchFaces) pour la vérification d'identité et l'inspection visuelle des données faciales.
- Les fonctionnalités du groupe 2 offrent une analyse de contenu par le biais de la modération, de la reconnaissance de célébrités, de la détection de texte et de capacités de détection d'EPI pour les données d'image, avec un traitement d'image qui maintient la qualité de l'image.
Google Vision des nuages
Cloud Vision (référence Google) offre une solution de compréhension d'images grâce à des fonctionnalités avancées de reconnaissance d'images permettant d'analyser des images et d'extraire des données visuelles. Sa technologie OCR peut identifier et extraire du texte dans plusieurs langues, assurant ainsi une prise en charge multilingue pour des contenus variés.
Ce service est compatible avec les services de la plateforme Cloud tels que Cloud Storage, BigQuery et Workspace, et prend en charge plusieurs langages de programmation pour l'intégration. L'offre de Cloud Vision comprend :
- Ses principales fonctionnalités incluent la reconnaissance optique de caractères, le filtrage de contenu, la détection d'objets pour l'inspection visuelle, l'annotation d'images et la détection de points de repère, de logos et de célébrités.
- Parmi ses fonctionnalités supplémentaires, on trouve la détection Web pour trouver des images similaires en ligne, des modèles d'apprentissage automatique personnalisés pour des analyses spécialisées et la prise en charge d'une large gamme de formats de fichiers pour des visuels de qualité variable.
Microsoft Azure AI Vision
Azure AI Vision (référence 991259_1733) offre des fonctionnalités d'analyse d'images permettant d'analyser des images et d'en extraire des données visuelles. Il propose la reconnaissance optique de caractères (OCR) avec prise en charge multilingue pour le traitement de textes dans plusieurs langues.
Faisant partie d'Azure Cognitive Services, il s'intègre à Azure Storage, Azure Functions et Power Platform. Microsoft catégorise ses offres en fonctionnalités de groupe 1 et de groupe 2 :
- Les fonctionnalités du groupe 1 se concentrent sur la détection d'éléments visuels pour classifier les images, notamment les visages, les objets, les marques, les monuments et le recadrage d'images.
- Le groupe 2 propose des fonctions de description d'images, de lecture de texte et de génération de légendes qui fonctionnent dans plusieurs langues.
Microsoft propose également la suppression de l'arrière-plan (aperçu), un service gratuit distinct qui utilise un traitement d'image avancé pour supprimer automatiquement les arrière-plans des données visuelles.
Caractéristiques distinctives des prestataires de services
Aperçu des tarifs de l'API
Informatique de périphérie dans la reconnaissance d'images
La reconnaissance d'images traditionnelle repose sur des serveurs cloud. Vous capturez une image, la téléchargez sur AWS ou dans les centres de données de Google, attendez le traitement, puis recevez les résultats. L'informatique de périphérie exécute les modèles d'IA directement sur l'appareil qui capture l'image, éliminant ainsi l'aller-retour vers des serveurs distants.
Comment fonctionne l'informatique de périphérie
Le changement fondamental réside dans l'emplacement du « cerveau » de votre système de reconnaissance d'images. Dans les architectures cloud, les caméras intelligentes ne sont pour l'essentiel que des collecteurs de données. Elles capturent des images et les transmettent à un système en amont pour analyse. L'intelligence est hébergée dans des centres de données distants.
L'informatique de périphérie inverse ce modèle. La caméra elle-même devient intelligente, équipée de processeurs capables d'exécuter des réseaux neuronaux localement. Au lieu de diffuser un flux vidéo brut, ces appareils analysent ce qu'ils voient sur place et ne communiquent que les informations pertinentes : une alerte signalant la présence d'une personne, une notification de stock faible ou un signalement de défaut produit.
Il ne s'agit pas simplement de vitesse. Il s'agit d'une refonte fondamentale de l'architecture du système, passant de « tout capturer, analyser plus tard » à « analyser immédiatement, rapporter ce qui compte ».
Pourquoi c'est important pour la reconnaissance d'images
Rapidité : L’IA en périphérie traite les données là où elles sont générées, permettant une prise de décision instantanée. Les véhicules autonomes et les robots industriels ne peuvent se permettre d’attendre des allers-retours dans le cloud. Ils ont besoin de résultats suffisamment rapides pour agir immédiatement.
Confidentialité : Le traitement local des données sensibles évite leur stockage sur des serveurs distants. Les radiographies hospitalières restent à l’hôpital, les images de vidéosurveillance en magasin restent dans le point de vente. Ceci est essentiel pour la conformité au RGPD et aux réglementations relatives à la protection des données.
Gain de rentabilité : l’informatique de périphérie élimine l’envoi d’images complètes vers des serveurs centraux. Seules les informations essentielles sont transmises. Au lieu de diffuser des heures de vidéo vers le cloud, les appareils n’envoient que les alertes ou métadonnées pertinentes.
Fiabilité : Les systèmes restent opérationnels même en cas de panne de réseau. Les périphériques fonctionnent de manière autonome, garantissant un fonctionnement continu indépendamment de la connexion Internet. Ceci est essentiel pour les systèmes de sécurité et les applications industrielles.
Transformateurs de vision dans la reconnaissance d'images
La reconnaissance d'images nécessite la compréhension du contexte, c'est-à-dire la capacité à identifier les relations entre les éléments distants d'une image. Les modèles traditionnels traitent les images pixel par pixel, en analysant de petites zones et en construisant progressivement leur compréhension par couches successives. Les Vision Transformers divisent les images en patchs de taille fixe (par exemple, des blocs de 16×16 pixels) et analysent tous les patchs simultanément afin de capturer le contexte global dès la première couche de traitement.
Ce changement est crucial pour la précision. Au lieu de traiter chaque pixel individuellement, ViT examine simultanément les relations entre toutes les zones de l'image. En imagerie médicale, ViT met en corrélation des variations subtiles dans une zone tissulaire avec des anomalies situées dans des régions éloignées, identifiant ainsi des schémas qui pourraient paraître bénins pris isolément.
Les outils de reconnaissance d'images dans le cloud que nous avons évalués reposent encore principalement sur des modèles basés sur les réseaux de neurones convolutifs (CNN) pour le déploiement en production. Ces architectures éprouvées offrent une détection et une classification d'objets fiables dans la plupart des cas d'utilisation. Cependant, à mesure que les modèles de vision évoluent, des approches hybrides combinant l'efficacité traditionnelle et une compréhension globale basée sur les Transformers émergent pour les tâches nécessitant un contexte d'image complet.
Modèles de transformateurs de vision pour la reconnaissance d'images
Vision Transformer (ViT) : Modèle Vision Transformer original entraîné sur ImageNet pour la classification d’images. Disponible via Hugging Face avec des versions pré-entraînées prêtes à être déployées ou optimisées.
Transformateur Swin : Utilise un traitement hiérarchique et un mécanisme de fenêtre décalée pour comprendre à la fois le contexte global de l’image et les détails locaux. Performant pour la détection d’objets et la segmentation d’images.
DINOv2 (Meta AI) : Modèle auto-supervisé qui apprend à partir d’images non étiquetées sans nécessiter d’annotations humaines. Il produit des représentations d’images utilisables pour différentes tâches de reconnaissance.
Modèle Segment Anything (SAM) : Utilise ViT pour identifier et séparer les objets dans les images. Peut reconnaître et segmenter des objets sur lesquels il n’a pas été spécifiquement entraîné.
Cas d'utilisation des logiciels de reconnaissance d'images
Dans le paysage numérique actuel, les technologies de vision par ordinateur et de traitement d'images ont transformé la manière dont les entreprises exploitent les données visuelles. Les algorithmes avancés de classification d'images permettent le développement d'outils sophistiqués de reconnaissance d'images qui remodèlent les opérations dans tous les secteurs d'activité.
Ces technologies de reconnaissance d'images associent des méthodes d'apprentissage de modèles performantes à des interfaces intuitives, permettant ainsi aux utilisateurs d'automatiser des tâches visuelles complexes. Des solutions de vision sur mesure pour des besoins spécifiques aux entreprises aux systèmes de reconnaissance faciale pour la sécurité, ces outils peuvent identifier des motifs, des objets et des caractéristiques dans les images.
Inspection visuelle
La reconnaissance d'images permet l'inspection visuelle automatisée dans de nombreux secteurs d'activité. Ces systèmes identifient les objets, détectent leurs caractéristiques et vérifient leur compatibilité en analysant les données visuelles.
Par exemple, Chamberlain Group a intégré Amazon Rekognition à son application myQ, permettant ainsi aux utilisateurs de prendre automatiquement en photo leur ouvre-porte de garage afin d'en vérifier la compatibilité. Cette solution simplifiée a remplacé un processus manuel complexe et a considérablement augmenté le nombre de connexions utilisateur. 2
Traitement des documents
La technologie OCR extrait le texte des images et des documents, automatisant la saisie de données dans plusieurs langues. Les systèmes modernes peuvent traiter le texte manuscrit et les mises en page complexes, transformant les flux de travail papier et rendant les documents consultables.
Par exemple, le groupe d'assurance français LSA Courtage utilise l'API Cloud Vision (référence Google) pour la reconnaissance optique de caractères (OCR) sur les permis de conduire et les cartes grises. Cette solution a permis de réduire le temps de traitement des documents de 45 % par page et d'accroître la productivité des analystes de 20 %, leur permettant ainsi de traiter 1 500 documents par jour. 3
Vous pouvez consulter notre comparatif OCR pour voir la précision des différents outils OCR pour différents types de documents.
surveillance agricole
Les agriculteurs utilisent l'imagerie par drone et la reconnaissance d'images pour surveiller la santé des cultures, détecter les maladies et optimiser l'irrigation. En identifiant les zones de stress hydrique avant l'apparition des symptômes visibles, ils peuvent intervenir précocement et réduire la consommation de ressources.
Par exemple, le projet FarmBeats (désormais Azure Data Manager for Agriculture) de Microsoft utilise des capteurs, des drones et l'apprentissage automatique pour permettre une agriculture basée sur les données dans des environnements où l'alimentation électrique et la connectivité Internet sont limitées. Ce système contribue à accroître la productivité agricole et à réduire les coûts en combinant les données visuelles aux connaissances des agriculteurs sur leurs terres. 4
Sécurité et surveillance
Les systèmes de sécurité utilisent la reconnaissance faciale et la détection d'objets pour identifier les activités, contrôler les accès et localiser les personnes. Ces systèmes surveillent les flux vidéo et alertent le personnel en cas de menace. Par exemple, Sun Finance utilise Amazon Rekognition pour vérifier l'identité de ses clients en comparant leurs selfies à leurs pièces d'identité, ce qui accélère la vérification, prévient la fraude et favorise l'inclusion financière. 5
Modération du contenu
Les plateformes de médias sociaux utilisent la reconnaissance et la légende d'images pour filtrer les contenus inappropriés. Ces systèmes identifient rapidement les images problématiques, génèrent automatiquement des légendes descriptives pour l'analyse du contenu et permettent de modérer à grande échelle les contenus générés par les utilisateurs.
Par exemple, CoStar Group utilise Amazon Rekognition pour la modération de contenu et l'analyse vidéo d'environ 150 000 images et vidéos téléchargées quotidiennement sur sa plateforme immobilière commerciale. Cette solution de modération de contenu analyse les images, classe le contenu, détecte les éléments indésirables et exploite la technologie de légende automatique pour comprendre le contexte, ce qui permet un gain de temps considérable tout en garantissant la conformité et la qualité des données. 6
Vous pouvez en savoir plus sur les applications de la reconnaissance d'images .
Limites de la technologie de reconnaissance d'images
Réduction des détails dans les petits objets
Lorsque des objets apparaissent petits sur une image, ils contiennent moins de pixels, ce qui limite les données visuelles. De plus, les réseaux de neurones convolutifs (CNN) ont tendance à perdre des détails fins importants lors du traitement par sous-échantillonnage, ce qui réduit considérablement leurs capacités de détection.
Détections manquées
Les systèmes de reconnaissance d'images privilégient généralement les objets de grande taille lors des phases d'apprentissage et d'analyse, ce qui entraîne une fréquence plus élevée de petits objets non détectés ou de faux négatifs.
Interférence de fond
Les petits objets sont plus susceptibles d'être masqués par le bruit visuel, les éléments encombrants de l'arrière-plan ou la superposition d'éléments, ce qui rend leur identification précise plus difficile. Même une occlusion partielle peut affecter de manière disproportionnée les petits objets, car leur surface discernable est déjà réduite.
variabilité d'échelle
Les objets apparaissant à des distances ou à des échelles différentes posent des difficultés aux modèles qui ne sont pas spécifiquement conçus pour détecter les détails fins sur des objets de tailles variables.
exigences de calcul
Les techniques visant à améliorer la détection de petits objets, telles que l'extraction de caractéristiques multi-échelles ou les entrées à plus haute résolution, nécessitent une puissance de traitement plus importante, ce qui limite leur applicabilité en temps réel.
biais d'entraînement
Les ensembles de données sous-représentent souvent les petits objets ou ne comportent pas suffisamment d'annotations à leur sujet, ce qui limite la généralisation du modèle à de tels cas dans des scénarios réels.
FAQ
Les logiciels de reconnaissance d'images sont une technologie de vision par ordinateur qui utilise des algorithmes d'apprentissage automatique pour analyser des données non structurées telles que des images numériques et des données vidéo. Ils vont au-delà de la simple identification d'objets spécifiques ; les systèmes avancés visent la compréhension de la scène, en interprétant le contexte et les relations au sein d'une image afin de fournir une analyse plus complète. Cela permet aux ordinateurs de percevoir et de classifier efficacement les informations visuelles.
Aucun logiciel de reconnaissance d'images ou de vision par ordinateur n'est universellement supérieur. Le choix idéal parmi les technologies de reconnaissance d'images dépend de vos besoins spécifiques. Prenez en compte des facteurs tels que la précision requise, le type de tâches à effectuer (détection d'objets, reconnaissance optique de caractères, etc., et éventuellement l'intégration avec le traitement automatique du langage naturel pour les tâches combinant compréhension d'images et analyse de texte), la facilité d'utilisation, l'évolutivité, le budget, les options de personnalisation et l'expertise technique de votre équipe. Tester différentes solutions est la meilleure façon de trouver les technologies de reconnaissance d'images qui offrent les capacités de vision par ordinateur les plus adaptées à votre application.
Bien que la reconnaissance d'images ait considérablement progressé, sa précision n'est pas garantie. Les performances dépendent de plusieurs facteurs, notamment la qualité de l'image (éclairage, résolution), la complexité de la scène, les variations d'apparence des objets et la qualité des données d'entraînement utilisées par les algorithmes d'apprentissage profond. Comprendre la scène et détecter avec précision des objets spécifiques peut s'avérer complexe dans des données visuelles complexes ou bruitées.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.