Evaluamos el rendimiento en entornos reales de las principales herramientas de reconocimiento de imágenes en la nube para tareas de detección de objetos, comparando sus configuraciones API predeterminadas en 5 clases con 100 imágenes. Esto incluyó la comparación de rendimientos, el análisis de características y la comparación de las ofertas de servicios en relación con los precios.
Resultados de referencia
Resumen del rendimiento con IoU=0,5
Se evaluaron las métricas de rendimiento de tres plataformas de reconocimiento de imágenes con un umbral de Intersección sobre Unión (IoU) de 0,5, comparando los valores de mAP, puntuación F1, exhaustividad y precisión. Si bien todas las plataformas alcanzaron tasas de precisión superiores al 89 %, esta metodología de evaluación reveló diferencias notables en su rendimiento de exhaustividad y otras métricas de evaluación.
La mAP (precisión media promedio) es la métrica de evaluación principal que se debe considerar para las tareas de detección de objetos, ya que proporciona una medida integral de la calidad de la detección en diferentes umbrales de confianza y clases de objetos.
Puedes leer más sobre las métricas .
Precisión media por clase (AP) con IoU=0,5
Amazon Rekognition, Cloud Vision (Google) y Azure AI Vision (Microsoft) demuestran buenas capacidades de detección de personas, pero presentan dificultades para identificar equipos de protección. La precisión disminuye significativamente en el caso de los cascos en todas las plataformas.
Si bien Amazon y Azure AI Vision (Google) muestran baja precisión en la detección de guantes y sombreros, Azure AI Vision (Microsoft) alcanza una precisión del 0 % en ambas categorías. Es importante destacar que Azure AI Vision no detecta objetos pequeños (que ocupan menos del 5 % de la imagen) ni objetos muy juntos, lo que podría contribuir a la baja precisión observada en la detección de guantes y sombreros. 1
Ninguno de los servicios logra detectar correctamente las máscaras (0 % de precisión), lo que pone de manifiesto una importante deficiencia en sus capacidades de reconocimiento de objetos cuando se utilizan con la configuración predeterminada sin etiquetado personalizado.
Puedes leer más sobre las limitaciones del reconocimiento de imágenes .
mAP en diferentes umbrales de IoU [0,5:0,05:0,95]
El rendimiento de precisión media promedio (mAP) de Amazon Rekognition, Cloud Vision (Google) y Azure AI Vision (Microsoft) varía significativamente al aumentar los umbrales de intersección sobre unión (IoU) de 0,5 a 0,95. Amazon Rekognition mantiene un rendimiento superior en todo el rango de evaluación, y los tres servicios muestran una disminución esperada de la precisión a medida que los criterios de detección se vuelven más estrictos.
Factores potenciales que podrían afectar las diferencias de rendimiento
Las diferencias en los resultados de las pruebas comparativas entre Amazon Rekognition, Cloud Vision (Google) y Azure AI Vision (Microsoft) pueden explicarse por varios factores interrelacionados relacionados con el diseño del modelo, el enfoque del producto y la metodología de evaluación. Estas diferencias no reflejan necesariamente la superioridad general del modelo, sino más bien cómo se optimiza cada servicio y cómo se expone a través de las API predeterminadas.
Enfoque de la formación del modelo y alcance del producto
- Amazon Rekognition incluye funciones específicas relacionadas con los EPI (equipos de protección individual), lo que probablemente se traduzca en una mejor cobertura de la formación y en una representación más precisa de las características de objetos como cascos y guantes.
- Google Cloud Vision y Azure AI Vision priorizan las tareas generales de comprensión de imágenes (por ejemplo, OCR, puntos de referencia, marcas, detección web), haciendo que los EPI y objetos similares sean secundarios en sus objetivos de entrenamiento.
- Estas diferencias coinciden con el mayor mAP y el rendimiento más estable de Amazon Rekognition en umbrales de IoU más estrictos.
Configuración predeterminada de la API y compensaciones entre precisión y exhaustividad.
- Todos los servicios se evaluaron utilizando la configuración predeterminada, que normalmente prioriza la alta precisión para minimizar los falsos positivos.
- Esta elección de diseño da como resultado puntuaciones de precisión elevadas entre los proveedores, pero una exhaustividad significativamente menor, especialmente para los objetos menos prominentes.
- El impacto es más visible en métricas sensibles a la recuperación, como AP y mAP.
Limitaciones en la detección de objetos pequeños
- Objetos como guantes, sombreros y cascos suelen ocupar una pequeña parte de la imagen, lo que dificulta su detección fiable.
- El submuestreo y la variabilidad de escala en las redes neuronales convolucionales reducen la sensibilidad a los detalles finos.
- Azure AI Vision, que según la documentación presenta un rendimiento inferior con objetos pequeños o muy próximos entre sí, muestra la degradación más pronunciada en estas categorías.
Taxonomía de etiquetas y mapeo de evaluación
- Las etiquetas específicas de cada proveedor debían asignarse a una taxonomía unificada de referencia.
- Es posible que se hayan excluido de la evaluación las detecciones válidas que utilizan etiquetas no coincidentes o más específicas.
- Este proceso de mapeo puede afectar negativamente la exhaustividad y la precisión promedio sin indicar un verdadero fallo de detección.
Ausencia de detección de mascarillas
- Ninguno de los servicios evaluados expone etiquetas de objetos relacionadas con máscaras en sus API predeterminadas.
- Como resultado, todos los proveedores registraron una precisión del 0 % para las mascarillas, lo que refleja una limitación estructural de la API en lugar de una debilidad comparativa.
Sensibilidad de IoU y calidad de localización
- Las diferencias de rendimiento aumentan en umbrales de IoU más altos, donde se requiere una alineación más estricta del cuadro delimitador.
- Amazon Rekognition mantiene un mAP relativamente más alto en estos umbrales, lo que sugiere una mayor precisión de localización.
Metodología
Probamos el rendimiento de estos proveedores tal como vienen de fábrica (es decir, sin etiquetado personalizado) en casos reales.
Utilizamos 100 imágenes. Escalamos las imágenes a 512×512 píxeles, conservando las regiones esenciales que contenían instancias, ya que el conjunto de datos original tenía dimensiones variables.
Queremos repetir esta prueba sin que los proveedores entrenen sus soluciones con el conjunto de datos. Por lo tanto, no revelaremos el conjunto de datos que utilizamos para esta evaluación comparativa.
Procesamos las respuestas de las API de los proveedores de servicios de la siguiente manera:
- Se asignaron las etiquetas de los proveedores de servicios a las categorías de referencia definidas en la tabla anterior. Las etiquetas de los proveedores de servicios que no coincidían con estas etiquetas de referencia se excluyeron de la evaluación.
- formatos de cuadro delimitador normalizados de diferentes proveedores
- IoU calculado entre las cajas predichas y las de verdad fundamental
- Predicciones coincidentes con la verdad fundamental basadas en el umbral de IoU
- Métricas calculadas: precisión, exhaustividad, F1 y AP por categoría
- mAP calculado al estilo COCO utilizando umbrales de 0,5 a 0,95.
En la siguiente figura se muestra un ejemplo de cálculo de IoU, precisión, exhaustividad y F1:
Métricas de evaluación comparativa
Precisión
La precisión mide la exactitud de las predicciones positivas del modelo. En el reconocimiento de imágenes, para una clase determinada (por ejemplo, "persona"), responde a la pregunta: "¿Cuántas de las imágenes que el modelo etiquetó como que contienen una persona realmente la contienen?". Esto es crucial en escenarios donde los falsos positivos (etiquetar incorrectamente una imagen como positiva) resultan costosos.
Recordar
La función Recall mide la exhaustividad de las predicciones positivas y responde a la pregunta: "¿De todas las imágenes que contienen la clase, cuántas identificó correctamente el modelo?". Esto es fundamental cuando es crítico no detectar una instancia positiva (falso negativo).
Puntuación de F1
La puntuación F1 es la media armónica de la precisión y la exhaustividad, lo que proporciona una medida equilibrada especialmente útil cuando existe una distribución desigual de clases (por ejemplo, pocas imágenes de cascos en comparación con las que no lo son). Es una métrica única que captura tanto los falsos positivos como los falsos negativos.
mapa
mAP, o precisión media promedio, es una métrica que se utiliza principalmente en tareas de detección de objetos dentro del reconocimiento de imágenes. Evalúa la precisión del modelo en diferentes clases promediando la precisión promedio (AP) de cada clase. La AP es el área bajo la curva de precisión-exhaustividad, que se genera al variar el umbral de confianza para las detecciones.
Esta herramienta interactiva te permite comparar los resultados de detección entre proveedores utilizando imágenes de ejemplo del conjunto de datos. Usa los botones superiores para seleccionar Amazon, Google, Microsoft o todos los proveedores. Activa o desactiva la verdad fundamental con la casilla de verificación. Navega entre las imágenes de prueba usando los botones numerados de la izquierda. Los recuadros codificados por colores muestran cada detección con su puntuación de confianza.
Las mejores API de reconocimiento de imágenes
Reconocimiento de Amazon
Amazon Rekognition ofrece capacidades avanzadas de reconocimiento de imágenes para analizar imágenes y datos visuales con funciones de detección y reconocimiento facial. Proporciona clasificación de imágenes, detección de objetos y etiquetado de imágenes para el análisis de contenido mediante inteligencia artificial.
Amazon Rekognition se integra con los servicios de AWS, incluidos S3, Lambda y SageMaker, lo que permite el entrenamiento de modelos personalizados para desarrollar sus propios modelos personalizados. Clasifican sus ofertas en características del Grupo 1 y del Grupo 2:
- Las funciones del Grupo 1 se centran en la detección de rostros (CompareFaces, IndexFaces, SearchFaces) para la verificación de identidad y la inspección visual de datos faciales.
- Las funciones del Grupo 2 proporcionan análisis de contenido mediante moderación, reconocimiento de celebridades, detección de texto y capacidades de detección de EPI para datos de imagen, con un procesamiento de imagen que mantiene la calidad de la imagen.
Google Visión en la nube
Google Cloud Vision ofrece comprensión de imágenes con capacidades avanzadas de reconocimiento de imágenes para analizar imágenes y extraer datos visuales. Su tecnología OCR puede identificar y extraer texto en varios idiomas, lo que permite la compatibilidad con diversos idiomas para contenido diverso.
El servicio funciona con servicios de la plataforma en la nube como Cloud Storage, BigQuery y Workspace, y admite múltiples lenguajes de programación para su integración. Las ofertas de Cloud Vision incluyen:
- Entre sus características principales se incluyen el reconocimiento óptico de caracteres, el filtrado de contenido, la detección de objetos para inspección visual, la anotación de imágenes y la detección de puntos de referencia, logotipos y celebridades.
- Entre las capacidades adicionales se incluyen la detección web para encontrar imágenes relacionadas en línea, modelos de aprendizaje automático personalizados para análisis especializados y compatibilidad con una amplia gama de tipos de archivo para imágenes de diversa calidad.
Microsoft Azure AI Vision
Azure AI Vision proporciona capacidades de análisis de imágenes para analizar imágenes y extraer datos visuales. Ofrece reconocimiento óptico de caracteres (OCR) con soporte multilingüe para procesar texto en varios idiomas.
Como parte de Azure Cognitive Services, se integra con Azure Storage, Azure Functions y Power Platform. Microsoft clasifica sus ofertas en características del Grupo 1 y del Grupo 2:
- Las funciones del Grupo 1 se centran en la detección de elementos visuales para clasificar imágenes, incluyendo rostros, objetos, marcas, puntos de referencia y recorte de imágenes.
- El Grupo 2 ofrece funciones de descripción de imágenes, lectura de texto y generación de subtítulos que funcionan en varios idiomas.
Microsoft también ofrece Eliminación de fondo (vista previa), un servicio gratuito independiente que utiliza procesamiento avanzado de imágenes para eliminar automáticamente los fondos de las imágenes de los datos visuales.
Características distintivas de los proveedores de servicios
Descripción general de los precios de la API
Computación de borde en el reconocimiento de imágenes
El reconocimiento de imágenes tradicional se basa en servidores en la nube. Se captura una imagen, se sube a los centros de datos de AWS o de Google, se espera a que se procese y se reciben los resultados. La computación perimetral ejecuta modelos de IA directamente en el dispositivo que captura la imagen, eliminando el envío de datos a servidores remotos.
Cómo funciona la computación perimetral
El cambio fundamental radica en dónde reside el "cerebro" del sistema de reconocimiento de imágenes. En las arquitecturas en la nube, las cámaras inteligentes son básicamente recolectoras de datos. Capturan fotogramas y envían toda la información para su análisis. La inteligencia reside en centros de datos remotos.
La computación perimetral invierte este modelo. La cámara se vuelve inteligente, equipada con procesadores capaces de ejecutar redes neuronales localmente. En lugar de transmitir vídeo sin procesar, estos dispositivos analizan lo que ven in situ y solo comunican información relevante: una alerta de que se ha detectado una persona, una notificación de que el inventario es bajo o una señal de que se ha encontrado un defecto en un producto.
No se trata simplemente de velocidad. Es una revisión fundamental de la arquitectura del sistema, pasando de "capturar todo y analizarlo después" a "analizar inmediatamente e informar sobre lo importante".
Por qué es importante para el reconocimiento de imágenes
Velocidad: La IA de borde procesa los datos donde se generan, lo que permite tomar decisiones en fracciones de segundo. Los vehículos autónomos y los robots de fabricación no pueden permitirse el lujo de esperar a que se completen los viajes de ida y vuelta a la nube. Necesitan resultados lo suficientemente rápidos como para actuar de inmediato.
Privacidad: El procesamiento local de datos confidenciales evita la necesidad de servidores remotos. Las radiografías hospitalarias se quedan en el hospital y las grabaciones de las tiendas, en el establecimiento. Esto es fundamental para el cumplimiento del RGPD y la normativa de privacidad.
Eficiencia de costos: La computación perimetral elimina la necesidad de enviar imágenes completas a servidores centrales. Solo se transmite la información esencial. En lugar de transmitir horas de video a la nube, los dispositivos envían únicamente alertas o metadatos relevantes.
Fiabilidad: Los sistemas siguen funcionando incluso cuando falla la red. Los dispositivos periféricos operan de forma independiente, lo que garantiza un funcionamiento continuo independientemente de la conectividad a internet. Esto es fundamental para los sistemas de seguridad y las aplicaciones industriales.
Transformadores de visión en el reconocimiento de imágenes
El reconocimiento de imágenes requiere comprender el contexto, reconociendo cómo se relacionan entre sí los elementos distantes de una imagen. Los modelos tradicionales procesan las imágenes píxel a píxel, escaneando pequeños vecindarios y construyendo gradualmente la comprensión a través de capas. Los Vision Transformers dividen las imágenes en parches de tamaño fijo (como bloques de 16 × 16 píxeles) y analizan todos los parches simultáneamente para capturar el contexto global desde la primera capa de procesamiento.
Este cambio es crucial para la precisión. En lugar de procesar píxeles individuales de forma aislada, ViT examina cómo se relacionan todos los fragmentos de la imagen entre sí simultáneamente. En imágenes médicas, ViT correlaciona cambios sutiles en un área de tejido con anomalías en partes distantes, identificando patrones que podrían parecer benignos si se observan de forma aislada.
Las herramientas de reconocimiento de imágenes en la nube que hemos evaluado siguen basándose principalmente en modelos CNN para su implementación en producción. Estas arquitecturas probadas ofrecen detección y clasificación de objetos fiables en la mayoría de los casos de uso. Sin embargo, a medida que evolucionan los modelos de visión , están surgiendo enfoques híbridos que combinan la eficiencia tradicional con la comprensión global basada en Transformer para tareas que requieren un contexto de imagen completo.
Modelos transformadores de visión para el reconocimiento de imágenes
Google Vision Transformer (ViT) : El modelo original Vision Transformer entrenado en ImageNet para la clasificación de imágenes. Disponible a través de Hugging Face con versiones preentrenadas listas para su implementación o ajuste fino.
Swin Transformer : Utiliza procesamiento jerárquico y un mecanismo de ventana desplazada para comprender tanto el contexto global de la imagen como los detalles locales. Funciona bien para tareas de detección de objetos y segmentación de imágenes.
DINOv2 (Meta AI) : Modelo auto-supervisado que aprende de imágenes sin etiquetar sin necesidad de anotaciones humanas. Produce representaciones de imágenes que funcionan en diferentes tareas de reconocimiento.
Modelo de Segmentación de Objetos (SAM) : Utiliza ViT para identificar y separar objetos en imágenes. Puede reconocer y segmentar objetos para los que no ha sido entrenado específicamente.
Casos de uso del software de reconocimiento de imágenes
En el panorama digital actual, las tecnologías de visión artificial y procesamiento de imágenes han transformado la forma en que las empresas aprovechan los datos visuales. Los algoritmos avanzados de clasificación de imágenes permiten el desarrollo de sofisticadas herramientas de reconocimiento de imágenes que están redefiniendo las operaciones en todos los sectores.
Estas tecnologías de reconocimiento de imágenes combinan potentes métodos de entrenamiento de modelos con interfaces intuitivas que permiten a los usuarios automatizar tareas visuales complejas. Desde soluciones de visión personalizadas para necesidades empresariales específicas hasta sistemas de reconocimiento facial para seguridad, estas herramientas pueden identificar patrones, objetos y características en las imágenes.
Inspección visual
El reconocimiento de imágenes permite la inspección visual automatizada en múltiples industrias. Estos sistemas identifican objetos, detectan características y verifican la compatibilidad mediante el análisis de datos visuales.
Por ejemplo, Chamberlain Group implementó Amazon Rekognition en su aplicación myQ, lo que permite a los usuarios capturar automáticamente imágenes de su abrepuertas de garaje para comprobar la compatibilidad. Esta solución optimizada sustituyó un complejo proceso manual y aumentó significativamente las tasas de conexión de los usuarios. 2
Procesamiento de documentos
La tecnología OCR extrae texto de imágenes y documentos, automatizando la introducción de datos en varios idiomas. Los sistemas modernos pueden procesar texto manuscrito y diseños complejos, transformando los flujos de trabajo basados en papel y permitiendo la búsqueda de documentos.
Por ejemplo, el grupo asegurador francés LSA Courtage utiliza la API Cloud Vision (Google) para reconocer texto en permisos de conducir y documentos de matriculación. Esta implementación de OCR redujo el tiempo de procesamiento de documentos en un 45 % por página y aumentó la productividad de los suscriptores en un 20 %, lo que les permite procesar 1500 documentos al día. 3
Puedes consultar nuestra comparativa de OCR para comprobar la precisión de las distintas herramientas de OCR para diferentes tipos de documentos.
Monitoreo agrícola
Los agricultores utilizan imágenes de drones con reconocimiento de imágenes para monitorear la salud de los cultivos, detectar enfermedades y optimizar el riego. Al identificar áreas de estrés en los cultivos antes de que aparezcan síntomas visibles, los agricultores pueden intervenir a tiempo y reducir el consumo de recursos.
Por ejemplo, el proyecto FarmBeats de Microsoft (ahora Azure Data Manager for Agriculture) utiliza sensores, drones y aprendizaje automático para facilitar la agricultura basada en datos en entornos con energía y conectividad a internet limitadas. El sistema ayuda a aumentar la productividad agrícola y reducir los costos al combinar datos visuales con el conocimiento que los agricultores tienen de sus tierras. 4
Seguridad y vigilancia
Los sistemas de seguridad utilizan el reconocimiento facial y la detección de objetos para identificar actividades, controlar el acceso y localizar personas. Estos sistemas monitorizan las grabaciones de vídeo y alertan al personal sobre posibles amenazas. Por ejemplo, Sun Finance utiliza Amazon Rekognition para verificar la identidad de sus clientes comparando selfies con documentos de identidad, lo que agiliza la verificación, previene el fraude y fomenta la inclusión financiera. 5
moderación de contenido
Las plataformas de redes sociales utilizan el reconocimiento de imágenes y la generación de subtítulos para filtrar contenido inapropiado. Estos sistemas identifican rápidamente las imágenes problemáticas, generan automáticamente subtítulos descriptivos para el análisis de contenido y permiten moderar el contenido generado por los usuarios a gran escala.
Por ejemplo, CoStar Group utiliza Amazon Rekognition para la moderación de contenido y el análisis de vídeo de aproximadamente 150 000 imágenes y vídeos que se suben diariamente a su plataforma inmobiliaria comercial. Esta solución de moderación de contenido escanea las imágenes, clasifica el contenido, detecta material no deseado y aprovecha la tecnología de subtitulado de imágenes para comprender el contexto, lo que ahorra tiempo y garantiza el cumplimiento normativo y la alta calidad de los datos. 6
Puedes leer más sobre las aplicaciones del reconocimiento de imágenes .
Limitaciones de la tecnología de reconocimiento de imágenes
Reducción de detalles en objetos pequeños
Cuando los objetos aparecen pequeños en las imágenes, contienen menos píxeles, lo que limita la información visual. Además, las redes neuronales convolucionales (CNN) tienden a perder detalles finos importantes durante el procesamiento mediante capas de submuestreo, lo que dificulta considerablemente la capacidad de detección.
Detecciones no detectadas
Los sistemas de reconocimiento de imágenes suelen favorecer los objetos de mayor tamaño tanto en la fase de entrenamiento como en la de análisis, lo que da lugar a una mayor frecuencia de objetos pequeños que no se detectan o a falsos negativos.
interferencia de fondo
Los objetos pequeños son más vulnerables a quedar ocultos por el ruido visual, el desorden del fondo o los elementos superpuestos, lo que dificulta su identificación precisa. Incluso una oclusión parcial puede afectar desproporcionadamente a los objetos pequeños, ya que estos tienen un área distinguible menor.
Variabilidad de escala
Los objetos que aparecen a diferentes distancias o escalas plantean dificultades para los modelos que no están diseñados específicamente para detectar detalles finos en objetos de diferentes tamaños.
Requisitos computacionales
Las técnicas para mejorar la detección de objetos pequeños, como la extracción de características a múltiples escalas o las entradas de mayor resolución, requieren mayor potencia de procesamiento, lo que limita su aplicabilidad en tiempo real.
sesgo de formación
Los conjuntos de datos a menudo no representan adecuadamente los objetos pequeños o carecen de anotaciones suficientes para ellos, lo que reduce la generalización del modelo a estos casos en escenarios del mundo real.
Preguntas frecuentes
El software de reconocimiento de imágenes es un tipo de tecnología de visión artificial que utiliza algoritmos de aprendizaje automático para analizar datos no estructurados, como imágenes digitales y vídeos. Va más allá de la simple identificación de objetos específicos; los sistemas avanzados buscan comprender la escena, interpretando el contexto y las relaciones dentro de una imagen para proporcionar un análisis más completo. Esto permite a las computadoras ver y clasificar información visual de manera eficaz.
No existe un software de reconocimiento de imágenes o de visión artificial que sea universalmente el mejor. La elección ideal entre las tecnologías de reconocimiento de imágenes depende de sus necesidades específicas. Considere factores como la precisión requerida, el tipo de tareas que necesita realizar (como detección de objetos u OCR, e incluso si necesita integrarse con el procesamiento del lenguaje natural para tareas que combinan la comprensión de imágenes con el análisis de texto), la facilidad de uso, la escalabilidad, el presupuesto, las opciones de personalización y la experiencia técnica de su equipo. Probar diferentes opciones es la mejor manera de encontrar las tecnologías de reconocimiento de imágenes que mejor le brinden las capacidades de visión artificial que necesita para su aplicación.
Aunque el reconocimiento de imágenes ha mejorado significativamente, la precisión no está garantizada. Entre los factores que influyen en el rendimiento se incluyen la calidad de la imagen (iluminación, resolución), la complejidad de la escena, las variaciones en la apariencia de los objetos y la calidad de los datos de entrenamiento utilizados para los algoritmos de aprendizaje profundo. Lograr una comprensión sólida de la escena y detectar con precisión objetos específicos puede resultar complicado con datos visuales complejos o ruidosos.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.