Comparación de los modelos de lenguaje visual con el reconocimiento de imágenes.

con

actualizado el Feb 27, 2026

¿Pueden los modelos avanzados de lenguaje de visión (VLM) reemplazar a los modelos tradicionales de reconocimiento de imágenes? Para averiguarlo, comparamos 16 modelos líderes en tres paradigmas: CNN tradicionales (ResNet, EfficientNet), VLM (como GPT-4.1, Gemini 2.5) y API en la nube (AWS, Google, Azure).

La precisión media promedio (mAP, por sus siglas en inglés) sirvió como nuestra métrica de precisión principal, complementada con el análisis de latencia, costo y rendimiento específico de cada clase.

Aquí puede consultar la metodología de evaluación comparativa.

Comparativa de precisión frente a latencia

En nuestra evaluación comparativa, analizamos los modelos según cuatro dimensiones: latencia, precisión media promedio (mAP), precio y tasa de éxito. La latencia mide el tiempo que tarda un modelo en procesar una sola imagen, mientras que la mAP refleja la precisión general de la clasificación. La tasa de éxito indica si un modelo devolvió una salida JSON válida, lo cual es especialmente relevante para los modelos de lenguaje visual, que interpretan imágenes en lenguaje natural en lugar de datos estructurados.

Loading Chart

Los modelos tradicionales de reconocimiento de imágenes , como EfficientNet, ResNet18, ResNet50, ResNet101 y DenseNet121, muestran consistentemente una baja latencia (0,03–0,2 segundos) y una precisión competitiva (mAP 0,75–0,81). Entre ellos, DenseNet121 y ResNet18 alcanzan las puntuaciones mAP más altas (0,81 y 0,80 respectivamente), mientras que EfficientNet les sigue de cerca (0,78). ResNet50 y ResNet101 muestran un rendimiento moderado dentro de este grupo (0,75 y 0,77), pero todos los modelos tradicionales superan significativamente a las herramientas de reconocimiento de imágenes basadas en la nube, como AWS Rekognition, Cloud Vision y Vision, que alcanzan una precisión moderada (mAP 0,61–0,64) con latencias de entre 2 y 3,5 segundos. Esto demuestra que los modelos tradicionales dominan tanto en velocidad como en precisión.

Para los modelos de lenguaje de visión, incluidos OpenAI GPT-4.1, Claude Opus 4.1, X-AI Grok 2 Vision, Meta-Llama/LLama-3.2-11B Vision Instruct y Google Gemini 2.5 Flash, las latencias son significativamente más altas, oscilando entre 1 y 12 segundos, con valores mAP entre 0,60 y 0,75. Google Gemini 2.5 Flash alcanza 0,75 mAP, lo que lo convierte en el VLM más preciso en nuestra prueba. Entre otros VLM, GPT-4.1 tiene un rendimiento sólido con un mAP de 0,73, seguido de Claude Opus 4.1 (0,71) y X-AI Grok 2 Vision (0,70). GPT-4o-mini muestra un rendimiento moderado (0,66 mAP), mientras que Meta-Llama Vision Instruct se queda significativamente atrás (0,60 mAP).

La mayoría de los modelos de lenguaje de visión devuelven resultados JSON de forma fiable con una tasa de éxito cercana al 100%, a excepción de Meta-Llama Vision Instruct , que solo tuvo éxito el 36% de las veces, y Gemini 2.5 Pro , que falló sistemáticamente (0% de éxito), lo que limita gravemente su aplicabilidad práctica en flujos de trabajo automatizados.

Aunque los modelos de lenguaje visual generalmente se quedan atrás de los modelos de reconocimiento de imágenes tradicionales en velocidad bruta, los VLM de mayor rendimiento, como Google Gemini 2.5 Flash (0,75 mAP) y GPT-4.1 (0,73 mAP), alcanzan una precisión de clasificación que se aproxima al rendimiento de las CNN tradicionales y supera significativamente a las API en la nube como AWS Rekognition y Azure Vision. En términos de latencia, la mayoría de los modelos de lenguaje visual se agrupan en torno a los 3-4 segundos, excepto Meta-Llama, que es notablemente más lento con 12 segundos, lo que pone de relieve el impacto de la arquitectura y la optimización del modelo.

En general, los modelos tradicionales de reconocimiento de imágenes siguen destacando por su velocidad y precisión. Sin embargo, los modelos de lógica descriptiva (VLM) se muestran prometedores para el razonamiento multimodal y la generación de resultados estructurados, con una latencia consistentemente mayor, pero los mejores modelos alcanzan una precisión que se aproxima a las redes neuronales convolucionales (CNN) tradicionales y supera a los servicios de reconocimiento de imágenes basados en la nube.

Rendimiento específico de cada clase: dónde destacan y dónde presentan dificultades los modelos.

Nuestra evaluación utilizó siete clases superpuestas que ponen a prueba diferentes aspectos de la detección de objetos:

rostro : Representa únicamente la región del rostro. El modelo necesita detectar el rostro de una persona, lo cual puede resultar complicado debido a su pequeño tamaño y a la finura de sus detalles.
Cabeza : Cubre toda la cabeza, excluyendo el rostro. Se centra en detectar la forma y la estructura de la cabeza.
head_with_helmet : Representa la cabeza que lleva un casco. El modelo debe detectar tanto la cabeza como el casco simultáneamente, poniendo a prueba su capacidad para reconocer su relación.
Casco : Representa únicamente el casco, independientemente de la presencia de una persona o cabeza. Importante para la detección de equipos.
Persona : Detecta la presencia de una persona, con o sin casco. Sirve como una clase general de detección de personas.
person_no_helmet : Representa a una persona que no lleva casco. El modelo debe identificar tanto la presencia humana como la ausencia de casco.
person_with_helmet : Representa a una persona que lleva casco. Requiere distinguir tanto la presencia humana como el uso del casco, y está estrechamente relacionado con person_no_helmet.

Estas clases superpuestas y estrechamente relacionadas pueden suponer un reto para los modelos de lenguaje visual, ya que interpretan la información visual a través del lenguaje natural en lugar de capturar directamente las diferencias sutiles a nivel de píxel.

Rendimiento tradicional de CNN

Clase de cara
- Mejor rendimiento: EfficientNet y DenseNet121 (100%)
- Mínimo: ResNet101 (95%). La detección de rostros es muy precisa en todas las CNN, superando a la mayoría de los VLM.
Clase jefa
- Mejores: ResNet18 y DenseNet121 (69%)
- Mínimo: ResNet50 (50%) Rendimiento moderado; las CNN tienen más dificultades con la detección de cabezas que con las clases de caras y cascos.
Cabeza y cabeza_con_casco
- Mejor rendimiento: EfficientNet y ResNet18 (Head_with_helmet 98%, Head 65–69%)
- Mínimo: ResNet50 (Cabeza 50%, Cabeza con casco 96%). Las CNN funcionan muy bien en cabezas con casco, alcanzando una precisión del 96-98% en todos los modelos. La detección de cabezas sin casco es más difícil, con una precisión menor (50-69%), lo que indica que las CNN distinguen mejor objetos prominentes como los cascos que regiones menos definidas como las cabezas sin casco.
Clase de persona
- Todos los modelos: 0% de precisión
Persona sin casco
- Mejor: DenseNet121 (72%)
- Mínimo: ResNet50 (53%). Las CNN manejan mejor esta clase desafiante que las VLM, lo que destaca su capacidad para capturar detalles finos.
Persona con casco
- Mejor: EfficientNet (98%)
- Mínimo: DenseNet121 (96%) Alta precisión en todos los modelos; las personas con casco son reconocidas de forma consistente.

Rendimiento del modelo de lenguaje de visión

Clasificación facial (detección de rostros)
- Mejor rendimiento: Claude Opus 4.1 (83%)
- Más débiles: Meta-Llama Vision Instruct (4%) y GPT-4o-mini (12%). Los VLM generalmente funcionan peor en objetos pequeños y detallados como rostros; Meta-Llama y GPT-4o-mini tienen dificultades con los detalles finos.
Cabeza y cabeza_con_casco
- Cabeza: Claude Opus 4.1 (96%) más alto, Meta-Llama (30%) más bajo
- Cabeza_con_casco: GPT-4.1 (99%) y Gemini 2.5 Flash (98%) más alto, Meta-Llama (50%) más bajo. Los modelos funcionan bien en la detección de cabezas con o sin cascos; la mayoría alcanza una precisión de más del 90%, excepto Meta-Llama.
Clase de casco
- Máximo: Grok 2 Visión (100%), GPT-4.1 (99%), Gemini 2.5 Flash (98%)
- Más bajo: Meta-Llama (52%)Distinguir entre objetos con y sin casco suele ser más fácil, pero Meta-Llama tiene un rendimiento inferior.
Clase de persona
- Todos los modelos alcanzan el 100%, probablemente debido a que los objetos son grandes y nítidos.
Persona sin casco
- Mejor: GPT-4.1 y Gemini 2.5 Flash (58%)
- Más bajos: Meta-Llama (18%) y GPT-4o-mini (29%). Detectar detalles finos como la ausencia de casco es un desafío; algunos modelos sobresalen en objetos prominentes pero se quedan atrás en clases con matices.
Persona con casco
- Máximo: GPT-4.1 (98%) y Gemini 2.5 Flash (98%)
- Mínimo: Meta-Llama (55%) La mayoría de los modelos funcionan muy bien aquí.

Rendimiento de la API en la nube

Clase de cara
- Mejor opción: AWS Rekognition (22%)
- Mínimo: Google Cloud Vision (0%) La detección de rostros es generalmente deficiente en todas las API de Cloud; las distinciones finas como los rostros son difíciles.
Cabeza y cabeza_con_casco
- Encabezado: AWS Rekognition (24%) mejor, Azure Vision peor (0%)
- Head_with_helmet: AWS Rekognition (10%) mejor, Azure Vision (1%) más baja La detección de cabezas, especialmente con o sin casco, es limitada; las API de la nube se centran en objetos más amplios en lugar de detalles finos.
Clase de casco
- Mejor opción: AWS Rekognition (94%)
- Mínimo: Azure Visión (37%) La detección de cascos tiene un éxito moderado para algunas API (AWS), pero es inconsistente entre proveedores.
Clase de persona
- Todos los modelos: Los objetos grandes y definidos, como personas completas, son detectados de forma fiable por todas las API de Cloud.
Persona sin casco
- Mejor: Azure Visión (78%)
- Mínimo: Google Cloud Vision (26%) El rendimiento varía ampliamente; algunas API pueden manejar clases desafiantes moderadamente bien.
Persona con casco
- Mejor opción: AWS Rekognition (94%)
- Mínimo: Azure Visión (37%) AWS detecta a las personas con casco de forma fiable, pero otros proveedores lo hacen de forma inconsistente.

Para rostros , las CNN alcanzan la mayor precisión, seguidas de las VLM, mientras que las API de Cloud tienen un rendimiento deficiente. En las clases cabeza y cabeza_con_casco , las CNN siguen siendo fuertes, las VLM funcionan bien en cabezas con casco pero de forma menos consistente en cabezas descubiertas, y las API de Cloud tienen dificultades con ambas. Para cascos , las CNN y las VLM generalmente funcionan muy bien, mientras que las API de Cloud muestran un éxito variable. En la clase persona , todos los paradigmas detectan personas completas de forma fiable. Para persona_sin_casco , las CNN superan tanto a las VLM como a las API de Cloud, demostrando un manejo superior de los detalles finos. Finalmente, para persona_con_casco , las CNN y las VLM mantienen una alta precisión, mientras que las API de Cloud muestran un rendimiento inconsistente dependiendo del proveedor.

Precisión, exhaustividad y puntuación F1

La precisión mide cuántas de las predicciones positivas de un modelo son realmente correctas. En otras palabras, responde a la pregunta: «De las predicciones que el modelo etiquetó como positivas, ¿cuántas son verdaderamente correctas?».

La exhaustividad mide cuántos de los casos positivos reales identifica correctamente el modelo. Responde a la pregunta: «De todos los casos positivos verdaderos, ¿cuántos detectó el modelo?».

La puntuación F1 es un resumen equilibrado de precisión y exhaustividad. Proporciona una métrica única que refleja tanto la exactitud como la cobertura, lo que resulta especialmente útil cuando se busca un equilibrio entre ambas.

Los modelos basados en CNN (ResNet50, ResNet101, DenseNet121) muestran un alto rendimiento tanto en precisión (0,93–0,95) como en exhaustividad (0,91–0,94), lo que se traduce en altas puntuaciones F1 (0,92–0,93). Esto indica que son muy precisos en sus predicciones y capaces de identificar la mayoría de los casos verdaderos positivos. EfficientNet también presenta una alta puntuación F1 (0,92), lo que demuestra su rendimiento consistente y fiable.

Las API en la nube (AWS Rekognition, Cloud Vision y Vision) tienen menor precisión y exhaustividad, con puntuaciones F1 que oscilan entre 0,32 y 0,58. Esto sugiere que, si bien los servicios en la nube están optimizados para tareas de propósito general, su precisión en la distinción de clases detalladas es limitada.

Los modelos de lenguaje de visión muestran un rendimiento más variable. GPT-4.1, X-AI Grok 2 Vision y Claude Opus 4.1 alcanzan exactamente 0,76 F1-scores, mientras que Google Gemini 2.5 Flash funciona un poco mejor con un F1-score de 0,80. Aunque estos modelos demuestran un rendimiento sólido en algunas clases, generalmente se quedan atrás de las CNN en precisión general. Meta-Llama Vision Instruct tiene un F1-score de 0,47, con baja precisión y exhaustividad, lo que significa que el modelo tiene dificultades tanto para hacer predicciones correctas como para capturar verdaderos positivos.

Posibles razones de las diferencias de rendimiento

Ventaja de la arquitectura CNN

Las CNN tradicionales están especializadas en la extracción de características a nivel de píxel, lo que permite una detección rápida y precisa de objetos con detalles finos. Sus capas convolucionales optimizadas y mapas de características jerárquicos permiten una baja latencia y un alto mAP en tareas estándar de reconocimiento de imágenes.

Sobrecarga multimodal en VLMs

Los modelos de lenguaje visual procesan tanto imágenes como texto, incorporando pasos de atención cruzada y alineación de incrustaciones. Esto permite el razonamiento y la generación de resultados contextuales, pero aumenta el tiempo de inferencia, lo que se traduce en una mayor latencia en comparación con las redes neuronales convolucionales (CNN).

Detección de clases de grano fino

Las clases superpuestas o sutiles (por ejemplo, persona_sin_casco frente a persona_con_casco) resaltan las diferencias entre los modelos. Las CNN capturan estos detalles de forma consistente, los VLM funcionan bien con objetos prominentes pero tienen dificultades con las distinciones sutiles, y las API de Cloud se centran en clases amplias, lo que limita la precisión.

Fiabilidad de la salida estructurada

La generación inconsistente de JSON afecta el rendimiento de VLM. Los modelos con bajas tasas de éxito parecen menos efectivos en los flujos de trabajo, mientras que las CNN y las API en la nube producen resultados predecibles y deterministas.

Entonces, ¿cuál deberías elegir?

Las CNN tradicionales son ideales para aplicaciones críticas en cuanto a velocidad, donde los tiempos de respuesta en milisegundos son cruciales, como el procesamiento de vídeo en tiempo real, los vehículos autónomos o los sistemas de seguridad industrial. Gracias a su precisión superior (mAP 0,75–0,81) y su inferencia ultrarrápida (0,03–0,2 s), estos modelos de IA tradicionales destacan cuando se necesita un rendimiento fiable y consistente sin la sobrecarga del procesamiento del lenguaje natural ni la complejidad del modelo. Las CNN se centran en datos visuales y tareas de clasificación de imágenes , como la detección de objetos, ofreciendo precisión y eficiencia en la visión sin necesidad de ajustes finos en modelos multimodales.

Los modelos de lenguaje visual (VLM) destacan cuando se necesita comprensión contextual y resultados flexibles. Estos modelos funcionan tanto en modalidad visual como textual, lo que permite que modelos de lenguaje de gran tamaño procesen imágenes junto con descripciones de texto. Perfectos para aplicaciones que requieren explicaciones en lenguaje natural, subtitulado de imágenes, tareas de razonamiento visual o incluso respuesta a preguntas visuales, aprovechan los codificadores visuales y las capas de atención cruzada para alinear pares de texto e imagen en el mismo espacio dimensional. Si bien se acepta una latencia mayor (3-12 s), las capacidades de razonamiento que aportan a la comprensión de imágenes, elementos visuales e instrucciones visuales los hacen ideales para tareas posteriores más específicas, como la moderación inteligente de contenido, la generación de imágenes, el razonamiento matemático visual o los asistentes visuales interactivos. Mediante el uso de un ajuste fino eficiente de parámetros con datos de entrenamiento de alta calidad, los modelos de lenguaje visual (VLM) se convierten en potentes modelos de aprendizaje automático que unifican la información visual y textual en un espacio de incrustación compartido.

Las API en la nube proporcionan respuestas detalladas y completas con metadatos enriquecidos y puntuaciones de confianza, lo que las hace ideales cuando se necesita información extensa más allá de la simple clasificación. Estas API suelen basarse en componentes de codificadores visuales preentrenados y codificadores visuales entrenados con grandes conjuntos de datos de modelos públicos de subtítulos conceptuales y fotos relevantes. Ideales para aplicaciones que requieren salidas JSON estructuradas, cuadros delimitadores, localización de objetos o comprensión de vídeos largos, son soluciones listas para usar que no requieren un entrenamiento de modelos complejo ni gestión de infraestructura. Si bien su precisión es moderada (mAP 0,61–0,66), reducen los detalles técnicos y los costes de infraestructura, lo que permite tareas como la generación automatizada de informes, la extracción de significado semántico y la integración de marcos unificados con modelos generativos existentes.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Calculadora de precios

Modelos de lenguaje visual (VLM): características y ventajas clave

razonamiento multimodal

Los modelos de lenguaje visual (VLM, por sus siglas en inglés) son potentes modelos multimodales capaces de procesar simultáneamente información visual y textual, lo que les permite interpretarla de forma más completa y contextualizada. Al combinar la entrada de imágenes con indicaciones en lenguaje natural, posibilitan tareas avanzadas como la generación automática de subtítulos para imágenes, la detección de cascos en grabaciones de seguridad, el razonamiento visual, la respuesta a preguntas visuales e incluso la explicación de contenido visual en lenguaje natural. A diferencia de los modelos de IA tradicionales, que se centran únicamente en datos visuales, los VLM combinan capacidades de visión con el razonamiento de modelos de lenguaje complejos, lo que los hace ideales para tareas posteriores más complejas.

Generación de salida estructurada y JSON

Muchos modelos de lenguaje de visión pueden generar salidas estructuradas como JSON, lo cual es valioso para flujos de trabajo automatizados y aplicaciones que requieren descripciones de texto junto con características de imagen. En nuestra prueba comparativa, ChatGPT-5 y Gemini 2.5 Pro fallaron sistemáticamente, mientras que Meta-Llama Vision Instruct solo tuvo éxito en aproximadamente el 36% de los casos. Las salidas estructuradas son particularmente útiles para los asistentes de visión, ya que permiten tareas como la detección y localización de objetos, y generan datos fiables para modelos de aprendizaje automático sin necesidad de un ajuste fino exhaustivo.

Capacidades de ajuste fino

Los modelos de lenguaje visual (VLM) permiten un ajuste fino y eficiente de parámetros con datos de entrenamiento relativamente pequeños, lo que facilita una rápida adaptación a tareas de razonamiento visual específicas de cada dominio. Por ejemplo, pueden ajustarse para distinguir entre personas con y sin casco, o equipos de seguridad especializados, en escenarios de entrada de imágenes. Gracias a las arquitecturas de codificadores de visión preentrenadas y a las técnicas robustas de entrenamiento de modelos, pueden generalizar mejor con menos descripciones conceptuales o pares de texto e imágenes.

Limitaciones de los modelos de lenguaje visual

Latencia y velocidad

En comparación con las CNN tradicionales o los modelos de visión más simples, los modelos de lenguaje visual suelen tener una latencia mayor, lo que puede limitar las aplicaciones en tiempo real, como la comprensión de vídeos largos. Algunos modelos multimodales, como X-AI Vision y Flash 2.5, se acercan más a la velocidad de las API en la nube, pero Llama es notablemente más lento. Esta desventaja radica en el diseño integral del modelo y las capas de atención cruzada, que mejoran las capacidades de razonamiento pero aumentan el tiempo de inferencia.

Desafíos por clase

Los modelos de lenguaje visual a veces tienen dificultades con la superposición de clases y el reconocimiento de objetos con gran detalle, como diferenciar entre una "cabeza" y una "cabeza con casco" o entre una "persona sin casco" y una "persona con casco". Si bien algunos modelos funcionan bien con las clases que incluyen casco, su rendimiento es inferior en otras tareas de razonamiento visual, como la detección de rostros o elementos visuales sutiles. Esto subraya la importancia de contar con datos de entrenamiento de alta calidad y un ajuste preciso al abordar tareas posteriores más específicas.

Fiabilidad de la salida estructurada

La consistencia de las salidas estructuradas, como JSON, varía considerablemente. Si bien algunos modelos de lenguaje visual (VLM) generan salidas válidas de forma fiable, otros fallan en casos de uso específicos, lo que limita su utilidad en flujos de trabajo totalmente automatizados. Incluso con arquitecturas de codificadores de visión preentrenadas y enfoques de espacio de incrustación compartido, algunos modelos aún no logran mantener el significado semántico en la salida estructurada. Esta inconsistencia subraya la necesidad de un entrenamiento robusto de los modelos, fotografías relevantes en el conjunto de datos y mejoras continuas en los modelos generativos para las modalidades de visión y lenguaje.

Metodología de evaluación comparativa

Realizamos nuestra evaluación exhaustiva utilizando el conjunto de datos SHEL5K para la detección de cascos de seguridad, específicamente las primeras 500 imágenes para garantizar una comparación consistente entre todas las arquitecturas de modelos. El conjunto de datos contiene siete clases superpuestas diseñadas para probar las capacidades de detección de objetos de grano fino: cara, cabeza, cabeza con casco, casco, persona, persona sin casco y persona con casco.

preprocesamiento de datos

Las anotaciones originales del conjunto de datos SHEL5K se proporcionaron en formato XML. Desarrollamos un proceso de preprocesamiento para convertir estas anotaciones a un formato CSV multietiqueta adecuado para la evaluación sistemática:

Cada imagen se asoció a sus etiquetas de referencia correspondientes, creando un marco de evaluación estandarizado. Para las CNN tradicionales, las imágenes se preprocesaron a una resolución de 224 × 224 píxeles con normalización estándar. Los modelos de lenguaje de visión y las API en la nube recibieron las imágenes en su formato original para preservar la información contextual.

Protocolo de evaluación de CNN tradicional

Las redes neuronales convolucionales tradicionales (EfficientNet, variantes de ResNet, DenseNet121) se sometieron a un ajuste fino supervisado utilizando las mejores prácticas establecidas:

Configuración de entrenamiento:

Arquitectura: Modelos preentrenados con cabezales de clasificación modificados
Función de pérdida: BCEWithLogitsLoss para clasificación multietiqueta
Optimizador: Adam con tasa de aprendizaje 1e-4
Épocas de entrenamiento: 5
División de datos: 80 % entrenamiento, 20 % validación
Tamaño del lote: 16

Marco de prueba del modelo de lenguaje de visión

Los modelos de lenguaje virtual (VLM) se evaluaron mediante indicaciones cuidadosamente estructuradas, diseñadas para obtener respuestas consistentes y legibles por máquina. Nuestro enfoque de ingeniería de indicaciones requería puntuaciones de confianza en formato JSON para cada clase.

Configuración de la API:

Temperatura: 0,1 (temperatura baja para mayor consistencia)
Máximo de fichas: 800
Modelos probados mediante la integración de la API OpenRouter
Análisis de JSON con manejo de errores y validación de formato.

Seguimiento de la tasa de éxito: Monitorizamos el porcentaje de respuestas JSON válidas, ya que los VLM a veces generan explicaciones en lenguaje natural en lugar de una salida estructurada. Esta métrica resultó crucial para evaluar la viabilidad práctica de la implementación.

Integración de API en la nube y mapeo de etiquetas

Las API en la nube presentaron desafíos únicos debido a su naturaleza de propósito general y a sus diferentes taxonomías. Desarrollamos estrategias de mapeo integrales para cada servicio:

Estrategia de mapeo de etiquetas:

Las API en la nube presentan un desafío fundamental: no fueron diseñadas para nuestra taxonomía específica de siete clases. Estos servicios devuelven etiquetas de uso general como "persona", "casco", "trabajador de la construcción" o "equipo de seguridad", en lugar de las combinaciones precisas que necesitamos evaluar (como "persona_con_casco" o "cabeza_con_casco").

Para abordar esta limitación, desarrollamos diccionarios de mapeo completos para cada servicio en la nube basados en sus resultados. El mapeo de Visión por Computadora incluyó más de 50 variantes de etiquetas que cubren diferentes formas en que la API podría describir personas (persona, hombre, mujer, trabajador, individuo), cascos (casco, casco de seguridad, gorra) y rasgos faciales (cara, rostro humano, retrato). Se crearon mapeos extensos similares para AWS Rekognition y Cloud Vision, cada uno adaptado al vocabulario y los patrones de etiquetado específicos de ese servicio.

Lógica de inferencia de clases combinadas:

El aspecto más sofisticado de nuestra evaluación de API en la nube implicó inferir clases combinadas que las API no reconocen explícitamente. Implementamos lógica basada en reglas para detectar cuándo aparecen varios elementos básicos juntos:

Cuando se detectan tanto una persona como un casco en la misma imagen con suficiente confianza, el sistema infiere "persona con casco" utilizando la puntuación de confianza mínima entre ambas detecciones (enfoque conservador). De manera similar, la detección simultánea de una cabeza y un casco activa la clasificación "cabeza con casco".

En el caso de clasificaciones negativas, cuando se detecta a una persona pero no se encuentra casco, el sistema infiere "person_no_helmet" con una confianza ligeramente reducida (90% de la confianza original de la persona) para tener en cuenta la incertidumbre inherente a la inferencia negativa.

Este enfoque reconoce que las API en la nube son excelentes para detectar objetos individuales, pero tienen dificultades con el razonamiento relacional sobre combinaciones de objetos, una limitación clave al evaluar tareas de clasificación detalladas y dependientes del contexto.

Métricas de evaluación y análisis estadístico

Métricas principales:

Precisión media promedio (mAP): Medida de precisión principal que utiliza el promedio macro en todas las clases.
Precisión, exhaustividad, puntuación F1: Promedio micro para la evaluación del rendimiento general.
Precisión por clase: Rendimiento individual de cada clase para un análisis detallado.
Latencia: Tiempo de procesamiento de extremo a extremo por imagen.
Tasa de éxito: Porcentaje de resultados válidos (especialmente relevante para los VLM).

Selección del umbral: Se aplicó un umbral de clasificación de 0,5 de forma consistente en todos los modelos, utilizando los modelos VLM puntuaciones de confianza y los modelos tradicionales logits activados por sigmoide.

Robustez estadística: Cada modelo se evaluó con conjuntos de imágenes idénticos y un preprocesamiento consistente para garantizar una comparación justa. Las mediciones de latencia se promediaron en múltiples ejecuciones para tener en cuenta la variabilidad del sistema.

Controles y limitaciones experimentales

Controles implementados:

Conjunto de prueba idéntico de 500 imágenes en todos los modelos.
Métricas y umbrales de evaluación consistentes
Procedimientos estandarizados de manejo de errores y tiempos de espera
Rotación de múltiples claves API para gestionar los límites de velocidad.

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Investigado por

Nazlı Şipi

Investigador de IA

Nazlı es analista de datos en AIMultiple. Cuenta con experiencia previa en análisis de datos en diversos sectores, donde se dedicó a transformar conjuntos de datos complejos en información útil para la toma de decisiones.

Ver perfil completo