Modelos de linguagem visual comparados ao reconhecimento de imagens

com

atualizado em Fev 27, 2026

Será que os modelos avançados de visão computacional (VLMs) podem substituir os modelos tradicionais de reconhecimento de imagem? Para descobrir, avaliamos 16 modelos líderes em três paradigmas: redes neurais convolucionais (CNNs) tradicionais (ResNet, EfficientNet), VLMs (como GPT-4.1, Gemini 2.5) e APIs em nuvem (AWS, Google, Azure).

A Precisão Média (mAP) serviu como nossa principal métrica de acurácia, complementada por análises de latência, custo e desempenho específico da classe.

Você pode consultar a metodologia de avaliação comparativa aqui.

Comparativo de precisão versus latência

Em nossa avaliação comparativa, analisamos os modelos em quatro dimensões: latência, precisão média (mAP), custo e taxa de sucesso. A latência mede o tempo que um modelo leva para processar uma única imagem, enquanto a mAP reflete a precisão geral da classificação. A taxa de sucesso verifica se um modelo retornou uma saída JSON válida, o que é particularmente relevante para modelos de visão computacional, que interpretam imagens em linguagem natural em vez de dados estruturados.

Loading Chart

Os modelos tradicionais de reconhecimento de imagem , como EfficientNet, ResNet18, ResNet50, ResNet101 e DenseNet121, apresentam consistentemente baixa latência (0,03–0,2 segundos) e precisão competitiva (mAP 0,75–0,81). Dentre eles, DenseNet121 e ResNet18 alcançam as maiores pontuações de mAP (0,81 e 0,80, respectivamente), enquanto o EfficientNet vem logo em seguida (0,78). ResNet50 e ResNet101 apresentam desempenho moderado dentro desse grupo (0,75 e 0,77), mas todos os modelos tradicionais superam significativamente as ferramentas de reconhecimento de imagem baseadas em nuvem, como AWS Rekognition, Cloud Vision e Vision, que alcançam precisão moderada (mAP 0,61–0,64) com latências entre 2 e 3,5 segundos. Isso demonstra que os modelos tradicionais dominam tanto em velocidade quanto em precisão.

Para modelos de linguagem visual, incluindo OpenAI GPT-4.1, Claude Opus 4.1, X-AI Grok 2 Vision, Meta-Llama/LLama-3.2-11B Vision Instruct e Google Gemini 2.5 Flash, as latências são significativamente maiores, variando de 1 a 12 segundos, com valores de mAP entre 0,60 e 0,75. O modelo Google Gemini 2.5 Flash atinge 0,75 de mAP, tornando-o o VLM mais preciso em nosso teste. Dentre outros VLMs, o GPT-4.1 apresenta um desempenho forte com um mAP de 0,73, seguido pelo Claude Opus 4.1 (0,71) e pelo X-AI Grok 2 Vision (0,70). O GPT-4o-mini mostra um desempenho moderado (mAP de 0,66), enquanto o Meta-Llama Vision Instruct fica significativamente para trás (mAP de 0,60).

A maioria dos modelos de linguagem de visão retorna saídas JSON de forma confiável com quase 100% de sucesso, exceto o Meta-Llama Vision Instruct , que teve sucesso em apenas 36% das vezes, e o Gemini 2.5 Pro , que falhou consistentemente (0% de sucesso), limitando severamente sua aplicabilidade prática em fluxos de trabalho automatizados.

Embora os modelos de linguagem visual geralmente fiquem atrás dos modelos tradicionais de reconhecimento de imagem em termos de velocidade bruta, os VLMs de melhor desempenho, como o Google Gemini 2.5 Flash (0,75 mAP) e o GPT-4.1 (0,73 mAP), alcançam uma precisão de classificação que se aproxima do desempenho das CNNs tradicionais e supera significativamente APIs em nuvem como AWS Rekognition e Azure Vision. Em termos de latência, a maioria dos modelos de linguagem visual se concentra em torno de 3 a 4 segundos, exceto o Meta-Llama, que é notavelmente mais lento, com 12 segundos, destacando o impacto da arquitetura e otimização do modelo.

De modo geral, os modelos tradicionais de reconhecimento de imagem ainda se destacam tanto em velocidade quanto em precisão. Os VLMs, no entanto, mostram-se promissores para raciocínio multimodal e saídas estruturadas, com latência consistentemente maior, mas os melhores modelos alcançando precisão que se aproxima das CNNs tradicionais e supera os serviços de reconhecimento de imagem baseados em nuvem.

Desempenho específico da turma: onde os modelos se destacam e onde têm dificuldades

Nossa avaliação utilizou sete classes sobrepostas que testam diferentes aspectos da detecção de objetos:

Face : Representa apenas a região do rosto. O modelo precisa detectar o rosto de uma pessoa, o que pode ser desafiador devido ao seu tamanho pequeno e detalhes minuciosos.
Cabeça : Abrange toda a cabeça, exceto o rosto. Concentra-se em detectar a forma e a estrutura da cabeça.
`head_with_helmet` : Representa a cabeça usando um capacete. O modelo deve detectar tanto a cabeça quanto o capacete simultaneamente, testando sua capacidade de reconhecer a relação entre eles.
Capacete : Representa apenas o capacete, independentemente da presença de uma pessoa ou cabeça. Importante para a detecção de equipamentos.
Pessoa : Detecta a presença de uma pessoa, com ou sem capacete. Serve como uma classe geral de detecção humana.
person_no_helmet : Representa uma pessoa que não está usando capacete. O modelo deve identificar tanto a presença humana quanto a ausência do capacete.
person_with_helmet : Representa uma pessoa usando capacete. Requer distinguir tanto a presença humana quanto o uso de capacete, sendo intimamente relacionado a person_no_helmet.

Essas classes sobrepostas e intimamente relacionadas podem representar um desafio para os modelos de linguagem visual, uma vez que interpretam as informações visuais por meio da linguagem natural, em vez de capturar diretamente as diferenças sutis em nível de pixel.

Desempenho tradicional da CNN

Classe facial
- Melhor desempenho: EfficientNet e DenseNet121 (100%)
- Menor desempenho: ResNet101 (95%) A detecção de faces é altamente precisa em todas as CNNs, superando a maioria dos VLMs.
Classe principal
- Melhores: ResNet18 e DenseNet121 (69%)
- Pior desempenho: ResNet50 (50%) Desempenho moderado; as CNNs têm mais dificuldade com a detecção de cabeças do que com as classes de rostos e capacetes.
Cabeça e Cabeça_com_capacete
- Melhor desempenho: EfficientNet e ResNet18 (Head_with_helmet 98%, Head 65–69%)
- Menor precisão: ResNet50 (Cabeça 50%, Cabeça com capacete 96%). As CNNs têm um desempenho muito bom em cabeças com capacete, atingindo uma precisão de 96–98% em todos os modelos. A detecção de cabeças sem capacete é mais desafiadora, com menor precisão (50–69%), indicando que as CNNs distinguem objetos proeminentes, como capacetes, melhor do que regiões menos distintas, como cabeças sem capacete.
Classe Pessoa
- Todos os modelos: 0% de precisão
Pessoa sem capacete
- Melhor: DenseNet121 (72%)
- Menor pontuação: ResNet50 (53%) As CNNs lidam melhor com essa classe desafiadora do que os VLMs, destacando sua capacidade de capturar detalhes minuciosos.
Pessoa com capacete
- Melhor: EfficientNet (98%)
- Menor precisão: DenseNet121 (96%) Alta precisão em todos os modelos; pessoas com capacete são reconhecidas de forma consistente.

desempenho do modelo de linguagem de visão

Classe de rosto (detecção de rosto)
- Melhor desempenho: Claude Opus 4.1 (83%)
- Mais fracos: Meta-Llama Vision Instruct (4%) e GPT-4o-mini (12%) Os VLMs geralmente têm pior desempenho em objetos pequenos e detalhados, como rostos; Meta-Llama e GPT-4o-mini têm dificuldades com detalhes finos.
Cabeça e Cabeça_com_capacete
- Cabeçalho: Claude Opus 4.1 (96%) mais alto, Meta-Lhama (30%) mais baixo
- Cabeça_com_capacete: GPT-4.1 (99%) e Gemini 2.5 Flash (98%) mais altos, Meta-Llama (50%) mais baixo. Os modelos têm um bom desempenho na detecção de cabeças com ou sem capacetes; a maioria atinge mais de 90% de precisão, exceto Meta-Llama.
Classe de capacete
- Mais alto: Grok 2 Visão (100%), GPT-4.1 (99%), Gemini 2.5 Flash (98%)
- Menor desempenho: Meta-Lhama (52%)Distinguir objetos com capacete de objetos sem capacete geralmente é mais fácil, mas Meta-Lhama tem um desempenho inferior.
Classe Pessoa
- Todos os modelos atingem 100%, provavelmente devido aos objetos grandes e nítidos.
Pessoa sem capacete
- Melhor: GPT-4.1 e Gemini 2.5 Flash (58%)
- Menor pontuação: Meta-Lhama (18%) e GPT-4o-mini (29%). Detectar detalhes sutis, como a ausência de capacete, é um desafio; alguns modelos se destacam em objetos proeminentes, mas ficam para trás em classes com nuances.
Pessoa com capacete
- Maior: GPT-4.1 (98%) e Gemini 2.5 Flash (98%)
- Menor: Meta-Lhama (55%)A maioria dos modelos tem um desempenho muito bom aqui.

Desempenho da API em nuvem

Classe facial
- Melhor: AWS Rekognition (22%)
- Menor: Google Cloud Vision (0%) A detecção de rostos é geralmente ruim em todas as APIs da nuvem; distinções sutis como rostos são desafiadoras.
Cabeça e Cabeça_com_capacete
- Cabeçalho: AWS Rekognition (24%) melhor, Azure Vision pior (0%)
- Cabeça_com_capacete: AWS Rekognition (10%) melhor, Azure Vision (1%) pior. A detecção de cabeças, especialmente com ou sem capacete, é limitada; as APIs em nuvem se concentram em objetos maiores em vez de detalhes minuciosos.
Classe de capacete
- Melhor: AWS Rekognition (94%)
- Mínimo: Azure Visão (37%)A detecção de capacete é moderadamente bem-sucedida para algumas APIs (AWS), mas inconsistente entre os provedores.
Classe Pessoa
- Todos os modelos: Objetos grandes e nítidos, como pessoas inteiras, são detectados de forma confiável por todas as APIs na nuvem.
Pessoa sem capacete
- Melhor: Azure Visão (78%)
- Menor: Google Cloud Vision (26%)O desempenho varia bastante; algumas APIs conseguem lidar razoavelmente bem com classes complexas.
Pessoa com capacete
- Melhor: AWS Rekognition (94%)
- Menor: Azure Visão (37%) Pessoas com capacete são detectadas de forma confiável pela AWS, mas de forma inconsistente por outros provedores.

Para rostos , as CNNs alcançam a maior precisão, seguidas pelos VLMs, enquanto as APIs em nuvem apresentam desempenho ruim. Nas classes cabeça e cabeça_com_capacete , as CNNs mantêm um bom desempenho, os VLMs têm um bom desempenho em cabeças com capacete, mas um desempenho menos consistente em cabeças sem capacete, e as APIs em nuvem apresentam dificuldades em ambos os casos. Para capacetes , as CNNs e os VLMs geralmente têm um desempenho muito bom, enquanto as APIs em nuvem mostram sucesso variável. Na classe pessoa , todos os paradigmas detectam pessoas inteiras de forma confiável. Para pessoa_sem_capacete , as CNNs superam tanto os VLMs quanto as APIs em nuvem, demonstrando um tratamento superior de detalhes minuciosos. Finalmente, para pessoa_com_capacete , as CNNs e os VLMs mantêm alta precisão, enquanto as APIs em nuvem mostram desempenho inconsistente dependendo do provedor.

Precisão, recall e pontuação F1

A precisão mede quantas das previsões positivas de um modelo estão realmente corretas. Em outras palavras, responde à pergunta: "Das previsões que o modelo classificou como positivas, quantas estão verdadeiramente corretas?"

A métrica de recall mede quantas instâncias positivas reais o modelo identificou com sucesso. Ela responde à pergunta: "De todos os casos verdadeiramente positivos, quantos o modelo detectou?"

A pontuação F1 é um resumo equilibrado de precisão e revocação. Ela fornece uma métrica única que reflete tanto a acurácia quanto a abrangência, sendo particularmente útil quando se deseja equilibrar precisão e revocação.

Os modelos baseados em CNN (ResNet50, ResNet101, DenseNet121) apresentam alto desempenho tanto em precisão (0,93–0,95) quanto em recall (0,91–0,94), resultando em altas pontuações F1 (0,92–0,93). Isso indica que eles são altamente precisos em suas previsões e capazes de capturar a maioria dos verdadeiros positivos. O EfficientNet também apresenta uma alta pontuação F1 (0,92), oferecendo desempenho consistente e confiável.

As APIs em nuvem (AWS Rekognition, Cloud Vision, Vision) apresentam menor precisão e recall, com pontuações F1 variando de 0,32 a 0,58. Isso sugere que, embora os serviços em nuvem sejam otimizados para tarefas de propósito geral, sua precisão em distinções de classe mais específicas é limitada.

Os modelos de visão-linguagem apresentam desempenho mais variável. GPT-4.1, X-AI Grok 2 Vision e Claude Opus 4.1 atingem exatamente 0,76 de pontuação F1, enquanto Google Gemini 2.5 Flash tem um desempenho ligeiramente melhor, com uma pontuação F1 de 0,80. Embora esses modelos demonstrem um bom desempenho em algumas classes, eles geralmente ficam atrás das CNNs em termos de precisão geral. Meta-Llama Vision Instruct tem uma pontuação F1 de 0,47, com baixa precisão e recall, o que significa que o modelo tem dificuldades tanto em fazer previsões corretas quanto em capturar verdadeiros positivos.

Possíveis razões para as diferenças de desempenho

vantagem da arquitetura CNN

As CNNs tradicionais são especializadas na extração de características em nível de pixel, permitindo a detecção rápida e precisa de objetos com detalhes minuciosos. Suas camadas convolucionais otimizadas e mapas de características hierárquicos possibilitam baixa latência e alto mAP em tarefas padrão de reconhecimento de imagens.

Sobrecarga multimodal em VLMs

Os modelos de visão computacional processam tanto imagens quanto texto, adicionando etapas de atenção cruzada e alinhamento de incorporação. Isso possibilita o raciocínio e a geração de resultados contextuais, mas aumenta o tempo de inferência, resultando em maior latência em comparação com as redes neurais convolucionais (CNNs).

Detecção de classes com granularidade fina

Classes sobrepostas ou sutis (por exemplo, pessoa_sem_capacete vs. pessoa_com_capacete) destacam as diferenças entre os modelos. As CNNs capturam esses detalhes de forma consistente, os VLMs têm bom desempenho em objetos proeminentes, mas apresentam dificuldades com distinções sutis, e as APIs em nuvem se concentram em classes amplas, limitando a precisão.

Confiabilidade da saída estruturada

A geração inconsistente de JSON afeta o desempenho do VLM. Modelos com baixas taxas de sucesso parecem menos eficazes em pipelines, enquanto CNNs e APIs em nuvem produzem resultados previsíveis e determinísticos.

Então, qual você deve escolher?

As CNNs tradicionais são ideais para aplicações em que a velocidade é crucial e os tempos de resposta em milissegundos são importantes, como processamento de vídeo em tempo real, veículos autônomos ou sistemas de segurança industrial. Com sua precisão superior (mAP 0,75–0,81) e inferência extremamente rápida (0,03–0,2 s), esses modelos de IA tradicionais se destacam quando você precisa de desempenho confiável e consistente, sem a sobrecarga do processamento de linguagem natural ou da complexidade do modelo. As CNNs se concentram em dados visuais e tarefas de classificação de imagens , como detecção de objetos, oferecendo precisão visual e eficiência sem a necessidade de ajustes finos em modelos multimodais.

Os Modelos de Linguagem Visual (VLMs) se destacam quando você precisa de compreensão contextual e saídas flexíveis. Esses modelos funcionam tanto em modalidades visuais quanto textuais, permitindo que grandes modelos de linguagem processem entradas de imagem juntamente com descrições textuais. Perfeitos para aplicações que exigem explicações em linguagem natural, legendagem de imagens, tarefas de raciocínio visual ou até mesmo respostas visuais a perguntas, eles utilizam codificadores visuais e camadas de atenção cruzada para alinhar pares de texto e imagem no mesmo espaço dimensional. Embora haja uma latência maior (3 a 12 segundos), as capacidades de raciocínio que eles trazem para a compreensão de imagens, elementos visuais e instruções visuais os tornam ideais para tarefas específicas subsequentes, como moderação inteligente de conteúdo, geração de imagens, raciocínio matemático visual ou assistentes visuais interativos. Ao usar o ajuste fino eficiente de parâmetros com dados de treinamento de alta qualidade, os modelos de linguagem visual (VLMs) se tornam modelos de aprendizado de máquina poderosos que unificam informações visuais e textuais em um espaço de incorporação compartilhado.

As APIs em nuvem fornecem respostas detalhadas e abrangentes com metadados ricos e pontuações de confiança, tornando-as ideais quando você precisa de informações extensas além da simples classificação. Essas APIs geralmente dependem de componentes de codificação visual pré-treinados e codificadores visuais treinados em conjuntos de dados de modelos públicos em larga escala, contendo legendas conceituais e fotos relevantes. Ideais para aplicações que exigem saídas JSON estruturadas, caixas delimitadoras, localização de objetos ou compreensão de vídeos longos, elas são soluções prontas para uso, sem a necessidade de treinamento robusto de modelos ou gerenciamento de infraestrutura. Embora sua precisão seja moderada (mAP 0,61–0,66), elas reduzem os detalhes técnicos e os custos de infraestrutura, possibilitando tarefas como geração automatizada de relatórios, extração de significado semântico e integração de frameworks unificados com modelos generativos existentes.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Calculadora de preços

Modelos de linguagem visual (VLMs) – Principais características e vantagens

Raciocínio multimodal

Os Modelos de Linguagem Visual (VLMs) são modelos multimodais poderosos que podem processar simultaneamente modalidades visuais e textuais, permitindo-lhes interpretar informações visuais e textuais de uma forma mais rica e contextualizada. Ao alinhar a entrada de imagens com instruções em linguagem natural, eles possibilitam tarefas avançadas como legendagem automática de imagens, detecção de capacetes em imagens de segurança, tarefas de raciocínio visual, resposta a perguntas visuais e até mesmo explicação de conteúdo visual em linguagem natural. Diferentemente dos modelos de IA tradicionais que se concentram apenas em dados visuais, os VLMs combinam recursos de visão com o raciocínio de grandes modelos de linguagem, tornando-os ideais para tarefas complexas subsequentes.

Saída estruturada e geração de JSON

Muitos modelos de linguagem de visão podem gerar saídas estruturadas, como JSON, o que é valioso para fluxos de trabalho automatizados e aplicações que requerem descrições textuais juntamente com características de imagem. Em nosso teste de desempenho, ChatGPT-5 e Gemini 2.5 Pro falharam consistentemente, enquanto Meta-Llama Vision Instruct obteve sucesso em apenas cerca de 36% das vezes. Saídas estruturadas são particularmente úteis para assistentes de visão, permitindo tarefas como detecção e localização de objetos, além de gerar dados confiáveis para modelos de aprendizado de máquina sem a necessidade de ajustes extensivos.

Capacidades de ajuste fino

Os VLMs (Modelos de Linguagem Visual) permitem o ajuste fino eficiente de parâmetros com dados de treinamento relativamente pequenos, possibilitando uma rápida adaptação a tarefas de raciocínio visual específicas do domínio. Por exemplo, eles podem ser ajustados para distinguir indivíduos com e sem capacete, ou equipamentos de segurança especializados em cenários de entrada de imagem. Ao aproveitar arquiteturas de codificadores de visão pré-treinadas e técnicas robustas de treinamento de modelos, eles podem generalizar melhor com menos legendas conceituais ou pares de texto e imagem.

Limitações dos modelos de linguagem visual

Latência e velocidade

Em comparação com as CNNs tradicionais ou modelos de visão mais simples, os modelos de linguagem visual geralmente apresentam maior latência, o que pode limitar aplicações em tempo real, como a compreensão de vídeos longos. Alguns modelos multimodais, como o X-AI Vision e o Flash 2.5, são mais próximos das APIs em nuvem em termos de velocidade, mas o Llama é notavelmente mais lento. Essa compensação decorre do design de ponta a ponta do modelo e das camadas de atenção cruzada, que melhoram as capacidades de raciocínio, mas aumentam o tempo de inferência.

Desafios por turma

Os modelos de linguagem visual às vezes têm dificuldades com classes sobrepostas e reconhecimento de objetos com detalhes minuciosos, como diferenciar entre uma "cabeça" e uma "cabeça com capacete" ou entre "pessoa sem capacete" e "pessoa com capacete". Embora alguns modelos tenham bom desempenho em classes com capacete, eles apresentam desempenho inferior em outras tarefas de raciocínio visual, como detecção de rostos ou elementos visuais sutis. Isso destaca a importância de dados de treinamento de alta qualidade e ajustes finos cuidadosos ao direcionar tarefas mais específicas.

Confiabilidade da saída estruturada

A consistência de saídas estruturadas, como JSON, varia amplamente. Embora alguns modelos visuais de linguagem (VLMs) gerem saídas válidas de forma confiável, outros falham em casos de uso específicos, limitando sua utilidade em fluxos de trabalho totalmente automatizados. Mesmo com backbones de codificadores visuais pré-treinados e abordagens de espaço de incorporação compartilhado, alguns modelos ainda não conseguem manter o significado semântico na saída estruturada. Essa inconsistência ressalta a necessidade de um treinamento robusto do modelo, fotos relevantes no conjunto de dados e melhorias contínuas em modelos generativos para modalidades de visão e linguagem.

Metodologia de referência

Realizamos nossa avaliação abrangente usando o conjunto de dados de detecção de capacetes de segurança SHEL5K, utilizando especificamente as primeiras 500 imagens para garantir uma comparação consistente entre todas as arquiteturas de modelo. O conjunto de dados contém sete classes sobrepostas, projetadas para testar as capacidades de detecção de objetos com alta precisão: rosto, cabeça, cabeça_com_capacete, capacete, pessoa, pessoa_sem_capacete e pessoa_com_capacete.

Pré-processamento de dados

As anotações originais do conjunto de dados SHEL5K foram fornecidas em formato XML. Desenvolvemos um pipeline de pré-processamento para converter essas anotações em um formato CSV com múltiplas classes, adequado para avaliação sistemática:

Cada imagem foi mapeada para seus respectivos rótulos de verdade fundamental, criando uma estrutura de avaliação padronizada. Para as CNNs tradicionais, as imagens foram pré-processadas para uma resolução de 224×224 com normalização padrão. Os modelos de linguagem de visão e as APIs em nuvem receberam as imagens em seu formato original para preservar as informações contextuais.

Protocolo tradicional de avaliação de CNN

As redes neurais convolucionais tradicionais (EfficientNet, variantes da ResNet, DenseNet121) foram submetidas a ajustes supervisionados utilizando as melhores práticas estabelecidas:

Configuração do treinamento:

Arquitetura: Modelos pré-treinados com cabeças de classificação modificadas
Função de perda: BCEWithLogitsLoss para classificação multi-rótulo
Otimizador: Adam com taxa de aprendizado 1e-4
Períodos de treinamento: 5
Divisão dos dados: 80% para treinamento, 20% para validação.
Tamanho do lote: 16

estrutura de teste do modelo de linguagem de visão

Os VLMs foram avaliados por meio de instruções cuidadosamente estruturadas, elaboradas para obter respostas consistentes e legíveis por máquina. Nossa abordagem de elaboração de instruções solicitava pontuações de confiança em formato JSON para cada classe.

Configuração da API:

Temperatura: 0,1 (temperatura baixa para consistência)
Número máximo de fichas: 800
Modelos testados por meio da integração da API OpenRouter
Análise sintática de JSON com tratamento de erros e validação de formato.

Acompanhamento da taxa de sucesso: Monitoramos a porcentagem de respostas JSON válidas, visto que os VLMs às vezes geram explicações em linguagem natural em vez de saídas estruturadas. Essa métrica se mostrou crucial para avaliar a viabilidade prática da implementação.

Integração de API na nuvem e mapeamento de rótulos

As APIs em nuvem apresentaram desafios únicos devido à sua natureza de propósito geral e diferentes taxonomias. Desenvolvemos estratégias de mapeamento abrangentes para cada serviço:

Estratégia de mapeamento de rótulos:

As APIs em nuvem apresentam um desafio fundamental: elas não foram projetadas para nossa taxonomia específica de sete classes. Esses serviços retornam rótulos genéricos como "pessoa", "capacete", "trabalhador da construção civil" ou "equipamento de segurança", em vez das combinações precisas que precisamos avaliar (como "pessoa_com_capacete" ou "cabeça_com_capacete").

Para contornar essa limitação, desenvolvemos dicionários de mapeamento abrangentes para cada serviço em nuvem com base em suas saídas. O mapeamento do Azure Computer Vision incluiu mais de 50 variantes de rótulos, abrangendo diferentes maneiras pelas quais a API poderia descrever pessoas (pessoa, homem, mulher, trabalhador, indivíduo), capacetes (capacete, capacete de segurança, boné) e características faciais (rosto, rosto humano, retrato). Mapeamentos extensos semelhantes foram criados para o AWS Rekognition e o Google Cloud Vision, cada um adaptado ao vocabulário e aos padrões de rotulagem específicos de cada serviço.

Lógica de inferência de classe combinada:

O aspecto mais sofisticado da nossa avaliação de APIs na nuvem envolveu a inferência de classes combinadas que as APIs não reconhecem explicitamente. Implementamos uma lógica baseada em regras para detectar quando múltiplos elementos básicos aparecem juntos:

Quando tanto a “pessoa” quanto o “capacete” são detectados na mesma imagem com confiança suficiente, o sistema infere “pessoa_com_capacete” usando a menor pontuação de confiança entre as duas detecções (abordagem conservadora). Da mesma forma, a detecção simultânea de “cabeça” e “capacete” aciona a classificação “cabeça_com_capacete”.

Para classificações negativas, quando uma pessoa é detectada, mas nenhum capacete é encontrado, o sistema infere "pessoa_sem_capacete" com uma confiança ligeiramente reduzida (90% da confiança original da pessoa) para levar em conta a incerteza inerente à inferência negativa.

Essa abordagem reconhece que as APIs em nuvem são excelentes na detecção de objetos individuais, mas têm dificuldades com o raciocínio relacional sobre combinações de objetos — uma limitação fundamental na avaliação de tarefas de classificação detalhadas e dependentes do contexto.

Métricas de avaliação e análise estatística

Métricas primárias:

Precisão Média (mAP): Medida primária de precisão usando a média macro entre as classes.
Precisão, Revocação, Pontuação F1: Médias microcalculadas para avaliação do desempenho geral.
Precisão por classe: desempenho individual de cada classe para análise detalhada.
Latência: Tempo de processamento de ponta a ponta por imagem.
Taxa de sucesso: Percentagem de resultados válidos (particularmente relevante para VLMs)

Seleção do limiar: Um limiar de classificação de 0,5 foi aplicado de forma consistente em todos os modelos, com os VLMs utilizando escores de confiança e os modelos tradicionais utilizando logits ativados por sigmoide.

Robustez estatística: Cada modelo foi avaliado em conjuntos de imagens idênticos com pré-processamento consistente para garantir uma comparação justa. As medições de latência foram calculadas como a média de várias execuções para levar em conta a variabilidade do sistema.

Controles e limitações experimentais

Controles implementados:

Conjunto de teste idêntico de 500 imagens em todos os modelos.
Métricas e limites de avaliação consistentes
Procedimentos padronizados de tratamento de erros e de tempo limite
Rotação múltipla de chaves de API para lidar com limites de taxa.

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por

Nazlı Şipi

Pesquisador de IA

Nazlı é analista de dados na AIMultiple. Ela possui experiência prévia em análise de dados em diversos setores, onde trabalhou na transformação de conjuntos de dados complexos em insights acionáveis.

Ver perfil completo