Os modelos de incorporação multimodal são excelentes na identificação de objetos, mas têm dificuldades com relacionamentos. Os modelos atuais têm dificuldade em distinguir "telefone em um mapa" de "mapa em um telefone". Comparamos 7 dos principais modelos do MS-COCO e do Winoground para avaliar essa limitação específica.
Para garantir uma comparação justa, avaliamos cada modelo em condições idênticas usando hardware A40 e precisão bfloat16. Essa configuração determinística revela quais modelos realmente entendem a estrutura da cena e quais são simplesmente sofisticados mecanismos de correspondência de palavras-chave.
Resultados de referência de modelos de incorporação multimodal
Explicação das métricas
- T2I R@1 (Recall de Texto para Imagem@1): Dada uma legenda, o modelo consegue classificar a imagem correta como número um entre 5.000 candidatas? Esta é a métrica de recuperação mais difícil, pois não há crédito parcial para a segunda posição.
- I2T R@1 (Recall de Imagem para Texto@1): Dada uma imagem, o modelo consegue classificar alguma das cinco legendas verdadeiras como número um entre 25.000? As pontuações são aproximadamente 20 pontos percentuais maiores do que T2I porque existem cinco respostas válidas em vez de uma.
- Imagem Winoground: Dadas duas imagens e duas legendas que diferem apenas na estrutura (“telefone em um mapa” versus “mapa em um telefone”), o modelo consegue identificar corretamente ambos os pares? A probabilidade aleatória é de 25%.
Principais conclusões
- O Apple DFN5B-H alcançou a maior precisão de recuperação (50,1% T2I R@1) e a maior pontuação de raciocínio composicional (35,2% no Winoground).
- O raciocínio composicional continua fraco em todos os modelos. Mesmo o desempenho da Apple, de 35,2%, mal supera a linha de base aleatória de 25%.
- O CLIP (OpenAI) mostra sua idade, ficando 10 a 16 pontos percentuais atrás dos modelos modernos, apesar de ter uma arquitetura semelhante.
Nota: As pontuações I2T são aproximadamente 20 pontos percentuais superiores às T2I devido a um artefato do protocolo. Cada imagem possui cinco legendas válidas, enquanto cada legenda corresponde a apenas uma imagem válida. Consulte a seção de metodologia para obter detalhes.
Como funcionam os modelos de incorporação multimodal
Antes de analisarmos os detalhes dos benchmarks, é essencial entender o que esses modelos realmente fazem e onde eles falham.
O mecanismo central
Um modelo de incorporação multimodal converte imagens e texto em vetores numéricos, que são listas de números que ocupam o mesmo espaço geométrico. Conceitos semelhantes agrupam-se, enquanto conceitos diferentes ficam mais distantes uns dos outros.
Para pesquisar, você calcula qual vetor de imagem está mais próximo do seu vetor de texto. É por isso que a pesquisa baseada em embeddings é rápida: você está comparando números, não "entendendo" o significado no sentido humano.
Onde ele quebra
Observe o que acontece com legendas de composição diferente:
Os vetores são quase idênticos. Ambas as legendas contêm os mesmos conceitos: {telefone, mapa, ligado}. O modelo codifica o que está presente, mas perde a noção de como as coisas se relacionam.
Este é o problema do saco de palavras . O modelo vê os mesmos "ingredientes" e produz representações vetoriais semelhantes, mesmo que as cenas sejam completamente diferentes. Em uma, o telefone está em cima. Na outra, é o mapa. A estrutura relacional desaparece durante a codificação.
Tarefas de avaliação: Recuperação versus raciocínio
MS-COCO: Encontrando uma agulha no palheiro
A configuração:
Uma galeria com 5.000 imagens contém agrupamentos de conteúdo semelhante, incluindo centenas de cenas externas, dezenas de veículos e inúmeras áreas e estruturas de armazenamento. Cada imagem possui cinco legendas diferentes , escritas por diferentes anotadores, totalizando 25.000 legendas.
A pergunta: “Uma motocicleta estacionada sob uma estrutura de madeira junto com outros objetos.”
A imagem:
A mesma imagem também poderia ser descrita como:
- “Motocicleta preta estacionada sob uma cobertura ao ar livre.”
- “Motocicleta estacionada em área coberta em quintal cercado.”
Cada legenda é testada separadamente, e o modelo deve encontrar a imagem correta, independentemente de como ela seja formulada.
A tarefa:
Encontre a única imagem específica que corresponde. Não qualquer motocicleta, não qualquer estrutura de madeira, mas esta cena exata entre 5.000 candidatas.
A métrica: Recall@1
Binário e implacável. Imagem correta classificada em 1º lugar = Acerto. Classificada em 2º lugar = Erro. Sem crédito parcial.
Winoground: Entendendo quem fez o quê para quem
A configuração:
400 pares adversários. Cada par contém 2 imagens e 2 legendas que diferem apenas na estrutura composicional.
A pergunta:
- Legenda A: “Há um telefone em um mapa”
- Legenda B: “ Há um mapa em um telefone ”
Ambas as legendas contêm exatamente os mesmos conceitos: {telefone, mapa, ligado}. A única diferença é qual objeto está em cima de qual .
A imagem:
A tarefa:
Combine as duas legendas com suas respectivas imagens simultaneamente. A legenda A deve corresponder à Imagem A (celular apoiado no mapa) e a legenda B deve corresponder à Imagem B (mapa exibido no celular). Não há pontuação parcial: acertar apenas uma das legendas será considerado uma falha.
A métrica: Pontuação da imagem
Binário e implacável. Ambos os pares correspondem corretamente = Acerto. Um ou nenhum acerto = Erro. A probabilidade aleatória é de 25%.
Mais exemplos da Winoground:
Por que os modelos falham na composição?
As baixas pontuações do Winoground (30-40% vs. 25% da linha de base aleatória) indicam que os modelos atuais têm dificuldades com esse tipo específico de raciocínio composicional. No entanto, algumas ressalvas se aplicam:
- Tamanho de amostra pequeno : o Winoground contém apenas 400 exemplos, resultando em intervalos de confiança de aproximadamente ±5 pontos percentuais. Isso o torna útil como um indicador, mas não como uma prova definitiva das capacidades de composição.
- Escopo de tarefas específico, porém diversificado : o Winoground testa múltiplos tipos de raciocínio composicional, incluindo relações espaciais (em cima/acima/abaixo), trocas de agente-paciente (quem faz o quê para quem), vinculação de atributos (atribuições de cor/tamanho), quantificadores (mais/menos, contagem), coordenação de ações (senta/fica em pé), ordenação temporal (antes/depois), negação (com/sem) e ambiguidade de escopo. Essa diversidade torna o Winoground uma ferramenta eficaz para investigar a compreensão composicional em diversos fenômenos linguísticos.
Análise técnica e recomendações de implementação
A qualidade dos dados supera a escala do modelo.
Apple, LAION e MetaCLIP usam a mesma estrutura ViT-H/14 (parâmetros 630M).
A vantagem de +3,8 pontos percentuais da Apple parece derivar principalmente de sua abordagem de Rede de Filtragem de Dados (DFN).
- Curadoria automatizada: em vez de simplesmente usar legendas sintéticas, a Apple treinou um modelo para filtrar agressivamente os dados de treinamento. O modelo aprendeu a identificar e descartar pares de imagem e texto ruidosos do enorme conjunto de dados da web.
- A implicação: Na vanguarda, as melhorias vêm da qualidade da curadoria (seleção dos dados corretos) e não apenas da síntese ou da escala bruta.
A implicação: na vanguarda da computação, as melhorias vêm de dados melhores, não de arquiteturas maiores.
Entendendo o nível de desempenho de 50%
O MS-COCO foi projetado com imagens distintas e selecionadas, onde cada legenda descreve uma cena específica. Embora existam pequenas ambiguidades (por exemplo, duas cenas semelhantes de estacionamento), os criadores do conjunto de dados selecionaram intencionalmente imagens visualmente distintas.
A precisão de 50% reflete o fato de os modelos realmente não conseguirem classificar a imagem correta em primeiro lugar, e não uma penalização injusta por selecionar alternativas igualmente válidas.
Por que OpenAI CLIP segue por 10-16 páginas
O modelo CLIP-L (2021) de OpenAI alcança 34,4% de T2I R@1, enquanto modelos modernos que utilizam arquiteturas ViT semelhantes atingem 44-50%. Essa diferença de 10 a 16 pontos percentuais reflete três anos de progresso:
Embora os princípios arquitetônicos fundamentais tenham permanecido semelhantes (transformadores de visão com aprendizado contrastivo), os modelos modernos dobraram de tamanho. No entanto, a maior parte dos ganhos de desempenho veio da melhoria na curadoria de dados e nas técnicas de treinamento, e não apenas da inovação arquitetônica.
ColPali: Trocar velocidade por flexibilidade arquitetônica
O ColPali representa uma abordagem arquitetônica diferente: em vez de codificar cada imagem em um único vetor, ele produz 1.030 incorporações de patches usando interação tardia. Essa escolha de design cria diversas compensações:
Vantagens:
- Recuperação mais simétrica : o ColPali mostra uma diferença de apenas 3,9 pp entre I2T (48,8%) e T2I (44,9%), em comparação com diferenças de 16 a 24 pp em modelos densos. Isso sugere que ele codifica a estrutura da imagem de forma mais uniforme.
- Flexibilidade arquitetônica : A interação tardia permite uma correspondência precisa entre tokens de texto e patches de imagem, o que pode beneficiar domínios especializados.
Desvantagens:
- Sobrecarga de armazenamento : Cada imagem requer 1.030 vetores em vez de 1, aumentando o tamanho do índice em cerca de 1.000 vezes.
- Desempenho geral inferior : o ColPali ocupa o 4º lugar em nosso benchmark (44,9% T2I), ficando 5,2 pontos percentuais atrás dos melhores modelos densos (contra 50,1% do Apple DFN5B-H).
Custo computacional : Requer tamanhos de lote 4 vezes menores (4 em vez de 32) devido à sobrecarga de memória causada por 1.030 embeddings por imagem. Isso se traduz em indexação mais lenta e custos de serviço mais altos em grande escala.
Qual modelo você deve usar?
Metodologia
Hardware e software
- GPU: NVIDIA A40 (48 GB de VRAM) via RunPod
- Precisão: bfloat16
- Estrutura: PyTorch 2.4.0, CUDA 12.1
- Bibliotecas:
transformers==4.44.0,datasets==2.20.0
Modelos avaliados
Utilizamos os seguintes pesos de modelo específicos do Hub Hugging Face. Todos os modelos foram carregados com precisão bfloat16 diretamente desses repositórios, sem modificações.
Protocolo de inferência
Os modelos densos (CLIP/SigLIP) foram avaliados com um tamanho de lote de 32, visto que um único vetor por imagem permite alto paralelismo. O ColPali utilizou um tamanho de lote de 4, pois seus 1.030 embeddings de patches por imagem requerem significativamente mais memória.
Protocolo de avaliação
- Zero-Shot: Modelos avaliados sem qualquer ajuste fino, utilizando os pesos Hugging Face.
- Determinístico: Semente aleatória fixada em 42. Mesma ordem do conjunto de dados para todos os modelos.
- Divisões padrão: teste yerevann/coco-karpathy (5.000 imagens), validação facebook/winoground.
A diferença entre I2T e T2I
As pontuações I2T são consistentemente cerca de 20 pontos percentuais mais altas do que as T2I devido à probabilidade estatística , e não a erro do modelo.
- T2I (Texto para Imagem): O modelo deve encontrar 1 imagem específica entre 5.000. (Conjunto alvo = 1).
- I2T (Imagem para Texto): O modelo pode corresponder a qualquer uma das 5 legendas válidas associadas a essa imagem. (Conjunto alvo = 5).
Como a tarefa I2T oferece cinco respostas 'corretas' distintas para cada pergunta, a taxa de sucesso é naturalmente maior em comparação com o mapeamento estrito um-para-um exigido na tarefa T2I.
Limitações
tamanho da amostra Winoground
400 amostras geram intervalos de confiança de aproximadamente ±5 pontos percentuais com 35% de precisão. Os resultados são indicativos , não definitivos. Existem benchmarks maiores (ARO, SugarCrepe), mas exigem infraestrutura diferente.
Somente Zero-Shot
Sem necessidade de ajustes específicos de domínio. Aplicações médicas, jurídicas ou de satélite poderiam apresentar melhorias de 5 a 10 pontos percentuais com treinamento específico para cada domínio.
Limitações do conjunto de dados:
MS-COCO e Winoground testam aspectos específicos da compreensão multimodal. O desempenho nesses testes de referência não garante resultados semelhantes em tarefas específicas de domínio ou em outros testes de raciocínio composicional.
Conclusão
Os modelos atuais de incorporação multimodal são bons no reconhecimento de objetos, mas têm dificuldades com o raciocínio composicional.
Para buscas padrão (“encontrar fotos de motocicletas”), qualquer modelo top-3 funciona bem. Para consultas relacionais (“telefone em um mapa” vs. “mapa em um telefone”), espere uma precisão de 30 a 40%, no máximo.
Com base em nossas descobertas e nas tendências atuais de pesquisa, diversas abordagens podem melhorar o desempenho:
- Qualidade dos dados em detrimento da escala : a vantagem de +3,8 pontos percentuais da Apple usando a mesma arquitetura ViT-H sugere que a curadoria dos dados de treinamento contribui significativamente, embora isso se baseie em uma única comparação.
- Dados de treinamento composicional : Incluir negativos difíceis com variações relacionais durante o treinamento poderia, teoricamente, melhorar a sensibilidade composicional, embora isso ainda não tenha sido testado em larga escala.
- Arquiteturas híbridas : Pipelines de dois estágios (recuperação densa → reclassificação de interação tardia) combinam velocidade com precisão, embora nosso benchmark mostre que isso ainda não supera os modelos densos nessas tarefas.
Enquanto os paradigmas de treinamento não mudarem, a compreensão da composição permanecerá uma fronteira aberta.
Leitura complementar
Explore outros benchmarks RAG, como:
- Modelos de incorporação: OpenAI vs Gemini vs Cohere
- Banco de dados de vetores principais para RAG: Qdrant vs Weaviate vs Pinecone
- Benchmark RAG agenic: roteamento em múltiplos bancos de dados e geração de consultas
- 11 Modelos de Incorporação de Código Aberto para RAG
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.