Modelos de incrustación multimodal: Apple vs Meta vs OpenAI

con

actualizado el May 20, 2026

Los modelos de incrustación multimodal destacan en la identificación de objetos, pero tienen dificultades con las relaciones. Los modelos actuales tienen problemas para distinguir entre "teléfono en un mapa" y "mapa en un teléfono". Para medir esta limitación específica, comparamos siete modelos líderes de MS-COCO y Winoground.

Para garantizar una comparación justa, evaluamos cada modelo en condiciones idénticas utilizando hardware A40 (NVIDIA) y precisión bfloat16. Esta configuración determinista revela qué modelos comprenden realmente la estructura de la escena y cuáles son simplemente sofisticados sistemas de búsqueda de palabras clave.

Resultados de referencia de los modelos de incrustación multimodal

Loading Chart

Explicación de las métricas

T2I R@1 (Text-to-Image recall@1): Dado un pie de foto, ¿puede el modelo clasificar la imagen correcta como la número uno entre 5000 candidatas? Esta es la métrica de recuperación más difícil porque no se otorga crédito parcial por clasificar en segundo lugar.
I2T R@1 (Image-to-Text recall@1): Dada una imagen, ¿puede el modelo clasificar cualquiera de los cinco subtítulos de referencia como el número uno entre 25 000? Las puntuaciones son aproximadamente 20 puntos porcentuales más altas que en T2I porque hay cinco respuestas válidas en lugar de una.
Imagen de Winoground: Dadas dos imágenes y dos subtítulos que difieren únicamente en su estructura («teléfono en un mapa» frente a «mapa en un teléfono»), ¿puede el modelo emparejar correctamente ambos pares? La probabilidad aleatoria es del 25 por ciento.

Principales conclusiones

La Apple DFN5B-H logra la mayor precisión de recuperación (50,1 por ciento T2I R@1) y la mayor puntuación de razonamiento compositivo (35,2 por ciento en Winoground).
El razonamiento compositivo sigue siendo deficiente en todos los modelos. Incluso el rendimiento del 35,2 por ciento de Apple apenas supera el 25 por ciento de referencia aleatoria.
OpenAI CLIP muestra su antigüedad, quedando entre 10 y 16 puntos porcentuales por detrás de los modelos modernos a pesar de tener una arquitectura similar.

Nota: Las puntuaciones I2T son aproximadamente 20 puntos porcentuales más altas que las T2I debido a un artefacto del protocolo. Cada imagen tiene cinco leyendas válidas, mientras que cada leyenda se corresponde con una sola imagen válida. Consulte la sección de metodología para obtener más detalles.

Cómo funcionan los modelos de incrustación multimodal

Antes de adentrarnos en los detalles de la evaluación comparativa, es fundamental comprender qué hacen realmente estos modelos y dónde fallan.

El mecanismo central

Un modelo de incrustación multimodal convierte tanto imágenes como texto en vectores numéricos, que son listas de números que ocupan el mismo espacio geométrico. Los conceptos similares se agrupan, mientras que los conceptos diferentes se encuentran más separados.

Para realizar una búsqueda, se calcula qué vector de imagen es el más cercano al vector de texto. Por eso, la búsqueda basada en incrustaciones es rápida: se comparan números, no se "comprende" el significado en un sentido humano.

Dónde se avería

Observa lo que sucede con subtítulos de composición diferente:

Los vectores son casi idénticos. Ambos subtítulos contienen los mismos conceptos: {teléfono, mapa, encendido}. El modelo codifica lo que está presente, pero pierde la forma en que las cosas se relacionan.

Este es el problema de la bolsa de palabras . El modelo ve los mismos "ingredientes" y produce incrustaciones similares, aunque las escenas sean completamente diferentes. En una, el teléfono está arriba; en la otra, el mapa. La estructura relacional desaparece durante la codificación.

Tareas de evaluación: Recuperación vs. razonamiento

MS-COCO: Encontrar una aguja en un pajar

La configuración:
Una galería de 5000 imágenes contiene grupos de contenido similar, incluyendo cientos de escenas al aire libre, decenas de vehículos y numerosas áreas y estructuras de almacenamiento. Cada imagen tiene cinco leyendas diferentes escritas por distintos anotadores, para un total de 25 000 leyendas.

La consulta: “Una motocicleta estacionada debajo de una estructura de madera junto con otros objetos”.

La imagen:

La misma imagen también podría describirse como:

“Motocicleta negra estacionada bajo un alero al aire libre.”
“Motocicleta estacionada bajo techo en un patio cercado.”

Cada texto se prueba por separado, y el modelo debe encontrar la imagen correcta independientemente de cómo esté redactado.

La tarea:
Encuentra la única imagen específica que coincida. No cualquier motocicleta, ni cualquier estructura de madera, sino esta escena exacta entre 5000 candidatas.

La métrica: Recall@1
Binario e implacable. Imagen correcta en primer lugar = Acierto. Imagen en segundo lugar = Fallo. No se otorgan créditos parciales.

Winoground: Entendiendo quién le hizo qué a quién

La configuración:
400 pares adversarios. Cada uno contiene 2 imágenes y 2 subtítulos que difieren únicamente en su estructura compositiva.

La consulta:

Leyenda A: “Hay un teléfono en un mapa”
Leyenda B: “ Hay un mapa en un teléfono ”

Ambos subtítulos contienen exactamente los mismos conceptos: {teléfono, mapa, sobre}. La única diferencia es qué objeto está encima de cuál .

La imagen:

La tarea:
Relaciona simultáneamente ambos pies de foto con sus imágenes correspondientes. El pie de foto A debe coincidir con la imagen A (teléfono sobre el mapa), y el pie de foto B debe coincidir con la imagen B (mapa en la pantalla del teléfono). No se otorgan puntos parciales: si solo aciertas una imagen, se considera que has fallado.

La métrica: Puntuación de la imagen
Binario e implacable. Si ambos pares coinciden correctamente, se obtiene un acierto. Si uno o ninguno coincide, se obtiene un fallo. La probabilidad aleatoria es del 25 %.

Más ejemplos de Winoground:

Por qué fallan los modelos en la composición

Las bajas puntuaciones de Winoground (30-40% frente a una línea base aleatoria del 25%) indican que los modelos actuales tienen dificultades con este tipo específico de razonamiento compositivo. Sin embargo, cabe hacer algunas salvedades:

Tamaño de muestra pequeño : Winoground contiene solo 400 ejemplos, lo que proporciona intervalos de confianza de aproximadamente ±5 puntos porcentuales. Esto lo convierte en un indicador útil, pero no en una prueba definitiva de las capacidades de composición.
Alcance de la tarea específico pero diverso : Winoground evalúa múltiples tipos de razonamiento compositivo, incluyendo relaciones espaciales (sobre/encima/debajo), intercambios agente-paciente (quién hace qué a quién), vinculación de atributos (asignación de color/tamaño), cuantificadores (más/menos, conteo), coordinación de acciones (sentarse/ponerse de pie), ordenamiento temporal (antes/después), negación (con/sin) y ambigüedad de alcance. Esta diversidad convierte a Winoground en una herramienta eficaz para analizar la comprensión compositiva en diversos fenómenos lingüísticos.

Análisis técnico y recomendaciones de implementación

La calidad de los datos supera la escala del modelo.

Apple, LAION y MetaCLIP utilizan la misma arquitectura ViT-H/14 (parámetros de 630M).

La ventaja de Apple de +3,8 puntos porcentuales parece deberse principalmente a su enfoque de Red de Filtrado de Datos (DFN, por sus siglas en inglés).

Curación automatizada: En lugar de usar solo subtítulos sintéticos, Apple entrenó un modelo de aprendizaje para filtrar rigurosamente los datos de entrenamiento. El modelo aprendió a identificar y descartar pares de imágenes y texto con ruido del enorme conjunto de datos web.
La implicación es la siguiente: en la vanguardia, las mejoras provienen de la calidad de la selección de datos (elegir los datos correctos) más que de la simple síntesis o la escala bruta.

La implicación es que, en la vanguardia, las mejoras provienen de mejores datos, no de arquitecturas más grandes.

Comprender el nivel de rendimiento del 50%

MS-COCO se diseñó con imágenes distintivas y cuidadosamente seleccionadas, donde cada pie de foto describe una escena específica. Si bien existen pequeñas ambigüedades (por ejemplo, dos escenas de estacionamiento similares), los creadores del conjunto de datos seleccionaron intencionalmente imágenes visualmente distinguibles.

La precisión del 50 % refleja que los modelos realmente no logran clasificar la imagen correcta en primer lugar, y no una penalización injusta por seleccionar alternativas igualmente válidas.

¿Por qué OpenAI CLIP se retrasa entre 10 y 16 páginas?

CLIP-L (2021) de OpenAI obtiene un 34,4 % de T2I R@1, mientras que los modelos modernos que utilizan arquitecturas ViT similares alcanzan entre el 44 % y el 50 %. Esta diferencia de 10 a 16 puntos porcentuales refleja tres años de progreso:

Si bien los principios arquitectónicos básicos se mantuvieron similares (transformadores de visión con aprendizaje contrastivo), los modelos modernos duplicaron su tamaño. Sin embargo, la mayor parte de las mejoras en el rendimiento provinieron de técnicas de entrenamiento y curación de datos optimizadas, más que de la innovación arquitectónica por sí sola.

ColPali: Priorizando la flexibilidad arquitectónica sobre la velocidad.

ColPali representa un enfoque arquitectónico diferente: en lugar de codificar cada imagen en un solo vector, produce 1030 incrustaciones de parches mediante interacción tardía. Esta elección de diseño genera varias desventajas:

Ventajas:

Recuperación más simétrica : ColPali muestra una diferencia de solo 3,9 pp entre I2T (48,8 %) y T2I (44,9 %), en comparación con diferencias de 16 a 24 pp en modelos densos. Esto sugiere que codifica la estructura de la imagen de manera más uniforme.
Flexibilidad arquitectónica : La interacción tardía permite una correspondencia precisa entre tokens de texto y parches de imagen, lo que puede resultar beneficioso para dominios especializados.

Desventajas:

Sobrecarga de almacenamiento : Cada imagen requiere 1030 vectores en lugar de 1, lo que aumenta el tamaño del índice en aproximadamente 1000 veces.

Menor rendimiento general : ColPali ocupa el 4.º puesto en nuestra prueba comparativa (44,9 % T2I), quedando 5,2 pp por detrás de los mejores modelos densos (frente a Apple DFN5B-H, que alcanza el 50,1 %).

Coste computacional : Requiere tamaños de lote 4 veces menores (4 frente a 32) debido a la sobrecarga de memoria que suponen las 1030 incrustaciones por imagen. Esto se traduce en una indexación más lenta y mayores costes de servicio a gran escala.

¿Qué modelo debería usar?

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Metodología

Hardware y software

GPU: NVIDIA A40 (48 GB VRAM) vía RunPod
Precisión: bfloat16
Marco: PyTorch 2.4.0, CUDA 12.1
Bibliotecas: transformers==4.44.0 , datasets==2.20.0

Modelos evaluados

Utilizamos los siguientes pesos de modelo específicos del Hub Hugging Face. Todos los modelos se cargaron con precisión bfloat16 directamente desde estos repositorios sin modificaciones.

Protocolo de inferencia

Los modelos densos (CLIP/SigLIP) se evaluaron con un tamaño de lote de 32, ya que un solo vector por imagen permite un alto paralelismo. ColPali utilizó un tamaño de lote de 4, dado que sus 1030 incrustaciones de parches por imagen requieren mucha más memoria.

Protocolo de evaluación

Zero-Shot: Modelos evaluados directamente con los pesos Hugging Face. Sin ajustes finos.
Determinista: Semilla aleatoria fijada en 42. Mismo orden de conjuntos de datos para todos los modelos.
Divisiones estándar: prueba de Yerevann/Coco-Karpathy (5000 imágenes), validación de Facebook/Winoground.

La brecha entre I2T y T2I

Las puntuaciones I2T son consistentemente ~20 pp más altas que las T2I debido a la probabilidad estadística , no a un error del modelo.

T2I (Texto a Imagen): El modelo debe encontrar 1 imagen específica entre 5000. (Grupo objetivo = 1).
I2T (Imagen a texto): El modelo puede coincidir con cualquiera de los 5 subtítulos válidos asociados a esa imagen. (Grupo objetivo = 5).

Debido a que la tarea I2T ofrece cinco respuestas "correctas" distintas para cada consulta, la tasa de éxito se ve naturalmente inflada en comparación con la estricta correspondencia uno a uno que se requiere en T2I.

Limitaciones

Tamaño de la muestra de Winoground

Con 400 muestras se obtienen intervalos de confianza de aproximadamente ±5 pp con una precisión del 35 %. Los resultados son indicativos , no definitivos. Existen conjuntos de datos de referencia más amplios (ARO, SugarCrepe), pero requieren una infraestructura diferente.

Solo disparos de cero disparos

No se requiere un ajuste fino del dominio. Las aplicaciones médicas, legales o satelitales podrían experimentar mejoras de 5 a 10 puntos porcentuales con capacitación específica del dominio.

Limitaciones del conjunto de datos:

MS-COCO y Winoground evalúan aspectos específicos de la comprensión multimodal. El rendimiento en estas pruebas de referencia no garantiza resultados similares en tareas específicas de un dominio ni en otras pruebas de razonamiento compositivo.

Conclusión

Los modelos de incrustación multimodal actuales son buenos para el reconocimiento de objetos, pero tienen dificultades con el razonamiento compositivo.

Para búsquedas estándar («encontrar fotos de motocicletas»), cualquier modelo de los tres primeros resultados funciona bien. Para consultas relacionales («teléfono en un mapa» frente a «mapa en un teléfono»), espere una precisión máxima del 30-40 %.

Según nuestros hallazgos y las tendencias de investigación actuales, existen varios enfoques que pueden mejorar el rendimiento:

Calidad de los datos por encima de la escala : la ventaja de +3,8 pp de Apple utilizando la misma arquitectura ViT-H sugiere que la selección de datos de entrenamiento contribuye significativamente, aunque esto se basa en una sola comparación.
Datos de entrenamiento compositivos : Incluir negativos duros con variaciones relacionales durante el entrenamiento podría, en teoría, mejorar la sensibilidad compositiva, aunque esto aún no se ha probado a gran escala.
Arquitecturas híbridas : Las arquitecturas de dos etapas (recuperación densa → reclasificación de interacciones tardías) combinan velocidad con precisión, aunque nuestras pruebas de rendimiento muestran que aún no superan a los modelos densos en estas tareas.

Hasta que cambien los paradigmas de formación, la comprensión de la composición seguirá siendo una frontera abierta.

Lecturas adicionales

Explore otros puntos de referencia RAG, como:

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Investigado por