Multimodale Einbettungsmodelle: Apple vs. Meta vs. OpenAI

mit

aktualisiert am Mai 20, 2026

Multimodale Einbettungsmodelle eignen sich hervorragend zur Objekterkennung, haben aber Schwierigkeiten mit Beziehungen. Aktuelle Modelle können beispielsweise nicht zwischen „Telefon auf einer Karte“ und „Karte auf einem Telefon“ unterscheiden. Wir haben sieben führende Modelle in MS-COCO und Winoground verglichen, um diese spezifische Einschränkung zu untersuchen.

Um einen fairen Vergleich zu gewährleisten, haben wir jedes Modell unter identischen Bedingungen mit A40-Hardware und bfloat16-Genauigkeit evaluiert. Diese deterministische Konfiguration zeigt, welche Modelle die Szenenstruktur tatsächlich verstehen und welche lediglich ausgefeilte Keyword-Matcher sind.

Benchmark-Ergebnisse für multimodale Einbettungsmodelle

Loading Chart

Erläuterung der Kennzahlen

T2I R@1 (Text-zu-Bild-Recall@1): Kann das Modell anhand einer Bildunterschrift das richtige Bild unter 5.000 Kandidaten als Nummer eins einstufen? Dies ist die schwierigste Metrik für die Bildwiedergewinnung, da es keine Teilpunkte für den zweiten Platz gibt.
I2T R@1 (Image-to-Text recall@1): Kann das Modell anhand eines Bildes eine der fünf korrekten Bildunterschriften unter 25.000 als die beste einstufen? Die Ergebnisse liegen etwa 20 Prozentpunkte höher als bei T2I, da es fünf gültige Antworten anstelle von nur einer gibt.
Winoground-Bild: Gegeben seien zwei Bilder und zwei Bildunterschriften, die sich nur in ihrer Struktur unterscheiden („Telefon auf einer Karte“ versus „Karte auf einem Telefon“). Kann das Modell beide Paare korrekt zuordnen? Die Zufallswahrscheinlichkeit beträgt 25 Prozent.

Wichtigste Erkenntnisse

Apple DFN5B-H erzielt die höchste Abrufgenauigkeit (50,1 Prozent T2I R@1) und den höchsten Wert für kompositionelles Schließen (35,2 Prozent auf Winoground).
Das Kompositionsverständnis bleibt bei allen Modellen weiterhin schwach. Selbst Apples Trefferquote von 35,2 Prozent übertrifft kaum den zufälligen Basiswert von 25 Prozent.
Der CLIP (Modelljahr 1915) zeigt sein Alter und liegt trotz ähnlicher Architektur 10 bis 16 Prozentpunkte hinter modernen Modellen zurück.

Hinweis: Die I2T-Werte liegen aufgrund eines Protokollartefakts etwa 20 Prozentpunkte höher als die T2I-Werte. Jedes Bild hat fünf gültige Bildunterschriften, wobei jede Bildunterschrift nur einem gültigen Bild zugeordnet ist. Details finden Sie im Abschnitt „Methodik“ .

Wie multimodale Einbettungsmodelle funktionieren

Bevor wir uns mit den Details der Benchmarks befassen, ist es wichtig zu verstehen, was diese Modelle tatsächlich leisten und wo ihre Grenzen liegen.

Der Kernmechanismus

Ein multimodales Einbettungsmodell wandelt sowohl Bilder als auch Texte in numerische Vektoren um, also in Listen von Zahlen, die denselben geometrischen Raum belegen. Ähnliche Konzepte gruppieren sich, während unähnliche Konzepte weiter voneinander entfernt sind.

Für die Suche berechnet man, welcher Bildvektor dem Textvektor am nächsten kommt. Deshalb ist die einbettungsbasierte Suche schnell: Man vergleicht Zahlen, anstatt Bedeutung im menschlichen Sinne zu „verstehen“.

Wo es kaputt geht

Beobachten Sie, was bei unterschiedlich gestalteten Untertiteln passiert:

Die Vektoren sind nahezu identisch. Beide Beschriftungen enthalten dieselben Konzepte: {Telefon, Karte, an}. Das Modell kodiert das Vorhandene, verliert aber die Beziehungen zwischen den Elementen.

Dies ist das Bag-of-Words-Problem . Das Modell sieht dieselben „Zutaten“ und erzeugt ähnliche Einbettungen, obwohl die Szenen völlig unterschiedlich sind. In der einen Szene steht das Telefon im Vordergrund, in der anderen die Karte. Die relationale Struktur geht während der Kodierung verloren.

Bewertungsaufgaben: Abruf vs. Schlussfolgern

MS-COCO: Die Suche nach der Nadel im Heuhaufen

Die Ausgangslage:
Eine Galerie mit 5.000 Bildern enthält thematisch ähnliche Gruppen, darunter Hunderte von Außenaufnahmen, Dutzende von Fahrzeugen sowie zahlreiche Lagerbereiche und Gebäude. Jedes Bild ist mit fünf verschiedenen Bildunterschriften versehen, die von unterschiedlichen Bearbeitern verfasst wurden – insgesamt also 25.000 Bildunterschriften.

Die Anfrage: „Ein Motorrad, das unter einer Holzkonstruktion zusammen mit anderen Gegenständen geparkt ist.“

Das Bild:

Dasselbe Bild könnte auch wie folgt beschrieben werden:

„Schwarzes Motorrad, das im Freien unter einem Vordach steht.“
„Motorrad geparkt unter einem überdachten Bereich im umzäunten Hof.“

Jede Bildunterschrift wird einzeln getestet, und das Modell muss unabhängig von der Formulierung das richtige Bild finden.

Die Aufgabe:
Finden Sie das eine passende Bild . Nicht irgendein Motorrad, nicht irgendein Holzgebäude, sondern genau diese Szene unter 5.000 Kandidaten.

Die Kennzahl: Recall@1
Binär und unerbittlich. Korrektes Bild auf Platz 1 = Treffer. Bild auf Platz 2 = Fehlschlag. Keine Teilpunkte.

Weingrund: Verstehen, wer wem was angetan hat.

Die Ausgangslage:
400 gegensätzliche Paare. Jedes Paar enthält 2 Bilder und 2 Bildunterschriften, die sich nur in ihrer Komposition unterscheiden.

Die Anfrage:

Bildunterschrift A: „Auf der Karte ist ein Telefon eingezeichnet.“
Bildunterschrift B: „ Da ist eine Karte auf dem Handy. “

Beide Bildunterschriften enthalten exakt dieselben Konzepte: {Telefon, Karte, auf}. Der einzige Unterschied besteht darin , welches Objekt über welchem liegt .

Das Bild:

Die Aufgabe:
Ordnen Sie beide Bildunterschriften gleichzeitig den richtigen Bildern zu. Bildunterschrift A muss zu Bild A (Handy auf der Karte) und Bildunterschrift B zu Bild B (Karte auf dem Handy) passen. Es gibt keine Teilpunkte: Auch wenn nur eine der beiden Bildunterschriften richtig ist, gilt dies als nicht bestanden.

Die Metrik: Bildbewertung
Binär und unerbittlich. Beide Paare stimmen überein = Treffer. Ein oder kein Treffer = Fehlschlag. Die Zufallswahrscheinlichkeit beträgt 25 %.

Weitere Beispiele von Winoground:

Warum Modelle bei der Komposition versagen

Die niedrigen Winoground-Werte (30–40 % gegenüber 25 % im Vergleich zur zufälligen Basislinie) deuten darauf hin, dass aktuelle Modelle mit dieser spezifischen Art von Kompositionslogik Schwierigkeiten haben. Es sind jedoch einige Einschränkungen zu beachten:

Kleine Stichprobengröße : Winoground umfasst nur 400 Beispiele, was zu Konfidenzintervallen von etwa ±5 Prozentpunkten führt. Daher eignet es sich zwar als Indikator, aber nicht als endgültiger Beweis für Kompositionsfähigkeiten.
Spezifischer, aber vielfältiger Aufgabenbereich : Winoground testet verschiedene Arten des kompositionellen Denkens, darunter räumliche Beziehungen (auf/über/unter), Agens-Patient-Vertauschungen (wer tut was mit wem?), Attributbindung (Farb-/Größenzuordnungen), Quantoren (mehr/weniger, Zählen), Handlungskoordination (sitzt/steht), zeitliche Abfolge (vorher/nachher), Negation (mit/ohne) und Bereichsambiguität. Diese Vielfalt macht Winoground zu einem effektiven Instrument zur Untersuchung des kompositionellen Verständnisses in verschiedenen linguistischen Bereichen.

Technische Analyse & Implementierungsempfehlungen

Datenqualität ist wichtiger als Modellskalierung.

Apple, LAION und MetaCLIP verwenden alle das gleiche ViT-H/14- Backbone (630M-Parameter).

Apples Vorsprung von +3,8 Prozentpunkten scheint in erster Linie auf seinem Data Filtering Network (DFN)-Ansatz zu beruhen.

Automatisierte Kuration: Anstatt nur synthetische Bildunterschriften zu verwenden, trainierte Apple ein Modell, um die Trainingsdaten gezielt zu filtern . Das Modell lernte, fehlerhafte Bild-Text-Paare aus dem riesigen Datenpool des Internets zu identifizieren und zu verwerfen.
Die Schlussfolgerung: An der Spitze der Forschung ergeben sich Verbesserungen eher aus der Qualität der Datenaufbereitung (der Auswahl der richtigen Daten) als aus der reinen Synthese oder dem schieren Umfang der Daten.

Die Schlussfolgerung: An der Spitze der technologischen Entwicklung resultieren Verbesserungen aus besseren Daten, nicht aus größeren Architekturen.

Das Leistungsniveau von 50 % verstehen

MS-COCO wurde mit sorgfältig ausgewählten Bildern konzipiert, deren Bildunterschriften jeweils eine bestimmte Szene beschreiben. Obwohl kleinere Unklarheiten vorkommen (z. B. zwei ähnliche Parkplatzszenen), haben die Ersteller des Datensatzes bewusst visuell unterscheidbare Bilder ausgewählt.

Die 50%ige Genauigkeit spiegelt wider, dass die Modelle tatsächlich nicht das richtige Bild an erster Stelle einordnen, und nicht eine unfaire Bestrafung für die Auswahl gleichwertiger Alternativen.

Warum OpenAI CLIP um 10-16 Seiten nachläuft

Der CLIP-L (2021) mit der Kennung OpenAI erreicht einen T2I R@1-Wert von 34,4 %, während moderne Modelle mit ähnlicher ViT-Architektur 44–50 % erzielen. Diese Differenz von 10–16 Prozentpunkten spiegelt drei Jahre Fortschritt wider:

Während die grundlegenden Architekturprinzipien ähnlich blieben (Vision Transformers mit kontrastivem Lernen), verdoppelte sich die Größe moderner Modelle. Die meisten Leistungssteigerungen resultierten jedoch aus verbesserten Datenaufbereitungs- und Trainingsverfahren und weniger aus architektonischen Innovationen allein.

ColPali: Geschwindigkeit gegen architektonische Flexibilität

ColPali verfolgt einen anderen architektonischen Ansatz: Anstatt jedes Bild in einen einzelnen Vektor zu kodieren, erzeugt es mithilfe später Interaktion 1030 Patch-Einbettungen. Diese Designentscheidung bringt mehrere Kompromisse mit sich:

Vorteile:

Symmetrischere Suche : ColPali weist nur eine Lücke von 3,9 pps zwischen I2T (48,8 %) und T2I (44,9 %) auf, verglichen mit 16–24 pps Lücken in dichten Modellen. Dies deutet darauf hin, dass es die Bildstruktur gleichmäßiger kodiert.
Architektonische Flexibilität : Die späte Interaktion ermöglicht eine feinere Abstimmung zwischen Textbausteinen und Bildausschnitten, was für spezialisierte Anwendungsbereiche von Vorteil sein kann.

Nachteile:

Speicheraufwand : Jedes Bild benötigt 1.030 Vektoren anstelle von 1, wodurch sich die Indexgröße um etwa das 1.000-fache erhöht.

Geringere Gesamtleistung : ColPali belegt in unserem Benchmark den 4. Platz (44,9 % T2I) und liegt damit 5,2 Punkte hinter den führenden Modellen zurück (gegenüber Apple DFN5B-H mit 50,1 %).

Rechenaufwand : Aufgrund des Speicherbedarfs durch 1.030 Einbettungen pro Bild sind viermal kleinere Batchgrößen (4 statt 32) erforderlich. Dies führt zu langsamerer Indizierung und höheren Bereitstellungskosten bei großem Datenaufkommen.

Welches Modell sollten Sie verwenden?

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Methodik

Hardware & Software

GPU: NVIDIA A40 (48 GB VRAM) via RunPod
Genauigkeit: bfloat16
Framework: PyTorch 2.4.0, CUDA 12.1
Bibliotheken: transformers==4.44.0 , datasets==2.20.0

Modelle bewertet

Wir verwendeten die folgenden spezifischen Modellgewichte aus dem Hugging Face Hub. Alle Modelle wurden ohne Modifikation direkt aus diesen Repositories in bfloat16-Genauigkeit geladen.

Inferenzprotokoll

Dichte Modelle (CLIP/SigLIP) wurden mit einer Batchgröße von 32 evaluiert, da ein einzelner Vektor pro Bild eine hohe Parallelität ermöglicht. ColPali verwendete eine Batchgröße von 4, da die 1030 Patch-Einbettungen pro Bild deutlich mehr Speicher benötigen.

Evaluierungsprotokoll

Zero-Shot: Modelle, die ohne weitere Anpassung mit Hugging Face Gewichten evaluiert wurden. Keine Feinabstimmung.
Deterministisch: Zufallsgenerator auf 42 festgelegt. Gleiche Reihenfolge der Datensätze für alle Modelle.
Standard-Splits: yerevann/coco-karpathy Test (5.000 Bilder), facebook/winoground Validierung.

Die Lücke zwischen I2T und T2I

Die I2T-Werte sind aufgrund statistischer Wahrscheinlichkeiten und nicht aufgrund von Modellfehlern durchgehend um etwa 20 Prozentpunkte höher als die T2I-Werte.

T2I (Text-zu-Bild): Das Modell muss unter 5.000 Bildern genau ein bestimmtes Bild finden. (Zielpool = 1).
I2T (Bild-zu-Text): Das Modell kann jede der 5 gültigen Bildunterschriften, die mit diesem Bild verknüpft sind, abgleichen. (Zielpool = 5).

Da die I2T-Aufgabe für jede Anfrage fünf verschiedene „richtige“ Antworten liefert, ist die Erfolgsquote im Vergleich zur strikten Eins-zu-Eins-Zuordnung, die bei T2I erforderlich ist, naturgemäß erhöht.

Einschränkungen

Winoground-Stichprobengröße

400 Stichproben ergeben Konfidenzintervalle von ca. ±5 Prozentpunkten bei einer Genauigkeit von 35 %. Die Ergebnisse sind indikativ , nicht endgültig. Es existieren größere Benchmarks (ARO, SugarCrepe), die jedoch eine andere Infrastruktur erfordern.

Nur Nullschuss

Keine Domänen-Feinabstimmung. Medizinische, juristische oder Satellitenanwendungen könnten durch domänenspezifisches Training Verbesserungen von 5-10 Prozentpunkten erzielen.

Einschränkungen des Datensatzes:

MS-COCO und Winoground testen spezifische Aspekte des multimodalen Verständnisses. Die Leistung in diesen Benchmarks garantiert keine vergleichbaren Ergebnisse bei domänenspezifischen Aufgaben oder anderen Tests zum kompositionellen Denken.

Abschluss

Aktuelle multimodale Einbettungsmodelle eignen sich gut zur Objekterkennung, haben aber Schwierigkeiten mit kompositionellem Denken.

Für Standardabfragen („Fotos von Motorrädern finden“) eignet sich jedes Top-3-Modell gut. Bei relationalen Abfragen („Telefon auf einer Karte“ vs. „Karte auf einem Telefon“) ist bestenfalls mit einer Genauigkeit von 30–40 % zu rechnen.

Ausgehend von unseren Erkenntnissen und aktuellen Forschungstrends können verschiedene Ansätze die Leistung verbessern:

Datenqualität vor Skalierbarkeit : Apples Vorteil von +3,8 Prozentpunkten bei Verwendung derselben ViT-H-Architektur lässt darauf schließen, dass die Kuratierung der Trainingsdaten einen wesentlichen Beitrag leistet, obwohl dies auf einem einzigen Vergleich basiert.
Kompositionelle Trainingsdaten : Die Einbeziehung harter Negative mit relationalen Variationen während des Trainings könnte theoretisch die kompositionelle Sensitivität verbessern, allerdings ist dies im großen Maßstab noch weitgehend unerprobt.
Hybridarchitekturen : Zweistufige Pipelines (dichte Suche → späte Interaktionsneubewertung) kombinieren Geschwindigkeit mit Präzision, obwohl unsere Benchmarks zeigen, dass diese bei diesen Aufgaben noch nicht besser abschneiden als dichte Modelle.

Solange sich die Trainingsparadigmen nicht ändern, bleibt das Verständnis der Komposition ein unerforschtes Gebiet.

Weiterführende Literatur

Erkunden Sie weitere RAG-Benchmarks, wie zum Beispiel:

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von