Multimodale Einbettungsmodelle eignen sich hervorragend zur Objekterkennung, haben aber Schwierigkeiten mit Beziehungen. Aktuelle Modelle können beispielsweise nicht zwischen „Telefon auf einer Karte“ und „Karte auf einem Telefon“ unterscheiden. Wir haben sieben führende Modelle in MS-COCO und Winoground verglichen, um diese spezifische Einschränkung zu untersuchen.
Um einen fairen Vergleich zu gewährleisten, haben wir jedes Modell unter identischen Bedingungen mit A40-Hardware und bfloat16-Genauigkeit evaluiert. Diese deterministische Konfiguration zeigt, welche Modelle die Szenenstruktur tatsächlich verstehen und welche lediglich ausgefeilte Keyword-Matcher sind.
Benchmark-Ergebnisse für multimodale Einbettungsmodelle
Erläuterung der Kennzahlen
- T2I R@1 (Text-zu-Bild-Recall@1): Kann das Modell anhand einer Bildunterschrift das richtige Bild unter 5.000 Kandidaten als Nummer eins einstufen? Dies ist die schwierigste Metrik für die Bildwiedergewinnung, da es keine Teilpunkte für den zweiten Platz gibt.
- I2T R@1 (Image-to-Text recall@1): Kann das Modell anhand eines Bildes eine der fünf korrekten Bildunterschriften unter 25.000 als die beste einstufen? Die Ergebnisse liegen etwa 20 Prozentpunkte höher als bei T2I, da es fünf gültige Antworten anstelle von nur einer gibt.
- Winoground-Bild: Gegeben seien zwei Bilder und zwei Bildunterschriften, die sich nur in ihrer Struktur unterscheiden („Telefon auf einer Karte“ versus „Karte auf einem Telefon“). Kann das Modell beide Paare korrekt zuordnen? Die Zufallswahrscheinlichkeit beträgt 25 Prozent.
Wichtigste Erkenntnisse
- Apple DFN5B-H erzielt die höchste Abrufgenauigkeit (50,1 Prozent T2I R@1) und den höchsten Wert für kompositionelles Schließen (35,2 Prozent auf Winoground).
- Das Kompositionsverständnis bleibt bei allen Modellen weiterhin schwach. Selbst Apples Trefferquote von 35,2 Prozent übertrifft kaum den zufälligen Basiswert von 25 Prozent.
- Der CLIP (Modelljahr 1915) zeigt sein Alter und liegt trotz ähnlicher Architektur 10 bis 16 Prozentpunkte hinter modernen Modellen zurück.
Hinweis: Die I2T-Werte liegen aufgrund eines Protokollartefakts etwa 20 Prozentpunkte höher als die T2I-Werte. Jedes Bild hat fünf gültige Bildunterschriften, wobei jede Bildunterschrift nur einem gültigen Bild zugeordnet ist. Details finden Sie im Abschnitt „Methodik“ .
Wie multimodale Einbettungsmodelle funktionieren
Bevor wir uns mit den Details der Benchmarks befassen, ist es wichtig zu verstehen, was diese Modelle tatsächlich leisten und wo ihre Grenzen liegen.
Der Kernmechanismus
Ein multimodales Einbettungsmodell wandelt sowohl Bilder als auch Texte in numerische Vektoren um, also in Listen von Zahlen, die denselben geometrischen Raum belegen. Ähnliche Konzepte gruppieren sich, während unähnliche Konzepte weiter voneinander entfernt sind.
Für die Suche berechnet man, welcher Bildvektor dem Textvektor am nächsten kommt. Deshalb ist die einbettungsbasierte Suche schnell: Man vergleicht Zahlen, anstatt Bedeutung im menschlichen Sinne zu „verstehen“.
Wo es kaputt geht
Beobachten Sie, was bei unterschiedlich gestalteten Untertiteln passiert:
Die Vektoren sind nahezu identisch. Beide Beschriftungen enthalten dieselben Konzepte: {Telefon, Karte, an}. Das Modell kodiert das Vorhandene, verliert aber die Beziehungen zwischen den Elementen.
Dies ist das Bag-of-Words-Problem . Das Modell sieht dieselben „Zutaten“ und erzeugt ähnliche Einbettungen, obwohl die Szenen völlig unterschiedlich sind. In der einen Szene steht das Telefon im Vordergrund, in der anderen die Karte. Die relationale Struktur geht während der Kodierung verloren.
Bewertungsaufgaben: Abruf vs. Schlussfolgern
MS-COCO: Die Suche nach der Nadel im Heuhaufen
Die Ausgangslage:
Eine Galerie mit 5.000 Bildern enthält thematisch ähnliche Gruppen, darunter Hunderte von Außenaufnahmen, Dutzende von Fahrzeugen sowie zahlreiche Lagerbereiche und Gebäude. Jedes Bild ist mit fünf verschiedenen Bildunterschriften versehen, die von unterschiedlichen Bearbeitern verfasst wurden – insgesamt also 25.000 Bildunterschriften.
Die Anfrage: „Ein Motorrad, das unter einer Holzkonstruktion zusammen mit anderen Gegenständen geparkt ist.“
Das Bild:
Dasselbe Bild könnte auch wie folgt beschrieben werden:
- „Schwarzes Motorrad, das im Freien unter einem Vordach steht.“
- „Motorrad geparkt unter einem überdachten Bereich im umzäunten Hof.“
Jede Bildunterschrift wird einzeln getestet, und das Modell muss unabhängig von der Formulierung das richtige Bild finden.
Die Aufgabe:
Finden Sie das eine passende Bild . Nicht irgendein Motorrad, nicht irgendein Holzgebäude, sondern genau diese Szene unter 5.000 Kandidaten.
Die Kennzahl: Recall@1
Binär und unerbittlich. Korrektes Bild auf Platz 1 = Treffer. Bild auf Platz 2 = Fehlschlag. Keine Teilpunkte.
Weingrund: Verstehen, wer wem was angetan hat.
Die Ausgangslage:
400 gegensätzliche Paare. Jedes Paar enthält 2 Bilder und 2 Bildunterschriften, die sich nur in ihrer Komposition unterscheiden.
Die Anfrage:
- Bildunterschrift A: „Auf der Karte ist ein Telefon eingezeichnet.“
- Bildunterschrift B: „ Da ist eine Karte auf dem Handy. “
Beide Bildunterschriften enthalten exakt dieselben Konzepte: {Telefon, Karte, auf}. Der einzige Unterschied besteht darin , welches Objekt über welchem liegt .
Das Bild:
Die Aufgabe:
Ordnen Sie beide Bildunterschriften gleichzeitig den richtigen Bildern zu. Bildunterschrift A muss zu Bild A (Handy auf der Karte) und Bildunterschrift B zu Bild B (Karte auf dem Handy) passen. Es gibt keine Teilpunkte: Auch wenn nur eine der beiden Bildunterschriften richtig ist, gilt dies als nicht bestanden.
Die Metrik: Bildbewertung
Binär und unerbittlich. Beide Paare stimmen überein = Treffer. Ein oder kein Treffer = Fehlschlag. Die Zufallswahrscheinlichkeit beträgt 25 %.
Weitere Beispiele von Winoground:
Warum Modelle bei der Komposition versagen
Die niedrigen Winoground-Werte (30–40 % gegenüber 25 % im Vergleich zur zufälligen Basislinie) deuten darauf hin, dass aktuelle Modelle mit dieser spezifischen Art von Kompositionslogik Schwierigkeiten haben. Es sind jedoch einige Einschränkungen zu beachten:
- Kleine Stichprobengröße : Winoground umfasst nur 400 Beispiele, was zu Konfidenzintervallen von etwa ±5 Prozentpunkten führt. Daher eignet es sich zwar als Indikator, aber nicht als endgültiger Beweis für Kompositionsfähigkeiten.
- Spezifischer, aber vielfältiger Aufgabenbereich : Winoground testet verschiedene Arten des kompositionellen Denkens, darunter räumliche Beziehungen (auf/über/unter), Agens-Patient-Vertauschungen (wer tut was mit wem?), Attributbindung (Farb-/Größenzuordnungen), Quantoren (mehr/weniger, Zählen), Handlungskoordination (sitzt/steht), zeitliche Abfolge (vorher/nachher), Negation (mit/ohne) und Bereichsambiguität. Diese Vielfalt macht Winoground zu einem effektiven Instrument zur Untersuchung des kompositionellen Verständnisses in verschiedenen linguistischen Bereichen.
Technische Analyse & Implementierungsempfehlungen
Datenqualität ist wichtiger als Modellskalierung.
Apple, LAION und MetaCLIP verwenden alle das gleiche ViT-H/14- Backbone (630M-Parameter).
Apples Vorsprung von +3,8 Prozentpunkten scheint in erster Linie auf seinem Data Filtering Network (DFN)-Ansatz zu beruhen.
- Automatisierte Kuration: Anstatt nur synthetische Bildunterschriften zu verwenden, trainierte Apple ein Modell, um die Trainingsdaten gezielt zu filtern . Das Modell lernte, fehlerhafte Bild-Text-Paare aus dem riesigen Datenpool des Internets zu identifizieren und zu verwerfen.
- Die Schlussfolgerung: An der Spitze der Forschung ergeben sich Verbesserungen eher aus der Qualität der Datenaufbereitung (der Auswahl der richtigen Daten) als aus der reinen Synthese oder dem schieren Umfang der Daten.
Die Schlussfolgerung: An der Spitze der technologischen Entwicklung resultieren Verbesserungen aus besseren Daten, nicht aus größeren Architekturen.
Das Leistungsniveau von 50 % verstehen
MS-COCO wurde mit sorgfältig ausgewählten Bildern konzipiert, deren Bildunterschriften jeweils eine bestimmte Szene beschreiben. Obwohl kleinere Unklarheiten vorkommen (z. B. zwei ähnliche Parkplatzszenen), haben die Ersteller des Datensatzes bewusst visuell unterscheidbare Bilder ausgewählt.
Die 50%ige Genauigkeit spiegelt wider, dass die Modelle tatsächlich nicht das richtige Bild an erster Stelle einordnen, und nicht eine unfaire Bestrafung für die Auswahl gleichwertiger Alternativen.
Warum OpenAI CLIP um 10-16 Seiten nachläuft
Der CLIP-L (2021) mit der Kennung OpenAI erreicht einen T2I R@1-Wert von 34,4 %, während moderne Modelle mit ähnlicher ViT-Architektur 44–50 % erzielen. Diese Differenz von 10–16 Prozentpunkten spiegelt drei Jahre Fortschritt wider:
Während die grundlegenden Architekturprinzipien ähnlich blieben (Vision Transformers mit kontrastivem Lernen), verdoppelte sich die Größe moderner Modelle. Die meisten Leistungssteigerungen resultierten jedoch aus verbesserten Datenaufbereitungs- und Trainingsverfahren und weniger aus architektonischen Innovationen allein.
ColPali: Geschwindigkeit gegen architektonische Flexibilität
ColPali verfolgt einen anderen architektonischen Ansatz: Anstatt jedes Bild in einen einzelnen Vektor zu kodieren, erzeugt es mithilfe später Interaktion 1030 Patch-Einbettungen. Diese Designentscheidung bringt mehrere Kompromisse mit sich:
Vorteile:
- Symmetrischere Suche : ColPali weist nur eine Lücke von 3,9 pps zwischen I2T (48,8 %) und T2I (44,9 %) auf, verglichen mit 16–24 pps Lücken in dichten Modellen. Dies deutet darauf hin, dass es die Bildstruktur gleichmäßiger kodiert.
- Architektonische Flexibilität : Die späte Interaktion ermöglicht eine feinere Abstimmung zwischen Textbausteinen und Bildausschnitten, was für spezialisierte Anwendungsbereiche von Vorteil sein kann.
Nachteile:
- Speicheraufwand : Jedes Bild benötigt 1.030 Vektoren anstelle von 1, wodurch sich die Indexgröße um etwa das 1.000-fache erhöht.
- Geringere Gesamtleistung : ColPali belegt in unserem Benchmark den 4. Platz (44,9 % T2I) und liegt damit 5,2 Punkte hinter den führenden Modellen zurück (gegenüber Apple DFN5B-H mit 50,1 %).
Rechenaufwand : Aufgrund des Speicherbedarfs durch 1.030 Einbettungen pro Bild sind viermal kleinere Batchgrößen (4 statt 32) erforderlich. Dies führt zu langsamerer Indizierung und höheren Bereitstellungskosten bei großem Datenaufkommen.
Welches Modell sollten Sie verwenden?
Methodik
Hardware & Software
- GPU: NVIDIA A40 (48 GB VRAM) via RunPod
- Genauigkeit: bfloat16
- Framework: PyTorch 2.4.0, CUDA 12.1
- Bibliotheken:
transformers==4.44.0,datasets==2.20.0
Modelle bewertet
Wir verwendeten die folgenden spezifischen Modellgewichte aus dem Hugging Face Hub. Alle Modelle wurden ohne Modifikation direkt aus diesen Repositories in bfloat16-Genauigkeit geladen.
Inferenzprotokoll
Dichte Modelle (CLIP/SigLIP) wurden mit einer Batchgröße von 32 evaluiert, da ein einzelner Vektor pro Bild eine hohe Parallelität ermöglicht. ColPali verwendete eine Batchgröße von 4, da die 1030 Patch-Einbettungen pro Bild deutlich mehr Speicher benötigen.
Evaluierungsprotokoll
- Zero-Shot: Modelle, die ohne weitere Anpassung mit Hugging Face Gewichten evaluiert wurden. Keine Feinabstimmung.
- Deterministisch: Zufallsgenerator auf 42 festgelegt. Gleiche Reihenfolge der Datensätze für alle Modelle.
- Standard-Splits: yerevann/coco-karpathy Test (5.000 Bilder), facebook/winoground Validierung.
Die Lücke zwischen I2T und T2I
Die I2T-Werte sind aufgrund statistischer Wahrscheinlichkeiten und nicht aufgrund von Modellfehlern durchgehend um etwa 20 Prozentpunkte höher als die T2I-Werte.
- T2I (Text-zu-Bild): Das Modell muss unter 5.000 Bildern genau ein bestimmtes Bild finden. (Zielpool = 1).
- I2T (Bild-zu-Text): Das Modell kann jede der 5 gültigen Bildunterschriften, die mit diesem Bild verknüpft sind, abgleichen. (Zielpool = 5).
Da die I2T-Aufgabe für jede Anfrage fünf verschiedene „richtige“ Antworten liefert, ist die Erfolgsquote im Vergleich zur strikten Eins-zu-Eins-Zuordnung, die bei T2I erforderlich ist, naturgemäß erhöht.
Einschränkungen
Winoground-Stichprobengröße
400 Stichproben ergeben Konfidenzintervalle von ca. ±5 Prozentpunkten bei einer Genauigkeit von 35 %. Die Ergebnisse sind indikativ , nicht endgültig. Es existieren größere Benchmarks (ARO, SugarCrepe), die jedoch eine andere Infrastruktur erfordern.
Nur Nullschuss
Keine Domänen-Feinabstimmung. Medizinische, juristische oder Satellitenanwendungen könnten durch domänenspezifisches Training Verbesserungen von 5-10 Prozentpunkten erzielen.
Einschränkungen des Datensatzes:
MS-COCO und Winoground testen spezifische Aspekte des multimodalen Verständnisses. Die Leistung in diesen Benchmarks garantiert keine vergleichbaren Ergebnisse bei domänenspezifischen Aufgaben oder anderen Tests zum kompositionellen Denken.
Abschluss
Aktuelle multimodale Einbettungsmodelle eignen sich gut zur Objekterkennung, haben aber Schwierigkeiten mit kompositionellem Denken.
Für Standardabfragen („Fotos von Motorrädern finden“) eignet sich jedes Top-3-Modell gut. Bei relationalen Abfragen („Telefon auf einer Karte“ vs. „Karte auf einem Telefon“) ist bestenfalls mit einer Genauigkeit von 30–40 % zu rechnen.
Ausgehend von unseren Erkenntnissen und aktuellen Forschungstrends können verschiedene Ansätze die Leistung verbessern:
- Datenqualität vor Skalierbarkeit : Apples Vorteil von +3,8 Prozentpunkten bei Verwendung derselben ViT-H-Architektur lässt darauf schließen, dass die Kuratierung der Trainingsdaten einen wesentlichen Beitrag leistet, obwohl dies auf einem einzigen Vergleich basiert.
- Kompositionelle Trainingsdaten : Die Einbeziehung harter Negative mit relationalen Variationen während des Trainings könnte theoretisch die kompositionelle Sensitivität verbessern, allerdings ist dies im großen Maßstab noch weitgehend unerprobt.
- Hybridarchitekturen : Zweistufige Pipelines (dichte Suche → späte Interaktionsneubewertung) kombinieren Geschwindigkeit mit Präzision, obwohl unsere Benchmarks zeigen, dass diese bei diesen Aufgaben noch nicht besser abschneiden als dichte Modelle.
Solange sich die Trainingsparadigmen nicht ändern, bleibt das Verständnis der Komposition ein unerforschtes Gebiet.
Weiterführende Literatur
Erkunden Sie weitere RAG-Benchmarks, wie zum Beispiel:
- Einbettungsmodelle: OpenAI vs Gemini vs Cohere
- Top-Vektordatenbank für RAG: Qdrant vs Weaviate vs Pinecone
- Agentic RAG Benchmark: Multi-Datenbank-Routing und Abfragegenerierung
- 11 Open-Source-Einbettungsmodelle für RAG
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.