Große multimodale Modelle (LMMs) vs. LLMs

aktualisiert am Mai 22, 2026

Wir evaluierten die Leistungsfähigkeit großer multimodaler Modelle (LMMs) bei Aufgaben des finanziellen Denkens anhand eines sorgfältig ausgewählten Datensatzes. Durch die Analyse einer Teilmenge hochwertiger Finanzdaten bewerteten wir die Fähigkeit der Modelle, multimodale Daten im Finanzbereich zu verarbeiten und damit zu argumentieren.

Loading Chart

Der Methodenteil bietet detaillierte Einblicke in den verwendeten Datensatz und den Bewertungsrahmen.

Erforschen Sie große multimodale Modelle und vergleichen Sie diese mit großen Sprachmodellen .

Warum schnitten die Modelle unterschiedlich ab?

Die unterschiedlichen Erfolgsquoten spiegeln die Unterschiede in der Verarbeitung multimodaler Finanzaufgaben durch die einzelnen Modelle wider. Da der Benchmark Stichproben aus dem FinMME-Datensatz verwendet, die die Integration von Text und Finanzvisualisierungen wie Diagrammen und strukturierten Dokumenten erfordern, hängt die Leistung stark von der Modellarchitektur, der Trainingsqualität und der multimodalen Ausrichtung ab.

Modellarchitektur und Parameterdesign

Die Modelle unterscheiden sich darin, wie sie Text- und Bildcodierer kombinieren, in der Anzahl der aktiven Parameter und in der Komplexität ihres Experten-Routings.

Llama 4 Maverick beispielsweise verwendet ein umfassenderes, expertenbasiertes Design, das eine stärkere Argumentation ermöglicht.
Kleinere oder auf Effizienz ausgerichtete Modelle verfügen über weniger Parameter, die auf multimodales Denken ausgerichtet sind, was die Leistungsfähigkeit einschränkt.

Diese architektonischen Unterschiede wirken sich darauf aus, wie gut die einzelnen Modelle numerische Beziehungen, Diagrammstrukturen und domänenspezifische Visualisierungen interpretieren können.

Abdeckung der Trainingsdaten

Einige Modelle werden anhand umfangreicher multimodaler Datensätze trainiert, während andere primär auf allgemeinen Daten basieren.

Die Modelle der Familien Claude 4 und Qwen 2.5 integrieren umfangreiche visuelle und Textdaten, wodurch ihre Fähigkeit zur Abstimmung numerischer und visueller Hinweise verbessert wird.
Modelle, die mit begrenzteren multimodalen Korpora trainiert wurden, haben Schwierigkeiten mit Finanzdiagrammen und strukturierten Grafiken.

Die Trainingsdaten haben einen direkten Einfluss darauf, wie zuverlässig ein Modell multimodale Finanzkonzepte verarbeitet.

Der Benchmark erfordert eine Abstimmung zwischen Bildinterpretation und textbasiertem Denken.

Die Claude-4-Modelle werden als besonders geeignet für Aufgaben mit Diagrammen und Schaubildern beschrieben.
Modelle ohne dedizierte crossmodale Feinabstimmung erkennen visuelle Merkmale zwar korrekt, versagen aber bei der Verknüpfung dieser Merkmale mit der Sprache oder Logik der Finanzwissenschaft.

Die Feinabstimmungsstrategie eines Modells beeinflusst dessen Fähigkeit, textuelle und visuelle Signale während der Analyse zu vereinen.

Kontextverarbeitungskapazität

Finanzbeispiele enthalten oft mehrere Elemente, die zusammen gelesen werden müssen, wie zum Beispiel mehrteilige Diagramme oder ausführliche Beschreibungen.

Modelle mit breiteren Kontextfenstern können Beziehungen über lange Eingaben hinweg beibehalten.
Bei stärker eingeschränkten Modellen können Abhängigkeiten übersehen werden, was die Genauigkeit bei Aufgaben verringert, die die Verfolgung mehrerer visueller und textueller Komponenten erfordern.

Die Größe des Kontextfensters beeinflusst, wie gut ein Modell die Übereinstimmung zwischen quantitativen und visuellen Details aufrechterhält.

Prioritäten hinsichtlich Modellgröße und Effizienz

Manche Modelle sind bewusst für einen einfachen Einsatz und nicht für hochkomplexe Schlussfolgerungen ausgelegt.

Phi-4-Multimodalmodelle und ähnliche Modelle priorisieren die Effizienz und begrenzen dadurch die Tiefe der multimodalen Verarbeitung.
Größere Modelle verfügen über eine höhere Leistungsfähigkeit bei Denkaufgaben, die ein detailliertes Verständnis von Diagrammen erfordern.

Dieser Zielkonflikt führt zu niedrigeren Punktzahlen für kleinere Modelle.

Unterschiede im visuellen Verständnis

Die Bewertung umfasst Aufgaben, die ein genaues Lesen von Diagrammen, die Identifizierung von Objekten in Finanzdokumenten und die Extraktion visueller Details erfordern.

Modelle mit fortschrittlichen visuellen Pipelines, wie z. B. Qwen 2.5-VL-Varianten, bewältigen diese Aufgaben effektiver.
Andere Programme kommen mit allgemeinen Bildern gut zurecht, erzielen aber bei strukturierten Finanzvisualisierungen uneinheitliche Ergebnisse.

Die Stärke des visuellen Denkvermögens hat einen starken Einfluss auf die Ergebnisse bei Aufgaben im FinMME-Stil.

Merkmale des Auswertungsdatensatzes

Der Datensatz konzentriert sich auf multimodales finanzielles Denken und nicht auf allgemeine Aufgaben.

Modelle, die für finanzielle, numerische oder diagrammbasierte Aufgaben trainiert oder feinabgestimmt wurden, erzielen bessere Ergebnisse.
Generalistische Modelle ohne Domänenbezug weisen bei Finanzdatensätzen eine geringere Präzision auf.

Die Spezialisierung von Datensätzen führt dazu, dass die Leistung stärker von der Qualität des multimodalen Denkens abhängt.

Was sind Open-Source-Modelle für große multimodale Modelle?

Open-Source-LMMs mit ihrer Anzahl an GitHub-Sternen:

Die Grafik zeigt, dass die Popularität verschiedener Open-Source-LMMs auf GitHub zugenommen hat, wobei einige Modelle kurz nach ihrer Veröffentlichung eine rasante Verbreitung erfahren.

Die Janus-Serie von DeepSeek erreichte innerhalb weniger Tage nach der Veröffentlichung von Janus-Pro am 27. Januar 2025 Tausende von GitHub-Sternen und übertraf damit die Konkurrenz, die Monate benötigte, um ähnliche Zahlen zu erreichen. Dieser rasante Aufstieg war nicht nur dem Erfolg von Janus-Pro geschuldet, sondern wurde auch durch die Dynamik von DeepSeek-R1 beeinflusst.

Gemma 3 von Google: Gemma 3 ist eine Familie schlanker, hochmoderner Open-Source-Modelle, die auf der Gemini-2.0-Technologie basieren. Diese Modelle bieten fortschrittliche Funktionen für Text- und visuelles Reasoning, ein Kontextfenster mit 128.000 Token, Unterstützung für Funktionsaufrufe und quantisierte Versionen für optimierte Leistung. Sie beinhaltet ShieldGemma 2 für Bildsicherheit und unterstützt diverse Tools und Bereitstellungsoptionen. ¹
Janus-Pro von DeepSeek : Janus-Pro ist eine Weiterentwicklung des Janus-Modells, das sowohl Texte als auch Bilder versteht und generiert. Es zeichnet sich durch eine optimierte Trainingsstrategie, erweiterte Trainingsdaten und eine größere Modellgröße aus, wodurch seine multimodalen Fähigkeiten verbessert werden. ²
Qwen2.5-VL von Alibaba: Qwen2.5-VL von Alibaba ist eine multimodale Erweiterung des Sprachmodells Qwen2.5, die sowohl für die Text- als auch für die Bildverarbeitung entwickelt wurde. Sie zeichnet sich durch umfangreiches Vortraining (bis zu 18 Billionen Token), ein erweitertes Kontextfenster (bis zu 128.000 Token), verbesserte Befehlsverarbeitung und robuste Mehrsprachigkeit aus und eignet sich daher für Aufgaben wie Bildbeschreibung und visuelle Fragebeantwortung. ³
- Aufbauend auf der Qwen2.5-VL-Serie hat Alibaba das Qwen2.5-VL-32B-Instruct optimiert und als Open Source veröffentlicht. Dieses 32-Bit-VL-Modell integriert ein verbessertes, detailliertes Bildverständnis und logisches Schlussfolgern. Dies führt zu einer höheren Leistung und detaillierteren Analysen bei Aufgaben wie Bildanalyse, Inhaltserkennung und visueller Logikableitung. ⁴
CLIP (Contrastive Language–Image Pretraining) von OpenAI: CLIP wurde entwickelt, um Bilder im Kontext natürlicher Sprache zu verstehen. Es kann Aufgaben wie die Zero-Shot-Bildklassifizierung durchführen, bei der es Bilder auch in Kategorien, für die es nicht explizit trainiert wurde, anhand von Textbeschreibungen präzise klassifizieren kann. ⁵
Flamingo von DeepMind: Flamingo wurde entwickelt, um die Stärken des Sprach- und des visuellen Verständnisses zu nutzen und ist daher in der Lage, Aufgaben zu bewältigen, die die Interpretation und Integration von Informationen aus Texten und Bildern erfordern. ⁶

Abbildung 1: Ein Beispiel aus Chip Huyen ⁷

Was sind die führenden LMMs?

Allgemeine LLMs-UI- und API-Funktionen

Die Anbieter werden unter den gängigsten multimodalen LLMs anhand von Vergleichbarkeit, Datenverfügbarkeit und Aktualität ausgewählt.

LMMs mit ihrem Preis pro Token:

Bei der Auswahl des am besten geeigneten Modells sollten Sie Faktoren wie Ihr Budget, die erforderlichen Funktionen und Leistungsniveaus sowie das erwartete Volumen an Input-/Output-Tokens für Ihren spezifischen Anwendungsfall berücksichtigen.

Sie können mehr über die Preisgestaltung von LLM-Studiengängen lesen.

Was sind die neuesten Fortschritte bei multimodalen Modellen?

Jüngste Fortschritte bei multimodalen Modellen haben neue Möglichkeiten und Effizienzsteigerungen in der KI-Entwicklung mit sich gebracht.

Videobasierte multimodale Grundlagenmodelle

Multimodale Video-First-Grundlagenmodelle gehen über die Generierung von allgemeinen Bildunterschriften oder Zusammenfassungen hinaus und lernen stattdessen, Beweise explizit innerhalb von Videos zu lokalisieren.

Anstatt zu beschreiben, was passiert, können sie feststellen, wann es passiert (Zeitstempel) und wo es passiert (Begrenzungsrahmen um Objekte oder Regionen).

Diese Verlagerung hin zu einer räumlich-zeitlichen Verankerung macht das Videoverständnis präziser und nachvollziehbarer. Sie ermöglicht außerdem Aufgaben wie die Ermittlung exakter Zeitpunkte, die Verfolgung von Objekten über die Zeit, die Videobearbeitung mithilfe natürlicher Sprache sowie die Unterstützung von Robotik und sicherheitskritischen Systemen.

Zum Beispiel Vidi ⁸ ist ein Open-Source-Projekt von ByteDance, das sich auf große multimodale Modelle für das Videoverständnis und die Videobearbeitung konzentriert.

Das Repository enthält den Code und die Ressourcen für eine Familie von Modellen (z. B. Vidi-7B, Vidi1.5-9B, Vidi2 und Vidi2.5), die Bild-, Audio- und Textdaten als Eingaben verwenden, um Aufgaben wie die folgenden auszuführen:

Zeitliche Suche (Auffinden der Zeitabschnitte in einem Video, die einer Textanfrage entsprechen)
Räumlich-zeitliche Verankerung (Präzise Lokalisierung von Objekten im Zeitverlauf mithilfe von Begrenzungsrahmen)
Video-Fragebeantwortung

Mistral 3 multimodale Frontier-Veröffentlichung

Mistral AI hat eine neue Familie von Open-Source-KI-Modellen namens Mistral 3 entwickelt. Die Mistral 3-Suite umfasst sowohl hochmoderne multimodale/mehrsprachige Modelle als auch kleinere, effiziente Modelle, die für den Einsatz auf einer Vielzahl von Geräten konzipiert sind, von der Cloud bis zum Edge und sogar auf einzelnen GPUs.

Diese unter einer freizügigen Open-Source-Lizenz (Apache 2.0) veröffentlichten Modelle zielen darauf ab, den Zugang zu fortschrittlicher KI zu demokratisieren, Anpassungs- und Bereitstellungsflexibilität zu ermöglichen und Europas Position in der KI-Entwicklung zu stärken, wo Bedenken bestehen, gegenüber den USA und China bei Spitzentechnologien zurückzufallen. ⁹

Open-Source-Bild-Sprachmodelle des Bildungsministeriums

Kimi-VL (von Moonshot AI) ist ein Open-Source-Multimodal-Vision-Sprachmodell, das mit einer Mixture-of-Experts (MoE)-Architektur entwickelt wurde und Aufgaben bewältigt, die Text, Bilder und Video kombinieren, wobei die Rechenleistung effizient bleibt.

Es verfügt über ein 16 Milliarden Parameter umfassendes Grundgerüst, aktiviert aber typischerweise nur etwa 2,8 Milliarden Parameter während der Inferenz, was dazu beiträgt, ein Gleichgewicht zwischen Leistungsfähigkeit und Kosten herzustellen.

Kimi-VL ist für fortgeschrittenes multimodales Schließen, das Verstehen langer Kontexte (bis zu ~128 K Token) und agentenartige Interaktionen konzipiert und kann sich bei Benchmarks wie Videoverständnis, optischer Zeichenerkennung (OCR) , mathematischem Schließen und Aufgaben mit mehreren Bildern gut mit größeren Modellen messen.

Varianten wie Kimi-VL-A3B-Thinking sind zudem für Aufgaben im Bereich Gedankenketten und logisches Denken optimiert, während der visuelle Encoder MoonViT ein hochauflösendes Eingabeverständnis unterstützt.

Abbildung 2: Kimi-VL-Architekturdesign. ¹⁰

Anthropics Claude 4 Serie

Die Claude 4-Serie von Anthropic integriert fortschrittliches visuelles Verständnis mit ihrer textbasierten Argumentations-Engine und bettet die Bildverarbeitung direkt in Problemlösungsprozesse ein.

Die Claude-4-Modelle zeigen eine starke Leistung bei multimodalen Denktests wie MMMU, insbesondere bei der Interpretation von Diagrammen, Schaubildern und komplexen visuellen Daten. Ein besonderes Merkmal von Claude Opus 4.1 ist die Fähigkeit, ästhetische Qualitäten in Bildern zu beurteilen und so über die reine Erkennung hinaus differenziertere Bewertungen vorzunehmen.

Diese Fähigkeiten, kombiniert mit Claudes agentenbasierten Funktionen, machen die Serie effektiv für Aufgaben wie die Synthese von Forschungsergebnissen aus Berichten mit gemischtem Text und Bildern oder die Unterstützung beim Interface-Design durch die Analyse visueller Mockups.

GPT-5 von OpenAI

GPT-5 bietet verbesserte native Multimodalität für Text, Sprache, Bild und Video. Im Gegensatz zu früheren Systemen, die stark auf Plugins angewiesen waren, integriert GPT-5 diese Modalitäten in einer einheitlichen Architektur und ermöglicht so eine flüssigere Interaktion. Das Modell passt sich flexibel an verschiedene Eingabetypen an und kann nahtlos zwischen ihnen wechseln.

Ein herausragendes Merkmal ist der Echtzeit-Sprachmodus, der Tonfall, Sprechtempo und Stil an die Anweisungen des Nutzers anpasst. Dies sorgt für ein natürlicheres und anpassungsfähigeres Gesprächserlebnis. Auch die visuelle Verarbeitung wurde verbessert, wodurch Halluzinationen beim Interpretieren oder Generieren von Bildern, Diagrammen und Grafiken reduziert werden. Ein weiterer Fortschritt liegt in den Speicherfunktionen, die es dem System ermöglichen, frühere Eingaben abzurufen und den Kontext auch bei längeren Interaktionen beizubehalten.

Diese Verbesserungen machen GPT-5 besonders wertvoll für barrierefreie multimodale Schnittstellen, insbesondere für Personen mit sensorischen Beeinträchtigungen.

Google Multimodale Modelle von DeepMind mit Fokus auf Robotik

Google DeepMind hat Gemini Robotics und Gemini Robotics-ER entwickelt, Modelle, die speziell für die Integration von Bildverarbeitung, Sprache und Aktionen in Robotersystemen entwickelt wurden. Diese Modelle ermöglichen es Robotern, Aufgaben in unstrukturierten Umgebungen auszuführen, wie beispielsweise Papier zu falten oder Flaschenverschlüsse zu öffnen.

Ein zentrales Merkmal dieser Modelle ist ihr Sicherheitsmechanismus. Vor der Ausführung von Aktionen führt das System integrierte Prüfungen durch, um Risiken zu minimieren und die korrekte Ausführung von Aufgaben sicherzustellen. Dieser Ansatz begegnet einer der größten Herausforderungen in der Robotik: der Verbindung von fortschrittlichem KI-Denken mit sicherer und zuverlässiger Ausführung in der realen Welt.

Llama 4 Scout und Llama 4 Maverick von Meta AI

Llama 4 Scout ist ein multimodales Modell mit 17 Milliarden aktiven Parametern und 16 Experten. Es übertrifft Llama-Modelle der vorherigen Generation und ist für den Betrieb auf einer einzelnen H100-GPU optimiert. Es verfügt über ein Kontextfenster mit 10 Millionen Token zur Verarbeitung großer Datenmengen. Benchmark-Ergebnisse zeigen, dass Llama 4 Scout in einer Reihe gängiger Benchmarks bessere Ergebnisse erzielt als Gemma 3, Gemini 2.0 Flash-Lite und Mistral 3.1.

Llama 4 Maverick ist ein multimodales Modell mit 17 Milliarden aktiven Parametern und 128 Experten. Es gilt als Spitzenmodell seiner Klasse und übertrifft GPT-4o und Gemini 2.0 Flash in verschiedenen Benchmarks. Es erzielt vergleichbare Ergebnisse wie DeepSeek v3 in den Bereichen logisches Denken und Codierung, benötigt dabei aber weniger aktive Parameter. Eine experimentelle Chat-Version von Llama 4 Maverick erreichte auf der LMArena-Plattform einen ELO-Wert von 1417.

4o Bildgenerierung durch OpenAI

Das neueste Bildgenerierungsmodell von OpenAI, eingebettet in GPT-4o , integriert Text- und Bildgenerierung in ein einheitliches System. Diese multimodale Fähigkeit ermöglicht es GPT-4, Bilder zu generieren und dabei auf textbasiertes Wissen und den Chatkontext zurückzugreifen, wodurch ein Zusammenspiel von Sprache und Bild entsteht.

Durch die Generierung in mehreren Runden können Nutzer Bilder im Gespräch verfeinern, wie in den folgenden Abbildungen dargestellt. Das Modell nutzt vorherige Texteingaben und hochgeladene Bilder, um Konsistenz zu gewährleisten. Indem es die vom Nutzer bereitgestellten visuellen Inhalte analysiert und kontextbezogen lernt, passt sich GPT-4o an spezifische Details an und verbessert so seine Fähigkeit, kontextbezogene Bilder zu erzeugen.

Abbildung 3: Anregung zur Erstellung einer Zeichnung mithilfe von Referenzen und Anweisung zu Textmerkmalen für das Bild.

Abbildung 4: Anregung zur Erstellung eines Fotos anhand der Zeichnung und dessen Einbettung in eine Szene. ¹¹

Qwen2.5-VL-32B-Anleitung von Alibaba

Alibabas VL-32B-Instruct (Qwen2.5) erweitert das Sprachmodell um Funktionen zur visuellen Verarbeitung. Das 32-B-Parameter-Modell konzentriert sich auf Bildverständnis und -interpretation. Es wurde mit 18.000 Token und einem Kontextfenster von 128.000 Token vortrainiert und unterstützt mehrere Sprachen. Das Modell verbessert Bildanalyse, Inhaltserkennung und visuelle Schlussfolgerungen und eignet sich daher für Anwendungen, die Bild- und Textanalyse kombinieren.

Gemma 3 von Google

Gemma 3 von Google basiert auf der Technologie der Gemini 2.0-Modelle. Es ist in vier Größen (1B, 4B, 12B und 27B) für unterschiedliche Hardwareanforderungen erhältlich und bietet ein Kontextfenster von 128.000 Token. Gemma 3 erzielt gute Ergebnisse auf Systemen mit einem einzelnen Beschleuniger und umfasst Text- und visuelles Reasoning, Funktionsaufrufe sowie Unterstützung für über 35 Sprachen, wobei für mehr als 140 Sprachen vortrainiert wurde. Quantisierte Versionen reduzieren die Modellgröße und den Rechenaufwand. Das ShieldGemma 2-System bietet eine Inhaltsklassifizierung.

Phi-4-multimodal von Microsoft

Das Phi-4-multimodale Modell (Microsoft) mit 5,6 Milliarden Parametern verarbeitet Sprache, Bild und Text in einer einheitlichen Architektur. Es nutzt crossmodales Lernen für kontextsensitive Interaktionen zwischen verschiedenen Eingabetypen. Das Modell verarbeitet mehrere Eingabeformate ohne separate Verarbeitungssysteme und ist für den Einsatz auf Endgeräten und Edge Computing konzipiert. Anwendungsbereiche sind KI-Systeme für Smartphones, Fahrzeugsysteme und mehrsprachige Dienste.

Was ist ein großes multimodales Modell (LMM)?

Ein umfangreiches multimodales Modell ist ein hochentwickeltes Modell der künstlichen Intelligenz, das verschiedene Datentypen verarbeiten und interpretieren kann. Zu diesen multimodalen Daten gehören beispielsweise Text, Bilder, Audio, Video und gegebenenfalls weitere Formate. Die Kernfunktion eines multimodalen Modells ist seine Fähigkeit, Informationen aus diesen unterschiedlichen Datenquellen zu integrieren und zu interpretieren, oft auch gleichzeitig.

Diese können als fortgeschrittenere Versionen großer Sprachmodelle (LLMs) verstanden werden, die sowohl mit Texten als auch mit verschiedenen anderen Datentypen arbeiten können. Darüber hinaus sind die Ausgaben multimodaler Sprachmodelle so konzipiert, dass sie nicht nur textuell, sondern auch visuell, auditiv usw. sein können.

Multimodale Sprachmodelle gelten als nächster Schritt zur Erreichung künstlicher allgemeiner Intelligenz .

Was ist ein multimodaler KI-Agent?

Multimodale KI-Agenten sind Systeme, die mit ihrer Umwelt mithilfe verschiedener Datentypen wie Bildern, Videos und Texten interagieren und somit sowohl in digitalen als auch in physischen Umgebungen agieren können. Multimodale Modelle bilden den Kern dieser Agenten und ermöglichen es ihnen, Informationen aus unterschiedlichen Quellen wahrzunehmen und zu verstehen.

Modelle wie Magma nutzen beispielsweise die Kombination von Bild- und Sprachverständnis sowie räumliche Intelligenz, die durch Techniken wie Set-of-Mark und Trace-of-Mark während des Vortrainings auf multimodalen Datensätzen erreicht wird.

Dies ermöglicht dem Agenten die Ausführung von Aufgaben, die vom Verstehen von Videoinhalten und Beantworten von Fragen bis hin zur Navigation in Benutzeroberflächen und der Steuerung von Robotern reichen. Es demonstriert die vielseitigen Fähigkeiten, die multimodale Modelle KI-Agenten durch die Nutzung verschiedener Datenmodalitäten verleihen. Die folgende Abbildung zeigt Magma bei der Planung von Robotertrajektorien zur Aufgabenerfüllung und demonstriert so seine räumliche Intelligenz in Aktion. ¹²

Worin besteht der Unterschied zwischen LMMs und LLMs?

1. Datenmodalitäten

LMMs : Sie sind darauf ausgelegt, verschiedene Arten von Dateneingaben oder Modalitäten zu verstehen und zu verarbeiten. Dazu gehören Text, Bilder, Audio, Video und mitunter auch andere Datentypen wie Sensordaten. Die Kernkompetenz von LMMs liegt in ihrer Fähigkeit, diese unterschiedlichen Datenformate zu integrieren und zu interpretieren, oft gleichzeitig.
LLMs : Diese Modelle sind auf die Verarbeitung und Generierung von Textdaten spezialisiert. Sie werden primär anhand großer Textkorpora trainiert und sind in der Lage, menschliche Sprache in verschiedenen Kontexten zu verstehen und zu generieren. Nicht-textuelle Daten wie Bilder oder Audio werden von ihnen nicht nativ verarbeitet.

2. Anwendungen und Aufgaben

Lineare gemischte Modelle (LMMs) : Aufgrund ihrer multimodalen Natur eignen sich diese Modelle für Aufgaben, die das Verstehen und Integrieren von Informationen aus verschiedenen Datentypen erfordern. Beispielsweise könnte ein LMM einen Nachrichtenartikel (Text), die dazugehörigen Fotos (Bilder) und zugehörige Videoclips analysieren, um ein umfassendes Verständnis zu gewinnen.
LLMs : Ihre Anwendungsbereiche konzentrieren sich auf Aufgaben, die mit Texten zu tun haben, wie das Schreiben von Artikeln, das Übersetzen von Sprachen, das Beantworten von Fragen, das Zusammenfassen von Dokumenten und das Erstellen textbasierter Inhalte.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Welche Datenmodalitäten weisen große multimodale Modelle auf?

Text

Dies umfasst jegliche Form von schriftlichen Inhalten, wie Bücher, Artikel, Webseiten und Social-Media-Beiträge. Das Modell kann Textinhalte verstehen, interpretieren und generieren, einschließlich Aufgaben der natürlichen Sprachverarbeitung wie Übersetzung, Zusammenfassung und Beantwortung von Fragen.

Bilder

Diese Modelle können visuelle Daten analysieren und generieren. Dazu gehört das Verständnis von Inhalt und Kontext von Fotografien, Illustrationen und anderen grafischen Darstellungen. Aufgaben wie Bildklassifizierung , Objekterkennung und Bildgenerierung aus Textbeschreibungen fallen in diese Kategorie.

Audio

Dies umfasst Tonaufnahmen, Musik und gesprochene Sprache. Modelle können trainiert werden, um Sprache, Musik, Umgebungsgeräusche und andere auditive Eingaben zu erkennen . Sie können Sprache transkribieren, gesprochene Befehle verstehen und sogar synthetische Sprache oder Musik erzeugen.

Video

Die Videoverarbeitung kombiniert visuelle und auditive Elemente und umfasst das Verstehen bewegter Bilder und der dazugehörigen Töne. Dies beinhaltet die Analyse von Videoinhalten, das Erkennen von Handlungen oder Ereignissen in Videos sowie die Generierung von Videoclips.

Während die meisten derzeitigen großen multimodalen Sprachmodelle nur Text und Bilder verarbeiten können, zielt die zukünftige Forschung darauf ab, auch Audio- und Videodaten einzubeziehen.

Wie werden große multimodale Modelle trainiert?

Das Training großer multimodaler Modelle (LMMs) unterscheidet sich in mehreren wichtigen Aspekten deutlich vom Training großer Sprachmodelle (LLMs):

1. Datenerhebung und -aufbereitung

LLMs : Fokus auf Textdaten aus Büchern, Websites und schriftlichen Quellen, mit besonderem Augenmerk auf die sprachliche Vielfalt als Grundlage für die Ausbildungsdatenquellen im LLM-Bereich .
LMMs : Benötigen Text-, Bild-, Audio- und Videodaten. Die Datenerfassung ist aufgrund der unterschiedlichen Formate komplexer. Datenannotation und die Abstimmung der Modalitäten sind unerlässlich.

2. Entwurf der Modellarchitektur

LLMs : Verwenden Sie Transformer-Architekturen, die für die sequentielle Textverarbeitung optimiert sind.
LMMs : Verwenden komplexere Architekturen, die mehrere Arten von neuronalen Netzen integrieren (CNNs für Bilder, Transformer für Text) mit Mechanismen zur Verbindung dieser Modalitäten.

3. Vorbereitungstraining

LLMs : Vorabtraining anhand von Textkorpora unter Verwendung von Techniken wie Masked Language Modeling.
LMMs : Vortraining anhand verschiedener Datentypen, um zu lernen, Text mit Bildern zu korrelieren oder Videosequenzen zu verstehen.

4. Feinabstimmung

LLMs : Feinabstimmung anhand spezialisierter Textdatensätze für spezifische Aufgaben.
LMMs : Erfordern eine Feinabstimmung sowohl auf modalitätsspezifischen als auch auf modalitätsübergreifenden Datensätzen, um Beziehungen zwischen verschiedenen Datentypen herzustellen.

5. Evaluierung und Iteration

LLMs : Die Bewertungskriterien konzentrieren sich auf Aufgaben zum Sprachverständnis und zur Sprachgenerierung, einschließlich Flüssigkeit, Kohärenz und Relevanz.
LMMs : Bewertet anhand umfassenderer Metriken, die Bilderkennung, Audioverarbeitung und multimodale Integrationsfähigkeiten abdecken.

Wie funktionieren LLM-Studiengänge?

Große multimodale Modelle weisen hinsichtlich Trainingsprozess, Design und Funktionsweise Ähnlichkeiten mit großen Sprachmodellen auf. Sie verwenden dieselbe Transformer-Architektur und dieselben Trainingsstrategien. Große multimodale Modelle werden trainiert auf:

Textdaten
Millionen oder Milliarden von Bildern mit Textbeschreibungen
Videoclips
Audioausschnitte
Andere Eingabedaten, wie Code

Dieses Training beinhaltet das gleichzeitige Erlernen mehrerer Datenmodalitäten, wodurch das Modell Folgendes kann:

Ein Foto einer Katze erkennen
Identifiziere ein Wort in einem Audioausschnitt
Konzepte und sensorische Details jenseits des Textes verstehen

Auf diese Weise können Nutzer Folgendes hochladen:

Ein Bild zu:
- Lassen Sie sich beschreiben, was vor sich geht.
- Verwenden Sie das Bild als Teil einer Aufforderung, um Text oder Bilder zu generieren.
- Stellen Sie Nachfragen zu spezifischen Elementen des Bildes.
- Übersetze den Text des Bildes in eine andere Sprache (z. B. Menü).

Abbildung 5: Hochladen eines Bildes einer Katze auf ChatGPT zur Beschreibung der Katze.

Diagramme und Grafiken zu:
- Stellen Sie komplizierte Folgefragen zu dem, was sie zeigen.
Entwurfsmodell erstellen für:
- Holen Sie sich den HTML- und CSS-Code, der zum Erstellen erforderlich ist.

Abbildung 6: Bildgenerierung im Stil eines Wes-Anderson-Films. ChatGPT übergibt die Eingabeaufforderung an ein Bildgenerierungsmodell (wie DALL·E), welches die Anfrage interpretiert und das stilisierte Bild erzeugt.

Nach dem Trainingsprozess können Modelle ungesunde Stereotypen und schädliche Vorstellungen verinnerlichen. Um diese zu korrigieren, kommen Techniken wie die folgenden zum Einsatz:

Reinforcement Learning mit menschlichem Feedback (RLHF)
Überwachende KI-Modelle
Man kann Red Teaming (Testen der Robustheit des Modells) einsetzen.

Darüber hinaus können Tools für KI-Governance und verantwortungsvolle KI, die als Lösungen zur Einhaltung von KI-Vorgaben fungieren, auch die Optimierung des KI-Bestands ermöglichen und so KI-Verzerrungen und anderen ethischen Dilemmata vorbeugen. Hier ein Beispiel dafür, wie diese Tools Urheberrechtsbedenken im Bereich der generischen KI adressieren:

Abbildung 7: ChatGPT lehnt meine Anfrage aufgrund von Inhaltsrichtlinien zum Schutz von Urheberrechten ab.

Ziel ist die Entwicklung eines funktionsfähigen multimodalen Systems, das Folgendes verarbeiten kann:

Text-zu-Bild-Synthese
Bildunterschrift
Textbasierte Bildsuche
Visuelle Fragebeantwortung.

Auf diese Weise kann multimodale KI verschiedene Modalitäten integrieren und so fortschrittliche Fähigkeiten für Aufgaben bereitstellen, die sowohl Sprache als auch Bildgebung erfordern.

Welche Einschränkungen weisen große Sprachmodelle auf?

Datenanforderungen und Verzerrungen : Diese Modelle benötigen umfangreiche und vielfältige Datensätze für das Training. Die Verfügbarkeit und Qualität solcher Datensätze kann jedoch eine Herausforderung darstellen. Sind in den Trainingsdaten zudem Verzerrungen vorhanden, übernimmt das Modell diese mit hoher Wahrscheinlichkeit und verstärkt sie möglicherweise, was zu unfairen oder unethischen Ergebnissen führen kann.
Rechenressourcen : Das Training und die Ausführung großer multimodaler Modelle erfordern erhebliche Rechenressourcen, was sie teuer und für kleinere Organisationen oder unabhängige Forscher weniger zugänglich macht.
Interpretierbarkeit und Erklärbarkeit : Wie bei komplexen KI-Modellen kann es schwierig sein, deren Entscheidungsprozesse nachzuvollziehen. Dieser Mangel an Transparenz kann insbesondere in sensiblen Anwendungsbereichen wie dem Gesundheitswesen oder der Strafverfolgung ein kritisches Problem darstellen.
Integration von Modalitäten : Die effektive Integration verschiedener Datentypen (wie Text, Bilder und Audio) unter Berücksichtigung der Nuancen jeder einzelnen Modalität ist äußerst anspruchsvoll. Das Modell erfasst möglicherweise nicht immer präzise den Kontext oder die Feinheiten der menschlichen Kommunikation, die sich aus der Kombination dieser Modalitäten ergeben.
Generalisierung und Überanpassung : Obwohl diese Modelle mit umfangreichen Datensätzen trainiert werden, kann es ihnen schwerfallen, auf neue, unbekannte Daten oder Szenarien zu generalisieren, die sich deutlich von ihren Trainingsdaten unterscheiden. Umgekehrt besteht die Gefahr der Überanpassung an die Trainingsdaten, wodurch Rauschen und Anomalien als Muster erkannt werden.

Um mehr zu erfahren, sollten Sie die Herausforderungen und Risiken im Zusammenhang mit generativen und sprachlichen Modellen untersuchen.

Benchmark-Methodik für LMMs

Wir evaluierten die Leistungsfähigkeit großer multimodaler Modelle (LMMs) anhand einer Teilmenge des FinMME-Datensatzes. ¹³ ist ein umfassender Benchmark zur Bewertung multimodaler Finanzanalysefähigkeiten. FinMME umfasst über 11.000 hochwertige Finanzbeispiele aus 18 Finanzbereichen und 6 Anlageklassen und bietet damit einen robusten Rahmen zur Bewertung linearer gemischter Modelle im Finanzbereich.

Für dieses Benchmarking nutzten wir eine sorgfältig ausgewählte Stichprobe von 100 Beispielen aus dem FinMME-Datensatz, um die Fähigkeit der Modelle zur Verarbeitung und Interpretation multimodaler Finanzdaten zu analysieren.

Haftungsausschluss

Diese Evaluierung nutzte eine kuratierte Teilmenge von 100 Stichproben aus einem größeren Datensatz, um LMMs zu vergleichen. Für eine umfassende Bewertung der Modellleistung müssen alle Stichproben des vollständigen Vergleichsdatensatzes berücksichtigt werden.

Abschluss

Große multimodale Modelle (LMMs) integrieren diverse Datentypen wie Text, Bilder, Audio und Video und übertreffen damit die rein textbasierten Fähigkeiten großer Sprachmodelle (LLMs). Dank Fortschritten wie Llama 4 von AI, o von Alibaba und VL von Alibaba ermöglichen LMMs komplexere Anwendungen, von visueller Argumentation bis hin zur kontextsensitiven Bildgenerierung.

Ihre Komplexität, der hohe Rechenaufwand und Herausforderungen bei der Datenintegration und der Vermeidung von Verzerrungen stellen jedoch weiterhin Hürden dar. Mit ihrer Weiterentwicklung ebnen lineare gemischte Modelle den Weg für vielseitigere KI-Systeme und bringen uns der allgemeinen künstlichen Intelligenz näher. Für Organisationen und Forschende bedeutet die Auswahl des richtigen Modells, ein Gleichgewicht zwischen Leistung, Kosten und den spezifischen Anforderungen des jeweiligen Anwendungsfalls zu finden.

Referenzlinks

Gemma 3: Google’s new open model based on Gemini 2.0

Google

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models · GitHub

GitHub - QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. · GitHub

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

CLIP: Connecting text and images | OpenAI

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

[2204.14198] Flamingo: a Visual Language Model for Few-Shot Learning

Multimodality and Large Multimodal Models (LMMs)

GitHub - bytedance/vidi: The official repo for "Vidi: Large Multimodal Models for Video Understanding and Editing" · GitHub

GitHub - MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities · GitHub

12.

Gemini 3: Introducing the latest Gemini AI model from Google

Google

13.

Introducing 4o Image Generation | OpenAI

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen