LCMs: Von der Tokenisierung auf LLM-Ebene zur Repräsentation auf Konzeptebene

aktualisiert am Jan 23, 2026

Große Konzeptmodelle (LCMs) , wie sie von Meta in ihrer Arbeit über „Große Konzeptmodelle“ eingeführt wurden, stellen einen grundlegenden Wandel von der tokenbasierten Vorhersage hin zur Repräsentation auf Konzeptebene dar. ¹

LCMs unterscheiden sich von traditionellen LLMs in zwei wesentlichen Punkten:

Hochdimensionaler Einbettungsraum: Anstatt mit diskreten Tokensequenzen zu arbeiten, führen LCMs die gesamte Modellierung direkt im hochdimensionalen Einbettungsraum durch.
Abstraktion auf Konzeptebene: Die Modellierung erfolgt auf der Ebene semantischer und abstrakter Konzepte, nicht innerhalb einer bestimmten Sprache oder Modalität. Dadurch sind LCMs von Natur aus sprach- und modalitätsunabhängig.

Aus den Recherchen von Meta, ² Wir werden die Kernkomponenten von LCMs und ihr Potenzial für semantische Suche und Schlussfolgerung anhand der folgenden Benchmarks untersuchen:

LCM-Architektur
LCM-Effizienz
LCM vs. traditionelle LLMs

Die Grenzen von LLMs verstehen: Von Token zu Konzepten

Die Rolle der Tokenisierung in großen Sprachmodellen: Große Sprachmodelle (LLMs) werden mit Tokens trainiert. Tokens sind kleine Textabschnitte. Es kann sich um ein ganzes Wort, einen Wortteil oder sogar ein einzelnes Zeichen handeln, das vom Modell als Einheit verarbeitet wird.

Beispiel für Tokenisierung:

Das Problem

Die Tokenisierung hilft Modellen dabei, Sprache in handhabbare Einheiten zu zerlegen, bringt aber auch eine Einschränkung mit sich. Die meisten Sprachverarbeitungsmodelle arbeiten mit Sequenzen diskreter Token (z. B. Textteilwörter; visuelle/auditive Token, die von Kodierern erzeugt werden).

LLMs können mehrere Modalitäten aufnehmen, doch ihr Kernziel und ihre Repräsentation bleiben sequenzgebunden , was es schwieriger macht, Bedeutung direkt auf Konzeptebene zu modellieren.

Die Ergebnisse von Cognition.ai mit Sonnet 4.5 zeigen dies deutlich: Das Modell erkennt, wenn sein Kontextfenster fast voll ist, zieht voreilige Schlüsse und meldet sogar verbleibende Token, allerdings ungenau. ³

Die Lösung (Konzepte)

Visualisierung von Schlussfolgerungen in einem Einbettungsraum von Konzepten (Aufgabe der Zusammenfassung) ⁴

Konzepte bezeichnen übergeordnete Bedeutungsrepräsentationen . Im Gegensatz zu Tokens sind sie nicht an eine bestimmte sprachliche Einheit gebunden und können aus Texten und gesprochener Sprache abgeleitet werden, sodass der Denkprozess derselbe bleibt.

Dies ermöglicht Folgendes:

Bessere Verarbeitung längerer Kontexte durch das Betrachten ganzer Ideen anstatt fragmentierter Einheiten.
Abstrakteres Denken, da die Operationen auf der Ebene der Bedeutung durchgeführt werden.
Ein sprach- und modalitätsunabhängiger Prozess zur Bearbeitung mehrsprachiger und multimodaler Aufgaben, ohne dass separate Verarbeitungspipelines für jede Art von Eingabe erforderlich sind.

Was sind große Konzeptmodelle?

Im Gegensatz dazu zielen große Konzeptmodelle (LCMs) darauf ab, semantische Konzepte in einem kontinuierlichen Einbettungsraum darzustellen und darüber zu argumentieren, der nicht an eine bestimmte Sprache oder Modalität gebunden ist.

Grundlegende Architektur eines großen Konzeptmodells (LCM):

Quelle: Meta ⁵

Kernkomponenten von LCMs

1. SONAR-Kodierung (Umwandlung von Text oder Sprache in Konzept-Einbettungen)

SONAR-Architektur ⁶

Die erste Stufe eines Large Concept Model (LCM) ist der Konzept-Encoder , der Text oder Sprache in einen gemeinsamen Einbettungsraum umwandelt. Anstatt die Eingabe in Tokens zu zerlegen, repräsentiert er ganze Sätze als mathematische Einbettungen , die deren Bedeutung erfassen.

LCMs verwenden SONAR , einen mehrsprachigen und multimodalen Einbettungsraum, der über 200 Textsprachen und 76 Sprachsprachen unterstützt.

Beispielsweise stehen die Sätze „I love you“ (Englisch) und „Te quiero“ (Spanisch) in diesem Bereich nahe beieinander, weil sie dieselbe Idee ausdrücken. Durch die Arbeit auf dieser konzeptionellen Ebene gewinnen LCMs im Vergleich zu tokenbasierten Modellen an Inklusivität, Effizienz und Skalierbarkeit.

Warum ist SONAR besser als herkömmliche Einbettungen?

Traditionelle Methoden:

mBERT : Bietet mehrsprachige Einbettungen, diese sind jedoch nicht konsistent auf Satzebene ausgerichtet , was die Effektivität sprachübergreifender Aufgaben verringert.

SONAR-Vorteile:

Sprachunabhängig : Über 200 Sprachen für Texteingabe und -ausgabe (aufbauend auf dem Projekt „No Language Left Behind “ von Meta). 76 Sprachen für Spracheingabe und Englisch für Sprachausgabe.
Sprachübergreifende Ausrichtung : Sätze mit gleicher Bedeutung erscheinen unabhängig von der Sprache nahe beieinander.
Höheres Denkvermögen : Da die Einheiten Sätze (oder Konzepte) sind, können Modelle Aufgaben wie Zusammenfassen oder Übersetzen durchführen, indem sie Ideen direkt manipulieren.
Zero-Shot-Übersetzung : Kann zwischen Sprachen und Modalitäten übersetzen , ohne für jedes Paar ein direktes Training durchzuführen .
LLMs vs LCMs

2. LCM-Kernverarbeitung (Schlussfolgerungen über Einbettungen)

Der Kern des LCM ist die Schlussfolgerungsphase, in der das Modell kontextbasiert neue Konzepte generiert. Im Gegensatz zu LLMs, die jeweils nur ein Token vorhersagen, sagt der LCM-Kern ganze Sätze oder Konzepte voraus und operiert somit auf einer höheren semantischen Ebene.

Die Herausforderung besteht darin, kontinuierliche Einbettungen zu erzeugen, die vom Kontext abhängen. LLMs generieren Wahrscheinlichkeitsverteilungen über diskrete Token, LCMs hingegen müssen direkt Vektoren generieren, die die Bedeutung erfassen.

Um diesem Problem zu begegnen, haben Forscher verschiedene Ansätze vorgeschlagen, darunter:

Base-LCM: Standard-Transformer zur Vorhersage von Einbettungen: Die einfachste Methode besteht darin, einen Transformer so zu trainieren, dass er die nächste Einbettung direkt vorhersagt und dabei den mittleren quadratischen Fehler (MSE) minimiert. Obwohl dieser Ansatz prinzipiell effektiv ist, stößt er auf Herausforderungen, da ein gegebener Kontext zu mehreren gültigen, aber semantisch unterschiedlichen Fortsetzungen führen kann.

Basis-LCM ⁷

Diffusionsbasierte LCM: Strukturelle Variationen zur Kontextualisierung und Rauschunterdrückung: Inspiriert von der Bildgenerierung nutzt diese Variante einen Diffusionsprozess . Sie generiert autoregressiv Konzepte, eines nach dem anderen, und führt für jedes generierte Konzept Rauschunterdrückungsschritte durch.
- Ein-Turm-Lösung: Ein einziger Transformer-Stack übernimmt sowohl die Kontextualisierung als auch die Rauschunterdrückung und sorgt so für ein effizientes und kompaktes Design.
- Zwei-Turm-Modell: Teilt den Prozess in zwei Teile auf: einen Kontextualisierer zum Verständnis des Kontextes und einen Entrauscher zur Verfeinerung der Einbettungen. Dies bietet mehr Flexibilität auf Kosten der Komplexität.

Quelle: Diffusionsmodelle in der Bildgenerierung ⁸

Quantisiertes LCM: Diskretisierte Einbettungen: Eine weitere Möglichkeit besteht darin, Einbettungen in größere symbolische Einheiten zu diskretisieren . Dadurch ähnelt die Aufgabe eher der von LLMs, bei denen das Modell diskrete Elemente generiert, aber hier repräsentieren die „Token“ viel größere, semantisch reichhaltigere Bedeutungseinheiten.

3. SONAR-Dekodierung (Rückführung in für Menschen lesbaren Text oder Sprache)

Der letzte Schritt eines LCM ist der Konzeptdecoder , der abstrakte Einbettungen wieder in natürlichen Text oder Sprache umwandelt.

Da Konzepte in einem gemeinsamen Einbettungsraum gespeichert sind, können sie in jede unterstützte Sprache oder Modalität dekodiert werden, ohne den Schlussfolgerungsprozess erneut auszuführen.

Dieses sprachunabhängige Design ermöglicht es einem LCM, Eingaben in Deutsch zu verarbeiten, Konzepte zu erkennen und Ergebnisse in Japanisch auszugeben. Es ermöglicht zudem eine einfache Skalierbarkeit: Neue Encoder oder Decoder (z. B. für Gebärdensprache oder Spracherkennungssysteme) können hinzugefügt werden, ohne dass das gesamte Modell neu trainiert werden muss.

Indem der Decoder das „Denken“ vom Ausdruck trennt, stellt er sicher, dass LCMs sowohl flexibel als auch anpassungsfähig für mehrsprachige und multimodale Anwendungen bleiben.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Benchmarking von LCM-Architekturen

Meta wurden auf dem FineWeb-Edu-Datensatz (nur Englisch) vortrainierte LCMs erstellt und anhand von vier Benchmarks evaluiert:

ROC-Stories (narratives Denken),
C4 (Web-Scale-Text),
Wikipedia-en (enzyklopädisches Wissen),
Gutenberg (Langform des Textes).

Diese Datensätze wurden ausgewählt, um verschiedene Textarten zu erfassen, von kurzen Erzählungen bis hin zu großen Wissensdatenbanken und ausführlichen Dokumenten.

Wichtigste Erkenntnisse:

Diffusionsbasierte LCMs (QUANT-LCM-C, QUANT-LCM-D) erzielen die besten Ergebnisse . Ihr iterativer Entrauschungsprozess erwies sich als effektiver bei der Modellierung von Konzeptfortsetzungen, was zu einer höheren semantischen Genauigkeit und Kohärenz führte.

Wie man die Vergleichsdaten interpretiert:

ℓ₂, ℓ₂-r: Niedrigere Werte bedeuten genauere und konsistentere Einbettungen.
PAR: Der Mittelweg ist am besten, er zeigt Kohärenz ohne Zusammenbruch.
CA: Höher = bessere semantische Übereinstimmung.
MI: Höherer Wert = informativere Ergebnisse.

Benchmarking der LCM-Effizienz

Die Experimente von Meta zeigten, dass LCMs im Vergleich zu LLMs bei gleicher Textmenge gut mit der Kontextlänge skalieren . Dieser Vorteil beruht darauf, dass ein Konzept einem vollständigen Satz entspricht , der mehrere Token enthält. Da es weniger Konzepte als Token gibt, muss das Modell weniger Einheiten verarbeiten, und die quadratische Aufmerksamkeit wird weniger aufwendig.

Wichtigste Erkenntnisse:

Es ist wichtig zu beachten, dass diese Effizienzgewinne stark davon abhängen, wie der Text in Sätze segmentiert wird . Absätze, die in kürzere oder längere Sätze unterteilt werden, beeinflussen die Anzahl der Konzepte und somit die Rechenlast.

Jede LCM-Berechnung umfasst drei Phasen:

SONAR-Kodierung (Text oder Sprache: Einbettungen)
Transformer-LCM-Schlussfolgerung (Verarbeitung von Einbettungen)
SONAR-Dekodierung (Einbettungen: Text oder Sprache)

Diese Pipeline verursacht zusätzlichen Aufwand, insbesondere bei kurzen Eingaben:

Bei kurzen Sätzen (weniger als ~10 Token) können LLMs effizienter sein als LCMs, da die Kodierungs- und Dekodierungsschritte die Vorteile der Verarbeitung auf Konzeptebene überwiegen.

LCM vs. traditionelle LLMs bei Zusammenfassungsaufgaben

Meta führte außerdem eine Benchmark-Analyse eines diffusionsbasierten LCM (7B Parameter) anhand von Nachrichten-Zusammenfassungsdatensätzen (z. B. CNN/DailyMail, XSum) durch und verglich es mit traditionellen LLMs.

Paradigmenbeschreibungen:

SFT : Spezialisiertes Training zu Beispielen für Zusammenfassungen.
IFT : Umfassenderes Training mit Unterrichtsdatensätzen, damit das Modell die Zusammenfassung als eine von vielen Fähigkeiten erlernt.

Parameterbeschreibungen:

ROUGE-L : Überschneidung mit Referenzzusammenfassungen.
OVL-3 : Input-Trigramm-Überlappungsverhältnis, das die Redundanz aus dem Quelltext misst.
REP-4 : Ausgabe des Vier-Gramm-Wiederholungsverhältnisses, das die Wiederholung in generierten Zusammenfassungen misst.
SEAHORSE-Kennzahlen für das 4. und 5. Quartal : Qualitäts- und Kohärenzmaße.
CoLA-basierter Klassifikator : Bewertung der sprachlichen Akzeptabilität generierter Sätze.

Wichtigste Erkenntnisse:

Stärke:

Das Diffusions-LCM weist eine starke Kohärenz und kontextuelle Ausrichtung bei der Zusammenfassung längerer Texte auf, insbesondere bei der Verarbeitung großer Kontexte.

Vorbehalte und Überlegungen:

Die Evaluierung konzentriert sich hauptsächlich auf generative Aufgaben (Zusammenfassung) und weniger auf umfassende Benchmarks wie MMLU.
Die Art und Weise, wie Absätze in Sätze unterteilt werden (z. B. wie man „Konzepte“ definiert), hat einen starken Einfluss auf die Leistung.
Hinsichtlich sprachlicher Flüssigkeit und Akzeptabilität haben tokenbasierte Sprachlernsysteme wie LLaMA-3.1-8B und Mistral-7B weiterhin einen Vorteil. Sprachlernsysteme zeigen zwar vielversprechende Ansätze, erzielen aber noch keine eindeutigen Verbesserungen in allen Bereichen, insbesondere nicht in Bezug auf Flüssigkeit oder Flexibilität.

Referenzlinks

Large Concept Models: Language Modeling in a Sentence Representation Space | Research - AI at Meta

Rebuilding Devin for Claude Sonnet 4.5: Lessons and Challenges | Cognition

https://arxiv.org/pdf/2412.08821

Large Concept Models Explained | DigitalOcean

DigitalOcean Community

Intro to Diffusion Model — Part 4 | by DZ | Medium

Medium

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

Grundlagen der KIMär 5

LCMs: Von der Tokenisierung auf LLM-Ebene zur Repräsentation auf Konzeptebene

Die Grenzen von LLMs verstehen: Von Token zu Konzepten

Das Problem

Die Lösung (Konzepte)

Was sind große Konzeptmodelle?

Kernkomponenten von LCMs

1. SONAR-Kodierung (Umwandlung von Text oder Sprache in Konzept-Einbettungen)

Warum ist SONAR besser als herkömmliche Einbettungen?

2. LCM-Kernverarbeitung (Schlussfolgerungen über Einbettungen)

3. SONAR-Dekodierung (Rückführung in für Menschen lesbaren Text oder Sprache)

Benchmarking von LCM-Architekturen

Wichtigste Erkenntnisse:

Benchmarking der LCM-Effizienz

Wichtigste Erkenntnisse:

LCM vs. traditionelle LLMs bei Zusammenfassungsaufgaben

Wichtigste Erkenntnisse:

Referenzlinks

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Große quantitative Modelle: Anwendungen und Herausforderungen

Große Weltmodelle: Anwendungsfälle und Beispiele

Große Sprachmodelle in der Cybersicherheit in 2026

Einbettungsmodelle: OpenAI vs Gemini vs Cohere

Große Actionmodelle: Hype oder Realität?

Große multimodale Modelle (LMMs) vs. LLMs