Training großer Sprachmodelle

aktualisiert am Mär 6, 2026

Die Integration bestehender LLMs in Unternehmensworkflows wird immer üblicher. Einige Unternehmen entwickeln jedoch kundenspezifische Modelle, die mit firmeneigenen Daten trainiert werden, um die Leistung bei bestimmten Aufgaben zu verbessern.

Der Aufbau und die Wartung solcher Modelle erfordern erhebliche Ressourcen, darunter spezialisierte KI-Fachkräfte, große Trainingsdatensätze und eine entsprechende Recheninfrastruktur, wodurch die Kosten auf Millionen von Dollar steigen können.

Erfahren Sie, wie Sie mit kostengünstigeren Ansätzen ein individuelles Modell erstellen können, bevor Sie erhebliche Summen investieren:

Was ist das Training großer Sprachmodelle?

Beim Modelltraining wird einem Algorithmus für maschinelles Lernen beigebracht, Muster zu erkennen, indem ihm ausreichend Trainingsdaten zur Verfügung gestellt werden, die den Zusammenhang zwischen Eingabevariablen und den gewünschten Ergebnissen veranschaulichen.

Das Training großer Sprachmodelle umfasst vier Schritte:

1. Datenerfassung und -vorverarbeitung

Der erste Schritt besteht darin, den Trainingsdatensatz zu sammeln. Die Daten können aus verschiedenen Quellen stammen, beispielsweise aus Dokumenten, Websites, Artikeln usw. Der größte Vorteil eines benutzerdefinierten Modells liegt darin, dass es interne Unternehmensdaten nutzt. Die Aufbereitung hochwertiger, firmeneigener Daten ist der wichtigste Schritt.

Sobald private Daten aufbereitet sind, können sie mit öffentlichen Daten aus angrenzenden Bereichen angereichert werden. Beliebte öffentliche Quellen für Datensätze sind:

Kaggle
Google Datensatzsuche
Umarmendes Gesicht
Data.gov
Wikipedia-Datenbank

Anschließend müssen die Daten bereinigt und für das Training vorbereitet werden. Dies kann die Umwandlung des Datensatzes in Kleinbuchstaben, das Entfernen von Stoppwörtern und die Tokenisierung des Textes in Token-Sequenzen umfassen.

Beschaffung realer Webdaten für die LLM-Schulung

Eine der effektivsten Methoden, um große Mengen vielfältiger und kontinuierlich aktualisierter Trainingsdaten zu sammeln, ist die Web-Datenextraktion . Öffentliche Datensätze (wie Kaggle oder Hugging Face) sind zwar wertvoll, aber oft statisch oder in Umfang und Domänenspezifität eingeschränkt. Sie eignen sich besser für Experimente und akademische Forschung, reichen aber möglicherweise nicht aus, um Modelle für den Produktiveinsatz zu entwickeln.

Beispielsweise lassen durchgesickerte Daten zu GPT-4 darauf schließen, dass es mit etwa 13 Billionen Token vortrainiert wurde, die hauptsächlich aus den Datensätzen Common Crawl und RefinedWeb stammen. ¹ Dies zeigt, dass moderne LLM-Studiengänge weiterhin stark auf umfangreiche, kuratierte Webquellen angewiesen sind, um ein breites Themenspektrum abzudecken.

Webdatendienstanbieter unterstützen das Training von Sprachmodellen, indem sie den Zugriff auf domänenspezifische, ethisch erhobene Webdatensätze ermöglichen, die den Datenschutzbestimmungen, wie beispielsweise der DSGVO und dem CCPA, sowie den Nutzungsbedingungen der Plattform entsprechen.

2. Modellauswahl und Konfiguration

Große Modelle wie Gemini (Google) und 1176 (OpenAI) verwenden beide Modelle, die mit einer Transformer-Architektur für Deep Learning trainiert wurden und in einem Mixture-of-Experts-Ansatz (MoE) zusammenarbeiten. Einige Schlüsselelemente des Modells sind beispielsweise:

Anzahl der Experten
Anzahl der Schichten in Transformatorenblöcken
Anzahl der Aufmerksamkeitsköpfe
Verlustfunktion
Hyperparameter

müssen bei der Konfiguration eines Transformer-Neuronalnetzes angegeben werden.

Die Bestimmung optimaler Hyperparameter (wie Lernratenplaner oder Batchgröße) entscheidet darüber, ob ein Modell konvergiert oder scheitert.

Statt manueller Versuche nutzen Trainingsteams Tools wie Weights & Biases (Sweeps) , um den Suchraum zu automatisieren und zu visualisieren. So können Ingenieure die effizienteste Konfiguration anhand kleinerer Datensätze ermitteln, bevor sie aufwändige, umfassende Trainingsläufe durchführen.

3. Modelltraining

Das Modell wird anhand der vorverarbeiteten Textdaten mittels überwachtem Lernen trainiert. Während des Trainings wird dem Modell eine Wortfolge präsentiert, und es wird darauf trainiert, das jeweils nächste Wort vorherzusagen. Das Modell passt seine Gewichtungen basierend auf der Differenz zwischen seiner Vorhersage und dem tatsächlich folgenden Wort an. Dieser Prozess wird millionenfach wiederholt, bis das Modell ein zufriedenstellendes Leistungsniveau erreicht.

Angesichts der enormen Investitionen in Rechenleistung ist Echtzeit-Überwachung unerlässlich. Führende KI-Teams nutzen eine zentrale Datenerfassungsschicht wie Weights & Biases , die auf der Infrastruktur (z. B. AWS oder NVIDIA) aufsetzt. Dadurch können sie Verlustkurven und Systemmetriken (GPU-Auslastung, Speicherspitzen) über Tausende verteilter Chips hinweg überwachen. So wird sichergestellt, dass Abweichungen im Trainingslauf oder Hardwareausfälle sofort erkannt und gestoppt werden können, um Kosten zu sparen.

Da die Modelle und Daten sehr umfangreich sind, ist für das Training der Modelle immense Rechenleistung erforderlich. Um die Trainingszeit zu verkürzen, wird eine Technik namens Modellparallelität eingesetzt. Modellparallelität ermöglicht es, verschiedene Teile eines großen Modells auf mehrere GPUs zu verteilen, wodurch das Modell mithilfe vonKI-Chips verteilt trainiert werden kann.

Durch die Aufteilung des Modells in kleinere Teile kann jeder Teil parallel trainiert werden, was im Vergleich zum Training des gesamten Modells auf einer einzelnen GPU oder einem einzelnen Prozessor zu einem schnelleren Trainingsprozess führt. Dies resultiert in einer schnelleren Konvergenz und einer besseren Gesamtleistung, wodurch das Training noch größerer Sprachmodelle als bisher möglich wird. Gängige Arten der Modellparallelisierung sind:

Durch Datenparallelität werden die Trainings-Mini-Batches aufgeteilt und an Modellrepliken übertragen, wodurch die Verarbeitungsgeschwindigkeit erhöht wird.
Durch Pipeline-Parallelisierung werden separate Schichten des Modells verschiedenen GPUs zugewiesen, um die Modellgröße über eine einzelne GPU hinaus zu erweitern.
Bei der Tensorparallelität wird eine einzelne Schicht auf viele GPUs verteilt, üblicherweise innerhalb desselben Servers.

Abbildung 1: Ein Trainingsbeispiel für ein 6-schichtiges Modell von AWS. ²

4. Bewertung und Feinabstimmung

Nach dem Training wird das Modell anhand eines Testdatensatzes evaluiert, der nicht als Trainingsdatensatz verwendet wurde, um seine Leistungsfähigkeit zu messen. Basierend auf den Ergebnissen der Evaluierung kann eine Feinabstimmung des Modells erforderlich sein, beispielsweise durch Anpassung der Hyperparameter, Änderung der Architektur oder Training mit zusätzlichen Daten, um seine Leistung zu verbessern.

Die Evaluierung generativer Modelle ist komplexer als die traditioneller ML-Metriken. Sie erfordert das Nachvollziehen der Denkprozesse des Modells und den Vergleich der Ergebnisse mit einem Referenzdatensatz.

W&B Weave ermöglicht es Entwicklern beispielsweise, systematische Evaluierungen (mithilfe von „LLM-als-Richter“-Techniken) durchzuführen, um das Modell vor der Bereitstellung anhand von Nuancen wie Tonfall, Genauigkeit und Sicherheit zu bewerten.

Reinforcement Learning mit menschlichem Feedback (RLHF) ist eine gängige Methode zur Feinabstimmung von Modellen. Bei RLHF leitet eine aus menschlichen Präferenzsignalen abgeleitete Belohnungsfunktion das Modell dazu an, seine Ausgaben durch Ausprobieren zu verbessern und sie so an menschliche Werte anzupassen.

Die Studie DeepSeek-R1 zeigt beispielsweise, dass die Anwendung von reinem RL (ohne umfangreiche, von Menschen gelabelte Schlussfolgerungsdaten) die Schlussfolgerungsleistung eines LLM erheblich verbessern kann. ³

Ausbildung von LLMs für spezifische Anwendungsfälle

Das Training eines LLM besteht aus zwei Teilen: Vortraining und aufgabenspezifischem Training. Das aufgabenspezifische Training wird auch als LLM-Feinabstimmung bezeichnet.

Das Vortraining ist ein Teil des Trainingsprozesses, der es dem Modell ermöglicht, die allgemeinen Regeln und Abhängigkeiten innerhalb einer Sprache zu erlernen. Dies erfordert eine erhebliche Datenmenge und

Die Rechenleistung stammt von Supercomputersystemen mit Hardware führenderKI-Chiphersteller (z. B. NVIDIA). Berücksichtigt man die Wartungs- und Energiekosten, so beläuft sich die Vorentwicklung eines großen Sprachmodells auf Investitionen in Millionenhöhe.
Zeit : GPT-4 Das Training dauerte Berichten zufolge etwa ein halbes Jahr.

Um große Sprachmodelle für Unternehmen zugänglicher zu machen, bieten LLM-Entwickler Feinabstimmungsdienste für Unternehmen an, die Sprachmodelle nutzen möchten.

Beispielsweise ist Qwen3.5, Alibabas neuestes KI-Modell mit offener Gewichtung, als nativer multimodaler Agent konzipiert, der Texte , Bilder , Videos und Code verstehen und interpretieren kann. Das erste veröffentlichte Modell, Qwen3.5-397B-A17B, verwendet eine Hybridarchitektur, die lineare Aufmerksamkeit und Sparse Mixture-of-Experts kombiniert und so eine hohe Effizienz ermöglicht: Obwohl das Modell 397 Milliarden Parameter enthält, werden pro Inferenzschritt nur 17 Milliarden aktiviert.

Qwen3.5 führt Infrastrukturverbesserungen ein, darunter FP8-Training, heterogene multimodale Trainingspipelines und skalierbare Reinforcement-Learning-Frameworks, wodurch eine 3- bis 5-fache Beschleunigung des Trainings erreicht wird. Das Modell kann zudem als KI-Agent fungieren und ist in der Lage, Werkzeuge zu nutzen, im Web zu suchen, Code auszuführen, mit grafischen Benutzeroberflächen zu interagieren und multimodales Schlussfolgern über lange Kontexte hinweg durchzuführen. ⁴

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Architektur großer Sprachmodelle

Die Architektur großer Sprachmodelle, wie beispielsweise des Modells OpenAI (GPT-4), basiert auf der Transformer-Architektur. Sie besteht aus folgenden Hauptkomponenten (siehe Abbildung 2):

Abbildung 2: Diagramm zur Darstellung der Architekturprozesse von Transformatoren. ⁵

1. Eingabeeinbettung

Die Eingabesequenz wird zunächst in eine dichte Vektordarstellung, ein sogenanntes Embedding, umgewandelt, das die Beziehungen zwischen den Wörtern in der Eingabe erfasst.

2. Multi-Head-Selbstaufmerksamkeit

Die Kernkomponente der Transformer-Blockarchitektur ist der Multi-Head-Self-Attention-Mechanismus, der es dem Modell ermöglicht, verschiedene Teile der Eingabesequenz zu berücksichtigen, um deren Beziehungen und Abhängigkeiten zu erfassen.

3. Feedforward-Netzwerk

Nach dem Selbstaufmerksamkeitsmechanismus wird die Ausgabe in ein Feedforward-Neuronales Netzwerk eingespeist, das eine nichtlineare Transformation durchführt, um eine neue Repräsentation zu erzeugen.

4. Normalisierung und Residualverbindungen

Um den Trainingsprozess zu stabilisieren, wird der Output jeder Schicht normalisiert und eine Residualverbindung hinzugefügt, damit der Input direkt zum Output weitergeleitet werden kann und das Modell lernt, welche Teile des Inputs am wichtigsten sind.

Diese Komponenten werden mehrfach wiederholt, um ein tiefes neuronales Netzwerk zu bilden, das lange Textsequenzen verarbeiten und qualitativ hochwertige Ausgaben für verschiedene Sprachaufgaben generieren kann, wie z. B. Textgenerierung, Fragebeantwortung und Übersetzung.

Entwickler entwickeln weiterhin große Sprachmodelle, indem sie neue Techniken implementieren, um:

Vereinfachen Sie das Modell (verringern Sie die Modellgröße oder den zum Training benötigten Speicherplatz),
Leistung verbessern,
Niedrigerer Preis,
Verkürzen Sie die Modelltrainingszeit.

In jüngster Zeit werden die Trainingsökonomie und die Rack-Scale-Systeme aus der Rubin-Ära, die für das Training und die Inferenz von Bildungsministerien optimiert sind, neu gestaltet.

NVIDIA stellte die Rubin-Plattform vor, eine neue KI-Rechenarchitektur, die sechs Chips kombiniert, darunter die Vera-CPU, die Rubin-GPU, den NVLink 6-Switch, die ConnectX-9 SuperNIC, die BlueField-4 DPU und den Spectrum-6 Ethernet-Switch, um KI-Supercomputer anzutreiben.

Das System ist durch eine enge Hardware-Software-Koentwicklung konzipiert, um die Effizienz deutlich zu verbessern, die Kosten für KI-Inferenz-Token um bis zu 10× zu senken und die Anzahl der für das Training von Mixture-of-Experts (MoE)-Modellen benötigten GPUs im Vergleich zur Blackwell-Plattform um das 4-fache zu reduzieren.

Die wichtigsten Cloud-Anbieter und KI-Labore, darunter AWS, Microsoft, Google, Meta und OpenAI, planen die Einführung einer auf Rubin basierenden Infrastruktur; Partnersysteme werden voraussichtlich in der zweiten Hälfte des Jahres 2026 folgen. ⁶

Referenzlinks

GPT-4 architecture, datasets, costs and more leaked

THE-DECODER.com

Training large language models on Amazon SageMaker: Best practices | Artificial Intelligence

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning | Nature

Nature Publishing Group UK

https://qwen.ai/blog?id=qwen3.5

https://arxiv.org/pdf/1706.03762v5

NVIDIA Corporation - NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI Supercomputer

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen