Wie man eine KI-Infrastruktur und ihre wichtigsten Komponenten entwirft

aktualisiert am Mär 11, 2026

Die KI-Infrastruktur bildet die Grundlage aktueller KI-Anwendungen und kombiniert spezialisierte Hardware, Software und Betriebsmethoden, um den Anforderungen der KI gerecht zu werden.

Unternehmen verschiedenster Branchen nutzen es, um KI in Produkte und Prozesse zu integrieren , beispielsweise in Chatbots (z. B. ChatGPT), Gesichts- und Spracherkennung sowie Computer Vision.

Dieser Artikel erklärt die Funktionsweise der KI-Infrastruktur, ihre wichtigsten Komponenten und die Unterschiede zur traditionellen IT-Infrastruktur.

Was ist KI-Infrastruktur?

Die KI-Infrastruktur (Künstliche Intelligenz), auch KI-Stack genannt, bezeichnet die integrierte Hardware- und Softwareumgebung, die für die Entwicklung, das Training und den Einsatz von ML- und KI-Anwendungen erforderlich ist.

Beispiele für Anwendungen, die auf KI-Infrastruktur angewiesen sind, sind beispielsweise Translate, GPT und Assistant.

KI-Infrastruktur vs. traditionelle IT-Infrastruktur

Traditionelle IT-Systeme sind für allgemeine Rechenaufgaben ausgelegt, während KI-Infrastrukturen explizit für die hohen Rechenanforderungen von KI/ML-Aufgaben entwickelt werden.

Die KI-Infrastruktur nutzt GPUs (Grafikprozessoren) und häufig auch TPUs (Tensorverarbeitungseinheiten), um die umfangreichen Berechnungen des Modelltrainings zu bewältigen. GPUs (und TPUs) bieten parallele Verarbeitungskapazitäten und eignen sich daher hervorragend für die Durchführung umfangreicher Matrixmultiplikationen.

Herkömmliche IT-Umgebungen verwenden typischerweise traditionelle zentrale Verarbeitungseinheiten (CPUs) für Web-, Datenbank- oder ERP-Systeme. Diese Umgebungen bewältigen hauptsächlich Aufgaben wie Web-Traffic oder die Datenspeicherung.

Der KI-Infrastruktur-Stack umfasst ML/DL-Frameworks (wie TensorFlow und PyTorch), Bibliotheken (NumPy und Pandas) und Sprachen (Python und CUDA) sowie verteilte Rechenframeworks (Spark und Hadoop) zur Verwaltung von Modellen.

Im Gegensatz dazu verwendet die traditionelle IT-Infrastruktur typischerweise Allzwecksoftware (Webserver, Datenbanken, Geschäftsanwendungen) und verfügt nicht über diese KI-spezifischen Bibliotheken.

Wie KI-Infrastruktur generative KI unterstützt

Generative KI-Modelle wie GPT-4 (LLM) oder DALL-E (Text-zu-Bild-Modelle) erzeugen neue Daten und erfordern für ihre Entwicklung und ihren Einsatz eine außerordentliche Recheninfrastruktur.

Cloud-Anbieter (wie Azure, AWS und Google Cloud) und auf KI spezialisierte Rechenzentren bauen ultragroße GPU-Cluster, um umfangreiche KI-Workloads zu unterstützen.

Amazons „UltraCluster “ mit über 20.000 GPUs ist beispielsweise darauf ausgelegt, die enormen Rechenanforderungen moderner KI- und Machine-Learning-Modelle zu erfüllen, insbesondere jener, die beim Deep Learning eingesetzt werden . ¹

In jüngster Zeit haben Anbieter von KI-Infrastrukturen damit begonnen, spezialisierte Laufzeitumgebungen zu entwickeln, die für generative KI-Workloads optimiert sind. Cloud-Anbieter entwickeln beispielsweise zustandsbehaftete Laufzeitarchitekturen, die es KI-Agenten und großen Sprachmodellen ermöglichen, langfristige Kontexte über Sitzungen hinweg aufrechtzuerhalten. Dies ermöglicht komplexere KI-Anwendungen, die über die traditionelle zustandslose Inferenz hinausgehen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Funktionsweise der KI-Infrastruktur und ihre wichtigsten Komponenten

Datenspeicherung:

Dies kann lokale oder Cloud-basierte Data Lakes, verteilte Dateisysteme, Data Warehouses und skalierbare Speicherlösungen umfassen. Beispiele hierfür sind SQL-/NoSQL-Datenbanken für strukturierte Daten und Hadoop HDFS oder Cloud-Objektspeicher für Rohdateien.

Da die Datenmengen so groß sind, wird bei KI-Speicherlösungen oft nicht nur auf die Kapazität, sondern auch auf den Zugriff mit geringer Latenz unter Verwendung von NVMe-SSDs und parallelen Dateisystemen Wert gelegt, um die Rechenschicht ohne Engpässe zu versorgen.

Rechenressourcen:

GPUs (Grafikprozessoren) sind die am häufigsten verwendeten Recheneinheiten für KI. KI-Server enthalten typischerweise mehrere GPUs, um Trainingsaufträge zu skalieren.

Die KI-Infrastruktur basiert zunehmend auf Rack-Scale-KI-Plattformen anstatt auf eigenständigen GPUs. Beispielsweise wurde die Rubin-KI-Plattform eingeführt, die GPUs, CPUs, Netzwerkkomponenten und Switches in einem einzigen KI-Supercomputersystem integriert, das für das Training und die Inferenz umfangreicher Modelle konzipiert ist.

Ziel dieser Systeme ist es, die Inferenzkosten deutlich zu senken und die Leistungseffizienz im Vergleich zu früheren GPU-Clustern zu verbessern.

Netzwerk:

GPUs auf verschiedenen Servern müssen Modellparameter häufig synchronisieren. KI-Infrastrukturen nutzen Netzwerke mit hoher Bandbreite und geringer Latenz, um die schnelle Übertragung großer Datenmengen zu ermöglichen.

Mit der Skalierung von KI-Clustern auf Zehntausende von Beschleunigern hat sich die Netzwerktechnik zu einem kritischen Engpass entwickelt. Hyperscale-Unternehmen setzen daher zunehmend spezialisierte KI-Netzwerkarchitekturen wie Spectrum-X Ethernet oder InfiniBand-Fabrics ein, um eine latenzarme Kommunikation zwischen GPUs während des verteilten Trainings zu gewährleisten.

KI-Bibliotheken:

Frameworks für maschinelles Lernen wie TensorFlow, PyTorch und JAX bieten Programmierschnittstellen zur Definition neuronaler Netze und Trainingsalgorithmen auf der zugrunde liegenden Hardware.

Neben Trainingsframeworks stützt sich die moderne KI-Infrastruktur zunehmend auf spezialisierte Inferenz- und Bereitstellungsframeworks wie vLLM sowie auf optimierte Laufzeitsysteme, die die Effizienz des Einsatzes großer Sprachmodelle verbessern.

Diese Frameworks werden häufig in die Rechenschicht integriert, um mehrere GPUs transparent zu nutzen, wie beispielsweise die verteilte Datenparallelität von PyTorch.

Orchestrierungs- und MLOps-Tools:

Orchestrierungstools helfen bei der Verwaltung von Rechenressourcen und Arbeitsabläufen. Beispielsweise können Kubernetes (mit Kubeflow für KI) oder der Clustermanager von Apache Spark ML-Jobs clusterweit planen.

Moderne KI-Infrastrukturen unterstützen zunehmend umfangreiche verteilte Trainings- und LLM-Inferenz-Workloads. So bieten beispielsweise aktuelle Updates von Tools wie Kubeflow und Ray Funktionen für verbesserte automatische Skalierung, verteilte Trainingskoordination und hardwarebasierte Planung in heterogenen Rechenclustern.

Sie umfassen Funktionen zur Versionierung von Datensätzen und Modellen, zur Nachverfolgung von Experimenten sowie zur kontinuierlichen Integration und Bereitstellung für maschinelles Lernen. Herkömmliche Infrastrukturen bieten keine derartige ML-spezifische Orchestrierung.

Wie man eine KI-Infrastruktur aufbaut

Die KI-Infrastruktur lässt sich mit einem mehrstufigen Stapel vergleichen, von dem jede Ebene eine Rolle in der Pipeline spielt, die von der Datenverwaltung bis zur Bereitstellung von KI-Modellen reicht.

Cloud vs. On-Premises: Die erste Entscheidung besteht darin, ob man eine Cloud-Infrastruktur nutzt, On-Premises entwickelt oder eine Hybridstrategie verfolgt.

Cloudbasierte vs. lokale KI-Infrastruktur

Die Wahl zwischen Cloud-basierter und On-Premises-Lösung hängt von Kostenüberlegungen, Sicherheitsanforderungen und den organisatorischen Möglichkeiten ab.

Cloud-Dienste eliminieren die hohen Vorabinvestitionen, während On-Premise-Lösungen den Kauf teurer Hardware (z. B. GPU-Server) und Investitionen in Rechenzentrumskapazität erfordern. Einmal angeschaffte On-Premise-Hardware kann jedoch zu Fixkosten genutzt werden.

Obwohl die Stückpreise in der Cloud oft höher sind, bietet sie Flexibilität: Sie zahlen nur bei Bedarf und können Ressourcen bei Nichtgebrauch abschalten. Beispielsweise liegen die Kosten für ein DGX H200 (991259_1745), ein On-Premise-KI-System mit 8 GPUs, zwischen 400.000 und 500.000 US-Dollar. ²

Die vergleichbare Cloud-Lösung (AWS p5.48xlarge-Instanz mit 8 H100-GPUs) kostet bei Bedarf etwa 84 US-Dollar pro Stunde. Bei kontinuierlicher Nutzung belaufen sich die jährlichen Kosten auf rund 735.000 US-Dollar; die Anfangsinvestition würde sich somit in weniger als einem Jahr amortisieren.

Alle großen Cloud-Anbieter unterstützen automatische Skalierungsgruppen, sodass Ihr KI-Dienst je nach Auslastung automatisch verkleinert werden kann. Lokale Infrastrukturen sind auf Server und GPUs beschränkt.

Wichtige Komponenten: Der Aufbau einer KI-Infrastruktur erfordert die Zusammenstellung der richtigen Kombination aus Hardware- und Softwarekomponenten. Auf der Hardwareseite sind die zentralen Komponenten die Rechenbeschleuniger, während die unterstützende Hardware Server mit hohem Arbeitsspeicher und großflächige Speicherlösungen umfasst.
Skalierbarkeit : Mit zunehmender Komplexität von KI-Projekten und -Modellen wachsen auch die Datensätze. Daher benötigt Ihre KI-Infrastruktur möglicherweise leistungsstärkere Rechner oder GPUs sowie zusätzliche Knoten in Ihrem Cluster. Beispielsweise kann ein skalierbares, verteiltes Dateisystem mit erweiterbarer Kapazität hilfreich sein.
Kostenüberlegungen: Es gibt zwei Hauptkostenmodelle: Investitionsausgaben (CapEx) und Betriebsausgaben (OpEx). On-Premises-Infrastrukturen erfordern Investitionsausgaben (CapEx), wie z. B. den Kauf von Hardware und den Aufbau von Rechenzentrumskapazität. Die Cloud verlagert die Kosten auf die Betriebsausgaben und bietet ein bedarfsgerechtes Modell. Dadurch können Nutzer hohe Vorabkosten vermeiden und profitieren von der Effizienz bei variablen oder unvorhersehbaren Arbeitslasten. Beispielsweise kann die Investition in On-Premises-Lösungen bei konstant hoher Auslastung kostengünstiger sein, während für experimentelle Arbeitslasten eine bedarfsgerechte Cloud ideal ist.

Wie aus dem Web gescrapte Daten KI-Workflows verbessern

Viele KI-Modelle basieren auf aus dem Internet gesammelten Texten (und Bildern), beispielsweise die GPT-Serie, die LLM-Modelle und die LLaMA-Modelle. So enthielt der Trainingsdatensatz von GPT-3 beispielsweise Hunderte von Milliarden Tokens von Common Crawl. ³

Web-Scraping-Korpora umfassen informelle Social-Media-Sprache, verschiedene Dialekte und Sprachen, aktuelle Ereignisse und historische Texte. Diese Vielfalt hilft Modellen, unterschiedliche Stile zu erfassen. Im Gegensatz zu kuratierten Datensätzen, die statisch oder domänenspezifisch sein können, ermöglicht kontinuierliches Web-Scraping die Bereitstellung von Echtzeitinformationen für KI-Systeme.