What is a self-hosted LLM?

A self-hosted LLM is a large language model used for LLM applications that runs entirely on hardware you control (like your personal computer or private server) rather than relying on a third-party cloud service.

What are the techniques for running LLMs locally?

Techniques include using frameworks like llama.cpp, libraries like Hugging Face transformers, user-friendly apps (Ollama, LM Studio), model quantization (e.g., GGUF, GPTQ) to reduce resource needs, model parallelism to distribute large models across multiple devices, and optimized inference engines (like vLLM).

Is it possible to process multiple requests on a self-hosted LLM?

Yes, tools like vLLM, Ollama, and LM Studio can run local servers capable of handling multiple (often concurrent) requests. This is similar to how cloud APIs operate, often using batching for efficiency.

Do I need to request access for self-hosted LLMs?

No, you don't need external access permission or API keys from a provider for self-hosted llm. Since you host it yourself, you have direct access; you might optionally set up your own authentication for your local server if needed.

KI KI-Modelle LLMs

LLM VRAM-Rechner für Selbsthosting

Cem Dilmegani

aktualisiert am Apr 29, 2026

Siehe unsere ethischen Normen

Der Einsatz von LLMs ist mittlerweile unumgänglich, doch die alleinige Nutzung cloudbasierter APIs kann aufgrund von Kosten, Abhängigkeit von Drittanbietern und potenziellen Datenschutzbedenken Einschränkungen mit sich bringen. Hier kommt das Selbsthosting eines LLM für Inferenzzwecke (auch On-Premises-LLM-Hosting oder On-Premises-LLM-Hosting genannt) ins Spiel.

Wir haben die vier besten selbstgehosteten Tools anhand ihrer Benutzerfreundlichkeit, Leistung und GitHub-Sterne bewertet:

LLM-Kompatibilitätsrechner

Geben Sie unten Ihre Konfigurationsdetails ein, um den benötigten RAM-Bedarf basierend auf Modellparametern, Quantisierungsmethode und Ihren Hardware-Spezifikationen sofort zu schätzen:

Die verfügbaren Quantisierungsmethoden und Präzisionsbits für die verschiedenen Anbieter stammen aus der Dokumentation der Hugging Face Transformers Bibliothek. ¹

Sie können mehr über die Optimierungstechniken zum lokalen Hosten von LLMs lesen.

Landschaft der selbstgehosteten LLM-Studiengänge

Die 4 besten Self-Hosting-Tools: Unterscheidungsmerkmale

Ollama

Ollama ist ein Open-Source-Tool, das die lokale Ausführung von LLMs unter macOS, Linux und Windows vereinfacht. Es bündelt Modelle und Konfigurationen und macht die Einrichtung für verschiedene gängige LLMs unkompliziert.

Ollama legt Wert auf Benutzerfreundlichkeit und Datenschutz durch Offline-Betrieb und unterstützt Integrationen mit Entwicklertools wie LangChain und benutzerfreundlichen Schnittstellen wie Open WebUI, das eine chatbasierte grafische Oberfläche für die Interaktion mit den lokal gehosteten Modellen bietet.

Es ermöglicht Benutzern und Entwicklern, LLMs einfach auf ihren persönlichen Rechnern auszuführen und mit ihnen zu interagieren, einschließlich multimodaler Modelle , wodurch es sich ideal für die lokale Entwicklung und datenschutzbewusste Nutzung eignet.

vLLM

vLLM ist eine leistungsstarke Engine, die für die schnelle und speichereffiziente Bereitstellung großer Sprachmodelle entwickelt wurde. Sie nutzt Techniken wie PagedAttention und kontinuierliches Batching, um den Durchsatz zu maximieren und gleichzeitig den Speicherbedarf während der Inferenz zu reduzieren.

Es unterstützt verteilte Ausführung und verschiedene Hardware (NVIDIA, AMD, Intel) und bietet eine OpenAI-kompatible API zur Integration. vLLM richtet sich an Entwickler und Forscher, die die LLM-Bereitstellung in Produktionsumgebungen optimieren möchten. Es zeichnet sich durch skalierbares und schnelles Modell-Serving aus.

AnythingLLM

AnythingLLM ist ein Open-Source-Desktop-Tool zum Ausführen großer Sprachmodelle (LLMs) unter macOS, Windows und Linux. Es ermöglicht Benutzern , RAG anzuwenden, um Dokumente wie PDFs, CSVs und Codebasen zu verarbeiten und relevante Informationen für chatbasierte Interaktionen ohne Programmierung abzurufen.

Es arbeitet standardmäßig offline, um die Privatsphäre zu schützen, und integriert RAG, um die Antworten mithilfe von Benutzerdaten zu verbessern. AnythingLLM eignet sich für Entwickler und Einsteiger, die dokumentenbasierte LLM-Anwendungsfälle erkunden möchten, und bietet zusätzliche Unterstützung für KI-Agenten sowie Anpassungsmöglichkeiten über ein Community-Portal.

LM Studio

LM Studio ist eine benutzerfreundliche Desktop-Anwendung für Einsteiger, mit der sich große Sprachmodelle lokal unter macOS, Windows und Linux entdecken, herunterladen und testen lassen. Sie bietet eine intuitive grafische Oberfläche zur Verwaltung von Modellen aus Quellen wie Hugging Face und zur Interaktion über eine Chat-Oberfläche oder einen lokalen Server.

LM Studio vereinfacht das Experimentieren mit Funktionen wie Offline-RAG und nutzt effiziente Backends wie llama.cpp und MLX. Es richtet sich vor allem an Anfänger und Entwickler, die eine benutzerfreundliche Umgebung zum Erkunden lokaler LLMs suchen.

Open-Source-Modelle für große Sprachen

Open-Source-LLMs sind Modelle, deren Architektur und Modelldateien (die Gewichte und oft Milliarden von Parametern enthalten) öffentlich verfügbar sind, sodass sie von jedem heruntergeladen, modifiziert und verwendet werden können.

Plattformen wie Hugging Face dienen als zentrale Repositories und ermöglichen so den einfachen Zugriff auf diese Modelle für Aufgaben wie die Entwicklung einer selbstgehosteten LLM-Lösung. Da diese Modelle oft in einem Container-Image für eine einfachere Bereitstellung verpackt sind, können Benutzer die Modellinferenz direkt auf ihrer eigenen Hardware ausführen und bieten damit mehr Kontrolle und Flexibilität als proprietäre Alternativen.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Vorteile von selbstorganisierten LLM-Studiengängen

Datenschutz und Compliance

Eine zentrale Herausforderung für Organisationen, die gehostete LLMs nutzen, ist der grenzüberschreitende Datentransfer. Gemäß der DSGVO kann die Übermittlung personenbezogener Daten außerhalb der EU zusätzliche rechtliche Schutzmaßnahmen, vertragliche Verpflichtungen oder gänzliche Beschränkungen auslösen. In Verbindung mit den Anforderungen des EU-KI-Gesetzes hinsichtlich Risikomanagement, Prüfbarkeit und Governance erschwert dies die Rechtfertigung extern gehosteter Inferenz für regulierte Anwendungsfälle. ²

Hier erweist sich souveräne KI als praktikable Lösung. Durch den lokalen Einsatz von LLMs können Organisationen Inferenz und Datenverarbeitung vollständig innerhalb einer bestimmten Gerichtsbarkeit, eines VLANs oder einer isolierten Netzwerkumgebung durchführen.

Lokale Bereitstellungen:

Um die Risiken durch die DSGVO zu reduzieren, sollten grenzüberschreitende Datentransfers von vornherein vermieden werden.
Unterstützung der Anforderungen an Datenresidenz und -souveränität ohne Abhängigkeit von Cloud-Zusicherungen Dritter.
Vereinfachung von Auditierung, Protokollierung und Zugriffskontrolle gemäß den Verpflichtungen des EU-KI-Gesetzes
Verringerung der Abhängigkeit von Infrastrukturen, die ausländischen Rechtsordnungen unterliegen

Indem sensible Daten und Schlussfolgerungen in kontrollierten Umgebungen gehalten werden, trägt souveräne KI dazu bei, selbstgehostete LLMs zu einem Instrument zur Einhaltung von Vorschriften zu machen und nicht nur zu einer technischen Präferenz, insbesondere für regulierte Branchen wie Finanzen , Gesundheitswesen und den öffentlichen Sektor .

Volle Kontrolle und umfassendere Anpassungsmöglichkeiten

Durch das Selbsthosting eines LLM erhalten Nutzer direkten Zugriff auf die Modellgewichte und die Systemkonfiguration. Dies ermöglicht es Organisationen, das passende Modell für ihre spezifischen Bedürfnisse auszuwählen, sein Verhalten anzupassen oder es mithilfe eigener Trainingsdaten zu optimieren .

Im Vergleich zu Cloud-basierten Diensten ermöglichen lokale LLMs flexiblere Experimente, da es keine auferlegten Beschränkungen hinsichtlich der Kontextfenstergröße, der Inferenzeinstellungen, der Umgebungsvariablen oder der Integrationsmethoden gibt.

Dies ist besonders nützlich für Entwickler, die LLM-Anwendungen erstellen und eine genaue Kontrolle über Speichernutzung, Latenz oder Chatverlaufsverarbeitung benötigen.

Verbesserter Datenschutz

Wenn Modelle auf eigener Hardware ausgeführt werden, bleiben sensible Informationen innerhalb Ihrer Infrastruktur. Dies ist von Vorteil für Workloads, die interne Dokumente, Wissensdatenbanken oder regulierte Daten umfassen.

Ein selbst gehostetes LLM erfordert keine Übermittlung von Eingaben an einen Drittanbieter, wodurch die Abhängigkeit von externen Compliance-Verfahren entfällt. Dies führt zu mehr Kontrolle über den Datenschutz und einem geringeren Risiko von Datenlecks.

Kosteneffizienz auf lange Sicht

Das Selbsthosting eines LLM kann aufgrund der Hardwareanforderungen, wie z. B. Grafikkarten für Endverbraucher oder kleine Server, zunächst teuer erscheinen. Sobald das System jedoch eingerichtet ist, können die Kosten für die lokale Inferenz günstiger sein als die laufenden API-Nutzungsgebühren, insbesondere für Teams mit hohem Anfragevolumen.

Der Betrieb von LLMs auf Open-Source-LLMs vermeidet zudem eine Abhängigkeit von einem bestimmten Anbieter und gibt den Benutzern die Freiheit, je nach ihren Kosten- und Leistungszielen auf kleinere oder größere Modelle umzusteigen.

Flexibilität mit Open-Source-Modellen

Viele Open-Source-LLMs sind auf Plattformen wie Hugging Face verfügbar und bieten den Nutzern eine breite Palette an Modellgrößen, Architekturen und quantisierten Versionen zur Erkundung.

Selbsthosting ermöglicht es Entwicklern, verschiedene Parameteranzahlen zu testen, mit effizienten Quantisierungsformaten wie GGUF zu experimentieren und Modelle in Docker-Containern oder anderen ressourcenschonenden Umgebungen bereitzustellen. Diese Flexibilität erleichtert die Skalierung, das Testen neuer Ideen und die Anpassung des Systems an spezifische Anwendungsfälle.

Benutzerfreundliche lokale Tools

Anwendungen wie LM Studio, Ollama, Open WebUI oder ähnliche Desktop-Apps bieten eine unkomplizierte Weboberfläche oder einen Bereitstellungs-Workflow mit nur einem Befehl.

Diese Tools vereinfachen die Verwaltung verfügbarer Modelle, die Durchführung von Inferenzprozessen und die Leistungsüberwachung, ohne dass tiefgreifende Infrastrukturkenntnisse erforderlich sind. Für viele Anwender senkt dies die Hürde, ihr eigenes LLM lokal zu erkunden und damit zu experimentieren.

Nachteile von selbstorganisierten LLM-Studiengängen

Erhebliche Hardwareinvestitionen

Das Ausführen größerer Modelle oder das Hosten eines hochperformanten LLM auf dem lokalen Rechner erfordert leistungsstarke Hardware. Der GPU-Speicher stellt dabei die größte Einschränkung dar, insbesondere bei größeren Modellen mit einer höheren Anzahl an Parametern.

Selbst mit Optimierungen wie quantisierten Versionen oder kleineren Modellen benötigen manche Aufgaben immer noch GPUs mit 16–48 GB VRAM, was für kleinere Teams unter Umständen nicht realisierbar ist. Der Einsatz von Edge-Geräten ist zwar möglich, die Leistung sinkt jedoch häufig, wenn die Modellgröße die Kapazität des Geräts übersteigt.

Komplexe Bereitstellung und Wartung

Selbsthosting umfasst mehr als nur das Herunterladen einer Modelldatei. Benutzer müssen Abhängigkeiten verwalten, Speicheroptimierung durchführen, Überwachungsfunktionen bereitstellen, Umgebungsvariablen verwalten und Updates installieren. Die Behebung von Problemen wie Kernel-Inkompatibilitäten, CUDA-Fehlern oder Modellinkompatibilitäten kann Fachkenntnisse erfordern.

Im Gegensatz zu Cloud-basierten Diensten, bei denen der Anbieter die Infrastruktur verwaltet, erfordern selbstgehostete Systeme eine kontinuierliche Betreuung, um eine optimale Leistung zu gewährleisten.

Eingeschränkter Zugriff auf proprietäre Modelle

Führende proprietäre Modelle (z. B. GPT-4.5, Grok 3 oder andere Closed-Source-Systeme) können nicht als selbstgehostete LLMs heruntergeladen oder ausgeführt werden. Sie sind ausschließlich über die API des jeweiligen Anbieters verfügbar, häufig über einen OpenAI-kompatiblen API-Endpunkt.

Dies bedeutet, dass Benutzer, die sich für eine rein lokale Bereitstellung entscheiden, möglicherweise auf bestimmte Funktionen verzichten müssen, insbesondere wenn proprietäre Modelle bei bestimmten Aufgaben Open-Source-Alternativen überlegen sind.

Die Leistungsoptimierung liegt in Ihrer Verantwortung.

Eine bessere Performance auf einem selbstgehosteten System lässt sich nicht automatisch erzielen. Benutzer müssen die Inferenzeinstellungen optimieren, Batching-Strategien anpassen, das Modell-Sharding verwalten und eine effiziente Hardwarenutzung sicherstellen.

Wenn das System langsamer wird, liegt die Verantwortung für die Diagnose von Speicherengpässen, geringem Durchsatz oder suboptimaler GPU-Auslastung vollständig beim Benutzer. Cloud-Anbieter übernehmen diese Optimierungen üblicherweise intern, daher sollten Teams, die auf lokale LLMs umsteigen, Zeit in die Aufrechterhaltung von Geschwindigkeit und Zuverlässigkeit investieren.

Optimierung von LLMs für das Selbsthosting

Das Ausführen von KI-Modellen, wie beispielsweise großen Sprachmodellen, auf eigener Hardware kann aufgrund ihrer Größe und ihres Ressourcenbedarfs eine Herausforderung darstellen. Verschiedene Techniken helfen jedoch, die Modellgewichte effektiv zu verwalten. Methoden wie Quantisierung, Multi-GPU-Unterstützung und Offloading verbessern die Effizienz und ermöglichen so den Betrieb dieser Modelle sowohl zu Hause als auch im Büro.

Quantisierung

Die Quantisierung , wie in der Abbildung unten dargestellt, beinhaltet häufig die Reduzierung der Genauigkeit von Modellgewichten durch Umwandlung hochpräziser Werte (z. B. 0,9877 in der Originalmatrix) in weniger präzise Darstellungen (z. B. 1,0 in der quantisierten Matrix). Dieser Prozess verringert die Modellgröße und kann die Berechnung beschleunigen, allerdings möglicherweise auf Kosten der Genauigkeit.

Abbildung 1: Beispiel einer Zufallsmatrix von Gewichten mit vier Dezimalstellen Genauigkeit (links) mit ihrer quantisierten Form (rechts) durch Rundung auf eine Dezimalstelle Genauigkeit. ³

Multi-GPU-Unterstützung

Wie in der Abbildung dargestellt, ermöglicht die Verteilung der großen Modellparameter auf mehrere GPUs (GPU 1 und GPU 2) den Nutzern, größere und leistungsfähigere Modelle auf ihrer eigenen Hardware auszuführen. Dadurch werden die Speicherbeschränkungen einzelner GPUs umgangen und das Self-Hosting ermöglicht. Dies bündelt effektiv Ressourcen und optimiert die Nutzung der verfügbaren Hardware, um die hohen Anforderungen moderner LLMs zu erfüllen.

Abbildung 2: Vergleich der GPU-Speicherbelegung für ein großes Sprachmodell. Links speichert eine einzelne GPU sowohl die Modellparameter als auch den KV-Cache. Rechts, bei zwei GPUs, sind die Modellparameter auf beide GPUs verteilt, wobei jede GPU ihren eigenen KV-Cache verwaltet.

Entladen

Parameter-Offloading optimiert LLMs für das Self-Hosting, indem es den begrenzten Speicher gängiger GPUs nutzt. Dabei werden Teile des großen Modells, wie beispielsweise inaktive „Experten“-Parameter in MoE-Modellen, dynamisch zwischen dem schnellen GPU-Speicher und dem langsameren Arbeitsspeicher des Systems verschoben. Durch das Offloading können Nutzer große, leistungsstarke Modelle auf verfügbarer Hardware ausführen, die andernfalls nicht über genügend dedizierten GPU-Speicher verfügen würde, wodurch Self-Hosting möglich wird. ⁴

Modellsharding

Sharding, wie in der Abbildung unten dargestellt, zerlegt das gesamte „Large Language Model“ in mehrere kleinere, besser handhabbare „Modellteile“. Diese Technik ermöglicht die Verteilung dieser Teile auf mehrere Geräte (wie GPUs) oder sogar auf unterschiedliche Speichertypen innerhalb einer selbstverwalteten Umgebung. Durch die Aufteilung des Modells überwindet Sharding die Speicherbeschränkungen einzelner Hardwarekomponenten und ermöglicht so den Einsatz großer Modelle auf selbstverwalteter Infrastruktur.

Abbildung 3: Das Diagramm zeigt, wie ein vollständiges LLM in kleinere Segmente oder „Modellteile“ unterteilt werden kann, um eine fragmentierte Version zu erstellen, die die Verteilung auf mehrere Hardware-Ressourcen oder Speicherebenen für eine effiziente Verarbeitung und Verwaltung ermöglicht. ⁵

FAQs

Ein selbstgehostetes LLM ist ein großes Sprachmodell, das für LLM-Anwendungen verwendet wird und vollständig auf Hardware läuft, die Sie kontrollieren (wie Ihr persönlicher Computer oder privater Server), anstatt auf einen Cloud-Dienst eines Drittanbieters angewiesen zu sein.

Zu den Techniken gehören die Verwendung von Frameworks wie llama.cpp, Bibliotheken wie Hugging Face Transformers, benutzerfreundliche Anwendungen (Ollama, LM Studio), Modellquantisierung (z. B. GGUF, GPTQ) zur Reduzierung des Ressourcenbedarfs, Modellparallelität zur Verteilung großer Modelle auf mehrere Geräte und optimierte Inferenzmaschinen (wie vLLM).

Ja, Tools wie vLLM, Ollama und LM Studio können lokale Server betreiben, die mehrere (oft gleichzeitige) Anfragen verarbeiten können. Dies ähnelt der Funktionsweise von Cloud-APIs, die häufig Batchverarbeitung zur Effizienzsteigerung nutzen.

Nein, für selbstgehostetes LLM benötigen Sie keine externen Zugriffsberechtigungen oder API-Schlüssel von einem Anbieter. Da Sie es selbst hosten, haben Sie direkten Zugriff; bei Bedarf können Sie optional eine eigene Authentifizierung für Ihren lokalen Server einrichten.

Referenzlinks

Overview · Hugging Face

EU Artificial Intelligence Act | Up-to-date developments and analyses of the EU AI Act

Quantization for Large Language Models (LLMs): Reduce AI Model Sizes Efficiently | DataCamp

DataCamp

https://arxiv.org/pdf/2312.17238

Which Quantization Method is Right for You? (GPTQ vs. GGUF vs. AWQ)

Exploring Language Models

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen