Lokale LLM-Systeme: Open-Source-Modelle auf eigener Hardware

Cloud-APIs sind bequem. Ein API-Key, ein paar Zeilen Code, und das Sprachmodell antwortet. Doch mit jedem Prompt, der über fremde Server läuft, geben Unternehmen Kontrolle ab — über Daten, Kosten und Verfügbarkeit. Die Alternative: Open-Source-Modelle auf eigener Hardware. Was vor zwei Jahren noch Expertenwissen erforderte, ist 2026 ein realistisches Szenario für Unternehmen jeder Größe.

Dieser Artikel zeigt, welche Open-Source-Modelle heute produktionsreif sind, welche Hardware Sie brauchen, welche Deployment-Tools den Betrieb vereinfachen und wie Branchen von Recht über Beratung bis Gesundheitswesen konkret profitieren. Die Grundlage dafür — DSGVO-konforme Architekturen und Datensouveränität — haben wir bereits in unserem Artikel über DSGVO-konforme KI und On-Premise LLMs beschrieben.

Warum lokale LLM-Systeme 2026 relevant sind

Drei Entwicklungen haben das Feld verändert:

Open-Source-Modelle erreichen kommerzielles Niveau. Qwen3, DeepSeek-R1, Mistral Large und Llama 4 liefern bei vielen Aufgaben Ergebnisse, die mit GPT-4o oder Claude vergleichbar sind. Für spezialisierte Anwendungen — Dokumentenanalyse, Klassifizierung, Code-Review — übertreffen feingetunte Open-Source-Modelle oft die generischen kommerziellen Alternativen.

Die Toolchain ist produktionsreif. Ollama, vLLM, llama.cpp und Text Generation Inference (TGI) machen den Betrieb von LLMs auf eigener Hardware so einfach wie das Deployment einer Web-Applikation. OpenAI-kompatible APIs ermöglichen den Wechsel zwischen Frameworks ohne Code-Änderungen.

Hardware wird zugänglicher. NVIDIAs RTX 5090 (32 GB VRAM) erreicht bei 70B-Modellen in Dual-Konfiguration die Performance einer H100 — zu einem Bruchteil der Kosten. Quantisierung ermöglicht den Betrieb großer Modelle auf Consumer-Hardware.

McKinseys Technology Trends Outlook 2025 zeigt: Der Einsatz generativer KI in Unternehmen ist von 33 % auf 67 % gestiegen. Laut Gartner werden bis 2026 über 80 % der Unternehmen generative KI in der Produktion einsetzen. Wer die Infrastruktur selbst kontrolliert, behält dabei Datensouveränität und Kostenhoheit.

Open-Source-Modelle im Überblick: Die wichtigsten Optionen

Llama 4 (Meta)

Metas Llama-Familie ist der De-facto-Standard im Open-Source-LLM-Bereich. Llama 4, veröffentlicht im April 2025, bringt ein Mixture-of-Experts-Design (MoE) mit, das die Inference-Effizienz deutlich verbessert. Vorherige Versionen — Llama 3.1 (8B, 70B, 405B) und Llama 3.3 (70B) — bleiben für viele Anwendungsfälle relevant und laufen auf moderater Hardware.

Stärken: Breite Community, umfangreiche Fine-Tuning-Ökosystem, exzellente Tooling-Unterstützung, gute Benchmark-Ergebnisse über viele Aufgaben hinweg.

Hardware-Anforderung: Llama 3.1 8B läuft quantisiert auf 8 GB VRAM. Llama 3.1 70B braucht 48 GB+ (A6000 oder Dual-RTX-5090). Llama 4 (MoE) reduziert die aktiven Parameter pro Token erheblich.

Qwen3 (Alibaba)

Qwen3 ist Alibabas Antwort auf die westlichen Open-Source-Modelle — und eine ernst zu nehmende. Das Flaggschiff-Modell Qwen3-235B nutzt ein MoE-Design mit nur 22 Milliarden aktiven Parametern pro Token. Das ermöglicht hohe Qualität bei relativ moderatem VRAM-Bedarf.

Stärken: Herausragend bei Reasoning, Code-Generierung und mehrsprachigen Aufgaben. Native Kontextlänge von 32.768 Tokens, erweiterbar auf 131.072 mit YaRN. Apache-2.0-Lizenz — uneingeschränkt kommerziell nutzbar.

Hardware-Anforderung: Qwen3-235B (MoE) benötigt ca. 48 GB VRAM bei 4-Bit-Quantisierung. Kleinere Varianten (Qwen3-32B, Qwen3-8B) laufen auf Consumer-GPUs.

Mistral (Mistral AI)

Mistral AI aus Paris liefert mit Mistral Small 3 (24B) den Sweet Spot für viele Unternehmensanwendungen. Das Modell erreicht State-of-the-Art-Benchmarks, verarbeitet lange Kontexte zuverlässig und passt auf GPUs mit 24 GB+ VRAM. Mistral 7B bleibt der Goldstandard für ressourcenbegrenzte Umgebungen.

Stärken: Europäischer Anbieter (relevant für Compliance-Diskussionen), sehr gutes Preis-Leistungs-Verhältnis bei den kleineren Modellen, gute Instruction-Following-Qualität.

Hardware-Anforderung: Mistral 7B quantisiert auf 4–5 GB VRAM. Mistral Small 3 (24B) benötigt ca. 16 GB bei 4-Bit-Quantisierung.

DeepSeek-R1 und DeepSeek-V3.2

DeepSeek hat Anfang 2025 mit dem "DeepSeek-Moment" für Aufsehen gesorgt: Das R1-Modell zeigte ChatGPT-Level-Reasoning bei signifikant niedrigeren Trainingskosten. DeepSeek-V3.2 baut auf der V3- und R1-Serie auf und gehört zu den besten Open-Source-Modellen für Reasoning und agentenbasierte Workflows.

Stärken: Exzellentes Reasoning, besonders bei mathematischen und analytischen Aufgaben. Chain-of-Thought-Fähigkeiten auf kommerziellen Niveau.

Hardware-Anforderung: DeepSeek-R1 (Distilled-Versionen) läuft auf Consumer-Hardware. Das volle V3.2-Modell (671B) benötigt Multi-GPU-Setups mit 8x H200 oder vergleichbar.

Kimi K2 / K2.5 (Moonshot AI)

Moonshot AI hat mit Kimi K2 (Juli 2025) und Kimi K2.5 (Januar 2026) beeindruckende Open-Source-Modelle veröffentlicht. K2 ist ein MoE-Modell mit 1 Billion Gesamtparametern, aber nur 32 Milliarden aktiven Parametern pro Token. K2.5 erweitert das um native multimodale Verarbeitung (Text, Bild, Video) und wurde mit 15 Billionen gemischten Tokens weitertrainiert.

Stärken: Extrem gute Coding-Fähigkeiten, agentenbasierte Aufgaben, multimodale Verarbeitung (K2.5). Kontextfenster bis 256.000 Tokens. Modified MIT-Lizenz.

Hardware-Anforderung: Dank MoE-Architektur läuft K2 bei 4-Bit-Quantisierung auf einer A6000 (48 GB VRAM) oder vergleichbar. Die Gewichte sind auf Hugging Face verfügbar.

GLM-4.7 (Z.ai / Zhipu AI)

GLM-4.7, veröffentlicht im Dezember 2025, ist das Flaggschiff-Coding-Modell von Z.ai (ehemals Zhipu AI). Anders als frühere GLM-Versionen ist GLM-4.7 speziell für agentenbasiertes Coding entwickelt — die autonome Bearbeitung komplexer Programmieraufgaben über mehrere Dateien und Schritte hinweg.

Stärken: Spezialisiert auf Code-Generierung und Code-Review, MIT-Lizenz, ohne API-Lock-in nutzbar. Vorversionen (GLM 4.6, 355B) eignen sich für breitere Enterprise-Anwendungen.

Hardware-Anforderung: GLM-4.7 ist auf Coding-Effizienz optimiert. ChatGLM-6B läuft bei INT4-Quantisierung auf 6 GB VRAM — ideal für schnelle Iterationszyklen.

Modell-Vergleich: Welches Modell für welche Aufgabe?

Aufgabe	Empfehlung	Warum
Dokumentenanalyse / Klassifizierung	Qwen3-32B oder Mistral Small 3	Starkes Reasoning bei moderatem VRAM-Bedarf
Code-Review / Generierung	GLM-4.7 oder Kimi K2.5	Speziell für agentenbasiertes Coding entwickelt
Mehrsprachige Aufgaben	Qwen3-235B (MoE)	Natives Multilingual-Training, Apache-2.0-Lizenz
Reasoning / Analyse	DeepSeek-R1	Bestes Chain-of-Thought im Open-Source-Bereich
Ressourcenbegrenztes Setup	Mistral 7B oder Llama 3.1 8B	Läuft auf 8 GB VRAM, quantisiert
Multimodale Verarbeitung	Kimi K2.5	Natives Text-Bild-Video-Modell
Allround-Enterprise	Llama 4 oder Qwen3	Breite Aufgabenabdeckung, starke Ökosysteme

Hardware: Was Sie für lokale LLM-Inference brauchen

Die Wahl der Hardware bestimmt, welche Modelle Sie betreiben können und wie performant die Inference ist. Die GPU ist der entscheidende Faktor — insbesondere die Menge an VRAM.

GPU-Übersicht: Kosten und Leistung

GPU	Preis (ca.)	VRAM	Geeignet für
RTX 4090	1.500–2.000 €	24 GB GDDR6X	7B–40B Modelle (quantisiert)
RTX 5090	1.900–3.600 €	32 GB GDDR7	7B–70B Modelle (quantisiert, Dual möglich)
RTX A6000	4.000–5.000 €	48 GB GDDR6	70B Modelle ohne/mit minimaler Quantisierung
A100 80 GB	Cloud: 1,30–2,30 €/h	80 GB HBM2e	70B+ Modelle, Fine-Tuning
H100	25.000–30.000 €	80 GB HBM3	Produktion, SLA-gebundene Inference
H200	40.000–55.000 €	141 GB HBM3e	Frontier-Modelle (671B+)
B200	30.000–35.000 €	192 GB HBM3e	Trillion-Parameter-Modelle

Die Rolle der Quantisierung

Quantisierung ist die Technik, die 70B-Parameter-Modelle auf Consumer-Hardware bringt. Statt jeden Parameter als 16-Bit-Gleitkommazahl (FP16) zu speichern, reduziert 4-Bit-Quantisierung (Q4) den Speicherbedarf um Faktor 4 — bei minimalem Qualitätsverlust für die meisten Anwendungen.

Praxisbeispiel: Llama 3.1 70B benötigt bei FP16 ca. 140 GB VRAM. Quantisiert auf Q4 passt es in ca. 35 GB — und läuft auf zwei RTX 5090 (je 32 GB) oder einer A6000 (48 GB).

Empfehlung nach Einsatzszenario

Szenario	Hardware-Empfehlung	Budget
Prototyping / Evaluation	1x RTX 5090 (32 GB)	2.000–4.000 €
Internes Team-Tool (5–20 Nutzer)	2x RTX 5090 oder 1x A6000	4.000–10.000 €
Produktion mit SLA	1x H100 oder Managed GPU-Hosting	25.000+ € oder 2.000–3.500 €/Monat
Frontier-Modelle	Multi-GPU H200/B200	100.000+ €

Die RTX 5090 ist die Überraschung 2025/2026: In Benchmarks erreicht eine Dual-RTX-5090-Konfiguration bei 70B-Modellen die Performance einer H100 — zu etwa 25 % der Kosten. Für Prototyping und interne Tools ist das ein Gamechanger.

Deployment-Tools: Vom Modell zur API

Ollama: Der Einstieg

Ollama hat sich als das populärste Tool für lokalen LLM-Betrieb etabliert. Ein Befehl genügt:

ollama run llama3.2

Ollama basiert auf llama.cpp, bietet intelligentes Speichermanagement, GPU-Beschleunigung (CUDA, Metal, ROCm) und eine OpenAI-kompatible API. Das Modell-Verzeichnis umfasst Llama, Mistral, Qwen, Phi und weitere.

Ideal für: Prototyping, lokale Entwicklung, interne Tools mit begrenzter Nutzerzahl.

Nicht ideal für: Hochlast-Szenarien mit vielen gleichzeitigen Anfragen.

vLLM: Die Produktionslösung

Für produktive Deployments ist vLLM der Goldstandard. Die PagedAttention-Technologie reduziert Speicher-Fragmentierung um 50 %+ und steigert den Durchsatz bei parallelen Anfragen um Faktor 2–4. Unter Spitzenlast liefert vLLM über 35-mal mehr Anfragen pro Sekunde als llama.cpp.

vLLM bietet OpenAI-kompatible APIs, Continuous Batching und native Unterstützung für Function Calling — ideal für KI-Agenten-Systeme, wie wir sie in unserem Artikel über KI-Agenten für Unternehmen beschreiben.

Ideal für: Produktions-APIs mit SLA, Multi-User-Szenarien, Enterprise-Deployments.

Nicht ideal für: Edge-Deployments, CPU-only-Umgebungen.

llama.cpp: Maximale Portabilität

llama.cpp ist in reinem C/C++ geschrieben, ohne externe Abhängigkeiten. Es läuft auf Servern, Laptops, Smartphones und Embedded-Systemen. Die Quantisierungsoptionen sind die umfangreichsten im Ökosystem.

Ideal für: Edge-Deployments, Offline-Szenarien, maximale Hardware-Kontrolle.

Nicht ideal für: Hochlast-Multi-User-Szenarien.

Empfohlene Deployment-Strategie

Die bewährte Strategie lautet: Ollama zum Prototypen, vLLM zum Skalieren, llama.cpp für Edge-Deployments. Entscheidend: Alle drei Frameworks bieten OpenAI-kompatible APIs. Wenn Sie Ihre Anwendung gegen diese Standard-Schnittstelle entwickeln, können Sie zwischen Frameworks wechseln, ohne Anwendungscode zu ändern. Diese API-Portabilität beschreiben wir auch im Kontext von RAG-Systemen in unserem Leitfaden zu RAG-Systemen für Unternehmen.

Branchenanwendungen: Wo lokale LLMs den größten Mehrwert liefern

Rechtsbranche

Kanzleien und Rechtsabteilungen verarbeiten hochsensible Mandantendaten. Cloud-APIs sind für viele Anwendungsfälle nicht vertretbar — Mandantengeheimnis und Berufsrecht setzen enge Grenzen.