Wie betreibt man KI-Modelle lokal auf eigener Hardware?

Michael Dobler

Autor Dr. Web

4. Juli 2026

4 Min. Lesezeit

Ein Praxisleitfaden zeigt, wie sich aktuelle Spitzen-LLMs lokal auf eigener Hardware betreiben lassen. Modelle im eigenen Serverraum halten sensible Daten im Haus und machen unabhängig von Cloud-Preisen und US-Anbietern.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

James O’Beirne, unter dem Namen jamesob bekannt, hat auf GitHub eine Art Stückliste veröffentlicht: Für rund 1.740 Euro empfiehlt er zwei gebrauchte RTX-3090-Karten mit zusammen 48 GB Videospeicher, für rund 44.800 Euro eine Workstation mit vier RTX-PRO-6000-Karten und 384 GB Speicher. Die große Workstation kommt laut seinen Angaben nah an das Niveau von Claude Opus heran.

Das Wichtigste in Kürze

Ein 48-GB-Aufbau für rund 1.740 Euro reicht für ein solides 27-Milliarden-Parameter-Modell im Alltag.
Erst eine 384-GB-Workstation für rund 44.800 Euro erreicht die Klasse kommerzieller Spitzenmodelle.
Lokale Modelle halten Daten im Haus, das entschärft DSGVO-Risiken bei Drittland-Transfers.
Als Laufzeitumgebung setzt der Leitfaden auf vLLM in Docker, nicht auf Ollama oder llama.cpp.

Welche Hardware braucht ein lokales Spitzenmodell wirklich?

Server in Metallschrank mit Aufschrift „Bleibt im Haus“ in leerem Raum — GPU-Systeme für KI-Modelle: Einstieg ab 1.740 Euro mit 48 GB, Spitzenmodelle benötigen 384 GB und 44.800 Euro

Ein Einstieg gelingt ab rund 1.740 Euro mit zwei RTX-3090-Karten und 48 GB Videospeicher. Für die Klasse kommerzieller Spitzenmodelle sind jedoch 384 GB Speicher und rund 44.800 Euro nötig.

Der entscheidende Engpass ist der Videospeicher, nicht die Rechenleistung an sich. O’Beirne empfiehlt für das Einstiegssystem das Modell Qwen3.6-27B, das mit 27 Milliarden Parametern gut in 48 GB passt. Wer die Oberklasse will, braucht deutlich mehr: Sein Referenzmodell trägt den sperrigen Namen GLM-5.2-Int8Mix-NVFP4-REAP-594B und belegt vier Profikarten.

Damit die Karten überhaupt zusammenarbeiten, sind kleine, aber wichtige Kniffe nötig. O’Beirne begrenzt jede Karte auf 350 Watt statt der üblichen 600 Watt, sonst überlastet der Rechner eine normale Steckdose. Ohne den Schalter iommu=off hängt sich die Kommunikation zwischen den Karten auf.

Warum steht und fällt alles mit der Quantisierung?

Quantisierung verkleinert die Modelle, indem sie die Zahlen im Modell gröber speichert. Dadurch passt ein 594-Milliarden-Parameter-Modell überhaupt erst in 384 GB Speicher und erreicht rund 80 Token pro Sekunde.

Lokale Spitzen-LLMs: Zwei Preisklassen

Was ein eigener KI-Server nach dem Leitfaden von jamesob kostet und leistet

1.740 €

Einstieg mit 48 GB Videospeicher

384 GB

Videospeicher der Oberklasse

80 Token/s

Tempo im Spitzensystem

Einstieg gegen Oberklasse

Grafikkarten2× RTX 3090 vs. 4× RTX PRO 6000

ModellQwen3.6-27B vs. GLM-5.2 (594B)

Systempreis1.740 € vs. 44.800 €

Niveausolider Alltag vs. nah an Claude Opus

Ein Modell besteht aus Milliarden von Zahlen. Werden diese Zahlen mit voller Genauigkeit gespeichert, sprengt selbst ein mittelgroßes Modell jeden bezahlbaren Speicher. Die Quantisierung reduziert die Genauigkeit gezielt, ähnlich wie ein komprimiertes Foto: Ein geübtes Auge erkennt kaum einen Unterschied, die Datei schrumpft aber drastisch.

O’Beirnes Oberklasse-Modell nutzt genau deshalb eine Mischung aus Int8- und NVFP4-Formaten. Damit erreicht sein System nach eigenen Angaben rund 80 Token pro Sekunde bei einem Kontextfenster von 460.000 Zeichen. Dass GLM-5.2 auch als Basis für offene Werkzeuge dient, zeigt das kürzlich vorgestellte Coding-Werkzeug ZCode von Z.ai. Zur Spracherkennung setzt der Leitfaden auf Whisper-Large-V3, das schon mit 11 GB Speicher auskommt.

Was bringt lokale KI dem deutschen Mittelstand?

Lokale Modelle verarbeiten sensible Daten ausschließlich im eigenen Haus. Damit entfallen Drittland-Transfers in die USA, die nach der DSGVO stets rechtlich heikel sind, und laufende Cloud-Kosten werden planbar.

Der stärkste Hebel für KMU liegt beim Datenschutz. Firmen, die Mandantenakten, Patientendaten oder Konstruktionspläne an eine US-Cloud schicken, müssen den Transfer nach der DSGVO sauber begründen. Bei einem Modell im eigenen Serverraum entfällt diese Hürde, weil keine Daten das Haus verlassen.

Lokale KI ist kein Bastelthema mehr, sondern der Mittelstand kann Datenhoheit und Kostenkontrolle zurückgewinnen.
— Markus Seyfferth, Chefredakteur Dr. Web

Hinzu kommt die Unabhängigkeit von Anbieterpreisen. Wie schnell Cloud-Rechnungen zum Problem werden, zeigt der Fall von Firmen, die ihre KI zur Höhlenmenschen-Sprache zwingen, um Kosten zu senken, oder Konzerne wie Adobe und Citi, die ihren Mitarbeitern die KI kappen. Ob lokale Modelle die Produktivität wirklich heben, bleibt offen: Eine Studie zeigt, dass Entwickler mit KI langsamer werden, während laut Senior SWE-Bench KI-Agenten teils besser abschneiden.

Die konkreten To-dos sind überschaubar: Prüfen Sie zuerst, welche Anwendungsfälle wirklich sensible Daten berühren. Kalkulieren Sie danach die Cloud-Kosten eines Jahres gegen die einmalige Hardware. Ordnen Sie das Vorhaben schließlich in Ihre Pflichten nach dem EU AI Act ein, denn auch lokal betriebene Modelle brauchen eine saubere Dokumentation.