Ein Entwickler lässt ein 27-Milliarden-Parameter-Modell flüssig auf zwei Consumer-Grafikkarten laufen. Über 80 Token pro Sekunde, und der gesamte Datenverkehr bleibt im eigenen Rechner.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenEin lokales LLM auf zwei Grafikkarten erreicht mittlerweile Geschwindigkeiten, die sich im Alltag flüssig anfühlen. Der Entwickler hinter imil.net kombiniert eine neue RTX 5080 mit 16 GB und eine gebrauchte RTX 3090 mit 24 GB zu rund 40 GB Videospeicher und treibt damit das Modell Qwen 3.6 27B auf 80 bis 90 Token pro Sekunde. Kein einziges Token verlässt dabei das System.
Das Wichtigste in Kürze
- Die Kombination aus RTX 5080 (16 GB) und gebrauchter RTX 3090 (24 GB) ergibt rund 40 GB Videospeicher, davon etwa 39 GB nutzbar.
- Darauf läuft Qwen 3.6 27B in Q8-Quantisierung mit einem Kontextfenster von 230.000 Token.
- Über llama.cpp und spekulatives Dekodieren erreicht das Setup 80 bis 90 Token pro Sekunde.
- Sämtliche Verarbeitung bleibt lokal, was den Aufbau für datenschutzsensible Anwendungen interessant macht.
Wie kommen 80 Token pro Sekunde zustande?

Tensor-Splitting. Die beiden Grafikkarten teilen sich das Modell, indem llama.cpp die Schichten über beide Speicher verteilt. Das vollständige Modell samt Kontext passt so in die verfügbaren 39 GB, wobei der KV-Cache zusätzlich auf Q8 komprimiert wird. Den größten Geschwindigkeitsschub liefert spekulatives Dekodieren über die MTP-Methode, bei der ein kleineres Hilfsmodell Vorschläge macht, die das Hauptmodell nur noch bestätigt.
Warum lohnt sich der lokale Betrieb für den Mittelstand?

Datensouveränität. Lokale Modelle umgehen die Fragen rund um Cloud-Verträge und Drittlandtransfers, die seit Schrems II viele Rechtsabteilungen beschäftigen. Statt nach Token abzurechnen, fallen einmalig die Hardwarekosten und laufend die Stromkosten an. Für alle, die ohnehin mit kompakten Modellen arbeiten, passt dieser Aufbau gut in eine bestehende DSGVO-Strategie. Welche Modelle dafür infrage kommen, ordnet unser LLM-Ratgeber ein.
Bei sensiblen Daten ist die interessanteste KI-Hardware die, die unter dem eigenen Schreibtisch steht. Benchmark-Punkte sind dann zweitrangig.
— Markus Seyfferth, Chefredakteur Dr. Web
Wo liegen die Grenzen?

Bastelaufwand. Das Setup ist keine fertige Lösung. Linux, llama.cpp und das richtige Zusammenspiel der Parameter setzen Erfahrung voraus, und eine gebrauchte RTX 3090 muss man erst einmal finden. Das Modell der 27B-Klasse spielt zudem nicht in der Liga der größten Cloud-Modelle, schlägt bei spezifischen Aufgaben wie Function Calling aber teils größere Konkurrenten, wie zuletzt ein deutlich günstigeres Modell zeigte.
Reife Werkzeuge. Selbst große Anbieter kämpfen mitunter mit der Auslieferung, wie der Fall von Metas KI-Modell mit hinterherhinkender API zeigte. Für viele alltägliche Aufgaben reicht die lokale Leistungsklasse trotzdem völlig, und mit jeder neuen Softwareversion sinkt die Einstiegshürde weiter. Prüfen Sie, welche KI-Aufgaben in Ihrem Haus wirklich ein Spitzenmodell brauchen und welche lokal genauso gut laufen. Den ausführlichen Aufbau dokumentiert der Autor auf seinem Blog.