80 Token pro Sekunde aus zwei Grafikkarten

Michael Dobler
Autor Dr. Web
3 Min. Lesezeit
80 Token pro Sekunde aus zwei Grafikkarten

Ein Entwickler lässt ein 27-Milliarden-Parameter-Modell flüssig auf zwei Consumer-Grafikkarten laufen. Über 80 Token pro Sekunde, und der gesamte Datenverkehr bleibt im eigenen Rechner.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Ein lokales LLM auf zwei Grafikkarten erreicht mittlerweile Geschwindigkeiten, die sich im Alltag flüssig anfühlen. Der Entwickler hinter imil.net kombiniert eine neue RTX 5080 mit 16 GB und eine gebrauchte RTX 3090 mit 24 GB zu rund 40 GB Videospeicher und treibt damit das Modell Qwen 3.6 27B auf 80 bis 90 Token pro Sekunde. Kein einziges Token verlässt dabei das System.

Das Wichtigste in Kürze

  • Die Kombination aus RTX 5080 (16 GB) und gebrauchter RTX 3090 (24 GB) ergibt rund 40 GB Videospeicher, davon etwa 39 GB nutzbar.
  • Darauf läuft Qwen 3.6 27B in Q8-Quantisierung mit einem Kontextfenster von 230.000 Token.
  • Über llama.cpp und spekulatives Dekodieren erreicht das Setup 80 bis 90 Token pro Sekunde.
  • Sämtliche Verarbeitung bleibt lokal, was den Aufbau für datenschutzsensible Anwendungen interessant macht.

Wie kommen 80 Token pro Sekunde zustande?

Analoger Drehzahlmesser mit hellblauem Ziffernblatt, Metallrahmen und rotem Bereich auf Weiß
Zwei Grafikkarten teilen sich das Modell durch Tensor-Splitting. llama.cpp verteilt die Schichten auf 39 GB Speicher, der KV-Cache wird auf Q8 komprimiert

Tensor-Splitting. Die beiden Grafikkarten teilen sich das Modell, indem llama.cpp die Schichten über beide Speicher verteilt. Das vollständige Modell samt Kontext passt so in die verfügbaren 39 GB, wobei der KV-Cache zusätzlich auf Q8 komprimiert wird. Den größten Geschwindigkeitsschub liefert spekulatives Dekodieren über die MTP-Methode, bei der ein kleineres Hilfsmodell Vorschläge macht, die das Hauptmodell nur noch bestätigt.

Warum lohnt sich der lokale Betrieb für den Mittelstand?

Waage im Gleichgewicht mit Grafikkarten links und der Zahl 80 sowie Euromünzen rechts
Lokale KI-Modelle gewährleisten Datensouveränität und vermeiden Cloud-Verträge sowie Drittlandtransfers nach Schrems II

Datensouveränität. Lokale Modelle umgehen die Fragen rund um Cloud-Verträge und Drittlandtransfers, die seit Schrems II viele Rechtsabteilungen beschäftigen. Statt nach Token abzurechnen, fallen einmalig die Hardwarekosten und laufend die Stromkosten an. Für alle, die ohnehin mit kompakten Modellen arbeiten, passt dieser Aufbau gut in eine bestehende DSGVO-Strategie. Welche Modelle dafür infrage kommen, ordnet unser LLM-Ratgeber ein.

Bei sensiblen Daten ist die interessanteste KI-Hardware die, die unter dem eigenen Schreibtisch steht. Benchmark-Punkte sind dann zweitrangig.

— Markus Seyfferth, Chefredakteur Dr. Web

Wo liegen die Grenzen?

Zwei stehende Grafikkarten mit Schranken-Metapher und Text zur Leistungsbegrenzung
Linux-Setup mit llama.cpp und RTX 3090 für 27B-Modell erfordert technisches Know-how, schlägt aber größere Cloud-Modelle bei Function Calling

Bastelaufwand. Das Setup ist keine fertige Lösung. Linux, llama.cpp und das richtige Zusammenspiel der Parameter setzen Erfahrung voraus, und eine gebrauchte RTX 3090 muss man erst einmal finden. Das Modell der 27B-Klasse spielt zudem nicht in der Liga der größten Cloud-Modelle, schlägt bei spezifischen Aufgaben wie Function Calling aber teils größere Konkurrenten, wie zuletzt ein deutlich günstigeres Modell zeigte.

Reife Werkzeuge. Selbst große Anbieter kämpfen mitunter mit der Auslieferung, wie der Fall von Metas KI-Modell mit hinterherhinkender API zeigte. Für viele alltägliche Aufgaben reicht die lokale Leistungsklasse trotzdem völlig, und mit jeder neuen Softwareversion sinkt die Einstiegshürde weiter. Prüfen Sie, welche KI-Aufgaben in Ihrem Haus wirklich ein Spitzenmodell brauchen und welche lokal genauso gut laufen. Den ausführlichen Aufbau dokumentiert der Autor auf seinem Blog.

Mehr Newshunger?

4,1 11 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Empfohlene Artikel
Unternehmen & Strategie
4 Min.  ·  21. Mai. 2026
Robotik & Bionik
3 Min.  ·  12. Mai. 2026
Social Media Marketing
11 Min.  ·  9. Juni. 2026
Michael Dobler
Autor
Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.
895 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo