News Technologie & Innovation

80 Token pro Sekunde aus zwei Grafikkarten

Michael Dobler

Autor Dr. Web

15. Juni 2026

3 Min. Lesezeit

Ein Entwickler lässt ein 27-Milliarden-Parameter-Modell flüssig auf zwei Consumer-Grafikkarten laufen. Über 80 Token pro Sekunde, und der gesamte Datenverkehr bleibt im eigenen Rechner.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Ein lokales LLM auf zwei Grafikkarten erreicht mittlerweile Geschwindigkeiten, die sich im Alltag flüssig anfühlen. Der Entwickler hinter imil.net kombiniert eine neue RTX 5080 mit 16 GB und eine gebrauchte RTX 3090 mit 24 GB zu rund 40 GB Videospeicher und treibt damit das Modell Qwen 3.6 27B auf 80 bis 90 Token pro Sekunde. Kein einziges Token verlässt dabei das System.

Das Wichtigste in Kürze

Die Kombination aus RTX 5080 (16 GB) und gebrauchter RTX 3090 (24 GB) ergibt rund 40 GB Videospeicher, davon etwa 39 GB nutzbar.
Darauf läuft Qwen 3.6 27B in Q8-Quantisierung mit einem Kontextfenster von 230.000 Token.
Über llama.cpp und spekulatives Dekodieren erreicht das Setup 80 bis 90 Token pro Sekunde.
Sämtliche Verarbeitung bleibt lokal, was den Aufbau für datenschutzsensible Anwendungen interessant macht.

Wie kommen 80 Token pro Sekunde zustande?

Analoger Drehzahlmesser mit hellblauem Ziffernblatt, Metallrahmen und rotem Bereich auf Weiß — Zwei Grafikkarten teilen sich das Modell durch Tensor-Splitting. llama.cpp verteilt die Schichten auf 39 GB Speicher, der KV-Cache wird auf Q8 komprimiert

Tensor-Splitting. Die beiden Grafikkarten teilen sich das Modell, indem llama.cpp die Schichten über beide Speicher verteilt. Das vollständige Modell samt Kontext passt so in die verfügbaren 39 GB, wobei der KV-Cache zusätzlich auf Q8 komprimiert wird. Den größten Geschwindigkeitsschub liefert spekulatives Dekodieren über die MTP-Methode, bei der ein kleineres Hilfsmodell Vorschläge macht, die das Hauptmodell nur noch bestätigt.

Warum lohnt sich der lokale Betrieb für den Mittelstand?

Waage im Gleichgewicht mit Grafikkarten links und der Zahl 80 sowie Euromünzen rechts — Lokale KI-Modelle gewährleisten Datensouveränität und vermeiden Cloud-Verträge sowie Drittlandtransfers nach Schrems II

Datensouveränität. Lokale Modelle umgehen die Fragen rund um Cloud-Verträge und Drittlandtransfers, die seit Schrems II viele Rechtsabteilungen beschäftigen. Statt nach Token abzurechnen, fallen einmalig die Hardwarekosten und laufend die Stromkosten an. Für alle, die ohnehin mit kompakten Modellen arbeiten, passt dieser Aufbau gut in eine bestehende DSGVO-Strategie. Welche Modelle dafür infrage kommen, ordnet unser LLM-Ratgeber ein.

Bei sensiblen Daten ist die interessanteste KI-Hardware die, die unter dem eigenen Schreibtisch steht. Benchmark-Punkte sind dann zweitrangig.
— Markus Seyfferth, Chefredakteur Dr. Web

Wo liegen die Grenzen?

Zwei stehende Grafikkarten mit Schranken-Metapher und Text zur Leistungsbegrenzung — Linux-Setup mit llama.cpp und RTX 3090 für 27B-Modell erfordert technisches Know-how, schlägt aber größere Cloud-Modelle bei Function Calling

Bastelaufwand. Das Setup ist keine fertige Lösung. Linux, llama.cpp und das richtige Zusammenspiel der Parameter setzen Erfahrung voraus, und eine gebrauchte RTX 3090 muss man erst einmal finden. Das Modell der 27B-Klasse spielt zudem nicht in der Liga der größten Cloud-Modelle, schlägt bei spezifischen Aufgaben wie Function Calling aber teils größere Konkurrenten, wie zuletzt ein deutlich günstigeres Modell zeigte.

Reife Werkzeuge. Selbst große Anbieter kämpfen mitunter mit der Auslieferung, wie der Fall von Metas KI-Modell mit hinterherhinkender API zeigte. Für viele alltägliche Aufgaben reicht die lokale Leistungsklasse trotzdem völlig, und mit jeder neuen Softwareversion sinkt die Einstiegshürde weiter. Prüfen Sie, welche KI-Aufgaben in Ihrem Haus wirklich ein Spitzenmodell brauchen und welche lokal genauso gut laufen. Den ausführlichen Aufbau dokumentiert der Autor auf seinem Blog.

Mehr Newshunger?

4,1 11 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Jede Woche ein bisschen klüger.

Die besten Artikel, kostenlos, jeden Donnerstag.

Michael Dobler

Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der…

Autor

Michael Dobler

Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.

895 Artikel veröffentlicht

www.linkedin.com

Alle Artikel

Schreiben Sie einen Kommentar Antwort abbrechen

7,3 Millionen eingesammelt, dann das Repo archiviert

Markus Seyfferth

TensorZero hatte 7,3 Millionen Dollar Risikokapital und Kunden bis hinauf zu Fortune-10-Konzernen. Trotzdem haben die Gründer das Repository archiviert und nicht genutztes Geld an...

Mehr erfahren

2.000 ausgemusterte Pixel-Handys werden zum Rechenzentrum

Google und die UC San Diego bauen ein Rechenzentrum aus 2.000 ausgemusterten Pixel-Smartphones. Die Rechenleistung ist nicht das…
OKF: Google macht Markdown zum Gedächtnis der KI

Google Cloud hat mit dem Open Knowledge Format einen offenen Standard veröffentlicht, der Wissen als Sammlung von Markdown-Dateien…
Entgelttransparenzrichtlinie 2026: Das gilt jetzt

Die Entgelttransparenzrichtlinie der EU verlangt von Arbeitgebern, Gehälter nach festen Kriterien zu begründen, statt sie über Verhandlungsgeschick entstehen…
Code als Waffe: Die USA stellen Anthropics Cyber-KI unter Exportkontrolle

Die US-Regierung hat den Auslandszugang zu Anthropics stärksten KI-Modellen gekappt, nachdem Amazon-Chef Andy Jassy in Washington gewarnt hatte.…

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

80 Token pro Sekunde aus zwei Grafikkarten

Das Wichtigste in Kürze

Wie kommen 80 Token pro Sekunde zustande?

Warum lohnt sich der lokale Betrieb für den Mittelstand?

Wo liegen die Grenzen?

Mehr Newshunger?

Schreiben Sie einen Kommentar Antwort abbrechen

7,3 Millionen eingesammelt, dann das Repo archiviert

2.000 ausgemusterte Pixel-Handys werden zum Rechenzentrum

OKF: Google macht Markdown zum Gedächtnis der KI

Entgelttransparenzrichtlinie 2026: Das gilt jetzt

Code als Waffe: Die USA stellen Anthropics Cyber-KI unter Exportkontrolle

Mehr solcher Artikel? Jetzt kostenlos abonnieren.

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.