Qwen 3.6 27B gilt vielen Entwicklern als das angenehmste Modell für lokales Coding. Ein dichtes 27-Milliarden-Modell schlägt dabei größere Mixture-of-Experts-Bauten bei der Codequalität. Warum weniger Tempo am Ende mehr Substanz liefert.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenQwen 3.6 27B punktet bei der lokalen Softwareentwicklung mit einer Eigenschaft, die in Benchmark-Tabellen oft untergeht: gleichmäßige Qualität. Der Entwickler hinter dem Quesma-Blog hat beide Qwen-Varianten gegeneinander getestet und zieht ein klares Fazit.
Das Wichtigste in Kürze
- Qwen 3.6 27B ist ein dichtes Modell, bei dem jeder Parameter pro Token rechnet, was für konstante Antwortqualität sorgt.
- Die schnellere MoE-Schwester 35B A3B liefert rund dreifaches Tempo, verliert aber laut Praxisberichten an Codequalität.
- Auf SWE-bench Verified erreicht das Modell 77,2 Prozent und liegt damit wenige Punkte hinter Claude Opus.
- Die hochwertige 8-Bit-Variante braucht rund 30 GB Speicher und läuft auf einer 24-GB-Karte nur knapp.
Warum schlägt ein dichtes Modell die MoE-Variante?

Architektur. Bei einem dichten Modell rechnet jeder der 27 Milliarden Parameter an jedem Token mit, was die Antwortgüte konstant hält. Das MoE-Pendant aktiviert nur einen Bruchteil pro Token und gewinnt dadurch Tempo, handelt sich aber Schwankungen durch das Experten-Routing ein. Der Quesma-Entwickler nimmt diesen Kompromiss bewusst nicht in Kauf und generiert lieber ein Drittel weniger Code, dafür mit verlässlicher Güte.
Was leistet das Modell im Coding-Alltag?

Agentenfähig. Qwen 3.6 27B unterstützt Werkzeugaufrufe, mehrstufige Planung und das Editieren über viele Dateien hinweg, etwa in Agenten wie OpenClaw oder Claude Code. Auf realen GitHub-Aufgaben kommt das dichte Modell nah an Claude heran und schlägt sogar den älteren 397-Milliarden-Flaggschiff-Bau des Vorgängers. Welche offenen Modelle sonst infrage kommen, vergleicht der LLM-Ratgeber, und wie weit die Qwen-Reihe gereift ist, zeigt der Blick auf Qwen3.7-Max.
Bei lokalen Coding-Modellen zählt die Verlässlichkeit Zeile für Zeile mehr als der höchste Benchmark-Wert. Ein Modell, das jeden Tag gleich gut arbeitet, schlägt im Betrieb das schnellere mit den Aussetzern.
— Michael Dobler, Herausgeber Dr. Web
Läuft das auf vorhandener Hardware?

Speicherhunger. Eine Grafikkarte mit 24 GB trägt das Modell in Q4- bis Q6-Quantisierung, die hochwertige 8-Bit-Stufe verlangt rund 30 GB. Als Werkzeug empfiehlt der Quesma-Bericht llama.cpp, eine schlanke Open-Source-Lösung, die das Modell auf vielerlei Geräten startet. Welche Aufgaben bei größeren MoE-Modellen wie GLM-5.2 besser aufgehoben sind, hängt vom Speicherbudget ab.
Wo bleibt die Vorsicht?

Aufsicht. Ein heute erschienener Praxistest dämpft die Euphorie. Bei der Zuverlässigkeit von Werkzeugaufrufen und über lange Kontexte hinweg driftet das Modell, taugt also als beaufsichtigter Coder und nicht als unbeaufsichtigter Ersatz für Claude Code. Das gängige Muster für 2026 läuft hybrid: die Architektur plant ein starkes Cloud-Modell, den Code schreibt das lokale Qwen. Wir haben diese Aufteilung selbst getestet und sind dabei geblieben. Prüfen Sie zuerst, welche Aufgaben zwingend lokal bleiben müssen, und reservieren Sie heikle Schritte für ein Modell mit höherer Trefferquote.
Mehr #KI News
Mehr zu lokalen Sprachmodellen