Ist Qwen 3.6 27B das beste lokale Coder-Modell?

Qwen 3.6 27B: dichtes Modell, besserer Code

Markus Seyfferth

Autor Dr. Web

30. Juni 2026

3 Min. Lesezeit

Qwen 3.6 27B gilt vielen Entwicklern als das angenehmste Modell für lokales Coding. Ein dichtes 27-Milliarden-Modell schlägt dabei größere Mixture-of-Experts-Bauten bei der Codequalität. Warum weniger Tempo am Ende mehr Substanz liefert.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Qwen 3.6 27B punktet bei der lokalen Softwareentwicklung mit einer Eigenschaft, die in Benchmark-Tabellen oft untergeht: gleichmäßige Qualität. Der Entwickler hinter dem Quesma-Blog hat beide Qwen-Varianten gegeneinander getestet und zieht ein klares Fazit.

Das Wichtigste in Kürze

Qwen 3.6 27B ist ein dichtes Modell, bei dem jeder Parameter pro Token rechnet, was für konstante Antwortqualität sorgt.
Die schnellere MoE-Schwester 35B A3B liefert rund dreifaches Tempo, verliert aber laut Praxisberichten an Codequalität.
Auf SWE-bench Verified erreicht das Modell 77,2 Prozent und liegt damit wenige Punkte hinter Claude Opus.
Die hochwertige 8-Bit-Variante braucht rund 30 GB Speicher und läuft auf einer 24-GB-Karte nur knapp.

Warum schlägt ein dichtes Modell die MoE-Variante?

Ein hellblaues pyramidales Taktell, frontale Ansicht, mit der Aufschrift 27B, vor weißem Hintergrund — Dichtes Modell mit 27 Milliarden Parametern nutzt alle Daten pro Token. MoE-Alternative aktiviert nur einen Bruchteil, gewinnt an Tempo, hat aber Routing-Schwankungen

Architektur. Bei einem dichten Modell rechnet jeder der 27 Milliarden Parameter an jedem Token mit, was die Antwortgüte konstant hält. Das MoE-Pendant aktiviert nur einen Bruchteil pro Token und gewinnt dadurch Tempo, handelt sich aber Schwankungen durch das Experten-Routing ein. Der Quesma-Entwickler nimmt diesen Kompromiss bewusst nicht in Kauf und generiert lieber ein Drittel weniger Code, dafür mit verlässlicher Güte.

Was leistet das Modell im Coding-Alltag?

Eine 3D-Metalleonstruktion mit Text und Anspitzer — Qwen 3.6 27B unterstützt Werkzeugaufrufe und mehrstufige Planung. Bei GitHub-Aufgaben erreicht das kompakte Modell nahezu Claude-Leistung

Agentenfähig. Qwen 3.6 27B unterstützt Werkzeugaufrufe, mehrstufige Planung und das Editieren über viele Dateien hinweg, etwa in Agenten wie OpenClaw oder Claude Code. Auf realen GitHub-Aufgaben kommt das dichte Modell nah an Claude heran und schlägt sogar den älteren 397-Milliarden-Flaggschiff-Bau des Vorgängers. Welche offenen Modelle sonst infrage kommen, vergleicht der LLM-Ratgeber, und wie weit die Qwen-Reihe gereift ist, zeigt der Blick auf Qwen3.7-Max.

Bei lokalen Coding-Modellen zählt die Verlässlichkeit Zeile für Zeile mehr als der höchste Benchmark-Wert. Ein Modell, das jeden Tag gleich gut arbeitet, schlägt im Betrieb das schnellere mit den Aussetzern.
— Michael Dobler, Herausgeber Dr. Web

Läuft das auf vorhandener Hardware?

Roter Werkzeugkasten mit Notizzettel und Engländer — Llama.cpp ermöglicht Betrieb von Modellen auf 24-GB-Grafikkarten in Q4-Q6-Quantisierung, 8-Bit benötigt 30 GB

Speicherhunger. Eine Grafikkarte mit 24 GB trägt das Modell in Q4- bis Q6-Quantisierung, die hochwertige 8-Bit-Stufe verlangt rund 30 GB. Als Werkzeug empfiehlt der Quesma-Bericht llama.cpp, eine schlanke Open-Source-Lösung, die das Modell auf vielerlei Geräten startet. Welche Aufgaben bei größeren MoE-Modellen wie GLM-5.2 besser aufgehoben sind, hängt vom Speicherbudget ab.

Wo bleibt die Vorsicht?

Ein orangefarbener Becher mit Text in deutscher Sprache auf weißem Hintergrund steht in der Mitte des Bildes — Praxistest zeigt: KI-Modell zuverlässig nur unter Aufsicht, driftet bei langen Kontexten ab. Hybrid-Ansatz 2026 plant starkes Cloud-Modell mit lokalem Qwen für Code

Aufsicht. Ein heute erschienener Praxistest dämpft die Euphorie. Bei der Zuverlässigkeit von Werkzeugaufrufen und über lange Kontexte hinweg driftet das Modell, taugt also als beaufsichtigter Coder und nicht als unbeaufsichtigter Ersatz für Claude Code. Das gängige Muster für 2026 läuft hybrid: die Architektur plant ein starkes Cloud-Modell, den Code schreibt das lokale Qwen. Wir haben diese Aufteilung selbst getestet und sind dabei geblieben. Prüfen Sie zuerst, welche Aufgaben zwingend lokal bleiben müssen, und reservieren Sie heikle Schritte für ein Modell mit höherer Trefferquote.

Mehr #KI News
Mehr zu lokalen Sprachmodellen