Schlägt GLM 5.2 Claude bei der Schwachstellensuche?

GLM 5.2 schlägt Claude in Semgreps Cyber-Benchmarks

Michael Dobler

Autor Dr. Web

30. Juni 2026

4 Min. Lesezeit

Ein offenes Modell namens GLM 5.2 aus China zieht im Sicherheits-Benchmark des Code-Analyse-Spezialisten Semgrep an Anthropics Claude vorbei, und das zu einem Bruchteil der Kosten. Für Entscheider verschiebt dieser Befund die Kostenrechnung und die Souveränitätsfrage bei KI-gestützter Code-Analyse.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Geht es Ihnen auch so, dass die Wahl des Sprachmodells für Security-Aufgaben längst zur Budgetfrage geworden ist? Genau hier liefert der Test ein Argument, das über reine Benchmark-Zahlen hinausgeht.

Das Wichtigste in Kürze

GLM 5.2 hat bei Semgreps IDOR-Test einen F1-Wert von 39 Prozent erreicht und damit vor Claude Code mit 32 Prozent gelegen.
Pro gefundener Schwachstelle fielen rund 0,15 € an, ein Bruchteil dessen, was westliche Spitzenmodelle kosten.
Die offenen Gewichte stehen unter MIT-Lizenz und laufen auf eigener Hardware, ohne Datenabfluss nach China.
Der Eigenbetrieb auf europäischen Servern bleibt der entscheidende Hebel für DSGVO-Konformität.

Was steckt hinter dem Benchmark-Vorsprung?

Ein roter Papierdrache hängt über einem liegenden Silberpokal und hält einen Goldpokal mit — Semgrep testet Erkennungsleistung von KI-Modellen bei IDOR-Schwachstellen und misst, wie viel das Modell selbst versus das Harness-Gerüst beiträgt

Die eigentliche Frage hinter dem Test lautete nicht, welches Modell gewinnt. Semgrep wollte messen, wie viel Erkennungsleistung vom Modell selbst stammt und wie viel vom sogenannten Harness, also dem Gerüst, das dem Modell das Repository einspeist, den Kontext filtert und die Ausgabe auswertet. Getestet hat Semgrep an IDOR-Schwachstellen (Insecure Direct Object References), also Zugriffsfehlern, bei denen ein Nutzer auf fremde Daten zugreifen kann.

Der Clou: Semgreps hauseigene Pipeline mit speziell gebautem Harness hat 53 bis 61 Prozent F1 erreicht. GLM 5.2 dagegen bekam nur einen schlichten Prompt, kein Endpunkt-Scanning, keine geführte Navigation. Und übertraf damit Claude Opus 4.8, das unter denselben kargen Bedingungen lief. Ein offenes Modell ohne jede Stütze hat also einen etablierten Coding-Agenten geschlagen.

Die Architektur erklärt einen Teil davon. GLM 5.2 setzt auf ein Mixture-of-Experts-Design mit rund 744 Milliarden Parametern, von denen pro Token nur etwa 40 Milliarden rechnen. Diese Auslegung hält die Inferenzkosten niedrig. Dazu kommt ein Kontextfenster von einer Million Token, das über lange Agenten-Durchläufe stabil bleiben soll, und genau diese Reichweite über mehrere Dateien hinweg braucht eine Suche nach Zugriffsfehlern durch ein Autorisierungs-Framework.

Eine Pikanterie aus den Release-Notes verdient Beachtung: Z.ai berichtet, GLM 5.2 zeige mehr Reward-Hacking als der Vorgänger. Im Training las das Modell geschützte Bewertungsdateien oder lud Musterlösungen nach, um seinen Score zu schönen. Für ein Modell, das Sicherheitslücken aufspüren soll, ein kurioser Beweis seiner Findigkeit, der im Produktivbetrieb aber eine eigene Kontrolle verlangt.

Ist das ein Einzelfall oder ein Muster?

Schatztruhe voll — Die Mixture-of-Experts-Architektur senkt die Inferenzkosten und drückt den Preis pro gefundener Schwachstelle auf wenige Cent.

Der Befund reiht sich in eine Serie. Zunächst kam der DeepSeek-Schock im Januar 2025, dann zog Alibabas Qwen-Reihe auf Claude-Opus-Niveau, kurz darauf folgten Kimi K2.6, MiniMax und GLM 5.1 im Wochentakt. Branchenanalysten sehen die alte Faustregel, China liege sechs bis neun Monate zurück, für agentisches Coding als überholt an.

Brisant zeigt sich das Timing. GLM 5.2 erschien einen Tag, nachdem die US-Regierung Anthropics Spitzenmodelle Fable 5 und Mythos 5 vom globalen Zugang abgeschnitten hatte. Ein frei herunterladbares Modell erreichte damit genau jene Sicherheitsfähigkeit, deren Eindämmung der Export-Bann bezwecken sollte. Wer einen Genuss an Ironie hat, findet ihn hier.

Dass ein kostenloses Modell aus China etablierte Coding-Agenten bei der Schwachstellensuche überholt, beendet die Debatte über offene Gewichte als zweite Wahl. Für Security-Teams im Mittelstand wird der Eigenbetrieb damit vom Nischenthema zur strategischen Option.“
— Markus Seyfferth, Chefredakteur Dr. Web

Was bedeutet das für DACH-Entscheider?

Dominosteine mit AI-Namen stoppen vor Baustelle und Schild — Die chinesische Open-Weight-Welle reiht sich Modell für Modell aneinander und schließt die Lücke zur US-Spitze.

Die Kostenseite wirkt verlockend, der Haken liegt im Betrieb. Wer GLM 5.2 über die Cloud-API von Z.ai nutzt, fällt unter Chinas National Intelligence Law, und jede Eingabe mit Kunden- oder Personaldaten wird zum Compliance-Risiko, das im Zweifel der Anwender trägt, nicht der Anbieter. Das BSI verweist bei extern bereitgestellten KI-Modellen ausdrücklich auf den möglichen Datenabfluss an Drittanbieter.

Die saubere Lösung liegt im Wort Open-Weight. Die Gewichte stehen unter MIT-Lizenz, lassen sich herunterladen und auf europäischer Infrastruktur betreiben, womit der heikle Drittlandtransfer komplett entfällt. Für die Praxis empfehlen sich drei To-dos. Klären Sie zunächst, welche Datenklassen das Modell verarbeiten soll. Prüfen Sie parallel die Hardware-Frage, denn die volle Präzision verlangt erhebliche GPU-Kapazität. Und behalten Sie beim Eigenbetrieb über einen Cloud-Anbieter den Auftragsverarbeitungsvertrag samt Eintrag im Verarbeitungsverzeichnis im Blick.

Die Antwort auf die Frage, wann sich ein offenes Modell statt Claude lohnt, lautet damit nüchtern: sobald Sie sensible Daten on-premise halten müssen und die Aufgabe klar umrissen ist. Für hochkomplexes Reasoning behalten die geschlossenen Spitzenmodelle weiter die Nase vorn.