KI-Code ist oft korrekt, aber selten gut genug für die Produktion. Genau diese Lücke misst FrontierCode, ein neuer Benchmark der Devin-Macher von Cognition. Das Ergebnis ernüchtert: Selbst die stärksten Modelle scheitern an dem, was erfahrene Entwickler als sauberen, mergefähigen Code verstehen.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen13,4 Prozent erreicht das beste getestete Modell im härtesten Teil des Benchmarks. Bisherige Tests wie SWE-Bench prüfen vor allem, ob Code funktioniert. FrontierCode stellt die nächste Frage: Würde ein Maintainer diesen Pull Request tatsächlich in seine Codebasis übernehmen?
Das Wichtigste in Kürze
- FrontierCode bewertet nicht nur Korrektheit, sondern Mergeability, also echte Code-Qualität.
- Über 20 Open-Source-Maintainer aus 36 Projekten steckten mehr als 40 Stunden pro Aufgabe hinein.
- Im schwersten Subset Diamond bleibt das Spitzenmodell bei 13,4 Prozent, der Benchmark ist also längst nicht gesättigt.
Was misst FrontierCode anders?

Qualität statt Korrektheit bildet den Kern. Cognition prüft den Code entlang mehrerer Achsen, darunter Regressionssicherheit, Testqualität, Stiltreue und die Disziplin, nur das Nötige anzufassen. Eine Lösung besteht erst, wenn sie alle harten Kriterien erfüllt, die ein Maintainer im Review als Ausschlussgründe werten würde.
Weniger Fehlurteile trennt den Test von seinen Vorgängern. Laut Cognition produziert FrontierCode 81 Prozent weniger Fehlklassifikationen als SWE-Bench Pro. Möglich macht das eine Mischung aus klassischen Unit-Tests, regelbasierten Bewertungen und neuen Verfahren, bei denen jede Aufgabe von einem Forscher manuell geprüft wurde.
Korrekter Code ist die Eintrittskarte, nicht das Ziel. Dass selbst Spitzenmodelle an Lesbarkeit und Wartbarkeit scheitern, sollte jedem die Illusion nehmen, KI ersetze das Code-Review.
— Michael Dobler, Herausgeber Dr. Web
Was bedeuten die Zahlen für die Praxis?

Großer Abstand zeigt sich quer durch das Feld. In den leichteren Stufen führt das Spitzenmodell mit 34,3 und 51,8 Prozent, das beste quelloffene Modell kommt im schwersten Teil auf 3,8 Prozent. Auffällig nebenbei: Ein günstigeres Modell verbrauchte bis zu viermal weniger Tokens für ein ähnliches Ergebnis, was den Kostenvorteil ins Spiel bringt.
Für Teams heißt das vor allem eines: Lassen Sie KI-generierten Code denselben Review durchlaufen wie menschlichen. Generierte Patches mögen kompilieren, doch Scope-Treue und sauberes Design entstehen nicht von allein. Die vollständige Methodik und alle Ergebnisse beschreibt Cognition in der offiziellen Vorstellung von FrontierCode.
Mehr #KI News