News

Schreibt KI guten Code? Bisher kaum.

Markus Seyfferth

Autor Dr. Web

11. Juni 2026

2 Min. Lesezeit

KI-Code ist oft korrekt, aber selten gut genug für die Produktion. Genau diese Lücke misst FrontierCode, ein neuer Benchmark der Devin-Macher von Cognition. Das Ergebnis ernüchtert: Selbst die stärksten Modelle scheitern an dem, was erfahrene Entwickler als sauberen, mergefähigen Code verstehen.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

13,4 Prozent erreicht das beste getestete Modell im härtesten Teil des Benchmarks. Bisherige Tests wie SWE-Bench prüfen vor allem, ob Code funktioniert. FrontierCode stellt die nächste Frage: Würde ein Maintainer diesen Pull Request tatsächlich in seine Codebasis übernehmen?

Das Wichtigste in Kürze

FrontierCode bewertet nicht nur Korrektheit, sondern Mergeability, also echte Code-Qualität.
Über 20 Open-Source-Maintainer aus 36 Projekten steckten mehr als 40 Stunden pro Aufgabe hinein.
Im schwersten Subset Diamond bleibt das Spitzenmodell bei 13,4 Prozent, der Benchmark ist also längst nicht gesättigt.

Was misst FrontierCode anders?

Blauer Holzstempel mit Fragezeichen und Abdruck daneben auf weißem Papier — Cognition prüft Code auf Regressionssicherheit, Testqualität und Stilkonformität. Eine Lösung gilt erst als akzeptiert, wenn sie alle Kriterien eines Maintainer-Reviews erfüllt

Qualität statt Korrektheit bildet den Kern. Cognition prüft den Code entlang mehrerer Achsen, darunter Regressionssicherheit, Testqualität, Stiltreue und die Disziplin, nur das Nötige anzufassen. Eine Lösung besteht erst, wenn sie alle harten Kriterien erfüllt, die ein Maintainer im Review als Ausschlussgründe werten würde.

Weniger Fehlurteile trennt den Test von seinen Vorgängern. Laut Cognition produziert FrontierCode 81 Prozent weniger Fehlklassifikationen als SWE-Bench Pro. Möglich macht das eine Mischung aus klassischen Unit-Tests, regelbasierten Bewertungen und neuen Verfahren, bei denen jede Aufgabe von einem Forscher manuell geprüft wurde.

Korrekter Code ist die Eintrittskarte, nicht das Ziel. Dass selbst Spitzenmodelle an Lesbarkeit und Wartbarkeit scheitern, sollte jedem die Illusion nehmen, KI ersetze das Code-Review.
— Michael Dobler, Herausgeber Dr. Web

Was bedeuten die Zahlen für die Praxis?

Ein weißer Block mit Code-Inschrift und grünem Aufziehschlüssel vor weißem Hintergrund — Spitzenmodelle führen bei leichten Aufgaben mit bis zu 51,8 Prozent, Open-Source-Modelle erreichen bei schweren nur 3,8 Prozent. Günstigere Modelle verbrauchen bis zu viermal weniger Tokens bei ähnlichen Ergebnissen

Großer Abstand zeigt sich quer durch das Feld. In den leichteren Stufen führt das Spitzenmodell mit 34,3 und 51,8 Prozent, das beste quelloffene Modell kommt im schwersten Teil auf 3,8 Prozent. Auffällig nebenbei: Ein günstigeres Modell verbrauchte bis zu viermal weniger Tokens für ein ähnliches Ergebnis, was den Kostenvorteil ins Spiel bringt.

Für Teams heißt das vor allem eines: Lassen Sie KI-generierten Code denselben Review durchlaufen wie menschlichen. Generierte Patches mögen kompilieren, doch Scope-Treue und sauberes Design entstehen nicht von allein. Die vollständige Methodik und alle Ergebnisse beschreibt Cognition in der offiziellen Vorstellung von FrontierCode.

Mehr #KI News

Mehr Newshunger?

4,6 17 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Jede Woche ein bisschen klüger.

Die besten Artikel, kostenlos, jeden Donnerstag.

Markus Seyfferth

ist seit 2019 geschäftsführender Gesellschafter von Dr. Web. Er verantwortet die redaktionelle Ausrichtung des Dr. Web Magazins und…

Autor

Markus Seyfferth

ist seit 2019 geschäftsführender Gesellschafter von Dr. Web. Er verantwortet die redaktionelle Ausrichtung des Dr. Web Magazins und bringt seine Expertise in den Bereichen Webdesign, Webentwicklung, WordPress, SEO sowie Online Marketing ein. Zudem verfasst er regelmäßig Fachartikel, um sein Wissen und seine Erfahrungen zu teilen und anderen im Online Marketing weiterzuhelfen.

807 Artikel veröffentlicht

www.drweb.de

Alle Artikel

Schreiben Sie einen Kommentar Antwort abbrechen

Code als Waffe: Die USA stellen Anthropics Cyber-KI unter Exportkontrolle

Markus Seyfferth

Die US-Regierung hat den Auslandszugang zu Anthropics stärksten KI-Modellen gekappt, nachdem Amazon-Chef Andy Jassy in Washington gewarnt hatte. Was nach Tech-Politik in Washington klingt,...

Mehr erfahren

Code wird öfter betrieben als gelesen

Ein bekanntes Entwickler-Sprichwort sagt: Code wird öfter gelesen als geschrieben. Facundo Olano denkt es weiter und kommt zu…
PicoZ80: Ein Raspberry-Chip erweckt den Z80 neu

Ein Maker hat den legendären Z80-Prozessor durch einen modernen Mikrocontroller ersetzt, der sich nahtlos in den Originalsockel steckt.…
So wechseln Sie macOS-Spaces ohne Animation

Das Wechseln zwischen virtuellen Desktops gehört auf dem Mac zu den trägsten Alltagsmomenten. Eine eingebaute Animation begleitet jeden…
Vom Pokémon-Fang zur Militärdrohne: Ihre Scans

Millionen Pokémon-Go-Spieler filmten jahrelang Straßen, Parks und Gebäude, um Belohnungen im Spiel zu kassieren. Diese Aufnahmen trainierten ein…

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Schreibt KI guten Code? Bisher kaum.

Das Wichtigste in Kürze

Was misst FrontierCode anders?

Was bedeuten die Zahlen für die Praxis?

Mehr Newshunger?

Schreiben Sie einen Kommentar Antwort abbrechen

Code als Waffe: Die USA stellen Anthropics Cyber-KI unter Exportkontrolle

Code wird öfter betrieben als gelesen

PicoZ80: Ein Raspberry-Chip erweckt den Z80 neu

So wechseln Sie macOS-Spaces ohne Animation

Vom Pokémon-Fang zur Militärdrohne: Ihre Scans

Mehr solcher Artikel? Jetzt kostenlos abonnieren.

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.