Schreibt KI guten Code? Bisher kaum.

Markus Seyfferth
Autor Dr. Web
2 Min. Lesezeit
Schreibt KI guten Code? Bisher kaum.

KI-Code ist oft korrekt, aber selten gut genug für die Produktion. Genau diese Lücke misst FrontierCode, ein neuer Benchmark der Devin-Macher von Cognition. Das Ergebnis ernüchtert: Selbst die stärksten Modelle scheitern an dem, was erfahrene Entwickler als sauberen, mergefähigen Code verstehen.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

13,4 Prozent erreicht das beste getestete Modell im härtesten Teil des Benchmarks. Bisherige Tests wie SWE-Bench prüfen vor allem, ob Code funktioniert. FrontierCode stellt die nächste Frage: Würde ein Maintainer diesen Pull Request tatsächlich in seine Codebasis übernehmen?

Das Wichtigste in Kürze

  • FrontierCode bewertet nicht nur Korrektheit, sondern Mergeability, also echte Code-Qualität.
  • Über 20 Open-Source-Maintainer aus 36 Projekten steckten mehr als 40 Stunden pro Aufgabe hinein.
  • Im schwersten Subset Diamond bleibt das Spitzenmodell bei 13,4 Prozent, der Benchmark ist also längst nicht gesättigt.

Was misst FrontierCode anders?

Blauer Holzstempel mit Fragezeichen und Abdruck daneben auf weißem Papier
Cognition prüft Code auf Regressionssicherheit, Testqualität und Stilkonformität. Eine Lösung gilt erst als akzeptiert, wenn sie alle Kriterien eines Maintainer-Reviews erfüllt

Qualität statt Korrektheit bildet den Kern. Cognition prüft den Code entlang mehrerer Achsen, darunter Regressionssicherheit, Testqualität, Stiltreue und die Disziplin, nur das Nötige anzufassen. Eine Lösung besteht erst, wenn sie alle harten Kriterien erfüllt, die ein Maintainer im Review als Ausschlussgründe werten würde.

Weniger Fehlurteile trennt den Test von seinen Vorgängern. Laut Cognition produziert FrontierCode 81 Prozent weniger Fehlklassifikationen als SWE-Bench Pro. Möglich macht das eine Mischung aus klassischen Unit-Tests, regelbasierten Bewertungen und neuen Verfahren, bei denen jede Aufgabe von einem Forscher manuell geprüft wurde.

Korrekter Code ist die Eintrittskarte, nicht das Ziel. Dass selbst Spitzenmodelle an Lesbarkeit und Wartbarkeit scheitern, sollte jedem die Illusion nehmen, KI ersetze das Code-Review.

— Michael Dobler, Herausgeber Dr. Web

Was bedeuten die Zahlen für die Praxis?

Ein weißer Block mit Code-Inschrift und grünem Aufziehschlüssel vor weißem Hintergrund
Spitzenmodelle führen bei leichten Aufgaben mit bis zu 51,8 Prozent, Open-Source-Modelle erreichen bei schweren nur 3,8 Prozent. Günstigere Modelle verbrauchen bis zu viermal weniger Tokens bei ähnlichen Ergebnissen

Großer Abstand zeigt sich quer durch das Feld. In den leichteren Stufen führt das Spitzenmodell mit 34,3 und 51,8 Prozent, das beste quelloffene Modell kommt im schwersten Teil auf 3,8 Prozent. Auffällig nebenbei: Ein günstigeres Modell verbrauchte bis zu viermal weniger Tokens für ein ähnliches Ergebnis, was den Kostenvorteil ins Spiel bringt.

Für Teams heißt das vor allem eines: Lassen Sie KI-generierten Code denselben Review durchlaufen wie menschlichen. Generierte Patches mögen kompilieren, doch Scope-Treue und sauberes Design entstehen nicht von allein. Die vollständige Methodik und alle Ergebnisse beschreibt Cognition in der offiziellen Vorstellung von FrontierCode.

Mehr #KI News

Mehr Newshunger?

4,6 17 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Empfohlene Artikel
Markus Seyfferth
Autor
ist seit 2019 geschäftsführender Gesellschafter von Dr. Web. Er verantwortet die redaktionelle Ausrichtung des Dr. Web Magazins und bringt seine Expertise in den Bereichen Webdesign, Webentwicklung, WordPress, SEO sowie Online Marketing ein. Zudem verfasst er regelmäßig Fachartikel, um sein Wissen und seine Erfahrungen zu teilen und anderen im Online Marketing weiterzuhelfen.
807 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo