Eine kontrollierte Studie stellt eine der populärsten Annahmen der Software-Branche auf den Kopf. Erfahrene Entwickler fühlten sich mit KI-Assistenten deutlich schneller, doch die Stoppuhr zeigte das Gegenteil. Die Lücke zwischen Selbstwahrnehmung und Messung hat handfeste Folgen für jedes Team, das gerade KI-Tools einführt.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDie KI-Produktivität von Entwicklern liegt niedriger als gedacht, sobald man sie sauber misst statt nur abfragt. Genau das hat das unabhängige Forschungslabor METR in einer randomisierten kontrollierten Studie dokumentiert. Zum Verständnis, wie große Sprachmodelle im Arbeitsalltag wirken, liefert der LLMs-Ratgeber die Grundlagen.
Das Wichtigste in Kürze
- Vorab erwarteten die Entwickler eine Beschleunigung um 24 %, im Nachhinein fühlten sie sich immer noch 20 % schneller.
- Gemessen brauchten sie mit KI 19 % länger als ohne.
- Das Design war ein RCT mit 16 erfahrenen Open-Source-Entwicklern und 246 Aufgaben in großen, eigenen Repositories.
- Genutzt wurde Anfang 2025 vor allem Cursor Pro mit Claude 3.5 und 3.7 Sonnet.
Warum fühlt sich KI schneller an, als sie ist?

Der Tippfluss beim Prompten fühlt sich produktiv an, während das Prüfen, Korrigieren und Neu-Prompten die eigentliche Zeit frisst.
Vertrauter Code kontert. Erfahrene Entwickler kennen ihren eigenen Code oft besser als jeder Vorschlag, und das Gegenlesen fremder Vorschläge kostet mehr, als das Schreiben gespart hat. Das Vertrauen ins Tool verschiebt den Aufwand vom sichtbaren Tippen zum unsichtbaren Kontrollieren. Ähnlich ehrlich fällt ein konkretes Praxisbeispiel aus, das Nutzen und Reibung nebeneinanderstellt.
Wo beschleunigt KI wirklich?

Kontext entscheidet. Bei unbekanntem Terrain, Boilerplate und Wegwerf-Code spielt KI ihre Stärke aus, bei vertrauten und komplexen Codebasen kostet sie am Ende Zeit. Diese Studie betrifft ausdrücklich erfahrene Entwickler in ihren eigenen, großen Repositories. Erwartet wurde ein Tempogewinn, herausgekommen ist ein Rückschritt.
Debatte mit Vorgeschichte. Der Befund reiht sich in eine Reihe nüchterner KI-Bilanzen ein, von der Frage, warum KI-Inferenz billiger wird als gedacht, bis zu Projekten wie Godot, das KI-generierten Code verbietet. Selbst Kostendruck verändert den Einsatz, wie der Fall zeigt, in dem Unternehmen Claude und Codex zu Höhlenmensch-Sprache zwingen.
Gefühltes Tempo ist keine Kennzahl. Bezahlt wird am Ende die gemessene Zeit, nicht das gute Gefühl beim Prompten.
— Markus Seyfferth, Chefredakteur Dr. Web
Was heißt das für Entwicklerteams?
Messen statt glauben. Teams sollten ihre Erwartungen an echten Messungen ausrichten und nicht am Bauchgefühl der Nutzer. Drei Konsequenzen ergeben sich für die Praxis.
- Produktivität an Durchlaufzeiten und Fehlerquoten festmachen, nicht an Umfragen zur Zufriedenheit.
- KI-Tools dort ausrollen, wo sie belegbar tragen, etwa bei Boilerplate und unbekannten Frameworks, statt pauschal überall.
- Erwartungen früh dämpfen, damit die Einführung nicht am überzogenen Versprechen scheitert.
Pilot vor Rollout. Ein kurzer eigener Vergleich mit und ohne KI an typischen Aufgaben liefert mehr Klarheit als jede Anbieter-Folie.
Mehr Newshunger?

- Godot verbietet KI-generierten Code: Was Open-Source-Projekte jetzt brauchen
- Unternehmen zwingen Claude und Codex zu Höhlenmensch-Sprache, um KI-Kosten zu senken
- Popping the GPU Bubble: Warum KI-Inferenz billiger wird als gedacht
- Working with AI: Ein konkretes Beispiel aus der Praxis
- Claude Science: Anthropics KI-Umgebung für Forscher
- Zwei Milliarden Geräte mit schlafendem KI-Chip