Entwickler, die beim Lernen auf KI setzen, verstehen ihren eigenen Code messbar schlechter. Eine Anthropic-Studie zeigt den Effekt genau dort, wo später die Aufsicht über KI-Code gebraucht wird, nämlich beim Debugging. Für Teamleiter wird das zur strategischen Frage.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenBeim KI-Coding greift eine alte Regel aus der Luftfahrt nun auch für Entwicklerteams: Verlässt sich der Mensch zu sehr auf die Automatik, verkümmert die Fähigkeit, im Ernstfall selbst einzugreifen. Eine neue Studie von Anthropic liefert dafür erstmals belastbare Zahlen aus einem kontrollierten Experiment.
Das Wichtigste in Kürze
- Die KI-Gruppe verstand den frisch geschriebenen Code 17 Prozentpunkte schlechter als die Handarbeit-Gruppe
- Den größten Rückstand gab es ausgerechnet beim Debugging, der Schlüsselkompetenz zur Kontrolle von KI-Code
- Ein Tempovorteil durch die KI ließ sich statistisch nicht nachweisen
- Wie jemand die KI nutzt, entschied über das Ergebnis stärker als das Werkzeug selbst
Was hat Anthropic genau gemessen?

Für die Studie How AI Impacts Skill Formation bat das Forschungsteam 52 überwiegend jüngere Entwickler an eine ihnen unbekannte Python-Bibliothek namens Trio. Die eine Hälfte durfte einen KI-Assistenten nutzen, die andere arbeitete von Hand. Im Anschluss folgte ein Quiz zu Debugging und Code-Verständnis. Die KI-Gruppe kam auf 50 Prozent, die Handarbeit-Gruppe auf 67 Prozent. Das entspricht fast zwei Notenstufen.
Warum trifft der Verlust ausgerechnet das Debugging?

Die Lücke beim Debugging wiegt schwer, weil genau diese Fähigkeit zählt, sobald eine KI den Code schreibt und der Mensch ihn prüfen soll. Ohne den Blick für Fehler in fremdem Code lässt sich KI-Output nicht mehr sinnvoll kontrollieren. Die Kontrollgruppe stolperte beim Üben über mehr eigene Fehler und schärfte daran offenbar genau die Diagnose, die der KI-Gruppe später fehlte. Ähnliche Muster zeigte schon der AI Fluency Index von Anthropic: Je polierter ein Ergebnis aussah, desto seltener wurde es geprüft.
Ein Werkzeug, das fast immer funktioniert, erzieht Teams zur Unaufmerksamkeit. Genau dann, wenn der Code einmal kippt, fehlt die Übung, das auch zu sehen.
— Markus Seyfferth, Chefredakteur Dr. Web
Macht die Art der Nutzung den Unterschied?

Auffällig ist, dass nicht jede KI-Nutzung gleich schlecht abschnitt. Teilnehmer, die den Code komplett delegierten oder die KI nur zum Reparieren nutzten, landeten unter 40 Prozent. Deutlich besser schnitten Teilnehmer ab, die die KI für Verständnisfragen einsetzten und selbst weitercodeten, mit 65 Prozent und mehr. Das Denken an die KI abzugeben lässt sich also steuern, wie auch unser LLMs-Ratgeber zu Stärken und Grenzen der Modelle zeigt. Wichtig für die Einordnung: Getestet wurde ein Chat-Assistent, kein agentisches Tool wie Claude Code. Bei solchen Tools erwarten die Autoren sogar einen stärkeren Effekt.
Für Entwicklungsleiter wird daraus eine konkrete Aufgabe. Bauen Sie KI-freie Lernphasen für Berufseinsteiger ein und verlangen Sie, dass generierter Code im Review erklärt und nicht nur durchgewunken wird. Lernmodi wie Claude Code Learning oder ChatGPT Study Mode helfen, Verständnis aufzubauen statt nur Ergebnisse zu liefern. Dass Lizenzkosten dabei das kleinste Problem sind, hat sich schon bei der organisationalen Lernfähigkeit gezeigt.
Mehr Newshunger?
