Je besser die KI hilft, desto schlechter debuggen Sie

Michael Dobler
Autor Dr. Web
3 Min. Lesezeit
Je besser die KI hilft, desto schlechter debuggen Sie

Entwickler, die beim Lernen auf KI setzen, verstehen ihren eigenen Code messbar schlechter. Eine Anthropic-Studie zeigt den Effekt genau dort, wo später die Aufsicht über KI-Code gebraucht wird, nämlich beim Debugging. Für Teamleiter wird das zur strategischen Frage.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Beim KI-Coding greift eine alte Regel aus der Luftfahrt nun auch für Entwicklerteams: Verlässt sich der Mensch zu sehr auf die Automatik, verkümmert die Fähigkeit, im Ernstfall selbst einzugreifen. Eine neue Studie von Anthropic liefert dafür erstmals belastbare Zahlen aus einem kontrollierten Experiment.

Das Wichtigste in Kürze

  • Die KI-Gruppe verstand den frisch geschriebenen Code 17 Prozentpunkte schlechter als die Handarbeit-Gruppe
  • Den größten Rückstand gab es ausgerechnet beim Debugging, der Schlüsselkompetenz zur Kontrolle von KI-Code
  • Ein Tempovorteil durch die KI ließ sich statistisch nicht nachweisen
  • Wie jemand die KI nutzt, entschied über das Ergebnis stärker als das Werkzeug selbst

Was hat Anthropic genau gemessen?

Schwarzes Rennrad mit Stützrädern vor weißem Hintergrund
Studie mit 52 Entwicklern: Mit KI-Assistenz erreichten Programmierer 50 Prozent bei Debugging-Quiz, Handarbeit-Gruppe erzielte niedrigeres Ergebnis

Für die Studie How AI Impacts Skill Formation bat das Forschungsteam 52 überwiegend jüngere Entwickler an eine ihnen unbekannte Python-Bibliothek namens Trio. Die eine Hälfte durfte einen KI-Assistenten nutzen, die andere arbeitete von Hand. Im Anschluss folgte ein Quiz zu Debugging und Code-Verständnis. Die KI-Gruppe kam auf 50 Prozent, die Handarbeit-Gruppe auf 67 Prozent. Das entspricht fast zwei Notenstufen.

Warum trifft der Verlust ausgerechnet das Debugging?

Blauer Glaswürfel mit orangefarbenem Kern und Badeente, die eine Lupe hält
Menschen ohne Debugging-Erfahrung können KI-generierten Code nicht effektiv überprüfen. Das Üben mit eigenen Fehlern schärft die Fehlerdiagnose

Die Lücke beim Debugging wiegt schwer, weil genau diese Fähigkeit zählt, sobald eine KI den Code schreibt und der Mensch ihn prüfen soll. Ohne den Blick für Fehler in fremdem Code lässt sich KI-Output nicht mehr sinnvoll kontrollieren. Die Kontrollgruppe stolperte beim Üben über mehr eigene Fehler und schärfte daran offenbar genau die Diagnose, die der KI-Gruppe später fehlte. Ähnliche Muster zeigte schon der AI Fluency Index von Anthropic: Je polierter ein Ergebnis aussah, desto seltener wurde es geprüft.

Ein Werkzeug, das fast immer funktioniert, erzieht Teams zur Unaufmerksamkeit. Genau dann, wenn der Code einmal kippt, fehlt die Übung, das auch zu sehen.

— Markus Seyfferth, Chefredakteur Dr. Web

Macht die Art der Nutzung den Unterschied?

Stoppuhr mit einer Hand, die auf den Startknopf drückt, und einem leuchtenden Pfeil auf dem Zifferblatt
Teilnehmer, die KI nur für Verständnisfragen nutzten und selbst weitercoodierten, erreichten über 65 Prozent. Vollständiges Delegieren führte zu unter 40 Prozent

Auffällig ist, dass nicht jede KI-Nutzung gleich schlecht abschnitt. Teilnehmer, die den Code komplett delegierten oder die KI nur zum Reparieren nutzten, landeten unter 40 Prozent. Deutlich besser schnitten Teilnehmer ab, die die KI für Verständnisfragen einsetzten und selbst weitercodeten, mit 65 Prozent und mehr. Das Denken an die KI abzugeben lässt sich also steuern, wie auch unser LLMs-Ratgeber zu Stärken und Grenzen der Modelle zeigt. Wichtig für die Einordnung: Getestet wurde ein Chat-Assistent, kein agentisches Tool wie Claude Code. Bei solchen Tools erwarten die Autoren sogar einen stärkeren Effekt.

Für Entwicklungsleiter wird daraus eine konkrete Aufgabe. Bauen Sie KI-freie Lernphasen für Berufseinsteiger ein und verlangen Sie, dass generierter Code im Review erklärt und nicht nur durchgewunken wird. Lernmodi wie Claude Code Learning oder ChatGPT Study Mode helfen, Verständnis aufzubauen statt nur Ergebnisse zu liefern. Dass Lizenzkosten dabei das kleinste Problem sind, hat sich schon bei der organisationalen Lernfähigkeit gezeigt.

Mehr Newshunger?

Beiger Hörer mit Aufschrift KI-HILFE, Quietscheente im Mikrofoteil und orangem USB-Kabel
Anthropic-Studie belegt: Kognitive Leistung sinkt nach 10 Minuten KI-Nutzung. Unternehmens-Lizenzen ersetzen nicht das notwendige Lernen
4,3 10 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Michael Dobler
Autor
Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.
849 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo