Winken Sie KI-Befehle blind durch? Ein Spiel verrät es

Markus Seyfferth
Autor Dr. Web
3 Min. Lesezeit
Winken Sie KI-Befehle blind durch? Ein Spiel verrät es

Ein 60-Sekunden-Spiel stellt eine simple Frage: Wie genau lesen Sie eigentlich die Befehle, die Ihr KI-Coding-Agent ausführen will? Anthropics eigene Telemetrie liefert dazu eine ernüchternde Vorab-Antwort.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Permission Fatigue beschreibt den Reflex, mit dem Entwickler die Genehmigungsdialoge ihres KI-Agenten wegklicken, ohne sie zu lesen. Das Browser-Spiel „Continue? Y/N“ macht aus diesem Reflex einen messbaren Selbsttest und mischt harmlose Kommandos mit handfest zerstörerischen.

Das Wichtigste in Kürze

  • „Continue? Y/N“ prüft in unter einer Minute, wie sorgfältig Sie KI-Befehle vor der Freigabe lesen.
  • Anthropic registrierte in eigener Telemetrie eine Zustimmungsrate von rund 93 Prozent bei Permission-Prompts.
  • Je mehr Abfragen erscheinen, desto weniger Aufmerksamkeit bekommt laut Anthropic die einzelne.
  • Sandbox und klassifikatorgestützte Freigabe gelten als Gegenmittel, sobald die menschliche Kontrolle ermüdet.

Was macht „Continue? Y/N“ mit Ihnen?

Ein Holzstempel und ein oranger Stempelabdruck „GENEHMIGT“ auf weißem Papier
Spieler entscheiden unter Zeitdruck über Terminal-Befehle und müssen gefährliche Kommandos wie Löschbefehle von harmlosen unterscheiden

Im Spiel sitzen Sie auf dem Stuhl der menschlichen Kontrollinstanz. Ein Terminal im Stil von Claude Code feuert Befehl um Befehl, und Sie entscheiden unter Zeitdruck mit Y oder N. Zwischen lauter Routine taucht dann ein Kommando wie rm -rf ~/ auf, das im Ernstfall das komplette Heimatverzeichnis löscht. Bestätigen Sie blind, rutscht der Angriff durch; lehnen Sie pauschal alles ab, kassieren Sie eine Overblock-Warnung. Am Ende steht Ihre persönliche Fatigue-Bewertung. Den Selbsttest bietet das Studio Scale X kostenlos unter llmgame.scalex.dev an.

Warum trifft das Spiel einen wunden Punkt?

Holzstempel mit Sonnenbrille und Text: ALLE KI-BEFEHLE BLIND DURCHWINKEN, inklusive Stempelabdruck
Nutzer genehmigen 93% aller Berechtigungsabfragen, prüfen bei häufigen Dialogen nur oberflächlich. Dies ermöglicht Agenten, über manipulierte Repositories bösartige Anweisungen einzuschleusen

Anthropic hat in der eigenen Auswertung festgehalten, dass Nutzer rund 93 Prozent aller Berechtigungsabfragen genehmigen. Je häufiger der Dialog erscheint, desto flüchtiger fällt die Prüfung aus, bis die Aufsicht zur reinen Formsache verkommt. Genau dort wird die Lage brenzlig, denn ein Agent kann über manipulierte Repositories oder angebundene MCP-Server bösartige Anweisungen einschleusen. Dass KI-Agenten Schwachstellen inzwischen selbst finden und ausnutzen, belegte eine von Anthropic begleitete Studie, und der Bericht zu Claude Mythos zeigt das Tempo dieser Entwicklung. Welche Stärken und Grenzen die Modelle dabei haben, ordnet unser LLM-Ratgeber ein.

Das eigentliche Sicherheitsleck sitzt nicht im Modell, sondern in der Hand, die nach dem zwanzigsten Dialog nur noch auf Enter tippt. Ein Spiel, das diese Müdigkeit messbar macht, taugt mehr als jede weitere Warn-E-Mail an die Belegschaft.

— Michael Dobler, Herausgeber Dr. Web

Was heißt das für Ihre Agenten-Strategie?

Stempel mit Holzgriff und schlafender Katze oben, Sockel trägt Text „KI-BEFEHL BLIND GENEHMIGT“
KI-Agenten benötigen mehrschichtige Sicherung: Sandboxen, harte Deny-Regeln und menschliche Freigabe schützen vor gefährlichen Befehlen wie rm -rf

Für Teams mit produktivem KI-Einsatz folgt daraus eine klare Konsequenz: Die menschliche Freigabe allein trägt nicht als Schutzwall. Eine Sandbox im isolierten Container hält den Agenten vom Host-System fern. Ergänzend blockieren harte Deny-Regeln Befehle wie rm -rf selbst dann, wenn der Genehmigungsmodus großzügig eingestellt ist. Anthropic rüstet seine Werkzeuge in diese Richtung nach, wie die Sicherheits-Hooks auf der Code-w-Claude-Konferenz 2026 zeigten. Die laufenden Kosten solcher Agenten geraten dabei leicht aus dem Blick, wie die Token-Krise im Mittelstand belegt. Der Selbsttest kostet eine Minute. Ein gelöschtes Produktiv-Backup richtet ungleich größeren Schaden an.

Mehr #Anthropic News

Mehr Newshunger?

Oranger Button mit Schlafmaske und Aufschrift
KI-Agenten knacken Software für 4,6 Millionen Dollar und treiben Token-Kosten in die Höhe
4,2 21 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Markus Seyfferth
Autor
ist seit 2019 geschäftsführender Gesellschafter von Dr. Web. Er verantwortet die redaktionelle Ausrichtung des Dr. Web Magazins und bringt seine Expertise in den Bereichen Webdesign, Webentwicklung, WordPress, SEO sowie Online Marketing ein. Zudem verfasst er regelmäßig Fachartikel, um sein Wissen und seine Erfahrungen zu teilen und anderen im Online Marketing weiterzuhelfen.
762 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo