Eine neue Forschungsarbeit erklärt Prompt Injection nicht als cleveren Trick, sondern als Wahrnehmungsfehler im Sprachmodell. Das Modell erkennt die Rolle eines Textes am Schreibstil, nicht an der Sicherheitsgrenze. Für jeden, der KI-Agenten einsetzt, ändert das die Verteidigungsstrategie.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Prompt Injection führt die Liste der größten KI-Sicherheitsrisiken seit Jahren an, und bisher galt sie als Überredungskunst. Waren Sie schon in dieser Situation? Ein Chatbot folgt plötzlich Anweisungen aus einer fremden E-Mail. Eine für ICML 2026 angenommene Arbeit liefert die eigentliche Ursache und nennt sie Rollenverwechslung.

Das Wichtigste in Kürze

  • Kern: LLMs erkennen Rollen wie System, Nutzer oder Werkzeug am Schreibstil, nicht an echten Sicherheitsgrenzen.
  • Beleg: Gefälschte Gedankengänge heben die Trefferquote von Angriffen von nahe null auf rund 60 Prozent.
  • Gegenprobe: Stilistisch entkleidet, fällt dieselbe Quote auf etwa 10 Prozent.
  • Folge: Reine Filter erkennen nur bekannte Angriffe, die echte Trennung muss außerhalb des Modells liegen.

Warum verwechselt das Modell die Rollen?

Zwei Umschläge mit roten „System“-Aufdrucken, Lupe und Schild auf weißem Grund
Sprachmodelle verarbeiten System-Vorgaben, Nutzerangaben und Werkzeugdaten als einen Textstrom und übernehmen die Autorität eingeschleuster Texte, wenn diese wie vertraute Rollen klingen

Ein Sprachmodell verarbeitet System-Vorgaben, Nutzereingaben und Werkzeugdaten als einen einzigen Textstrom. Die Rollen-Markierungen strukturieren ihn nur oberflächlich. Klingt eingeschleuster Text wie eine vertraute Rolle, übernimmt das Modell dessen Autorität.

Die Forscher zeigen das mit sogenannten Rollen-Sonden. Das Modell besitzt kein eigenes Merkmal für „als Anweisung markiert“ gegenüber „klingt wie eine Anweisung“, sondern nur ein einziges. Ein simples vorangestelltes „User:“ vor versteckten Befehlen in Werkzeugdaten genügt deshalb, um die Befolgung deutlich zu erhöhen. Der Stil schlägt die Markierung.

Diese Sicht erklärt reale Vorfälle besser als die alte. Bei EchoLeak, einem Zero-Click-Angriff auf Microsoft 365 Copilot mit dem Schweregrad 9,3, genügte eine präparierte E-Mail zur Datenabfuhr ganz ohne Klick. Ähnlich gelagert ist der KI-Browser von OpenAI, dessen Sicherheitschef Prompt Injection offen als ungelöst bezeichnet. Den Praxistest dazu haben wir im Beitrag zu ChatGPT Atlas aufgearbeitet.

Was sollten Unternehmen jetzt tun?

Holzschachtel mit Riegel, Schild „Nur Lesen“ und zwei Schlüsseln davor
Fremde Inhalte gehören hinter eine harte Grenze.

Verlassen Sie sich nicht auf das Modell, um Daten von Befehlen zu trennen. Behandeln Sie alle fremden Inhalte aus Mails, Web und Werkzeugen als reine Daten, vergeben Sie minimale Rechte und schalten Sie bei folgenreichen Aktionen einen Menschen dazwischen.

Die Trennung gehört in die Architektur, nicht ins Modell. Ein KI-Agent braucht enge Berechtigungen, damit ein gelungener Angriff wenig anrichtet. Sensible Schritte wie Senden, Löschen oder Zahlungen verlangen eine Freigabe. Eine vorgeschaltete Kontrollschicht hilft zusätzlich, wie wir am Beispiel der Firewall für KI-Agenten gezeigt haben. Das BSI führt indirekte Prompt Injection als Kernrisiko, und der EU AI Act verlangt für Hochrisiko-Systeme nachweisbare Robustheit.

Solange ein Sprachmodell Befehl und Beilage im selben Atemzug liest, bleibt jede reine Filterlösung ein Katz-und-Maus-Spiel. Sicherheit entsteht erst, wenn die Grenze außerhalb des Modells gezogen wird.

— Markus Seyfferth, Chefredakteur Dr. Web

Nehmen Sie an, dass Ihre Filter umgangen werden, und bauen Sie mehrere Schutzschichten. Betreiben Sie KI-Agenten mit Schreibrechten, prüfen Sie jede Werkzeug-Berechtigung einzeln und protokollieren Sie jeden Zugriff.

Mehr Newshunger?

4,5 22 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?