Sicherheitsforscher von Mindgard bringen ChatGPTs Bildgenerator dazu, gesperrte Gewaltdarstellungen zu erzeugen, ohne ein einziges verbotenes Wort im Prompt. Der Fall zeigt, wie brüchig die Schutzfilter generativer KI sind.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

ChatGPTs Bildgenerator lässt sich mit harmlos klingenden Anweisungen zu gesperrten Inhalten verleiten. Kommt Ihnen das aus der Debatte um KI-Sicherheit bekannt vor? Der neue Fall legt die eigentliche Schwachstelle offen.

Das Wichtigste in Kürze

  • Mindgard erzeugte über ein manipuliertes Erinnerungs-Feature und vage Prompts gesperrte gewalttätige und sexuelle Bilder.
  • Die Filter prüfen einzelne Reizwörter, nicht die Absicht hinter der Anweisung.
  • Ein Anbieter-Fix vom Juni 2026 ließ sich mit leichten Prompt-Varianten weiter umgehen.

Warum versagen die Schutzfilter?

Die Filter sitzen an der falschen Stelle. Der Eingabefilter sucht nach Reizwörtern, ein harmloser Prompt enthält keine. Der Ausgabefilter lässt sich über eine nachträgliche Stil-Anfrage aushebeln, und gespeicherte Erinnerungen behandelt das Modell als eigenen, weniger streng geprüften Text.

Klassifikator statt Verbot. Schutzschranken sind ein statistischer Aufsatz, kein deterministisches Verbot. Wer die Eingabe unverdächtig formuliert oder das Modell sich selbst instruieren lässt, umgeht sie. Mindgards Forscher beobachteten, dass das Modell bei offenem Spielraum den drastischsten Weg wählte.

Fix nur an der Oberfläche. OpenAI meldete im Juni 2026 eine Korrektur, doch leicht abgewandelte Prompts funktionierten weiter. Content-Moderation bei generativer KI bleibt damit ein Katz-und-Maus-Spiel, bei dem jeder Patch das nächste Umgehungsmuster erzeugt.

„Dass jemand ohne Backend-Zugriff, ohne besondere Rechte und ohne eigene Schnittstellen einem Modell wie ChatGPT solche Darstellungen entlocken kann, zeigt, wie brüchig die Kette zwischen Chatbot, Bildgenerator und Filtern ist“, sagt Jim Nightingale von Mindgard.

Was Unternehmen jetzt beachten müssen

Wasser läuft durch ein Sieb mit dem Etikett „Schutzfilter“ in eine Schale
Die Schutzfilter lassen durch, was unverfänglich formuliert ist, wie ein Sieb das Wasser.

Wer generative Bild-KI einsetzt, haftet selbst für die Ergebnisse, auch wenn der Anbieter den Filter stellt. Ab August 2026 verlangt der EU AI Act, KI-Bilder und Deepfakes zu kennzeichnen, mit Bußgeldern bis 15 Millionen Euro oder 3 Prozent des Jahresumsatzes.

Kein Einzelfall. Beim Bildgenerator Grok eskalierte der Missbrauch zuletzt massiv, mit Sammelklagen und einem Gerichtsurteil in den Niederlanden. Der universelle Jailbreak „Policy Puppetry“ zeigte zudem, dass sich getarnte Anweisungen modellübergreifend einschleusen lassen.

Eigene Schutzschicht. Verlassen Sie sich nicht allein auf die Anbieterfilter, sondern moderieren Sie die Ausgabe zusätzlich selbst. Deaktivieren Sie Erinnerungs-Funktionen in Unternehmens-Einsätzen, etablieren Sie einen Kennzeichnungs-Prozess und eine menschliche Freigabe vor jeder Veröffentlichung. Wie KI-Modelle grundsätzlich arbeiten, erklärt unser LLMs-Ratgeber.

Anbieterfilter sind ein Versprechen, keine Garantie. Unternehmen brauchen eine eigene Freigabe vor jeder Veröffentlichung, sonst tragen sie das Reputations- und Haftungsrisiko allein.

— Markus Seyfferth, Chefredakteur Dr. Web

Der Fall ist eine nüchterne Erinnerung. Generative Bild-KI gehört in geregelte Bahnen, mit klarer Nutzungsrichtlinie und einem Test der Schutzschranken schon bei der Beschaffung.

Mehr Newshunger?

4,2 21 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?