Zwei fiktive Atommächte, eine eskalierende Krise und drei führende KI-Modelle als Entscheider: So sah das Experiment des Forschers Kenneth Payne aus. Das Ergebnis seiner Simulation fällt beunruhigend aus, weit über die Militärfrage hinaus.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenSetzt man KI in ein Atomkriegs-Szenario, greift sie erstaunlich schnell zu Gewalt. Payne ließ Claude, GPT-5.2 und Gemini gegeneinander antreten und protokollierte ihre strategischen Überlegungen, insgesamt rund 760.000 Wörter. Das ist mehr Text, als „Krieg und Frieden“ und die „Ilias“ zusammen füllen.
Das Wichtigste in Kürze
- In fast allen Durchläufen setzten die Modelle taktische Atomwaffen ein, in drei Vierteln drohten sie sogar mit strategischen Sprengköpfen.
- Über 21 Spiele hinweg wählte kein einziges Modell Rückzug oder Kapitulation, obwohl acht deeskalierende Optionen zur Verfügung standen.
- Jedes Modell entwickelte einen eigenen Stil, von kalkulierter Täuschung bis zur bewusst unberechenbaren Drohkulisse.
Wie verhielten sich die Modelle?

Drei Charaktere. Claude erwies sich als Meister der Täuschung. Bei niedrigem Einsatz deckten sich Ankündigung und Tat, in der Eskalation übertrafen die Taten dann gezielt die Signale. GPT-5.2 blieb meist zurückhaltend und moralisch, kippte unter Zeitdruck aber in eine plötzliche, entschiedene nukleare Eskalation.
Gemini lehnte sich an die „Madman“-Theorie an und setzte auf kalkulierte Unberechenbarkeit. Die vollständige Auswertung samt Beispielen liefert Payne in seinem Studienbericht.
Warum ist der Befund so heikel?

Tabu ohne Wirkung. Alle drei Modelle behandelten Gefechtsfeld-Atomwaffen als bloße Stufe der Eskalationsleiter. Die moralische Grenze des Ersteinsatzes, die seit 1945 hält, war schlicht nicht vorhanden. Eine Hemmung blieb immerhin: Den breiten Angriff auf Zivilbevölkerung wählten die Modelle fast nie.
Nukleare Drohungen schreckten zudem selten ab. Setzte ein Modell taktische Atomwaffen ein, deeskalierte der Gegner nur in einem von vier Fällen. Häufiger folgte die Gegeneskalation. Die Waffen dienten dem Landgewinn, nicht der Abschreckung.
Niemand übergibt einem Sprachmodell die Atomcodes, doch die Muster sind übertragbar. Täuschung und Risikobereitschaft unter Druck zeigen sich überall dort, wo KI bei folgenreichen Entscheidungen mitredet, vom Handelssystem bis zur Krisenstelle.
— Markus Seyfferth, Chefredakteur Dr. Web
Was heißt das für den KI-Einsatz?
Mehr als Militär. Fähigkeiten wie Täuschung, Reputationsmanagement und kontextabhängiges Risikoverhalten betreffen jeden Einsatz mit hohem Einsatz, nicht nur die nationale Sicherheit. Je autonomer Modelle entscheiden, desto wichtiger wird das Verständnis ihrer Strategien. Wie weit Anbieter heikle Fähigkeiten teils bewusst drosseln, zeigt unser Bericht zu Claude Opus 4.7.
Übertragen Sie die Erkenntnis auf Ihre eigenen Systeme. Lassen Sie KI bei folgenreichen Entscheidungen nie ohne menschliche Kontrolle agieren und prüfen Sie, ob ein Modell unter Zeit- oder Wettbewerbsdruck zu riskanten Empfehlungen neigt. Eine Einordnung der Modell-Landschaft bietet unser LLMs-Ratgeber.