Übertrifft GPT-5.4 den Menschen am Desktop? Definitiv.
23. März 2026 9. April 2026
Reading Time: 5 minutes

Übertrifft GPT-5.4 den Menschen am Desktop?

Markus Seyfferth

Markus Seyfferth

Autor Dr. Web
4.6
(18)

OpenAI hat mit GPT-5.4 das erste allgemeine KI-Modell vorgestellt, das Menschen bei echten Desktop-Aufgaben schlägt. Mit einem Kontextfenster von einer Million Tokens verschiebt sich die Grenze zwischen Chatbot und digitalem Mitarbeiter.

GPT-5.4 markiert einen Wendepunkt in der Geschichte generativer KI. Stellen Sie sich vor, eine Software öffnet eigenständig Anwendungen, navigiert durch Menüs, füllt Formulare aus und erstellt Präsentationen, ohne dass Sie jeden Schritt diktieren müssen. Genau das kann OpenAIs neues Flaggschiff-Modell seit dem 5. März 2026.

Das Wichtigste in Kürze

  • GPT-5.4 erreicht 75 % auf dem OSWorld-Benchmark und übertrifft damit die menschliche Baseline von 72,4 %
  • Das Modell steuert Desktop-Anwendungen nativ über Screenshots, Maus und Tastatur
  • Ein Kontextfenster von einer Million Tokens erlaubt die Verarbeitung ganzer Codebasen oder Projektdokumentationen in einem Durchlauf
  • Auf dem GDPval-Benchmark erreicht oder übertrifft GPT-5.4 die Leistung von Fachleuten in 83 % der getesteten Berufsbilder

Was kann GPT-5.4 konkret?

Hellblaue Computermaus mit passendem Kabel und kleinem, goldenem Roboteranhänger auf weißem Grund

Der OSWorld-Benchmark simuliert echte Desktop-Arbeit: Dateien suchen, Tabellen bearbeiten, E-Mails versenden, Formulare ausfüllen. GPT-5.4 löst diese Aufgaben mit einer Erfolgsquote von 75 %, während menschliche Testpersonen bei 72,4 % liegen. Der Vorgänger GPT-5.2 kam auf magere 47,3 %. Der Sprung von 27,7 Prozentpunkten in einer einzigen Modellgeneration ist bemerkenswert.

OpenAI beschreibt GPT-5.4 als sein leistungsfähigstes Modell für professionelle Arbeit. Auf einem internen Benchmark für Tabellenkalkulation, wie ihn ein Junior-Analyst im Investment Banking bearbeiten würde, erreicht GPT-5.4 rund 87 % gegenüber 68 % beim Vorgänger. Menschliche Tester bevorzugten die Präsentationen von GPT-5.4 in 68 % der Fälle gegenüber denen des Vorgängers.

Paradigmenwechsel oder Benchmark-Marketing?

Hölzerne Schachfigur, die wie ein Bürostuhl auf einem Rollenuntergestell montiert ist
OpenAI: GPT-5.4 übertrifft Menschen bei Desktop-Aufgaben, wird mit 1 Mio. Tokens Kontextfenster zum digitalen Mitarbeiter

Die Zahlen klingen beeindruckend, verdienen aber Einordnung. OSWorld testet isolierte Aufgaben in kontrollierten Umgebungen. Ob GPT-5.4 auch in der Praxis zuverlässig zwischen Slack, CRM und Tabellenkalkulation wechselt, muss sich erst zeigen. OpenAI selbst räumt ein, dass einzelne Behauptungen des Modells 33 % seltener falsch sind als beim Vorgänger. Das bedeutet im Umkehrschluss: Fehler passieren weiterhin.

„Wer KI heute noch als besseren Chatbot betrachtet, unterschätzt die Dynamik. GPT-5.4 zeigt, wohin die Reise geht: vom Textgenerator zum digitalen Mitarbeiter, der Aufgaben eigenständig erledigt. Für Entscheider heißt das, Workflows jetzt auf den Prüfstand zu stellen.“ — Markus Seyfferth, Chefredakteur Dr. Web

GPT-5.4 vs. Mensch: Der OSWorld-Benchmark
Erfolgsquote bei echten Desktop-Aufgaben (in Prozent)
GPT-5.2 Vorgänger
47,3 %
Mensch Baseline
72,4 %
GPT-5.4 Neu
75,0 %
83 %
GDPval: Leistung auf Fachkraft-Niveau in 83 % der Berufsbilder
-33 %
Weniger falsche Einzelaussagen als beim Vorgänger GPT-5.2
1 Mio.
Tokens Kontextfenster für ganze Projekte in einem Durchlauf

Was kostet das Ganze?

Weißes Sparschwein mit Geldscheinen und Euro-Münze im Schlitz vor weißem Hintergrund

GPT-5.4 ist über die API ab rund 2,30 € pro Million Eingabe-Tokens verfügbar, die Ausgabe liegt bei etwa 13,80 € pro Million Tokens. Die Pro-Variante für maximale Leistung schlägt mit rund 27,60 € bzw. 165,60 € zu Buche. Eingaben über 272.000 Tokens werden zum doppelten Preis berechnet. Zum Vergleich: Googles Gemini 3.1 Pro bietet ein Kontextfenster von zwei Millionen Tokens zu einem niedrigeren Basispreis.

Sam Altman bezeichnete GPT-5.4 als sein Lieblingsmodell. Drei Schwächen räumt OpenAI offen ein: Designgeschmack, Kontextverständnis in der realen Welt und die zuverlässige Fertigstellung komplexer Aufgaben bleiben verbesserungswürdig. Für Unternehmen, die KI-gestützte Workflow-Automatisierung evaluieren, lohnt sich ein genauer Blick auf die tatsächliche Praxis-Performance jenseits der Benchmark-Zahlen.

Mehr #OpenAI News

Hunger!

Quellen

OpenAI – Introducing GPT-5.4 – openai.com/index/introducing-gpt-5-4/ – besucht am 23.03.2026

Fortune – OpenAI launches GPT-5.4, its most powerful model for enterprise work – fortune.com/2026/03/05/openai-new-model-gpt5-4-enterprise-agentic-anthropic/ – besucht am 23.03.2026

DataCamp – GPT-5.4: Native Computer Use, 1M Context Window, Tool Search – datacamp.com/blog/gpt-5-4 – besucht am 23.03.2026

The Next Web – OpenAI’s GPT-5.4 sets new records on professional benchmarks – thenextweb.com/news/openai-gpt-54-launch-computer-use-benchmarks – besucht am 23.03.2026

Jetzt mit Freunden & Kollegen teilen
,

Wie hilfreich fanden Sie diese Seite? Schreiben Sie Kritik und Anregungen auch gerne in die Kommentare!

Durchschnittliche Bewertung 4.6 / 5. Anzahl Bewertungen: 18

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

  • Verändert Claude Mythos die Cybersicherheit?

    Verändert Claude Mythos die Cybersicherheit?

    27 Jahre lang überlebte eine Sicherheitslücke in OpenBSD jede menschliche Prüfung. Eine KI brauchte Stunden. Claude Mythos hat innerhalb weniger Wochen tausende bisher unbekannte Sicherheitslücken in allen großen Betriebssystemen und Browsern aufgespürt….

Dr. Web Newsletter

Zum Newsletter anmelden

Kommen Sie wie über 6.000 andere Abonnenten in den Genuss des Dr. Web Newsletters. Als Dankeschön für Ihre Anmeldung erhalten Sie das große Dr. Web Icon-Set: 970 Icons im SVG-Format – kostenlos.

Es kam zu einen Fehler. Wahrscheinlich ist das unsere Schuld. Schreiben Sie uns gerne an kontakt@drweb.de
„✓ Bitte prüfen Sie Ihr Postfach und bestätigen Sie Ihre Anmeldung.“
Das große Dr. Web Icon-Set mit über 970 individuell anpassbaren Icons im SVG Format.