Die KI-Kosten vieler Unternehmen geraten gerade außer Kontrolle, und ein geleakter Audiomitschnitt aus dem Inneren von Accenture zeigt, warum. Nicht die Entwickler mit ihren Codebergen treiben die Rechnung in die Höhe, sondern Sachbearbeiter, die PDFs in Präsentationsfolien umwandeln. Für Entscheider ist das der Moment, in dem KI vom Wachstumsversprechen zur ernsten Kostenposition wird.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

KI-Kosten beginnen selten dort, wo man sie vermutet, nämlich bei den großen, sichtbaren Projekten. Geht es Ihnen auch so, dass die Tools im Haus laufen, aber niemand sagen kann, welcher Klick am Monatsende wie viel gekostet hat? Genau diese blinde Stelle hat einen Namen bekommen: die Tokenpocalypse.

Das Wichtigste in Kürze

  • Nicht die Entwickler: Laut geleaktem Accenture-Mitschnitt treiben nicht-technische Mitarbeiter den Token-Verbrauch, etwa wenn sie PDFs in Folien umwandeln.
  • 6,3-facher Aufwand: Ein Buch kostet als sauberes Markdown rund 73.000 Token, als PDF über ein Vision-Modell aber etwa 460.000, also das 6,3-Fache für denselben Inhalt.
  • Budgets platzen: Uber hat sein komplettes KI-Jahresbudget in vier Monaten aufgebraucht, GitHub hat Copilot auf Token-Abrechnung umgestellt, mit bis zu fünfzigfach höheren Rechnungen.
  • 98 Prozent steuern gegen: Im „State of FinOps 2026“ verwalten 98 % der Befragten inzwischen ihre KI-Ausgaben, nach nur 31 % im Jahr 2024.

Was treibt die KI-Rechnung wirklich nach oben?

Messgerät für Token-Verbrauch in Messingoptik mit zwei handschriftlichen Notizzetteln vor weißem Hintergrund
Tokenbasierte Abrechnung entkoppelt Kosten von Mitarbeiterzahl und bindet sie an Systemaktivität, was durch agentische Systeme mit ihren zahlreichen internen Aktionen verstärkt wird

Der Sprung von der Pauschale zur Abrechnung pro Token hat die Spielregeln verschoben. Solange ein Abo pro Kopf abgerechnet wurde, ist die Rechnung planbar geblieben. Sobald jede Aktion einzeln zählt, koppelt sich der Preis von der Mitarbeiterzahl ab und hängt an der schieren Aktivität.

Dazu kommt die Mechanik agentischer Systeme. Ein einziger Agentenauftrag zerfällt intern in Dutzende bis Hunderte Modellaufrufe, die alle Token kosten. Diese Last überlastet sogar die Infrastruktur, weshalb AWS seine Cloud für KI-Agenten umbaut und Microsoft seine internen Claude-Code-Lizenzen wegen ausufernder Kosten gestoppt hat. Bei 435 bis 1.740 Euro pro Entwickler und Monat ist für viele die Schmerzgrenze erreicht.

Warum sind ausgerechnet PDFs die größten Tokenfresser?

Eine Waage wiegt Papier; Schild warnt vor Wortgewicht und zeigt Token pro Seite
Über ein Vision-Modell verschlingt eine einzige PDF-Seite rund 1.500 Token, lange bevor der erste Satz formuliert ist.

Das klingt nach einer Lappalie, ist aber der teuerste Posten. Wandelt ein Werkzeug ein PDF um, wird jede Seite zuerst als Bild gerendert und durch ein Vision-Modell geschickt. Jede Seite kostet so rund 1.500 Token, unabhängig davon, wie viel Text wirklich darauf steht.

Die Ironie dabei: Eigentlich soll die Umwandlung in Markdown Token sparen. Läuft das über Seitenbilder statt über sauberen Text, kehrt sich der Effekt um. Ein ganzes Dokument verschlingt schnell das Sechsfache, und der Sachbearbeiter sieht von alldem nichts, weil vor ihm kein Zähler läuft.

Ein Muster, das die Cloud längst kennt

Keramikspardose als Wolke mit Aufschrift TOKEN, daneben kleine Mausfigur und Korken
Wie schon beim Cloud-Wildwuchs folgt auf den Rausch die Kostendisziplin, diesmal unter dem Namen Tokenomics.

Der Fall Accenture steht nicht allein. Uber hat sein gesamtes KI-Jahresbudget für Claude Code und Cursor in vier Monaten verbrannt und danach ein Limit von rund 1.305 Euro pro Mitarbeiter und Werkzeug festgelegt. GitHub hat die Copilot-Abrechnung zum 1. Juni auf Token umgestellt, was Vielnutzer das Zehn- bis Fünfzigfache kostet. Auch Walmart und ServiceNow haben die Nutzung gedeckelt.

Branchenweit wiederholt sich damit, was die Cloud schon durchlebt hat. Damals ist auf den Wildwuchs die Disziplin der FinOps gefolgt, heute heißt die junge Antwort Tokenomics. Anthropic hat dafür bereits einen Credit-Meter für Agenten eingeführt, und die Linux Foundation gründet eine eigene Tokenomics-Stiftung. Im Frühjahr haben Firmen laut Branchenerhebung das Dreifache ihres Token-Budgets verbraucht.

Die Tokenpocalypse ist keine Strafe für zu viel KI, sondern die Quittung für KI ohne Kostenstelle. Sie klären Budget, Modellwahl und Zuordnung besser vor dem Rollout als nach der ersten Rechnung.“
Markus Seyfferth, Chefredakteur Dr. Web

— Markus Seyfferth, Chefredakteur Dr. Web

Was Entscheider im DACH-Raum jetzt tun

Ein Messingventil mit Schild „TOKEN-BUDGET“ und daneben eine Farbskala von rot nach grün
Budget, Modellwahl und Zuordnung gehören vor den unternehmensweiten Rollout, nicht hinter die erste Rechnung.

Der erste Schritt führt zum eigenen Abrechnungsmodell. Klären Sie, ob Ihre Tools pauschal oder pro Token abgerechnet werden, und setzen Sie bei Token-Abrechnung feste Budgets samt Warnschwellen pro Team, bevor Sie KI unternehmensweit ausrollen. Parallel dazu laufen triviale Aufgaben wie die PDF-Umwandlung besser über kleinere, günstigere Modelle oder klassische Werkzeuge ohne KI, ergänzt um Caching für wiederkehrende Abläufe. Wie weit sich allein Claude Code über versteckte Schalter drosseln lässt, zeigt TokenBlast.

Der zweite Hebel ist die Zuordnung. Solange niemand die Token-Ausgaben den tatsächlichen Wertbeiträgen zurechnet, zahlt das Unternehmen blind, und genau hier setzen FinOps für KI an. Dazu kommt der Datenschutz: Personendaten in PDFs durch US-Modelle zu schicken, verlangt einen Auftragsverarbeitungsvertrag und einen Blick auf den Drittlandtransfer. Prüfen Sie Abrechnung, Zuordnung und Datenschutz jetzt, dann bleibt die nächste KI-Rechnung ohne böse Überraschung. Die Grundlagen bündelt unser LLM-Ratgeber.

Mehr Newshunger?

4,1 16 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?