Entwickler bei OpenAI, Nvidia und GitHub nutzen ein Plugin namens „caveman“, das Claude, Codex und Gemini auf das sprachliche Minimum zwingt. Kein „Gerne helfe ich Ihnen dabei“, kein „Das ist eine gute Frage“: nur das, was zählt. Ein Senior-Mitarbeiter von OpenAI hat bereits Code beigesteuert. Für DACH-Unternehmen, die LLMs produktiv über die API einsetzen, ist das keine Kuriosität, sondern ein Frühsignal.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Das Wichtigste in Kürze

  • Unternehmen komprimieren LLM-Outputs radikal, um Token-Kosten zu senken.
  • Das Open-Source-Plugin „caveman“ streicht Höflichkeitsphrasen, erhält aber Code, URLs und Fehlermeldungen vollständig.
  • Output-Tokens sind laut Marktdaten zwei- bis zehnmal teurer als Input-Tokens; höflicher Fülltext summiert sich zu dauerhaften Mehrkosten.
  • Laut Bitkom-KI-Studie 2026 berichten 33 Prozent der KI-einsetzenden deutschen Unternehmen, dass KI teurer wurde als erwartet.

Warum höfliche KI so teuer ist

Ein Granit-Mörserstößel liegt horizontal auf weißem Grund, mit einem Rabattetikett
Output-Tokens kosten zwei- bis zehnmal mehr als Input-Tokens. Gesprächige Modelle wie Claude verschwenden teure Tokens durch unnötige Phrasen in Agenten-Loops

LLM-APIs rechnen Input- und Output-Tokens separat ab. Der entscheidende Punkt: Output-Tokens kosten je nach Modell zwei- bis zehnmal mehr als Input-Tokens. Gleichzeitig sind Modelle wie Claude darauf trainiert, gesprächig zu antworten. Phrasen wie „Gerne helfe ich Ihnen dabei“ oder absichernde Einleitungen erzeugen reinen Token-Overhead ohne Informationsgehalt.

Kritisch wird das in Agenten-Loops: Dort sendet jeder der drei bis fünf Modell-Aufrufe pro User-Turn denselben System-Prompt erneut. Höflicher Fülltext in jedem einzelnen Response multipliziert sich zu dauerhaften Mehrkosten auf jeder API-Anfrage. Das Caveman-Plugin geht genau gegen diese „spontaneous verbosity“ vor: Artikel, Absicherungsformulierungen und Konversationsfüller fallen weg, Code-Blöcke, technische Terme, URLs und Fehlermeldungen bleiben vollständig erhalten. Für strukturierte Tasks wie Code-Generierung oder Datenextraktion braucht ein LLM keine natürlichsprachliche Höflichkeit, um korrekte Ergebnisse zu liefern. Wie der LLMs-Ratgeber auf DrWeb zeigt, ist die Modellwahl dabei nur ein Teil der Kostengleichung; die Prompt-Konfiguration ist der andere.

Das Muster ist nicht neu: Microsoft Research hat mit LLMLingua ein algorithmisches Framework veröffentlicht, das Prompts per Perplexity-Scoring auf token-irrelevante Einheiten untersucht und bis zu 20-fache Kompression bei kaum messbarem Qualitätsverlust erreicht. Caveman ist die community-getriebene, pragmatische Variante dieser akademischen Forschungslinie, die seit 2023 unter dem Begriff „Prompt Compression“ läuft.

Tokens sparen wird zur neuen Disziplin, vergleichbar mit der Entstehung der SQL-Query-Optimierung.

— Markus Seyfferth, Chefredakteur Dr. Web

Was DACH-Mittelständler jetzt konkret tun können

Waage mit Papierstapel
Output-Tokens kosten bis zu zehnmal mehr als Input-Tokens: Die Waage zwischen Höflichkeitsphrasen und nützlicher Information kippt schnell.

Caveman ist Teil eines breiteren Kostendruck-Musters: GitHub Copilot Business hat im April 2026 von Flat-Subscription auf per-Token-Billing gewechselt, und Unternehmen wie Walmart haben inzwischen harte Nutzungsobergrenzen eingeführt. Die Bitkom-KI-Studie 2026 zeigt: 33 Prozent der KI-einsetzenden deutschen Unternehmen berichten, dass KI teurer ist als anfangs angenommen. Die versteckten Kosten liegen nicht bei Lizenzen, sondern beim Token-Verbrauch bei intensiver Nutzung; ein Problem, das die Token-Krise im Mittelstand bereits konkret beschreibt.

Drei Maßnahmen sind unmittelbar umsetzbar. Prompt-Audit: Ein 500-Token-System-Prompt, auf 80 Token komprimiert, spart bei Millionen Aufrufen fünf- bis sechsstellige Beträge jährlich. Parallel dazu wirkt die Kombination aus Prompt Caching und Caveman-Mode komplementär: Caveman senkt Output-Tokens, Caching senkt Input-Kosten um bis zu 90 Prozent. Schließlich lohnt sich Modell-Routing: Das Anthropic-Lineup 2026 zeigt einen Preisunterschied von bis zu Faktor 20 zwischen Claude Haiku und Claude Opus; Standardaufgaben gehören auf günstigere Varianten. Dass Anthropic selbst mit dem Credit-Meter für Agenten reagiert hat, zeigt, wie real der Kostendruck auch auf Anbieterseite angekommen ist.

Zur Einordnung für Compliance-Verantwortliche: Die Technik betrifft ausschließlich die Verbosity des Outputs, nicht die Verarbeitung oder Speicherung personenbezogener Daten. DSGVO-Konformität bleibt unberührt. Unter dem EU AI Act (Art. 4, KI-Kompetenzen-Pflicht ab August 2026) zählt systematisches Prompt-Engineering zur dokumentierbaren KI-Literacy-Maßnahme. Wer Token-Budgets pro Workflow definiert und Prompt-Kompression einführt, erfüllt damit gleichzeitig Anforderungen an nachweisbare KI-Kompetenz im Unternehmen. Branchenbeobachter prognostizieren, dass formale „AI Style Guides“ mit Token-Budgets und ein neuer Berufstyp namens „Token Economist“ früher entstehen könnten als bisher angenommen. Wie das Anthropic-Team Claude Code selbst konfiguriert, liefert dafür einen konkreten Ausgangspunkt.

Der LLMs-Ratgeber hilft beim Einstieg in die Modellauswahl. Den ersten Schritt zur Token-Optimierung kostet nichts: System-Prompts im eigenen Produktivsystem auf Verbose-Patterns durchsuchen und alles streichen, was kein Mensch braucht. Das Modell braucht es erst recht nicht.

Mehr Newshunger?

4,4 10 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?