Code als Bild: So senkt ein Entwickler die KI-Kosten um 60 %

Markus Seyfferth

Autor Dr. Web

4. Juli 2026

5 Min. Lesezeit

KI-Kosten senken, ohne die Modellqualität zu opfern: Genau das verspricht ein neues Open-Source-Werkzeug, das Programmcode nicht mehr als Text, sondern als Bild an ein KI-Modell übergibt. Der Entwickler beziffert die Ersparnis auf rund 60 Prozent pro Anfrage. Für Entscheider, die KI-Werkzeuge im Team ausrollen, ist das ein Hebel direkt an der Abrechnung.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Hinter dem Werkzeug namens pxpipe steht die Idee, teure Text-Token durch günstigere Bild-Token zu ersetzen. In einem dokumentierten Beispiel sank die Rechnung einer Arbeitssitzung von 42,21 auf 6,06 US-Dollar, also von rund 37 auf etwa 5 Euro. Die Technik richtet sich an alle, die große KI-Kontexte bezahlen.

Das Wichtigste in Kürze

pxpipe rendert Systemprompt, Werkzeug-Dokumentation und alten Verlauf als PNG-Bild und lässt das Modell den Inhalt per Texterkennung auslesen.
Laut Entwickler sinken die Anfragekosten im Test SWE-bench Pro um rund 60 Prozent, weil Bild-Token an die Pixelmaße gebunden sind, nicht an die Textmenge.
Das Verfahren ist verlustbehaftet: Exakte Werte wie Kennungen, Hashes oder Geheimnisse müssen als Text erhalten bleiben, sonst drohen stille Lesefehler.
Als Modell dient Claude Fable 5, das dichten Bildinhalt in Tests sehr genau erkennt.

Wie kann ein Bild billiger sein als der gleiche Text?

Streifen mit Programmcode, Käfer-Figur und Notiz „-60%“ auf weißem Grund — Bilder kosten gleich viele Token unabhängig vom Textinhalt, nur abhängig von Pixelmaßen. Ein Bild-Token transportiert etwa 3,1 Zeichen, ein Text-Token nur eines

Ein Bild kostet immer gleich viele Token, egal wie viel Text darin steckt. Der Preis hängt allein an den Pixelmaßen. Ein dicht gepacktes Bild transportiert deshalb weit mehr Zeichen pro Token als dieselbe Passage als reiner Text.

Ein Text-Token deckt bei Programmcode grob ein Zeichen ab. Rendert pxpipe denselben Code als Bild, erreicht ein Bild-Token nach Angaben des Entwicklers rund 3,1 Zeichen. Ein Bild mit 1928 mal 1928 Pixeln fasst etwa 92.000 Zeichen und kostet dabei nur rund 4761 Bild-Token. Die Rechnung wird also nicht am Textumfang bemessen, sondern an der Fläche.

Das Werkzeug schaltet sich als Vermittler zwischen Anwendung und Modell und schreibt jede Anfrage um. Nur die jüngsten Gesprächsrunden bleiben als Text erhalten, alles Ältere wandert ins Bild. Diese Trennung zwischen frischem Text und altem Ballast steht und fällt mit einer klaren Grenze, denn genau dort liegt der Nutzen.

Wo hat das Verfahren seine Grenzen?

Die Bildkomprimierung ist verlustbehaftet und arbeitet auf der Ebene des Sinns, nicht des einzelnen Zeichens. Exakte Werte wie Kennungen, Hashes oder Zahlen können falsch erkannt werden, ohne dass eine Fehlermeldung erscheint.

Code als Bild: Was die Umstellung bringt

Kennzahlen zum Open-Source-Werkzeug pxpipe laut Entwicklerangaben

rund 60 %

weniger Anfragekosten im Test SWE-bench Pro

37 → 5 €

Beispiel-Sitzung: von 42,21 auf 6,06 US-Dollar

92.000

Zeichen passen in ein Bild von 1928 × 1928 Pixeln

Zeichen pro Token: Text gegen Bild

Text-Token

1,0

Bild-Token

3,1

Der Entwickler benennt diesen Punkt offen. In einem Test erkannte das Modell aus einem Bild eine Person mit dem falschen Namen und gab die Auskunft dennoch mit voller Überzeugung. Solche Konfabulationen sind gefährlicher als ein sichtbarer Fehler, weil niemand nachprüft, was scheinbar stimmt. Byte-genaue Angaben gehören deshalb weiterhin in den Textkanal.

Damit reiht sich pxpipe in ein wachsendes Muster ein, das man Token-Ökonomie-Hacks nennen kann. Auch Dr. Web hat bereits einen verwandten Fall beschrieben, in dem Unternehmen ihre KI zu einer verknappten Höhlenmenschen-Sprache zwingen, um Token zu sparen. Der Unterschied ist grundlegend: Dort wird der Text gekürzt, hier bleibt er vollständig und wechselt nur den Kanal vom Text ins Bild. Als Modell nutzt pxpipe standardmäßig Claude Fable 5, das in den Auswertungen dichten Bildinhalt am zuverlässigsten las.

Was bedeutet das für die Kostenkontrolle im Mittelstand?

Der Fall zeigt, dass sich KI-Ausgaben durch technische Kniffe deutlich drücken lassen. Für Firmen im DACH-Raum liegt die Aufgabe darin, solche Ersparnisse zu heben, ohne die Verlässlichkeit der Ergebnisse aufs Spiel zu setzen.

Steigende Token-Rechnungen sind längst ein Thema in den Führungsetagen. Manche Konzerne reagieren bereits mit harten Grenzen, wie der Bericht zeigt, warum Adobe, Citi und Amazon ihren Mitarbeitern die KI kappen. Ein Werkzeug wie pxpipe weist in die andere Richtung: Statt Nutzung zu verbieten, macht es dieselbe Arbeit günstiger. Ob sich der Aufwand lohnt, hängt von der Größe der Kontexte ab, die ein Team täglich an die Modelle schickt.

Wer heute KI-Werkzeuge ausrollt, sollte die Token-Rechnung prüfen wie eine Telefonrechnung.
— Michael Dobler, Herausgeber Dr. Web

Für die Praxis ergeben sich klare To-dos. Prüfen Sie zuerst, ob Ihr Modell überhaupt multimodal arbeitet, denn nur dann greift die Technik. Trennen Sie sensible Daten sauber ab und halten Sie Kennungen, Beträge und Vertragsnummern strikt im Textkanal, damit keine stillen Lesefehler entstehen. Behalten Sie zudem die Haftungsfrage im Blick: Verlässt sich ein Team auf eine falsch erkannte Zahl, trägt am Ende Ihr Haus das Risiko, nicht das Werkzeug.

Auch die breitere Debatte um Produktivität gehört dazu, denn Kosten sind nur eine Seite. Eine Studie, nach der Entwickler mit KI langsamer werden, mahnt zur nüchternen Messung des echten Nutzens. Ebenso zeigt der Blick auf Werkzeuge wie Kimi K2.7 Code in GitHub Copilot, dass der Markt an vielen Stellen zugleich an Leistung und Preis schraubt.