Open-Source KI-Modell GLM schafft 2626 Token pro Sekunde

Open-Source KI-Modell GLM schafft 2626 Token pro Sekunde auf AMD MI355X

Michael Dobler

Autor Dr. Web

4. Juli 2026

4 Min. Lesezeit

AMDs Beschleuniger MI355X erreicht im Modell GLM5.2 laut einem Benchmark des Anbieters wafer.ai 2626 Token pro Sekunde je Node, und das bei nach eigenen Angaben mehr als doppelt so niedrigen Kosten wie Nvidias Blackwell. Für Entscheider in KMU rückt damit eine ernste Alternative in den Blick, sobald KI-Anwendungen im Betrieb dauerhaft Geld kosten.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

2626 Token pro Sekunde je Node bei 2,4 Anfragen pro Sekunde, dazu ein Antwortstart unter fünf Sekunden: Diese Marke meldet wafer.ai für GLM5.2 auf AMD-Hardware. Der Haken steckt in der Herkunft der Zahl, denn sie stammt vom Anbieter selbst und nicht von einer unabhängigen Prüfstelle.

Das Wichtigste in Kürze

2626 Token pro Sekunde je Node meldet wafer.ai für GLM5.2 auf dem AMD MI355X, das entspricht rund 80 % der Leistung eines Nvidia B200.
Der Kostenvorteil kommt vor allem vom Preis pro Chip: Der MI355X sei laut wafer.ai im Schnitt etwa 2,75-mal günstiger als ein Nvidia B300.
Alle Zahlen stammen aus einem Hersteller-Benchmark von wafer.ai, es liegt keine unabhängige Messung vor.
Für KMU zählt die Rechnung pro Token: Wer KI produktiv einsetzt, vergleicht Anbieter und Cloud besser nach Kosten pro Token als nach reiner Spitzenleistung.

Was treibt den Kostenvorteil des AMD MI355X?

Prozessor und Preisschild hängen an Schnur auf weißem Grund. Aufschrift: — AMDs MI355X kostet 2,75-mal weniger als Nvidias B300 und erreicht 80% der B200-Leistung. Das bessere Preis-Leistungs-Verhältnis könnte der entscheidende Vorteil sein

Der Vorsprung entsteht kaum durch mehr Tempo, sondern durch den Preis pro Chip. Der MI355X kostet laut wafer.ai im Schnitt rund 2,75-mal weniger als ein Nvidia B300 und liefert dabei etwa 80 % der Leistung eines B200.

Rechnerisch fällt der Preis pro Chip stärker ins Gewicht als der Leistungsabstand. Landet AMD bei vier Fünfteln des Tempos, kostet aber pro Beschleuniger nur einen Bruchteil, dreht sich die Rechnung pro Token zugunsten von AMD. Genau darauf zielt der Benchmark: bessere Leistung pro Euro.

Der zweite Hebel liegt in der Auslastung. wafer.ai testet mit einem realitätsnahen Profil aus 20.000 Token Eingabe, 1.000 Token Ausgabe und einer Cache-Trefferquote von 60 %. Unter dieser Last hält der MI355X 2626 Token pro Sekunde je Node, mit einem Antwortstart von 0,81 Sekunden im Mittel und 2,22 Sekunden im oberen Bereich. Das Fachportal Dr. Web hat bereits beschrieben, warum KI-Inferenz billiger wird als gedacht, und dieser Benchmark liefert dafür einen konkreten Beleg.

GLM5.2 auf AMD MI355X: die Zahlen im Anbieter-Benchmark

Alle Werte laut Hersteller-Benchmark von wafer.ai, keine unabhängige Messung.

2626

Token pro Sekunde je Node bei 2,4 Anfragen pro Sekunde

2,75×

günstiger pro Chip (MI355X gegen Nvidia B300)

0,81 s

Antwortstart im Mittel, 2,22 s im oberen Bereich

Leistung im Vergleich (relativ zum Nvidia B200)

AMD MI355X

80 %

Nvidia B200

100 %

Warum zählt AMD im Inferenz-Markt als Nvidia-Alternative?

Der eigentliche Vorsprung von Nvidia lag jahrelang in der Software CUDA. Genau diese Hürde schrumpft: wafer.ai brauchte keine eigenen Kernel mehr, sondern nur Feinjustierung an vorhandenen Bausteinen.

Die Software war lange das stärkere Argument für Nvidia, nicht allein die Hardware. wafer.ai formuliert es deutlich: „Spitzenleistung auf AMD wird mehr zur Frage der Unterstützung als der Software. Der CUDA-Burggraben trocknet in Echtzeit aus.“ Für die Feinjustierung genügten Quantisierung, Korrekturen an der spekulativen Dekodierung und die Auswahl passender MoE-Kernel.

KI-Souveränität beginnt nicht beim KI-Modell, sondern auch beim Chip unter der Haube.
— Markus Seyfferth, Chefredakteur Dr. Web

Für den DACH-Raum wiegt dieser Punkt schwer. Die Debatte, wie Unternehmen Claude und Codex zur Höhlenmenschen-Sprache zwingen, um KI-Kosten zu senken, zeigt den Kostendruck deutlich. Auch dass die US-Regierung Claude Fable 5 und Mythos 5 freigab, verweist auf flexible Modellwahl. Ein zweiter Chip-Anbieter senkt genau diesen Druck an der Wurzel.

Was bedeutet das für KMU in der DACH-Region?

Der wichtigste Hebel liegt in der Kennzahl Kosten pro Token. Wer KI dauerhaft produktiv nutzt, vergleicht Cloud- und Anbieterangebote besser danach als nach der reinen Spitzenleistung eines einzelnen Chips.

Konkret heißt das: Ziehen Sie bei der Auswahl einer Cloud nicht nur Nvidia-basierte Angebote in Betracht. Sobald ein zweiter Beschleuniger-Hersteller vergleichbare Qualität zu einem niedrigeren Preis liefert, entsteht Spielraum bei Kosten und Verhandlungen. Wie stark KI-Kosten inzwischen ins Gewicht fallen, zeigt der Fall, in dem Adobe, Citi und Amazon ihren Mitarbeitern die KI kappen.

Für die Souveränität zählt zudem, dass China bereits an eigener Hardware arbeitet, wie der Bericht zeigt, dass ein 1,6-Billionen-Modell ganz ohne Nvidia trainiert wird. Ob die Leistung im eigenen Betrieb hält, sollten Sie unabhängig prüfen. Ein einzelner Anbieter-Benchmark ersetzt keinen Test mit der eigenen Last, verschiebt die Frage aber von „ob“ zu „wann“.

Mehr Newshunger?

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Leistung im Vergleich (relativ zum Nvidia B200)

Schreiben Sie einen Kommentar Antwort abbrechen

Wie betreibt man KI-Modelle lokal auf eigener Hardware?

Infineon eröffnet Fünf-Milliarden-Chipfabrik in Dresden

Oomwoo: Ein quelloffener Saugroboter zum Selbstbauen, ganz ohne Cloud

Asahi Linux 7.1: Wie weit Linux auf Apple Silicon wirklich ist

Samsung, SK Hynix und Micron wegen DRAM-Preisabsprachen in den USA verklagt

Open-Source KI-Modell GLM schafft 2626 Token pro Sekunde auf AMD MI355X

Das Wichtigste in Kürze

Was treibt den Kostenvorteil des AMD MI355X?

Leistung im Vergleich (relativ zum Nvidia B200)

Warum zählt AMD im Inferenz-Markt als Nvidia-Alternative?

Was bedeutet das für KMU in der DACH-Region?

Mehr Newshunger?

Schreiben Sie einen Kommentar Antwort abbrechen

Wie betreibt man KI-Modelle lokal auf eigener Hardware?

Infineon eröffnet Fünf-Milliarden-Chipfabrik in Dresden

Oomwoo: Ein quelloffener Saugroboter zum Selbstbauen, ganz ohne Cloud

Asahi Linux 7.1: Wie weit Linux auf Apple Silicon wirklich ist

Samsung, SK Hynix und Micron wegen DRAM-Preisabsprachen in den USA verklagt

Mehr solcher Artikel? Jetzt kostenlos abonnieren.

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.