Sichere GPU-Kernels in Rust? cuTile macht es.

cuTile Rust: Sichere GPU-Kernels ohne Tempoverlust

Michael Dobler

Autor Dr. Web

22. Juni 2026

3 Min. Lesezeit

Grafikkarten rechnen schnell, aber das Programmieren ihrer Kerne ist berüchtigt fehleranfällig. Mit cuTile Rust legt NVIDIAs Forschungsabteilung ein Werkzeug vor, das sichere und data-race-freie GPU-Kernels in der Sprache Rust ermöglicht, ohne dabei Tempo zu kosten.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Der Ansatz überträgt Rusts strenges Eigentumsmodell auf die Grafikkarte. Damit verschiebt sich eine alte Gewissheit: Sicherheit und Spitzenleistung müssen auf der GPU kein Widerspruch mehr sein.

Das Wichtigste in Kürze

cuTile Rust ist ein kachelbasiertes System, um speichersichere, data-race-freie GPU-Kernels in idiomatischem Rust zu schreiben.
Das System erweitert Rusts Eigentumsregeln über die Grenze des GPU-Starts hinaus, indem es Tensoren in getrennte Teile aufteilt.
Auf einer NVIDIA B200 erreicht cuTile Rust rund 92 Prozent der dichten f16-Spitzenleistung bei GEMM.
Die Sicherheit kostet dabei keine messbare Laufzeit, der Abstand zur Tile-IR-Variante liegt bei 0,3 Prozent.

Warum ist GPU-Programmierung so heikel?

Ein weißer Bauhelm mit grünem Streifen steht auf einer weißen Tischfläche — GPU-Kerne mit Tausenden parallelen Threads greifen gleichzeitig auf Speicher zu. Rusts Eigentums-Modell verhindert Datenrennen, aber nicht bei massiv parallelen Operationen. cuTTile löst dies durch Partitionierung von Tensoren

Das Problem liegt in der Parallelität. Ein GPU-Kernel startet Tausende Threads, die alle gleichzeitig auf denselben Speicher zugreifen. Auf dem Prozessor verhindert Rust Datenrennen über sein Eigentums- und Ausleihmodell, doch dieses Modell war nie für Tausende parallele Threads am selben Ausgabepuffer gedacht.

Genau dort setzt cuTile Rust an. Veränderbare Tensoren werden in getrennte, sich nicht überlappende Teile zerlegt, sodass die Eigentumsdisziplin von Rust auch über den Sprung auf die GPU hinweg gilt. Der häufige Fall, bei dem ein Thread genau ein Element schreibt, bleibt von Haus aus sicher.

Kostet die Sicherheit Leistung?

Werbegrafik für — cuTile Rust erreicht auf NVIDIA B200 7 TB/s bei elementweisen Operationen und 2 Petaflop/s bei GEMM, vergleichbar mit cuBLAS

Die Antwort ist überraschend deutlich. Auf einer NVIDIA B200 erreicht cuTile Rust rund 7 Terabyte pro Sekunde bei elementweisen Operationen und 2 Petaflop pro Sekunde bei GEMM, das sind etwa 91 Prozent der maximalen Speicherbandbreite und 92 Prozent der dichten f16-Spitzenleistung. Das Ergebnis liegt auf Augenhöhe mit der etablierten Bibliothek cuBLAS.

Der entscheidende Punkt für Entwickler: Die zusätzliche Sicherheit fügt keinen messbaren Laufzeit-Aufwand hinzu. Eine sichere persistente GEMM in Rust kommt bis auf 0,3 Prozent an die hardwarenahe Tile-IR-Variante heran. Das zugehörige Papier trägt den passenden Titel über furchtlose Nebenläufigkeit auf der GPU. Wie unterschiedlich gut Werkzeuge produktionsreifen Code liefern, ordnet unsere Analyse zu der Frage ein, ob KI wirklich guten Code schreibt.

Auf der Grafikkarte galt lange: Entweder schnell oder sicher. cuTile Rust zeigt, dass beides geht, und nimmt damit ein altes Argument vom Tisch. Für jeden, der eigene KI-Kernels schreibt, ist das ein ernstzunehmender Fortschritt.
— Markus Seyfferth, Chefredakteur Dr. Web

Wo liegt der praktische Nutzen?

Silberne mechanische Schildkröte mit grünem Gurt auf weißem Hintergrund und Bewegungsunschärfe — Grout-Inferenz-Engine mit cuTile Rust verhindert Speicherfehler bei GPU-Kernels für maschinelles Lernen

Der Wert zeigt sich im KI-Umfeld. Das Papier evaluiert eine Inferenz-Engine namens Grout, die mit cuTile Rust in Zusammenarbeit mit Hugging Face gebaut wurde. Wer eigene GPU-Kernels für maschinelles Lernen schreibt, bekommt damit ein Werkzeug, das die typischen Speicherfehler von vornherein ausschließt.

Für Teams, die ohnehin in Rust arbeiten oder auf Sicherheit im KI-Backend Wert legen, ist das ein gewichtiges Argument. Voraussetzung ist eine NVIDIA-GPU ab der Architektur sm_80. Wie tief klassische Systemsprachen heute ins KI-Hardware-Backend reichen, zeigt auch unsere Übersicht der Programmiersprachen 2026.