Alibaba bringt die KI aus dem Chatfenster in die physische Welt. Der Konzern hat mit der Qwen-Robot Suite seine erste Sammlung von Foundation Models für Roboter vorgestellt, drei Modelle, die Wahrnehmung, Vorhersage und Bewegung zusammenführen.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDas Vorhaben zielt auf die zentrale Lücke der verkörperten Intelligenz: Ein Modell kann eine Szene zwar sehen und beschreiben, aber daraus noch lange keine Handlung ableiten. Genau diese Brücke zwischen Sehen und Handeln will Alibaba schlagen.
Das Wichtigste in Kürze
- Alibabas Tongyi Lab stellte am 16. Juni 2026 die Qwen-Robot Suite vor, drei Foundation Models für verkörperte KI.
- Qwen-RobotNav übernimmt Navigation, Qwen-RobotManip die physische Manipulation, Qwen-RobotWorld die Vorhersage künftiger Szenen.
- Das Manipulationsmodell wurde auf über 38.100 Stunden quelloffener Daten trainiert und stützt sich auf die Qwen3.5-4B-Architektur.
- Die Suite läuft bereits im Pilotbetrieb bei ausgewählten Geschäftskunden von Alibaba Cloud.
Was steckt in der Qwen-Robot Suite?

Die Sammlung teilt die Roboter-Intelligenz in drei Schichten, die zusammenarbeiten. Qwen-RobotNav ist das Modell für Bewegung und vereint mehrere Aufgaben in einem Rahmen, darunter das Befolgen von Anweisungen, zielgerichtete Navigation, Objektverfolgung und autonomes Fahren. Qwen-RobotManip steuert die eigentliche Handlung und vereinheitlicht dafür den Zustands- und Aktionsraum verschiedener Robotertypen.
Qwen-RobotWorld dient als Weltmodell und sagt voraus, wie sich eine physische Szene entwickeln wird, bevor der Roboter handelt. Alle drei Modelle bieten eine sprachorientierte Schnittstelle und lassen sich über die allgemeinen Qwen-Modelle kombinieren. Das Manipulationsmodell wurde auf über 38.100 Stunden quelloffener Daten trainiert.
Wie ordnet sich das in den Robotik-Markt ein?

Alibaba setzt auf eine vertikale Strategie. Statt eigene Hardware zu bauen, liefert der Konzern den kompletten Software-Stapel und verbindet ihn mit der starken chinesischen Fertigungsbasis. Verbesserungen an den Modellen lassen sich so direkt auf bestehende Fertigungslinien ausspielen, was reine Software-Wettbewerber nur schwer nachbilden können.
Der Vorstoß reiht sich in ein dichtes Feld ein. Die Forschungslandschaft sortiert das deutsche Zentrum für Luft- und Raumfahrt in seinem Überblick zu Foundation Models in der Robotik, und wie unabhängige Bewertung aussieht, zeigt der Fraunhofer-Benchmark für humanoide Roboter. Qwen liefert nun ein konkretes neues Modell-Release in dieses Umfeld.
Sehen können die Modelle längst, am Handeln scheitern sie bisher. Wer diese Lücke schließt, verschiebt die Robotik von der Demo zur Serie. Für deutsche Hersteller ist eine offene Modell-Schicht aus China zugleich Chance und Warnung.
— Michael Dobler, Herausgeber Dr. Web
Was heißt das für deutsche Entscheider?

Der Pilotbetrieb bei Alibaba-Cloud-Kunden zeigt, dass die Suite über die Laborphase hinaus ist. Für den DACH-Mittelstand ist weniger das einzelne Modell entscheidend als die Frage, welche Modell-Schicht künftige Roboteranbieter einsetzen und wo die Datenhoheit liegt. Diese Fragen gehören früh auf den Tisch, bevor eine Beschaffung ansteht.
Deutsche Hersteller pilotieren bereits, während die Serienfertigung in China anläuft. Wer Robotik plant, sollte das Vision-Language-Action-Modell des Anbieters, die Trainingsdaten und die Datenhoheit prüfen. Den Überblick über die sieben Roboter-Familien und ihre Einsatzfelder liefert unser Beitrag zu den sieben Roboter-Typen, die ganze Branchen verändern.