Das Deutsche Zentrum für Luft- und Raumfahrt hat im Februar 2026 ein Übersichts-Paper zur Rolle von Foundation Models in der Robotik veröffentlicht. Co-Autoren aus Stanford und München untersuchen, wie Sprach- und Vision-Modelle Robotern erstmals einen Full-Stack-Transfer ermöglichen.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenMit dem Paper „Are Foundation Models the Route to Full-Stack Transfer in Robotics?“ liefert das DLR eine technische Bestandsaufnahme. Foundation Models in der Robotik sind dabei kein Marketingbegriff mehr, sondern messbarer Forschungs-Fortschritt. Geht es Ihnen auch so? Jeder zweite Tech-Newsletter überschlägt sich mit ChatGPT-für-Roboter-Schlagzeilen. Das DLR-Paper ordnet die Lage nüchtern ein.
Das Wichtigste in Kürze
- Lead-Autor Freek Stulp leitet die Abteilung Kognitive Robotik am DLR-Institut in Oberpfaffenhofen.
- Co-Autoren von Stanford AI Lab: Jeannette Bohg und Shuran Song.
- Paper erschienen am 25. Februar 2026 als arXiv-Preprint, Nummer 2602.22001.
- Kernbegriff: Full-Stack-Transfer, also gleichzeitige Übertragung von Sprache, Sehen und Motorik.
Was meint Full-Stack-Transfer konkret?

Drei Ebenen. Klassisches Roboter-Lernen brachte Maschinen einzelne Fähigkeiten bei, von der Greif-Bewegung bis zur Wegplanung. Foundation Models verändern diese Logik. Sie übertragen Wissen gleichzeitig auf drei Ebenen: hochsprachliche Anweisungen, visuelle Wahrnehmung und feinmotorische Bewegung. Eine LLM-Anweisung wie „Räume den Tisch ab“ wird vom System in Sehen und Greifen übersetzt, ohne dass der Roboter dafür speziell trainiert wurde.
Was Roboter heute können. Die DLR-Autoren beschreiben drei Modell-Klassen, die diesen Transfer leisten: reine Large Language Models, multimodale Vision-Language-Modelle und die seit 2025 dominante Vision-Language-Action-Architektur. Letztere kombiniert Sehen, Sprachverstehen und Motorbefehle in einem Modell. NVIDIAs GR00T-Familie und Googles Gemini Robotics arbeiten nach diesem Prinzip. Der Vorteil: ein einziges Modell kann auf verschiedenen Roboter-Plattformen laufen, von Greifarmen bis zu Humanoiden.
Wo liegen die offenen Forschungsfragen?

Trainingsdaten als Engstelle. Anders als bei Sprach- oder Bildmodellen gibt es im Internet keine Milliarden von Roboter-Trajektorien. Das DLR-Paper benennt die fehlende Datenbasis als zentrales Hindernis. Aktuelle Foundation Models für Robotik trainieren auf wenigen Millionen synthetischer Episoden, klassische LLMs auf Hunderten Milliarden Token. Wer in DACH eigene Foundation-Model-Roboter aufbauen will, scheitert zuerst an dieser Datenfrage. Lösungsansätze: synthetische Simulationsdaten über NVIDIA Isaac Sim oder kollaborative Industriedaten-Pools wie sie das Robotics Institute Germany koordiniert.
Benchmarking. Die zweite offene Frage ist die Vergleichbarkeit. Ohne standardisierte Benchmarks lassen sich Foundation-Model-Ansätze nicht sauber miteinander oder mit klassischen Methoden vergleichen. Fraunhofer IPA hat im Mai 2026 einen ersten Industrie-Benchmark nachgeschoben, der genau diese Lücke für humanoide Robotik schließt.
Foundation Models klingen nach Universalmaschine, sind in der Robotik aber noch eine Wette. Wer als deutscher Mittelständler heute schon investiert, sollte sich an etablierte Plattformen halten, nicht an Forschungsvorabdrucke.
— Michael Dobler, Herausgeber Dr. Web
Was bedeutet das Paper für DACH-Anwender?

Strategische Position. Das DLR positioniert sich mit dem Paper als europäischer Mitspieler in einem bisher von US-Hyperscalern dominierten Feld. Die Kooperation mit Stanford ist ein Vertrauensvotum. Für deutsche Industrie-Anwender bedeutet das: Forschungsförderung und Pilot-Projekte rund um Foundation Models werden in den kommenden Monaten zunehmen. Der Schulterschluss mit dem Robotics Institute Germany verstärkt diese Position weiter.
Konkrete Empfehlung. Geschäftsführer in Maschinenbau und Logistik sollten den arXiv-Volltext an ihre Forschungs- und Entwicklungsverantwortlichen weiterleiten. Pilotprojekte mit Foundation-Model-Robotik sind 2026 noch verfrüht, eine Beobachtungsposition mit klarem Investitionspfad für 2027 dagegen sinnvoll. Eine vollständige Übersicht zu aktuellen Roboter-Klassen liefert die DrWeb-Marktanalyse.
Das vollständige Paper finden Sie als arXiv-Preprint 2602.22001.
Mehr Newshunger?
