Physical AI bezeichnet künstliche Intelligenz, die nicht nur Texte und Bilder erzeugt, sondern Maschinen in der echten Welt steuert. Sieben Jahre lang drehte sich die KI-Debatte um Sprache, Code und Chatbots. Inzwischen wandert die Intelligenz in Greifarme, Saugroboter und humanoide Maschinen. Für Entscheider im Mittelstand stellt sich damit eine handfeste Standortfrage, lange bevor der erste Roboter durch die Halle rollt.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDas Wichtigste in Kürze
- Physical AI verbindet KI-Modelle mit Sensorik und Aktorik, damit Maschinen in der physischen Welt wahrnehmen, planen und handeln
- Der Treiber sind drei zeitgleiche Reifesprünge: leistungsfähige Weltmodelle, realistische Simulation und bezahlbare Roboter-Hardware
- Deutschland zählt laut IFR rund 279.000 installierte Industrieroboter und gehört zur Weltspitze bei der Roboterdichte, beim Humanoiden-Bau dominiert bislang China
- Der größte Bremsklotz heißt Sim-to-Real-Gap: in der Simulation Gelerntes übersteht den Praxistest oft nicht, dazu kommen Fragen zu Sicherheit, Haftung und EU-Recht
1Was beschreibt Physical AI?Aufklappen ↓
Auflösung aufdecken ↓
2Worin liegt der größte Unterschied zur generativen KI?Aufklappen ↓
Auflösung aufdecken ↓
3Was betont das Konzept der Embodied AI besonders?Aufklappen ↓
Auflösung aufdecken ↓
4Welche Modelle übersetzen Sprachbefehl und Kamerabild direkt in Bewegung?Aufklappen ↓
Auflösung aufdecken ↓
5Was bezeichnet der Sim-to-Real-Gap?Aufklappen ↓
Auflösung aufdecken ↓
6Welche Rolle spielt NVIDIA im Physical-AI-Stack?Aufklappen ↓
Auflösung aufdecken ↓
7Wie viele Industrieroboter standen 2024 laut IFR weltweit im Einsatz?Aufklappen ↓
Auflösung aufdecken ↓
8Wie viele humanoide Systeme plant Schaeffler bis 2030 im eigenen Werksnetz?Aufklappen ↓
Auflösung aufdecken ↓
9Welche Aufgaben gelten für Physical AI als besonders schwierig?Aufklappen ↓
Auflösung aufdecken ↓
10Welcher Anteil deutscher Unternehmen nutzt laut Bitkom-KI-Barometer 2026 KI aktiv?Aufklappen ↓
Auflösung aufdecken ↓
Was ist Physical AI, und warum gerade jetzt?

Physical AI meint die Verschmelzung von künstlicher Intelligenz mit physischen Systemen, die ihre Umgebung über Sensoren erfassen und über Aktoren verändern. Das Gabler Wirtschaftslexikon, verfasst von KI-Forscher Oliver Bendel, fasst darunter multimodale Sprachmodelle, sogenannte Vision-Language-Action-Modelle und Weltmodelle, gekoppelt an Lidar, Radar, Berührungs- und Lagesensoren. Eine reine Lehrbuchdefinition reicht der Sache aber nicht.
Der eigentliche Punkt liegt in einer alten Trennung, die gerade einstürzt. Über 4.000 Jahre hinweg hat der Mensch Maschinen die Ausführung übergeben und das Urteil für sich behalten, wie unser Rückblick auf die Logik hinter KI-Automatisierung zeigt. Physical AI rüttelt an genau dieser Grenze: die Maschine soll nicht nur ausführen, sondern situativ entscheiden, wie sie greift, ausweicht oder nachjustiert.
Warum kippt das ausgerechnet jetzt? Drei Reifekurven kreuzen sich im selben Moment. Foundation Models liefern erstmals brauchbares Allgemeinwissen über Objekte und Handlungen, die Simulation bildet ganze Fabriken physikalisch korrekt nach, und die Roboterhardware ist vom Forschungsprojekt zum Katalogartikel geworden. Diese Bündelung senkt die Einstiegshürde Jahr für Jahr.
Das klingt nach Zukunftsmusik. Wir sehen die Vorboten allerdings schon im Logistikregal und auf dem Hallenboden. Der Internationale Roboterverband IFR meldet für 2024 rund 542.000 neu installierte Industrieroboter weltweit, das vierte Jahr in Folge oberhalb der halben Million.
Wie unterscheidet sich Physical AI von generativer KI und Embodied AI?

Generative KI erzeugt Inhalte: Text, Bild, Ton, Code. Ein Sprachmodell beantwortet eine Frage, ein Bildmodell malt ein Motiv, doch keines von beiden hebt je einen Karton an. Physical AI nimmt dieselbe Modellfamilie und hängt zwei Enden dran: vorne die Wahrnehmung durch Sensoren, hinten die Bewegung durch Motoren und Greifer.
Embodied AI, also verkörperte KI, beschreibt den Lernweg dazu. Die Idee dahinter besagt, dass echte Intelligenz aus der Interaktion eines Körpers mit seiner Umwelt entsteht, durch Versuch, Irrtum und Korrektur. Das Fraunhofer IPA in Stuttgart erforscht diesen Ansatz für die Industrie. Physical AI ist der breitere Oberbegriff, Embodied AI eher die Methode des Lernens am eigenen Körper.
| Begriff | Kernaufgabe | Greift in die Welt? |
|---|---|---|
| Generative KI | Inhalte erzeugen | nein |
| Embodied AI | durch Körper-Umwelt-Interaktion lernen | ja, beim Lernen |
| Physical AI | wahrnehmen, planen, handeln im Realraum | ja, dauerhaft |
Der Unterschied wirkt akademisch, hat aber eine harte Konsequenz: ein generativer Fehler produziert einen falschen Satz, ein physischer Fehler eine zerdrückte Erdbeere oder eine Beule im Blech. Diese Unumkehrbarkeit macht Physical AI technisch so viel anspruchsvoller als den Chatbot.
Wie funktioniert Physical AI unter der Haube?

Im Kern läuft eine Schleife aus drei Schritten: wahrnehmen, denken, handeln. Sensoren liefern ein Bild der Lage, ein Modell verdichtet das zu einer Handlungsabsicht, Aktoren setzen die Bewegung um. Danach beginnt der Kreislauf von vorn, viele Male pro Sekunde.
Das Denken übernehmen zwei Bausteine. Vision-Language-Action-Modelle übersetzen eine Anweisung und ein Kamerabild direkt in Steuerbefehle. Weltmodelle, von NVIDIA als World Foundation Models bezeichnet, simulieren vorab, was eine Handlung auslösen würde, ähnlich wie ein Schachspieler Züge im Kopf durchrechnet, bevor die Hand die Figur berührt. Genau diese Vorausschau hebt moderne Roboter von starren Maschinen ab.
Gelernt wird auf zwei Wegen. Beim Imitation Learning ahmt der Roboter vorgeführte Bewegungen nach, beim Reinforcement Learning probiert er millionenfach in der Simulation und behält, was Belohnung bringt. Hier sitzt die berüchtigte Hürde, der Sim-to-Real-Gap, den das Kapitel zu den Grenzen wieder aufgreift.
Die Sensorik bildet das Nadelöhr für alles Weitere. Ohne verlässliche Tiefenmessung, Kraftrückmeldung und Lageerkennung bleibt selbst das klügste Modell blind. Deshalb entscheidet oft nicht die Software über den Projekterfolg, sondern die Frage, ob die Aktorik fein genug greift.
Welche Rolle spielt der Tech-Stack von NVIDIA und Co.?

Im Goldrausch verdient zuerst, wer die Schaufeln verkauft. NVIDIA hat den Begriff Physical AI maßgeblich geprägt und liefert die komplette Werkzeugkette dazu. Die Plattform Omniverse mit Isaac Sim baut den digitalen Zwilling einer Anlage, in dem ein Roboter gefahrlos Millionen Durchläufe absolviert, bevor er die echte Halle betritt.
Drei Bausteine greifen dabei ineinander: die Simulation in Omniverse, vortrainierte Modelle wie das GR00T-Foundation-Model für humanoide Roboter, und die Recheneinheit Jetson, die direkt im Roboter sitzt. Dazu kommt Cosmos, eine Familie von Weltmodellen, die synthetische Trainingsdaten erzeugt, wo echte Daten fehlen.
Der deutsche Bezug ist näher, als viele denken. Schaeffler hat eine Zusammenarbeit mit NVIDIA, Microsoft und Accenture aufgesetzt, um die eigene Produktion mit digitalen Zwillingen und humanoider Robotik umzubauen. Ein Zulieferer aus Franken sortiert damit seine Werke nach denselben Prinzipien wie ein Logistikriese im Silicon Valley.
Bei aller Begeisterung lohnt ein nüchterner Blick auf die Abhängigkeit. Wer seinen kompletten Roboterbetrieb auf einen einzigen Plattformanbieter stützt, tauscht Fachkräftemangel gegen Lieferantenmacht. Diese Wette muss jedes Unternehmen für sich rechnen.
Wo arbeitet Physical AI heute schon?

Am unauffälligsten arbeitet Physical AI dort, wo niemand sie fürs Foto inszeniert. Autonome mobile Roboter fahren durch Lagerhallen, kamerageführte Systeme prüfen Bauteile, und Saugmaschinen reinigen nachts Supermärkte. Kärcher zeigt mit dem autonomen Scheuersaugroboter KIRA B 200 ein marktreifes Beispiel aus dem deutschen Mittelstand.
Spannend wird die Disziplin bei verformbaren Materialien. Das Münchner Unternehmen sewts, 2019 gegründet, bringt Robotern den Umgang mit Textilien bei, also mit Stoff, der bei jeder Berührung seine Form ändert. Ein starrer Greifarm scheitert daran, ein lernendes System schafft es zunehmend. Damit fällt einer der letzten Endgegner der Automatisierung.
Schaeffler bestellt hundert Humanoide und stellt damit eine Standortfrage, keine Technikspielerei. Der Mittelstand sollte die Aktorik im eigenen Betrieb klären, bevor die Konkurrenz die Halle umbaut.“
— Markus Seyfferth, Chefredakteur Dr. Web
Markus Seyfferth, Chefredakteur Dr. Web
Bei den Humanoiden zählt der IFR aktuell rund 46 Hersteller mit laufender Entwicklung, davon allein 21 in China. Schaeffler liefert als Zulieferer die Aktoren für solche Maschinen und plant zugleich, bis 2030 etwa hundert humanoide Systeme im eigenen Werksnetz einzusetzen. Der Partner Neura Robotics nennt als Fernziel fünf Millionen kognitive und humanoide Roboter bis 2030.
Was bremst Physical AI noch aus?

Der größte Bremsklotz trägt einen Namen: Sim-to-Real-Gap. Ein Roboter, der in der Simulation perfekt greift, scheitert in der echten Halle an Staub, Reflexionen oder einem leicht verrutschten Werkstück. Die simulierte Welt bleibt eine Annäherung, die reale Welt kennt keine Vereinfachung.
Dazu kommt das Datenproblem. Sprachmodelle lernten am riesigen Textschatz des Internets, doch für physische Handgriffe existiert kein vergleichbarer Datensee. Jeder Greifvorgang muss mühsam erzeugt werden, in der Simulation oder per Teleoperation durch einen Menschen. Wie hartnäckig körperliche Aufgaben sind, zeigt unsere Liste der 99 Dinge, die eine KI nie können wird: alltägliche Haushaltsaufgaben gelingen selbst Spitzenmodellen bislang nur in einem kleinen Teil der Fälle.
Sicherheit und Haftung bilden die dritte Hürde, und zwar eine rechtliche. Ein Roboter, der eigenständig Entscheidungen trifft und dabei Menschen nahekommt, fällt unter die neue EU-Maschinenverordnung und berührt zugleich den EU AI Act. Wer haftet, sobald ein lernendes System einen Schaden verursacht? Diese Rechtsfrage ist noch nicht sauber beantwortet.
Bleiben die Kosten. Ein humanoider Roboter, die nötige Sensorik und die Integration in bestehende Abläufe summieren sich schnell. Haben Sie sich schon gefragt, ob der teuerste Roboter am Ende der ist, der nach zwei Wochen ungenutzt in der Ecke steht?
Was bedeutet Physical AI für den deutschen Mittelstand?

Deutschland startet aus einer starken Position. Laut der International Federation of Robotics liegt die Roboterdichte in Westeuropa auf einem Rekordwert von 267 Robotern je 10.000 Beschäftigte, und mit rund 279.000 installierten Industrierobotern steht Deutschland in Europa an der Spitze. Die Grundlage für physische Automatisierung ist also längst gelegt.
Der Druck kommt von der Demografie. Der Fachkräftemangel trifft Produktion, Logistik und Pflege gleichzeitig, und keine Zuwanderung der Welt füllt diese Lücke vollständig. Lernende Maschinen springen dort ein, wo Personal fehlt, statt vorhandene Teams zu verdrängen.
Trotzdem hält sich der Mittelstand zurück, oft aus gutem Grund. Das Bitkom-KI-Barometer 2026 zeigt, dass erst 41 Prozent der deutschen Unternehmen KI aktiv nutzen, während sich 62 Prozent selbst als Nachzügler einstufen. Wer bei der Software-KI zögert, hat bei der physischen KI naturgemäß noch weniger Erfahrung.
Ein europäischer Gegenentwurf entsteht trotzdem. Neura Robotics baut mit dem Neuraverse ein Physical-AI-Ökosystem auf europäischer Datenbasis auf, als bewusste Alternative zur Abhängigkeit von amerikanischen und chinesischen Plattformen. Für deutsche Entscheider eröffnet das die Option, früh auf eine heimische Datenhoheit zu setzen.
Wie steigen Sie als Entscheider sinnvoll ein?

Der Einstieg beginnt nicht beim Roboter, sondern bei einer ehrlichen Bestandsaufnahme. Drei Schritte ordnen das Vorgehen:
- Datenbasis prüfen. Erfassen Sie, welche Prozessdaten heute schon anfallen und in welcher Qualität. Ohne saubere Daten taugt kein lernendes System.
- Engpass benennen. Suchen Sie die eine Aufgabe, an der dauerhaft Hände fehlen oder Fehler teuer werden. Dort, nicht überall, beginnt der Pilot.
- Partner wählen. Klären Sie früh, ob Sie sich an einen großen Plattformanbieter binden oder auf eine europäische Lösung wie das Neuraverse setzen.
Recht und Sicherheit gehören von Anfang an mit an den Tisch, nicht erst nach dem Kauf. Eine kurze Klärung mit dem Betriebsrat und ein Blick auf die Maschinenverordnung ersparen später teure Nachrüstung.
Die gute Nachricht zum Schluss: niemand muss morgen einen Humanoiden bestellen. Der ergiebigste erste Schritt ist oft ein abgegrenzter Pilot mit einem mobilen Roboter oder einem kamerageführten Prüfsystem, der sich in Monaten rechnet statt in Jahren. Physical AI belohnt den geduldigen Praktiker mehr als den schnellen Großeinkäufer.
Glossar: 12 wichtige Fachbegriffe zu Physical AI

Aktor
Aktor bezeichnet das bewegende Bauteil eines Roboters, etwa einen Motor, Greifer oder Hydraulikzylinder. Der Aktor setzt die Rechenentscheidung in physische Kraft um. Bei Physical AI gilt die Feinheit der Aktorik oft als der wahre Engpass, weil selbst ein kluges Modell ohne präzise Bewegung nutzlos bleibt.
Cobot
Cobot steht für kollaborativer Roboter, eine Maschine, die ohne Schutzzaun direkt neben Menschen arbeitet. Sicherheitssensoren stoppen die Bewegung bei Berührung. Für den Mittelstand sind Cobots häufig der günstigere Einstieg in die Automatisierung, weil sie sich ohne großen Umbau in bestehende Arbeitsplätze einfügen.
Digitaler Zwilling
Digitaler Zwilling meint die virtuelle, physikalisch korrekte Kopie einer Maschine oder Anlage. In dieser Kopie übt ein Roboter gefahrlos, bevor er real eingesetzt wird. Plattformen wie NVIDIA Omniverse machen den digitalen Zwilling zur Trainingsumgebung für Physical AI.
Embodied AI
Embodied AI, also verkörperte KI, beschreibt den Ansatz, Intelligenz aus der Interaktion eines Körpers mit seiner Umwelt entstehen zu lassen. Gelernt wird durch Tun, nicht durch reines Datenstudium. Embodied AI ist damit eher die Lernmethode innerhalb des breiteren Felds Physical AI.
Foundation Model
Foundation Model bezeichnet ein großes, breit vortrainiertes KI-Modell, das als Basis für viele Aufgaben dient. In der Robotik liefert ein solches Modell allgemeines Wissen über Objekte und Handlungen, auf dem speziellere Fähigkeiten aufsetzen. NVIDIAs GR00T ist ein Beispiel für humanoide Roboter.
Imitation Learning
Imitation Learning ist ein Lernverfahren, bei dem ein Roboter vorgeführte Bewegungen nachahmt. Ein Mensch führt den Greifarm, das System speichert den Ablauf und verallgemeinert ihn. Diese Methode verkürzt das Training, weil nicht jede Bewegung durch millionenfaches Ausprobieren entstehen muss.
Lidar
Lidar steht für ein Sensorverfahren, das mit Laserpulsen Entfernungen misst und daraus ein dreidimensionales Abbild der Umgebung erzeugt. Roboter und autonome Fahrzeuge nutzen Lidar zur Orientierung. Für Physical AI liefert der Sensor die räumliche Wahrnehmung, ohne die keine sichere Bewegung möglich ist.
Reinforcement Learning
Reinforcement Learning, bestärkendes Lernen, trainiert ein System über Belohnung und Bestrafung. Der Roboter probiert in der Simulation unzählige Varianten und behält, was zum Ziel führt. Das Verfahren erzeugt robuste Strategien, kämpft aber mit der Übertragung von der Simulation in die Realität.
Sim-to-Real-Gap
Sim-to-Real-Gap bezeichnet die Lücke zwischen dem Verhalten eines Roboters in der Simulation und in der echten Welt. Staub, Licht und Materialtoleranzen lassen simulierte Erfolge real scheitern. Diese Lücke zu schließen gilt als eine der größten offenen Aufgaben der Physical AI.
Teleoperation
Teleoperation meint die Fernsteuerung eines Roboters durch einen Menschen. In der Physical AI dient sie zwei Zwecken: dem direkten Eingriff in heiklen Lagen und der Erzeugung von Trainingsdaten, weil die menschlichen Bewegungen aufgezeichnet und später vom Modell gelernt werden.
Vision-Language-Action-Modell (VLA)
Vision-Language-Action-Modell (VLA) ist eine Modellklasse, die ein Kamerabild und eine sprachliche Anweisung direkt in Steuerbefehle für einen Roboter übersetzt. Das VLA verbindet damit Sehen, Verstehen und Handeln in einem System und bildet einen Kern moderner Physical AI.
Weltmodell
Weltmodell bezeichnet eine KI, die den Lauf der physischen Welt vorhersagt und so Handlungsfolgen vorab simuliert. NVIDIA nennt diese Klasse World Foundation Models. Ein Weltmodell erlaubt es dem Roboter, eine Bewegung im Kopf durchzurechnen, bevor er sie ausführt.
FAQ: Physical AI: Die KI bekommt einen Körper

Was ist Physical AI?
Physical AI ist künstliche Intelligenz, die physische Maschinen in der echten Welt steuert. Anders als ein Chatbot erzeugt sie nicht nur Inhalte, sondern verbindet KI-Modelle mit Sensoren und Aktoren, sodass Roboter wahrnehmen, planen und handeln können. Beispiele reichen vom Logistikroboter bis zur humanoiden Maschine.
Worin unterscheidet sich Physical AI von Embodied AI?
Physical AI ist der breitere Oberbegriff für KI in physischen Systemen. Embodied AI, verkörperte KI, beschreibt enger den Lernweg, bei dem Intelligenz aus der Interaktion eines Körpers mit der Umwelt entsteht. Embodied AI ist also eher die Methode, Physical AI das gesamte Feld vom Lernen bis zum produktiven Einsatz.
Ist Physical AI dasselbe wie Robotik?
Nein. Klassische Robotik folgt fest programmierten Abläufen und wiederholt sie exakt. Physical AI ergänzt den Roboter um lernende Modelle, die auf veränderte Lagen reagieren und eigenständig entscheiden, wie eine Aufgabe gelöst wird. Robotik liefert den Körper, Physical AI das anpassungsfähige Gehirn.
Welche Unternehmen treiben Physical AI in Deutschland voran?
Sichtbare deutsche Akteure sind Schaeffler als Aktor-Zulieferer und Anwender, Neura Robotics mit dem Neuraverse-Ökosystem, das Münchner Textil-Robotik-Unternehmen sewts sowie Kärcher mit autonomen Reinigungsmaschinen. Forschungsseitig prägt das Fraunhofer IPA in Stuttgart das Feld. International liefert NVIDIA die zentrale Software-Plattform.
Wie groß ist der Markt für Physical AI?
Belastbare Zahlen liegen eher in Stückzahlen als in geprüften Umsätzen vor. Der IFR meldet rund 542.000 neu installierte Industrieroboter im Jahr 2024 und einen Bestand von über 4,6 Millionen weltweit. Bei Humanoiden zählt der Verband etwa 46 Hersteller, Schaeffler plant rund hundert Einheiten bis 2030.
Welche Risiken bringt Physical AI mit sich?
Drei Felder stechen hervor: der Sim-to-Real-Gap, also das Scheitern simuliert gelernter Fähigkeiten in der Praxis, die Sicherheits- und Haftungsfrage bei autonom handelnden Maschinen unter EU-Maschinenverordnung und AI Act, sowie die hohen Anschaffungs- und Integrationskosten. Ein abgegrenzter Pilot senkt diese Risiken spürbar.
Quellen
- International Federation of Robotics (IFR) | World Robotics 2025, Global robot demand in factories | https://ifr.org/ifr-press-releases/news/global-robot-demand-in-factories-doubles-over-10-years | besucht am 26.06.2026
- International Federation of Robotics (IFR) | Robot density surges in Europe, Asia and the Americas | https://ifr.org/ifr-press-releases/news/robot-density-surges-in-europe-asia-and-americas | besucht am 26.06.2026
- Gabler Wirtschaftslexikon (Oliver Bendel) | Definition Physical AI | https://wirtschaftslexikon.gabler.de/definition/physical-ai-177399 | besucht am 26.06.2026
- NVIDIA | What is Generative Physical AI? | https://www.nvidia.com/en-us/glossary/generative-physical-ai/ | besucht am 26.06.2026
- Schaeffler AG | Humanoide Roboter | https://www.schaeffler.com/de/technologie-innovation/technologie/humanoide-roboter/ | besucht am 26.06.2026
- Neura Robotics | Technology Partnership mit Schaeffler | https://neura-robotics.com/neura-robotics-schaeffler-technology-partnership/ | besucht am 26.06.2026
- Fraunhofer IPA | Embodied AI in der Industrie | https://www.ipa.fraunhofer.de/de/loesungen/embodied-ai-in-der-industrie.html | besucht am 26.06.2026
- acatech | Forschungsbeirat Industrie 4.0: Physical AI | https://www.acatech.de/publikation/forschungsbeirat-physical-ai-industrie/ | besucht am 26.06.2026