Physical AI bezeichnet künstliche Intelligenz, die nicht nur Texte und Bilder erzeugt, sondern Maschinen in der echten Welt steuert. Sieben Jahre lang drehte sich die KI-Debatte um Sprache, Code und Chatbots. Inzwischen wandert die Intelligenz in Greifarme, Saugroboter und humanoide Maschinen. Für Entscheider im Mittelstand stellt sich damit eine handfeste Standortfrage, lange bevor der erste Roboter durch die Halle rollt.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Das Wichtigste in Kürze

  • Physical AI verbindet KI-Modelle mit Sensorik und Aktorik, damit Maschinen in der physischen Welt wahrnehmen, planen und handeln
  • Der Treiber sind drei zeitgleiche Reifesprünge: leistungsfähige Weltmodelle, realistische Simulation und bezahlbare Roboter-Hardware
  • Deutschland zählt laut IFR rund 279.000 installierte Industrieroboter und gehört zur Weltspitze bei der Roboterdichte, beim Humanoiden-Bau dominiert bislang China
  • Der größte Bremsklotz heißt Sim-to-Real-Gap: in der Simulation Gelerntes übersteht den Praxistest oft nicht, dazu kommen Fragen zu Sicherheit, Haftung und EU-Recht
Wissenstest
Physical AI: Wie gut kennen Sie die Künstliche Intelligenz mit Körper?
10 Fragen aus dem Artikel. Wählen Sie Ihre Antwort, dann decken Sie die Lösung auf.
1Was beschreibt Physical AI?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: B. Physical AI verbindet KI-Modelle mit Sensorik und Aktorik, damit Maschinen ihre Umgebung wahrnehmen und in der realen Welt handeln. Mehr dazu im Kapitel zur Definition.
2Worin liegt der größte Unterschied zur generativen KI?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: C. Ein Sprachmodell wiederholt einen Fehler folgenlos, ein Greifarm hebelt die Schwerkraft nicht zurück. Diese Unumkehrbarkeit erhöht die Ansprüche an Sicherheit und Datenqualität.
3Was betont das Konzept der Embodied AI besonders?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: A. Embodied AI betont, dass Intelligenz aus der körperlichen Interaktion mit der Umwelt entsteht, ähnlich wie ein Kind durch Greifen und Hinfallen lernt. Details im Abgrenzungskapitel.
4Welche Modelle übersetzen Sprachbefehl und Kamerabild direkt in Bewegung?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: B. Vision-Language-Action-Modelle verarbeiten Bild und Sprache und geben daraus eine Greifbewegung aus. Weltmodelle simulieren zusätzlich das Verhalten der Objekte. Siehe Kapitel zur Funktionsweise.
5Was bezeichnet der Sim-to-Real-Gap?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: C. Ein im Rechner perfekter Griff scheitert in der Halle oft an Staub, Toleranzen und Verschleiß. Diesen Abstand zwischen Simulation und Realität nennt die Fachwelt Sim-to-Real-Gap.
6Welche Rolle spielt NVIDIA im Physical-AI-Stack?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: B. NVIDIA liefert Simulationsumgebungen, Basismodelle und Recheneinheiten für den Einsatz in der Maschine. Der Anbieter der Werkzeuge verdient damit zuverlässig am gesamten Feld.
7Wie viele Industrieroboter standen 2024 laut IFR weltweit im Einsatz?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: A. Der operative Bestand lag 2024 bei rund 4,66 Millionen Einheiten. Die 542.000 sind die Neuinstallationen eines einzigen Jahres. Physical AI legt sich als Intelligenzschicht über diesen Bestand.
8Wie viele humanoide Systeme plant Schaeffler bis 2030 im eigenen Werksnetz?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: C. Schaeffler nennt für 2030 rund hundert humanoide Systeme im eigenen Produktionsnetz, bis 2035 eine mittlere vierstellige Zahl. Mehr im Mittelstands-Kapitel.
9Welche Aufgaben gelten für Physical AI als besonders schwierig?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: B. Verformbare Materialien wie Textilien, Kabel und Schaum galten lange als Endgegner der Automatisierung, weil die Greifpunkte ständig wechseln. Genau hier setzen Spezialisten wie sewts an.
10Welcher Anteil deutscher Unternehmen nutzt laut Bitkom-KI-Barometer 2026 KI aktiv?Aufklappen ↓
Auflösung aufdecken ↓
Richtig: A. 41 Prozent nutzen KI aktiv, zugleich stufen sich 62 Prozent als Nachzügler ein. Physical AI verschärft diese Schere, weil der Vorsprung früher Anwender mit jedem Datensatz wächst.

 

Was ist Physical AI, und warum gerade jetzt?

Roboterhand hält Erdbeere, Schildtext:
Physical AI verbindet künstliche Intelligenz mit Sensoren und Aktoren, um Umgebungen zu erfassen und zu verändern. Dazu gehören Vision-Language-Action-Modelle und Weltmodelle mit Lidar-, Radar- und Tastsensoren

Physical AI meint die Verschmelzung von künstlicher Intelligenz mit physischen Systemen, die ihre Umgebung über Sensoren erfassen und über Aktoren verändern. Das Gabler Wirtschaftslexikon, verfasst von KI-Forscher Oliver Bendel, fasst darunter multimodale Sprachmodelle, sogenannte Vision-Language-Action-Modelle und Weltmodelle, gekoppelt an Lidar, Radar, Berührungs- und Lagesensoren. Eine reine Lehrbuchdefinition reicht der Sache aber nicht.

Der eigentliche Punkt liegt in einer alten Trennung, die gerade einstürzt. Über 4.000 Jahre hinweg hat der Mensch Maschinen die Ausführung übergeben und das Urteil für sich behalten, wie unser Rückblick auf die Logik hinter KI-Automatisierung zeigt. Physical AI rüttelt an genau dieser Grenze: die Maschine soll nicht nur ausführen, sondern situativ entscheiden, wie sie greift, ausweicht oder nachjustiert.

Warum kippt das ausgerechnet jetzt? Drei Reifekurven kreuzen sich im selben Moment. Foundation Models liefern erstmals brauchbares Allgemeinwissen über Objekte und Handlungen, die Simulation bildet ganze Fabriken physikalisch korrekt nach, und die Roboterhardware ist vom Forschungsprojekt zum Katalogartikel geworden. Diese Bündelung senkt die Einstiegshürde Jahr für Jahr.

Das klingt nach Zukunftsmusik. Wir sehen die Vorboten allerdings schon im Logistikregal und auf dem Hallenboden. Der Internationale Roboterverband IFR meldet für 2024 rund 542.000 neu installierte Industrieroboter weltweit, das vierte Jahr in Folge oberhalb der halben Million.

Wie unterscheidet sich Physical AI von generativer KI und Embodied AI?

Drei Sprechblasen aus Pappe mit Text, einem Schuh und einem Werkzeug vor weißem Hintergrund
Generative KI textet, Embodied AI übt am Körper, Physical AI greift zu: drei Stufen, ein Unterschied mit Folgen.

Generative KI erzeugt Inhalte: Text, Bild, Ton, Code. Ein Sprachmodell beantwortet eine Frage, ein Bildmodell malt ein Motiv, doch keines von beiden hebt je einen Karton an. Physical AI nimmt dieselbe Modellfamilie und hängt zwei Enden dran: vorne die Wahrnehmung durch Sensoren, hinten die Bewegung durch Motoren und Greifer.

Embodied AI, also verkörperte KI, beschreibt den Lernweg dazu. Die Idee dahinter besagt, dass echte Intelligenz aus der Interaktion eines Körpers mit seiner Umwelt entsteht, durch Versuch, Irrtum und Korrektur. Das Fraunhofer IPA in Stuttgart erforscht diesen Ansatz für die Industrie. Physical AI ist der breitere Oberbegriff, Embodied AI eher die Methode des Lernens am eigenen Körper.

BegriffKernaufgabeGreift in die Welt?
Generative KIInhalte erzeugennein
Embodied AIdurch Körper-Umwelt-Interaktion lernenja, beim Lernen
Physical AIwahrnehmen, planen, handeln im Realraumja, dauerhaft

Der Unterschied wirkt akademisch, hat aber eine harte Konsequenz: ein generativer Fehler produziert einen falschen Satz, ein physischer Fehler eine zerdrückte Erdbeere oder eine Beule im Blech. Diese Unumkehrbarkeit macht Physical AI technisch so viel anspruchsvoller als den Chatbot.

Drei Begriffe, ein Missverständnis
Denken, Lernen, Handeln: Wo Physical AI ansetzt
Generative KI, Embodied AI und Physical AI werden oft vermischt. Der Unterschied liegt darin, wo die Intelligenz wirkt.
KI
💬
denkt
Generative KI
Erzeugt Inhalte im digitalen Raum: Text, Bild, Code. Ein Fehlversuch kostet nichts, das Modell rechnet einfach neu.
Beispiel: Chatbot, Bildgenerator
🧠
lernt am Körper
Embodied AI
Intelligenz entsteht aus der Interaktion eines Körpers mit der Umwelt, ähnlich wie ein Kind durch Greifen und Hinfallen lernt.
Beispiel: lernender Roboterarm
🪚
handelt
Physical AI
Integriert KI in Sensorik und Aktorik, damit Maschinen die reale Welt wahrnehmen und in ihr agieren. Jede Aktion ist sofort unumkehrbar.
Beispiel: humanoider Roboter, autonomes Fahrzeug
Merksatz: Ein Sprachmodell beschreibt eine Schraube. Eine physische KI dreht sie ein. Genau diese Unumkehrbarkeit erklärt, warum Sicherheit und Datenqualität bei Physical AI schwerer wiegen als bei reiner Software.

Wie funktioniert Physical AI unter der Haube?

Auge, Gehirn mit Textfahne und Roboterhand im Kreislauf auf weißem Teller
Wahrnehmen, denken, handeln: diese Schleife durchläuft ein Roboter viele Male pro Sekunde.

Im Kern läuft eine Schleife aus drei Schritten: wahrnehmen, denken, handeln. Sensoren liefern ein Bild der Lage, ein Modell verdichtet das zu einer Handlungsabsicht, Aktoren setzen die Bewegung um. Danach beginnt der Kreislauf von vorn, viele Male pro Sekunde.

Das Denken übernehmen zwei Bausteine. Vision-Language-Action-Modelle übersetzen eine Anweisung und ein Kamerabild direkt in Steuerbefehle. Weltmodelle, von NVIDIA als World Foundation Models bezeichnet, simulieren vorab, was eine Handlung auslösen würde, ähnlich wie ein Schachspieler Züge im Kopf durchrechnet, bevor die Hand die Figur berührt. Genau diese Vorausschau hebt moderne Roboter von starren Maschinen ab.

Gelernt wird auf zwei Wegen. Beim Imitation Learning ahmt der Roboter vorgeführte Bewegungen nach, beim Reinforcement Learning probiert er millionenfach in der Simulation und behält, was Belohnung bringt. Hier sitzt die berüchtigte Hürde, der Sim-to-Real-Gap, den das Kapitel zu den Grenzen wieder aufgreift.

Die Sensorik bildet das Nadelöhr für alles Weitere. Ohne verlässliche Tiefenmessung, Kraftrückmeldung und Lageerkennung bleibt selbst das klügste Modell blind. Deshalb entscheidet oft nicht die Software über den Projekterfolg, sondern die Frage, ob die Aktorik fein genug greift.

Unter der Haube
Wie Physical AI wahrnimmt, denkt und handelt
Ein physisches KI-System durchläuft denselben Bogen wie ein Mensch am Arbeitsplatz, in einer endlosen Schleife.
🔄
1
Wahrnehmen
Kameras, Lidar, Radar sowie Lage- und Berührungssensoren liefern die Rohdaten der Umgebung.
2
Denken
Vision-Language-Action-Modelle und Weltmodelle verdichten die Signale zu einer Lage und wählen eine Bewegung.
3
Handeln
Aktoren und Motoren setzen die Entscheidung in eine präzise Bewegung um, in Echtzeit.
Sim-to-Real-Gap: Trainiert wird zuerst im digitalen Zwilling, per Imitation und Reinforcement Learning. Zwischen Simulation und Halle klafft eine Lücke, weil Staub, Toleranzen und Verschleiß in der Realität mitkochen.
Merksatz: Die Schleife schließt sich erst in der echten Halle. Je sauberer die Trainingsdaten und je realistischer der digitale Zwilling, desto kleiner der Sprung von der Simulation in den ersten echten Handgriff.

Welche Rolle spielt der Tech-Stack von NVIDIA und Co.?

Eine silberne Schaufel mit Roboter-Aufkleber am Stiel und einem blauen Spielzeugroboter im Blatt
Im Goldrausch verdient zuerst, wer die Schaufeln verkauft: NVIDIA liefert Simulation, Modelle und Chips aus einer Hand.

Im Goldrausch verdient zuerst, wer die Schaufeln verkauft. NVIDIA hat den Begriff Physical AI maßgeblich geprägt und liefert die komplette Werkzeugkette dazu. Die Plattform Omniverse mit Isaac Sim baut den digitalen Zwilling einer Anlage, in dem ein Roboter gefahrlos Millionen Durchläufe absolviert, bevor er die echte Halle betritt.

Drei Bausteine greifen dabei ineinander: die Simulation in Omniverse, vortrainierte Modelle wie das GR00T-Foundation-Model für humanoide Roboter, und die Recheneinheit Jetson, die direkt im Roboter sitzt. Dazu kommt Cosmos, eine Familie von Weltmodellen, die synthetische Trainingsdaten erzeugt, wo echte Daten fehlen.

Der deutsche Bezug ist näher, als viele denken. Schaeffler hat eine Zusammenarbeit mit NVIDIA, Microsoft und Accenture aufgesetzt, um die eigene Produktion mit digitalen Zwillingen und humanoider Robotik umzubauen. Ein Zulieferer aus Franken sortiert damit seine Werke nach denselben Prinzipien wie ein Logistikriese im Silicon Valley.

Bei aller Begeisterung lohnt ein nüchterner Blick auf die Abhängigkeit. Wer seinen kompletten Roboterbetrieb auf einen einzigen Plattformanbieter stützt, tauscht Fachkräftemangel gegen Lieferantenmacht. Diese Wette muss jedes Unternehmen für sich rechnen.

Wo arbeitet Physical AI heute schon?

Roboterarm greift Handtücher; Schildtext: „Stoff ändert ständig die Form“
Verformbare Materialien gelten als Härtetest: das Münchner Unternehmen sewts bringt Robotern den Umgang mit Textilien bei.

Am unauffälligsten arbeitet Physical AI dort, wo niemand sie fürs Foto inszeniert. Autonome mobile Roboter fahren durch Lagerhallen, kamerageführte Systeme prüfen Bauteile, und Saugmaschinen reinigen nachts Supermärkte. Kärcher zeigt mit dem autonomen Scheuersaugroboter KIRA B 200 ein marktreifes Beispiel aus dem deutschen Mittelstand.

Spannend wird die Disziplin bei verformbaren Materialien. Das Münchner Unternehmen sewts, 2019 gegründet, bringt Robotern den Umgang mit Textilien bei, also mit Stoff, der bei jeder Berührung seine Form ändert. Ein starrer Greifarm scheitert daran, ein lernendes System schafft es zunehmend. Damit fällt einer der letzten Endgegner der Automatisierung.

Schaeffler bestellt hundert Humanoide und stellt damit eine Standortfrage, keine Technikspielerei. Der Mittelstand sollte die Aktorik im eigenen Betrieb klären, bevor die Konkurrenz die Halle umbaut.“
Markus Seyfferth, Chefredakteur Dr. Web

— Markus Seyfferth, Chefredakteur Dr. Web

Bei den Humanoiden zählt der IFR aktuell rund 46 Hersteller mit laufender Entwicklung, davon allein 21 in China. Schaeffler liefert als Zulieferer die Aktoren für solche Maschinen und plant zugleich, bis 2030 etwa hundert humanoide Systeme im eigenen Werksnetz einzusetzen. Der Partner Neura Robotics nennt als Fernziel fünf Millionen kognitive und humanoide Roboter bis 2030.

Was bremst Physical AI noch aus?

Ein Roboter steht auf einem Sockel, ein baugleicher liegt daneben auf dem Boden
Der Sim-to-Real-Gap in einem Bild: was in der Simulation glänzt, kippt in der echten Halle über Staub und Reflexionen.

Der größte Bremsklotz trägt einen Namen: Sim-to-Real-Gap. Ein Roboter, der in der Simulation perfekt greift, scheitert in der echten Halle an Staub, Reflexionen oder einem leicht verrutschten Werkstück. Die simulierte Welt bleibt eine Annäherung, die reale Welt kennt keine Vereinfachung.

Dazu kommt das Datenproblem. Sprachmodelle lernten am riesigen Textschatz des Internets, doch für physische Handgriffe existiert kein vergleichbarer Datensee. Jeder Greifvorgang muss mühsam erzeugt werden, in der Simulation oder per Teleoperation durch einen Menschen. Wie hartnäckig körperliche Aufgaben sind, zeigt unsere Liste der 99 Dinge, die eine KI nie können wird: alltägliche Haushaltsaufgaben gelingen selbst Spitzenmodellen bislang nur in einem kleinen Teil der Fälle.

Sicherheit und Haftung bilden die dritte Hürde, und zwar eine rechtliche. Ein Roboter, der eigenständig Entscheidungen trifft und dabei Menschen nahekommt, fällt unter die neue EU-Maschinenverordnung und berührt zugleich den EU AI Act. Wer haftet, sobald ein lernendes System einen Schaden verursacht? Diese Rechtsfrage ist noch nicht sauber beantwortet.

Bleiben die Kosten. Ein humanoider Roboter, die nötige Sensorik und die Integration in bestehende Abläufe summieren sich schnell. Haben Sie sich schon gefragt, ob der teuerste Roboter am Ende der ist, der nach zwei Wochen ungenutzt in der Ecke steht?

Was bedeutet Physical AI für den deutschen Mittelstand?

Modellfabrik mit Maßband und Preisschild, daneben Metallstempel mit der Nummer 267 auf Weiß
267 Roboter je 10.000 Beschäftigte: Westeuropa hält einen Dichte-Rekord, Deutschland steht europaweit an der Spitze.

Deutschland startet aus einer starken Position. Laut der International Federation of Robotics liegt die Roboterdichte in Westeuropa auf einem Rekordwert von 267 Robotern je 10.000 Beschäftigte, und mit rund 279.000 installierten Industrierobotern steht Deutschland in Europa an der Spitze. Die Grundlage für physische Automatisierung ist also längst gelegt.

Der Druck kommt von der Demografie. Der Fachkräftemangel trifft Produktion, Logistik und Pflege gleichzeitig, und keine Zuwanderung der Welt füllt diese Lücke vollständig. Lernende Maschinen springen dort ein, wo Personal fehlt, statt vorhandene Teams zu verdrängen.

Trotzdem hält sich der Mittelstand zurück, oft aus gutem Grund. Das Bitkom-KI-Barometer 2026 zeigt, dass erst 41 Prozent der deutschen Unternehmen KI aktiv nutzen, während sich 62 Prozent selbst als Nachzügler einstufen. Wer bei der Software-KI zögert, hat bei der physischen KI naturgemäß noch weniger Erfahrung.

Ein europäischer Gegenentwurf entsteht trotzdem. Neura Robotics baut mit dem Neuraverse ein Physical-AI-Ökosystem auf europäischer Datenbasis auf, als bewusste Alternative zur Abhängigkeit von amerikanischen und chinesischen Plattformen. Für deutsche Entscheider eröffnet das die Option, früh auf eine heimische Datenhoheit zu setzen.

Wie steigen Sie als Entscheider sinnvoll ein?

Textblock „Pilot zuerst“ und Sonnenbrille auf hellem Sockel
Der ergiebigste Einstieg ist die kleine erste Stufe: ein abgegrenzter Pilot, der sich in Monaten rechnet.

Der Einstieg beginnt nicht beim Roboter, sondern bei einer ehrlichen Bestandsaufnahme. Drei Schritte ordnen das Vorgehen:

  1. Datenbasis prüfen. Erfassen Sie, welche Prozessdaten heute schon anfallen und in welcher Qualität. Ohne saubere Daten taugt kein lernendes System.
  2. Engpass benennen. Suchen Sie die eine Aufgabe, an der dauerhaft Hände fehlen oder Fehler teuer werden. Dort, nicht überall, beginnt der Pilot.
  3. Partner wählen. Klären Sie früh, ob Sie sich an einen großen Plattformanbieter binden oder auf eine europäische Lösung wie das Neuraverse setzen.

Recht und Sicherheit gehören von Anfang an mit an den Tisch, nicht erst nach dem Kauf. Eine kurze Klärung mit dem Betriebsrat und ein Blick auf die Maschinenverordnung ersparen später teure Nachrüstung.

Die gute Nachricht zum Schluss: niemand muss morgen einen Humanoiden bestellen. Der ergiebigste erste Schritt ist oft ein abgegrenzter Pilot mit einem mobilen Roboter oder einem kamerageführten Prüfsystem, der sich in Monaten rechnet statt in Jahren. Physical AI belohnt den geduldigen Praktiker mehr als den schnellen Großeinkäufer.

Glossar: 12 wichtige Fachbegriffe zu Physical AI

Roboterhand hält gelben Zettel mit Aufschrift „GLOSSAR: 12 BEGRIFFE“
Aktoren sind bewegliche Bauteile wie Motoren oder Greifer, die Roboterbefehle in physische Kraft umsetzen. Bei Physical AI stellt die Aktorpräzision oft den kritischen Engpass dar

Aktor

Aktor bezeichnet das bewegende Bauteil eines Roboters, etwa einen Motor, Greifer oder Hydraulikzylinder. Der Aktor setzt die Rechenentscheidung in physische Kraft um. Bei Physical AI gilt die Feinheit der Aktorik oft als der wahre Engpass, weil selbst ein kluges Modell ohne präzise Bewegung nutzlos bleibt.

Cobot

Cobot steht für kollaborativer Roboter, eine Maschine, die ohne Schutzzaun direkt neben Menschen arbeitet. Sicherheitssensoren stoppen die Bewegung bei Berührung. Für den Mittelstand sind Cobots häufig der günstigere Einstieg in die Automatisierung, weil sie sich ohne großen Umbau in bestehende Arbeitsplätze einfügen.

Digitaler Zwilling

Digitaler Zwilling meint die virtuelle, physikalisch korrekte Kopie einer Maschine oder Anlage. In dieser Kopie übt ein Roboter gefahrlos, bevor er real eingesetzt wird. Plattformen wie NVIDIA Omniverse machen den digitalen Zwilling zur Trainingsumgebung für Physical AI.

Embodied AI

Embodied AI, also verkörperte KI, beschreibt den Ansatz, Intelligenz aus der Interaktion eines Körpers mit seiner Umwelt entstehen zu lassen. Gelernt wird durch Tun, nicht durch reines Datenstudium. Embodied AI ist damit eher die Lernmethode innerhalb des breiteren Felds Physical AI.

Foundation Model

Foundation Model bezeichnet ein großes, breit vortrainiertes KI-Modell, das als Basis für viele Aufgaben dient. In der Robotik liefert ein solches Modell allgemeines Wissen über Objekte und Handlungen, auf dem speziellere Fähigkeiten aufsetzen. NVIDIAs GR00T ist ein Beispiel für humanoide Roboter.

Imitation Learning

Imitation Learning ist ein Lernverfahren, bei dem ein Roboter vorgeführte Bewegungen nachahmt. Ein Mensch führt den Greifarm, das System speichert den Ablauf und verallgemeinert ihn. Diese Methode verkürzt das Training, weil nicht jede Bewegung durch millionenfaches Ausprobieren entstehen muss.

Lidar

Lidar steht für ein Sensorverfahren, das mit Laserpulsen Entfernungen misst und daraus ein dreidimensionales Abbild der Umgebung erzeugt. Roboter und autonome Fahrzeuge nutzen Lidar zur Orientierung. Für Physical AI liefert der Sensor die räumliche Wahrnehmung, ohne die keine sichere Bewegung möglich ist.

Reinforcement Learning

Reinforcement Learning, bestärkendes Lernen, trainiert ein System über Belohnung und Bestrafung. Der Roboter probiert in der Simulation unzählige Varianten und behält, was zum Ziel führt. Das Verfahren erzeugt robuste Strategien, kämpft aber mit der Übertragung von der Simulation in die Realität.

Sim-to-Real-Gap

Sim-to-Real-Gap bezeichnet die Lücke zwischen dem Verhalten eines Roboters in der Simulation und in der echten Welt. Staub, Licht und Materialtoleranzen lassen simulierte Erfolge real scheitern. Diese Lücke zu schließen gilt als eine der größten offenen Aufgaben der Physical AI.

Teleoperation

Teleoperation meint die Fernsteuerung eines Roboters durch einen Menschen. In der Physical AI dient sie zwei Zwecken: dem direkten Eingriff in heiklen Lagen und der Erzeugung von Trainingsdaten, weil die menschlichen Bewegungen aufgezeichnet und später vom Modell gelernt werden.

Vision-Language-Action-Modell (VLA)

Vision-Language-Action-Modell (VLA) ist eine Modellklasse, die ein Kamerabild und eine sprachliche Anweisung direkt in Steuerbefehle für einen Roboter übersetzt. Das VLA verbindet damit Sehen, Verstehen und Handeln in einem System und bildet einen Kern moderner Physical AI.

Weltmodell

Weltmodell bezeichnet eine KI, die den Lauf der physischen Welt vorhersagt und so Handlungsfolgen vorab simuliert. NVIDIA nennt diese Klasse World Foundation Models. Ein Weltmodell erlaubt es dem Roboter, eine Bewegung im Kopf durchzurechnen, bevor er sie ausführt.

FAQ: Physical AI: Die KI bekommt einen Körper

Roboterhand mit grünem Leucht-Smiley hält Spaghetti vor weißem Hintergrund
Künstliche Intelligenz steuert physische Roboter durch Sensoren und Aktoren, die wahrnehmen, planen und handeln können

Was ist Physical AI?

Physical AI ist künstliche Intelligenz, die physische Maschinen in der echten Welt steuert. Anders als ein Chatbot erzeugt sie nicht nur Inhalte, sondern verbindet KI-Modelle mit Sensoren und Aktoren, sodass Roboter wahrnehmen, planen und handeln können. Beispiele reichen vom Logistikroboter bis zur humanoiden Maschine.

Worin unterscheidet sich Physical AI von Embodied AI?

Physical AI ist der breitere Oberbegriff für KI in physischen Systemen. Embodied AI, verkörperte KI, beschreibt enger den Lernweg, bei dem Intelligenz aus der Interaktion eines Körpers mit der Umwelt entsteht. Embodied AI ist also eher die Methode, Physical AI das gesamte Feld vom Lernen bis zum produktiven Einsatz.

Ist Physical AI dasselbe wie Robotik?

Nein. Klassische Robotik folgt fest programmierten Abläufen und wiederholt sie exakt. Physical AI ergänzt den Roboter um lernende Modelle, die auf veränderte Lagen reagieren und eigenständig entscheiden, wie eine Aufgabe gelöst wird. Robotik liefert den Körper, Physical AI das anpassungsfähige Gehirn.

Welche Unternehmen treiben Physical AI in Deutschland voran?

Sichtbare deutsche Akteure sind Schaeffler als Aktor-Zulieferer und Anwender, Neura Robotics mit dem Neuraverse-Ökosystem, das Münchner Textil-Robotik-Unternehmen sewts sowie Kärcher mit autonomen Reinigungsmaschinen. Forschungsseitig prägt das Fraunhofer IPA in Stuttgart das Feld. International liefert NVIDIA die zentrale Software-Plattform.

Wie groß ist der Markt für Physical AI?

Belastbare Zahlen liegen eher in Stückzahlen als in geprüften Umsätzen vor. Der IFR meldet rund 542.000 neu installierte Industrieroboter im Jahr 2024 und einen Bestand von über 4,6 Millionen weltweit. Bei Humanoiden zählt der Verband etwa 46 Hersteller, Schaeffler plant rund hundert Einheiten bis 2030.

Welche Risiken bringt Physical AI mit sich?

Drei Felder stechen hervor: der Sim-to-Real-Gap, also das Scheitern simuliert gelernter Fähigkeiten in der Praxis, die Sicherheits- und Haftungsfrage bei autonom handelnden Maschinen unter EU-Maschinenverordnung und AI Act, sowie die hohen Anschaffungs- und Integrationskosten. Ein abgegrenzter Pilot senkt diese Risiken spürbar.

Quellen

  • International Federation of Robotics (IFR) | World Robotics 2025, Global robot demand in factories | https://ifr.org/ifr-press-releases/news/global-robot-demand-in-factories-doubles-over-10-years | besucht am 26.06.2026
  • International Federation of Robotics (IFR) | Robot density surges in Europe, Asia and the Americas | https://ifr.org/ifr-press-releases/news/robot-density-surges-in-europe-asia-and-americas | besucht am 26.06.2026
  • Gabler Wirtschaftslexikon (Oliver Bendel) | Definition Physical AI | https://wirtschaftslexikon.gabler.de/definition/physical-ai-177399 | besucht am 26.06.2026
  • NVIDIA | What is Generative Physical AI? | https://www.nvidia.com/en-us/glossary/generative-physical-ai/ | besucht am 26.06.2026
  • Schaeffler AG | Humanoide Roboter | https://www.schaeffler.com/de/technologie-innovation/technologie/humanoide-roboter/ | besucht am 26.06.2026
  • Neura Robotics | Technology Partnership mit Schaeffler | https://neura-robotics.com/neura-robotics-schaeffler-technology-partnership/ | besucht am 26.06.2026
  • Fraunhofer IPA | Embodied AI in der Industrie | https://www.ipa.fraunhofer.de/de/loesungen/embodied-ai-in-der-industrie.html | besucht am 26.06.2026
  • acatech | Forschungsbeirat Industrie 4.0: Physical AI | https://www.acatech.de/publikation/forschungsbeirat-physical-ai-industrie/ | besucht am 26.06.2026
4,5 18 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?