Die Mondmission Artemis II fliegt mit einem der fehlertolerantesten Computersysteme, das je für die Raumfahrt gebaut wurde. Vier Menschen umrunden damit erstmals seit über fünfzig Jahren wieder den Mond.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDer Bordrechner der Orion-Kapsel steuert bei Artemis II fast alles Sicherheitskritische, von der Lebenserhaltung bis zum Funkverkehr. Anders als zu Apollo-Zeiten hängt das Überleben der Crew vollständig an dieser Rechenarchitektur.
Das Wichtigste in Kürze
- Orion nutzt vier Flugsteuerungsmodule, jedes aus einem selbstprüfenden Prozessorpaar, zusammen also acht CPUs im Parallelbetrieb.
- Das System folgt einem „Fail-silent“-Prinzip: Ein fehlerhaftes Modul verstummt, statt eine falsche Antwort weiterzugeben.
- Drei der vier Module dürfen binnen 22 Sekunden ausfallen, das letzte bringt die Kapsel sicher durch.
Warum acht Prozessoren statt einem schnellen?

Stille statt falscher Antwort. Im Weltall kippen kosmische Strahlen einzelne Bits, was zu falschen Berechnungen führt. Statt drei Ergebnisse zu vergleichen und zu überstimmen, lässt NASA fehlerhafte Module einfach verstummen. Die gesunden Kanäle übernehmen nach fester Rangfolge. Communications of the ACM beschreibt die Architektur in einer ausführlichen Analyse.
Ein verstummtes Modul bleibt kein totes Gewicht. Das System setzt es zurück, gleicht seinen Zustand wieder ab und holt es mitten im Flug zurück in die Gruppe. Möglich macht das eine streng deterministische Architektur, in der alle Rechner im Gleichschritt arbeiten.
Was hat das mit alter Technik zu tun?

Bewährt schlägt neu. Im Herzen stecken zwei strahlungsgehärtete IBM-PowerPC-750-Prozessoren, eine CPU aus dem Jahr 2002, wie sie einst in Apples iBook G3 arbeitete. Für eine Mission ohne zweite Chance zählt nicht das schnellste Bauteil, sondern das am besten verstandene.
Gegen Software-Fehler, die alle vier Hauptmodule zugleich treffen könnten, fliegt zusätzlich eine völlig eigenständige Notfall-Software mit. Diese Notfall-Software läuft auf anderer Hardware und einem anderen Betriebssystem, von einem getrennten Team entwickelt. So fängt unähnliche Redundanz genau jene Fehler ab, die identische Systeme gemeinsam machen würden.
Diese Engineering-Disziplin wirkt aus der Zeit gefallen, ist aber hochaktuell. Beim Bau kritischer Systeme lohnt die Frage, ob das neueste Bauteil wirklich das zuverlässigste ist.
— Markus Seyfferth, Chefredakteur Dr. Web
Was lernen Entscheider daraus?

Determinismus zahlt sich aus. Mehrere Rechner im exakten Gleichschritt zu betreiben gilt in der Informatik als berüchtigt schwierig, weil kleinste Zeitabweichungen gesunde Systeme auseinanderlaufen lassen. NASA löst das durch kompromisslose Vorhersagbarkeit, eine Disziplin, die in der modernen Entwicklung zunehmend selten wird.
Übertragen Sie das Prinzip auf Ihre eigene kritische Infrastruktur. Redundanz und klare Ausfallregeln, dazu bewusst gewählte bewährte Komponenten, schlagen im Ernstfall jede ungeprüfte Neuerung. Wie heikel Ausfälle in öffentlicher Infrastruktur werden, zeigt unser Bericht zur souveränen KI-Cloud des Bundes.