KI-Boom: Begann die LLM-Geschichte 1991 in München?

München 1991: Die Wurzeln des heutigen KI-Booms

Markus Seyfferth

Autor Dr. Web

23. Juni 2026

4 Min. Lesezeit

Viele Bausteine des heutigen KI-Booms entstanden laut Jürgen Schmidhuber bereits 1991 in München, lange vor ChatGPT. In nur sechs Monaten skizzierte sein Team an der TU München mehrere Konzepte, die heute den Kern großer Sprachmodelle bilden. Was steckt hinter dieser Geschichtsschreibung, und warum profitiert ausgerechnet der deutsche Mittelstand bislang so wenig davon?

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Der heutige KI-Boom hat tiefe deutsche Wurzeln, auch wenn die Wertschöpfung heute anderswo stattfindet. Genau dieser Bruch zwischen Grundlagenforschung und Geschäft ist die eigentliche Lehre für den Standort, weit über die Frage hinaus, wer eine Idee zuerst hatte.

Das Wichtigste in Kürze

Schmidhuber datiert zentrale Vorläufer von Transformer, Vortraining und Distillation auf das Jahr 1991 in München.
Seine Vorwürfe gegen Hinton, Bengio und LeCun sind ein Standpunkt, keine neutrale Tatsache.
Deutschland liefert Spitzenforschung, hält aber nur sechs Prozent der globalen KI-Patente.
Für den Mittelstand zählt weniger der Ruhm als die Frage, welche Bausteine heute frei nutzbar sind.

Was genau entstand 1991 in München?

Tafel mit Formel, „München 1991“ und Mikrofon daneben — Schmidhuber entwickelte 1991 an der TU München Vorläufer moderner Transformer-Technologie und unüberwachtes Vortraining

Schmidhuber verortet gleich mehrere Grundpfeiler heutiger Sprachmodelle in ein halbes Jahr an der TU München, von einem Transformer-Vorläufer bis zum unüberwachten Vortraining.

Schon im März 1991 beschrieb Schmidhuber mit den sogenannten Fast Weights einen Mechanismus, den Fachleute heute als unnormalisierten linearen Transformer einordnen. Das KEY/VALUE-Prinzip hieß damals FROM/TO. Bemerkenswert ist die Skalierung: Diese Variante wächst linear, nicht quadratisch wie heutige Modelle. Wer die Architektur dahinter verstehen will, findet die Einordnung in unserem LLMs-Ratgeber.

Wenige Wochen später folgte das unüberwachte Vortrainieren tiefer Netze, in seinen Worten das P in ChatGPT. Sein Neural Sequence Chunker presste das Wissen eines Lehrernetzes in ein kleineres Schülernetz, ein Vorläufer der Distillation, die DeepSeek heute nutzt. Sepp Hochreiter beschrieb im selben Jahr das Problem verschwindender Gradienten und legte damit den Grundstein für LSTM.

Wie viel KI-Boom wurzelt wirklich in München?

Zwei blaue Aktenordner, beschriftet mit „Fast Weights“ und „ChatGPT“, vor weißem Hintergrund — Vom Technischen Bericht von 1991 zum Sprachmodell von heute liegt ein weiter Weg über Daten und Rechenleistung.

Die technischen Linien sind real und gut belegt, doch der Sprung vom Konzept von 1991 zum funktionierenden Sprachmodell von heute verlangte Daten, Rechenleistung und Architekturen, die erst Jahrzehnte später zusammenkamen.

Schmidhuber wirft Geoffrey Hinton, Yoshua Bengio und Yann LeCun in einem ausführlichen Dossier vor, seine Arbeiten ohne Zitat weiterverwendet zu haben. Diese Vorwürfe sind sein Standpunkt, nicht ein neutraler Befund. Nachzulesen sind sie im Essay aus seinem Labor. LeCun kontert, Schmidhuber reklamiere Verdienste oft unangemessen für sich.

Eine nüchterne Einordnung trennt zwei Dinge. Die Grundideen entstanden früh, das stimmt. Den heutigen Boom trägt aber erst die Kombination aus dem Transformer von 2017, riesigen Textmengen und Grafikkarten. Genau diese Verbindung gelang weder 1991 noch in Deutschland. Die Geschichte zeigt sich also weniger als gestohlene Idee, eher als verpasste Anschlussfähigkeit.

Deutschland hat den Motor des KI-Booms mitgebaut und sich dann nicht ans Steuer gesetzt. Ein Patent in der Schublade zählt weniger als ein Produkt im Markt.
— Michael Dobler, Herausgeber Dr. Web

Warum verschenkt der Standort die Kommerzialisierung?

Pokal mit Deutschlandkarte, blauem Pin, Geschenkanhänger und Plakette vor weißem Hintergrund — Wer eine Idee zuerst hat, gewinnt nicht automatisch den Markt: die Lehre für den Standort Deutschland.

Deutschland produziert Spitzenforschung und lässt die Verwertung liegen: Nur sechs Prozent der globalen KI-Patente stammen von hier, während die USA auf 27 Prozent und China auf 29 Prozent kommen.

Die Gründe für diese Lücke sind bekannt. Talente wandern für bessere Verträge in die USA ab, viele Firmen investieren zögerlich und hoffen auf günstige Fertiglösungen. Parallel dazu bindet die Regulierung Ressourcen, die anderswo in Produkte fließen. So bleibt die Forschungsstärke ein Schatz, der selten gehoben wird.

Für den Mittelstand folgt daraus eine nüchterne Handlungslinie. Prüfen Sie, welche KI-Bausteine bereits frei verfügbar sind, statt auf das nächste US-Modell zu warten. Offene Modelle, die Sie selbst betreiben, senken die Abhängigkeit und passen oft besser zur DSGVO. Wie weit das im Alltag trägt, zeigt unsere Einordnung zu lokalen KI-Modellen.