Ein Reasoning-Modell holt bei Mathematik-Wettbewerben Goldmedaillen, gibt aber bei einem ungelösten Problem sofort auf, sobald es im Netz nachschlägt. Beim Gespräch zwischen Fields-Medaillen-Träger Terence Tao und OpenAI-Forschungschef Mark Chen wird sichtbar, wo die echte Grenze verläuft. Für Entscheider steckt darin eine Lektion über den sinnvollen KI-Einsatz, die weit über die Mathematik hinausreicht.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenVor einem Jahr beschrieb Terence Tao den Stand der KI in der Mathematik mit einem Bild, das hängen blieb: ein wenig effektiver Doktorand. Beim erneuten Treffen mit Mark Chen am 4. März 2026 am IPAM der UCLA klingt die Bilanz anders. Chen verortet den Sprung in der Länge der Aufgaben, die ein Modell autonom bewältigt. Vor einem Jahr lag dieser Horizont bei Minuten, heute bei Goldmedaillen-Niveau in Mathematik- und Programmierwettbewerben.
Das Wichtigste in Kürze
- Ein OpenAI-Reasoning-Modell erreicht 2026 Gold-Niveau bei Mathematik- und Programmierwettbewerben, nach Bronze-Niveau ein Jahr zuvor.
- Den realen Fortschritt sieht Tao im langen Schwanz der Erdős-Probleme: 20 bis 30 wenig beachtete Aufgaben wurden mit minimaler menschlicher Aufsicht gelöst.
- Die eigentliche Grenze ist die Verifikation. Der sinnvolle KI-Anteil in einem Arbeitsablauf wächst nur so weit, wie sich das Ergebnis prüfen lässt.
- Für Unternehmen gilt dasselbe Prinzip: Ohne belastbaren Prüfmechanismus kippt KI-Automatisierung von Nutzen in Schaden.
Was hat sich in einem Jahr verändert?

Tao zählt die Werkzeuge auf, die im Alltag eines Mathematikers selbstverständlich geworden sind. Die Literatursuche per Deep-Research-Tool hat die klassische Recherche überholt. Code-Generierung verändert die Herangehensweise an ein Problem, selbst bei einem reinen Theoretiker. Ein Lemma, dessen Beweis er im Kopf hat, aber dessen Papier-und-Bleistift-Rechnung ihn langweilt, gibt er an die KI ab.
Chen widerspricht der alten Doktoranden-Einordnung nicht. Vor einem Jahr brach ein Modell bei größeren Arbeitspaketen zusammen, es halluzinierte und verlor den Faden. Das vergangene Jahr brachte eine Verschiebung: Die Fehlerquote sank, und damit lässt sich dem Modell längere zusammenhängende Arbeit anvertrauen.
Den Beleg liefert der Wettbewerbsvergleich. Vor einem Jahr erreichte OpenAI bei der Internationalen Mathematik-Olympiade etwa Bronze-Niveau, in diesem Sommer Gold über die Bandbreite von Schulmathematik- und Programmierwettbewerben.
Diese Beschleunigung passt ins Bild der vergangenen Monate. Allein in der ersten Märzwoche 2026 kamen über ein Dutzend neue KI-Modelle auf den Markt, vom Sprachmodell bis zum spezialisierten Agenten. Das Tempo erklärt, warum Tao und Chen ihre Einschätzung im Jahresabstand komplett neu kalibrieren mussten.
Warum löst die KI die einfachen Erdős-Probleme zuerst?

Den greifbarsten Fortschritt sieht Tao bei den Erdős-Problemen, einer Sammlung, die der Mathematiker Paul Erdős als Anreiz für die Forschung hinterlassen hat. Die seit Jahrzehnten bearbeiteten Kernprobleme knackt die KI bisher nicht. Bei diesen Aufgaben hat die Forschung bereits viel Aufmerksamkeit investiert, ohne Durchbruch.
Anders sieht es im langen Schwanz aus. Dort liegen Probleme mit kaum vorhandener Folgeliteratur, an denen sich nie jemand festgebissen hat. Hier haben die KI-Werkzeuge nach Taos Beobachtung 20 bis 30 Aufgaben mit minimaler menschlicher Aufsicht gelöst, verifiziert teils mit weiteren KI-Tools und formaler Verifikation.
Diese Engpass-Probleme galten bislang als unangreifbar, weil ihnen schlicht die menschliche Aufmerksamkeit fehlte.
Wie weit ein einzelner solcher Durchbruch reichen kann, zeigte sich im Mai, als ein internes OpenAI-Modell die Erdős-Vermutung zum Einheitsdistanzproblem widerlegte. Externe Mathematiker prüften den Beweis und hielten ihn für publikationsreif.
Tao zieht daraus eine kulturelle Prognose: Mathematiker werden künftig öffentliche Problemlisten mit klarer Schwierigkeitsstufung und sauberem Prüfprotokoll veröffentlichen, an denen sich KI und ambitionierte Amateure gleichermaßen abarbeiten.
Wo liegt die eigentliche Grenze?

Der entscheidende Befund des Gesprächs betrifft nicht die Intelligenz der Modelle, sondern das Nachprüfen. Tao formuliert es als Faustregel: Der Grad der Automatisierung, den man sinnvoll einsetzen kann, bevor das Ergebnis zu Müll wird, ist ungefähr proportional zur Strenge der Verifikation.
In der Kombinatorik oder bei Aufgaben, deren Lösung sich leicht formalisieren lässt, kommt die KI weit. Wo das Ziel dagegen eine gute übergreifende Theorie oder eine treffende Definition ist, lässt sich kaum automatisiert prüfen, und nur ein menschlicher Experte kann ein fundiertes Urteil abgeben.
Chen ergänzt eine Beobachtung, die das menschliche Verhalten der Modelle entlarvt. Bekommt ein Modell ein zu schweres Problem, läuft es Gefahr, im eigenen Denkprozess nach kurzem Test aufzugeben und dem Nutzer nur vorzuspielen, es habe sich angestrengt.
Bei den Erdős-Problemen lässt sich das beobachten: Das Modell ruft zuerst die Problem-Website auf, liest dort „ungelöst“ und kapituliert. Erst die Anweisung, das Internet zu meiden und es selbst zu versuchen, bringt es zur Lösung.
Tao warnt zugleich vor der Kehrseite formaler Verifikation. Die Sprache eines Verifikationssystems lässt sich von einem hinreichend mächtigen Modell ausnutzen, etwa indem es dem formalen System heimlich Axiome hinzufügt, um möglichst viel zu beweisen. Ein Verifikator, der gegen Menschen zuverlässig funktioniert, taugt nicht automatisch gegen eine KI, die gezielt auf maximalen Output trainiert ist.
Ein Modell, das im Wettbewerb Goldmedaillen holt, klingt nach gelöstem Problem. Der eigentliche Befund ist umgekehrt: Sobald niemand das Ergebnis prüfen kann, ist die schlauste KI wertlos. Genau diese Prüfinstanz fehlt in den meisten Unternehmen, die jetzt automatisieren.
— Michael Dobler, Herausgeber Dr. Web
Was bedeutet das für den KI-Einsatz im Unternehmen?

Der Befund aus der Mathematik lässt sich direkt übersetzen. Auch im Unternehmen gibt es eine Obergrenze dafür, wie viel KI sich in einen Arbeitsablauf einspeisen lässt, bevor sie mehr Fehler verursacht als löst. Diese Grenze hängt nicht an der Modellgröße, sondern an der Fähigkeit, das Ergebnis zu verifizieren. Eine Rechnung mit klarer Soll-Kontrolle eignet sich für hohe Automatisierung, eine strategische Einschätzung ohne Prüfmaßstab nicht.
Daraus folgt eine konkrete Reihenfolge für die Praxis. Prüfen Sie zuerst, an welcher Stelle Ihres Prozesses ein verlässlicher Soll-Wert existiert, gegen den sich ein KI-Ergebnis abgleichen lässt.
Bauen Sie diese Prüfung ein, bevor Sie die Automatisierung hochfahren. Behalten Sie den menschlichen Kontrollpunkt überall dort, wo der Maßstab weich bleibt. Wer mit kleinen, lokal laufenden Modellen für klar abgegrenzte Aufgaben startet, etwa beim Function-Calling per Mini-Modell, hält die Prüfbarkeit von Anfang an hoch.
Eine zweite Falle nennt Tao bei der Zielsetzung. KI erfüllt ein Ziel fast zu präzise nach dem Wortlaut. Wer ein Problem zu eng spezifiziert, bekommt die Lösung, verliert aber den Wert, der im Weg dorthin steckt: das Probieren, das Scheitern, die Nebenfunde. Übertragen auf Unternehmen heißt das, Aufträge an KI breiter zu fassen, als es der enge Endpunkt verlangt. Wer tiefer einsteigen will, findet im LLMs-Ratgeber die Grundlagen zur Modellauswahl und in der KI-Rubrik die laufende Einordnung.
Beide Forscher rechnen damit, dass sich der Aufgaben-Horizont weiter verlängert, von heutigen Stunden auf Tage. Der Engpass wandert dabei nicht zur Intelligenz, sondern bleibt bei der Verifikation und der sauberen Zielformulierung. Wer das verstanden hat, automatisiert die richtigen Dinge zuerst.