News KI Technologie & Innovation

Wann gibt KI bei Mathe auf? Wenn sie googelt.

Markus Seyfferth

Autor Dr. Web

17. Juni 2026

6 Min. Lesezeit

Ein Reasoning-Modell holt bei Mathematik-Wettbewerben Goldmedaillen, gibt aber bei einem ungelösten Problem sofort auf, sobald es im Netz nachschlägt. Beim Gespräch zwischen Fields-Medaillen-Träger Terence Tao und OpenAI-Forschungschef Mark Chen wird sichtbar, wo die echte Grenze verläuft. Für Entscheider steckt darin eine Lektion über den sinnvollen KI-Einsatz, die weit über die Mathematik hinausreicht.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Vor einem Jahr beschrieb Terence Tao den Stand der KI in der Mathematik mit einem Bild, das hängen blieb: ein wenig effektiver Doktorand. Beim erneuten Treffen mit Mark Chen am 4. März 2026 am IPAM der UCLA klingt die Bilanz anders. Chen verortet den Sprung in der Länge der Aufgaben, die ein Modell autonom bewältigt. Vor einem Jahr lag dieser Horizont bei Minuten, heute bei Goldmedaillen-Niveau in Mathematik- und Programmierwettbewerben.

Das Wichtigste in Kürze

Ein OpenAI-Reasoning-Modell erreicht 2026 Gold-Niveau bei Mathematik- und Programmierwettbewerben, nach Bronze-Niveau ein Jahr zuvor.
Den realen Fortschritt sieht Tao im langen Schwanz der Erdős-Probleme: 20 bis 30 wenig beachtete Aufgaben wurden mit minimaler menschlicher Aufsicht gelöst.
Die eigentliche Grenze ist die Verifikation. Der sinnvolle KI-Anteil in einem Arbeitsablauf wächst nur so weit, wie sich das Ergebnis prüfen lässt.
Für Unternehmen gilt dasselbe Prinzip: Ohne belastbaren Prüfmechanismus kippt KI-Automatisierung von Nutzen in Schaden.

Was hat sich in einem Jahr verändert?

Papier mit mathematischer Formel (Basler Problem), Haken und rotem Stift von oben — Mathematiker Tao nutzt KI-Tools wie Deep-Research und Code-Generierung im Alltag. Selbst theoretische Beweise delegiert er an KI-Systeme

Tao zählt die Werkzeuge auf, die im Alltag eines Mathematikers selbstverständlich geworden sind. Die Literatursuche per Deep-Research-Tool hat die klassische Recherche überholt. Code-Generierung verändert die Herangehensweise an ein Problem, selbst bei einem reinen Theoretiker. Ein Lemma, dessen Beweis er im Kopf hat, aber dessen Papier-und-Bleistift-Rechnung ihn langweilt, gibt er an die KI ab.

Chen widerspricht der alten Doktoranden-Einordnung nicht. Vor einem Jahr brach ein Modell bei größeren Arbeitspaketen zusammen, es halluzinierte und verlor den Faden. Das vergangene Jahr brachte eine Verschiebung: Die Fehlerquote sank, und damit lässt sich dem Modell längere zusammenhängende Arbeit anvertrauen.

Den Beleg liefert der Wettbewerbsvergleich. Vor einem Jahr erreichte OpenAI bei der Internationalen Mathematik-Olympiade etwa Bronze-Niveau, in diesem Sommer Gold über die Bandbreite von Schulmathematik- und Programmierwettbewerben.

Diese Beschleunigung passt ins Bild der vergangenen Monate. Allein in der ersten Märzwoche 2026 kamen über ein Dutzend neue KI-Modelle auf den Markt, vom Sprachmodell bis zum spezialisierten Agenten. Das Tempo erklärt, warum Tao und Chen ihre Einschätzung im Jahresabstand komplett neu kalibrieren mussten.

Warum löst die KI die einfachen Erdős-Probleme zuerst?

Tasse mit Aufschrift — Künstliche Intelligenz löst vermehrt weniger bekannte Erdős-Probleme, während die bekannten Kernprobleme weiterhin ungelöst bleiben

Den greifbarsten Fortschritt sieht Tao bei den Erdős-Problemen, einer Sammlung, die der Mathematiker Paul Erdős als Anreiz für die Forschung hinterlassen hat. Die seit Jahrzehnten bearbeiteten Kernprobleme knackt die KI bisher nicht. Bei diesen Aufgaben hat die Forschung bereits viel Aufmerksamkeit investiert, ohne Durchbruch.

Anders sieht es im langen Schwanz aus. Dort liegen Probleme mit kaum vorhandener Folgeliteratur, an denen sich nie jemand festgebissen hat. Hier haben die KI-Werkzeuge nach Taos Beobachtung 20 bis 30 Aufgaben mit minimaler menschlicher Aufsicht gelöst, verifiziert teils mit weiteren KI-Tools und formaler Verifikation.

Diese Engpass-Probleme galten bislang als unangreifbar, weil ihnen schlicht die menschliche Aufmerksamkeit fehlte.

Wie weit ein einzelner solcher Durchbruch reichen kann, zeigte sich im Mai, als ein internes OpenAI-Modell die Erdős-Vermutung zum Einheitsdistanzproblem widerlegte. Externe Mathematiker prüften den Beweis und hielten ihn für publikationsreif.

Tao zieht daraus eine kulturelle Prognose: Mathematiker werden künftig öffentliche Problemlisten mit klarer Schwierigkeitsstufung und sauberem Prüfprotokoll veröffentlichen, an denen sich KI und ambitionierte Amateure gleichermaßen abarbeiten.

Wo liegt die eigentliche Grenze?

Ein hölzerner Abakus mit einem orangefarbenen Kleinbuchstaben „g“ anstelle einer Kugel — KI-Ergebnisse benötigen strenge Verifikation: Je einfacher die Überprüfung, desto zuverlässiger die Automatisierung durch KI-Modelle

Der entscheidende Befund des Gesprächs betrifft nicht die Intelligenz der Modelle, sondern das Nachprüfen. Tao formuliert es als Faustregel: Der Grad der Automatisierung, den man sinnvoll einsetzen kann, bevor das Ergebnis zu Müll wird, ist ungefähr proportional zur Strenge der Verifikation.

In der Kombinatorik oder bei Aufgaben, deren Lösung sich leicht formalisieren lässt, kommt die KI weit. Wo das Ziel dagegen eine gute übergreifende Theorie oder eine treffende Definition ist, lässt sich kaum automatisiert prüfen, und nur ein menschlicher Experte kann ein fundiertes Urteil abgeben.

Chen ergänzt eine Beobachtung, die das menschliche Verhalten der Modelle entlarvt. Bekommt ein Modell ein zu schweres Problem, läuft es Gefahr, im eigenen Denkprozess nach kurzem Test aufzugeben und dem Nutzer nur vorzuspielen, es habe sich angestrengt.

Bei den Erdős-Problemen lässt sich das beobachten: Das Modell ruft zuerst die Problem-Website auf, liest dort „ungelöst“ und kapituliert. Erst die Anweisung, das Internet zu meiden und es selbst zu versuchen, bringt es zur Lösung.

Tao warnt zugleich vor der Kehrseite formaler Verifikation. Die Sprache eines Verifikationssystems lässt sich von einem hinreichend mächtigen Modell ausnutzen, etwa indem es dem formalen System heimlich Axiome hinzufügt, um möglichst viel zu beweisen. Ein Verifikator, der gegen Menschen zuverlässig funktioniert, taugt nicht automatisch gegen eine KI, die gezielt auf maximalen Output trainiert ist.

Ein Modell, das im Wettbewerb Goldmedaillen holt, klingt nach gelöstem Problem. Der eigentliche Befund ist umgekehrt: Sobald niemand das Ergebnis prüfen kann, ist die schlauste KI wertlos. Genau diese Prüfinstanz fehlt in den meisten Unternehmen, die jetzt automatisieren.
— Michael Dobler, Herausgeber Dr. Web

Was bedeutet das für den KI-Einsatz im Unternehmen?

Ein alter roter Tischrechner zeigt im Display — KI-Einsatz in Unternehmen hat eine Obergrenze: Sie verursacht mehr Fehler als sie löst, wenn die Verifizierbarkeit der Ergebnisse sinkt

Der Befund aus der Mathematik lässt sich direkt übersetzen. Auch im Unternehmen gibt es eine Obergrenze dafür, wie viel KI sich in einen Arbeitsablauf einspeisen lässt, bevor sie mehr Fehler verursacht als löst. Diese Grenze hängt nicht an der Modellgröße, sondern an der Fähigkeit, das Ergebnis zu verifizieren. Eine Rechnung mit klarer Soll-Kontrolle eignet sich für hohe Automatisierung, eine strategische Einschätzung ohne Prüfmaßstab nicht.

Daraus folgt eine konkrete Reihenfolge für die Praxis. Prüfen Sie zuerst, an welcher Stelle Ihres Prozesses ein verlässlicher Soll-Wert existiert, gegen den sich ein KI-Ergebnis abgleichen lässt.

Bauen Sie diese Prüfung ein, bevor Sie die Automatisierung hochfahren. Behalten Sie den menschlichen Kontrollpunkt überall dort, wo der Maßstab weich bleibt. Wer mit kleinen, lokal laufenden Modellen für klar abgegrenzte Aufgaben startet, etwa beim Function-Calling per Mini-Modell, hält die Prüfbarkeit von Anfang an hoch.

Eine zweite Falle nennt Tao bei der Zielsetzung. KI erfüllt ein Ziel fast zu präzise nach dem Wortlaut. Wer ein Problem zu eng spezifiziert, bekommt die Lösung, verliert aber den Wert, der im Weg dorthin steckt: das Probieren, das Scheitern, die Nebenfunde. Übertragen auf Unternehmen heißt das, Aufträge an KI breiter zu fassen, als es der enge Endpunkt verlangt. Wer tiefer einsteigen will, findet im LLMs-Ratgeber die Grundlagen zur Modellauswahl und in der KI-Rubrik die laufende Einordnung.

Beide Forscher rechnen damit, dass sich der Aufgaben-Horizont weiter verlängert, von heutigen Stunden auf Tage. Der Engpass wandert dabei nicht zur Intelligenz, sondern bleibt bei der Verifikation und der sauberen Zielformulierung. Wer das verstanden hat, automatisiert die richtigen Dinge zuerst.

Mehr Newshunger?

4,1 10 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Jede Woche ein bisschen klüger.

Die besten Artikel, kostenlos, jeden Donnerstag.

Markus Seyfferth

ist seit 2019 geschäftsführender Gesellschafter von Dr. Web. Er verantwortet die redaktionelle Ausrichtung des Dr. Web Magazins und…

Autor

Markus Seyfferth

ist seit 2019 geschäftsführender Gesellschafter von Dr. Web. Er verantwortet die redaktionelle Ausrichtung des Dr. Web Magazins und bringt seine Expertise in den Bereichen Webdesign, Webentwicklung, WordPress, SEO sowie Online Marketing ein. Zudem verfasst er regelmäßig Fachartikel, um sein Wissen und seine Erfahrungen zu teilen und anderen im Online Marketing weiterzuhelfen.

845 Artikel veröffentlicht

www.drweb.de

Alle Artikel

Schreiben Sie einen Kommentar Antwort abbrechen

Acht alte Irrtümer über Netze, die bis heute halten

Markus Seyfferth

Ein Klassiker der Informatik macht wieder die Runde: die acht Trugschlüsse verteilter Systeme. Über vierzig Jahre nach ihrer Entstehung beschreiben sie Annahmen über Netze,...

Mehr erfahren

Schneider Electric und Foxconn bauen KI-Rechenzentren

Zwei Schwergewichte bündeln ihre Kräfte für die Maschinenräume der KI: Schneider Electric und Foxconn entwickeln gemeinsam Infrastruktur für…
Netzentgelte: Erzeuger und Speicher zahlen mit

Die Bundesnetzagentur krempelt die Netzentgelte um. Künftig sollen auch Erzeuger und Speicher an den Netzkosten beteiligt werden, bisher…
Arcade sammelt 60 Millionen für sichere KI-Agenten

Eine junge Firma aus San Francisco bekommt frisches Kapital für ein konkretes Problem: KI-Agenten im Unternehmen tun oft…
Kritische Rohstoffe: EU-Strategie fällt beim Rechnungshof durch

Der Europäische Rechnungshof hat die EU-Strategie für kritische Rohstoffe geprüft und kommt zu einem ernüchternden Urteil. Die Ziele…

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Wann gibt KI bei Mathe auf? Wenn sie googelt.

Das Wichtigste in Kürze

Was hat sich in einem Jahr verändert?

Warum löst die KI die einfachen Erdős-Probleme zuerst?

Wo liegt die eigentliche Grenze?

Was bedeutet das für den KI-Einsatz im Unternehmen?

Mehr Newshunger?

Schreiben Sie einen Kommentar Antwort abbrechen

Acht alte Irrtümer über Netze, die bis heute halten

Schneider Electric und Foxconn bauen KI-Rechenzentren

Netzentgelte: Erzeuger und Speicher zahlen mit

Arcade sammelt 60 Millionen für sichere KI-Agenten

Kritische Rohstoffe: EU-Strategie fällt beim Rechnungshof durch

Mehr solcher Artikel? Jetzt kostenlos abonnieren.

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.