
Cloudflare hat seine AI-Crawler-Statistik für den Mai 2026 veröffentlicht. Mehr als die Hälfte aller registrierten Bot-Anfragen großer KI-Anbieter dienen ausschließlich dem Modell-Training, nur ein kleiner Bruchteil entfällt auf Echtzeit-Suchen für aktive User-Prompts.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenWann haben Sie zuletzt Ihre Server-Logs auf KI-Bot-Traffic geprüft? Die Daten von Cloudflare zeigen, dass die Belastung Ihrer Infrastruktur durch KI-Crawler weiter steigt, der Rückfluss in Form von Klicks oder Sichtbarkeit aber überschaubar bleibt.
Das Wichtigste in Kürze
- 52,5 Prozent aller AI-Crawler-Anfragen im Mai dienen reinem Modell-Training, im April waren es noch 50,7 Prozent
- 36,1 Prozent fallen unter Mixed-Purpose, also Training und Retrieval gleichzeitig
- Lediglich 8,4 Prozent entfallen auf Live-Suche für aktive User-Prompts, leichter Anstieg gegenüber April
- Suchprodukte wie ChatGPT Search, Perplexity und Claude gewinnen Anteil, dominieren den Crawl aber nicht
Warum die Crawl-Verteilung für Publisher entscheidend wird

Der Trainings-Anteil wächst Monat für Monat. Die Differenz zwischen April und Mai mag mit 1,8 Prozentpunkten klein wirken, kumuliert über das Jahr verdoppelt sich der Trainingsdruck auf Server-Infrastruktur deutlich. Die Last bezahlen Publisher, der Gegenwert in Form von Traffic bleibt häufig aus.
Die Search-Quote liegt nüchtern bei 8,4 Prozent. Anders gesagt: Nur eine von zwölf Bot-Anfragen großer KI-Anbieter führt überhaupt zu einer aktiven Antwort, in der Ihre Inhalte gegenüber einem realen User erscheinen könnten. Die restlichen elf Anfragen wandern in Training oder Mixed-Purpose-Indizes.
Selbst wenn Ihre Domain in einer KI-Antwort referenziert wird, ist die Wahrscheinlichkeit einer Klick-Weitergabe nochmal niedriger. Ein Effekt, der die Diskussion um Generative Engine Optimization handfest unterfüttert.
Der Wettbewerb zwischen den Suchprodukten ist sichtbar. ChatGPT Search, Perplexity und Claude vergrößern ihren Search-Anteil gegenüber dem April. Das verschiebt die strategische Priorität von Publisher-Optimierung: Wer in ChatGPT Search auftaucht, kann mit mehr Auswirkung rechnen als bei einer reinen Trainings-Aufnahme.
Cloudflare liefert mit dieser Statistik die ehrlichste Antwort auf eine ungeliebte Frage: KI-Crawler nehmen mehr, als sie zurückgeben. Für DACH-Publisher heißt das, jede Robots.txt-Entscheidung sollte explizit und überlegt sein. Pauschal alles freigeben ist kein Geschäftsmodell mehr.
— Markus Seyfferth, Chefredakteur Dr. Web
Was Site-Betreiber jetzt prüfen sollten

Die Robots-Strategie bekommt eine neue Dringlichkeit. Wer KI-Bots pauschal blockiert, verliert auch Search-Treffer. Wer alle einlässt, finanziert das Modell-Training fremder Konzerne mit eigener Infrastruktur. Die saubere Lösung trennt Search-Bots wie OAI-SearchBot oder Perplexity-User von reinen Trainings-Bots wie GPTBot in der robots.txt.
Die llms.txt-Datei wird zum zweiten Hebel. Wer eine maschinenlesbare Inhalts-Übersicht bereitstellt, kann die Inhalte priorisieren, die für Search wertvoll sind, und gleichzeitig sensible Bereiche zurückhalten. Ein erstes Lighthouse-Audit prüft die llms.txt bereits, weitere Tools werden folgen.
Die Reporting-Linie hilft Geschäftsführungen. Cloudflare-Kunden sehen die AI-Crawl-Verteilung in der Radar-Konsole, andere Anbieter wie Vercel oder Bunny.net liefern vergleichbare Daten. Wer monatlich den Anteil von Training vs. Search seiner eingehenden Bot-Anfragen mitschreibt, sieht Trends frühzeitig und kann die robots.txt nachschärfen.
Die Geschäftsentscheidung bleibt am Ende inhaltlich. Welche Inhalte erzeugen Sie mit dem Anspruch, in KI-Antworten zitiert zu werden? Welche Inhalte bilden Ihren Wettbewerbsvorteil, der nicht in fremde Modelle wandern soll? Eine Inventarisierung des eigenen Contents trennt strategisch beide Töpfe und legt damit fest, wo robots.txt schließt und wo sie öffnet.
Mehr Newshunger?
