AI-Crawler: Sind 52% reine Trainingsdaten? Ja.

52 Prozent für Training, 8 für Suche: Cloudflare-Daten

Michael Dobler

Autor Dr. Web

22. Mai 2026

Aktualisiert: 24. Mai 2026

3 Min. Lesezeit

Zwei Gläser: Großes mit „Training“, kleines mit „Search“. Wassertropfen über dem großen Glas — Cloudflare-Statistik Mai 2026: Über 50 Prozent der Bot-Anfragen großer KI-Anbieter dienen dem Modell-Training, nur ein kleiner Teil für Echtzeit-Suchen

Cloudflare hat seine AI-Crawler-Statistik für den Mai 2026 veröffentlicht. Mehr als die Hälfte aller registrierten Bot-Anfragen großer KI-Anbieter dienen ausschließlich dem Modell-Training, nur ein kleiner Bruchteil entfällt auf Echtzeit-Suchen für aktive User-Prompts.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Wann haben Sie zuletzt Ihre Server-Logs auf KI-Bot-Traffic geprüft? Die Daten von Cloudflare zeigen, dass die Belastung Ihrer Infrastruktur durch KI-Crawler weiter steigt, der Rückfluss in Form von Klicks oder Sichtbarkeit aber überschaubar bleibt.

Das Wichtigste in Kürze

52,5 Prozent aller AI-Crawler-Anfragen im Mai dienen reinem Modell-Training, im April waren es noch 50,7 Prozent
36,1 Prozent fallen unter Mixed-Purpose, also Training und Retrieval gleichzeitig
Lediglich 8,4 Prozent entfallen auf Live-Suche für aktive User-Prompts, leichter Anstieg gegenüber April
Suchprodukte wie ChatGPT Search, Perplexity und Claude gewinnen Anteil, dominieren den Crawl aber nicht

Warum die Crawl-Verteilung für Publisher entscheidend wird

Maschine teilt bunte Würfel (Daten) für KI-Training und Suche auf; mit Beschriftungen — Trainingsanfragen belasten Server-Infrastruktur von Publishern stärker, während nur 8,4 Prozent Search-Traffic generieren

Der Trainings-Anteil wächst Monat für Monat. Die Differenz zwischen April und Mai mag mit 1,8 Prozentpunkten klein wirken, kumuliert über das Jahr verdoppelt sich der Trainingsdruck auf Server-Infrastruktur deutlich. Die Last bezahlen Publisher, der Gegenwert in Form von Traffic bleibt häufig aus.

Die Search-Quote liegt nüchtern bei 8,4 Prozent. Anders gesagt: Nur eine von zwölf Bot-Anfragen großer KI-Anbieter führt überhaupt zu einer aktiven Antwort, in der Ihre Inhalte gegenüber einem realen User erscheinen könnten. Die restlichen elf Anfragen wandern in Training oder Mixed-Purpose-Indizes.

Selbst wenn Ihre Domain in einer KI-Antwort referenziert wird, ist die Wahrscheinlichkeit einer Klick-Weitergabe nochmal niedriger. Ein Effekt, der die Diskussion um Generative Engine Optimization handfest unterfüttert.

Der Wettbewerb zwischen den Suchprodukten ist sichtbar. ChatGPT Search, Perplexity und Claude vergrößern ihren Search-Anteil gegenüber dem April. Das verschiebt die strategische Priorität von Publisher-Optimierung: Wer in ChatGPT Search auftaucht, kann mit mehr Auswirkung rechnen als bei einer reinen Trainings-Aufnahme.

Cloudflare liefert mit dieser Statistik die ehrlichste Antwort auf eine ungeliebte Frage: KI-Crawler nehmen mehr, als sie zurückgeben. Für DACH-Publisher heißt das, jede Robots.txt-Entscheidung sollte explizit und überlegt sein. Pauschal alles freigeben ist kein Geschäftsmodell mehr.
— Markus Seyfferth, Chefredakteur Dr. Web

Was Site-Betreiber jetzt prüfen sollten

Oranger Trichter mit deutschem Text zu Datenfilterung und einer Lupe am Auslass — KI-Bots selektiv blockieren: Search-Bots erlauben, Trainings-Bots in robots.txt sperren, um Suchrang zu halten und Infrastruktur zu schützen

Die Robots-Strategie bekommt eine neue Dringlichkeit. Wer KI-Bots pauschal blockiert, verliert auch Search-Treffer. Wer alle einlässt, finanziert das Modell-Training fremder Konzerne mit eigener Infrastruktur. Die saubere Lösung trennt Search-Bots wie OAI-SearchBot oder Perplexity-User von reinen Trainings-Bots wie GPTBot in der robots.txt.

Die llms.txt-Datei wird zum zweiten Hebel. Wer eine maschinenlesbare Inhalts-Übersicht bereitstellt, kann die Inhalte priorisieren, die für Search wertvoll sind, und gleichzeitig sensible Bereiche zurückhalten. Ein erstes Lighthouse-Audit prüft die llms.txt bereits, weitere Tools werden folgen.

Die Reporting-Linie hilft Geschäftsführungen. Cloudflare-Kunden sehen die AI-Crawl-Verteilung in der Radar-Konsole, andere Anbieter wie Vercel oder Bunny.net liefern vergleichbare Daten. Wer monatlich den Anteil von Training vs. Search seiner eingehenden Bot-Anfragen mitschreibt, sieht Trends frühzeitig und kann die robots.txt nachschärfen.

Die Geschäftsentscheidung bleibt am Ende inhaltlich. Welche Inhalte erzeugen Sie mit dem Anspruch, in KI-Antworten zitiert zu werden? Welche Inhalte bilden Ihren Wettbewerbsvorteil, der nicht in fremde Modelle wandern soll? Eine Inventarisierung des eigenen Contents trennt strategisch beide Töpfe und legt damit fest, wo robots.txt schließt und wo sie öffnet.

Mehr Newshunger?

Eine weiße Kugel mit einem grünen Ausschnitt davor stehend eine kleine Figur mit einer Zeitung — Google Lighthouse prüft llms.txt-Dateien. Neue KI-Leitlinien werden Rankingfaktor. Größtes Search-Update seit 25 Jahren

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

52 Prozent für Training, 8 für Suche: Cloudflare-Daten

Das Wichtigste in Kürze

Warum die Crawl-Verteilung für Publisher entscheidend wird

Was Site-Betreiber jetzt prüfen sollten

Mehr Newshunger?

Schreiben Sie einen Kommentar Antwort abbrechen

NASAs Mondcomputer verträgt drei Totalausfälle

Claude Fable 5: Hält das Spitzenmodell, was es verspricht?

Im Atomkriegs-Spiel kennt die KI keinen Rückzug

Ein Handyhersteller fordert Claude Code heraus

Die RCE-Lücke, die AMD erst nicht fixen wollte

52 Prozent für Training, 8 für Suche: Cloudflare-Daten

Das Wichtigste in Kürze

Warum die Crawl-Verteilung für Publisher entscheidend wird

Was Site-Betreiber jetzt prüfen sollten

Mehr Newshunger?

Schreiben Sie einen Kommentar Antwort abbrechen

NASAs Mondcomputer verträgt drei Totalausfälle

Claude Fable 5: Hält das Spitzenmodell, was es verspricht?

Im Atomkriegs-Spiel kennt die KI keinen Rückzug

Ein Handyhersteller fordert Claude Code heraus

Die RCE-Lücke, die AMD erst nicht fixen wollte

Mehr solcher Artikel? Jetzt kostenlos abonnieren.

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.