52 Prozent für Training, 8 für Suche: Cloudflare-Daten

Michael Dobler
Autor Dr. Web
Aktualisiert:
3 Min. Lesezeit
52 Prozent für Training, 8 für Suche: Cloudflare-Daten
Zwei Gläser: Großes mit „Training“, kleines mit „Search“. Wassertropfen über dem großen Glas
Cloudflare-Statistik Mai 2026: Über 50 Prozent der Bot-Anfragen großer KI-Anbieter dienen dem Modell-Training, nur ein kleiner Teil für Echtzeit-Suchen

Cloudflare hat seine AI-Crawler-Statistik für den Mai 2026 veröffentlicht. Mehr als die Hälfte aller registrierten Bot-Anfragen großer KI-Anbieter dienen ausschließlich dem Modell-Training, nur ein kleiner Bruchteil entfällt auf Echtzeit-Suchen für aktive User-Prompts.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Wann haben Sie zuletzt Ihre Server-Logs auf KI-Bot-Traffic geprüft? Die Daten von Cloudflare zeigen, dass die Belastung Ihrer Infrastruktur durch KI-Crawler weiter steigt, der Rückfluss in Form von Klicks oder Sichtbarkeit aber überschaubar bleibt.

Das Wichtigste in Kürze

  • 52,5 Prozent aller AI-Crawler-Anfragen im Mai dienen reinem Modell-Training, im April waren es noch 50,7 Prozent
  • 36,1 Prozent fallen unter Mixed-Purpose, also Training und Retrieval gleichzeitig
  • Lediglich 8,4 Prozent entfallen auf Live-Suche für aktive User-Prompts, leichter Anstieg gegenüber April
  • Suchprodukte wie ChatGPT Search, Perplexity und Claude gewinnen Anteil, dominieren den Crawl aber nicht

Warum die Crawl-Verteilung für Publisher entscheidend wird

Maschine teilt bunte Würfel (Daten) für KI-Training und Suche auf; mit Beschriftungen
Trainingsanfragen belasten Server-Infrastruktur von Publishern stärker, während nur 8,4 Prozent Search-Traffic generieren

Der Trainings-Anteil wächst Monat für Monat. Die Differenz zwischen April und Mai mag mit 1,8 Prozentpunkten klein wirken, kumuliert über das Jahr verdoppelt sich der Trainingsdruck auf Server-Infrastruktur deutlich. Die Last bezahlen Publisher, der Gegenwert in Form von Traffic bleibt häufig aus.

Die Search-Quote liegt nüchtern bei 8,4 Prozent. Anders gesagt: Nur eine von zwölf Bot-Anfragen großer KI-Anbieter führt überhaupt zu einer aktiven Antwort, in der Ihre Inhalte gegenüber einem realen User erscheinen könnten. Die restlichen elf Anfragen wandern in Training oder Mixed-Purpose-Indizes.

Selbst wenn Ihre Domain in einer KI-Antwort referenziert wird, ist die Wahrscheinlichkeit einer Klick-Weitergabe nochmal niedriger. Ein Effekt, der die Diskussion um Generative Engine Optimization handfest unterfüttert.

Der Wettbewerb zwischen den Suchprodukten ist sichtbar. ChatGPT Search, Perplexity und Claude vergrößern ihren Search-Anteil gegenüber dem April. Das verschiebt die strategische Priorität von Publisher-Optimierung: Wer in ChatGPT Search auftaucht, kann mit mehr Auswirkung rechnen als bei einer reinen Trainings-Aufnahme.

Cloudflare liefert mit dieser Statistik die ehrlichste Antwort auf eine ungeliebte Frage: KI-Crawler nehmen mehr, als sie zurückgeben. Für DACH-Publisher heißt das, jede Robots.txt-Entscheidung sollte explizit und überlegt sein. Pauschal alles freigeben ist kein Geschäftsmodell mehr.

— Markus Seyfferth, Chefredakteur Dr. Web

Was Site-Betreiber jetzt prüfen sollten

Oranger Trichter mit deutschem Text zu Datenfilterung und einer Lupe am Auslass
KI-Bots selektiv blockieren: Search-Bots erlauben, Trainings-Bots in robots.txt sperren, um Suchrang zu halten und Infrastruktur zu schützen

Die Robots-Strategie bekommt eine neue Dringlichkeit. Wer KI-Bots pauschal blockiert, verliert auch Search-Treffer. Wer alle einlässt, finanziert das Modell-Training fremder Konzerne mit eigener Infrastruktur. Die saubere Lösung trennt Search-Bots wie OAI-SearchBot oder Perplexity-User von reinen Trainings-Bots wie GPTBot in der robots.txt.

Die llms.txt-Datei wird zum zweiten Hebel. Wer eine maschinenlesbare Inhalts-Übersicht bereitstellt, kann die Inhalte priorisieren, die für Search wertvoll sind, und gleichzeitig sensible Bereiche zurückhalten. Ein erstes Lighthouse-Audit prüft die llms.txt bereits, weitere Tools werden folgen.

Die Reporting-Linie hilft Geschäftsführungen. Cloudflare-Kunden sehen die AI-Crawl-Verteilung in der Radar-Konsole, andere Anbieter wie Vercel oder Bunny.net liefern vergleichbare Daten. Wer monatlich den Anteil von Training vs. Search seiner eingehenden Bot-Anfragen mitschreibt, sieht Trends frühzeitig und kann die robots.txt nachschärfen.

Die Geschäftsentscheidung bleibt am Ende inhaltlich. Welche Inhalte erzeugen Sie mit dem Anspruch, in KI-Antworten zitiert zu werden? Welche Inhalte bilden Ihren Wettbewerbsvorteil, der nicht in fremde Modelle wandern soll? Eine Inventarisierung des eigenen Contents trennt strategisch beide Töpfe und legt damit fest, wo robots.txt schließt und wo sie öffnet.

Mehr Newshunger?

Eine weiße Kugel mit einem grünen Ausschnitt davor stehend eine kleine Figur mit einer Zeitung
Google Lighthouse prüft llms.txt-Dateien. Neue KI-Leitlinien werden Rankingfaktor. Größtes Search-Update seit 25 Jahren
4,7 3 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Empfohlene Artikel
Michael Dobler
Autor
Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.
893 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo