
Sollen Websites KI-Crawler dulden oder ganz aussperren?

Markus Seyfferth
Autor Dr. WebWussten Sie, dass Anthropics KI-Crawler bis zu 100.000 Seiten crawlt, bevor er einen einzigen Besucher zurückschickt? Für WordPress-Betreiber bedeutet das: Serverlast auf eigene Kosten, Inhalte weg, Traffic null. Und das Sperren wird schwieriger, seit OpenAI keinen eindeutigen User-Agent mehr nutzt.
Das Problem ist real. Die Antwort darauf, was man tun soll, ist weniger eindeutig. GEO-Fachleute raten, KI-Crawler ausdrücklich zuzulassen. Der Googlebot ist das sprichwörtliche Fass in dieser Debatte, das niemand gern aufmacht.
Das Wichtigste in Kürze
- KI-Training macht rund 80 Prozent aller KI-Bot-Aktivität aus, nur ein Bruchteil davon erzeugt Referral-Traffic.
- AI-referenzierte Sessions stiegen in den ersten fünf Monaten 2025 um 527 Prozent gegenüber dem Vorjahr, aber von einer sehr kleinen Ausgangsbasis.
- Zwischen Juli 2025 und Januar 2026 blockierten fast siebenmal so viele Websites andere KI-Crawler wie GPTBot und ClaudeBot im Vergleich zu denen, die Googlebot sperrten.
- Cloudflare blockt KI-Crawler seit Juli 2025 standardmäßig und bietet gleichzeitig ein Pay-per-Crawl-Modell an.
- Das Google-Problem bleibt ungelöst: Wer Googlebot blockiert, verliert organische Sichtbarkeit.
Was hat den alten Deal gebrochen?

Das klassische Web-Modell war ein Tauschgeschäft mit klaren Regeln: Suchmaschinen crawlen Inhalte und schicken Nutzer zurück. Website-Betreiber profitieren durch Traffic, Klicks und Werbeeinnahmen. Zwei Jahrzehnte lang hat dieser Deal funktioniert.
KI-Crawler sammeln Inhalte, um Antworten zu generieren, ohne Besucher zur Originalquelle zurückzuschicken. Das entzieht Content-Erstellern Werbeeinnahmen und die Möglichkeit zu wissen, dass jemand ihre Inhalte liest.
Führende Nachrichtenverlage wie The New York Times, Wall Street Journal, Reuters und Vox haben bereits Sperren implementiert. Und der Traffic-Schaden lässt sich konkret messen: Der Median-Referral-Traffic von Google Search ging in einer achtwöchigen Studie mit 40 Premium-Publishern 2025 um 10 Prozent zurück, bei Non-News-Marken sogar um 14 Prozent.
Was kostet KI-Crawling WordPress-Betreiber wirklich?

WordPress Websites sind besonders anfällig, weil jede Crawler-Anfrage serverseitig PHP-Prozesse, Plugin-Logik und Datenbankabfragen auslöst. Eine statische HTML-Seite wäre deutlich günstiger zu bedienen. Wer keinen gescheiten WordPress Hosting Anbieter, Caching oder einen CDN einsetzt, zahlt die Trainingskosten fremder KI-Modelle schnell aus der eigenen Tasche.
AI-Bots crawlen Sites oft weitaus aggressiver als traditionelle Suchmaschinen-Crawler. Dieselben Seiten werden mitunter alle paar Stunden besucht, oder Sites werden mit hunderten Anfragen pro Sekunde getroffen. Das Crawling-Volumen lag im April 2025 bereits 32 Prozent über dem Vorjahreswert.
Dazu kommt: 72 Prozent der in einer Studie getesteten UK-Websites verzeichneten Verstöße gegen robots.txt-Regeln durch KI-Crawler. Wer sich also auf robots.txt verlässt, hat keine Compliance-Garantie.
Warum GEO-Fachleute vom Blockieren von KI-Bots abraten

GEO-Fachleute sind sich in diesem Punkt einig: Die robots.txt sollte ausdrücklich sicherstellen, dass GPTBot, ClaudeBot und PerplexityBot nicht gesperrt sind. Ihre Logik ist nachvollziehbar und beruht auf einer anderen Definition von Wert.
Wenn eine KI Ihre Marke in einer Antwort nennt, konsumieren Nutzer Ihre Inhalte, ohne Ihre Website zu besuchen, verbinden das Wissen aber trotzdem mit Ihrer Marke. Klick oder nicht: Das Markenbewusstsein entsteht. Und weil rund 80 Prozent der führenden Nachrichtenverlage bereits mindestens einen KI-Training-Crawler blockieren, entsteht für alle anderen ein Vorteil durch Inhaltsknappheit.
Sites mit vollständiger KI-Identitätsinfrastruktur zeigten eine 4,2-mal höhere Wahrscheinlichkeit, von KI-Systemen zitiert zu werden, im Vergleich zu Sites, die ausschließlich auf robots.txt und Blockierung setzten. Das ist kein kleiner Unterschied. Der GEO-Ansatz ist ein Vertrauensvorschuss: Inhalte zugänglich halten und darauf setzen, dass AI-Sichtbarkeit langfristig in Markenwert umschlägt.
Das Google-Dilemma: Blockieren auf eigenes Risiko

Googlebot ist der Sonderfall, den niemand gern diskutiert. Google bündelt seinen Crawler mit Suchfunktion, KI-Training und Ad-Safety-Tools in einem einzigen Paket, das Publisher nicht ohne ernsthafte Konsequenzen ablehnen können. Cloudflare-CEO Matthew Prince bringt es direkt auf den Punkt: Google sieht sein Recht auf alle Inhalte der Welt als selbstverständlich an, weil der Konzern die letzten 27 Jahre den Traffic geliefert hat.
Das Kernproblem: Wer Googlebot blockiert, entzieht den meisten Medienhäusern einen Großteil ihres Umsatzes. Gleichzeitig gibt es keinen technischen Weg, Googles Suchindexierung vom KI-Training zu trennen. Cloudflare hat eine neue „Content Signals Policy“ vorgeschlagen, die drei separate robots.txt-Direktiven einführt: für Suche, KI-Antworten und KI-Training. Google hat sich jedoch nicht verpflichtet, diese Signale zu respektieren.
Die britische Wettbewerbsbehörde CMA hat Google im Oktober 2025 mit einem besonderen Marktstatus designiert, was strengere Regulierung ermöglichen soll. Daily Mail, Guardian und die News Media Association haben sich öffentlich für eine Pflicht zur Crawler-Trennung ausgesprochen. Wann und ob das kommt, bleibt offen.
Gibt es einen dritten Weg?

Ja, aber er ist nicht für jeden realistisch. Reddit hat das Modell vorgezeigt: Lizenzverträge mit Google und OpenAI abschließen und die Nutzung nutzergenerierter Inhalte vergüten lassen. Für die meisten Website-Betreiber fehlt dafür die Verhandlungsmacht.
Cloudflare hat im Juli 2025 einen Pay-per-Crawl-Marktplatz gestartet, über den Websites KI-Unternehmen für den Zugriff auf ihre Inhalte berechnen können. Neil Vogel, CEO des größten US-Printverlagshauses People Inc., berichtet: Sein Unternehmen nutzt Cloudflares Lösung, um nicht zahlende KI-Crawler zu blockieren, und führt bereits Lizenzverhandlungen mit mehreren großen LLM-Anbietern. Das Modell funktioniert, wenn man groß genug ist.
Cloudflares HTTP-402-„Payment Required“-Antwort ermöglicht es Website-Betreibern, KI-Crawler mit Lizenzinformationen zu konfrontieren statt sie still zu blockieren, und einen formellen Kommunikationskanal zu öffnen.
Was sollten WordPress-Betreiber jetzt konkret tun?

Drei Optionen, je nach Geschäftsmodell:
- Werbefinanzierte Sites: GPTBot und ClaudeBot in der robots.txt blockieren, Googlebot und Perplexity offen lassen. Cloudflares One-Click-AI-Blocker ist in allen Tarifen inklusive Free verfügbar und aktualisiert sich automatisch. robots.txt allein reicht nicht, weil sie auf freiwilliger Compliance beruht.
- Marken und Beratungsunternehmen: GEO-Strategie prüfen. Wenn AI-Sichtbarkeit zum Marketingziel passt, KI-Crawler zulassen und gleichzeitig Inhalte strukturiert aufbereiten: direkte Antworten in den ersten Sätzen, FAQ-Schema-Markup, zitierbare Daten. Eine llms.txt-Datei hilft KI-Systemen, die Struktur und Inhalte der Site korrekt zu interpretieren.
- Alle WordPress-Betreiber: Header-basierte Firewall-Regeln einrichten, weil OpenAI seinen eindeutigen User-Agent zugunsten eines „signature-agent“-Headers aufgegeben hat. Serverlogs regelmäßig auf unbekannte Crawler prüfen.
Die ehrliche Antwort ist: Ein pauschales Ja oder Nein gibt es nicht.
Mehr Lesehunger?

- Wird Agentic Search zum Sargnagel klassischer Suchmaschinenoptimierung?
- Was kann der neue Firefly Video Editor?
- Per Spracheingabe bis zu 7 Adobe Apps steuern? Die Firefly-KI macht’s möglich.
- E-Auto im Mehrfamilienhaus laden: Welche Förderbedingungen gelten wirklich?
Quellen
- Cloudflare – The crawl-to-click gap: AI bots, training, and referrals – blog.cloudflare.com/crawlers-click-ai-bots-training/ – besucht am 28.04.2026
- Cloudflare – The 2025 Cloudflare Radar Year in Review – blog.cloudflare.com/radar-2025-year-in-review/ – besucht am 28.04.2026
- Cloudflare – Google’s AI advantage: why crawler separation is the only path to a fair Internet – blog.cloudflare.com/uk-google-ai-crawler-policy/ – besucht am 28.04.2026
- Cloudflare – Content Signals Policy – searchengineland.com/cloudflare-content-signals-462538 – besucht am 28.04.2026
- TechCrunch – Cloudflare CEO Matthew Prince is pushing UK regulator to unbundle Google’s search and AI crawlers – techcrunch.com/2025/10/21/ – besucht am 28.04.2026
- Playwire – How to Block AI Scrapers – playwire.com/blog/how-to-block-ai-scrapers – besucht am 28.04.2026
- 365i – AI Crawlers Violate robots.txt on 72% of UK Sites – 365i.co.uk/blog/2026/01/07/ai-crawler-compliance-tracking-cloudflare/ – besucht am 28.04.2026
- Search Engine Land – Mastering Generative Engine Optimization in 2026 – searchengineland.com/mastering-generative-engine-optimization-in-2026-full-guide-469142 – besucht am 28.04.2026
- Frase.io – What is GEO? 2026 Guide – frase.io/blog/what-is-generative-engine-optimization-geo – besucht am 28.04.2026
- OpenAI – ChatGPT Agent Allowlisting – help.openai.com/en/articles/11845367-chatgpt-agent-allowlisting – besucht am 28.04.2026
- OpenAI – OpenAI and Reddit Partnership – openai.com/index/openai-and-reddit-partnership/ – besucht am 28.04.2026
Zum Newsletter anmelden
Kommen Sie wie über 6.000 andere Abonnenten in den Genuss des Dr. Web Newsletters. Als Dankeschön für Ihre Anmeldung erhalten Sie das große Dr. Web Icon-Set: 970 Icons im SVG-Format – kostenlos.






Schreiben Sie einen Kommentar