Jede KI, die heute das Netz durchkämmt, liest auch Ihre Website. Bisher konnten Betreiber nur pauschal wählen: vollständiger Zugang oder vollständige Sperrung. Cloudflare hat das geändert.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDas Wichtigste in Kürze
- Cloudflare erweitert robots.txt um drei neue Kontrollsignale:
search,ai-inputundai-train. - Auf 3,8 Millionen Cloudflare-Domains wird
ai-train=noautomatisch gesetzt. - Google unterstützt das Format bisher nicht – OpenAI crawlt entsprechende Dateien bereits alle 15 Minuten.
- Signale sind Präferenzen, keine technischen Sperren: Für echte Durchsetzung ist zusätzlich WAF nötig.
Drei Kategorien, eine Zeile Code

Die bisherige robots.txt konnte KI-Bots nur pauschal ein- oder aussperren. Das neue Content-Signals-Format von Cloudflare trennt erstmals drei unterschiedliche Nutzungsarten. Websitebetreiber können künftig differenzieren: klassische Suchmaschinenindexierung erlauben, KI-Training ablehnen und die Verwendung für Echtzeit-Antworten wie Google AI Overviews gesondert steuern.
Konkret sieht die neue Direktive so aus:
User-agent: *
Content-signal: search=yes, ai-train=no, ai-input=no
Allow: /
Drei Signale decken das Spektrum ab. search=yes erlaubt die klassische Indexierung. ai-train=no untersagt die Verwendung für Modelltraining. ai-input=no schließt Echtzeit-Systeme aus, die Inhalte direkt in generierte Antworten einspeisen – also genau das, was Google AI Overviews, Perplexity und ChatGPT tun.
Cloudflares managed robots.txt setzt ai-train=no nach der Aktivierung automatisch. Die 3,8 Millionen verwalteten Domains laufen ohne manuelle Konfiguration.
Signal ist nicht gleich Sperre

Cloudflare macht keinen Hehl daraus: Das Format setzt auf freiwillige Compliance. Bots, die robots.txt ignorieren, lassen sich damit nicht aufhalten. Für echte Durchsetzung empfiehlt der Anbieter die Kombination mit WAF-Regeln und dem eigenen AI Crawl Control.
Die Reaktion der großen KI-Anbieter fällt gespalten aus. OpenAI crawlt entsprechende Steuerdateien laut Server-Logs bereits alle 15 Minuten auf Aktualität. Google hingegen hat über Gary Illyes klar kommuniziert, das Format nicht zu unterstützen – und empfiehlt weiterhin normales SEO für Sichtbarkeit in AI Overviews. Mehr dazu, wie KI-Systeme Inhalte heute auswählen und zitieren, erklärt unser GEO-Ratgeber.
Die Frage ist nicht mehr, ob KI-Bots Inhalte scrapen, sondern zu welchem Zweck. Cloudflare gibt Websitebetreibern zum ersten Mal ein Werkzeug, das zwischen Suchindex und KI-Training unterscheidet. Das sollte längst Standard sein.
— Markus Seyfferth, Chefredakteur Dr. Web
Ob das Format zum globalen Standard wird, hängt davon ab, ob Google, Microsoft und OpenAI das Proposal im Rahmen der IETF-Standards übernehmen. Cloudflare hat den Quellcode unter CC0-Lizenz veröffentlicht und drängt auf breite Standardisierung.
Was Websitebetreiber jetzt tun können

Cloudflare-Nutzer aktivieren das managed robots.txt in den Bot-Einstellungen des Dashboards. Die Grundschutz-Konfiguration mit ai-train=no läuft danach automatisch. Für schärfere Kontrolle lässt sich die Content Signals Policy mit WAF-Regeln kombinieren. Den Generator für die robots.txt-Zeile stellt Cloudflare in seiner offiziellen Dokumentation zur Content Signals Policy bereit.
Ohne Cloudflare lässt sich das Format manuell in jede robots.txt eintragen. Die Syntax ist öffentlich; die Wirkung gegen nicht-konforme Bots bleibt allerdings begrenzt. Welche SEO-Grundlagen heute noch gelten und welche KI-Bots überhaupt respektieren, ist ein eigenes Kapitel.
Mehr Newshunger?
