KI-Scraper stoppen mit robots.txt? So geht's.

Robots.txt lernt Nein sagen: Cloudflare stoppt KI-Scraper

Michael Dobler

Autor Dr. Web

16. Mai 2026

3 Min. Lesezeit

Jede KI, die heute das Netz durchkämmt, liest auch Ihre Website. Bisher konnten Betreiber nur pauschal wählen: vollständiger Zugang oder vollständige Sperrung. Cloudflare hat das geändert.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Das Wichtigste in Kürze

Cloudflare erweitert robots.txt um drei neue Kontrollsignale: search, ai-input und ai-train.
Auf 3,8 Millionen Cloudflare-Domains wird ai-train=no automatisch gesetzt.
Google unterstützt das Format bisher nicht – OpenAI crawlt entsprechende Dateien bereits alle 15 Minuten.
Signale sind Präferenzen, keine technischen Sperren: Für echte Durchsetzung ist zusätzlich WAF nötig.

Drei Kategorien, eine Zeile Code

Ein Stoppschild auf weißem Grund, davor ein Zettel mit der Aufschrift „ai-train=no“ — Cloudflare ermöglicht Websitebetreibern mit neuem Format, KI-Bots differenziert zu steuern: Suchindexierung erlauben, KI-Training ablehnen oder Echtzeit-Antworten regulieren

Die bisherige robots.txt konnte KI-Bots nur pauschal ein- oder aussperren. Das neue Content-Signals-Format von Cloudflare trennt erstmals drei unterschiedliche Nutzungsarten. Websitebetreiber können künftig differenzieren: klassische Suchmaschinenindexierung erlauben, KI-Training ablehnen und die Verwendung für Echtzeit-Antworten wie Google AI Overviews gesondert steuern.

Konkret sieht die neue Direktive so aus:

User-agent: *
Content-signal: search=yes, ai-train=no, ai-input=no
Allow: /

Drei Signale decken das Spektrum ab. search=yes erlaubt die klassische Indexierung. ai-train=no untersagt die Verwendung für Modelltraining. ai-input=no schließt Echtzeit-Systeme aus, die Inhalte direkt in generierte Antworten einspeisen – also genau das, was Google AI Overviews, Perplexity und ChatGPT tun.

Cloudflares managed robots.txt setzt ai-train=no nach der Aktivierung automatisch. Die 3,8 Millionen verwalteten Domains laufen ohne manuelle Konfiguration.

Signal ist nicht gleich Sperre

Oranges achteckiges Schild mit deutschem Text gegen KI-Scraper und Roboterhand mit Stift — Cloudflare setzt auf freiwillige Compliance: robots.txt stoppt hartnäckige Bots nicht. Für echte Durchsetzung empfohlen: WAF-Regeln und AI Crawl Control

Cloudflare macht keinen Hehl daraus: Das Format setzt auf freiwillige Compliance. Bots, die robots.txt ignorieren, lassen sich damit nicht aufhalten. Für echte Durchsetzung empfiehlt der Anbieter die Kombination mit WAF-Regeln und dem eigenen AI Crawl Control.

Die Reaktion der großen KI-Anbieter fällt gespalten aus. OpenAI crawlt entsprechende Steuerdateien laut Server-Logs bereits alle 15 Minuten auf Aktualität. Google hingegen hat über Gary Illyes klar kommuniziert, das Format nicht zu unterstützen – und empfiehlt weiterhin normales SEO für Sichtbarkeit in AI Overviews. Mehr dazu, wie KI-Systeme Inhalte heute auswählen und zitieren, erklärt unser GEO-Ratgeber.

Die Frage ist nicht mehr, ob KI-Bots Inhalte scrapen, sondern zu welchem Zweck. Cloudflare gibt Websitebetreibern zum ersten Mal ein Werkzeug, das zwischen Suchindex und KI-Training unterscheidet. Das sollte längst Standard sein.
— Markus Seyfferth, Chefredakteur Dr. Web

Ob das Format zum globalen Standard wird, hängt davon ab, ob Google, Microsoft und OpenAI das Proposal im Rahmen der IETF-Standards übernehmen. Cloudflare hat den Quellcode unter CC0-Lizenz veröffentlicht und drängt auf breite Standardisierung.

Was Websitebetreiber jetzt tun können

Ein grüner Leitkegel steht auf weißem Grund, mit einem Schild und einem Aufkleber versehen — Cloudflare-Nutzer aktivieren managed robots.txt in Bot-Einstellungen. Grundschutz mit ai-train=no läuft automatisch. Content Signals Policy mit WAF-Regeln kombinierbar

Cloudflare-Nutzer aktivieren das managed robots.txt in den Bot-Einstellungen des Dashboards. Die Grundschutz-Konfiguration mit ai-train=no läuft danach automatisch. Für schärfere Kontrolle lässt sich die Content Signals Policy mit WAF-Regeln kombinieren. Den Generator für die robots.txt-Zeile stellt Cloudflare in seiner offiziellen Dokumentation zur Content Signals Policy bereit.

Ohne Cloudflare lässt sich das Format manuell in jede robots.txt eintragen. Die Syntax ist öffentlich; die Wirkung gegen nicht-konforme Bots bleibt allerdings begrenzt. Welche SEO-Grundlagen heute noch gelten und welche KI-Bots überhaupt respektieren, ist ein eigenes Kapitel.