Robots.txt lernt Nein sagen: Cloudflare stoppt KI-Scraper

Michael Dobler
Autor Dr. Web
3 Min. Lesezeit
Robots.txt lernt Nein sagen: Cloudflare stoppt KI-Scraper

Jede KI, die heute das Netz durchkämmt, liest auch Ihre Website. Bisher konnten Betreiber nur pauschal wählen: vollständiger Zugang oder vollständige Sperrung. Cloudflare hat das geändert.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Das Wichtigste in Kürze

  • Cloudflare erweitert robots.txt um drei neue Kontrollsignale: search, ai-input und ai-train.
  • Auf 3,8 Millionen Cloudflare-Domains wird ai-train=no automatisch gesetzt.
  • Google unterstützt das Format bisher nicht – OpenAI crawlt entsprechende Dateien bereits alle 15 Minuten.
  • Signale sind Präferenzen, keine technischen Sperren: Für echte Durchsetzung ist zusätzlich WAF nötig.

Drei Kategorien, eine Zeile Code

Ein Stoppschild auf weißem Grund, davor ein Zettel mit der Aufschrift „ai-train=no“
Cloudflare ermöglicht Websitebetreibern mit neuem Format, KI-Bots differenziert zu steuern: Suchindexierung erlauben, KI-Training ablehnen oder Echtzeit-Antworten regulieren

Die bisherige robots.txt konnte KI-Bots nur pauschal ein- oder aussperren. Das neue Content-Signals-Format von Cloudflare trennt erstmals drei unterschiedliche Nutzungsarten. Websitebetreiber können künftig differenzieren: klassische Suchmaschinenindexierung erlauben, KI-Training ablehnen und die Verwendung für Echtzeit-Antworten wie Google AI Overviews gesondert steuern.

Konkret sieht die neue Direktive so aus:

User-agent: *
Content-signal: search=yes, ai-train=no, ai-input=no
Allow: /

Drei Signale decken das Spektrum ab. search=yes erlaubt die klassische Indexierung. ai-train=no untersagt die Verwendung für Modelltraining. ai-input=no schließt Echtzeit-Systeme aus, die Inhalte direkt in generierte Antworten einspeisen – also genau das, was Google AI Overviews, Perplexity und ChatGPT tun.

Cloudflares managed robots.txt setzt ai-train=no nach der Aktivierung automatisch. Die 3,8 Millionen verwalteten Domains laufen ohne manuelle Konfiguration.

Signal ist nicht gleich Sperre

Oranges achteckiges Schild mit deutschem Text gegen KI-Scraper und Roboterhand mit Stift
Cloudflare setzt auf freiwillige Compliance: robots.txt stoppt hartnäckige Bots nicht. Für echte Durchsetzung empfohlen: WAF-Regeln und AI Crawl Control

Cloudflare macht keinen Hehl daraus: Das Format setzt auf freiwillige Compliance. Bots, die robots.txt ignorieren, lassen sich damit nicht aufhalten. Für echte Durchsetzung empfiehlt der Anbieter die Kombination mit WAF-Regeln und dem eigenen AI Crawl Control.

Die Reaktion der großen KI-Anbieter fällt gespalten aus. OpenAI crawlt entsprechende Steuerdateien laut Server-Logs bereits alle 15 Minuten auf Aktualität. Google hingegen hat über Gary Illyes klar kommuniziert, das Format nicht zu unterstützen – und empfiehlt weiterhin normales SEO für Sichtbarkeit in AI Overviews. Mehr dazu, wie KI-Systeme Inhalte heute auswählen und zitieren, erklärt unser GEO-Ratgeber.

Die Frage ist nicht mehr, ob KI-Bots Inhalte scrapen, sondern zu welchem Zweck. Cloudflare gibt Websitebetreibern zum ersten Mal ein Werkzeug, das zwischen Suchindex und KI-Training unterscheidet. Das sollte längst Standard sein.

— Markus Seyfferth, Chefredakteur Dr. Web

Ob das Format zum globalen Standard wird, hängt davon ab, ob Google, Microsoft und OpenAI das Proposal im Rahmen der IETF-Standards übernehmen. Cloudflare hat den Quellcode unter CC0-Lizenz veröffentlicht und drängt auf breite Standardisierung.

Was Websitebetreiber jetzt tun können

Ein grüner Leitkegel steht auf weißem Grund, mit einem Schild und einem Aufkleber versehen
Cloudflare-Nutzer aktivieren managed robots.txt in Bot-Einstellungen. Grundschutz mit ai-train=no läuft automatisch. Content Signals Policy mit WAF-Regeln kombinierbar

Cloudflare-Nutzer aktivieren das managed robots.txt in den Bot-Einstellungen des Dashboards. Die Grundschutz-Konfiguration mit ai-train=no läuft danach automatisch. Für schärfere Kontrolle lässt sich die Content Signals Policy mit WAF-Regeln kombinieren. Den Generator für die robots.txt-Zeile stellt Cloudflare in seiner offiziellen Dokumentation zur Content Signals Policy bereit.

Ohne Cloudflare lässt sich das Format manuell in jede robots.txt eintragen. Die Syntax ist öffentlich; die Wirkung gegen nicht-konforme Bots bleibt allerdings begrenzt. Welche SEO-Grundlagen heute noch gelten und welche KI-Bots überhaupt respektieren, ist ein eigenes Kapitel.

Mehr Newshunger?

Weißes Stoppschild mit orangefarbenem Rand, Text
Generative Engine Optimization ersetzt klassisches SEO. GEO-Grundlagen, Tools und Local SEO Strategien für 2026
4,7 13 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Michael Dobler
Autor
Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.
874 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo