Was ist ein robots.txt?

Werbung

Roboter oder Spider nennt sich die Software, die Suchmaschinen benutzen, um Seiten zu indizieren. Doch bevor etwas untersucht wird, schauen die Spider in eine extra für sie geschriebene Datei – den robots.txt. Enttäuschen Sie die Spider nicht!

Ein robots.txt ist kein Zugriffschutz. Im Gegenteil, jeder interessierte Websurfer kann diese Datei mit dem Browser aufrufen. Die Datei verhindert lediglich, dass Informationen in die Indices (=Datenbasis) der Suchmaschinen gelangen, die dort nichts zu suchen haben, zum Beispiel: Demo-Pages. Seiten, die nicht verlinkt sind, brauchen nicht gesperrt zu werden, da ein Spider sie ohnehin nicht finden kann.

Das funktioniert folgendermaßen: Besucht ein Robot Ihre Website, schaut er zuerst einmal nach dem robots.txt und den darin enthaltenen Informationen. Die Datei robots.txt muss im Stammverzeichnis liegen. Es darf nur eine pro Domain geben. Es gilt die Kleinschreibung, also nur “robots.txt” und niemals “Robots.txt” oder “robots.TXT”.

User-Agent bezeichnet den Spider. Das Sternchen * gilt als Jokerzeichen und bedeutet, dass die folgenden Zeilen für alle Spider gelten.

Mit “Disallow” werden bestimmte Verzeichnisse (Ordner) für die Robots gesperrt. Pro Verzeichnis ist eine Zeile notwendig.

Alle Roboter ausschließen

User-agent: *
Disallow: /

Alle Roboter einladen
Eine leere Datei erfüllt den gleichen Zweck

User-agent: *
Disallow:

Alle Roboter von bestimmten Verzeichnissen fernhalten

User-agent: *
Disallow: /unwichtig/
Disallow: /cgi-local/

Einen bestimmten Robot ausschließen

User-agent: Sidewinder
Disallow: /

Einen bestimmten Robot einladen

User-agent: WebCrawler
Disallow:

Mehrere Dateien ausschließen

# Meine Roboter Info
User-agent: *
Disallow: /diesunddas.html
Disallow: /unddiesehier.html
Disallow: /verbotenr.html

Kommentare fügen Sie so ein:

# Mein Kommentar

Weitere Beiträge:

Über Gastautor

DrWeb.de ist die "Grande Dame" des deutschen Bloggings und seit nunmehr 14 Jahren im Internet aktiv. Das beliebte Magazin richtet sich dabei an Webworker, Selbstständige, IT-Entscheider, Seitenbetreiber sowie Marketing-Verantwortliche und bietet einen Überblick im undurchdringlichen Dschungel zahlreicher "Geld verdienen im Internet" Konzepte. Werden Sie jetzt Gastautor und profitieren Sie von der großen Reichweite und den Markennamen DrWeb.de.

,

Noch keine Kommentare vorhanden!

Hinterlasse eine Antwort

Bitte bei weiteren Kommentaren per Email benarichtigen! Auch möglich: Abo ohne Kommentar.

Spam protection by WP Captcha-Free