Robot.txt? - Gemeinschaft uCoz

Beitrag # 7 | 20:19 07.07.2010

robots.txt – Die Datei für die Crawler
Einführung

Die robots.txt Datei dient dazu, bestimmte Verzeichnisse einer Webseite vor der Indexierung durch Suchmaschinen zu schützen. Die Datei liegt im Hauptverzeichnis einer Domain und gibt Verzeichnisse an, deren Inhalt nicht ausgelesen werden darf. Es gibt vielfältig Gründe Verzeichnisse von der Indexierung auszunehmen. So können z.B. E-Mail-Adressen vor dem automatischen Auslesen geschützt werden oder Log-Files verborgen werden. Ein weiterer Grund ist das Problem des doppelten Inhalts. Mit Hilfe der robots.txt kann beispielsweise ein Verzeichnis, das Druckversionen aller Seiten beinhaltet, ausgeschlossen werden. Eine Garantie, dass Crawler sich an die Vorgaben halten, gibt es nicht. Falls der Syntax korrekt ist, so befolgen zumindest die bekannten Suchmaschinen die Vorgaben.
Syntax und Beispiele

Ein Beispiel für eine robots.txt ist:

# Der erste Teil gilt für alle Crawler
User-agent: *
Disallow: /cgi-bin/
Disallow: /cgi/

# Gilt nur für Googles Crawler
User-agent: googlebot
Disallow: /bilder/

Generell besteht eine Datei aus der Angabe des Suchmaschinen-Robots (User-agent) sowie den auszuschießenden Verzeichnissen (Disallow). Der Platzhalter '*' ist nur bei dem Eintrag 'User-agent' erlaubt und steht für alle Suchmaschinen. Somit verbietet obige Datei allen Suchmaschinen die Verzeichnisse 'cgi-bin' und 'cgi' sowie Googlebot – dem Crawler von Google – das Verzeichnis 'bilder'. '#' kennzeichnet Kommentarzeilen. Bei den Verzeichnisnamen wird zwischen Groß- und Klerinschreibung unterschieden, d.h. '/bilder/'. '/Bilder/' und '/BILDER/' sind drei verschiedene Verzeichnisse.

Einige wichtige User-Agent-Namen sind im folgenden aufgeführt:

Suche

User-Agent

Google
Google-Bildersuche
Google-Adwords
Google-Adsense

Googlebot
Googlebot-Image
Adsbot -Google
MediaPartners-Google

Yahoo

Slurp

MSN

Msnbot

Teoma/Ask

Teoma
Internet Archive ia_archiver

Exalead

Exabot

Weitere findet man bei Agentarius, einer Datenbank mit User-Agent-Namen.

Es ist nicht zwingend nötig eine robots.txt anzulegen. Falls keine Datei vorhanden ist wird der komplette Inhalt von der Suchmaschine indexiert. Das gleiche gilt im Falle einer leeren oder nur mit Kommentaren versehenen Datei.
Erweiterungen

Unabhängig von den offiziellen Spezifikationen wurden von den Suchmaschinenbetreibern Erweiterungen vorgenommen. Zu den wichtigsten zählt das 'Allow'-Format, das analog zum Disallow geschaffen wurde. Hiermit ist es möglich Verzeichnisse für einzelne User-Agents freizugeben, die zuvor allgemein gesperrt wurden. Ein Beispiel ist unsere robots.txt-Datei. Da dies kein offizielles Format ist, können auch nicht alle Crawler diesen Syntax interpretieren. Nähere Informationen findet man bei den einzelnen Suchmaschinen.
Alternative

Alternativ zur robots.txt Datei können auch Meta-Tags zur Steuerung von Crawlern benutzt werden. Dies kann wie folgt aussehen:

Der erste Eintrag (index oder noindex) bestimmt, ob die Seite indexiert werden darf, der zweite (follow oder nofollow), ob Links verfolgt werden sollen oder nicht und der dritte, ob die Seite gespeichert werden darf oder nicht. Meta-Tags bieten sich beim Ausschluss einzelner Seiten an.
Überprüfung

Falls eine robots.txt Datei angelegt wird, so sollte unbedingt auf einen korrekten Syntax Wert gelegt werden. Eine Möglichkeit ist, einen Validator zu benutzen, von denen viele online zur Verfügung stehen.

Quelle: http://www.suchmaschinen-doktor.de/optimierung/robots-txt.html

HTML Kurs als PDF

Beitrag wurde von alfabm - Mittwoch, 07.07.2010, 20:19 bearbeitet

Letzte Themen

Populäre Themen