$# Aufbau der robots.txt # Um das zu ermöglichen, gibt es den Robots Exclusion Standard. Nach diesem Standard muß man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain plazieren, so daß Robots sie finden. Die Suchpfade sehen dann z.B. so aus: # http://www.beispiel.de/robots.txt # http://download.beispiel.de/robots.txt # http://beispiel.de:8080/robots.txt # Die robots.txt Datei ist nach einem bestimmten Schema aufgebaut. Zuerst gibt man an, für welchen Crawler die Anweisungen gelten und dann die einzelnen Anweisungen. Ein Beispiel: # robots.txt fuer http://www.beispiel.de/ # User-agent: BeispielRobot # Disallow: /temp/ # Die Dateien sind sehr kurzlebig # Disallow: /logfiles/ # Die ändern sich jeden Tag # Disallow: /bilder/ # Bilder nicht downloaden # Disallow: /cgi-bin/ # CGI Ausgaben nicht indexieren # Disallow: /news.html # Die news.html ändert sich täglich # Mit User-agent: BeispielRobot bestimmt man, daß die Anweisungen nur für den Crawler BeispielRobot gelten. Mit den einzelnen Disallow Einträgen bestimmt man Dateien und Verzeichnisse die nicht indexiert werden sollen. Alles, vor dem ein # steht, gilt als Kommentar und wird von den Robots ignoriert. # Wenn man mit einem Mal alle Crawler ausschließen will, benutzt man den sog. Wildchar *, also: # Alle Robots ausschließen # User-agent: * # Disallow: /temp/ # Wenn man nicht gleich alle Crawler, sondern nur ein paar bestimmte meint, kann man diese so angeben: # Massendownloader vom CGI Verzeichnis fernhalten # User-agent: wget # User-agent: webzip # User-agent: webmirror # User-agent: webcopy # Disallow: /cgi-bin/ # Um seine Site ganz von der Indexierung auszuschließen kann man folgendes benutzen: # Ganze Site für alle Robots sperren # User-agent: * # Disallow: / # Wenn man den Slash (/) wegläßt, gibt man Seine Site ganz für die Indexierung frei: # Ganze Site freigeben User-agent: * Disallow: # Bei den Disallow Einträgen ist die Groß- und Kleinschreibung egal. Man sollte aber darauf achten, wo und ob man den Slash (/) setzt, denn der Eintrag # User-agent: * # Disallow: /index # Disallow: /temp/ # Würde dazu führen, daß alle Urls die mit /index anfangen nicht indexiert werden, auch z.B. /index.html oder /indexed-files/datei.html statt einfach nur das Verzeichnis /index/, wohingegen bei Disallow: /temp/ wirklich nur die Dateien im Verzeichnis /temp/ ausgeschlossen werden. # Beispieltabelle # Um das alles zusammenzufassen ein kleines Beispiel: # http://beispiel.de/robots.txt # User-agent: scooter # Disallow: / # User-agent: wget # User-agent: webzip # Disallow: # User-agent: * # Disallow: /news/ # Disallow: /radio.html # Disallow: /temp