Die Erstellung dieser Datei robots.txt ist denkbar einfach. Man benötigt dazu einen einfachen Text-Editor, keinesfalls Winword oder ähnliches, es dürfen keine Steuerzeichen enthalten sein. In dieser Datei kann ein Webmaster steuern, was ein Bot, also eine Suchmaschine tun darf. Am besten wird das durch ein Beispiel klar:
User-agent: 008 Disallow: / User-agent: Baiduspider Disallow: / User-agent: Ezooms Disallow: / User-agent: SeznamBot Disallow: / User-agent: Yandex Disallow: /
Das obige Beispiel definiert ein Komplett-Verbot für die Webcrawler 008, Baiduspider, Ezooms, SeznamBot und Yandex. Aus meiner Erfahrung sind dies zum Teil sehr agressive Programme wie beispielsweise 80legs (008), die mit über mehr als 30(!) verschiedenen IP Adressen auf meine Webseite losgingen, Traffic ohne Ende erzeugten und scheinbar gierig jede Information der Webseite ergattern wollten. Auf diese Weise kann man diese Plagegeister loswerden, wenn sie sich an diesen robots-Standard halten.
Damit eine robots.txt sauber funktioniert, muss sie unbedingt syntaktisch richtig sein! Überprüfen kann man dies einfach durch robots.txt Checker im Internet, nachdem man die Datei in das root-directory kopiert hat auf dem Webserver, dort wo normalerweise auch die index.htm oder index.php liegt.
Ein wie ich meine guter Checker ist hier zu finden, man gibt nur seine Domain ein und bekommt das Ergebnis. Ihr dürft als Beispiel gerne mal diese Domain hier eingeben: www.bitbuddy.de/robots.txt und das Ergebnis betrachten!
Und wie erfährt man den Namen dieser User-Agents? Größtenteils durch das Access-Log:
176.106.xx.xx – – [22/Apr/2012:10:51:48 +0200] „GET /robots.txt HTTP/1.1“ 404 208 „-“ „Mozilla/5.0 (compatible; 008/0.83; http://www.80legs.com/webcrawler.html) Gecko/2008032620″
In diesem Fall hat der Suchmaschineninhaber auf den User Agent Name hingewiesen um ihn zu sperren!
Bei anderen wird es schwieriger wie hier:
208.115.xx.xx – – [24/Apr/2012:01:57:18 +0200] „GET /robots.txt HTTP/1.1“ 404 208 „-“ „Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)“
Da scheint die Blockung nach bisheriger Erfahrung nicht richtig zu greifen, eventuell muss man hier gar die IP Adresse sperren, dazu mehr im Artikel .htaccess! Auf jeden Fall ist dieser Bot kritisch zu betrachten, gibt er doch nur spärliche Angaben wieder (die gmail.com Email Adresse). Laut IP Adresse kommt er aus USA.
Dies kann natürlich nur ein kleines Beispiel sein, was ein Webmaster tun kann, um ungebetene Gäste auszusperren. Auf jeden Fall ist es der sauberste Weg und natürlich bietet die robots.txt eine Unmenge mehr an Konfigurationen. Dies hier ist eine sehr gute Webseite aber ich weise natürlich darauf hin, dass sie in Englisch ist!
Überhaupt wird man bei der Recherche dieser Themen sehr oft Informationen in Englisch finden – Sprachkenntnisse sind also unerlässlich.
Nun trage ich selbst zu einer Antwort bei, plötzlich habe ich einen massiven Traffic auf einer meiner Seiten wegen dem crawler http://ahrefs.com/robot
Obwohl dort beschrieben wird, wie man die Zugriffe einschränken kann, ignoriert der Crawler offensichlich die Robot Exclusion Standards!
User-agent: AhrefsBot
Disallow: /
Dann hilft nur die Notbremse wie im Artikel beschrieben .htaccess
# USA
deny from 173.199.64.0/18
Ein weiteres Beispiel wie man solche massiven Plagegeister los wird.