Wir müssen leider draußen bleiben

Eine kleine Einführung muss (leider) sein:

Jeder Webmaster kennt das (oder wird es früher oder später kennenlernen): Da hat man/frau in wochenlanger Arbeit Webseiten erstellt und präsentiert sie nun im Internet. Natürlich will man die Informationen mit anderen Menschen teilen und freut sich, wenn nach Wochen Suchmaschinen wie Google die Seiten anzeigt, sie also über Suchmaschinen gefunden werden. Dann ist es fast geschafft, die Webseite „etabliert“ sich im Web. Eine feine Sache oder?
Damit wir im Internet überhaupt etwas finden, bedarf es sogenannter Suchmaschinen, am bekanntesten sicherlich Google, wir geben ein Stichwort ein und bekommen Links geliefert plus zusätzliche Information und werden mehr oder weniger schnell fündig.

Suchmaschinen benutzen zum Einholen dieser Informationen sogenannte Webcrawler, eigenständige Programme, die das Internet absuchen und sie halten sich dabei in der Regel an die „Robot Exclusion Standards“, wo ein Webmaster die Serverzugriffe solcher Bots (aus dem englischen ‚robots‘) in Grenzen beinflussen kann.

Jeder Webmaster wird eines Tages einen Blick in die Access-Logs werfen müssen, Logdateien, die ein Apache Webserver schreibt. Die meisten Webhoster arbeiten heute mit diesen Apache Webservern und ich beziehe mich mit meinen Ausführungen eben auf diese Software. Wer mehr über Apache wissen will siehe hier

Neben vielen seriösen Bots, die Webseiten durchsuchen, gibt es leider aber auch schwarze Schafe, bösartige Bots, die z.B. versuchen, email Adressen auszuspionieren, um sie für Werbezwecke zu missbrauchen oder um z.B. Serverkonfigurationen oder Lücken auszuspionieren bishin zu Einbrüchen in diese Server. Spätestens wenn die „illegalen“ Zugriffe überhand nehmen, den Traffic auf die Webseite unnötig stark in die Höhe treiben, ist Handeln angesagt!
Aus eigener Erfahrung sage ich aber erstmal ganz deutlich: KEINE PANIK – mit Bedacht handeln!

Meine Erfahrungen waren die: Neben einer Webseite betreibe ich ein php-Forum und eines Tages tauchten die ersten User im Forum auf, die sich illegal angemeldet hatten, den Anmeldeprozess umgangen hatten, sprich versucht haben, das Forum zu hacken.
Drei dieser illegalen User hatten ungültige email-Adressen und die IP-Adressen waren aus China! Als dann Wochen später die ersten unsinnigen Einträge im Gästebuch massiv auftraten, wurde mir bewusst, es gibt ungebetene Gäste, die BÖSES im Schilde führen! Es wurde Zeit zu handeln und dieser Prozess wird nicht mehr enden, weil sich viele Menschen leider immer wieder etwas Neues einfallen lassen, solche illegalen Aktionen zu begehen.

Kurz und gut, wo kann und soll man als erstes ansetzen? Wenn der Webhoster .htaccess unterstützt, was die Regel ist, können dort gezielt erste Aktionen durchgeführt werden. Auch eine Datei mit Namen robots.txt soll beleuchtet werden.

Zunächst einmal ein paar Zeilen einer Access-Log Datei:

66.249.xx.xx - - [27/Apr/2012:00:01:13 +0200] "GET /robots.txt HTTP/1.1" 200 92 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.xx.xx - - [27/Apr/2012:00:01:13 +0200] "GET /bin/player.swf?config=bin/config_dirty.xml&playlistfile=bin/playlist_z.xml&playlistsize=170&playlist=bottom HTTP/1.1" 200 114758 "-" "Googlebot-Video/1.0"
208.115.xx.xx - - [27/Apr/2012:00:05:41 +0200] "GET /robots.txt HTTP/1.1" 200 165 "-" "Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)"
180.76.xx.xx - - [27/Apr/2012:00:22:49 +0200] "GET /liner?id=41 HTTP/1.1" 403 179 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
66.249.xx.xx - - [27/Apr/2012:00:24:20 +0200] "GET /disco?cat=C HTTP/1.1" 200 3440 "-" "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"

Es sieht „wild“ aus, ich weiss und doch sind die Infos sehr plausibel und nach kurzem Studieren zu verstehen. Ganz links die IP-Adresse des Besuchers und Zeitstempel, dann die Methode was getan wurde, ein Status Code (wichtig) plus zusätzliche Informationen, ob es ein Bot ist oder eben einfach ein User mit dem Browser „XYZ“.
Status Code 200 ist z.b. Zugriff OK, 403 bedeutet Zugriff verweigert (Forbidden) usw. – eine Auflistung der Codes gibt es hier.

Ein erster Schritt, um ungewünschte Besucher auszusperren wäre nach meiner Erfahrung das Anlegen einer robots.txt. Hierzu gibt es diesen Artikel dazu. Als nächstes kann man eine .htaccess anlegen aber BITTE äußerst vorsichtig damit umgehen, falsche Einträge können dazu führen, dass man seine Webseite selbst tötet, sie also nicht mehr erreichbar ist oder beim Aufruf der Webseite Fehler kommen anstatt der Webseite.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*