Freundliche und unfreundliche Crawler

Vor einigen Monaten habe ich schon einmal etwas über die Möglichkeiten unfreundliche Crawler (Siehe: Unfreundliche Web-Crawler aussperren) zu sperren geschrieben. Heute war wieder etwas Zeit, nach zu schauen, ob die Maßnahmen gewirkt haben.

Sehr viele Zugriffe kamen bisher vom Pixray-Seeker, dem ich daraufhin den Zugriff auf jpg und gif Dateien verboten hatte. Nun, da ich Screen Shots als png einstelle, hat er sich über dieser her gemacht. Durch einen aktuellen Artikel – ich glaube, es war Evil Azraels Stänkerblog – bin ich darauf gekommen, dass Pixray auch andere User-Agent Angaben beim Zugriff schickt. Nun, wenn nicht Pixray drin steht, geht mein Eintrag in der .htaccess ins Leere.

Eine Log-Auswertung für den Pixray-Seeker ergab, dass er zwar die robots.txt las, aber zeitgleich eine Abfrage nach einer Datei schickte. Fast jeder Besuch bestand nur aus diesen beiden Zugriffen. Diesen Monat fand ich aber nur noch 14 Zugriffe eines Pixray-Seeker. Eine Auswertung der Zugriffe anhand der IP-Adressen ergab, dass sich ein Rechner mit mindestens 12 verschiedenen User-Agent Angaben meldete. Dateien (z.B. *.css), die für die Anzeige dieser Seiten wichtig sind, werden nie runter geladen. Dieses Muster und die verwendeten User-Agents trafen für viele Rechner zu. Dass es sich um Proxy-Server handelt, schließe ich daher aus.

„Freundliche und unfreundliche Crawler“ weiterlesen