Freundliche und unfreundliche Crawler

Vor einigen Monaten habe ich schon einmal etwas über die Möglichkeiten unfreundliche Crawler (Siehe: Unfreundliche Web-Crawler aussperren) zu sperren geschrieben. Heute war wieder etwas Zeit, nach zu schauen, ob die Maßnahmen gewirkt haben.

Sehr viele Zugriffe kamen bisher vom Pixray-Seeker, dem ich daraufhin den Zugriff auf jpg und gif Dateien verboten hatte. Nun, da ich Screen Shots als png einstelle, hat er sich über dieser her gemacht. Durch einen aktuellen Artikel – ich glaube, es war Evil Azraels Stänkerblog – bin ich darauf gekommen, dass Pixray auch andere User-Agent Angaben beim Zugriff schickt. Nun, wenn nicht Pixray drin steht, geht mein Eintrag in der .htaccess ins Leere.

Eine Log-Auswertung für den Pixray-Seeker ergab, dass er zwar die robots.txt las, aber zeitgleich eine Abfrage nach einer Datei schickte. Fast jeder Besuch bestand nur aus diesen beiden Zugriffen. Diesen Monat fand ich aber nur noch 14 Zugriffe eines Pixray-Seeker. Eine Auswertung der Zugriffe anhand der IP-Adressen ergab, dass sich ein Rechner mit mindestens 12 verschiedenen User-Agent Angaben meldete. Dateien (z.B. *.css), die für die Anzeige dieser Seiten wichtig sind, werden nie runter geladen. Dieses Muster und die verwendeten User-Agents trafen für viele Rechner zu. Dass es sich um Proxy-Server handelt, schließe ich daher aus.

„Freundliche und unfreundliche Crawler“ weiterlesen

Unfreundliche Web-Crawler aussperren

Update 23. Oktober 2012: Inzwischen gibt es neue Erkenntnisse über den Pixray-Seeker. Er meldet sich wahrscheinlich nicht mehr mit Pixray-Seeker, sondern simuliert verschiedene User-Agents. Siehe Freundliche und unfreundliche Crawler

Beim Auswerten der Webalizer Statistiken sind mir Angriffe und verschiedene Suchmaschinen aufgefallen, von denen ich noch nichts gehört hatte. Die Angriffe gingen in der Regel gegen phpMyAdmin Installationen. Die laufen bei mir jedoch ins Leere. Über diese Angriffe schreibe ich später, d.h. in einem anderen Artikel. Heute soll es um eine spezielle Suchmaschine gehen.

„Unfreundliche Web-Crawler aussperren“ weiterlesen