Freundliche und unfreundliche Crawler

Vor einigen Monaten habe ich schon einmal etwas über die Möglichkeiten unfreundliche Crawler (Siehe: Unfreundliche Web-Crawler aussperren) zu sperren geschrieben. Heute war wieder etwas Zeit, nach zu schauen, ob die Maßnahmen gewirkt haben.

Sehr viele Zugriffe kamen bisher vom Pixray-Seeker, dem ich daraufhin den Zugriff auf jpg und gif Dateien verboten hatte. Nun, da ich Screen Shots als png einstelle, hat er sich über dieser her gemacht. Durch einen aktuellen Artikel – ich glaube, es war Evil Azraels Stänkerblog – bin ich darauf gekommen, dass Pixray auch andere User-Agent Angaben beim Zugriff schickt. Nun, wenn nicht Pixray drin steht, geht mein Eintrag in der .htaccess ins Leere.

Eine Log-Auswertung für den Pixray-Seeker ergab, dass er zwar die robots.txt las, aber zeitgleich eine Abfrage nach einer Datei schickte. Fast jeder Besuch bestand nur aus diesen beiden Zugriffen. Diesen Monat fand ich aber nur noch 14 Zugriffe eines Pixray-Seeker. Eine Auswertung der Zugriffe anhand der IP-Adressen ergab, dass sich ein Rechner mit mindestens 12 verschiedenen User-Agent Angaben meldete. Dateien (z.B. *.css), die für die Anzeige dieser Seiten wichtig sind, werden nie runter geladen. Dieses Muster und die verwendeten User-Agents trafen für viele Rechner zu. Dass es sich um Proxy-Server handelt, schließe ich daher aus.

„Freundliche und unfreundliche Crawler“ weiterlesen

Pixray-Seeker

Seit Februar lenke ich die Zugriffe des Pixray-Seeker auf die Seite von Pixray um. Vollständig abschütteln lässt er sich dadurch leider nicht. Ein Blick ins Log zeigt, dass er weiterhin versucht – ältere – Bilder zu laden. Zwar liest der Pixray Seeker die robots.txt, aber meinen Eintrag PixrayBot ingnoriert er. Auf der Seite von Pixray finde ich immer noch keinen Hinweis, was ich in der robots.txt eintragen muss, damit eine Seite nicht durchsucht wird.

Während der Pixray-Seeker im Januar und Anfang Februar Spitzenpositionen in der Statistik eingenommen hat, halten sich seine Zugriffe jetzt im Verhältnis zu anderen Suchmaschinen in Grenzen.

Update 22.Oktober 2012

Es gibt einen neueren Artikel zu diesem Thema. Siehe Freundliche und unfreundliche Crawler.

Der Pixray-Seeker wird lästig

In den letzten Tagen beobachte ich vermehrte Besuche durch den Pixray-Seeker[1]. Mit der Einführung der Permalinks funktioniert die frühere Umleitung auf ein Dummy-Bild nicht mehr. Außerdem kostet das Erzeugen des Zufallsbildes auf meinem VServer Prozessorzeit. Ich leite jetzt alle Zugriffe auf Pixray.com zurück. Für den Test habe ich den Useragent-Switcher[2] als Plugin im Firefox installiert. Ich denke, wenn es bei dem funktioniert, funktioniert es auch beim Bot.

Hier der Eintrag in der .htaccess.

RewriteCond %{HTTP_USER_AGENT} .*[Pp]ixray.*
RewriteRule . http://www.pixray.com/ [L]

Update: Ich habe den Ausdruck in der RewriteRule von ^.*$ auf . geändert. Irgendwie hat die alte Regel den Zugriff nicht für alle Dateien umgelenkt.

  1. [1]Siehe auch:„Unfreundliche Web-Crawler aussperren“
  2. [2]Siehe Chris Pederick – Useragent-Switcher 0.7.3

Unfreundliche Web-Crawler aussperren

Update 23. Oktober 2012: Inzwischen gibt es neue Erkenntnisse über den Pixray-Seeker. Er meldet sich wahrscheinlich nicht mehr mit Pixray-Seeker, sondern simuliert verschiedene User-Agents. Siehe Freundliche und unfreundliche Crawler

Beim Auswerten der Webalizer Statistiken sind mir Angriffe und verschiedene Suchmaschinen aufgefallen, von denen ich noch nichts gehört hatte. Die Angriffe gingen in der Regel gegen phpMyAdmin Installationen. Die laufen bei mir jedoch ins Leere. Über diese Angriffe schreibe ich später, d.h. in einem anderen Artikel. Heute soll es um eine spezielle Suchmaschine gehen.

„Unfreundliche Web-Crawler aussperren“ weiterlesen