Freundliche und unfreundliche Crawler

[vgwort line=“66″ server=“vg08″ openid=“9657bdce93e24aea830d9116f2af4d8b“]

Vor einigen Monaten habe ich schon einmal etwas über die Möglichkeiten unfreundliche Crawler (Siehe: Unfreundliche Web-Crawler aussperren) zu sperren geschrieben. Heute war wieder etwas Zeit, nach zu schauen, ob die Maßnahmen gewirkt haben.

Sehr viele Zugriffe kamen bisher vom Pixray-Seeker, dem ich daraufhin den Zugriff auf jpg und gif Dateien verboten hatte. Nun, da ich Screen Shots als png einstelle, hat er sich über dieser her gemacht. Durch einen aktuellen Artikel – ich glaube, es war Evil Azraels Stänkerblog – bin ich darauf gekommen, dass Pixray auch andere User-Agent Angaben beim Zugriff schickt. Nun, wenn nicht Pixray drin steht, geht mein Eintrag in der .htaccess ins Leere.

Eine Log-Auswertung für den Pixray-Seeker ergab, dass er zwar die robots.txt las, aber zeitgleich eine Abfrage nach einer Datei schickte. Fast jeder Besuch bestand nur aus diesen beiden Zugriffen. Diesen Monat fand ich aber nur noch 14 Zugriffe eines Pixray-Seeker. Eine Auswertung der Zugriffe anhand der IP-Adressen ergab, dass sich ein Rechner mit mindestens 12 verschiedenen User-Agent Angaben meldete. Dateien (z.B. *.css), die für die Anzeige dieser Seiten wichtig sind, werden nie runter geladen. Dieses Muster und die verwendeten User-Agents trafen für viele Rechner zu. Dass es sich um Proxy-Server handelt, schließe ich daher aus.

Während früher die Pixray-Maschinen einen Namen hatten, der mit webcrawler.pixray.com endet, enden die Namen jetzt mit clients.your-server.de. Ich habe mein Web-Alizer Report dahingehend ausgewertet, dass ich den Traffic all dieser Clients zusammen gerechnet habe. Es lag bei 50% des Traffics, den Google hier verursacht. Da kann ich Bandbreite sparen.

  1. Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; Trident/4.0; BTRS124307; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618; InfoPath.2; .NET4.0C; eMusic DLM/4; .NET CLR 1.1.4322; .NET4.0E;
  2. Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1)
  3. Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0)
  4. Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.13 (KHTML, like Gecko) Chrome/24.0.1284.0 Safari/537.13
  5. Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2
  6. Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.79 Safari/537.4
  7. Mozilla/5.0 (Windows NT 6.1; WOW64; rv:16.0) Gecko/20100101 Firefox/16.0
  8. Mozilla/5.0 (Windows; U; Windows NT 6.1) AppleWebKit/533.18.1 (KHTML, like Gecko) Version/5.0.2 Safari/533.18.5
  9. Mozilla/5.0 (Windows; U; Windows NT 6.1) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27
  10. Mozilla/5.0 (Windows; U; Windows NT 6.1) Gecko/20100818
  11. Opera/9.80 (Windows NT 6.1; WOW64; U; pt) Presto/2.10.229 Version/12.00
  12. Pixray-Seeker/2.0 (Pixray-Seeker; http://www.pixray.com/pixraybot; crawler@pixray.com)

Dass diese Rechner nicht nur von Pixray genutzt werden, ist nicht auszuschließen. Hetzner könnte Rechenzeit vermieten. Ich kenne mich mit deren Geschäftsmodell nicht aus. Aber Pixray scheint die Bilder nicht zwischen zu speichern, da ein Bild durchaus öfter geladen wird. Da heutzutage jeder einen eigenen Web-Crawler aufsetzten kann, stehen auch andere Crawler z.B. Infohelfer/1.3.0[ref]Die halten sich zwar angeblich an den Robots Exclusion Standard, schreiben aber nicht, wie der User-Agent heißt.[/ref] bei Hetzner im Rechenzentrum. Was Pixray unter http://www.pixray.com/pixraybot über ihren Bot schreibt, ist des Lesens nicht wert.

Sinnvollen Traffic habe ich aus den Bereichen der Hetzner Netze nicht gesehen. Daher kann auch nicht schaden, die Bereiche komplett zu sperren.

Hier die Lösung über den Web-Server apache2 mittels .htaccess


Order deny,allow
Deny from 5.9.0.0/16 78.46.0.0/15 178.63.0.0/16 46.4.0.0/16 176.9.0.0/16 88.198.0.0/16

BTW: Einen vorbildlichen Eintrag zur Beschreibung der Verwendung der robots.txt fand ich für den BacklinkCrawler (http://www.backlinktest.com/crawler.html). Der Dienst ist recht sinnvoll. Jeder kann nach Backlinks auf seine Seiten suchen. Dies ist ein durchaus sinnvoller Dienst, der im Gegensatz zu Google mit dieser Seite Ergebnisse liefert. Upps: Der Server steht bei Hetzner und ist jetzt unverdient geblockt. Deshalb hänge ich noch ein Allow hinterher.

Schaue ich ins Log, dann finde ich noch zwei weitere IP-Adressen – 176.9.16.253 und 81.169.145.25 – von denen ich eine wieder freigeben muss.


Order deny,allow
Deny from 5.9.0.0/16 78.46.0.0/15 178.63.0.0/16 46.4.0.0/16 176.9.0.0/16 88.198.0.0/16
Allow from 46.4.100.231 176.9.16.253

Darüber hinaus habe ich folgende Bots gefunden:

  1. BacklinkCrawler
  2. Domnutch-Bot/Nutch-1.0
  3. PeoplePal 6.2
  4. ltbot/1.3
  5. MJ12bot/v1.4.1
  6. NerdByNature.Bot
  7. SEOkicks-Robot
  8. trendictionbot0.5.0
  9. Pixray-Seeker/1.1
  10. Updownerbot

Erwähnenswert ist dabei PeoplePal 6.2. Dieser „Bot“ ist neben anderen für Spam Einträge in meinem WordPress-Blog verantwortlich. Eine dieser Drohnen steht auch bei Hetzner. Ich vermute, der ist Teil eines Bot-Netzes.

Fazit:

Wenn sich die Leute unkooperativ verhalten, muss man mit Kanonen auf Spatzen schießen.


Genug für diesen Abend
Gute Nacht

11 Kommentare

  1. Same problems with Hetzner. Auch ich habe Azraels Blog gelesen und ihn gleich in meinen Blogroll aufgenommen. Als ich in meinen Blog über Spamhoster geschrieben hatte wurde über Nacht meine Domain mit Spamversuchen überflutet. Und das waren nur die harmlosen Sachen. Es hat dann auch jemand in meinen Namen Sachen bestellt und andere Dinge getan. Von den Hackversuchen ganz abgesehen…
    Einer meiner Domain wird wieder heftigst (trotz Sperre) von clients.your-server.de belästigt. Er greift die robots.txt ab, ignoriert sie und greift auf eine bestimmte Seite im Wiki zu. Dabei ändert er ständig die Angabe im User-Agenten (mit einigen kommt er bei mir nicht durch).
    Für mich ist das organisierte Kriminalität die durch das Verhalten dieser Hoster gedeckt wird. Die Kriminellen haben halt Geld (und Macht?).

  2. Ebenfalls die gleichen Erfahrungen. Verschiedene Browserkennungen, IP-Range aus Hetzner.
    Ich sperre (noch) über RewriteRules mit Match auf IP-Adressen und leite wie in „Unfreundliche Web-Wrawler ausperren“ beschrieben auf ein Dummy-Bild um – allerdings erzeuge ich nicht ein Bild sondern habe einfach ein 30-Sekunden Sleep drin (als Teergrube) um das Crawlen auszubremsen. Ob es wirklich hilft weiß ich nicht, auf meiner Site ist dann allerdings wieder für ein paar Monate Ruhe.

    1. Zum Testen nutzen ich ein User Agent Plugin in Firefox oder wget mit Angabe des Useragent. Wenn auf der anderen Seite kein optimierter http-Client eingesetzt wird, sollte es helfen.

  3. Der PixRay bot kommt jetzt auch in IPv6 daher – heute von der Addresse 2001:4ba0:ffe1:76::2 – mit dem User Agent „Java/1.7.0_51“ – man gibt sich also offensichtlich Mühe, nicht wieder in den fail2ban-Filtern zu landen.

Kommentare sind geschlossen.