Unfreundliche Web-Crawler aussperren

Update 23. Oktober 2012: Inzwischen gibt es neue Erkenntnisse über den Pixray-Seeker. Er meldet sich wahrscheinlich nicht mehr mit Pixray-Seeker, sondern simuliert verschiedene User-Agents. Siehe Freundliche und unfreundliche Crawler

Beim Auswerten der Webalizer Statistiken sind mir Angriffe und verschiedene Suchmaschinen aufgefallen, von denen ich noch nichts gehört hatte. Die Angriffe gingen in der Regel gegen phpMyAdmin Installationen. Die laufen bei mir jedoch ins Leere. Über diese Angriffe schreibe ich später, d.h. in einem anderen Artikel. Heute soll es um eine spezielle Suchmaschine gehen.

„Unfreundliche Web-Crawler aussperren“ weiterlesen

Robots.txt

Ich habe mir gerade die Angriffe auf diese Seite angesehen. Ich glaub, ich muss da noch ein paar kleine Tools installieren um diese zu blocken. Als erstes habe ich meine robots.txt überarbeitet. Die Standard-Datei, die WordPress installiert ist doch etwas zu schwarz /weiß. Natürlich bietet dies keine Sicherheit und der WordPress Source Code ist bekannt, aber wenn administrative Seiten nicht durchsucht werden müssen, dann erleichtert es der Suchmaschine die Arbeit. Eine Syntax-Prüfung für die robots.txt gibt es in Netz auch:

Valid Robots.txt