Bots, Crawler und Spider

Bots, Crawler oder Spider sind Computer die das World Wide Web nach Inhalten mit unterschiedlichen Zielsetzungen durchforsten. Die bekanntesten sind sicher die Crawler der großen Suchmaschinenbetreiber Bing / MSN, Baidu, Google, Yahoo oder Yandrex. Dass deren Crawler regelmäßig vorbei schauen ist wichtig, damit eine Seite in den Suchergebnissen gefunden wird. Aber es gibt auch zahlreiche andere Crawler, deren Besuch mehr oder weniger sinnvoll ist. Wenn ein Portal keine Stellenangebote beinhaltet, ist es wenig sinnvoll, dass ein Crawler die Seiten regelmäßig besucht. Falls Sie keinen Shop betreiben, hilft es nichts, dass ein entsprechend spezialisierter Crawler Ihre Web-Seiten durchsucht.

Ob ein Crawler ein Portal durchsucht und welche Verzeichnisse durchsucht werden, kann bei kooperativen oder freundlichen Crawlern anhand des Robots Exclusion Standard über eine Datei robots.txt (Kleinschreibung beachten) im root-Verzeichnis gesteuert werden.

Unkooperative oder unfreundliche Crawler ignorieren den Inhalt der robots.txt. Gegen diese Crawler helfen nur stärkere Geschütze.

Die Zugriffe der letzten Tage auf dieses Blog habe ich hinsichtlich der besuchenden Bots, Crawler und Spider ausgewertet. Von Anfang des Monats bis heute, entfallen etwa 15% bis 20% der Seitenabrufe (Hits im Webalizer) auf über 50 verschiedene Crawler.[1] Der User-agent-string, mit dem sich der Bot, Crawler oder Spider im HTTP-Abruf meldet, ist nicht identisch mit dem User-agent in der Datei robost.txt, nach dem er sucht. Deshalb muss zu jedem Crawler der passende User-agent für die Datei robots.txt gefunden werden. Gute Web-Portale haben eine umfassende Beschreibung des Verhaltens ihrers Crawler; weniger gute verweisen auf die allgemeine Beschreibung der Datei; manche vergessen dabei den User-agent anzugeben, auf den ihr Crawler hört.

Die Bezeichnung „Standard“ ist für den Robots Exclusion Standard ist im Grunde eine Übertreibung. Die Syntax der Datei robots.txt ist nicht sehr streng definiert. Bei der Auswertung der Datei robots.txt sollte der Crawler die Groß-Kleinschreibung bei der Feldnamen (User-agent, Disallow …) und bei seinem Namen (wohlgemerkt sollte) nicht beachten. Als Parameter sind nur User-agent und Disallow definiert und es gibt nur die Wildcard „*“ für den User-agent. Viele Crawler akzeptieren aber auch Erweiterungen wie reguläre Ausdrücke. Einen einheitliche Art der Auswertung der Datei durch die Crawler wurde leider nie definiert. Eine gute Beschreibung des „Minimum“ anhand einer Beispiel-Site findet sich bei bjoernsworld.de · Suchmaschinen.

Hier nun eine Auflistung, kurze Beschreibung und Bewertung der Bots, Crawler und Spider, die ich in der letzten Zeit identifiziert habe.

„Bots, Crawler und Spider“ weiterlesen

  1. [1]Hierbei ist zu bedenken, dass es auch Kameraden gibt, die Web-Seiten mit dem User-Agent eines Crawlers abrufen um ihrer Zugriffe zu tarnen. Diese Zugriffe habe ich bei der Betrachtung nicht gefiltert. Einige Seiten verwenden einen Zugriffschutz oder verhindern, dass die Seiten auf anderen Rechnern – z.B. zum Offline Lesen – gespiegelt werden. Damit Google die Seiten trotzdem indizieren kann, werden die Crawler von Google geduldet. Bei einer fehlerhaften Implementierung dieses Schutzes kommt ein Angreifer mit dem User-agent-string eines GoogleBot ebenfalls Zugriff auf die Seiten.

Falsche Bots finden

Geschützte Seiten, die trotzdem über Google gefunden werden wollen, erlauben den Zugriff, wenn er von Google kommt. Im einfachen Fall fragt der Server nur den User Agent String ab. Kennzeichnet er den Aufrufer als Googlebot, wird der Zugriff erlaubt. Dies wird gerne ausgenutzt um einen Zugriffsschutz zu umgehen.

Manche Crawler oder Nutzer – gut oder böse sei dahin gestellt – tarnen sich als Googlebot mit dem User Agent String Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html).

Frage: Wie kann ich erkennen, dass ein Zugriff wirklich von einem Googlebot kommt? Und was kann ich gegen dagegen tun?
„Falsche Bots finden“ weiterlesen

Robots.txt

Ich habe mir gerade die Angriffe auf diese Seite angesehen. Ich glaub, ich muss da noch ein paar kleine Tools installieren um diese zu blocken. Als erstes habe ich meine robots.txt überarbeitet. Die Standard-Datei, die WordPress installiert ist doch etwas zu schwarz /weiß. Natürlich bietet dies keine Sicherheit und der WordPress Source Code ist bekannt, aber wenn administrative Seiten nicht durchsucht werden müssen, dann erleichtert es der Suchmaschine die Arbeit. Eine Syntax-Prüfung für die robots.txt gibt es in Netz auch:

Valid Robots.txt