Bots, Crawler und Spider

Bots, Crawler oder Spider sind Computer die das World Wide Web nach Inhalten mit unterschiedlichen Zielsetzungen durchforsten. Die bekanntesten sind sicher die Crawler der großen Suchmaschinenbetreiber Bing / MSN, Baidu, Google, Yahoo oder Yandrex. Dass deren Crawler regelmäßig vorbei schauen ist wichtig, damit eine Seite in den Suchergebnissen gefunden wird. Aber es gibt auch zahlreiche andere Crawler, deren Besuch mehr oder weniger sinnvoll ist. Wenn ein Portal keine Stellenangebote beinhaltet, ist es wenig sinnvoll, dass ein Crawler die Seiten regelmäßig besucht. Falls Sie keinen Shop betreiben, hilft es nichts, dass ein entsprechend spezialisierter Crawler Ihre Web-Seiten durchsucht.

Ob ein Crawler ein Portal durchsucht und welche Verzeichnisse durchsucht werden, kann bei kooperativen oder freundlichen Crawlern anhand des Robots Exclusion Standard über eine Datei robots.txt (Kleinschreibung beachten) im root-Verzeichnis gesteuert werden.

Unkooperative oder unfreundliche Crawler ignorieren den Inhalt der robots.txt. Gegen diese Crawler helfen nur stärkere Geschütze.

Die Zugriffe der letzten Tage auf dieses Blog habe ich hinsichtlich der besuchenden Bots, Crawler und Spider ausgewertet. Von Anfang des Monats bis heute, entfallen etwa 15% bis 20% der Seitenabrufe (Hits im Webalizer) auf über 50 verschiedene Crawler.[1] Der User-agent-string, mit dem sich der Bot, Crawler oder Spider im HTTP-Abruf meldet, ist nicht identisch mit dem User-agent in der Datei robost.txt, nach dem er sucht. Deshalb muss zu jedem Crawler der passende User-agent für die Datei robots.txt gefunden werden. Gute Web-Portale haben eine umfassende Beschreibung des Verhaltens ihrers Crawler; weniger gute verweisen auf die allgemeine Beschreibung der Datei; manche vergessen dabei den User-agent anzugeben, auf den ihr Crawler hört.

Die Bezeichnung „Standard“ ist für den Robots Exclusion Standard ist im Grunde eine Übertreibung. Die Syntax der Datei robots.txt ist nicht sehr streng definiert. Bei der Auswertung der Datei robots.txt sollte der Crawler die Groß-Kleinschreibung bei der Feldnamen (User-agent, Disallow …) und bei seinem Namen (wohlgemerkt sollte) nicht beachten. Als Parameter sind nur User-agent und Disallow definiert und es gibt nur die Wildcard „*“ für den User-agent. Viele Crawler akzeptieren aber auch Erweiterungen wie reguläre Ausdrücke. Einen einheitliche Art der Auswertung der Datei durch die Crawler wurde leider nie definiert. Eine gute Beschreibung des „Minimum“ anhand einer Beispiel-Site findet sich bei bjoernsworld.de · Suchmaschinen.

Hier nun eine Auflistung, kurze Beschreibung und Bewertung der Bots, Crawler und Spider, die ich in der letzten Zeit identifiziert habe.

„Bots, Crawler und Spider“ weiterlesen

  1. [1]Hierbei ist zu bedenken, dass es auch Kameraden gibt, die Web-Seiten mit dem User-Agent eines Crawlers abrufen um ihrer Zugriffe zu tarnen. Diese Zugriffe habe ich bei der Betrachtung nicht gefiltert. Einige Seiten verwenden einen Zugriffschutz oder verhindern, dass die Seiten auf anderen Rechnern – z.B. zum Offline Lesen – gespiegelt werden. Damit Google die Seiten trotzdem indizieren kann, werden die Crawler von Google geduldet. Bei einer fehlerhaften Implementierung dieses Schutzes kommt ein Angreifer mit dem User-agent-string eines GoogleBot ebenfalls Zugriff auf die Seiten.

Web-Server schützen

Seit einiger Zeit beobachte ich verstärkte Zugriffe auf den Artikel Freundliche und unfreundliche Crawler. In den Monaten Februar und März hat er sich an die Spitze der abgerufenen Seiten gesetzt. Seit Anfang Mai geht jeder 4 Aufruf auf diese Seite; Zeit, der Ursache auf den Grund zu gehen.

„Web-Server schützen“ weiterlesen

Lästige Angriffe auf mein WordPress-Blog(?)

Seit geraumer Zeit beobachte ich Angriffe von vielen Servern auf dieses Blog. Die Angriffe, die dem Seitenaufruf die folgende kryptischen Zeichenfolge (auf vier Zeilen aufgeteilt) der folgenden Form anhängen.

%26sa%3DU
%26ei%3D4rpeT_yyKq3aiQKcmtjDBA
%26ved%3D0CD0QFjAJOGQ
%26usg%3DAFQjCNG2nUv1dUODZwi4HLrUVpZCF-0l8w

Beliebt sind die Seitenaufrufe für /tags/password/<ZEICHENFOLGE> und /tags/pishing/<ZEICHENFOLGE>
„Lästige Angriffe auf mein WordPress-Blog(?)“ weiterlesen

WP SPAM und CAPTCHA

Nachdem ich auf allen WordPress-Seiten ein CAPTCHA1 eingerichtet habe, sind die SPAM Einträge unter den Kommentaren auf Null runter gegangen. Sowohl der einfache CAPTCHA als auch der komplexere grafische Test wirken. Wenn ich nach diesen SPAM Kommentaren suche und sehe, wie viele Seiten sich nicht dagegen schützen kann ich nur den Kopf schütteln. (Ich gebe zu, auf einen bin ich auch reingefallen, denn er passte trefflich, da ich mit dem Facebook Button experimentiert habe.) Schmunzeln muss ich, wenn eine SPAM die vorherige kommentiert und Ketten entstehen – teilweise mit menschlichen Anmerkungen dazwischen.

Jetzt Frage ich mich, welchen der beiden Test ich den Vorzug geben sollte? Per Grafik oder nur alphanumerisch? Welcher ist für den Nutzer einfacher?


  1. CAPTCHA = Completely Automated Public Turing test to tell Computers and Humans Apart

WP socialshareprivacy – Anpassungen

Da mir das Erscheinungsbild der Buttonleiste nicht ganz zusagt, habe ich ein paar Anpassungen für dieses Blog vorgenommen.

  • Hintergrund-Farbe grau
  • Vergrößern der Box
  • Buttons über statt unter dem Inhalt

Für Hintergrundfarbe habe ich in wp-socialshareprivacy/socialshareprivacy.css unter .social_share_privacy_area die Zeile background-color: #dddddd; eingefügt. Dann hängen die Buttons jedoch direk unter der oberen Kante. Also zusätzlich ein padding-top: 5px !important; einfügen und die Höhe von 25px auf 30px ändern.

Um die Buttons nun oberhalb des Inhaltes zu plazieren muss in wp-socialshareprivacy/wp-socialshareprivacy.php in der Funktion add_content die Zeile

$content .= ‚<div id=“socialshareprivacy“></div>‘;

in

$content = ‚<div id=“socialshareprivacy“></div>‘ . $content ;

geändert werden. Fertig!

Facebook, Twitter und Co

Das bisherige Script für die Facebook, Twitter und Co Buttons habe ich durch ein Datenschutz freundlicheres Script von heise.de ersetzt. Die Buttons müssen jetzt mit einem Klick aktiviert werden, bevor sie Daten an Facebook, Twitter und Co senden.

Für WordPress gibt es zwei Versionen zur Auswahl:

  • „XSD socialshareprivacy“
  • „WP socialshareprivacy“

Nach einem kurzen Test habe ich mich für „WP socialshareprivacy“ entschieden. „XSD socialshareprivacy“ zeigte keinen Facebook-Like-Button an und in der Plugin-Übersicht fehlt ein Link zur Konfiguration. Auch den Programm-Code finde ich bei „WP socialshareprivacy“ übersichtlicher und strukturierter.

In beiden Fällen erscheinen die Button jedoch nur unter den Artikeln und nur in der Einzelansicht der Artikel. Ich hätte die Buttons lieber unter dem Titel. Mal sehen, was sich da machen lässt.

Spam in Kommentaren

Kaum Online, kaum bei Google bekannt und schon die erste Spam. Ich werde Kommentare nicht automatisch freischalten. Da ich sie nicht ständig prüfen kann, wird es ein, zwei Tage dauern, bis ein Kommentar freigeschaltet ist. Ich bitte dafür um Verständnis.

Ich habe bei Herrn Google nach den Begriffen aus den Spam-Kommentaren gesucht. Erschreckend. In diesen Listen möchte ich nicht erscheinen.