Schlagwort-Archive: robots.txt

Bots, Crawler und Spider

Bots, Crawler oder Spider sind Computer die das World Wide Web nach Inhalten mit unterschiedlichen Zielsetzungen durchforsten. Die bekanntesten sind sicher die Crawler der großen Suchmaschinenbetreiber Bing / MSN, Baidu, Google, Yahoo oder Yandrex. Dass deren Crawler regelmäßig vorbei schauen ist wichtig, damit eine Seite in den Suchergebnissen gefunden wird. Aber es gibt auch zahlreiche andere Crawler, deren Besuch mehr oder weniger sinnvoll ist. Wenn ein Portal keine Stellenangebote beinhaltet, ist es wenig sinnvoll, dass ein Crawler die Seiten regelmäßig besucht. Falls Sie keinen Shop betreiben, hilft es nichts, dass ein entsprechend spezialisierter Crawler Ihre Web-Seiten durchsucht.

Ob ein Crawler ein Portal durchsucht und welche Verzeichnisse durchsucht werden, kann bei kooperativen oder freundlichen Crawlern anhand des Robots Exclusion Standard über eine Datei robots.txt (Kleinschreibung beachten) im root-Verzeichnis gesteuert werden.

Unkooperative oder unfreundliche Crawler ignorieren den Inhalt der robots.txt. Gegen diese Crawler helfen nur stärkere Geschütze.

Die Zugriffe der letzten Tage auf dieses Blog habe ich hinsichtlich der besuchenden Bots, Crawler und Spider ausgewertet. Von Anfang des Monats bis heute, entfallen etwa 15% bis 20% der Seitenabrufe (Hits im Webalizer) auf über 50 verschiedene Crawler.[1] Der User-agent-string, mit dem sich der Bot, Crawler oder Spider im HTTP-Abruf meldet, ist nicht identisch mit dem User-agent in der Datei robost.txt, nach dem er sucht. Deshalb muss zu jedem Crawler der passende User-agent für die Datei robots.txt gefunden werden. Gute Web-Portale haben eine umfassende Beschreibung des Verhaltens ihrers Crawler; weniger gute verweisen auf die allgemeine Beschreibung der Datei; manche vergessen dabei den User-agent anzugeben, auf den ihr Crawler hört.

Die Bezeichnung „Standard“ ist für den Robots Exclusion Standard ist im Grunde eine Übertreibung. Die Syntax der Datei robots.txt ist nicht sehr streng definiert. Bei der Auswertung der Datei robots.txt sollte der Crawler die Groß-Kleinschreibung bei der Feldnamen (User-agent, Disallow …) und bei seinem Namen (wohlgemerkt sollte) nicht beachten. Als Parameter sind nur User-agent und Disallow definiert und es gibt nur die Wildcard „*“ für den User-agent. Viele Crawler akzeptieren aber auch Erweiterungen wie reguläre Ausdrücke. Einen einheitliche Art der Auswertung der Datei durch die Crawler wurde leider nie definiert. Eine gute Beschreibung des „Minimum“ anhand einer Beispiel-Site findet sich bei bjoernsworld.de · Suchmaschinen.

Hier nun eine Auflistung, kurze Beschreibung und Bewertung der Bots, Crawler und Spider, die ich in der letzten Zeit identifiziert habe.

Bots, Crawler und Spider weiterlesen

  1. [1]Hierbei ist zu bedenken, dass es auch Kameraden gibt, die Web-Seiten mit dem User-Agent eines Crawlers abrufen um ihrer Zugriffe zu tarnen. Diese Zugriffe habe ich bei der Betrachtung nicht gefiltert. Einige Seiten verwenden einen Zugriffschutz oder verhindern, dass die Seiten auf anderen Rechnern – z.B. zum Offline Lesen – gespiegelt werden. Damit Google die Seiten trotzdem indizieren kann, werden die Crawler von Google geduldet. Bei einer fehlerhaften Implementierung dieses Schutzes kommt ein Angreifer mit dem User-agent-string eines GoogleBot ebenfalls Zugriff auf die Seiten.

80legs

80legs ist ein Web-Crawler, der ab und an meine Seiten besucht. Gegen einen entsprechenden Obulus kann ein registrierter Nutzer den Crawler mit einer spezifischen Suchanfrage beauftragen. Im Prinzip bekommt nur der Kunde das Ergebnis zu sehen, der auch dafür bezahlt hat. Wenn ich die Beschreibung richtig verstanden habe, kann ein Kunde bestimmen, welche Seiten durchsucht werden sollen, welchen Links wie tief gefolgt werden soll, usw. Auf die gefundenen Seiten kann – neben allgemeinen Suchkriterien – ein vom Kunden spezifiziertes Programm angewandt werden. Damit lässt sich mit diesem Crawler ganz spezifisch nach bestimmten Inhalten oder Dateien suchen.

Die Case Study: IP Protection by Monotype Imaging gibt einen kleinen Hinweis darauf, dass 80legs Kunden unter anderem gezielt nach Urheberrechtsverstößen (IP bedeutet in diesem Fall Intellectual Property) suchen.

Wer ein Durchsuchen seines Servers nicht möchte, der kann dies über die robots.txt verhindern. Wie der Crawler arbeitet ist in einem Wiki beschrieben. Danach identifiziert sich der Crawler als 008 mit dem aktuellen Firefox Release. Ganz unten auf der Seite, im Abschnitt Web-Masters, ist beschrieben, wie das Crawlen auf der eigene Seite unterbunden werden kann. Dazu ist folgender Eintrag in der robots.txt erforderlich:

User-agent: 008
Disallow: /

Im Gegensatz zum Pixray-Bot[1][2] ist das Verhalten und die Arbeitsweise des Crawler bei 80legs sehr gut erläutert. (Die Firma Pixray sollte sich daran ein Beispiel nehmen.)

Mir ist noch nicht ganz klar, welchen Gewinn ich als Betreiber eines Servers davon habe, dass 80legs kundenspezifisch bei mir sucht und ich Prozessorkapazität und Bandbreite dafür spendieren muss. Ich glaube ich habe nichts davon.

Bei 50.000 Rechnern ist eine Sperrung über IP-Adressen aussichtslos. Wenn die, weil das Geschäftsmodell wegen zu viel „gesperrter“ Seiten nicht funktioniert, werden sie ihre Bedenken über Bord werfen und die robots.txt ignorieren. Watt dann?

Gute Nacht!

Und natürlich:

Kölle Alaaf!

  1. [1]Siehe „Der Pixray-Seeker wird lästig“
  2. [2]Siehe „Unfreundliche Web-Crawler aussperren“

Private Krankenversicherung Spam

Formularfeld der PKV Seiten
Text Teil der PKV Seiten ohne Hintergrundbild

Heute kam wieder eine Private Krankenversicherungsspam in meine Mailbox; diesmal von Herrn Carl Kaiser. Nichts ungewöhnliches, nichts besonderes. Der Link – http://www.beratung-und-analyse3.info – führte zur Bekannten Adresssammelseite. Diese Seite zeigt nichts außergewöhnliches, sie ist jedoch Trick reich gestaltet. Die Seite besteht fast nur aus dem Hintergrundbild, über das ein Eingabeformular positioniert ist. Die Datenschutzbestimmungen sind ebenfalls nur ein Hintergrundbild. Was auf den ersten Blick wie Text aussieht, ist also in Wirklichkeit reine Grafik. Nur der kleine Formularteil (siehe Bild) zur Abfrage der Adresse und ein unscheinbarer Link auf ein Impressum rechts unten (im Bild abgeschnitten) enthält einen für Suchmaschinen verwertbaren Text. Diese „Schlagworte“ (Anrede, Name, Vorname,…) gibt es aber auf zig-Millionen Seiten im Netz. Für den Datensammler hat dies den Vorteil, dass Google nur minimale Informationen hat, um die Seite zu indizieren. Damit sind diese Seiten über Google kaum (wieder) zu finden, selbst wenn eine Suchmaschine sich nicht an eine robots.txt halten sollte, die unser Datensammler übrigens vergessen hat. Auch McAfee Site Survey bekommt nur minimale, im Grunde harmlose Informationen. Ob dies beabsichtigt ist? Wer weiß? Wartebn wir mal darauf, dass eine robots.txt auf den Servern erscheint. BTW: Ich würde dazu einen anderen Mechanismus verwenden.

Beim Abspeichern der Seite werden Hintergrundbilder nicht mit gesichert und beim Ausdruck werden normalerweise keine Hintergrundbilder gedruckt. Wer die Seite dokumentieren will, kommt mit den Standardeinstellungen nicht weit und braucht etwas mehr Kenntnisse um die Seite vollständig zu sichern.

Der Trick mit den Hintergrundbildern hat einen weiteren Vorteil. Eine kleine Routine zur Prüfung der aufgerufenen Adresse und die Seite wird zur Abrufseite für etwas anderes.

Ich habe mir 10 Minuten Zeit genommen, um die Quelle der nett lächelnden weiblichen Ärztin zu finden. Mit den richtigen Stichworten hat es nicht lange gedauert und ich wurde bei den Stock-Fotos von Vitaly Valua auf 123rf.com fündig. Dort ist das Bild spiegelverkehrt (als Original eher spiegelrichtig). Da ich keine Lust auf Urheberrechtsfragen habe, hier nur der Link zum Bild. Würde nach Klicks abgerechnet, wäre Vitaly Valua bald sehr reich. Wenn überhaupt, zahlt unser Freund für die Bilder bei 123rf.com einen niedrigen Preis.

Genug für heute!

Kölle Allaf!

Unfreundliche Web-Crawler aussperren

Update 23. Oktober 2012: Inzwischen gibt es neue Erkenntnisse über den Pixray-Seeker. Er meldet sich wahrscheinlich nicht mehr mit Pixray-Seeker, sondern simuliert verschiedene User-Agents. Siehe Freundliche und unfreundliche Crawler

Beim Auswerten der Webalizer Statistiken sind mir Angriffe und verschiedene Suchmaschinen aufgefallen, von denen ich noch nichts gehört hatte. Die Angriffe gingen in der Regel gegen phpMyAdmin Installationen. Die laufen bei mir jedoch ins Leere. Über diese Angriffe schreibe ich später, d.h. in einem anderen Artikel. Heute soll es um eine spezielle Suchmaschine gehen.

Unfreundliche Web-Crawler aussperren weiterlesen

The Webalizer – Statistiken absichern

Wer einen Web-Server betreibt, der möchte – so wie ich – wissen, was so auf seinem Server vor sich geht. Welche Seiten werden besucht, wie viele, von wem, usw. Da bietet sich The Welalizer als Tool für die Auswertung der Access Logs an. Die Installation ist einfach, die Konfiguration auch. Dazu aber etwas in einem späteren Artikel. Hier möchte ich etwas über die Absicherung der Statistiken schreiben, weil mir auffiel, dass viele Administratoren die Statistiken nicht vor Zugriffen schützen.

The Webalizer – Statistiken absichern weiterlesen

Robots.txt

Ich habe mir gerade die Angriffe auf diese Seite angesehen. Ich glaub, ich muss da noch ein paar kleine Tools installieren um diese zu blocken. Als erstes habe ich meine robots.txt überarbeitet. Die Standard-Datei, die WordPress installiert ist doch etwas zu schwarz /weiß. Natürlich bietet dies keine Sicherheit und der WordPress Source Code ist bekannt, aber wenn administrative Seiten nicht durchsucht werden müssen, dann erleichtert es der Suchmaschine die Arbeit. Eine Syntax-Prüfung für die robots.txt gibt es in Netz auch:

Valid Robots.txt