80legs

[vgwort line=“19″ server=“vg08″ openid=“586d5cafe69543938f2dd7c2dc8dc0b9″]

80legs ist ein Web-Crawler, der ab und an meine Seiten besucht. Gegen einen entsprechenden Obulus kann ein registrierter Nutzer den Crawler mit einer spezifischen Suchanfrage beauftragen. Im Prinzip bekommt nur der Kunde das Ergebnis zu sehen, der auch dafür bezahlt hat. Wenn ich die Beschreibung richtig verstanden habe, kann ein Kunde bestimmen, welche Seiten durchsucht werden sollen, welchen Links wie tief gefolgt werden soll, usw. Auf die gefundenen Seiten kann – neben allgemeinen Suchkriterien – ein vom Kunden spezifiziertes Programm angewandt werden. Damit lässt sich mit diesem Crawler ganz spezifisch nach bestimmten Inhalten oder Dateien suchen.

Die Case Study: IP Protection by Monotype Imaging gibt einen kleinen Hinweis darauf, dass 80legs Kunden unter anderem gezielt nach Urheberrechtsverstößen (IP bedeutet in diesem Fall Intellectual Property) suchen.

Wer ein Durchsuchen seines Servers nicht möchte, der kann dies über die robots.txt verhindern. Wie der Crawler arbeitet ist in einem Wiki beschrieben. Danach identifiziert sich der Crawler als 008 mit dem aktuellen Firefox Release. Ganz unten auf der Seite, im Abschnitt Web-Masters, ist beschrieben, wie das Crawlen auf der eigene Seite unterbunden werden kann. Dazu ist folgender Eintrag in der robots.txt erforderlich:

User-agent: 008
Disallow: /

Im Gegensatz zum Pixray-Bot[ref]Siehe „Der Pixray-Seeker wird lästig“[/ref][ref]Siehe „Unfreundliche Web-Crawler aussperren“[/ref] ist das Verhalten und die Arbeitsweise des Crawler bei 80legs sehr gut erläutert. (Die Firma Pixray sollte sich daran ein Beispiel nehmen.)

Mir ist noch nicht ganz klar, welchen Gewinn ich als Betreiber eines Servers davon habe, dass 80legs kundenspezifisch bei mir sucht und ich Prozessorkapazität und Bandbreite dafür spendieren muss. Ich glaube ich habe nichts davon.

Bei 50.000 Rechnern ist eine Sperrung über IP-Adressen aussichtslos. Wenn die, weil das Geschäftsmodell wegen zu viel „gesperrter“ Seiten nicht funktioniert, werden sie ihre Bedenken über Bord werfen und die robots.txt ignorieren. Watt dann?

Gute Nacht!

Und natürlich:

Kölle Alaaf!