Falsche Bots finden

Geschützte Seiten, die trotzdem über Google gefunden werden wollen, erlauben den Zugriff, wenn er von Google kommt. Im einfachen Fall fragt der Server nur den User Agent String ab. Kennzeichnet er den Aufrufer als Googlebot, wird der Zugriff erlaubt. Dies wird gerne ausgenutzt um einen Zugriffsschutz zu umgehen.

Manche Crawler oder Nutzer – gut oder böse sei dahin gestellt – tarnen sich als Googlebot mit dem User Agent String Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html).

Frage: Wie kann ich erkennen, dass ein Zugriff wirklich von einem Googlebot kommt? Und was kann ich gegen dagegen tun?
„Falsche Bots finden“ weiterlesen