Server neu installiert

Heute habe ich diesen Server neu installiert. Das lange hinausgezögerte Upgrade von OpenSUSE 12.3 auf OpenSUSE 13.1 war endlich fällig. Leider unterstützt STRATO noch nicht die Version OpenSUSE 13.2, so dass cih sicher in absehbarer Zeit wieder Hand anlegen muss.

Trotz der Vorbereitung in einer virtuellen Maschine auf dem heimischen PC gab es einige Hürden zu überwinden. Mein Verhältbnis zu Postfix hat wieder etwas gelitten. Aber jetzt bin ich wieder per E-Mail erreichbar. Dafür Freunde ich mich mit Dovecot immer mehr an. In den nächsten Tagen werde ich im SSL/TLS beibringen – oder zuerst mir.

Auch der Apache2 bedarf einiger Nacharbeit, damit alle Module, die ich nutze hier laufen. Zu allem Überfluss ändern sich auch noch die Namen und Orte der Module, wenn die 64-Bit Version statt der 32-Bit installiert wird.

Gute Nacht

RewriteCond: bad flag delimiters für %{TIME}

Ich möchte eine Datei auf dem Apache2 erst ab einem bestimmten Datum bereitstellen. Dazu sollte eigentlich folgender Code ausreichen:

RewriteCond %{TIME} < 20140614000000
RewriteRule test.html noch-nicht-da.html [R,L]

Nun meldet der Apache2 aber immer: RewriteCond: bad flag delimiters

Ich finde auch mit Google keine Lösung für diesen Fehler. Vermutlich fehlt für TIME irgendein Modul, nur welches? Die Dokumentation ist in diesem Punkt leider sehr bescheiden.

Die Vermutung ist leider falsch.

Das Beispiele, das ich gefunden hatte, hatte hinter dem ‚< ‚ ein Leerzeichen. Dies ist jedoch nicht zulässig.

Hier nun auch die Lösung:

RewriteCond %{TIME} <20140614000000
# oder
RewriteCond %{TIME} „< 20140614000000“
RewriteRule test.html noch-nicht-da.html [R,L]

Bots, Crawler und Spider

Bots, Crawler oder Spider sind Computer die das World Wide Web nach Inhalten mit unterschiedlichen Zielsetzungen durchforsten. Die bekanntesten sind sicher die Crawler der großen Suchmaschinenbetreiber Bing / MSN, Baidu, Google, Yahoo oder Yandrex. Dass deren Crawler regelmäßig vorbei schauen ist wichtig, damit eine Seite in den Suchergebnissen gefunden wird. Aber es gibt auch zahlreiche andere Crawler, deren Besuch mehr oder weniger sinnvoll ist. Wenn ein Portal keine Stellenangebote beinhaltet, ist es wenig sinnvoll, dass ein Crawler die Seiten regelmäßig besucht. Falls Sie keinen Shop betreiben, hilft es nichts, dass ein entsprechend spezialisierter Crawler Ihre Web-Seiten durchsucht.

Ob ein Crawler ein Portal durchsucht und welche Verzeichnisse durchsucht werden, kann bei kooperativen oder freundlichen Crawlern anhand des Robots Exclusion Standard über eine Datei robots.txt (Kleinschreibung beachten) im root-Verzeichnis gesteuert werden.

Unkooperative oder unfreundliche Crawler ignorieren den Inhalt der robots.txt. Gegen diese Crawler helfen nur stärkere Geschütze.

Die Zugriffe der letzten Tage auf dieses Blog habe ich hinsichtlich der besuchenden Bots, Crawler und Spider ausgewertet. Von Anfang des Monats bis heute, entfallen etwa 15% bis 20% der Seitenabrufe (Hits im Webalizer) auf über 50 verschiedene Crawler.[1] Der User-agent-string, mit dem sich der Bot, Crawler oder Spider im HTTP-Abruf meldet, ist nicht identisch mit dem User-agent in der Datei robost.txt, nach dem er sucht. Deshalb muss zu jedem Crawler der passende User-agent für die Datei robots.txt gefunden werden. Gute Web-Portale haben eine umfassende Beschreibung des Verhaltens ihrers Crawler; weniger gute verweisen auf die allgemeine Beschreibung der Datei; manche vergessen dabei den User-agent anzugeben, auf den ihr Crawler hört.

Die Bezeichnung „Standard“ ist für den Robots Exclusion Standard ist im Grunde eine Übertreibung. Die Syntax der Datei robots.txt ist nicht sehr streng definiert. Bei der Auswertung der Datei robots.txt sollte der Crawler die Groß-Kleinschreibung bei der Feldnamen (User-agent, Disallow …) und bei seinem Namen (wohlgemerkt sollte) nicht beachten. Als Parameter sind nur User-agent und Disallow definiert und es gibt nur die Wildcard „*“ für den User-agent. Viele Crawler akzeptieren aber auch Erweiterungen wie reguläre Ausdrücke. Einen einheitliche Art der Auswertung der Datei durch die Crawler wurde leider nie definiert. Eine gute Beschreibung des „Minimum“ anhand einer Beispiel-Site findet sich bei bjoernsworld.de · Suchmaschinen.

Hier nun eine Auflistung, kurze Beschreibung und Bewertung der Bots, Crawler und Spider, die ich in der letzten Zeit identifiziert habe.

„Bots, Crawler und Spider“ weiterlesen

  1. [1]Hierbei ist zu bedenken, dass es auch Kameraden gibt, die Web-Seiten mit dem User-Agent eines Crawlers abrufen um ihrer Zugriffe zu tarnen. Diese Zugriffe habe ich bei der Betrachtung nicht gefiltert. Einige Seiten verwenden einen Zugriffschutz oder verhindern, dass die Seiten auf anderen Rechnern – z.B. zum Offline Lesen – gespiegelt werden. Damit Google die Seiten trotzdem indizieren kann, werden die Crawler von Google geduldet. Bei einer fehlerhaften Implementierung dieses Schutzes kommt ein Angreifer mit dem User-agent-string eines GoogleBot ebenfalls Zugriff auf die Seiten.

So einfach wird man zur sicheren Seite bei Netzcheck.com

Ich habe soeben die Seite Netzcheck.com gefunden. Meine Seite ist also sicher. Nun gut, dass wusste ich auch vorher. Grundsätzlich ist es keine schlechte Idee Web-Seiten zu untersuchen und Sicherheitssiegel zu erzeugen, die der Web-Master auf seiner Seite einbinden kann, wie hier links geschehen. Allerdings lässt sich so ein Siegel leicht fälschen ; wer achtet schon darauf, ob es echt ist. Außerdem muss der Web-Master es selbst einbinden. Welcher Web-Master bindet ein Siegel ein: Diese Seite ist unsicher! Keiner!

Aber die Verwendung des Sicherheitssiegels hat noch zwei weitere Haken.

„So einfach wird man zur sicheren Seite bei Netzcheck.com“ weiterlesen

LG Köln und entfernt die Pixelio Bilder (Fortsetzung 2)

Google pixelio site:lg-koeln.nrw.de
Suchergebnis vom 8. Februar 2014 für die Googlesuche nach pixelio site:lg-koeln.nrw.de

Nachdem ich dem Webmaster des Landgerichts Köln (LG Köln) ein paar Fragen per E-Mail gestellt habe, habe ich zwar keine Antwort bekommen (Webmaster ist in Urlaub), aber eine Reaktion hat es trotzdem gegeben. Das LG Köln hat die Pixelio Bilder entfernt. Als Suchergebnis wirft Google heute nur noch ein altes Bild aus, das sich aber nicht mehr auf der Seite befindet.

Hier meine Fragen:

  1. Warum ignorieren Sie auf Ihren Seiten die Lizenzbedingungen von PIXELIO und
    setzen keinen Link auf die Adresse www.pixelio.de.
  2. Warum ergänzen Sie die Bilder um einen Schriftzug, obwohl nur folgende Bearbeitungen

    „… zugelassen sind: unter Verwendung analoger, digitaler oder sonstiger
    Bildbearbeitungsmethoden wie folgt zu bearbeiten: Änderung der Bildgröße
    (Vergrößerung, Verkleinerung, Beschneidung), Umwandlung der Farbinformationen,
    Änderung der Far-, Kontrast- und Helligkeitswerte. Das Recht zu anderweitigen
    Änderungen am Bildmaterial verbleibt beim Urheber.“

  3. Woraus schließen Sie, dass diese Bearbeitung zulässig ist und für den
    direkten Aufruf des Bildes ausreichend – inbesondere dem fehlenden Link – ist.
  4. Wäre es da nicht risikoärmer und für den Steuerzahler kostengünstiger auf
    diese unnötigen Bilder zu verzichten?

Sie können ja schlecht gegen ihr eigenes Urteil vorgehen.

😉

Update 09. Februar 2014: Ein unbedingt lesenswerter Kommentar zum Thema Rechtssicherheit findet sich auf heise.de.

LG Köln und PIXELIO

Kaum legt sich die Aufregung über die Abmahnwelle, kommt das LG Köln mit einem neuen Urteil aus der Sonne, bei dem man sich fragt, wo leben diese Richter? Die legen im Moment wirklich einen tollen Lauf hin.

Nach dem sie sich bei den Auskunftsersuchen schon als leichtgläubig, unfähig oder unwillig, die Anträge – wenn überhaupt – sorgfältig zu lesen und zu verstehen, erwiesen haben, scheinen sie nicht aus Schaden klug geworden zu sein und müssen die Blamage nochmals toppen.

LG Köln ignoriert Urheberrecht und eigene Rechtsauffassung

Ganz nebenbei outen Sie sich selbst – und wohl fast alle staatlichen Institutionen mit Web-Seiten – als notorische Urheberrechtsverletzer, „LG Köln und PIXELIO“ weiterlesen

OpenSUSE 13.1 und Apache 2.4

Der Apache2 Version 2.4 bringt erhebliche Änderungen gegenüber der Version 2.2 mit. Den Versuch eines Updates des Apache2 auf die Version 2.4 auf einem openSUSE 12.2 System habe ich wegen zahlreicher Fehlermeldungen abgebrochen. Aus schlechten Erfahrung klug geworden, habe ich mir eine neues System von Grund auf mit openSUSE 13.1 in einer virtuellen Maschine aufgesetzt. Einen weiteren Abschuss des Servers wollte ich vor einen Upgrade nicht riskieren.

Die Konfiguration des Apache2 mit yast2 führt allerdings auch nicht zu einem lauffähigen System. Der Apache weigert sich mit mehreren Fehlermeldungen zu starten. Unter openSUSE 13.1 wird der Apache 2.4 installiert, obwohl in den Paketnamen die Version 2.2 angegeben ist. Nach einigen Versuchen konnte ich den Fehler in der Datei /etc/apache2/conf.d/mod_evasive.conf lokalisieren. Der Apache2 meldet, dass es das Modul /usr/lib24/apache2/mod_evasive20.so nicht gibt. Eine nachträgliche Installation / Update hilft nicht, denn die Datei heißt jetzt mod_evasive24.so.

Der Fehler kann nun durch Ändern der ersten Zeile in mod_evasive.conf behoben werden. Entweder wird auf das Module verzichtet und die Zeile auskommentiert / gelöscht oder der Dateinamen geändert. Eine Änderung des Modulnamen auf mod_evasive24.c führt allerdings wieder zu Fehlern.

LoadModule evasive20_module /usr/lib64/apache2/mod_evasive24.so

 
Mit einigen Hinweisen auf wirkungslose, obsolete Parameter startet der Apache2 jetzt.

Google-Frage: Kann man beweisen, dass man Pornos herunterlädt?

Network
Network

Diese Frage an Google führte die Tage jemanden zu diesen Seiten. Ob die Frage zufriedenstellen beantwortet wurde, weiß ich nicht. Vielleicht traf der Sucher auf den Artikel Wie kann man ein Portal überwachen? In diesem Fall könnte die Frage ausreichend beantwortet sein. Wenn nicht, folgt hier eine etwas allgemeinere und umfassendere Antwort.

Auch wenn die Frage aus der Redtube-Abmahnwelle motiviert sein dürfte, will ich darauf nicht oder nur als Randnotiz eingehen.

„Google-Frage: Kann man beweisen, dass man Pornos herunterlädt?“ weiterlesen

Umleitung von RetDube nach RedTube

Wie die RetDube Falle funktioniert haben könnte.
Wie die RetDube Falle funktioniert haben könnte.

Über Feiertage ist es mit Nachrichten zu den Massenabmahnungen der Kanzlei Urmann und Collegen ruhiger geworden. Wenig Neues – viel Spekulation über Altes. Nachdem viel über den Kauf von Klicks bei Trafficholder und die Software GLADII 1.1.3 spekuliert wurde, sowie die Frage, ob auf retdube.net eine Seite gefälscht oder auf die Originalseite zugegriffen wurde, kontrovers diskutiert wurde, habe ich mich gefragt, wie aufwändig die Variante mit der einfachen Umleitung wäre und sie teilweise nachgebaut.

(Ich hatte schon geschrieben, dass Miriams Adventures auf mehreren DVD gepresst wurde. Dazu habe ich mir noch einen kleinen Bonmot am Schuss.)

„Umleitung von RetDube nach RedTube“ weiterlesen