Richpro SPAM erkennen

Wer sich die Links (URI) in dem E-Mails der Richpro Internet GmbH genauer anschaut, wird feststellen, dass die letzten Zeichen der Verknüpfungsadresse immer identisch sind. Um SpamAssassin ein wenig auf die Sprünge zu helfen, hilft folgender Regelsatz:

# Erkennung eines Links der Richpro Internet GmbH
uri TA_RichproURI /eindeutige Zeichen$/i

describe TA_RichproURI Mail enthaelt Link, der auf die Richpro Internet GmbH hindeutet

score TA_RichproURI 2.0

Da die eindeutigen Zeichen von Kunde zu Kunde verschieden sein dürften, muss jeder die Zeichen aus seinen E-Mails selbst heraussuchen. Bei mir ist die Zeichenkette fünf Zeichen lang – muss aber nicht jeder wissen, welche Zeichen es sind.

Einen weiteren Hinweis gibt der Link zum Abmelden der E-Mails. Hier ist immer die E-Mailadresse enthalten. Womit folgender Eintrag hilfreich sein könnte:

uri TA_RichproMail /v=[0-9]*&a=thomas%40example.com/i

describe TA_RichproMail Mail enthaelt Link mit meiner E-Mails-Adresse (moeglicherweise Richpro Internet GmbH)

score TA_RichproMail 2.0

Leider ist auch die E-Mail-Adresse sehr individuell.

Genug für heute, gute Nacht

SpamAssassin: Filtern der Arbeitsangebote

Derzeit flattern die Arbeitsangebote, egal ob deutsch oder schwedisch, im Stundentakt und öfter herein. Nicht weiter wild, aber ab und an kommen sie doch noch durch den Spam-Filter von SpamAssassin. Im ersten Schritt habe ich den Bayes-Filter die Mails lernen lassen, so dass er die Mails jetzt mit der Wahrscheinlichkeit >99 % als Spam erkennt. Zwar habe ich für diesen Fall den Score für die Regel BAYES_99 gegenüber dem Default-Wert schon auf 5.0 heraufgesetzt, aber dieser Filter soll trotzdem nur einen Teilbeitrag leisten. Da weiter Mails durch den Filter fallen, habe ich mir die Testergebnisse in den erfolgreich als Spam erkannten Mails genauer angesehen.

Hier eine typische Ausgabe von SpamAssassin:

„SpamAssassin: Filtern der Arbeitsangebote“ weiterlesen

kmail2 und SpamAssassin

Wie ich schon berichtet habe, kann SpamAssassin mittels sa-learn nicht die im mbox-Format gespeicherten Mails lernen. sa-learn erkennt keine Mails in dem von kmail2 verwendetet mbox-Format. Nach langem Rätseln habe ich gestern eine minimale Mail erzeugt und diese mit kmail (Version 1.36.6) und mit kmail2 (Version 4.8.3) empfangen und gespeichert. Der Vergleich ergab einen wesentlichen Unterschied in der „From_“ Zeile und führte schließlich zur Klärung der Ursache.

Beispiel kmail

From thomas@example.com Tue, 15 May 2012 22:01:41 +0200

Beispiel kmail2

From thomas@example.com Tue May 15 2012 22:01:41

In kmail (Version 1) Datum und Uhrzeit waren im ctime Format, wie unter RFC 4155 oder man 5 mbox beschrieben. kmail2 verwendet ein Datum-Zeit-Format wie in RFC 822 beschrieben. Leider gibt es keinen – einheitlichen – Standard für das mbox-Format bzw. die Definitionen für das Datums-Zeit-Format in der „From_“ Zeile widersprechen sich. Diese Zeile ist jedoch für die Trennung der Mails in der mbox -Datei entscheidend. SpamAssassin erkennt derzeit das zweite Format nicht als eine gültige „From_“ Zeile.

Dieses Problem habe ich bei KDE (Bug 297198) und bei SpamAssassin (Bug 6703) gemeldet.

Um SpamAssassin endlich wieder ein paar Mails lernen zu lassen, habe ich das – neue – Format mit sed quick and dirty in das – alte – ctime Format konvertiert. Da rechnen in sed nicht so einfach ist, habe ich von einer Anpassung der Uhrzeit an die Zeitzone UTC (+0000) abgesehen. Für eine bessere Lösung müsste ich wohl mit awk oder anderen Programmen arbeiten, was nicht so schnell umsetzbar ist. Hier der sed-Befehl in seiner vollen Schönheit:

sed ‚/^From / s#\(…\), \([0-3][0-9]\) \(…\) 2012 \([0-2][0-9]:[0-5][0-9]:[0-5][0-9]\) [+-][0-9]\{4\}#\1 \3 \2 \4 2012#‘ < spam-kmail2.mbox > spam-kmail1.mbox

Das einfachste wäre, kmail2 ginge zum alten Datum-Zeit-Format zurück. Vielleicht bewegt sich auf der einen oder anderen Seite etwas. Bei SpamAssassin bewegte sich in den letzten Stunden sehr viel – bei KDE nichts außer meine Kommentare.