SpamAssassin: Filtern der Arbeitsangebote

[vgwort line=“69″ server=“vg08″ openid=“dae5dbbc741f4c4d91bfa0c7c1b8f964″]

Derzeit flattern die Arbeitsangebote, egal ob deutsch oder schwedisch, im Stundentakt und öfter herein. Nicht weiter wild, aber ab und an kommen sie doch noch durch den Spam-Filter von SpamAssassin. Im ersten Schritt habe ich den Bayes-Filter die Mails lernen lassen, so dass er die Mails jetzt mit der Wahrscheinlichkeit >99 % als Spam erkennt. Zwar habe ich für diesen Fall den Score für die Regel BAYES_99 gegenüber dem Default-Wert schon auf 5.0 heraufgesetzt, aber dieser Filter soll trotzdem nur einen Teilbeitrag leisten. Da weiter Mails durch den Filter fallen, habe ich mir die Testergebnisse in den erfolgreich als Spam erkannten Mails genauer angesehen.

Hier eine typische Ausgabe von SpamAssassin:

 5.0 BAYES_99               BODY: Bayes spam probability is 99 to 100%
                            [score: 1.0000]
 0.0 HTML_MESSAGE           BODY: HTML included in message
 0.7 MIME_HTML_ONLY         BODY: Message only has text/html MIME parts
 0.8 RDNS_NONE              Delivered to internal network by a host with no rDNS
 0.0 TO_EQ_FM_DIRECT_MX     To == From and direct-to-MX
 0.0 TO_EQ_FM_HTML_ONLY     To == From and HTML only
 0.0 TO_EQ_FM_DOM_HTML_ONLY To domain == From domain and HTML only
 0.0 TO_EQ_FM_HTML_DIRECT   To == From and HTML only, direct-to-MX
-0.8 AWL                    AWL: From: address is in the auto white-list

Es fällt auf, dass vier Regeln anschlagen, aber nicht beißen. Ein Score von 0,0 hilft nicht. Hinzu kommt, dass die automatische Whitelist das Ergebnis nach unter korrigiert. Es kommen nur bekannte Absender und Empfänger vor. Da ich nicht den Score der einzelnen Regeln ändern wollte, habe ich eine Meta-Regel definiert, die mit dem Score 2,0 zubeißt, wenn zwei und mehr der TO_EQ_FM* Regeln anschlagen.

Darüber hinaus habe ich noch eine Regel definiert, die mit 1.0 anschlägt, wenn arbeitdeutschland.com oder technojobse.com in der Mail vorkommt.

Hier meine Ergänzung der user_prefs unter $HOME/.spamassassin . Die zusätzlichen Regeln können alternativ für alle Nutzer in einer Datei unter /etc/mail/spamassassin definiert werden.


meta TA_TO_EQ_FROM ( TO_EQ_FM_HTML_ONLY + TO_EQ_FM_DOM_HTML_ONLY + TO_EQ_FM_DIRECT_MX + TO_EQ_FM_HTML_DIRECT ) > 1
describe TA_TO_EQ_FROM Metaregel, die den Score der vier Regeln erhöhen soll.
score TA_TO_EQ_FROM 2.0

body TA_ARBEITSANGEBOT /\@(?:arbeitdeutschland\.com|technojobse\.com)/i
describe TA_ARBEITSANGEBOT E-Mail moeglicherweise mit Antwort an eine E-Mail @arbeitsangebot.com oder technojobse.com
score TA_ARBEITSANGEBOT 1.0

Damit sollte der Einfluss der Auto-White-List (AWL) ausgeglichen sein, ohne andere Prüfungen stark zu beeinflussen. Da ich weiß, dass Mails, die ich mir wirklich selbst schicke, als Spam gewertet werden können, muss ich in diesem Fall auch in den Spam-Ordner schauen. Ich werde mir wohl noch merken können, ob ich mir selbst eine Mail geschickt habe. Notfalls finde ich sie im Postausgang 😉

Eigentlich müssten die Regeln gegen eine größeren Bestand Spam und Ham getestet werden – dabei ließen sich auch exakte Score Werte bestimmen um die False-Positive Rate gering zu halten.

Aber: Ich habe keine Sammlung!