ランダムな文字列をHTMLコメントの中に仕込み、なおかつ、メッセージをコメントタグで分断することによって、ベイジアンフィルターを回避しようとするスパムが出現。
HTMLメールという時点で、スパムに認定しても良いような気がする。
今までは1日1通以下だったスパムが、1日に2、3通来るようになったので、Bayesian フィルターを使ってみることにした。サンプルのスパムもたまってきたし。Rubyで書かれている を使ってみた。ちゃんと使える。以下の手順でスパムデータを学習させる。
bsfilter -H -s ~/Mail/spam bsfilter -H -c ~/Mail/inbox bsfilter -u
あとは、.procmailrc に以下のように書く。
:0 HB: * ? bsfilter -H spam/.
メールヘッダーを無視する -H オプションを付けた方が正当率が良かったので、上の例でも -H を付けている。自動的に学習する -a オプションは遅すぎて実用的でない。メールをひとつ振り分けるたびに、gdb GDBM をオープンして書き加えるのでかなり遅くなるようだ。-a オプション無しだと普通に使える。
「アフリカの投資」スパムもちゃんとスパムに分類するようになった。
最近のコメント