羊堂本舗脳ざらし紀行 (2003-04-09)

2003-04-09

_ [ネット] Bayesian破り出現か?

ランダムな文字列をHTMLコメントの中に仕込み、なおかつ、メッセージをコメントタグで分断することによって、ベイジアンフィルターを回避しようとするスパムが出現。

HTMLメールという時点で、スパムに認定しても良いような気がする。

_ [ネット] Bayesian フィルター

今までは1日1通以下だったスパムが、1日に2、3通来るようになったので、Bayesian フィルターを使ってみることにした。サンプルのスパムもたまってきたし。Rubyで書かれているを使ってみた。ちゃんと使える。以下の手順でスパムデータを学習させる。

bsfilter -H -s ~/Mail/spam 
bsfilter -H -c ~/Mail/inbox 
bsfilter -u

あとは、.procmailrc に以下のように書く。

:0 HB:
* ? bsfilter -H 
spam/.

メールヘッダーを無視する -H オプションを付けた方が正当率が良かったので、上の例でも -H を付けている。自動的に学習する -a オプションは遅すぎて実用的でない。メールをひとつ振り分けるたびに、~~gdb~~ GDBM をオープンして書き加えるのでかなり遅くなるようだ。-a オプション無しだと普通に使える。

「アフリカの投資」スパムもちゃんとスパムに分類するようになった。

ツッコミ・コメントがあればどうぞ! E-mailアドレスは公開されません。