脳ざらし紀行


2003-04-09

_ [ネット] Bayesian破り出現か?

ランダムな文字列をHTMLコメントの中に仕込み、なおかつ、メッセージをコメントタグで分断することによって、ベイジアンフィルターを回避しようとするスパムが出現。

HTMLメールという時点で、スパムに認定しても良いような気がする。

_ [ネット] Bayesian フィルター

今までは1日1通以下だったスパムが、1日に2、3通来るようになったので、Bayesian フィルターを使ってみることにした。サンプルのスパムもたまってきたし。Rubyで書かれている を使ってみた。ちゃんと使える。以下の手順でスパムデータを学習させる。

bsfilter -H -s ~/Mail/spam 
bsfilter -H -c ~/Mail/inbox 
bsfilter -u 

あとは、.procmailrc に以下のように書く。

:0 HB:
* ? bsfilter -H 
spam/.

メールヘッダーを無視する -H オプションを付けた方が正当率が良かったので、上の例でも -H を付けている。自動的に学習する -a オプションは遅すぎて実用的でない。メールをひとつ振り分けるたびに、gdb GDBM をオープンして書き加えるのでかなり遅くなるようだ。-a オプション無しだと普通に使える。

「アフリカの投資」スパムもちゃんとスパムに分類するようになった。

お名前:
E-mail:
コメント:
本日のリンク元

最近のコメント

2003|01|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|04|05|
2011|04|
2012|03|07|
2013|01|02|07|
トップ «前の日記(2003-04-08) 最新 次の日記(2003-04-11)» 編集