POPFile

 http://popfile.sourceforge.net/
 先日も言ったとおり、私の家に届くメールのスパムの数があまりにも酷い(一日に30通ぐらい来る)ので、何か対策を講じようと探して、出てきたのがこのPOPFile。POPプロキシとして動作し、メーラーに依存しないのが良さげ。
 システム的にはベイズ推定を用いて、ダウンロードしてきたメールを何回かトレーニングしてやれば、あとは過去のデータから今後の予測をして自動的に振り分けてくれる。分類を間違えたら、自分で分類してトレーニングさせていくことにより、段々賢くなっていくらしい。
 
 ベイズ推定
 http://www.neurosci.aist.go.jp/~kurita/lecture/prnn/node8.html
 
 なんだか良く分からんが、凄い(マテ
 
 まあ、ベイズ推定はともかくとして、とりあえず進化型のフィルタリングソフトだということは良く分かったので、早速導入してみました。
 
 とりあえず、設定を済ませてメールをダウンロード。
 1通目……就職関連のメール。分類をしていないので当然振り分けは失敗。jobhuntという名前の振り分け分類をつくり、そこに分類してやることに。
 2通目〜16通目……1通しか学習していないので、当然振り分けは失敗。スパムやら就職関連のメールやらごっそりと届いたので、手作業で分類する。スパムはspamの分類をつくり、メーラー側で全部ゴミ箱直行にしてやる。
 
 そして、17通目。
 ヨドバシカメラの広告が着ました。
 
 分類を見てみると、spamに放り込んでました!
 初の分類成功です。しばらく続けていけば、かなり効果がありそうな予感。
 
 というわけで、スパムにお困りの方は試されてみては如何だろうか。
 
 追記
 上の数式より、もっと分かりやすい説明がありました。
 http://popfile.sourceforge.net/cgi-bin/wiki.pl?JP_Glossary/Bayesian