SpamBayes 日本語トークンの抽出化

http://owa.as.wakwak.ne.jp/zope/coreblog/148
owaさんの仕事です。

今回は tokenizer コードに手を入れただけで、トークン抽出以降の処理はまったく調べていません。とは云え (運良くこのまま) ベイジアンフィルタ処理部分が通してくれれば、何もしないで動く可能性はあります。まあ、その反対は地獄と云うこと。その話は、また次の機会ってことで、かんべん。

かんぜんなわかち書きではなく助詞などの区別はしていないようだ。
文字コードの変換は内部的にやっているのかな。
HTMLメールやMIMEになっているのを処理できるのかな。
つーか、使って見れ > をれ
sargeのは1.0.3-1だな。.4相当パッチは入ってない模様。