|
ASSP是一个很不错的anti-spam邮件网关,安装设置异常简单。现在的问题就是它对于中文(以及其它双字节码的语言)支持不佳,
见这里 http://assp.sourceforge.net/fom/cache/33.html
大家来想办法完善一下?
主要和中文的分词有关,原设计者由于使用的是单字节语言,所以只考虑了英语的分词:
rebuildspamdb.pl里的sub add这个函数中
while(/([-\$A-Za-z0-9\'\.!\240-\377]+)/g)
一行。
我关于中文分词的想法很简单,就是按两个字一个词来分,英文单词还按英文的方式分,例如:
“中文就是好用word 看世界”
分词为:
“中文 文就 就是 是好 好用 word 看世 世界”,这样就肯定能使assp在处理中文垃圾信方面足够完善了。
问题是在下的perl水平非常有限,所以想请大家一块出力,看看如何用perl实现我上面说的这种分词方式? |
|