LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 1284|回复: 5

大家一块出点力吧——ASSP项目中文处理

[复制链接]
发表于 2004-4-3 02:37:46 | 显示全部楼层 |阅读模式
ASSP是一个很不错的anti-spam邮件网关,安装设置异常简单。现在的问题就是它对于中文(以及其它双字节码的语言)支持不佳,
见这里 http://assp.sourceforge.net/fom/cache/33.html
大家来想办法完善一下?
主要和中文的分词有关,原设计者由于使用的是单字节语言,所以只考虑了英语的分词:
rebuildspamdb.pl里的sub add这个函数中
while(/([-\$A-Za-z0-9\'\.!\240-\377]+)/g)
一行。
我关于中文分词的想法很简单,就是按两个字一个词来分,英文单词还按英文的方式分,例如:
“中文就是好用word 看世界”
分词为:
“中文 文就 就是 是好 好用 word 看世 世界”,这样就肯定能使assp在处理中文垃圾信方面足够完善了。
问题是在下的perl水平非常有限,所以想请大家一块出力,看看如何用perl实现我上面说的这种分词方式?
发表于 2004-4-3 14:24:43 | 显示全部楼层
中文 就是 好用 word  看世 界NULL

可以这样分吗?最后的用null来填,SORRY,但我不懂得怎么做。
 楼主| 发表于 2004-4-4 00:36:28 | 显示全部楼层
最初由 devel 发表
中文 就是 好用 word  看世 界NULL

可以这样分吗?最后的用null来填,SORRY,但我不懂得怎么做。


多谢回复,这样分是不行的,词不够多,不足以反应要处理的那段文字。
发表于 2004-4-4 17:08:57 | 显示全部楼层
但是那种不符合中文语法的词有意义吗?
现在的输入法不是都带了完善的中文词组吗?可以借鉴一下啊。
 楼主| 发表于 2004-4-4 22:33:11 | 显示全部楼层
最初由 cozo 发表
但是那种不符合中文语法的词有意义吗?
现在的输入法不是都带了完善的中文词组吗?可以借鉴一下啊。


你是指基于词表的分词技术吧,确实精确得多,但技术处理也比前面偶说的分法复杂得多啊。
发表于 2004-4-11 00:33:50 | 显示全部楼层

可以么?

中文就是好用word看世界

我来自china的一个省

我来  自ch ina? ?? ??

这样的怎么分呢?我不是太明白,请指教。

是不是首先要判断是不是中文呢?

如果判断的话。根据什么呢?如果根据发音来分。

有的字的读音占的码 好象是特殊的。是不是要做特殊处理呢?

我不太懂这方面的知识。但想了解一下。请各位兄弟姐妹不吝赐教。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表