|
楼主 |
发表于 2008-7-12 18:36:15
|
显示全部楼层
Post by wd_afei;1873830
装上了,哈哈。
貌似有点意思,和scim-pinyin 很像。
那两个放data的文件是什么呀? 是词库么?
lm_sc.t3g.i386是线索化后的语言模型数据,目的是加速查找速度和压缩数据,差不多就是建立索引的效果,有了它能较快地计算 n-gram 语言模型里一串单字 (S = {W_1,W_2, W_3, ..., W_n}) 成为该语言模型里一个句子的概率 P(S)。
pydict_sc.bin.i386是词表(lexicon),或者说是大家常说的输入法的词库,这个词表支持不完全拼音和词到词的转换。 |
|