|
发表于 2003-1-20 23:49:56
|
显示全部楼层
终于上来了,我的卡钱用完了,一下午没上来,呵呵。
我是在windows下用emeditor来做unicode和ansi936的转换,这个软件还能把行尾的换行符给变了。在这里有:
http://www.emurasoft.com/cs/emeditor3/index.htm
在这样做了以后,我就进linux,用gawk和sed来把码表给变了。具体的命令有:
- sed 's/ [a-z,/,,/.,//,/;][a-z,/,,/.,//,/;]//g' ebf9x.TXT.ansi936.txt > wb.txt
-
- gawk 'gsub(/[a-z]||\;||\,||\.||\//,"")' wb.txt > wb1.txt
-
- gawk 'gsub(/[^a-z\;\,\.\/]/,"")' wb.txt >wb2.txt
-
- paste wb2.txt wb1.txt >wb.cin
-
- gawk 'gsub(/\t/," ")' wb.cin >newwb.cin
复制代码
第一句是把win下输入法生成器反编译过程里的多余码给去掉,比如:
汉字 xxxx xx
第一句就把那后面的xx给去掉。
第二句是把码表里的编码都给去掉,只留中文。里面的字符是二笔用的,你把,/,,/.,//,/;去掉就是五笔的了。
第三句是把码表里的非编码内容给去掉,只留编码。
第四句是把编码和汉字贴在一个文件里,中间用一个tab来分开
第五句是把tab换成一个空格。 |
|