|
发表于 2003-5-25 13:04:00
|
显示全部楼层
to sofoot:
我把win下的码表用editplus经过UTF-8转反
然后用ground兄弟提供的fcitx的转反脚板原来的码表格式:(先把开头的无用信息删除)
工a aaaa
式aa aayi
工aaa aaaa
恭恭敬敬aaaa
tcitx码表格式:
a 工
aa 式
aaa 工
aaaa 恭恭敬敬
先用 dos2unix.pl 转成unix文本格式
usage: perl dos2unix.pl <old98.txt >wb98.txt
#!/usr/bin/perl -w
while(<> ){
s/\r\n$/\n/;
print;
}
再用 wb.pl 转成fcitx格式
usage: perl wb.pl <wb98.txt
#!/usr/bin/perl -w
open(FH,">wbx.mb")||die('open fail');
while($str=<> ){
$str=~s/ .*//; #erase extra data after space
$str=~s/([a-z]{1,4}$)//; #extract encodings
$tmp=$1;
chop($str); #erase \n
if(length($str)%2){ #if true indicate wrong whwn extract encodings
$str.=substr($tmp,0,1); #fix the wrong problem
$tmp=~s/[a-z]//;
}
print FH "$tmp $str\n"; #write to new file
} 按照这样的转反循序,可以保留gb2312和gbk输入,2字词,4字词输入都没问题,可是单字和3字词部分大部分丢失,不知道那里有错 |
|