|
楼主 |
发表于 2004-6-12 19:36:14
|
显示全部楼层
好的,不过用这个脚本之外,还要手动修改一些地方。这个脚本的主要用处是查找86版的码表并在每个词的后面加上一个正数(应该是词频吧?),如果是86版中没有的词则其词频设为0。
其中86版的码表就是scim-table源码中的。
[PHP] use FileHandle;
$begintable=0;
open(fwubi, "Wubi.txt") || die "can't open Wubi.txt";
while(<fwubi>) {
print("shisdsidfi\n") if(!$begintable);
$begintable=1 && print("fuck you\n") if ($_ =~ /BEGIN_TABLE/);
next if (!$begintable);
if($_ =~ /([a-z]+)\s+(\S+)\s+(\S+)\s*/) {
# print("$1 $2 $3\n");
$table{$2}=$3;
}
}
print ("hello world\n");
open(fwubi98, "Wubi98.txt")||die "can't open Wubi.txt";
$fwubi982=new FileHandle ("> Wubi982.txt")||die "can't open wubi982.txt!";
$begintable=0;
while(<fwubi98>) {
chomp;
print $fwubi982 ("$_");
($begintable=1 && print $fwubi982("\n"))if( $_ =~ /BEGIN_TABLE/);
print $fwubi982 ("\n") if (!$begintable);
next if (!$begintable);
if($_ =~/([a-z]+)\s+(\S+)\s*/){
if($table{$2}) {
print $fwubi982 (" $table{$2}\n");
}
else {
print $fwubi982 (" 0\n");
}
}
}
[/PHP] |
|