|
发表于 2006-7-18 20:41:36
|
显示全部楼层
正确地说楼主除了得手工检查内码之外基本上也没有别的办法了。
按我个人的习惯,如果一个project必须在两个平台上开发,我会要求我的程序使用同样的encoding,比如要求所有的文件都使用UTF-8,如果实在不能统一(一般是为了满足许多所谓专家学者莫名其妙的要求),可以退而求其次,用当前系统编码决定文件内文的编码:
import locale
import string
import re
#根据当前系统的encoding构造需要的编码取值
lang = string.upper(locale.setlocale(locale.LC_ALL, ""))
textencoding = None
#检查编码的值是不是满足我们需要的情况
if re.match("UTF-8", lang) != None:
# UTF-8编码
textencoding = "utf-8"
elif re.match(r"CHINESE|CP936", lang):
# Windows下的GB编码
textencoding = "gb18030"
elif re.match(r"GB2312|GBK|GB18030", lang):
# Linux下的GB编码
textencoding = "gb18030"
else:
# 其他情况,抛个错误吧
raise UnicodeError
fd = file(filename, "r")
fulltextlist = fd.readlines()
# 把每一行转换成unicode
for each in len(fulltextlist):
fulltextlist = unicode(each, textencoding)
fd.close()
# 如果要打印的话,可以用 text.encode(encoding) 来恢复成多字节编码。
注意,这里的code效率很低的,楼主要是打算搬过来用的话,记得优化一下。 |
|