python做的一个小程序，有点问题

kingoftime3 · 发表于 2009-3-15 11:01:34

下面是我做的一个程序，用来从起点网站取出我看的那几部小说的最新章节题目，但有时运行正常，有时就会出现编码异常(UnicodeDecodeError: 'gbk' codec can't decode bytes in position 1-2: illegal multibyte sequence)，不知道怎么回事

# -*- coding: cp936 -*-[color=red]此处改为coding: gbk[/color]
import urllib2
bookindex={
"巫墓":"http://www.qidian.com/Book/1051839.aspx",
"盘龙":"http://www.qidian.com/Book/1017141.aspx",
"斗罗大陆":"http://www.qidian.com/Book/1115277.aspx"
}
def getURL(url):
try:
fp = urllib2.urlopen(url)
except:
print 'get url exception'
return[]
p = re.compile('''^<font color="#FF0000">第''')
content=fp.read()
fp.close()
return content
findstr1='''#FF0000'''
findstr2='''</font>'''
for name in bookindex.keys():
content=getURL(bookindex[name]).decode("cp936")[color=red]#此处改为decode("gbk")[/color]
begin = content.index(findstr1) + 9
end = content.index(findstr2,begin)
print name
print content[begin:end]
raw_input("按任意键退出!")

复制代码

谢谢2，3楼的提醒，我用了gbk编码后就正常了

deerlux · 发表于 2009-3-21 20:14:20

我觉得是不是你程序开头的那个coding的原因。你把那行改成coding:utf-8试试。

#-*- coding: utf-8 -*-

复制代码

再比如下面的程序运行的错误应该和你的程序一样：

#!/usr/bin/python
# -*- coding: cp936 -*-
a= u'朱镕基您好'

复制代码

但如果改成utf-8的就没有问题。

lifedog · 发表于 2009-3-22 00:30:17

print一下你content的内容，可能有的时候搜索到的数据不太对

kingoftime3 · 发表于 2009-3-22 16:09:41

我把编码改成gbk，有时就能取到网页内容，有时就出现上边的Error了，而且还会出现三个小说中两个能取到另一个出异常的情况，难道一个网站还会用几种编码方式？

dacheng · 发表于 2009-6-10 18:02:00

佩服楼主，厉害

sharkke · 发表于 2009-6-20 17:22:44

这个使用gbk 编码，有时候无法 decode，使用 gb18030 这个大字符集可以

xieaotian · 发表于 2009-6-29 08:20:08

编码问题……

		自动登录	找回密码
密码			注册

python做的一个小程序，有点问题

浏览过的版块