python 写入文件编码 ascii
前几天抓取一个gb2312编码的网站,中文内容写入不了文件,爆出异常
首先,在consle打印出的内不正常,后来在给BeatifuSoup处理前,
先手动把内容进行解码:
a = urllib2.urlopen("http://www.baidu.com").read()
a = a .decode("gb2312", 'ignore')
'''处理
print info.text.encode("gb2312","ignore")
这样就可以正常在consle中打印出结果,但是无法写入文件
info.text 本身就是 unicode
后来查阅了很多的资料,写入前要将内容解码:
open("file","a+").write(unicode.encode(info.text.encode("gb2312","ignore")+"|||"+“adasd”, 'gb2312'))
这样就能正常写入了