python urllib爬取网页编码问题

imelee 2017-02-28

展开全文

利用Python urllib库爬取网页，有时获得的网页打印或写文件遇到编码问题，找了许久终于知道为什么了。

首先利用urlopen()函数获取网页对象，再利用info()函数打印网页的相关信息，确定网页的编码及是否压缩。

[python] view plain copy

报错

显示编码错误，刚开始，傻傻地试各种编码，utf-8，gbk，gb2312，都不行，心里堵得慌，是在玩我吗？

so，开始怀疑是bug，但是有的网页又不会出错，这就奇怪了，最后google找到了一个解释，说是返回的网页数据是压缩格式，恍然大悟，先打印网页信息，看一眼

gzip，网页是压缩后的，所以要先解压，上代码

[python] view plain copy

结果

Google问题原版

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： imelee > 《使用工具》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

imelee

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换