热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python爬虫获取html页面乱码解决方案

用python做网页爬虫时经常会出现乱码问题。下面给出解决中文乱码问题的解决方法。需要安装chardet模块pipinstallchardet安装是否成功使用piplist命令查看

用python做网页爬虫时经常会出现乱码问题。下面给出解决中文乱码问题的解决方法。

需要安装chardet模块

pip install chardet

安装是否成功  使用pip list命令查看, 如果有出现chardet说明安装OK

示例:

  爬取网易网页时,返回的html页面出现乱码,网易是GB2312编码, 解决如下:

import urllib2
import sys
import chardet req = urllib2.Request("http://www.163.com/")
content = urllib2.urlopen(req).read()
typeEncode = sys.getfilesystemencoding() # 获取系统默认编码
infoencode = chardet.detect(content).get('encoding','utf-8') # 通过第3方模块来自动提取网页的编码
html = content.decode(infoencode,'ignore').encode(typeEncode) # 先转换成unicode编码,然后转换系统编码输出
print html

  

转:https://www.cnblogs.com/luck570/p/8619204.html



推荐阅读
author-avatar
胖蚂蚁
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有