作者:认知天下微博 | 来源:互联网 | 2023-07-26 18:31
最近在WuxiaWorld上看书.线上看总有些不方便,不能点词查词.便想爬下来看. 爬取的过程当中发现符号编码有点问题,不能够正常显示. 如下: 显示为:正确应该显示的内容是:
最近在WuxiaWorld上看书. 线上看总有些不方便, 不能点词查词. 便想爬下来看.
爬取的过程当中发现符号编码有点问题, 不能够正常显示.
如下:
显示为:
正确应该显示的内容是:
####
查看了一下资料, 应该是因为标点符号的编码出入造成的.
这里的英文符号使用的并非是utf8编码.
尝试几次后. 重新编码可以解决该问题:
增加语句如下:
# 标点转码
cOntent= str(chapter_content).encode('iso-8859-1')
cOntent= chapter_content.decode('utf8')