作者:迪迪 | 来源:互联网 | 2023-09-15 18:38
当通过spider发出请求之后会返回response。response是一个类,其中包括一些内置的属性。1. response.url返回请求地址2.response.body返回
当通过spider 发出请求之后会返回response。response是一个类,其中包括一些内置的属性。
1. response.url 返回请求地址
2.response.body 返回请求内容
这里需要注意,body类型是str,所以body的内容编码类型是爬取页面的原类型。
# 根据需求转化 response.encoding
response.body.decode(response.encoding)
例如最近就遇到抓取内容涉及中文时乱码:“\xe6\x80\xa7\xe4\xbc\xa0”
在chardet.detect(response.body) 显示乱码是 UTF-8编码,那么可以通过下列方式转化编码:
response.body
# 输出的是\xe7\x96\xbe\xe7\x97\x85\xe7\x9a\x84\xe6\xa6\x82\xe8\xbf\xb0
response.body.decode('utf-8')
# 转码后输出:“疾病的概述"”