之前使用爬虫去爬取网页的时候,user-agent对应的是python自己的名字,这将会告诉网站管理员;我就是爬虫哦,我来爬取信息了,说不准就不能爬取信息了,因此,在实际操作中可以采用修改user-agent的方法,将怕从伪装成浏览器,从而不暴露自己,具体操作和演示如下:
首先导入第三方requests库和并获取url,这里以豆瓣为例,并用r.request.hedaers获取返回信息的头部信息,可以看到这里的user-agent为python-requests/2.18.4'
>>> import requests
>>> r=requests.get('http://www.douban.com/')
>>> r.request.headers
{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
接下来进行替换:
>>> kv={'user-agent':'Mozilla/5.0'}
>>> r=requests.get('http://www.douban.com/',headers=kv)
>>> r.request.headers
{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
首先构造字典:
kv={'user-agent':'Mozilla/5.0'}
然后将headers的中user-agent替换为kv的键值对,如下操作
r=requests.get('http://www.douban.com/',headers=kv)
再次获取头部信息:
r.request.headers
{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
可以看到此时的头部信息已经替换为了Mozilla/5.0了。
以上就是伪装浏览器了
欢迎交流