作者:邹飞邹飞邹飞 | 来源:互联网 | 2024-10-23 10:44
(1)搜狗搜索人物实战
import requestsurl = 'https://www.sogou.com/web?query=李荣浩'
# 首先我们需要观察 在搜狗 输入李荣浩 会发现他的Url 有上面这一长串的字符
# https://www.sogou.com/web?query=李荣浩&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=1372&sst0=1649923016205&lkt=0%2C0%2C0&sugsuv=1649923012240390&sugtime=1649923016205
# 但是实际上我们观察一下 真正有用的就是这个 query=李荣浩 后面的字符我们可以不用管 删去
# 所以在构建要爬取的url的时候 我们 使用前面的 https://www.sogou.com/web?query=李荣浩就可以了# 这个是搜狗可以 可能是看 query后面这个就够了 后面的其他字符可以删除header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}# 这个是 打开f12 然后在请求头中找到 user-agent 这个就是 网页判断你是用什么机器登入的网页 判断你是不是人在操作 还是说你是个程序
# 这一步和前面有点像 新加的这个headers 就是属性 就是你登入网页的属性 模仿成正常的人登入进去req = requests.get(url=url,headers=header)print(req.text)
# 这个就是打印你爬取的网页的文本
附上源代码
import requestsurl = 'https://www.sogou.com/web?query=李荣浩'header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}req = requests.get(url=url,headers=header)print(req.text)
(2)升级代码练习
通过在键盘输入你想要找的人 然后让程序自动爬取
import requests# 这一步中的input就是 通过键盘输入的函数
query = input("输入你想找的人:")# 这一步中的 format函数 在入门基础(一)中讲到了 是相当于替换{}中的字符 所以就是把键盘输入的 来替换query=后面的字符 来实现搜索目的
url = 'https://www.sogou.com/web?query={}'.format(query)header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}req = requests.get(url=url,headers=header)print(req.text)
附上源码
import requestsquery = input("输入你想找的人:")url = 'https://www.sogou.com/web?query={}'.format(query)header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}req = requests.get(url=url,headers=header)print(req.text)
多多学习 理解 可以进行其他的代码扩展 爬虫的学习并不难 用心学 你也会变成爬虫高手!!