热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

爬虫技术初探:requests库基础教程第二部分

(1)搜狗搜索人物实战importrequestsurlhttps:www.sogou.comweb?query李荣浩#首先我们需要观察在搜狗输入李

(1)搜狗搜索人物实战

import requestsurl = 'https://www.sogou.com/web?query=李荣浩'
# 首先我们需要观察 在搜狗 输入李荣浩 会发现他的Url 有上面这一长串的字符
# https://www.sogou.com/web?query=李荣浩&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=1372&sst0=1649923016205&lkt=0%2C0%2C0&sugsuv=1649923012240390&sugtime=1649923016205
# 但是实际上我们观察一下 真正有用的就是这个 query=李荣浩 后面的字符我们可以不用管 删去
# 所以在构建要爬取的url的时候 我们 使用前面的 https://www.sogou.com/web?query=李荣浩就可以了# 这个是搜狗可以 可能是看 query后面这个就够了 后面的其他字符可以删除header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}# 这个是 打开f12 然后在请求头中找到 user-agent 这个就是 网页判断你是用什么机器登入的网页 判断你是不是人在操作 还是说你是个程序
# 这一步和前面有点像 新加的这个headers 就是属性 就是你登入网页的属性 模仿成正常的人登入进去req = requests.get(url=url,headers=header)print(req.text)
# 这个就是打印你爬取的网页的文本

附上源代码

import requestsurl = 'https://www.sogou.com/web?query=李荣浩'header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}req = requests.get(url=url,headers=header)print(req.text)

(2)升级代码练习

通过在键盘输入你想要找的人 然后让程序自动爬取

import requests# 这一步中的input就是 通过键盘输入的函数
query = input("输入你想找的人:")# 这一步中的 format函数 在入门基础(一)中讲到了 是相当于替换{}中的字符 所以就是把键盘输入的 来替换query=后面的字符 来实现搜索目的
url = 'https://www.sogou.com/web?query={}'.format(query)header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}req = requests.get(url=url,headers=header)print(req.text)

附上源码

import requestsquery = input("输入你想找的人:")url = 'https://www.sogou.com/web?query={}'.format(query)header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}req = requests.get(url=url,headers=header)print(req.text)

多多学习 理解 可以进行其他的代码扩展 爬虫的学习并不难 用心学 你也会变成爬虫高手!!


推荐阅读
author-avatar
邹飞邹飞邹飞
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有