目标:抓取LaGou网爬虫职位,下载于数据库MongoDB,并可视化于pycharm。
我们采用:requests(获取)——MongoDB——PyCharm可视化
废话不多说,先上结果与代码:
前言:
①:安装PyMongo(pip install pymongo),这是Python操作MongoDB的驱动程序
②:抓取页面,如图
现重点讲解代码四个部分:
一:MongoDB
这将建立连接到默认主机(localhost)和端口(27017)
mongodb的详细功用可前往官网
二:真实的urls
异步加载中,真实的url并非https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=,真正的url需要我们通过抓包获取,流程如图:
所以我们得出真实url:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0
三:请求方法post (之前的文章都是get)
通过抓包我们可以看出拉钩网的请求方法是post,所以我们要加入请求表单form_data
四:请求头(headers)
每个网站的请求头都会不一样,但爬取的网站,都有例子,大家初期,跟着选就行,如图:
大家可以对比下我第四篇知乎的请求头
总结:
数据库是学习Python爬虫的必经之路,大家记得安装哦
MongoDB、pycharm可视化的安装,我都会在知乎上发表
下一篇文章,将学习使用函数实现LaGou翻页
有不清楚的地方,大家可以留言,点赞,我看到了,会第一时间回复你
近来考试与课程设计,很久没有更新,还望大家谅解
本系列文章同步跟新于微信公众号:工科男雷先生。知乎:雷之