1. 打开google浏览器,输入www.toutiao.com, 搜索街拍。
2.打开开发者选项,network监看加载的xhr, 数据是ajax异步加载的,可以看到preview里面的data数据
3.下拉刷新查看加载的offset,每次加载20条数据,data是json数据,里面的article_url,是图集详情页的url。
4.首先抓取索引页的内容
data数据来自于索引页的请求都里面的query str
5. 接下来是解析索引页的数据,提取出所需要的详情页的url,索引页的data是json数据,里面的article_url,是图集详情页的url。
6. 有了详情页的url,接下来就是获取详情页的数据和代码了
7. 接着就是解析详情页面,并提取title, 和图片url, 详情页代码数据在Doc中查看, 注意提取的是组图,非组图被过滤了.url_list 是指三个地址都是图片的地址,我们只要有一个原始的url就可以了。
8. 把解析提取的数据存储到mongodb中,以字典的方式.
先写个mongo的配置文件config.pyMONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'
GROUP_START = 0
GROUP_END = 20
KEYWORD = '街拍'
然后连接本地mongo,存储数据
9. 下载图片
10. 爬虫主函数
11. 开启多进程
12. 需要的库函数