热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

以http:9gag.comask9gag这个网站为例,列表页明显是一个瀑布流的形式,不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容,再继续滚动的时候再翻

以http://9gag.com/ask9gag
这个网站为例,列表页明显是一个瀑布流的形式,不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容,再继续滚动的时候再翻,依次类推。
用爬虫爬取第一页的内容没什么技术含量,难的是如何进行翻页爬取以后各个页面的内容。

解决步骤:
一开始并不知道该页面是通过一种什么机制来翻页的,所以在火狐浏览器中打开f12,点击“控制台”,然后鼠标滚动到该页面底端,看看发出了什么请求:

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

原来请求了这样一个网址,然后鼠标持续往下滚动,可以发现:

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

看看红框内请求的网址,原来鼠标不断滚动,就会不断发出请求下一页的url。
那些形如”c=10″或者”c=20″的参数一看便知就是用来控制获取的下一批条目用的。

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

猜想一下 原网页当中很可能有个地方调用了上图红框中的地址。
此时只要到原网页的源代码中去查找一下即可(当然只查找其中一段字符串,不要查整个url)。果不其然:

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

发现了这个 “ ”标签就好办多了,往下的步骤就不再赘述了。

(待续)


推荐阅读
author-avatar
神秘的sy0001
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有