作者:神秘的sy0001 | 来源:互联网 | 2023-07-31 17:27
以http:9gag.comask9gag这个网站为例,列表页明显是一个瀑布流的形式,不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容,再继续滚动的时候再翻
以http://9gag.com/ask9gag
这个网站为例,列表页明显是一个瀑布流的形式,不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容,再继续滚动的时候再翻,依次类推。
用爬虫爬取第一页的内容没什么技术含量,难的是如何进行翻页爬取以后各个页面的内容。
解决步骤:
一开始并不知道该页面是通过一种什么机制来翻页的,所以在火狐浏览器中打开f12,点击“控制台”,然后鼠标滚动到该页面底端,看看发出了什么请求:
图片.png
原来请求了这样一个网址,然后鼠标持续往下滚动,可以发现:
图片.png
看看红框内请求的网址,原来鼠标不断滚动,就会不断发出请求下一页的url。
那些形如”c=10″或者”c=20″的参数一看便知就是用来控制获取的下一批条目用的。
图片.png
猜想一下 原网页当中很可能有个地方调用了上图红框中的地址。
此时只要到原网页的源代码中去查找一下即可(当然只查找其中一段字符串,不要查整个url)。果不其然:
图片.png
发现了这个 “ ”标签就好办多了,往下的步骤就不再赘述了。
(待续)