当前位置: 开发笔记 > 后端 > 正文

scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

作者：神秘的sy0001 | 来源：互联网 | 2023-07-31 17:27

以http:9gag.comask9gag这个网站为例，列表页明显是一个瀑布流的形式，不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容，再继续滚动的时候再翻

以http://9gag.com/ask9gag
这个网站为例，列表页明显是一个瀑布流的形式，不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容，再继续滚动的时候再翻，依次类推。
用爬虫爬取第一页的内容没什么技术含量，难的是如何进行翻页爬取以后各个页面的内容。

解决步骤：
一开始并不知道该页面是通过一种什么机制来翻页的，所以在火狐浏览器中打开f12，点击“控制台”，然后鼠标滚动到该页面底端，看看发出了什么请求：

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

原来请求了这样一个网址，然后鼠标持续往下滚动，可以发现：

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

看看红框内请求的网址，原来鼠标不断滚动，就会不断发出请求下一页的url。
那些形如&＃8221;c=10&＃8243;或者&＃8221;c=20&＃8243;的参数一看便知就是用来控制获取的下一批条目用的。

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

猜想一下原网页当中很可能有个地方调用了上图红框中的地址。
此时只要到原网页的源代码中去查找一下即可（当然只查找其中一段字符串，不要查整个url）。果不其然：

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

发现了这个 “ ”标签就好办多了,往下的步骤就不再赘述了。

（待续）

推荐阅读

缓存
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
mvc
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
http
帝国CMS多图上传插件详解及使用指南

本文介绍了一款用于帝国CMS的多图上传插件，该插件通过Flash技术实现批量图片上传功能，显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]

蜡笔小新 2024-12-26 13:30:01
mvc
Java SpringMVC SSM 实现多模块集成：操作日志、文件管理、头像编辑、权限控制及缓存优化

本文介绍了一个基于 Java SpringMVC 和 SSM 框架的综合系统，涵盖了操作日志记录、文件管理、头像编辑、权限控制、以及多种技术集成如 Shiro、Redis 等，旨在提供一个高效且功能丰富的开发平台。 ... [详细]

蜡笔小新 2024-12-20 19:17:47
python
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
正则
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
正则
理解感受野与锚框在目标检测中的应用

本文探讨了卷积神经网络（CNN）中感受野的概念及其与锚框（anchor box）的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小，而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]

蜡笔小新 2024-12-27 12:03:44
uuid
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
http
如何高效创建和使用字体图标

在Web和移动开发中，为什么选择字体图标？主要原因是其卓越的性能，可以显著减少HTTP请求并优化页面加载速度。本文详细介绍了从设计到应用的字体图标制作流程，并提供了专业建议。 ... [详细]

蜡笔小新 2024-12-26 20:48:44
注入
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
注入
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
jvm
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
缓存
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
http
头条如何抓取和索引网站内容

本文详细介绍了头条搜索引擎对网站内容的抓取、解析及索引过程，探讨了收录量与索引量的区别，并提供了实用工具和技巧来监控网站的收录情况。通过这些信息，网站管理员可以更好地理解搜索引擎的工作机制，优化网站内容以提高其在搜索结果中的可见性。 ... [详细]

蜡笔小新 2024-12-20 22:11:30
http
MySQL Debug 模式的实现与应用

本文详细介绍了如何启用和使用 MySQL 的调试模式，包括编译选项、环境变量配置以及调试信息的解析。通过实际案例展示了如何利用调试模式解决客户端无法连接服务器的问题。 ... [详细]

蜡笔小新 2024-12-19 19:17:32

神秘的sy0001

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章