Scrapy爬取豆瓣Top250电影和灌篮高手漫画全集

作者：淡月如水夜宿雨 | 来源：互联网 | 2023-08-25 16:37

爬取豆瓣Top250电影为了寻找练手的项目，搜索了无数文档，自己总结了一套关于scrapy写spider的“标准”模板，稍后奉上。在这无数文档中，不知道是出于什么原因，要我说至少有

爬取豆瓣Top250电影

为了寻找练手的项目，搜索了无数文档，自己总结了一套关于scrapy写spider的“标准”模板，稍后奉上。在这无数文档中，不知道是出于什么原因，要我说至少有一半提到了爬取豆瓣top250电影，那我也只能先爬为敬了。

如果你看懂了我上一篇文章，那么爬豆瓣就很简单了，废话不多说，我直接上代码：

import scrapy class doubantop250(scrapy.Spider): name = "doubantop250" headler = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 5.1.1; Nexus 6 Build/LYZ28E) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Mobile Safari/537.36', #'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8' } start_urls = [ 'https://movie.douban.com/top250' ] def start_requests(self): for url in self.start_urls: yield scrapy.Request(url=url, callback=self.parse, headers=self.headler) def parse(self, response): for lists in response.css('ol.grid_view li div.item'): yield { "名次": lists.css('div.pic em::text').extract(), "信息": lists.css('div.info div.bd p::text').extract(), "电影名": lists.css('div.info div.hd a span.title::text').extract(), "评分":lists.css('div.info div.bd div.star span.rating_num::text').extract(), "引言": lists.css('div.info div.bd p.quote span.inq::text').extract() } next_page = response.css('div.paginator span.next a::attr(href)').extract_first() if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.parse, headers=self.headler)

同样的css表达式scrapy shell抓不到东西？

这是因为shell里生成的request默认是没有带User-agent字段的，这个字段在反爬技术中很重要，怎么解决呢？也很简单，给它一个User-agent呀。在shell里输入：

>>> header = { ... 'User-Agent': 'Mozilla/5.0 (Linux; Android 5.1.1; Nexus 6 Build/LYZ28E) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Mobile Safari/537.36', ... } >>> from scrapy import Request >>> req = scrapy.Request(url='https://movie.douban.com/top250', headers=header) >>> fetch(req)爬取灌篮高手漫画全集

这是我发现的另一个觉得很有帮助的例子：Python3网络爬虫(十二)：初识Scrapy之再续火影情缘，作者爬取了一个盗版漫画网站上的火影漫画。我觉得这篇文章最可取之处是教我们系统化的使用Scrapy编写爬虫，我从中学到了很多东西。另外我个人并没有看过火影，我爬灌篮高手好了。

作者的思路也很值得借鉴。

分析并提取所有可能用到的URL

这里我就直接列出来了，和作者写的可能有点不一样，但大同小异。想看具体分析过程的可以参考作者的原文档。之前我以为这一步是最难的，其实现在看来这一步其实是最简单的。

# 章节的名字 response.xpath("//dl/dd/a[1]/text()").extract() # 章节的链接 response.xpath("//dl/dd/a[1]/@href").extract() # 每张的总页数 response.xpath("//tr/td/text()").re("共(\d+)页")[0] # script脚本内容 response.xpath('//script/text()').extract()

关于代码

代码我就不贴了，原作者在Github上传了完整的源代码，这里我讲一下我对这部分代码的理解。

逻辑

先说下这个爬虫的逻辑，整个爬取过程中涉及到的URL一共有三种，第一种是每一章的标题和链接，第二种是每一章节中每张图片的链接，作者把每一章的图片分成了两部分：第一张图片和剩下所有的图片，然后分别写了三个parse方法来处理。

在scrapy的sipders模块里，你只需要用yield不断的抛出request或item，其中每个request会根据其包含的url和callback函数再次进入spider的某个处理方法里进行处理；item则会被pipelines.py里的pipeline处理。（想一想前面文章里的那张scrapy机构图）。这里提一点，spider抛出的item会被所有的pipeline轮流处理一变，处理的顺序是根据settings.py里的ITEM_PIPELINES冒号后面的数字决定，值越小优先级越高。Item的格式在items.py里定义。

细节一点？

comic_spider.py

在parse1中，新建了item对象，每个Item包含了章节名、章节链接、图片链接以及图片保存的路径，但是在parse1中其实只用到了章节名和章节链接两项。这里我们已经知道，章节链接和漫画的主页面的链接的域名是不一样的，因此我们在parse1的最后抛出一个请求，它对应了章节链接以及一个代表item的meta值，同时回调parse2来处理这一系列的请求。

在parse2中，我们通过从request中获取meta值的方式来获取要处理的item对象。在这个方法中，我们要分析出每个章节一共有多少张图片以及第一张图片的URL是什么。这里面涉及到一系列的正则和字符串处理操作，就不细说了，如果看不懂代码，建议在shell模式下把每一步的结果都打印出来看看，可以帮助理解。我们把第一张图片的URL存入item中，然后在最后抛出包含这一章所有图片的URL的请求，比如说如果这一章有122张图片，就会抛出121个请求，当然每个请求都包含了一个代表item的meta值，这些请求都会回调parse3方法。

那么第一张图片是怎么处理呢？很简单直接yield带有第一张图片url的item对象即可，后面会说pipeline是怎么处理这些item的。这里还有一点要注意，虽然每张图片所在的网页是按照1，2，3，4，5&＃8230;进行编号的，但是图片本身的img_url是由script生成的，它需要你在每个网页里抓取，并存在item[&＃8216;img_url&＃8217;]里。

在parse3中，因为parse2中抛出的每一条请求都对应了一个网页，也就是对应了一张图片，我们只需要将每张网页里的图片的url抓取出来即可，接着我们把这个url存入item中，并抛出item。

pipelines.py

还记得我们在comic_spider.py中抛出的item吗？这里会处理，在这个爬虫中，我们只会用到一个pipeline。首先我觉得需要对所有被抛出的item有个概念，这么多item是分类的？以第一章为例，橄榄高手第一章有122张图片，也就是122个item，其中每个item都带有章节名，章节链接和需要保存的路径（每章第一张图片的item由parse2抛出，其余的由parse3抛出）。那么在pipeline中，我们做的就是将每个item对应的内容保存到本地，假设我们需要保存的路径是d:/，那么最后我们要写入的地址就是d:/ + 章节名 + 图片名字.jpg。这里有一点取巧的地方就是我们用图片所在网页里那个数字作为每张图片的名字，因为它正好对应了图片的顺序，所以在图片都下载下来后顺序不会乱。

settings.py

scrapy1.5的settings.py已经有很详细的注释了，当然官方文档有更详细的注释：Settings。

结果

最后自然是运行这个爬虫程序，说实话，看着程序在运行同时文件夹里的内容逐渐增加时心里还是有成就感的，即使这个程序不是我原创的。从文件夹中的内容增加的过程可以看出，scrapy的框架采用的是异步策略(为什么?)。今天还找到一个介绍scrapy的视频，容我观摩一番，再写一篇详细点的关于scrapy的文章。

推荐阅读

request
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
main
解决Selenium浏览器实例化位置导致的闪退问题

本文探讨了在使用Selenium进行自动化测试时，由于webdriver对象实例化位置不同而导致浏览器闪退的问题，并提供了详细的代码示例和解决方案。 ... [详细]

蜡笔小新 2024-12-23 16:09:49
client
利用Selenium与ChromeDriver实现豆瓣网页全屏截图

本文介绍了一种使用Selenium和ChromeDriver结合Python代码，轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行，而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]

蜡笔小新 2024-12-22 15:17:55
bit
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
bit
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
数组
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
main
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
request
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
client
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
web
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15
main
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
web
解析：IE 浏览器中 IMG 元素 alt 属性的误用及其正确处理方式

在跨浏览器开发中，一个常见的问题是关于如何在鼠标悬停时显示图片提示信息。本文深入探讨了 IE 浏览器对 IMG 元素 alt 属性的特殊处理，并提供了最佳实践建议。 ... [详细]

蜡笔小新 2024-12-23 12:35:10
web
Python技巧：利用Cookie实现自动登录绕过验证码

本文详细介绍了如何通过Python和Selenium库利用浏览器Cookie实现自动登录，从而绕过验证码验证。文章提供了具体的操作步骤，并附有代码示例，帮助读者理解和实践。 ... [详细]

蜡笔小新 2024-12-21 15:24:54
web
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
main
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49

淡月如水夜宿雨

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章