使用Scrapyd-Client简化分布式爬虫部署

Scrapyd-Client是一个强大的工具，旨在简化Scrapy项目的部署流程。本文将详细介绍如何使用Scrapyd-Client进行Scrapy项目的部署。

一、环境准备

开始前，确保已安装Scrapyd-Client。可以通过pip命令轻松安装：

pip install scrapyd-client

二、Scrapyd-Client功能解析

Scrapyd-Client提供了两项主要功能以简化部署过程：

将Scrapy项目打包成Egg文件。
通过Scrapyd的addversion.json API接口上传Egg文件。

这些功能使得开发者无需深入了解Egg文件的生成机制或API接口的具体操作，只需一条命令即可完成项目的打包与部署。

三、部署步骤详解

部署Scrapy项目前，需先修改项目的配置文件scrapy.cfg。例如，在微博爬虫项目中，scrapy.cfg的内容可能如下所示：

[settings] default = weibo.settings [deploy] #url = http://localhost:6800/ project = weibo

若要将项目部署到远程服务器120.27.34.25上的Scrapyd服务，应修改配置如下：

[deploy] url = http://120.27.34.25:6800/ project = weibo

随后，在scrapy.cfg文件所在的目录下执行部署命令：

scrapyd-deploy

执行后，您将看到类似以下的输出，表明部署成功：

Packing version 1501682277 Deploying to project "weibo" in http://120.27.34.25:6800/addversion.json Server response (200): {"status": "ok", "spiders": 1, "node_name": "datacrawl-vm", "project": "weibo", "version": "1501682277"}

默认情况下，项目版本号为当前时间戳。若需自定义版本号，可通过--version参数指定，例如：

scrapyd-deploy --version 201707131455

注意，在Python 3环境下，Scrapyd 1.2.0及以上版本中，版本号只能为纯数字，否则会导致错误。

对于多台服务器，可在scrapy.cfg中为每台服务器配置别名，如下所示：

[deploy:vm1] url = http://120.27.34.24:6800/ project = weibo [deploy:vm2] url = http://139.217.26.30:6800/ project = weibo

部署时，只需指定服务器别名即可：

scrapyd-deploy vm2

此外，若Scrapyd服务设有访问权限，可在配置文件中添加用户名和密码，并将端口号改为Nginx代理端口，例如：

[deploy:vm1] url = http://120.27.34.24:6801/ project = weibo username = admin password = admin [deploy:vm2] url = http://139.217.26.30:6801/ project = weibo username = germey password = germey

通过这种方式，Scrapyd-Client能够在部署过程中自动处理身份验证，确保部署顺利进行。