当前位置: 开发笔记 > 编程语言 > 正文

scrapyredis分布式爬虫

作者：香福武燕_205 | 来源：互联网 | 2024-12-02 12:00

分布式爬虫
目录

分布式爬虫

相关的参考资料

依赖环境

相关介绍

分布式问题

项目中（settings和爬虫文件.py）代码的配置

MySQL和redis的配置

开始分布式爬虫

重启分布式爬虫

依赖环境：

Scrapy >= 1.1

Redis >= 2.8

附：查看ip的命令如下图：

scrapy-redis分布式爬虫

分布式问题：

1. 多台电脑如何统一的对URL进行去重？

2. 多台电脑之间如何共用相同的队列？多台电脑获取的request，如何在多台电脑之间进行同步？

3. 多台电脑运行同一个爬虫项目，如果有机器爬虫意外终止，如何保证可以继续从队列中获取新的request，而不是从头开始爬取？

前两个问题：可以基于redis实现。相当于将set()和queue()从scrapy框架中抽离出来，将其保存在一个公共的平台中(redis)。

第三个问题：scrapy_redis已经实现了，重启爬虫不会从头开始重新爬取，而是会继续从队列中获取request。不用担心爬虫意外终止。

多台电脑的爬虫项目连接同一个redis数据库。

scrapy_redis第三方库实现分布的部署：

分布式爬虫：只需要在众多电脑中，选择其中一台开启redis服务，目的就是在redis中创建公用的queue和公用的set，然后剩余电脑只需要连接redis服务即可，剩余电脑不需要开启redis-server服务。

项目中的配置

注意：配置是命令有可能需要手敲不能粘贴（拼音和英文有区别！！）

下载的scrapy-redis库，并放在项目根目录下，如下图：

scrapy-redis分布式爬虫

1>在虚拟环境中安装：pip install redis

scrapy-redis分布式爬虫

2>去github上搜索scrapy-redis库，解压，保存到项目根目录下。根据提供的用例，配置我们的项目，大致三部分：

1.settings.py文件；

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ITEM_PIPELINES = {

'scrapy_redis.pipelines.RedisPipeline': 300

}

# myroot: 自定义的redis链接。IP：开启redis-server服务的这台电脑的IP

REDIS_URL = 'redis://@192.168.40.217:6379'

2.jobbole.py文件（注意：继承类RedisSpider）；

from scrapy_redis.spiders import RedisSpider

class JobboleSpider(RedisSpider):

name = 'jobbole'

allowed_domains = ['jobbole.com']

# start_urls = ['http://blog.jobbole.com/all-posts/']

# 添加键

redis_key = 'jobbole:start_urls'

scrapy-redis分布式爬虫

相关截图如下：

Settings.py

scrapy-redis分布式爬虫

爬虫文件.py中：

scrapy-redis分布式爬虫

MySQL和redis的配置

3.有关数据库部分，相关数据库中的配置如下；

安装MySQL的时候，默认生成的用户root只有本地登录权限localhost，如果需要远程连接MySQL，需要分配一个拥有远程连接权限的新用户。(MySQL这个相对比较简单：按照顺序操作cmd就好,中间创建的过程有1个warning，可以忽略！！查看数据库中没问题就好！)

开始配置MySQL数据库>>>>

第一步：通过mysql -uroot -p登录MySQL服务。（安装时要配置环境变量，如下图：）

scrapy-redis分布式爬虫

第二步：通过 grant all privileges on *.* to 'myroot'@'%' identified by '123456'; (注意一定要带上分号)。

# *.* 表示所有数据库中的所有表，都能够被远程连接

# '%' 表示任意IP都可以进行链接

# 'myroot' 具有远程链接权限的用户名，自定义。之后就使用这个User进行链接数据库

mysql-> grant all privileges on *.* to 'myroot'@'%' identified by '123456'; 回车即可(注意一定要带上分号)。

第三步：再去修改爬虫项目中有关数据库的配置。

MYSQL_HOST = '192.168.40.217'

MYSQL_DBNAME = 'article_db'

MYSQL_USER = 'myroot'

MYSQL_PASSWORD = '123456'

MYSQL_CHARSET = 'utf8'

（注意：‘MYSQL_HOST =’是局域网的或公网的ip，

‘MYSQL_DBNAME =’是数据库名，

‘MYSQL_USER =’具有远程连接数据库的用户名，

‘MYSQL_PASSWORD =’密码

‘MYSQL_CHARSET =’ 编码格式）

MySQL相关配置如下图：

scrapy-redis分布式爬虫

3>将配置好的项目，拷贝到不同的机器中；

4> Redis数据库相关配置（比较麻烦！）

开始配置redis>>>>

注意：首先保证有redis数据库，做之前查看redis中相关的文件如下图：

scrapy-redis分布式爬虫

查看计算机管理->服务：

scrapy-redis分布式爬虫

如果服务中没有redis（主要是因为卸载之前的配置造成的）可以在cmd中使用命令：

redis-server --service-install redis.windows.conf

在配置过程中要关闭这个服务（鱼与熊掌的问题）不要自己打开，否则在配置时执行了cmd开启命令：

redis-server.exe redis.windows.conf后再来开启就会报如下错误：

scrapy-redis分布式爬虫会陷入自己的纠结症中！！——可以开启可能是在修改配置后重新启动redis之后命令行Ctrl+C关闭就可以自行手动在服务中打开了，自己没验证过!!！

开始配置！！！！！！！！！！！！！！！！

重要——选择其中一台机器，开启redis-server服务，并修改redis.windows.conf（也可以同时修改：redis.windows-service.conf文件）配置文件：

# 配置远程IP地址，供其他的电脑进行连接redis

bind: (当前电脑IP) 192.168.40.217

# 关闭redis保护模式

protected-mode: no

注意：上面是示例ip，以及修改时别搞错了！！！！

scrapy-redis分布式爬虫

运行cmd命令如下：

进入redis文件：cd redis文件目录

卸载服务命令（之前使用过redis配置的情况！）：redis-server --service-uninstall

卸载后需要在服务中安装redis：redis-server --service-install redis.windows.conf（结合卸载来使用）

启动命令：redis-server.exe redis.windows.conf

启动后：连接redis服务

进入redis项目目录:cd 目录名

连接命令：redis-cli -h 192.168.70.126 -p 6379 （注意：更换ip（公网或局域网的ip），端口一般不变：6379）

在连接成功后查看redis的内部相关存入的信息输入：192.168.70.126> keys *

不关闭窗口然后输入7中的命令配置爬虫的起始url：lpush bole:start_urls http://blog.jobbole.com/all-posts/ （注意：更换url和配置键名,参考7下面的图！！）

scrapy-redis分布式爬虫

启动后的命令如下图：

scrapy-redis分布式爬虫

5>其中一台电脑启动redis-server服务

开始分布式爬虫

6>让所有爬虫项目都运行起来，由于没有起始的url，所有爬虫会暂时处于停滞状态

7>所有爬虫都启动之后，部署redis-server服务的电脑，通过命令redis-cli：

lpush bole:start_urls http://blog.jobbole.com/all-posts/向redis的queue中添加起始的url

注意：先启动爬虫让爬虫开始等待，然后输入上述命令！！

scrapy-redis分布式爬虫

8>所有爬虫开始运行，爬取数据，同时所有的数据都会保存到该爬虫所连接的远程数据库以及远程redis中

注意：不能关闭cmd窗口，如下！！

scrapy-redis分布式爬虫

重启分布式爬虫

9〉下次关机后如果需要再次开启，依次执行以下操作：

进入计算机管理》服务中查看redis服务是否开启（开启的需要关闭！）

Cmd命令进入redis项目目录：cd redis项目目录

启动命令：redis-server.exe redis.windows.conf （下面很熟悉！！！）

打开新窗口创建连接如****意：删除之前使用过的键！！--dupefilter）

连接命令：redis-cli -h 192.168.70.126 -p 6379 （注意：更换ip（公网或局域网的ip），端口一般不变：6379）

在连接成功后查看redis的内部相关存入的信息输入：192.168.70.126> keys *

注意：删除之前与该爬虫相关的键（使用过的！！）

不关闭窗口再输入7中的命令配置爬虫的起始url：lpush bole:start_urls http://blog.jobbole.com/all-posts/ （注意：更换url和配置键名）

注意：不能关闭cmd窗口！！

推荐阅读

php
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
default
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
php
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
default
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
default
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
object
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
shell
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
default
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
php
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
command
使用arm-eabi-gdb调试Android C/C++应用程序的详细指南

本文详细介绍如何使用arm-eabi-gdb调试Android平台上的C/C++程序。通过具体步骤和实用技巧，帮助开发者更高效地进行调试工作。 ... [详细]

蜡笔小新 2024-12-28 10:25:18
go
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
default
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
default
Android 渐变圆环加载控件实现

本文介绍了如何在 Android 中创建一个自定义的渐变圆环加载控件，该控件已在多个知名应用中使用。我们将详细探讨其工作原理和实现方法。 ... [详细]

蜡笔小新 2024-12-27 13:34:19
default
如何在PHPCMS V9中实现多站点功能并配置独立域名与动态URL

本文介绍如何在PHPCMS V9中创建和管理多个站点，包括配置独立域名、设置动态URL，并确保各子站能够正常运行。我们将详细讲解从新建站点到最终配置路由的每一步骤。 ... [详细]

蜡笔小新 2024-12-27 05:15:58