scrapy-redis分布式爬虫使用详解

作者：致力于流浪动物救助量 | 来源：互联网 | 2023-10-13 10:42

一、redis相关全称为remotedictionaryserver。国内使用到的公司也很多。其关键字可以归纳为：1.开源并以实际应用驱动。2.key-value这种KV特性将

一、redis相关

全称为remote dictionary server。国内使用到的公司也很多。

其关键字可以归纳为：

1.开源
并以实际应用驱动。
2.key-value
这种KV特性将其与关系型数据库本质的区别开来。这也是redis流行的关键因素所在。
3.内存数据库
这种将数据存储在内存中是redis性能（主要针对存取速度）优于硬盘数据库的根本。为了便于数据长久保存，其也支持持久化操作。

二. redis特性

1.丰富的数据类型与相应操作。每种数据类型都有特定的应用场景。
2.性能极高。
3.功能丰富。提供的进阶特性能够满足数据库使用需求。

三. redis数据结构

包括string/hash/list/set/zset，针对每种结构的使用情景可见文章：redis之其中武器。
hash特点就是在string基础上可实现单个key的多个filed的存储；list就不用说了，就是双向链表的特性。set就是集合，它和list的区别体现在value的有序性和唯一性上，操作上更贴近集合的概念，提供交集、并集等。zset相比set多了一个score项，并利用其实现value的排序。

四. redis进阶特性

1.事物。一组命令的集合。
2.生存时间。可用来实现缓存。
3.排序。
4.任务队列。
5.管道。

五. redis客户端

可以在redis官网上查看针对各个语言的客户端，所谓的客户端就是通过相应的语言接口实现对redis的操作。我是用的python，官方推荐redis-py，可通过pip install redis-py安装。

六. redis资料汇总

这里提供几个实时更新的汇总站。
首先就是redis位于GitHub上的repository的wiki（https://github.com/antirez/redis/wiki），上面提供了一些链接，并且你会发现一些是中文链接。在scrapy的wiki中也有这样的现象，你可以发现中国的用户量了吧。

其次是redis中文网站。

二、scrapy-redis实现scrapy分布式爬取分析的原理

scrapy-redis原理:
1.spider解析下载器下载下来的response,返回item或者是links
2.item或者links经过spidermiddleware的process_spider_out()方法，交给engine。
3.engine将item交给itempipeline,将links交给调度器
4.在调度器中，先将request对象利用scrapy内置的指纹函数，生成一个指纹对象
5.如果request对象中的dont_filter参数设置为False,并且该request对象的指纹不在信息指纹的队列中，那么就把该request对象放到优先级的队列中
6.从优先级队列中获取request对象，交给engine
7.engine将request对象交给下载器下载，期间会通过downloadmiddleware的process_request()方法
8.下载器完成下载，获得response对象，将该对象交给engine,期间会通过downloadmiddleware的process_response()方法
9.engine将获得的response对象交给spider进行解析，期间会经过spidermiddleware的process_spider_input()方法
10.从第一步开始循环

上面的十个步骤就是scrapy-redis的整体框架，与scrapy相差无几。本质的区别就是，将scrapy的内置的去重的队列和待抓取的request队列换成了redis的集合。就这一个小小的改动，就使得了scrapy-redis支持了分布式抓取。

三、需要用到的模块

- scrapy
- scrapy-redis
- redis
- mysql ：收集来的数据存放到mysql中
- python的mysqldb模块
- python的redis模块

后面俩个库：python不能直接操作数据库，需要通过库来支持。而这2个就是相应数据库的支持库。

结构化数据可以使用mysql节省空间，非结构化、文本等数据可以采用mongodb等非关系型数据提高访问速度。

参考文章来源：

http://blog.csdn.net/u012150179/article/details/38077851

http://blog.csdn.net/howtogetout/article/details/51633814

推荐阅读

main
Deepin系统下MySQL 5.7安装指南

本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤，包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]

蜡笔小新 2024-12-28 10:48:41
main
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
php
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
web
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
uml
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
byte
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
import
企业级项目中 Webpack 配置优化指南

本文详细介绍了在企业级项目中如何优化 Webpack 配置，特别是在 React 移动端项目中的最佳实践。涵盖资源压缩、代码分割、构建范围缩小、缓存机制以及性能优化等多个方面。 ... [详细]

蜡笔小新 2024-12-24 14:41:48
case
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
object
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
select
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
php
网络运维工程师的前景与薪酬分析

网络运维工程师负责确保企业IT基础设施的稳定运行，保障业务连续性和数据安全。他们需要具备多种技能，包括搭建和维护网络环境、监控系统性能、处理突发事件等。本文将探讨网络运维工程师的职业前景及其平均薪酬水平。 ... [详细]

蜡笔小新 2024-12-26 14:35:04
import
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
php
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
php
对MariaDB未来发展的思考与担忧

本文探讨了MariaDB在当前数据库市场中的地位和挑战，分析其可能面临的困境，并提出了对未来发展的几点看法。 ... [详细]

蜡笔小新 2024-12-25 18:20:32
php
深入理解一致性哈希算法及其应用

本文详细介绍了分布式系统中的一致性哈希算法，探讨其原理、优势及应用场景，帮助读者全面掌握这一关键技术。 ... [详细]

蜡笔小新 2024-12-24 14:08:10

致力于流浪动物救助量

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章