当前位置: 开发笔记 > 编程语言 > 正文

基于scrapyredis的通用分布式爬虫框架

作者：皇家冷情绪 | 来源：互联网 | 2023-08-23 18:24

基于scrapy-redis的通用分布式爬虫框架-spiderman基于scrapy-redis的通用分布式爬虫框架项目地址github.comTurboWaysp…

spiderman

基于 scrapy-redis 的通用分布式爬虫框架

项目地址 github.com/TurboWay/sp…

效果图
- 采集效果
- 爬虫元数据
- 分布式爬虫运行
- 单机爬虫运行
- 附件下载
- kafka实时采集监控示例
介绍
- 功能
- 原理说明
快速开始
- 下载安装
- 如何开发一个新爬虫
- 如何进行补爬
- 如何下载附件
- 如何扩展分布式爬虫
- 如何管理爬虫元数据
- 如何配合kafka做实时采集监控
- 如何使用爬虫api
其它
- 注意事项
- hive环境问题
- 更新日志
- TODO

demo采集效果

爬虫元数据

cluster模式

standalone模式

附件下载

kafka实时采集监控

功能

自动建表
自动生成爬虫代码，只需编写少量代码即可完成分布式爬虫
自动存储元数据，分析统计和补爬都很方便
适合多站点开发，每个爬虫独立定制，互不影响
调用方便，可以根据传参自定义采集的页数以及启用的爬虫数量
扩展简易，可以根据需要选择采集模式，单机 standalone (默认) 或者分布式cluster
采集数据落地方便，支持多种数据库，只需在 spider 中启用相关的管道

关系型
- mysql
- sqlserver
- oracle
- postgresql
- sqlite3
非关系型
- hbase
- mongodb
- elasticsearch
- hdfs
- hive
- datafile, 比如 csv
反爬处理简易，已封装各种反爬中间件
- 随机 UserAgent
- 定制请求头 Headers
- 定制 COOKIEs 池
- 定制代理 ip
- 在 scrapy 中使用 requests
- Payload 请求
- 使用 Splash 渲染 js

原理说明

消息队列使用 redis，采集策略使用广度优先，先进先出
每个爬虫都有一个 job 文件，使用 job 来生成初始请求类 ScheduledRequest，并将其推送到 redis；

初始请求全部推到 redis 后，运行 spider 解析生成数据并迭代新的请求到redis, 直到 redis 中的全部请求被消耗完

# scrapy_redis请求类
class ScheduledRequest:

    def __init__(self, **kwargs):
        self.url = kwargs.get('url')                 # 请求url
        self.method = kwargs.get('method', 'GET')   # 请求方式 默认get
        self.callback = kwargs.get('callback')  # 回调函数，指定spider的解析函数
        self.body = kwargs.get('body')  # body, method为post时, 作为 post表单
        self.meta = kwargs.get('meta')  # meta, 携带元数据，比如 pagenum

item 类定义表名、字段名、排序号(自定义字段顺序)、注释说明(便于管理元数据)、字段类型(仅关系型数据库管道有效)

class zhifang_list_Item(scrapy.Item):
    #  define table
    tablename = 'zhifang_list'
    tabledesc = '列表'
    # define the fields for your item here like:
    # 关系型数据库，可以自定义字段的类型、长度，默认 VARCHAR(length=255)
    # colname = scrapy.Field({'idx': 1, 'comment': '名称', 'type': VARCHAR(255)})
    tit = scrapy.Field({'idx': 1, 'comment': '房屋标题'})
    txt = scrapy.Field({'idx': 2, 'comment': '房屋描述'})
    tit2 = scrapy.Field({'idx': 3, 'comment': '房屋楼层'})
    price = scrapy.Field({'idx': 4, 'comment': '房屋价格'})
    agent = scrapy.Field({'idx': 5, 'comment': '房屋中介'})
    # default column
    detail_full_url = scrapy.Field({'idx': 100, 'comment': '详情链接'})  # 通用字段
    pkey = scrapy.Field({'idx': 101, 'comment': 'md5(detail_full_url)'})  # 通用字段
    pagenum = scrapy.Field({'idx': 102, 'comment': '页码'})  # 通用字段

去重策略，默认不去重，每次采集独立，即每次启动 job 都会清空上一次未完成的 url，并且不保留 redis 中上一次已采集的 url 指纹。如需调整可以修改以下配置

job 文件（单个爬虫）

class zhifang_job(SPJob):

    def __init__(self):
        super().__init__(spider_name=zhifang_Spider.name)
        # self.delete()   # 如需去重、增量采集，请注释该行

spider 文件（单个爬虫）

    custom_settings = {
        ...,
        'DUPEFILTER_CLASS': 'scrapy_redis.dupefilter.RFPDupeFilter',
        'SCHEDULER_PERSIST': True, # 开启持久化
    }
   
    def get_callback(self, callback):
        # url去重设置：True 不去重 False 去重
        callback_dt = {
            'list': (self.list_parse, False),
            'detail': (self.detail_parse, False),
        }
        return callback_dt.get(callback)

布隆过滤器。

当采集的数据量很大时，可以使用布隆过滤器，该算法占用空间小且可控，适合海量数据去重。但是该算法会有漏失率，对爬虫而言就是漏爬。可以通过调整过滤器负载个数、内存配置、哈希次数以降低漏失率。默认 1 个过滤器，256 M 内存，使用 7 个 seeds，这个配置表示漏失概率为 8.56e-05 时，可满足 0.93 亿条字符串的去重。当漏失率为 0.000112 时，可满足 0.98 亿条字符串的去重。调参与漏失率参考

    custom_settings = {
        ...,
        'DUPEFILTER_CLASS': 'SP.bloom_dupefilter.BloomRFDupeFilter',  # 使用布隆过滤器
        'SCHEDULER_PERSIST': True,  # 开启持久化
        'BLOOM_NUM': 1,  # 布隆过滤器负载个数，当内存达到限制时，可以增加负载个数
        'BLOOM_MEM': 256,  # 布隆过滤器内存大小（单位 M），内存最大 512 M （因为 redis string 最大只能 512 M）
        'BLOOM_K': 7,  # 布隆过滤器哈希次数，次数越少，去重越快，但是漏失率越高
    }
   
    def get_callback(self, callback):
        # url去重设置：True 不去重 False 去重
        callback_dt = {
            'list': (self.list_parse, False),
            'detail': (self.detail_parse, False),
        }
        return callback_dt.get(callback)

下载安装

git clone github.com/TurboWay/sp…; cd spiderman;
【不使用虚拟环境的话，可以跳过步骤23】virtualenv -p /usr/bin/python3 venv
【不使用虚拟环境的话，可以跳过步骤23】source venv/bin/activate
pip install -i pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
修改配置 vi SP/settings.py
运行demo示例 python SP_JOBS/zhifang_job.py

如何开发一个新爬虫

运行 easy_scrapy.py 会根据模板自动生成以下代码文件，并自动在编辑器打开 spidername_job.py 文件；

类别	路径	说明
job	SP_JOBS/spidername_job.py	编写初始请求
spider	SP/spiders/spidername.py	编写解析规则，产生新的请求
items	SP/items/spidername_items.py	定义表名字段

以上代码文件编写完成后，直接执行 python SP_JOBS/spidername_job.py

或者动态传参（参数说明 -p 采集页数， -n 启用爬虫数量） python SP_JOBS/spidername_job.py -p 10 -n 1

如何进行补爬

运行 easy_scrapy.py 会根据模板自动生成以下代码文件，并自动在编辑器打开 spidername_job_patch.py 文件；

类别	路径	说明
job	SP_JOBS/spidername_job_patch.py	编写补爬请求

以上代码文件编写完成后，直接执行 python SP_JOBS/spidername_job_patch.py

如何下载附件

提供两种方式下载：

1、直接在 spider 中启用附件下载管道
2、使用自定义的下载器 execute_download.py 传参下载

jpg/pdf/word...等各种各样的文件，统称为附件。下载附件是比较占用带宽的行为，所以在大规模采集中，最好是先把结构化的表数据、附件的元数据入库，保证数据的完整性，然后再根据需要，通过下载器进行附件下载。

如何扩展分布式爬虫

采集模式有两种(在 settings 控制)：单机 standalone(默认) 和集群分布式

如果想切换成分布式爬虫，需要在 spiderman/SP/settings.py 中启用以下配置

注意：前提是所有SLAVE机器的爬虫代码一致、python环境一致，都可以运行爬虫demo

# 集群模式 False 单机 (默认);  True 分布式 需要配置下方的 slaves
CLUSTER_ENABLE = True

配置名称	意义	示例
SLAVES	【二选一】爬虫机器配置列表	[{'host': '172.16.122.12', 'port': 22, 'user': 'spider', 'pwd': 'spider'}， {'host': '172.16.122.13', 'port': 22, 'user': 'spider', 'pwd': 'spider'} ]
SLAVES_BALANCE	【二选一】爬虫机器配置(ssh负载均衡)	{'host': '172.16.122.11', 'port': 2202, 'user': 'spider', 'pwd': 'spider'}
SLAVES_ENV	【可选】爬虫机器虚拟环境路径	/home/spider/workspace/spiderman/venv
SLAVES_WORKSPACE	【必填】爬虫机器代码工程路径	/home/spider/workspace/spiderman

如何管理爬虫元数据

运行 easy_meta.py 自动生成当前项目所有爬虫的元数据, 默认记录到sqlite meta.db, 可以在 setting 中自行配置;

# 爬虫 meta
META_ENGINE = 'sqlite:///meta.db'

元数据表meta字典如下：

字段名	类型	注释
spider	varchar(50)	爬虫名
spider_comment	varchar(100)	爬虫描述
tb	varchar(50)	表名
tb_comment	varchar(100)	表描述
col_px	int	字段序号
col	varchar(50)	字段名
col_comment	varchar(100)	字段描述
author	varchar(20)	开发人员
addtime	varchar(20)	开发时间
insertime	varchar(20)	元数据更新时间

如何配合kafka做实时采集监控

配置 kafka（修改 setting 的 KAFKA_SERVERS）
自定义监控规则（修改编写 kafka_mon.py , 并运行该脚本程序, 开始监控）
在 spider 中启用 kafka 管道（运行爬虫 job , 开始采集）

如何使用爬虫api

直接运行 api.py，然后可以通过 http://127.0.0.1:2021/docs 查看相关的 api 文档

注意事项

字段名称不能使用 tablename、isload、ctime、bizdate、spider 等字段，因为这些字段被作为通用字段，避免冲突
items 文件每个字段建议添加注释，生成元数据时，会将注释导入到元数据表，便于管理爬虫

hive环境问题

在 windows 环境下，使用 python3 连接 hive 会有很多坑，所以使用 hdfs 管道时，hive 自动建表功能默认关闭，便于部署。假如需要启用 hive 自动建表功能，请进行如下操作：

pip install -i pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
pip install --no-deps thrift-sasl==0.2.1
验证环境，执行 SP.utils.ctrl_hive

如果执行成功，说明 hive 环境准备完毕，可以直接启用 hive 自动建表功能；如果遇到问题，可以参考【大数据】windows 下python3连接hive

更新日志

日期	更新内容
20200803	1.使用更优雅的方式来生成元数据; 2.管道函数传参的写法调整; 3.附件表通用字段更名：下载状态 (isload => status)
20200831	1.解决数据入库失败时，一直重试入库的问题; 2.所有管道优化，入库失败时，自动切换成逐行入库，只丢弃异常记录
20201104	1.requests 中间件支持 DOWNLOAD_TIMEOUT、DOWNLOAD_DELAY
20201212	1.payload 中间件支持 DOWNLOAD_TIMEOUT、DOWNLOAD_DELAY; 2.get_sp_COOKIEs 方法优化，使用轻量级的 splash 替换 selenium; 3.md 的原理部分增加去重策略的说明
20210105	1.增加布隆过滤器
20210217	1.elasticsearch 管道调整，兼容 elasticsearch7 以上版本，直接使用表名作为索引名
20210314	1.所有反爬中间件合并到 SPMiddleWare
20210315	1.使用更优雅的方式生成 job 初始请求; 2.headers 中间件优化，减少 redis 的内存占用; 3.删除 COOKIE 中间件，COOKIE 只是 headers 里面的一个值，可以直接使用 headers 中间件; 4.删除 Payload 中间件，Payload 请求可以直接使用 requests 中间件 5.增加 COOKIEsPool 中间件，用于需要多个账号随机切换采集的场景
20210317	1.增加可以脱离 scrapy 独立工作的、支持分布式的附件下载器
20210318	1.增加 api 服务

推荐阅读

日志
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
日志
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
int
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
js
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
int
如何安全地手动移除Exchange Server 2003以确保系统稳定性和数据完整性

本文详细介绍了如何安全地手动卸载Exchange Server 2003，以确保系统的稳定性和数据的完整性。根据微软官方支持文档（https://support.microsoft.com/kb833396/zh-cn），在进行卸载操作前，需要特别注意备份重要数据，并遵循一系列严格的步骤，以避免对现有网络环境造成不利影响。此外，文章还提供了详细的故障排除指南，帮助管理员在遇到问题时能够迅速解决，确保整个卸载过程顺利进行。 ... [详细]

蜡笔小新 2024-11-06 08:13:47
int
.NET Core 微服务内部通信：Thrift与HTTP客户端性能对比

本文通过基准测试（Benchmark）对.NET Core环境下Thrift和HTTP客户端的微服务通信性能进行对比分析。基准测试是一种评估系统或组件性能的方法，通过运行一系列标准化的测试来衡量其表现。 ... [详细]

蜡笔小新 2024-11-15 12:35:23
int
如何在不同数据库中提取前N%的记录

本文详细介绍了如何在SQL Server、Oracle和MySQL等不同数据库中提取前N%的记录。通过具体的示例和代码，帮助读者理解和掌握这些方法。 ... [详细]

蜡笔小新 2024-11-14 18:51:20
int
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
int
DB2 9 认证指南（733 测验）第二部分：数据处理

本文介绍 DB2 中的基本概念，重点解释事务单元（UOW）和事务的概念。事务单元是指作为单个原子操作执行的一个或多个 SQL 查询。 ... [详细]

蜡笔小新 2024-11-14 16:58:15
int
RocketMQ在秒杀时的应用

目录一、RocketMQ是什么二、broker和nameserver2.1Broker2.2NameServer三、MQ在秒杀场景下的应用3.1利用MQ进行异步操作3. ... [详细]

蜡笔小新 2024-11-14 12:27:39
bit
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
bit
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
int
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
int
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
int
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03