Scrapy工作原理分析(简单易懂)

作者：海边的石雨价_288 | 来源：互联网 | 2023-09-06 19:08

一、Scrapy架构图Scrapy框架主要由六大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）、中间件（Middleware

一、Scrapy架构图

Scrapy框架主要由六大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）、中间件（Middleware）、实体管道(Item Pipeline)和Scrapy引擎(Scrapy Engine)

《Scrapy工作原理分析(简单易懂)》 1

1、Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动，并在相应动作发生时触发事件。

2、Scheduler(调度器): 调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

3、Downloader（下载器）： 下载器负责获取页面数据并提供给引擎，而后提供给spider。

4、Spider（爬虫）： Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

5、Item Pipeline(管道)： Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存储到数据库中)。

6、Downloader Middlewares（下载中间件）： 下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

7、Spider Middlewares（Spider中间件）： Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

二、scrapy工作流程

当我们通过scrapy框架写好代码并运行后，就会出现如下对话：

《Scrapy工作原理分析(简单易懂)》 2

1、引擎： 怎么样，爬虫老弟，搞起来啊！

2、Spider： 好啊，老哥，来来来，开始吧。今天就爬xxx网站怎么样

3、引擎： 没问题，入口URL发过来！

4、Spider： 呐，入口URL是
https://ww.xxx.com。

5、引擎： 调度器老弟，我这有request请求你帮我排序入队一下吧。

6、调度器： 引擎老哥，这是我处理好的request。

7、引擎： 下载器老弟，你按照下载中间件的设置帮我下载一下这个request请求。

8、下载器： 可以了，这是下载好的东西。（如果失败：sorry，这个request下载失败了。然后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载）

9、引擎： 爬虫老弟，这是下载好的东西，下载器已经按照下载中间件处理过了，你自己处理一下吧。

10、Spider： 引擎老哥，我的数据处理完毕了，这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。

11、引擎： 管道老弟，我这儿有个item你帮我处理一下！

12、引擎： 调度器老弟，这是需要跟进URL你帮我处理下。（然后从第四步开始循环，直到获取完需要全部信息）

推荐阅读

扩展
大数据分析Python有哪些爬虫框架

一、ScrapyScrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。。用 ... [详细]

蜡笔小新 2024-09-29 13:04:13
import
为什么不能用datatables来添加在数据库中查到的数据

尝试在数据库中查询数据并在datatables中异步显示时总是报错。有人帮我看下吗，好像是这个json的格式出问题，我看了firebug，应该是servlet返回的json数据格式问题，但因为新 ... [详细]

蜡笔小新 2024-09-29 18:34:31
php
SSL协议、TLS协议，使用哪一种更安全？

在金融银行业，保护机密信息的安全至关重要。由于财务记录完全通过在线数据库维护，因此实施保护客户、银行和金融机构免受黑客攻击的安全功能比以往任何时候都更加重要。安全套接字层(SSL) ... [详细]

蜡笔小新 2024-09-30 21:45:53
php
spotify engineering culture part 1

原文，因为原视频说的太快太长，又没有字幕，于是借助youtube，把原文听&打出来了。中文版日后有时间再翻译。oneofthebigsucceessfactorshereatSpo ... [详细]

蜡笔小新 2024-09-30 13:36:17
php
delphi控件大全

本文章已收录于：delphi控件查询：http:www.torry.nethttp:www.jrsoftware.orgTb97最有名的工具条(ToolBar) ... [详细]

蜡笔小新 2024-09-30 11:49:36
php
智能家居巨头 Aqara 基于 KubeSphere 打造物联网微服务平台

智能家居巨头 Aqara 基于 KubeSphere 打造物联网微服务平台 ... [详细]

蜡笔小新 2024-09-29 15:20:29
uri
ddos

DDOSDDOS的中文名叫分布式拒绝服务***，俗称洪水***DDoS***概念DoS的***方式有很多种，最基本的DoS***就是利用合理的服务请求来 ... [详细]

蜡笔小新 2024-09-29 14:40:34
uri
【Zabbix4.2学习笔记】1、CentOS7.5安装zabbix4.2

1、关闭防火墙和selinux#systemctlstopfirewalld#vimetcselinuxconfigSELINUXpermissive#setenforce02、添加zabbix存储库rpm-Uvhh ... [详细]

蜡笔小新 2024-09-29 14:19:49
post
Linux下安装grafana并且添加influxdb监控的方法

这篇文章主要介绍了Linux下安装grafana并且添加influxdb监控的方法，本文给大家介绍的非常详细，具有一定的参考借鉴价值, ... [详细]

蜡笔小新 2024-09-29 14:04:22
import
干货 | 滴滴数据分析原来是这样做的！

干货,滴滴,数据,分析, ... [详细]

蜡笔小新 2024-09-28 15:43:44
go
在Windows应用程序中模拟会话 - Simulating session in a Windows app

Iamworkingonawindowsapplication.IneedtosimulateSession(thatwehaveinawebapp)inthe ... [详细]

蜡笔小新 2024-09-28 08:17:27
go
python爬虫中scrapy怎么处理项目数据

这篇文章将为大家详细讲解有关python爬虫中scrapy怎么处理项目数据，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有 ... [详细]

蜡笔小新 2024-09-27 20:24:43
go
基于python爬虫的论文的开题报告_基于python的新闻网站网络爬虫设计与实现开题报告...

1.研究背景及其意义互联网从发展到至今，已经深入到人们的日常生活中，并且不论老人还是小孩，多少都会接触到互联网。在这个越来越信息化的社会& ... [详细]

蜡笔小新 2024-09-27 16:52:06
select
Jeecg中的<t:datagrid treegrid="true">实现

eecg的代码生成器很不错，但是可能有的时候不是那么符合我们实际项目的功能需求，这里会首先介绍jeecg原生生成的样子，以及根据需求进行的改造。Jeecg中的 ... [详细]

蜡笔小新 2024-09-27 12:46:12
php
支付宝 app支付异常摘记 ALI40247

一.支付1.系统繁忙，请稍后重试。(ALI40247)：签名错误。我的问题来源（两个问题）：①签名串sig ... [详细]

蜡笔小新 2024-09-26 23:18:16

海边的石雨价_288

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章