当前位置: 开发笔记 > 编程语言 > 正文

scrapy和scrapy_redis入门

作者：oth0037112 | 来源：互联网 | 2023-10-15 10:13

Scarp框架需求获取网页的url下载网页内容(Downloader下载器)定位元素位置,获取特定的信息(Spiders蜘蛛)存储信息(ItemPipeline,一条一条从管里走)

Scarp框架

需求
获取网页的url
下载网页内容(Downloader下载器)
定位元素位置, 获取特定的信息(Spiders 蜘蛛)
存储信息(ItemPipeline, 一条一条从管里走)
队列存储(scheduler 调度器)

首先, spiders 给我们一个初始的URL, spider获取列表页内的详情页的url.

其次, 将url 存储到scheduler内, 然后 scheduler 就会自动将url放到downloader内执行.

详情页download之后, 返回response给spiders.

再次, spiders会将response获取到并且查找需要的内容, 内容进行封装item.

最后, 这个item就会被传输到itempipeline中, 存储或者其他操作.

安装scrapy的方法:

pip install wheel

pip install 你的路径/Twisted-18.7.0-cp35-cp35m-win_amd64.whl

pip install scrapy

缺少win32api

https://germey.gitbooks.io/python3webspider/content/1.8.2-Scrapy%E7%9A%84%E5%AE%89%E8%A3%85.html

创建项目：

在pycharm中选中目录右键open terminal 进入命令窗口执行如下：

scrapy startproject scrapy_project（项目名）

创建spider 进入scrapy_project中

cd scrapy_project

scrapy genspider bole jobbole.com

（scrapy genspider 项目名(spider.py) 爬取网址）

运行, 创建一个main.py, main.py 的内容就是:（用于运行启动整个项目，可以避免每次都去terminal输入命令）

from scrapy.cmdline import execute
execute('scrapy crawl bole'.split())

bole：要执行的spider里的py文件名

Scrapy文件结构

Items.py定义scrapy内部数据的模型文件

继承scrapy.item

属性变量名=scrapy.Field()

Pipelines.py （管道）当我们的items.py被返回的时候，会自动调用我们的pipelines.py类中的process_item()函数；所以pipelines.py中的类需要加到settings.py中的ITEM_PIPELINES字典中

ITEM_PIPELINES = {
'myproject.pipelines.XiaochengxuPipeline': 300,

#’项目名+pipelines+pipelines.py中的类’:300,
}

Settings.py 配置各种参数 ROBOTSTXT_OBEY = False （是否遵守君子协议）

#下载延迟

3.1 DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.MyprojectDownloaderMiddleware': 543,
}

Isinstance 判断那个类的实例

bole.py

通过xpath获取内容, xpath返回的元素内容是selector: extract_first() = [0]extract()

zan = response.xpath('//h10[@]/text()').extract_first()

extract_first() 获取selector内的data的内容

items.py

# 添加内容到item中固定格式

titile = scrapy.Field()
zan = scrapy.Field()

bole.py

from myproject.items import BoleItem

#创建Item的类

item = BoleItem()

# 通过字典的形式填充item的类

item[‘title’] = title

item[‘zan’] = zan

# 相当于将item传给pipelines

yield item

Items.py

class BoleItem(scrapy.Item):

# 变量=scrapy.Field() 将bole.py的内容获取过来

title = scrapy.Field()
zan = scrapy.Field()

我们自己定义的item类需要继承scrapy.Item
我们需要定义的类里面的变量

名称 = scrapy.Field()

pipelines.py

class BolePipeline(object):

def process_item(self, item, spider):

#变量=item['title'] 接收items中的内容

item 相关的操作：

打印
存储到MySQL
其它

Settings.py

ITEM_PIPELINES = {
# 'myproject.pipelines.MyprojectPipeline': 300,
'myproject.pipelines.BolePipeline': 300,

#固定格式.固定格式.pipeline.py中创建的类名：300 300是优先级优先级越低优先级越高
}

Pycharm中点击Terminal 输入：

Scarpy shell +要访问的url

进入输入命令行然后输入要匹配的xpath或用其他方法要匹配的信息

//td[not(@class)][1]/a/text() 取没有class中的第一个

Yield 返回时多个参数meta={'item':item}

参数一：item['url_herf']让函数parse_detail去处理的url

参数二：meta={'item':item}可在函数parse_detail中item = response.meta['item']调用之后一同返回yield item

参数三：callback=self.parse_detail 之后要处理的函数

Yield scrapy.Request(item['url_herf'],meta={'item':item},callback=self.parse_detail)

# 没有此步数据库会报错1241 因为里面有换行符需要处理连接成字符串
新变量 = ''.join(旧变量)

返回302错误需要添加headers头

我们需要将这个ImagesPipeline放到setting的pipline的配置中
我们需要将这个图片存储的位置配置成功, setting中的IMAGES_STORE='img_download'
需要下载的URL必须存储在 item 中的 image_urls

拉勾网需要不记录COOKIE，需要在setting中将COOKIE：False 开启

Crawl模板

scrapy genspider -t crawl lagou lagou.com
LinkExtractor 获取需要的url的正则表达式
callback就是页面返回以后,使用哪个函数处理页面的返回信息
follow就是如果是true, 就会继续寻找当前页面的url处理, 如果是false, 就不在当前页面寻找url继续处理

数据的流程

scrapy初始的内容是添加在 spiders内部的, 它的初始的url的获取通过两种方式, 第一种就是: start_urls, 第二种就是: 函数 start_request()
spiders会将url 传递并存储到sheduler中, scheduler就是一个存储url(Request)的队列.
scheduler 中的url, 我们会获取这些url放到downloader中去下载页面. CONCURRENT_REQUESTS就是downloader中同时下载的页面的最大值.
downloader在下载结束之后, 会将下载后的response返回给spiders.
downloader 在下载之前会经过 download middware, 可以在这里添加1, headers, 2, 代理
spiders在获取到response之后, 会解析这个response, 获取特定需要的信息并生成items, yield item
在spiders获取到response之后, 还有可能生成新的url, 就再次执行2.
item会被传递到item pipeline中, item pipeline会执行后续的操作(可能是存储, 展示, 函数).

每一个部分的作用于他们的输入输出

1 spiders:

url生成的地方
返回值解析的地方
item生成

输入:

start_urls , start_request
response(downloader给的)

输出:

request
item

2 Scheduler

存储Request

输入:

url(Request) 输入的模块是:spiders, pipeline, downloader

输出:

url (Request) 输出的模块只有downloader

3 Downloader

接受Request, 并下载这个Request
将response返回给spiders

输入:

Request, 来源是scheduler

输出:

response: 接收方spiders

request 接收方就是scheduler

4 itempipline

获取到item之后, 将它(存储, 展示, 其它)

输入:

item, spiders生成的

输出:

不确定, (数据库, 文件, 其它)

Request, 给scheduler

5 downloader middlewares

当scheduler的request经过的时候, 此时还没下载页面, 我们可以对Request进行修改 process_request
当 downloader 下载页面结束的时候, 也会经过downloader middlewares 我们可以根据response的内容做一些处理 process_response
当下载的过程中出现了异常, 也会经过downloader middlewares, process_exception

6 spiders middlewares

当Reuqest从spider发给sheduler的时候, 会经过spiders middleware, 可以做的操作是过滤Request, 去重等
当downloader 返回response的时候, 也能经过spiders middlewares, 这里一样是可以做一些根据返回值的过滤操作.

Redis安装

找到文件Redis-x64-3.2.100.msi安装

解压redis-desktop-manager.rar中一个文件夹高版本为中文

在Python环境中安装scrapy-redis：pip install scrapy-redis

scrapy和scrapy_redis入门

scrapy-redis 的改造方法

要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了：

导包：from scrapy_redis.spiders import RedisSpider

将爬虫的类从scrapy.Spider变成RedisSpider；或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider。

2.将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url，就是在redis中通过这个发送出去的。

3.在配置文件中增加如下配置：

Scrapy-Redis相关配置

确保request存储到redis中

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

确保所有爬虫共享相同的去重指纹

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

设置redis为item pipeline

ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300}

在redis中保持scrapy-redis用到的队列，不会清理redis中的队列，从而可以实现暂停和恢复的功能。

SCHEDULER_PERSIST = True

设置连接redis信息

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

REDIS_PASSWORD = 123456

运行爬虫：

在爬虫服务器上（pychong）。进入爬虫文件所在的路径，然后输入命令： scrapy runspider [爬虫文件.py]。

在Redis服务器上，推入一个开始的url链接：在redis安装目录下运行redis-cli.exe；命令行输入：lpush [redis_key] start_url 开始爬取。

在Mysql中添加用户：grant all on *.* to root@’%’ identified by ’密码’;

在Mysql中查询用户：select user,host from mysql.user;

推荐阅读

default
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
install
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
js
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
web
解决PHP与MySQL连接时出现500错误的方法

本文详细探讨了当使用PHP连接MySQL数据库时遇到500内部服务器错误的多种解决方案，提供了详尽的操作步骤和专业建议。无论是初学者还是有经验的开发者，都能从中受益。 ... [详细]

蜡笔小新 2024-12-27 15:48:52
default
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
default
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
install
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
install
解决 Python 项目中 setuptools_rust 模块缺失问题

本文介绍了在安装或运行 Python 项目时遇到的 'ModuleNotFoundError: No module named setuptools_rust' 错误，并提供了解决方案。 ... [详细]

蜡笔小新 2024-12-27 18:06:18
default
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
install
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
main
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
default
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
controller
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
controller
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33

oth0037112

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章