scrapy注意事项汇总

作者：希瑟小姐 | 来源：互联网 | 2023-09-25 17:47

callback执行异常处理如果Request请求成功后，在解析文本时异常，如下所示：defparse_details(self,response):item['m

callback执行异常处理

如果Request请求成功后，在解析文本时异常，如下所示：

def parse_details(self, response): ... item['metres'] = round(float( response.xpath('/html/body/section[1]/div/div[3]/ul/li[1]/span[1]/text()').extract_first().rstrip( '万公里')) * 10000000) ... yield item response.xpath('/html/body/section[1]/div/div[3]/ul/li[1]/span[1]/text()').extract_first().rstrip( AttributeError: 'NoneType' object has no attribute 'rstrip'

如果是代码错误或者页面改版，重新适配即可，但如果是由于限流规则导致被转发到限流页面，就需要捕获异常进行补救，求解之路如下：

1、DOWNLOADER_MIDDLEWARES中process_exception

本意是请求失败后更换代理，但是未生效，因为process_exception处理的是Request异常，例如：请求超时、请求拒绝、请求未响应等，但上述错误是请求成功后解析造成的，理解错误，陷入误区

2、自行捕获异常，更换代理重试

try: ... item['metres'] = round(float( response.xpath('/html/body/section[1]/div/div[3]/ul/li[1]/span[1]/text()').extract_first().rstrip( '万公里')) * 10000000) ... except Exception as reason: retry_times = response.meta.get('retry_times', 0) if retry_times <3: yield scrapy.Request(url=xxx, meta={'url': xxx, 'is_new_proxy': True, 'retry_times': retry_times + 1}, callback=self.parse, dont_filter=True)

需要再meta中设置以下属性：

url：限流后请求有可能被重置，response.request.url可能变为重置后的地址

is_new_proxy: 声明需要新的代理，在DOWNLOADER_MIDDLEWARES的process_request中作为获取代理的入参

retry_times：避免无限重试

注意：需要设置dont_filter=True，避免重复url被过滤掉

3、使用SPIDER_MIDDLEWARES中process_spider_exception

process_spider_exception(self, response, exception, spider)会捕获callback中抛出的异常，可以在这里添加异常处理策略，例如：邮件报警、短信提示等，可以与自行捕获异常配合使用

scrapy.Request不生效

scrapy.Request时未设置dont_filter=True，重复url会被自动过滤

url不在allowed_domains中

反爬取应对策略

scrapy参数调整，两个方向：限制并发数、模拟停顿

代理IP和User-Agent，DOWNLOADER_MIDDLEWARES中设置，如下：

def __init__(self, delay, user_agent_list): self.delay = delay self.user_agent_list = user_agent_list @classmethod def from_crawler(cls, crawler): # This method is used by Scrapy to create your spiders. # RANDOM_DELAY、USER_AGENT_LIST为spider的custom_settings中配置项 delay = crawler.spider.settings.get("RANDOM_DELAY", 0) user_agent_list = crawler.spider.settings.get("USER_AGENT_LIST", []) if not isinstance(delay, int): raise ValueError("RANDOM_DELAY need a int") s = cls(delay, user_agent_list) crawler.signals.connect(s.spider_opened, signal=signals.spider_opened) return s def process_request(self, request, spider): # Called for each request that goes through the downloader # 设置随机停顿 if self.delay > 0: delay = random.randint(0, self.delay) time.sleep(delay) # 设置User-Agent if len(self.user_agent_list) > 0: request.headers['User-Agent'] = random.choice(self.user_agent_list) if spider.name not in self.SPIDERS_USE_PROXY: return None # 设置代理 try: proxy = get_one_proxy(spider.name, request.meta.get('is_new_proxy', False)) request.meta['proxy'] = proxy request.meta['change_proxy_times'] = 1 except ProxyError: pass return None def get_one_proxy(app, is_new_proxy): # 特殊情况下，强制获取一个新的代理并放入代理池中 if is_new_proxy: new_proxy = refresh_and_get_one_proxy(app) proxy_http_list.append(new_proxy) return new_proxy # 默认初始化N个代理，每次随机选择一个，重试时也是随机换一个 while len(proxy_http_list) proxy_http_list.append(refresh_and_get_one_proxy(app)) return random.choice(proxy_http_list)

推荐阅读

select
如何基于ngModel值更改来更新选中/未选中的垫选择选择？

我目前正在使用材质库和Angular8构建搜索表单，其中可以在“垫选择”下拉选项 ... [详细]

蜡笔小新 2024-09-27 15:12:39
io
javax.swing.Action.addPropertyChangeListener()方法的使用及代码示例

本文整理了Java中javax.swing.Action.addPropertyChangeListener()方法的一些代码示例，展示了Action.ad ... [详细]

蜡笔小新 2024-09-26 16:30:30
io
java.lang.Iterable.iterator()方法的使用及代码示例

本文整理了Java中java.lang.Iterable.iterator()方法的一些代码示例，展示了Iterable.iterator() ... [详细]

蜡笔小新 2024-09-25 17:55:51
select
Mask-RCNN源码阅读笔记

阅读了https:blog.csdn.netu011974639articledetails78483779?locationNum9&fps1这篇博客这篇博客介 ... [详细]

蜡笔小新 2024-09-25 12:12:08
io
默认和非默认监听配置

一、如果使用默认的1521端口，让实例自动注册到该监听上，那么local_listener无需设置，listener.ora文件按照正常方 ... [详细]

蜡笔小新 2024-09-28 12:04:51
io
jq实现定时弹出广告

首页#father{border:0pxso ... [详细]

蜡笔小新 2024-09-27 17:56:58
io
TLB 缓存延迟刷新漏洞 CVE201818281 解析

TLB 缓存延迟刷新漏洞 CVE201818281 解析 ... [详细]

蜡笔小新 2024-09-27 17:53:48
io
下载进度的制作

这两天做了一个小项目，里面有个下载进度的进度条需要制作。先看呈现的效果：点击进度，然后依次递增，直到递增到百分之百。现在把这部分代码分享下来。<!DOCTYPEhtml><html ... [详细]

蜡笔小新 2024-09-27 14:38:43
io
分享一个快速开发动态互动HTML5可视化图形效果的Javascript类库Envision.js

日期：2012-4-7来源：GBin1.com在线演示本地下载今天我们介绍一个超棒的创建快速动态互动HTML5可视化图形效果的javascript类库-Envision.j ... [详细]

蜡笔小新 2024-09-27 12:50:24
io
Android JNI学习之Concepts

2019独角兽企业重金招聘Python工程师标准ConceptsBeforeBeginningThisguideassumesthatyouare:Alreadyfamili ... [详细]

蜡笔小新 2024-09-27 09:16:45
io
聊聊nacos ServiceManager的removeInstance

序本文主要研究一下nacosServiceManager的removeInstanceServiceManagernacos-1.1.3namingsrcmainjavacomal ... [详细]

蜡笔小新 2024-09-26 13:58:00
io
Android 网络连接：Volley（齐射）之ImageRequest与NetworkImageView网络图片下载

一、ImageRequest不知道将ImageRequest放在这里进行介绍是否合适，因为毕竟它属于一个请求队列，与StringRequest、Json ... [详细]

蜡笔小新 2024-09-26 13:30:17
io
LwIP系列内存管理（堆内存）详解

一、目的小型嵌入式系统中的内存资源（SRAM）一般都比较有限，LwIP的运行平台一般都是资源受限的MCU。为了能够更加高效的运行ÿ ... [详细]

蜡笔小新 2024-09-25 18:34:18
io
ASP.NET使用Ajax如何返回Json对象的示例方法介绍

这篇文章主要介绍了ASP.NET使用Ajax返回Json对象的方法，非常不错，具有参考借鉴价值,需要的朋友可以参考下一、 ... [详细]

蜡笔小新 2024-09-25 16:26:23
io
ideavim 100个实用映射

配 ... [详细]

蜡笔小新 2024-09-25 13:08:33

希瑟小姐

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章