scrapy自定义重试方法

作者：胡印鉴_473 | 来源：互联网 | 2023-10-12 15:47

自定义重试方法(๑•.•๑)Scrapy是自带有重试的，但一般是下载出错才会重试，当然你可以在Mid

scrapy自定义重试方法

这是崔斯特的第八十五篇原创文章

自定义重试方法 (๑• . •๑)

Scrapy是自带有重试的，但一般是下载出错才会重试，当然你可以在Middleware处来完成你的逻辑。这篇文章主要介绍的是如何在spider里面完成重试。使用场景比如，我解析json出错了，html中不包含我想要的数据，我要重试这个请求（request）。

我们先看看官方是如何完成重试的

scrapy/downloadermiddlewares/retry.py

def _retry(self, request, reason, spider):
    retries = request.meta.get('retry_times', 0) + 1

    retry_times = self.max_retry_times

    if 'max_retry_times' in request.meta:
        retry_times = request.meta['max_retry_times']

    stats = spider.crawler.stats
    if retries <= retry_times:
        logger.debug("Retrying %(request)s (failed %(retries)d times): %(reason)s",
                     {'request': request, 'retries': retries, 'reason': reason},
                     extra={'spider': spider})
        retryreq = request.copy()
        retryreq.meta['retry_times'] = retries
        retryreq.dont_filter = True
        retryreq.priority = request.priority + self.priority_adjust

        if isinstance(reason, Exception):
            reason = global_object_name(reason.__class__)

        stats.inc_value('retry/count')
        stats.inc_value('retry/reason_count/%s' % reason)
        return retryreq
    else:
        stats.inc_value('retry/max_reached')
        logger.debug("Gave up retrying %(request)s (failed %(retries)d times): %(reason)s",
                     {'request': request, 'retries': retries, 'reason': reason},
                     extra={'spider': spider})

可以看到非常清晰，在meta中传递一个参数 retry_times ，来记录当前的request采集了多少次，如果重试次数小于设置的最大重试次数，那么重试。

根据这段代码我们自定义的重试可以这么写

def parse(self, response):
    try:
        data = json.loads(response.text)

    except json.decoder.JSONDecodeError:
        r = response.request.copy()
        r.dont_filter = True
        yield r

捕获异常，如果返回不是json，那就重试，注意需要设置不过滤。

这种方法简单粗暴，存在BUG，就是会陷入死循环。我也可以记录重试的次数，用meta传递。

def parse(self, response):
    try:
        data = json.loads(response.text)

    except json.decoder.JSONDecodeError:
        retries = response.meta.get('cus_retry_times', 0) + 1
        if retries <= self.cus_retry_times:
            r = response.request.copy()
            r.meta['cus_retry_times'] = retries
            r.dont_filter = True
            yield r
        else:
            self.logger.debug("Gave up retrying {}, failed {} times".format(
                response.url, retries
            ))

这样就完成了自定义重试，你完全可以在中间件完成，但是我更喜欢这种方法，可以清楚地知道爬虫具体哪里会存在问题。

其实以上这种方法也不好，因为你可能会在很多地方都需要重试，每个函数都需要，那每次都写一遍，太不美观。更好的方法是将此方法封装为 scrapy.http.Response 的一个函数，需要用的时候直接调。代码就不贴了，有兴趣的可以研究下，用到 python 的继承。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持我们

推荐阅读

split
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
grid
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
text
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
copy
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
text
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
text
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
match
深入解析JMeter中的JSON提取器及其应用

本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时，JSON提取器是一个非常有用的工具。 ... [详细]

蜡笔小新 2024-12-25 16:34:37
text
云函数与数据库API实现增删查改的对比

本文将深入探讨使用云函数和数据库API实现数据操作（增删查改）的不同方法，通过详细的代码示例帮助读者更好地理解和掌握这些技术。文章不仅提供代码实现，还解释了每种方法的特点和适用场景。 ... [详细]

蜡笔小新 2024-12-22 00:56:21
io
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
match
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
text
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
match
Python编程进阶：高阶函数与Lambda表达式详解

本文深入探讨了Python中的高阶函数和Lambda表达式的使用方法，结合实际案例解析其应用场景，帮助开发者更好地理解和运用这些强大的工具。 ... [详细]

蜡笔小新 2024-12-25 11:58:39
io
选择适合生产环境的Docker存储驱动

本文旨在探讨如何在生产环境中选择合适的Docker存储驱动，并详细介绍不同Linux发行版下的配置方法。通过参考官方文档和兼容性矩阵，提供实用的操作指南。 ... [详细]

蜡笔小新 2024-12-24 11:16:45
io
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
text
深入解析Spring启动过程

本文详细介绍了Spring框架的启动流程，帮助开发者理解其内部机制。通过具体示例和代码片段，解释了Bean定义、工厂类、读取器以及条件评估等关键概念，使读者能够更全面地掌握Spring的初始化过程。 ... [详细]

蜡笔小新 2024-12-21 17:33:44

胡印鉴_473

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章