Python爬虫返回403错误解决方法

作者：大笨猫的男人 | 来源：互联网 | 2017-05-14 02:44

表示网站采用了防爬技术anti-web-crawlingtechnique（Amazon所用），比较简单即会检查用户代理（UserAgent）信息。

问题

抓取数据时，通常调试信息是：

DEBUG: Crawled (200)  (referer: None)

如果出现

DEBUG: Crawled (403)  (referer: None)

表示网站采用了防爬技术anti-web-crawling technique（Amazon所用），比较简单即会检查用户代理（User Agent）信息。

解决方法

在请求头部构造一个User Agent，如下所示：

def start_requests(self):  
    yield Request("#",  
                  headers={&＃39;User-Agent&＃39;: "your agent string"})

以上就是Python 爬虫返回403错误解决方法的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

python
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
python
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07
python
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
python
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
python
解决无法从selenium导入webdriver的错误

在学习网页爬虫时，使用Selenium进行自动化操作。初次安装selenium模块后，第二天运行代码时遇到了ImportError：无法从'selenium'导入名称'webdriver'。本文将详细解释该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-25 08:55:45
java
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
python
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
python
PHP 时间与日期工具类：星座、干支、生肖的实现

本文介绍了一个PHP时间与日期工具类，涵盖了时区设置、有效日期和时间检查、星座、干支、生肖计算等功能。该工具类特别适用于需要处理中国农历及西方星座的应用场景。 ... [详细]

蜡笔小新 2024-12-24 18:37:15
python
PHP插件机制的实现方案解析

本文深入探讨了PHP中插件机制的设计与实现，旨在分享一种可行的实现方式，并邀请读者共同讨论和优化。该方案不仅涵盖了插件机制的基本概念，还详细描述了如何在实际项目中应用。 ... [详细]

蜡笔小新 2024-12-24 15:39:18
int
云计算的优势与应用场景

本文详细探讨了云计算为企业和个人带来的多种优势，包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点，并结合实际案例进行分析。 ... [详细]

蜡笔小新 2024-12-23 13:54:13
java
JavaScript 中创建对象的多种方法

本文详细介绍了 JavaScript 中创建对象的几种常见方式，包括对象字面量、构造函数和 Object.create 方法，并提供了示例代码和属性描述符的解释。 ... [详细]

蜡笔小新 2024-12-22 16:40:51
int
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
java
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
python
Python编程基础：字符串操作与网页抓取入门

本文介绍了Python编程中的字符串操作基础知识，包括字符串拼接、索引、子序列选择和查找。此外，还探讨了如何利用字符串处理技术从HTML代码中提取超链接信息，为简单的网页抓取打下基础。 ... [详细]

蜡笔小新 2024-12-20 19:10:37
python
MySQL Debug 模式的实现与应用

本文详细介绍了如何启用和使用 MySQL 的调试模式，包括编译选项、环境变量配置以及调试信息的解析。通过实际案例展示了如何利用调试模式解决客户端无法连接服务器的问题。 ... [详细]

蜡笔小新 2024-12-19 19:17:32

大笨猫的男人

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章