热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python爬虫返回403错误解决方法

表示网站采用了防爬技术anti-web-crawlingtechnique(Amazon所用),比较简单即会检查用户代理(UserAgent)信息。

问题

抓取数据时,通常调试信息是:

DEBUG: Crawled (200)  (referer: None)

如果出现

DEBUG: Crawled (403)  (referer: None)

表示网站采用了防爬技术anti-web-crawling technique(Amazon所用),比较简单即会检查用户代理(User Agent)信息。

解决方法

在请求头部构造一个User Agent,如下所示:

def start_requests(self):  
    yield Request("#",  
                  headers={'User-Agent': "your agent string"})

以上就是Python 爬虫返回403错误解决方法的详细内容,更多请关注 第一PHP社区 其它相关文章!


推荐阅读
author-avatar
大笨猫的男人
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有