Scrapy报400和415错误

作者：舍舍与你-6 | 来源：互联网 | 2023-10-11 12:21

今天用Scrapy框架爬取金融APP时出现了一些小问题，折腾了一天，记录一下。返回415状态码：请求包未加header首先用Charles抓取手机请求数据包，图如下：请求包这是一个

今天用Scrapy框架爬取金融APP时出现了一些小问题，折腾了一天，记录一下。

返回415状态码：请求包未加header

首先用Charles抓取手机请求数据包，图如下：

《Scrapy报400和415错误》请求包

这是一个POST请求并需要提交表单数据，所以我用了scrapy.FormRequest构造数据包，具体spider代码：

class yilicai(Spider): name = "yilicai" urls = "http://api.yilicai.cn/product/all5" base_url = "https://www.yilicai.cn" DOWNLOAD_DELAY = 0 count = 0 appmc = "壹理财" def start_requests(self): formdata = { 'page': '1', 'sType': '0', 'sTerm': '0', 'sRate': '0', 'sRecover': '0', 'sStart': '0' } yield scrapy.FormRequest(self.urls, callback=self.parse, formdata=formdata) def parse(self,response): datas = json.loads(response.body) print(json.dumps(datas, sort_keys=True, indent=2))

运行该爬虫出现415错误：

2018-05-07 17:00:20 [scrapy.core.engine] DEBUG: Crawled (415) (referer: None) 2018-05-07 17:00:20 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <415 http://api.yilicai.cn/product/all5>: HTTP status code is not handled or not allowed 2018-05-07 17:00:21 [scrapy.core.engine] INFO: Closing spider (finished)

去找了一下关于HTTP状态码415的解释：

415	Unsupported Media Type	服务器无法处理请求附带的媒体格式

后来发现是我没有添加header，添加了header的代码修改如下：

headers={ "Accept-Language":"zh-CN,zh;q=0.8", "User-Agent ":"Mozilla/5.0 (Linux; U; Android 6.0; zh-cn; AOSP on HammerHead Build/MRA58K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30", "Content-Type":"application/json;charset=utf-8", "Host":"api.yilicai.cn", "Accept-Encoding":"gzip", } ... ... yield scrapy.FormRequest(self.urls, headers=self.headers,callback=self.parse, formdata=formdata)

返回400状态码：未将提交数据转化为json格式

再次运行415状态码错误算是解决了，但是出现了一个新的错误，报错400：

2018-05-07 17:11:59 [scrapy.core.engine] DEBUG: Crawled (400) (referer: None) 2018-05-07 17:11:59 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <400 http://api.yilicai.cn/product/all5>: HTTP status code is not handled or not allowed 2018-05-07 17:11:59 [scrapy.core.engine] INFO: Closing spider (finished)

真的伤心，就是这个400错误卡了我一整天，我先去找了一下关于400状态码的解释

400	bad request	错误的请求

后来发现是这个请求严格要求提交的表单必须是json格式，所以在提交表单时候需要把formdata转换成json格式，然后进行提交。

由于使用scrapy.FormRequest在构造包时语句formdata=json.dumps(formdata)会报错,所以使用scrapy.Request来进行爬取：

class yilicai(Spider): name = "yilicai" urls = "http://api.yilicai.cn/product/all5" base_url = "https://www.yilicai.cn" DOWNLOAD_DELAY = 0 count = 0 appmc = "壹理财" headers={ "Accept-Language":"zh-CN,zh;q=0.8", "User-Agent ":"Mozilla/5.0 (Linux; U; Android 6.0; zh-cn; AOSP on HammerHead Build/MRA58K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30", "Content-Type":"application/json;charset=utf-8", "Host":"api.yilicai.cn", "Accept-Encoding":"gzip", } def start_requests(self): formdata = { 'page': '1', 'sType': '0', 'sTerm': '0', 'sRate': '0', 'sRecover': '0', 'sStart': '0' } temp=json.dumps(formdata) yield scrapy.Request(self.urls,body=temp,headers=self.headers,callback=self.parse) def parse(self,response): datas = json.loads(response.body) print(json.dumps(datas,sort_keys=True, indent=2))

最后终于成功抓到返回的数据包了，然后愉快的进行数据分析了

2018-05-07 17:47:16 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None) { "base_url": "https://www.yilicai.cn", "current_page": "1", "new_hand": 1, "pager": "1", "pagerParam": { "count": 16063, "maxPage": 1607, "perPage": 10 }, "product_list": [ { ...... } ], "sid": null, "status": "0" } 2018-05-07 17:47:16 [scrapy.core.engine] INFO: Closing spider (finished) 2018-05-07 17:47:16 [scrapy.statscollectors] INFO: Dumping Scrapy stats: ......

推荐阅读

byte
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
byte
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
import
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
web
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
web
WebBenchmark：强大的Web API性能测试工具

本文介绍了一款名为WebBenchmark的Web API性能测试工具，该工具不仅支持HTTP和HTTPS服务的测试，还提供了丰富的功能来帮助开发者进行高效的性能评估。 ... [详细]

蜡笔小新 2024-11-23 05:24:11
function
基于SSM框架的在线考试系统：随机组卷功能详解

本文深入探讨了基于SSM（Spring, Spring MVC, MyBatis）框架构建的在线考试系统中，随机组卷功能的设计与实现方法。 ... [详细]

蜡笔小新 2024-11-22 19:00:26
require
egg实现登录鉴权（七）：权限管理

权限管理包含三部分：访问页面的权限，操作功能的权限和获取数据权限。页面权限：登录用户所属角色的可访问页面的权限功能权限：登录用户所属角色的可访问页面的操作权限数据权限：登录用户所属 ... [详细]

蜡笔小新 2024-11-23 16:30:15
web
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
import
重学前端学习笔记（二十四）HTML里的链接元素

笔记说明重学前端是程劭非（winter）【前手机淘宝前端负责人】在极客时间开的一个专栏，每天10分钟，重构你的前端知识体系& ... [详细]

蜡笔小新 2024-11-23 10:34:04
case
Fiddler 安装与配置指南

本文详细介绍了Fiddler的安装步骤及配置方法，旨在帮助用户顺利抓取用户Token。文章还涵盖了一些常见问题的解决方案，以确保安装过程顺利。 ... [详细]

蜡笔小新 2024-11-22 11:36:57
usb
Java TCP 并发处理：连接数、请求数与用户数解析

本文详细探讨了在Java TCP编程中，如何理解和测量并发连接数、请求数及并发用户数，并提供了实际应用中的测试方法和优化建议。 ... [详细]

蜡笔小新 2024-11-22 11:06:05
function
Linux信号量操作详解：sem_init, sem_wait, sem_post, sem_destroy

本文详细介绍了Linux系统中信号量的相关函数，包括sem_init、sem_wait、sem_post和sem_destroy，解释了它们的功能和使用方法，并提供了示例代码。 ... [详细]

蜡笔小新 2024-11-21 21:21:16
usb
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
web
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
import
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41

舍舍与你-6

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章