python爬虫的重定向问题（301，302）

作者：格林威治 | 来源：互联网 | 2023-09-23 10:02

重定向问题在使用python爬虫的过程中难免会遇到很多301，302的问题。他们出现时，很大程度的影响到我们的爬虫速度和信息的准确性。下面针对不同的模块给出不同的解决方案。使用re

重定向问题

在使用python爬虫的过程中难免会遇到很多301，302的问题。他们出现时，很大程度的影响到我们的爬虫速度和信息的准确性。下面针对不同的模块给出不同的解决方案。

使用requests模块爬虫

使用requests模块遇到301和302问题时，

def yunsite(): 'url' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, sdch, br', 'Accept-Language': 'zh-CN,zh;q=0.8', 'Connection': 'keep-alive', 'Host': 'pan.baidu.com', 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} url = 'https://pan.baidu.com/s/1c0rjnbi' html = requests.get(url, headers=headers, allow_redirects=False) return html.headers['Location']

allow_redirects=False的意义为拒绝默认的301/302重定向从而可以通过html.headers[‘Location’]拿到重定向的URL。
使用scrapy模块进行爬虫的时候遇到301很302问题。

yield scrapy.Request(url,meta={ 'title':tit, 'describe':describ, 'home_url':home_url, 'number':number },callback=self.parse_item, dont_filter=True)

这是在yield里面加上dont_filter=True，解决了这个问题，dont_filter的意思是，如果已经爬取过得url，也就是没有出现问题的url，自然而然出现问题的url将会再次被传递，这样也就解决了重定向问题。

推荐阅读

web
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
web
提升接口测试效率的关键：用例与工具的综合应用

本文将探讨如何通过有效的接口测试用例设计和工具选择，显著提高接口测试的效率和质量。 ... [详细]

蜡笔小新 2024-11-28 16:45:22
import
Python安全实践：Web安全与SQL注入防御

本文旨在介绍Web安全的基础知识，特别是如何使用Python和相关工具来识别和防止SQL注入攻击。通过实际案例分析，帮助读者理解SQL注入的危害，并掌握有效的防御策略。 ... [详细]

蜡笔小新 2024-11-28 19:57:23
list
深入理解Python的multiprocessing模块

本文详细介绍了Python的multiprocessing模块，该模块不仅支持本地并发操作，还支持远程操作。通过使用multiprocessing模块，开发者可以利用多核处理器的优势，提高程序的执行效率。 ... [详细]

蜡笔小新 2024-11-28 15:03:25
window
利用Selenium框架解决SSO单点登录接口无法返回Token的问题

针对接口自动化测试中遇到的SSO单点登录系统不支持通过API接口返回Token的问题，本文提供了一种解决方案，即通过UI自动化工具Selenium模拟用户登录过程，从浏览器的localStorage或sessionStorage中提取Token。 ... [详细]

蜡笔小新 2024-11-28 14:17:50
timestamp
Flink与Kafka集成时事务频繁失败及解决方案

本文探讨了在使用Apache Flink向Kafka发送数据过程中遇到的事务频繁失败问题，并提供了详细的解决方案，包括必要的配置调整和最佳实践。 ... [详细]

蜡笔小新 2024-11-27 20:17:44
install
Python中调用Java代码的方法与实践

本文探讨了如何在Python环境中集成并调用Java代码，通过具体的步骤和示例展示了这一过程的技术细节。适合对跨语言编程感兴趣的开发者阅读。 ... [详细]

蜡笔小新 2024-11-27 17:54:57
install
理解FTP协议及其工作原理

本文介绍了FTP（文件传输协议）的基础知识，包括其定义、如何通过TCP建立控制和数据连接，以及主动模式与被动模式的区别。FTP作为一种重要的文件传输协议，在互联网数据交换中扮演着关键角色。 ... [详细]

蜡笔小新 2024-11-28 22:23:41
install
Windows 10 上 Python 环境的配置方法

本文详细介绍了如何在 Windows 10 系统上安装并配置 Python 环境，包括环境变量的设置，以确保 Python 可以在命令行中顺利运行。 ... [详细]

蜡笔小新 2024-11-28 21:23:43
main
实践教程：使用 Gulp 和 Webpack 构建用户登录系统

本文将指导你通过 Gulp 和 Webpack 构建一个简单的用户登录界面，包括目录结构设置和关键文件的配置。 ... [详细]

蜡笔小新 2024-11-28 21:06:57
main
Win8环境下安装MindManager解决方案

本文详细介绍了在Windows 8操作系统上安装MindManager过程中遇到的问题及解决策略，特别是针对Visual C++ 2005 Redistributable安装错误的处理方法。 ... [详细]

蜡笔小新 2024-11-28 15:45:46
flutter
Flutter与Angular的对比分析

本文探讨了Flutter和Angular这两个流行框架的主要区别，包括它们的设计理念、适用场景及技术实现。 ... [详细]

蜡笔小新 2024-11-28 13:19:52
flutter
ASP.NET MVC5 + EF6 初学者指南：从零开始搭建项目

本文旨在为初学者提供一个详细的指南，从零开始学习如何使用 ASP.NET MVC5 和 Entity Framework 6 (EF6) 搭建项目。通过逐步指导，帮助读者理解 MVC 架构的核心概念，并掌握基本的操作方法。 ... [详细]

蜡笔小新 2024-11-27 20:41:31
byte
Web网络基础

目录儿1使用HTTP协议访问Web2HTTP的诞生2.1因特网的起源2.2互联网、因特网与万维网2.3万维网与HTTP3网络基础TCPIP3.1TCPIP协议族3.2TCPIP的分 ... [详细]

蜡笔小新 2024-11-27 18:39:10
tree
寻找子树中值小于自身节点的最大数量

本文介绍了一种算法，用于在一个给定的二叉树中找到一个节点，该节点的子树包含最大数量的值小于该节点的节点。如果存在多个符合条件的节点，可以选择任意一个。 ... [详细]

蜡笔小新 2024-11-27 18:08:54

格林威治

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章