当前位置: 开发笔记 > 编程语言 > 正文

requests模块（三、cookie相关的请求及其他高级用法）

作者：奋斗中DU_536 | 来源：互联网 | 2023-10-12 13:32

目录requess模块处理cookie相关内容1爬虫中使用cookie1.1爬虫中使用cookie的利弊1.2requests处理cookie的方法2cookie添加在heades

1 爬虫中使用COOKIE

为了能够通过爬虫获取到登录后的页面，或者是解决通过COOKIE的反扒，需要使用request来处理COOKIE相关的请求

1.1 爬虫中使用COOKIE的利弊

带上COOKIE的好处
- 能够访问登录后的页面
- 能够实现部分反反爬

带上COOKIE的坏处
- 一套COOKIE往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫
- 那么上面的问题如何解决 ?使用多个账号

1.2 requests处理COOKIE的方法

使用requests处理COOKIE有三种方法：

COOKIE字符串放在headers中

把COOKIE字典放传给请求方法的COOKIEs参数接收

使用requests提供的session模块

2 COOKIE添加在heades中

2.1 headers中COOKIE的位置

在这里插入图片描述

2.2 COOKIE的具体组成的字段

在这里插入图片描述

由于headers中对COOKIE仅仅使用它的name和value，所以在代码中我们仅仅需要COOKIE的name和value即可

2.3 在headers中使用COOKIE

复制浏览器中的COOKIE到代码中使用

headers = { "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36", "COOKIE":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"} requests.get(url,headers=headers)

注意：

COOKIE有过期时间，所以直接复制浏览器中的COOKIE可能意味着下一程序继续运行的时候需要替换代码中的COOKIE，对应的我们也可以通过一个程序专门来获取COOKIE供其他程序使用；当然也有很多网站的COOKIE过期时间很长，这种情况下，直接复制COOKIE来使用更加简单

3 使用COOKIEs参数接收字典形式的COOKIE

COOKIEs的形式：字典

COOKIEs = {"COOKIE的name":"COOKIE的value"}

使用方法：

requests.get(url,headers=headers,COOKIEs=COOKIE_dict}

4 使用requests.session处理COOKIE

前面使用手动的方式使用COOKIE，那么有没有更好的方法在requets中处理COOKIE呢？

requests 提供了一个叫做session类，来实现客户端和服务端的会话保持

会话保持有两个内涵：

保存COOKIE，下一次请求会带上前一次的COOKIE

实现和服务端的长连接，加快请求速度

4.1 使用方法

session = requests.session() respOnse= session.get(url,headers)

session实例在请求了一个网站后，对方服务器设置在本地的COOKIE会保存在session中，下一次再使用session请求对方服务器的时候，会带上前一次的COOKIE

requests模块的其他方法

1 requests中cookirJar的处理方法

使用request获取的resposne对象，具有COOKIEs属性，能够获取对方服务器设置在本地的COOKIE，但是如何使用这些COOKIE呢？

1.1 方法介绍

response.COOKIEs是COOKIEJar类型

使用requests.utils.dict_from_COOKIEjar，能够实现把COOKIEjar对象转化为字典

1.2 方法展示

import requests url = "http://www.baidu.com" #发送请求，获取resposne respOnse= requests.get(url) print(type(response.COOKIEs)) #使用方法从COOKIEjar中提取数据 COOKIEs = requests.utils.dict_from_COOKIEjar(response.COOKIEs) print(COOKIEs)

输出为:

{'BDORZ': '27315'}

注意：

在前面的requests的session类中，我们不需要处理COOKIE的任何细节，如果有需要，我们可以使用上述方法来解决

2 requests处理证书错误

经常我们在网上冲浪时，经常能够看到下面的提示：

在这里插入图片描述

出现这个问题的原因是：ssl的证书不安全导致

2.1 代码中发起请求的效果

如果在代码中请求会显示如下效果？

import requests url = "https://www.12306.cn/mormhweb/" respOnse= requests.get(url)

返回证书错误，如下：

ssl.CertificateError ...

2.2 解决方案

为了在代码中能够正常的请求，我们修改添加一个参数:verify=False

import requests url = "https://www.12306.cn/mormhweb/" respOnse= requests.get(url,verify=False)

3 超时参数的使用

在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错

3.1 超时参数使用方法如下：

respOnse= requests.get(url,timeout=3)

通过添加timeout参数，能够保证在3秒钟内返回响应，否则会报错

注意：

这个方法还能够拿来检测代理ip的质量，如果一个代理ip在很长时间没有响应，那么添加超时之后也会报错，对应的这个ip就可以从代理ip池中删除

4 retrying模块的使用

使用超时参数能够加快我们整体的请求速度，但是在正常的网页浏览过成功，如果发生速度很慢的情况，我们会做的选择是刷新页面，那么在代码中，我们是否也可以刷新请求呢？

对应的，retrying模块就可以帮助我们解决

4.1 retrying模块的使用

retrying模块的地址：https://pypi.org/project/retrying/

retrying 模块的使用
1. 使用retrying模块提供的retry模块
2. 通过装饰器的方式使用，让被装饰的函数反复执行
3. retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行，达到最大执行次数的上限，如果每次都报错，整个函数报错，如果中间有一个成功，程序继续往后执行

4.2 retrying和requests的简单封装

实现一个发送请求的函数，每次爬虫中直接调用该函数即可实现发送请求，在其中

使用timeout实现超时报错

使用retrying模块实现重试

代码参考:

# parse.py import requests from retrying import retry headers = {} #最大重试3次，3次全部报错，才会报错 @retry(stop_max_attempt_number=3) def _parse_url(url) #超时的时候回报错并重试 respOnse= requests.get(url, headers=headers, timeout=3) #状态码不是200，也会报错并重试 assert response.status_code == 200 return response def parse_url(url) try: #进行异常捕获 respOnse= _parse_url(url) except Exception as e: print(e) #报错返回None respOnse= None return response

推荐阅读

js
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
js
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
string
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
string
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
string
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
string
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
hash
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
controller
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
string
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
byte
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
controller
使用SSH密钥对实现Linux系统免密码登录

本文详细介绍如何在Linux系统中配置SSH密钥对，以实现从一台主机到另一台主机的无密码登录。内容涵盖密钥对生成、公钥分发及权限设置等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 16:17:45
byte
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
js
Spring Boot 中静态资源映射详解

本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理，包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文，您将了解如何高效地管理和引用静态资源。 ... [详细]

蜡笔小新 2024-12-20 20:02:31
replace
深入理解Java类加载机制与自定义类加载器

本文详细探讨了Java中的ClassLoader类加载器的工作原理，包括其如何将class文件加载至JVM中，以及JVM启动时的动态加载策略。文章还介绍了JVM内置的三种类加载器及其工作方式，并解释了类加载器的继承关系和双亲委托机制。 ... [详细]

蜡笔小新 2024-12-20 12:58:21

奋斗中DU_536

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章