python的网络请求库urllib、urllib2、urllib3、request的联系

作者：ABC13517626247 | 来源：互联网 | 2023-08-23 18:07

文章目录1.简介2.urllib3.urllib24.urllib35.requests6.相关文章1.简介urllib、urllib2、urllib3、request均能通过网

文章目录

- - 1. 简介
  - 2. urllib
  - 3. urllib2
  - 4. urllib3
  - 5. requests
  - 6. 相关文章

1. 简介

urllib、urllib2、urllib3、request均能通过网络访问互联网上的资源文件&＃xff0c;它们通过使用统一资源定位符&＃xff08;URL&＃xff09;并结合re模块完成很多意想不到的操作。

urllib&＃xff1a;Python2和Python3内置的网络请求库&＃xff0c;Python3的urllib实际是Python2版本中urllib和urllib2的合并
urllib2&＃xff1a;它只存在于Python2版本的内置库中&＃xff0c;功能与urllib基本类似&＃xff0c;主要是urllib的增强。urllib、urllib2都是python的内置标准库&＃xff1b;
urllib3&＃xff1a;Python2和Python3均可以使用&＃xff0c;但这不是标准库&＃xff0c;需要使用pip安装使用&＃xff0c;urllib3提供了线程安全池和文件post等&＃xff0c;该模块是服务于升级的http 1.1标准&＃xff0c;且拥有高效http连接池管理及http代理服务的功能库,但其并非python内
requests&＃xff1a;requests是基于urllib3封装的,继承了urllib2的所有特性,遵循Apache2 Licensed开源协议的HTTP库&＃xff0c;支持HTTP连接保持和连接池&＃xff0c;支持使用COOKIE保持会话&＃xff0c;支持文件上传&＃xff0c;支持自动响应内容的编码&＃xff0c;支持国际化的URL和POST数据自动编码。如他的口号HTTP for Humans所说,这才是给人用的HTTP库,实际使用过程中更方便,能够大大的提高使用效率,缩短写代码的时间。

注意: 在Python2中urllib和urllib2一般搭配使用的&＃xff08;不然Python2整两个内置库干嘛&＃xff09;&＃xff0c;urllib具有urllib2没有的功能&＃xff0c;而urllib2具有urllib没有的功能。如urllib2可以接受请求对象来设置URL请求的头&＃xff0c;urllib只接受URL&＃xff1b;urllib提供用于生成GET查询字符串的urlencode方法&＃xff0c;urllib2没有这样的函数。这就是为什么urllib经常与urllib2一起使用的原因之一。

2. urllib

urllib这个Python标准库基本上包含了基础的网络请求功能&＃xff0c;以下urllib的演示均为Python3中的用法&＃xff0c;Python2中单独用urllib会比较难受&＃xff0c;上面也提到了它最好配合urllib2一起使用。

urllib发起GET请求

urlopen()方法发起请求&＃xff0c;read()方法获取网页数据

from urllib import request res &＃61; request.urlopen("http://httpbin.org/get") print(res.read().decode()) # red()方法读取的数据是bytes的二进制格式&＃xff0c;需要解码

urllib发起POST请求

urlopen()默认是GET方式请求&＃xff0c;当传入data参数时会发起POST请求&＃xff0c;此时传递的参数必须时bytes格式

from urllib import request res &＃61; request.urlopen("http://httpbin.org/post", data&＃61;b&＃39;hello&＃61;world&＃39;) print(res.read().decode())

urllib为请求添加Headers

通过urllib发起的请求默认的头信息是"User-Agent": “Python-urllib/3.6”&＃xff0c;一般网站会验证请求头的合法性&＃xff0c;如果需要修改可以通过urllib.request中的Request对象

from urllib import request url &＃61; "http://httpbin.org/get" headers &＃61; {&＃39;user-agent&＃39;: &＃39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36&＃39;} req &＃61; request.Request(url&＃61;url, headers&＃61;headers) # 传递的Request对象 res &＃61; request.urlopen(req) print(res.read().decode())

此时httpbin网站返回的内容如下&＃xff1a;

{ "args": {}, "headers": { "Accept-Encoding": "identity", "Host": "httpbin.org", "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36" }, "origin": "210.33.11.241, 210.33.11.241", "url": "https://httpbin.org/get" }

urllib制定proxy代理

在使用爬虫时经常会配置代理隐藏我们的IP地址

from urllib import request url &＃61; &＃39;http://httpbin.org/ip&＃39; proxy &＃61; {&＃39;http&＃39;: &＃39;117.95.200.71:9999&＃39;, &＃39;https&＃39;: &＃39;183.154.54.188:9999&＃39;} # 可以使用西刺代理配置 # 创建代理处理器 proxies &＃61; request.ProxyHandler(proxy) # 创建opener对象 opener &＃61; request.build_opener(proxies) resp &＃61; opener.open(url) print(resp.read().decode())

urllib下载数据至本地

from urllib import request url &＃61; &＃39;http://httpbin.org/image/jpeg&＃39; request.urlretrieve(url, &＃39;1.jpg&＃39;)

3. urllib2

urllib2的用法其实基本和urllib相似&＃xff0c;且它只存在于Python2版本&＃xff0c;它的使用时需要配合urllib一起使用&＃xff0c;要说它和urllib的区别还要看下面这个表&＃xff0c;下表主要说明了在Python2中的urllib、urllib2中的方法整合到Python3后方法名的区别。
urllib

urllib2发起GET请求

这里展示了一个官方使用urllib2的GET请求

import urllib2 res &＃61; urllib2.urlopen("http://httpbin.org/get") print res.read().decode()

4. urllib3

urllib3说一个HTTP客户端Python库&＃xff0c;Python2和Python3在未安装的情况下均可以使用pip install urllib3即可安装&＃xff0c;它提供了很多urllib库中没有的重要特性&＃xff1a; 线程安全连接池客户端SSL/TLS验证文件分部编码上传协助处理重复请求和HTTP重定位支持gzip和deflate压缩编码支持HTTP和SOCKS代理 100%测试覆盖率

urllib3发起GET请求

urllib3主要的特点就是在请求之前需要创建一个连接池对象

import urllib3 http &＃61; urllib3.PoolManager() # 线程池生成请求 res &＃61; http.request(&＃39;GET&＃39;, &＃39;http://httpbin.org/get&＃39;) print(res.data.decode())

urllib3发起POST请求

post请求只需要将request()方法的第一个参数改为POST&＃xff0c;并设置fields参数即可

import urllib3 http &＃61; urllib3.PoolManager() # 线程池生成请求 res &＃61; http.request(&＃39;POST&＃39;, &＃39;http://httpbin.org/post&＃39;, fields&＃61;{&＃39;hello&＃39;: &＃39;world&＃39;}) print(res.data.decode())

urllib3设置headers

设置headers的方法和设置参数一样方便&＃xff0c;只需要加入headers参数即可

headers &＃61; {&＃39;X-Something&＃39;: &＃39;value&＃39;} res &＃61; http.request(&＃39;POST&＃39;, &＃39;http://httpbin.org/post&＃39;, headers&＃61;headers, fields&＃61;{&＃39;hello&＃39;: &＃39;world&＃39;})

5. requests

最后介绍一个杀手级神器——requests&＃xff0c;你会发现它一样也很好用&＃xff0c;requests使用了urllib3的库&＃xff0c;并且继承了所有urllib2的特性&＃xff0c;最关键的是它不需要urllib3一样在编码时收到开启线程池&＃xff0c;简单粗暴&＃xff0c;不过它同样也要使用pip install requests安装。另外&＃xff0c;requests会自动实现持久连接keep-alive

格外简单的演示&＃xff1a;

import requests res &＃61; requests.get(&＃39;http://httpbin.org/get&＃39;) print(res.text)

在实际使用中推荐使用后两种&＃xff0c;因为毕竟方便&＃xff0c;而若时没有安装这些库的情况下&＃xff0c;Python3的urllib也是一个不错的选择。

和urllib比较示例&＃xff1a;

###urllib from urllib import request,parse import json if __name__ &＃61;&＃61; &＃39;__main__&＃39;: while True: baseurl &＃61; &＃39;http://fanyi.baidu.com/sug&＃39; keyword &＃61; input(&＃39;请输入你要查询的单词&＃xff1a;&＃39;) data &＃61; { &＃39;kw&＃39;: keyword } data &＃61; parse.urlencode(data).encode() # 需要给数据编码&＃xff0c;现在data是bytes格式&＃xff0c; #调试用的的话可以输入以下代码(已注释&＃xff09; #data &＃61; parse.urlencode(data) #print(data) rsp &＃61; request.urlopen(baseurl, data&＃61;data) json_data &＃61; rsp.read().decode()#解码后的数据是json格式&＃xff0c;所以要import json #print(json_data) json_data &＃61; json.loads(json_data) for i in json_data[&＃39;data&＃39;]: print(i[&＃39;k&＃39;], &＃39;---->&＃39;, i[&＃39;v&＃39;]) --------------------------------------------------------------------------------------- #####requests import requests if __name__ &＃61;&＃61; &＃39;__main__&＃39;: while True: baseurl &＃61; &＃39;http://fanyi.baidu.com/sug&＃39; keyword &＃61; input(&＃39;请输入你要查询的单词&＃xff1a;&＃39;) data &＃61; { &＃39;kw&＃39;: keyword } #这里不用给data进行编码 #但是下面要指明post方法 #rsp&＃61;requests.request(&＃39;post&＃39;,url&＃61;baseurl,data&＃61;data) #上下两代码等价 rsp &＃61; requests.post(url&＃61;baseurl, data&＃61;data) #而这里也不用导入 json模块&＃xff0c;直接使用对象的json&＃xff08;&＃xff09;方法即可 json_data &＃61; rsp.json() for i in json_data[&＃39;data&＃39;]: print(i[&＃39;k&＃39;], &＃39;---->&＃39;, i[&＃39;v&＃39;]) 总的来说&＃xff0c;requests将urlib进行了更高级的封装&＃xff0c;不用人为的编码解码&＃xff0c;将其自动化&＃xff0c;

6. 相关文章

requests.session()的用法
Requsets库的基本使用
requests.get()和requests.session.get()的区别与联系
python requests timeout详解
Python中requests模块源码分析:requests是如何调用urllib3的
Python3中进行HTTP请求的4种方式

推荐阅读

utf-8
网页图像抓取技术学习心得：从零开始掌握爬虫技巧

在今天的实践中，我深入学习了网页图像抓取技术，通过编写爬虫程序批量获取网站上的图片资源。具体来说，我选择了一个包含大量高质量图片的网站作为练习对象，并成功实现了将这些图片批量下载到本地存储。这一过程不仅提升了我对爬虫技术的理解，还增强了我的编程能力。 ... [详细]

蜡笔小新 2024-11-03 19:35:28
tree
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
tree
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
config
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
stream
Python 伦理黑客技术：深入探讨后门攻击（第三部分）

在《Python 伦理黑客技术：深入探讨后门攻击（第三部分）》中，作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流，难以确定消息批次的结束点，这给后门攻击的实现带来了挑战。为了解决这一问题，文章提出了一系列有效的技术方案，包括使用特定的分隔符和长度前缀，以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性，还为安全研究人员提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 16:33:02
utf-8
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
utf-8
网页数据抓取与解析入门指南

本指南介绍了 `requests` 库的基本使用方法，详细解释了其七个主要函数。其中，`requests.request()` 是构建请求的基础方法，支持其他高级功能的实现。此外，我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容，这是进行网页数据抓取和解析的重要步骤。通过这些基础方法，读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]

蜡笔小新 2024-11-08 17:56:30
case
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
case
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
case
Python 2.x 中的 urllib 模块详解与应用实例

本文详细解析了 Python 2.x 版本中 `urllib` 模块的核心功能与应用实例，重点介绍了 `urlopen()` 和 `urlretrieve()` 方法的使用技巧。其中，`urlopen()` 方法用于发送网络请求并获取响应内容，而 `urlretrieve()` 方法则用于下载文件并保存到本地。文章通过具体示例展示了这两个方法在实际开发中的应用场景，帮助读者更好地理解和掌握 `urllib` 模块的使用。 ... [详细]

蜡笔小新 2024-11-06 15:42:08
utf-8
利用Python高效抓取微博文本与动态网页图像数据

本文介绍了使用 Python 编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码，展示了如何利用爬虫技术获取微博内容和动态图片，为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者，本文具有较高的参考价值。 ... [详细]

蜡笔小新 2024-10-31 14:48:38
tree
可转债数据智能抓取与分析平台优化

本项目旨在优化可转债数据的智能抓取与分析平台。通过爬取集思录上的可转债信息（排除已发布赎回的债券），并结合安道全教授提出的三条安全线投资策略，新增了建仓线、加仓线和重仓线，以提供更精准的投资建议。 ... [详细]

蜡笔小新 2024-10-30 17:40:17
tree
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
php
单链表的高效遍历及性能优化策略

本文探讨了单链表的高效遍历方法及其性能优化策略。在单链表的数据结构中，插入操作的时间复杂度为O(n)，而遍历操作的时间复杂度为O(n^2)。通过在 `LinkList.h` 和 `main.cpp` 文件中对单链表进行封装，我们实现了创建和销毁功能的优化，提高了单链表的使用效率。此外，文章还介绍了几种常见的优化技术，如缓存节点指针和批量处理，以进一步提升遍历性能。 ... [详细]

蜡笔小新 2024-11-07 15:55:20
case
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19

ABC13517626247

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章