Python2.x中的urllib模块详解与应用实例

作者：郭亭婷892 | 来源：互联网 | 2024-11-06 15:42

本文详细解析了Python2.x版本中`urllib`模块的核心功能与应用实例，重点介绍了`urlopen()`和`urlretrieve()`方法的使用技巧。其中，`urlopen()`方法用于发送网络请求并获取响应内容，而`urlretrieve()`方法则用于下载文件并保存到本地。文章通过具体示例展示了这两个方法在实际开发中的应用场景，帮助读者更好地理解和掌握`urllib`模块的使用。

Python urllib模块urlopen()与urlretrieve()的使用方法详解。

1.urlopen()方法
urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象&＃xff0c;然后像本地文件一样操作这个类文件对象来获取远程数据。
参数url表示远程数据的路径&＃xff0c;一般是网址&＃xff1b;
参数data表示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式&＃xff1a;post与get。
参数proxies用于设置代理。
urlopen返回一个类文件对象&＃xff0c;它提供了如下方法&＃xff1a;
read() , readline() , readlines() , fileno() , close() &＃xff1a;这些方法的使用方式与文件对象完全一样;
info()&＃xff1a;返回一个httplib.HTTPMessage 对象&＃xff0c;表示远程服务器返回的头信息
getcode()&＃xff1a;返回Http状态码。如果是http请求&＃xff0c;200表示请求成功完成;404表示网址未找到&＃xff1b;
geturl()&＃xff1a;返回请求的url&＃xff1b;

代码示例&＃xff1a;

代码如下:

import urllib

url &＃61; "http://www.baidu.com/"

#urlopen()
sock &＃61; urllib.urlopen(url)
htmlCode &＃61; sock.read()
sock.close
fp &＃61; open("e:/1.html","wb")
fp.write(htmlCode)
fp.close

#urlretrieve()
urllib.urlretrieve(url, &＃39;e:/2.html&＃39;)

2.urlretrieve方法
直接将远程数据下载到本地。

代码如下:

 
 urllib.urlretrieve(url[, filename[, reporthook[, data]]])
 参数说明&＃xff1a;
 url&＃xff1a;外部或者本地url
 filename&＃xff1a;指定了保存到本地的路径&＃xff08;如果未指定该参数&＃xff0c;urllib会生成一个临时文件来保存数据&＃xff09;&＃xff1b;
 reporthook&＃xff1a;是一个回调函数&＃xff0c;当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
 data&＃xff1a;指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers)&＃xff0c;filename表示保存到本地的路径&＃xff0c;header表示服务器的响应头。
 

下面通过例子来演示一下这个方法的使用&＃xff0c;这个例子将新浪首页的html抓取到本地&＃xff0c;保存在D:/sina.html文件中&＃xff0c;同时显示下载的进度。

代码如下:

import urllib
def callbackfunc(blocknum, blocksize, totalsize):
    &＃39;&＃39;&＃39;回调函数
    &＃64;blocknum: 已经下载的数据块
    &＃64;blocksize: 数据块的大小
    &＃64;totalsize: 远程文件的大小
    &＃39;&＃39;&＃39;
    percent &＃61; 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent &＃61; 100
    print "%.2f%%"% percent

url &＃61; &＃39;http://www.sina.com.cn&＃39;
local &＃61; &＃39;d:\\sina.html&＃39;
urllib.urlretrieve(url, local, callbackfunc)

urlopen返回一个类文件对象&＃xff0c;他提供了如下方法&＃xff1a; read() , readline() , readlines() , fileno() , close() &＃xff1a;这些方法的使用方式与文件对象完全一样;
    info()&＃xff1a;返回一个httplib.HTTPMessage 对象&＃xff0c;表示远程服务器返回的头信息&＃xff1b;
    getcode()&＃xff1a;返回Http状态码。如果是http请求&＃xff0c;200表示请求成功完成;404表示网址未找到&＃xff1b;
    geturl()&＃xff1a;返回请求的url&＃xff1b;
下面来扩充一下上面的例子&＃xff0c;看官可以运行一下这个例子&＃xff0c;加深对urllib的印象&＃xff1a;

google &＃61; urllib.urlopen(&＃39;http://www.google.com&＃39;)

print &＃39;http header:/n&＃39;, google.info()

print &＃39;http status:&＃39;, google.getcode()

print &＃39;url:&＃39;, google.geturl()

for line in google: # 就像在操作本地文件

print line,

推荐阅读

io
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
list
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
client
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
callback
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
io
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
client
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
callback
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
io
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
io
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
callback
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
io
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
io
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
web
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
version
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
client
MQTT技术周报：硬件连接与协议解析

本周开发笔记重点介绍了在新项目中使用MQTT协议进行硬件连接的技术细节，涵盖其特性、原理及实现步骤。 ... [详细]

蜡笔小新 2024-12-27 11:30:44

郭亭婷892

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章