当前位置: 开发笔记 > 编程语言 > 正文

#Python学习笔记——爬虫的自我养成（一）

作者：夏晶阳--艺术 | 来源：互联网 | 2023-09-24 23:44

一、爬虫需要的包为urllib首先介绍urllib.request模块urllib.request.urlopen(网站的地址)-打开一个网站，将网站的响应返

一、

爬虫需要的包为urllib

首先介绍urllib.request模块

urllib.request.urlopen(&＃39;网站的地址&＃39;) -> 打开一个网站&＃xff0c;将网站的响应返回一个对象&＃xff08;可以类比打开一个文件返回一个文件对象&＃xff09;

urllib.request.read() -> 将网站对象转换成二进制数据&＃xff0c;如果想将其打印必须解码&＃xff1a;decode(&＃39;utf-8&＃39;)

例1&＃xff1a;

由以上两个方法我们可以爬去网上一个图片&＃xff0c;以http://placekitten.com/250/400为例&＃xff1a;

import urllib.request as ur

respon &＃61; ur.urlopen(&＃39;http://placekitten.com/250/400&＃39;)#返回一个网站对象
res &＃61; respon.read()#将网站对象转化成二进制数据

with open(&＃39;第一个爬虫.jpg&＃39;, &＃39;wb&＃39;) as f:#以二进制方式打开一张空白图片
f.write(res)#将网站对象的二进制数据写入图片&＃xff0c;写入的数据和文件的打开方式一定要对应

例2&＃xff1a;

from urllib import requestwith request.urlopen(&＃39;https://api.douban.com/v2/book/2129650&＃39;) as f:data &＃61; f.read()print(&＃39;Status:&＃39;, f.status, f.reason)for k, v in f.getheaders():print(&＃39;%s: %s&＃39; % (k, v))print(&＃39;Data:&＃39;, data.decode(&＃39;utf-8&＃39;))

getheaders方法应该是返回一个数组&＃xff0c;包含有服务器响应一个 HTTP 请求所发送的标头。

data的数据可以用“utf-8”解码

Status: 200 OK Server: nginx Date: Tue, 26 May 2015 10:02:27 GMT Content-Type: application/json; charset&＃61;utf-8 Content-Length: 2049 Connection: close Expires: Sun, 1 Jan 2006 01:00:00 GMT Pragma: no-cache Cache-Control: must-revalidate, no-cache, private X-DAE-Node: pidl1 Data: {"rating":{"max":10,"numRaters":16,"average":"7.4","min":0},"subtitle":"","author":["廖雪峰编著"],"pubdate":"2007-6",...}

二、

爬取有道词典进行翻译的流程。

1、查看网页源代码

2、在network中找到method&＃xff0c;寻找客户端提交的请求

3、在请求中找到地址url

4、在请求中找到接口from data&＃xff0c;其下内容便是客户端传给服务器的指定数据

5、data必须是指定要发送到服务器的其他数据的对象

6、data遵循一定的格式和编码传输协议&＃xff08;有待进一步考证utf-8的进一步含义&＃xff09;

7、利用字典封装需要传入的数据&＃xff0c;利用方法urllib.parse.urlencod().encode(&＃39;utf-8

)将其转化成能被传入服务器的格式和传输方式。utf-8将数据以bytes的形式传入

8、将指定数据传入服务器之后服务器会返回相应数据&＃xff0c;这些数据的返回形式是&＃39;utf-8&＃39;&＃xff0c;因而在读取的过程中需要解码。即用urllib.request.read().decode(&＃39;utf-8&＃39;)

推荐阅读

php
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
version
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
hash
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
go
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
config
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
config
HTML a 标签中 href 属性的多种用法

本文详细介绍了 HTML 中 a 标签的 href 属性的多种用法，包括实现超链接、锚点以及调用 JavaScript 方法。通过具体的示例和解释，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-14 09:07:08
config
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
config
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
php
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
string
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
list
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
list
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
version
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
php
如何通过登录PHP网站实现校园内外差异化访问：内部免费而外部需付费

该大学网站采用PHP和MySQL技术，在校内可免费访问某些外部收费资料数据库。为了方便学生校外访问，建议通过学校账号登录实现免费访问。具体方案可包括利用学校服务器作为代理，结合身份验证机制，确保合法用户在校外也能享受免费资源。 ... [详细]

蜡笔小新 2024-11-10 03:11:33
string
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22

夏晶阳--艺术

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章