玩Python爬虫的必备知识清单

作者：烟熏装-_265 | 来源：互联网 | 2024-10-10 17:54

玩Python爬虫的必备知识清单于2020-4-26重构可以指明学习路线与方向文章目录玩Python爬虫的必备知识清单你需要知道的基本概念你需要掌握的库你需要掌握的数据解析你需要掌

玩Python爬虫的必备知识清单

于2020-4-26重构

可以指明学习路线与方向

文章目录

玩Python爬虫的必备知识清单
- 你需要知道的基本概念
- 你需要掌握的库
- 你需要掌握的数据解析
- 你需要掌握的数据存储

你需要知道的基本概念

通用爬虫&＃xff1a;百度、谷歌搜索引擎

聚焦爬虫&＃xff1a;根据特定需求&＃xff0c;从特定网站爬取特定数据

爬虫工具:pycharm&＃43;anaconda&＃43;google chrome(其他浏览器也行)

http协议&＃xff1a; 超文本传输协议, 是一种发布和接收HTML页面的方法

https协议&＃xff1a;是http协议的加密版本&＃xff0c;在http下加入了SSL层。服务器端口号是443端口

与浏览器交互过程&＃xff1a;浏览器—>输入url-----get/post请求----->http服务器---->网站服务器----返回html---->http服务器---->用户浏览器【浏览器追加请求html引用的css、js、等动态文件】—…--->显示给用户

url&＃xff1a;在浏览器中请求一个url&＃xff0c;浏览器会对这个url进行一个编码。除英文字母&＃xff0c;数字和部分符号外&＃xff0c;其他的全部使用百分号&＃43;十六进制码值进行编码

get请求&＃xff1a; 只从服务器获取数据

post&＃xff1a; 向服务器发送数据&＃xff08;登录&＃xff09;、上传文件等&＃xff0c;会对服务器资源产生影响

爬虫时有反爬机制即强制要求用某种请求&＃xff0c;具体爬虫时用哪种请求根据情况而定

谷歌抓包&＃xff1a;

你需要掌握的库

urllib

基本介绍

最基本的网络请求库。可以模拟浏览器的行为&＃xff0c;向指定的服务器发送一个请求&＃xff0c;并可以保存服务器返回的数据&＃xff0c;在Python3的urllib库中&＃xff0c;所有和网络请求相关的方法&＃xff0c;都被集到urllib.request库上

urlopen函数

resp &＃61; request.urlopen(&＃39;http://www.baidu.com&＃39;) print&＃xff08;resp.read&＃xff08;&＃xff09;&＃xff09;
返回值

http.client.HTTPResponse 对象&＃xff0c;故此用response做接收

urlretrieve函数

from urllib import request request.urlretrieve(&＃39;http://www.baidu.com/&＃39;,&＃39;baidu1.html&＃39;)#将目标网页保存到本地
urlencode函数

from urllib import parse data &＃61; {&＃39;name&＃39;:&＃39;爬虫基础&＃39;,&＃39;greet&＃39;:&＃39;hello world&＃39;,&＃39;age&＃39;:100} qs &＃61; parse.urlencode(data) print(qs) #编码为Unicode格式发送
parse_qs函数

from urllib import parse qs &＃61; "name&＃61;%E7%88%AC%E8%99%AB%E5%9F%BA%E7%A1%80&greet&＃61;hello&＃43;world&age&＃61;100" #print(resp.read().decode("utf-8"))如果抓取时以utf-8进行编码传输&＃xff0c;用utf-8解码没问题&＃xff0c;否之不然&＃xff0c;应先了解网页的编码方式&＃xff0c;一般通过抓包查取 print(parse.parse_qs(qs))//解码经过编码的url

{‘name’: [‘爬虫基础’], ‘greet’: [‘hello world’], ‘age’: [‘100’]}

request.Request类

反反爬必备伪装技术

#模拟请求头User-Agent&＃xff0c;爬虫程序更像个浏览器 headers &＃61; { &＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36&＃39; } req &＃61; request.Request("http://www.baidu.com/",headers&＃61;headers) resp &＃61; request.urlopen(req) print(resp.read())

ProxyHandler处理器&＃xff08;代理设置&＃xff09;

为何使用&＃xff1a;
固定某IP在某段时间内对网站服务器访问过多会被判定为非法访问&＃xff0c;从而被限制或直接封掉

opener与handler

如需使用代理ip&＃xff0c;则替代urlopen方法&＃xff0c;使用如下系列操作方法

handler &＃61; request.ProxyHandler({"http":"218.66.161.88:31769"})opener &＃61; request.build_opener(handler) req &＃61; request.Request("http://httpbin.org/ip") resp &＃61; opener.open(req) print(resp.read())
寻找可用的ip:西刺代理&＃xff0c;快代理&＃xff0c;或代理云 &＃43; ip检测工具&＃xff08;匹配可用id&＃xff09;

request
此库重写urllib的大多方法&＃xff0c;比之前的常规方法做了更进一步封装&＃xff0c;并且做了拓展

发送Get请求&＃43;

import requests response &＃61; requests.get("http://www.baidu.com/")
import requestskw &＃61; {&＃39;wd&＃39;:&＃39;中国&＃39;}headers &＃61; {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}# params 接收一个字典或者字符串的查询参数&＃xff0c;字典类型自动转换为url编码&＃xff0c;不需要urlencode() response &＃61; requests.get("http://www.baidu.com/s", params &＃61; kw, headers &＃61; headers)# 查看响应内容&＃xff0c;response.text 返回的是Unicode格式的数据&＃xff0c;如果传过来的数据是经过gbk编码的话&＃xff0c;对能获得我们要的文本 print(response.text)# 查看响应头部字符编码&＃xff0c;可以方便我们利用decode针对解码 print(response.encoding)
发送POST请求

response &＃61; requests.post("http://www.baidu.com/",data&＃61;data)
import requestsdata &＃61; {&＃39;first&＃39;: &＃39;true&＃39;,&＃39;pn&＃39;: 1,&＃39;kd&＃39;: &＃39;python&＃39; }resp &＃61; requests.post(url,headers&＃61;headers,data&＃61;data) # 如果是json数据&＃xff0c;直接可以调用json方法 print(resp.json())
代理设置

在请求的方法中&＃xff08;例如get或者post&＃xff09;传递proxies参数就可以了

import requestsurl &＃61; "http://httpbin.org/get"headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36&＃39;, }proxy &＃61; {&＃39;http&＃39;: &＃39;171.14.209.180:27829&＃39; }resp &＃61; requests.get(url,headers&＃61;headers,proxies&＃61;proxy) #保存为本地文件 with open(&＃39;xx.html&＃39;,&＃39;w&＃39;,encoding&＃61;&＃39;utf-8&＃39;) as fp:fp.write(resp.text)

共享曲奇饼&＃xff08;COOKIE&＃xff09;

如果使用requests&＃xff0c;要达到共享COOKIE的目的&＃xff0c;那么可以使用requests库给我们提供的session对象。以登录人人网为例&＃xff0c;使用requests来实现。示例代码如下&＃xff1a;

import requestsurl &＃61; "http://www.renren.com/PLogin.do" data &＃61; {"email":"email&＃64;qq.com",&＃39;password&＃39;:"pythonspider"} headers &＃61; {&＃39;User-Agent&＃39;: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36" }# 登录 session &＃61; requests.session() session.post(url,data&＃61;data,headers&＃61;headers)# 访问大鹏个人中心 resp &＃61; session.get(&＃39;http://www.renren.com/880151247/profile&＃39;)print(resp.text) #打印返回的Unicode文本

你需要掌握的数据解析

在从目标网站获得我们像要的数据后&＃xff0c;我们需要从全站html中提取我们像要的数据&＃xff0c;提取工具有&＃xff08;任选一种&＃xff09;

XPath&＃43;lxml库&＃xff08;√&＃xff09;
美丽汤4&＃xff08;beautifulsoup4&＃xff09;
正则表达式&＃xff08;√&＃xff09;

xpath

xpath&＃xff08;XML路径语言&＃xff09;是一门在XML和HTML文档中查找信息的语言&＃xff0c;可用于XML和HTML文档中对元素和属性进行遍历。

你应该知道的节点关系

<bookstore><book><title>Harry Pottertitle><author>J K. Rowlingauthor><year>2005year><price>29.99price> book>bookstore>
以上&＃xff0c;book为父&＃xff0c;其中4个为子&＃xff0c;4个互为同胞&＃xff0c;bookstore为其中所有元素的先辈

同理bookstore其中所有元素又为其后代元素

例子

<bookstore><book><title lang&＃61;"eng">Harry Pottertitle> <price>29.99price>book><book> <title lang&＃61;"eng">Learning XMLtitle> <price>39.95price>book>bookstore> bookstore>
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式&＃xff1a;

表达式描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点&＃xff0c;而不考虑它们的位置。
. 选取当前节点。
… 选取当前节点的父节点。
&＃64; 选取属性。
在下面的表格中&＃xff0c;列出了一些路径表达式以及表达式的结果&＃xff1a;

bookstore 选取 bookstore 元素的所有子节点。
/bookstore 选取根元素 bookstore。注释&＃xff1a;假如路径起始于正斜杠( / )&＃xff0c;则此路径始终代表到某元素的绝对路径&＃xff01;
bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
//book 选取所有 book 子元素&＃xff0c;而不管它们在文档中的位置。
bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素&＃xff0c;而不管它们位于 bookstore 之下的什么位置。
//&＃64;lang 选取名为 lang 的所有属性。
谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中&＃xff0c;我们列出了带有谓语的一些路径表达式&＃xff0c;以及表达式的结果&＃xff1a;

路径表达式结果
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<‘&＃39;3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[&＃64;lang] 选取所有拥有名为 lang 的属性的 title 元素。
//title[&＃64;lang&＃61;‘eng’] 选取所有 title 元素&＃xff0c;且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素&＃xff0c;且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素&＃xff0c;且其中的 price 元素的值须大于 35.00。

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点&＃xff0c;而不考虑它们的位置。
.	选取当前节点。
…	选取当前节点的父节点。
&＃64;	选取属性。

bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释&＃xff1a;假如路径起始于正斜杠( / )&＃xff0c;则此路径始终代表到某元素的绝对路径&＃xff01;
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素&＃xff0c;而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素&＃xff0c;而不管它们位于 bookstore 之下的什么位置。
//&＃64;lang	选取名为 lang 的所有属性。

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<‘&＃39;3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[&＃64;lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[&＃64;lang&＃61;‘eng’]	选取所有 title 元素&＃xff0c;且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素&＃xff0c;且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素&＃xff0c;且其中的 price 元素的值须大于 35.00。

正则表达式

Python3爬虫之正则表达式与re库主要函数

你需要掌握的数据存储

经过爬取&＃xff0c;解析&＃xff0c;接下来我们要将我们想要的数据存储下来&＃xff0c;我们有以下几种选择方案

json&＃xff08;简单好用&＃xff0c;强烈推荐&＃xff09;
csv
excel
mysql(需要数据库基础)
mongoDB&＃xff08;需要数据库基础&＃xff09;

JSON

理想的数据交换语言&＃xff0c;易于人阅读和编写&＃xff0c;同时也易于机器解析和生成 &＃xff0c; 并有效地提升网络传输效率 ,本质就是字符串

JSON在python中支持的数据类型

对象&＃xff08;字典&＃xff09;。使用{}。
数组&＃xff08;列表&＃xff09;。使用[]。
整形、浮点型、布尔类型还有null类型。
字符串类型&＃xff08;字符串必须要用双引号&＃xff0c;不能用单引号&＃xff09;。

字典&＃xff08;对象&＃xff09;和列表&＃xff08;数组&＃xff09;转为JSON格式

使用json.dumps方法
import jsonbooks &＃61; [{&＃39;title&＃39;: &＃39;钢铁是怎样练成的&＃39;,&＃39;price&＃39;: 9.8},{&＃39;title&＃39;: &＃39;红楼梦&＃39;,&＃39;price&＃39;: 9.9} ]json_str &＃61; json.dumps(books,ensure_ascii&＃61;False) print(json_str)
因为json在dump的时候&＃xff0c;只能存放ascii的字符&＃xff0c;因此会将中文进行转义&＃xff0c;这时候我们可以使用ensure_ascii&＃61;False关闭这个特性。
在Python中。只有基本数据类型才能转换成JSON格式的字符串。也即&＃xff1a;int、float、str、list、dict、tuple。

将JSON字符串dump到文件中

json模块中除了dumps函数&＃xff0c;还有一个dump函数&＃xff0c;这个函数可以传入一个文件指针&＃xff0c;直接将字符串dump到文件中。示例代码如下&＃xff1a;

import json books &＃61; [{&＃39;title&＃39;: &＃39;钢铁是怎样练成的&＃39;,&＃39;price&＃39;: 9.8},{&＃39;title&＃39;: &＃39;红楼梦&＃39;,&＃39;price&＃39;: 9.9} ] with open(&＃39;a.json&＃39;,&＃39;w&＃39;) as fp:json.dump(books,fp) # a.json代表文件名 w代表以写的方式打开
json字符串转化成Python对象

使用json.load方法

import json json_str &＃61; &＃39;[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦", "price": 9.9}]&＃39; books &＃61; json.loads(json_str,encoding&＃61;&＃39;utf-8&＃39;) print(type(books)) print(books)
第一个打印输出结果为list列表类型

直接从文件中读取json并转化为python对象&＃xff1a;

import json with open(&＃39;a.json&＃39;,&＃39;r&＃39;,encoding&＃61;&＃39;utf-8&＃39;) as fp:json_str &＃61; json.load(fp)print(json_str)

推荐阅读

text
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
string
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
stream
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
python
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
string
PHP Eloquent ORM 中的关联查询扩展

本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询，并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率，还简化了代码逻辑。 ... [详细]

蜡笔小新 2024-12-25 18:14:14
string
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
require
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
require
解决VS2015类向导中'异常来自HRESULT:0x8CE0000B'错误的详细方法

本文介绍了在使用Visual Studio 2015进行项目开发时，遇到类向导弹出“异常来自 HRESULT:0x8CE0000B”错误的解决方案。通过具体步骤和实践经验，帮助开发者快速排查并解决问题。 ... [详细]

蜡笔小新 2024-12-27 19:01:41
text
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
数组
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
数组
深入理解Java中的volatile、内存屏障与CPU指令

本文详细探讨了Java中volatile关键字的作用机制，以及其与内存屏障和CPU指令之间的关系。通过具体示例和专业解析，帮助读者更好地理解多线程编程中的同步问题。 ... [详细]

蜡笔小新 2024-12-27 17:26:33
python
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
python
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
config
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
string
深入理解Android中的ADB Shell Input命令：模拟滑动、按键和点击事件

在维护公司项目时，发现按下手机的某个物理按键后会激活相应的服务，并在屏幕上模拟点击特定坐标点。本文详细介绍了如何使用ADB Shell Input命令来模拟各种输入事件，包括滑动、按键和点击等。 ... [详细]

蜡笔小新 2024-12-26 13:43:24

烟熏装-_265

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章