网页数据抓取与解析入门指南

作者：mobiledu2502902777 | 来源：互联网 | 2024-11-08 17:56

本指南介绍了`requests`库的基本使用方法，详细解释了其七个主要函数。其中，`requests.request()`是构建请求的基础方法，支持其他高级功能的实现。此外，我们还重点介绍了如何使用`requests.get()`方法来获取HTML网页内容，这是进行网页数据抓取和解析的重要步骤。通过这些基础方法，读者可以轻松上手并掌握网页数据抓取的核心技巧。

requests库的基本用法

request库的7个主要方法
requests.request() 构造一个请求，支撑以下各方法的基础方法 #获取HTML网页的主要方法，对应于HTTP的GET requests.get(url,params,data,headers,proxies,COOKIEs,auth,verify) # params,data,headers,proxies,COOKIEs为字典类型，auth为元祖类型，verify为布尔类型参数 requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE 几种属性 .states_code 返回状态码 .text 返回 html 属性 .headers 返回头部信息 .url 返回请求的链接

beautifulsoup库的基本用法

支持的解析器

支持python标准库、lxml HTML、lxml XML、html5lib四种解析器

用法：BeautifulSoup（markup，"解析器"）#注意markup代表源代码，如果自己写的文本的话，注意价格str

比如：BeautifulSoup（markup，"lxml"）

提取的方法

节点选择器

格式：解析后文本.节点

例如：

from bs4 import BeautifulSoup soup=BeautifulSoup(html,'lxml') print(soup.title) #输出的是 bs4.element.Tag >>>>输出html文本中的title节点及其标签里的内容，

获取节点属性、提取信息：

例如：

soup.title.name #获得title节点的名字，即输出的为title，一般这么用 soup.title.parent.name soup.title.['name'] #获取title节点name属性的值 soup.title.string #获得title节点的内容 soup.title.contents #获取title节点的直接子节点列表（既有子节点，又有子节点包含的文本）（列表类型） soup.title.children #获取直接子节点（返回的是生成器类型） soup.title.descendants #获取所有子孙节点 soup.title.parent /parents #获取父节点/祖先节点 soup.title.next_sibling/previous_sibling #获取下一个/前一个兄弟节点（同级节点）

方法选择器

find_all(name, attrs, recursive, text, ** kwargs) ，name表示节点名称、attrs为节点属性、text为节点内的文本 #匹配所有符合条件的节点 find() #匹配第一个符合条件的节点例如：soup.find_all('div',id='content',class_='showtxt') #查找所有的属性id为content，class为showtxt的div节点

CSS选择器

select('节点')方法选择节点例如： title=soup.select('title ')#选择title节点 point_attrs=title['id'] #获得title节点的id属性的值 point_text=title.get_text() #获得title节点的文本

基本的爬取过程
先使用浏览器的检查功能，分析一下网页源代码，然后就是获取网页源代码，解析HTML信息。一般使用的请求库哟有urlib、requests。解析库有：beaytifulsoup、xpath、pyquery。存储：redies、mongodb、mysql。

文本保存
`save_path = 'D://storyspider' #定义保存路径 if not os.path.exists(save_path):#如果没有这个路径就创建 os.mkdir(save_path) with open(save_path + '/' + each_name + '.txt', 'a', encoding='utf-8')as f: #以追加的方式写入 f.write('本文网址:' + each_url)`

推荐阅读

web
深入探讨PHP中的输出缓冲技术（Output Buffering）

本文深入解析了PHP中输出缓冲（Output Buffering）的原理及其在Web开发中的应用，特别是如何通过输出缓冲技术有效管理HTTP头部信息，提高代码的灵活性与健壮性。 ... [详细]

蜡笔小新 2024-12-12 10:37:27
js
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
web
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
grid
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
string
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
python
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
web
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
format
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
js
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
go
探究同一请求在不同机器上返回不同HTTP状态码200和429的原因

本文探讨了为何相同的HTTP请求在两台不同操作系统（Windows与Ubuntu）的机器上会分别返回200 OK和429 Too Many Requests的状态码。我们将分析代码、环境差异及可能的影响因素。 ... [详细]

蜡笔小新 2024-12-21 19:35:11
header
微信小程序：授权登录与手机号绑定

本文详细介绍了微信小程序中用户授权登录及绑定手机号的流程，结合官方指引和实际开发经验，提供了一套完整的实现方案，帮助开发者更好地理解和应用。 ... [详细]

蜡笔小新 2024-12-21 14:20:40
string
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
string
Feign远程调用请求头丢失问题分析与解决方案

本文详细探讨了在微服务架构中，使用Feign进行远程调用时出现的请求头丢失问题，并提供了具体的解决方案。重点讨论了单线程和异步调用两种场景下的处理方法。 ... [详细]

蜡笔小新 2024-12-19 10:17:16
go
使用预处理器开关确定类的版本

本文探讨了如何通过预处理器开关选择不同的类实现，并解决在特定情况下遇到的链接器错误。 ... [详细]

蜡笔小新 2024-12-22 12:03:31
web
探索Squid反向代理中的远程代码执行漏洞

本文深入探讨了在网站渗透测试过程中发现的Squid反向代理系统中存在的远程代码执行漏洞，旨在帮助网站管理者和开发者了解此类漏洞的危害及防范措施。 ... [详细]

蜡笔小新 2024-12-16 19:01:38