当前位置: 开发笔记 > 编程语言 > 正文

实战讲解四种不同爬虫解析数据方法，必须掌握！

作者：宅_OTKAU_370 | 来源：互联网 | 2023-09-25 11:57

1前言爬虫解析数据有很多种，爬取不同的数据，返回的数据类型不一样，有html、json、xml、文本（字符串）等多种格式！掌握这四种解析数据的方式，无论什么样的数据格式都可以轻松应

前言

爬虫解析数据有很多种，爬取不同的数据，返回的数据类型不一样，有html、json、xml、文本（字符串）等多种格式！

掌握这四种解析数据的方式，无论什么样的数据格式都可以轻松应对处理。

这四种方式分别是：1.xpath、2.bs4、3.json、4.正则。

下面以实战方式讲解这四种技术如何使用！！！

Xpath

1.请求数据

请求链接如下，以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests from lxml import etree

开始请求数据

headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36', } url="http://www.xbiquge.la/xuanhuanxiaoshuo/" res = requests.get(url,headers=headers) res.encoding = 'utf-8' text = res.text

2.解析数据

比如我们要获取下面这些数据（小说名称）

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

分析网页标签

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

数据在class="l"-> ul ->li标签中

selector = etree.HTML(text) list = selector.xpath('//*[@class="l"]/ul/li')

解析li中数据

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

可以看到，数据在li->span->a 标签中

for i in list: title = i.xpath('.//span/a/text()') href = i.xpath('.//span/a/@href') print(title) print(href) print("--------")

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

Bs4

1.请求数据

请求链接如下，同样以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests from bs4 import BeautifulSoup

开始请求数据

2.解析数据

比如我们要获取下面这些数据（小说名称）

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

分析网页标签

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

可以看到，数据在span中（class="s2") 标签中

法一

###法一 list = soup.find_all(attrs={'class':'s2'}) for i in list: print(i.a.get_text()) print(i.a.get("href")) print("--------") print(len(list))

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

法二

####法二 # 获取所有的链接 all_link = [(link.a['href'], link.a.get_text()) for link in soup.find_all('li')] for i in all_link: print(i)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

json

1.请求数据

请求链接如下，获取ip定位，为案例进行讲解

https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip=123.123.123.123

导入相应的库

import requests import json

开始请求数据

ip = "123.123.123.123" url="https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip="+str(ip) res = requests.get(url,headers=headers) res.encoding = 'utf-8' text = res.text

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

2.解析数据

比如我们要获取下面这些数据（省份和城市）

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

text = res.text print(text) ##text不是json类型的话，则转为json类型 text = json.loads(text) print("省份="+text['province']+",城市="+text['city'])

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

正则表达式

1.请求数据

请求链接如下，以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests import re

开始请求数据

2.解析数据

比如我们要获取下面这些数据（小说名称）

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

分析网页html

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

可以看到，数据在li->span->a 标签中，a标签前有“《”，后有“》”

pattern = re.compile('《.*?》') items = re.findall(pattern, text) for i in items: print(i)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

总结

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

1.以实战方式讲解了四种不同解析数据的方式

2.讲解过程一步一步截图说明，方便小白入门学习！

3.本文干货满满，推荐收藏！收藏！收藏！

如果大家对本文代码源码感兴趣，扫码关注『Python爬虫数据分析挖掘』后台回复：四种解析 ，获取完整代码！

最后说一声：原创不易，求给个赞 watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk= 、在看、评论

------------- 推荐阅读 -------------

爬虫入门篇

1.今天只分享python、爬虫入门级学习资料
2.以某乎为实战案例，教你用Python爬取手机App数据

3.教你用python爬取『京东』商品数据，原来这么简单！
4.以『赘婿』为实战案例，手把手教会你用python爬取『爱奇艺』视频弹幕

5.python爬取44130条用户观影数据，分析挖掘用户与电影之间的隐藏信息！

6.基金这么赚钱！！编程实现基金从采集到分析通用模板！（白酒为例）

7.我爬取了爬虫岗位薪资，分析后发现爬虫真香

8.竟然如此简单！输入明星名字就可以直接爬取高清图片

9.pyhton爬取爱豆（李易峰）微博评论（附源码）

10.快手解析视频真实链接（爬取快手视频）

爬虫框架篇

1.以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』
2.爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

爬虫反爬篇

1.爬虫遇到反爬机制怎么办? 看看我是如何解决的！

2.python实战破解『梨视频』反爬机制，轻松实现批量视频下载！

3.『异步反爬』别再说自己不会爬取『抖音』视频了！

可视化篇

1.爬取3w条『各种品牌』笔记本电脑数据，统计分析并进行可视化展示！真好看~

2.python爬取7w+『赘婿』弹幕，发现弹幕比剧还精彩！

3.爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

4.python爬取各类基金数据，以『动图可视化』方式展示基金的涨跌情况

5.python爬取『大年初一』热映电影，以『可视化及词云秀』方式带你了解热映电影

6.python爬取淘宝全部『螺蛳粉』数据，看看你真的了解螺蛳粉吗？

7.爬取淘宝热卖商品并可视化分析，看看大家都喜欢买什么！

8.王者荣耀白晶晶皮肤1小时销量突破千万！分析网友评论我发现了原因

9.分析各类基金近一年『日涨幅』流水线动态图！哭了，真是跌妈不认！

10.分析B站《送你一朵小红花》弹幕评论

11.我爬取了爬虫岗位薪资，分析后发现爬虫真香

12.python实现在线微博数据可视化

python工具篇

1.教你用python爬虫下载1w+『ppt模板』,再也不用付费去购买啦！

2.python爬取下载m3u8加密视频，原来这么简单！

3.详细实战教程！部署Flask网站+域名访问+免费https证书
4.花一天时间做了一个福利资源网站！免费分享给大家
5.python实现四种出行路线规划（公交、步行、驾车、骑行）

6.35行代码下载任意网页的图片

7.python窃取摄像头照片（摄像头拍照+邮箱发送+打包exe）

8.30行爬虫代码实现中英互译

9.教你搭建一个花卉识别系统(超级简单)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

推荐阅读

buffer
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
go
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
go
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
go
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
utf-8
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
utf-8
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
buffer
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
go
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
utf-8
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
buffer
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
ip
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
client
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
client
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
go
解析猫鼬 findOne 方法返回 null 的原因

本文探讨了在通过 API 端点调用时，使用猫鼬（Mongoose）的 findOne 方法总是返回 null 的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-12-25 17:40:33
go
深入了解 Windows 窗体中的 SplitContainer 控件

SplitContainer 控件是 Windows 窗体中的一种复合控件，由两个可调整大小的面板和一个可移动的拆分条组成。本文将详细介绍其功能、属性以及如何通过编程方式创建复杂的用户界面。 ... [详细]

蜡笔小新 2024-12-25 17:20:08

宅_OTKAU_370

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章