热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

实战讲解四种不同爬虫解析数据方法,必须掌握!

1前言爬虫解析数据有很多种,爬取不同的数据,返回的数据类型不一样,有html、json、xml、文本(字符串)等多种格式!掌握这四种解析数据的方式,无论什么样的数据格式都可以轻松应

1

前言

爬虫解析数据有很多种,爬取不同的数据,返回的数据类型不一样,有htmljsonxml文本字符串)等多种格式!

掌握这四种解析数据的方式,无论什么样的数据格式都可以轻松应对处理。

这四种方式分别是:1.xpath2.bs43.json4.正则。

下面以实战方式讲解这四种技术如何使用!!!

2

Xpath


1.请求数据

请求链接如下,以小说网站:新笔趣阁,为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests
from lxml import etree

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据(小说名称)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

分析网页标签

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

数据在class="l"-> ul ->li标签中

selector = etree.HTML(text)
list = selector.xpath('//*[@class="l"]/ul/li')

解析li中数据

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

可以看到,数据在li->span->a 标签中

for i in list:
    title = i.xpath('.//span/a/text()')
    href = i.xpath('.//span/a/@href')
    print(title)
    print(href)
    print("--------")

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

3

Bs4


1.请求数据

请求链接如下,同样以小说网站:新笔趣阁,为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests
from bs4 import BeautifulSoup

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据(小说名称)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

分析网页标签

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

可以看到,数据在span中(class="s2") 标签中


法一

###法一
list = soup.find_all(attrs={'class':'s2'})
for i in list:
    print(i.a.get_text())
    print(i.a.get("href"))
    print("--------")
print(len(list))

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=


法二

####法二
# 获取所有的链接
all_link = [(link.a['href'], link.a.get_text()) for link in soup.find_all('li')]
for i in all_link:
   print(i)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

4

json


1.请求数据

请求链接如下,获取ip定位,为案例进行讲解

https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip=123.123.123.123

导入相应的库

import requests
import json

开始请求数据

ip = "123.123.123.123"
url="https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip="+str(ip)
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=


2.解析数据

比如我们要获取下面这些数据(省份和城市

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

text = res.text
print(text)
##text不是json类型的话,则转为json类型
text = json.loads(text)
print("省份="+text['province']+",城市="+text['city'])

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

5

正则表达式


1.请求数据

请求链接如下,以小说网站:新笔趣阁,为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests
import re

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据(小说名称)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

分析网页html

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

可以看到,数据在li->span->a 标签中,a标签前有“《”,后有“》”

pattern = re.compile('《.*?》')
items = re.findall(pattern, text)
for i in items:
    print(i)

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

6

总结

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

1.以实战方式讲解了四种不同解析数据的方式

2.讲解过程一步一步截图说明,方便小白入门学习!

3.本文干货满满,推荐收藏!收藏!收藏!

如果大家对本文代码源码感兴趣,扫码关注『Python爬虫数据分析挖掘』后台回复:四种解析 ,获取完整代码!

最后说一声:原创不易,求给个赞watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=、在看watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=、评论watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

------------- 推荐阅读 -------------

爬虫入门篇


1.今天只分享python、爬虫入门级学习资料

2.以某乎为实战案例,教你用Python爬取手机App数据



3.教你用python爬取『京东』商品数据,原来这么简单!

4.以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕



5.python爬取44130条用户观影数据,分析挖掘用户与电影之间的隐藏信息!



6.基金这么赚钱!!编程实现基金从采集到分析通用模板!(白酒为例)



7.我爬取了爬虫岗位薪资,分析后发现爬虫真香



8.竟然如此简单!输入明星名字就可以直接爬取高清图片



9.pyhton爬取爱豆(李易峰)微博评论(附源码)



10.快手解析视频真实链接(爬取快手视频)


爬虫框架篇


1.以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』

2.爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐


爬虫反爬篇


1.爬虫遇到反爬机制怎么办? 看看我是如何解决的!



2.python实战破解『梨视频』反爬机制,轻松实现批量视频下载!



3.『异步反爬』别再说自己不会爬取『抖音』视频了!


可视化篇


1.爬取3w条『各种品牌』笔记本电脑数据,统计分析并进行可视化展示!真好看~



2.python爬取7w+『赘婿』弹幕,发现弹幕比剧还精彩!



3.爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐



4.python爬取各类基金数据,以『动图可视化』方式展示基金的涨跌情况



5.python爬取『大年初一』热映电影,以『可视化及词云秀』方式带你了解热映电影



6.python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?



7.爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!



8.王者荣耀白晶晶皮肤1小时销量突破千万!分析网友评论我发现了原因



9.分析各类基金近一年『日涨幅』流水线动态图!哭了,真是跌妈不认!



10.分析B站《送你一朵小红花》弹幕评论



11.我爬取了爬虫岗位薪资,分析后发现爬虫真香



12.python实现在线微博数据可视化


python工具篇


1.教你用python爬虫下载1w+『ppt模板』,再也不用付费去购买啦!



2.python爬取下载m3u8加密视频,原来这么简单!



3.详细实战教程!部署Flask网站+域名访问+免费https证书

4.花一天时间做了一个福利资源网站!免费分享给大家

5.python实现四种出行路线规划(公交、步行、驾车、骑行)



6.35行代码下载任意网页的图片



7.python窃取摄像头照片(摄像头拍照+邮箱发送+打包exe)



8.30行爬虫代码实现中英互译



9.教你搭建一个花卉识别系统(超级简单)


watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=



推荐阅读
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • web.py开发web 第八章 Formalchemy 服务端验证方法
    本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例,详细说明了对各字段的验证要求,包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • 欢乐的票圈重构之旅——RecyclerView的头尾布局增加
    项目重构的Git地址:https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集:http:www.jianshu.comno ... [详细]
  • 本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式,然后详细介绍了相关API,包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List,以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较,指出了JSON的优势和缺点。 ... [详细]
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • python3 nmap函数简介及使用方法
    本文介绍了python3 nmap函数的简介及使用方法,python-nmap是一个使用nmap进行端口扫描的python库,它可以生成nmap扫描报告,并帮助系统管理员进行自动化扫描任务和生成报告。同时,它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途,包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息,nmap.py用于调用nmap的功能进行扫描,test.py用于测试是否可以利用nmap的扫描功能。 ... [详细]
  • 如何使用Python从工程图图像中提取底部的方法?
    本文介绍了使用Python从工程图图像中提取底部的方法。首先将输入图片转换为灰度图像,并进行高斯模糊和阈值处理。然后通过填充潜在的轮廓以及使用轮廓逼近和矩形核进行过滤,去除非矩形轮廓。最后通过查找轮廓并使用轮廓近似、宽高比和轮廓区域进行过滤,隔离所需的底部轮廓,并使用Numpy切片提取底部模板部分。 ... [详细]
author-avatar
宅_OTKAU_370
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有