当前位置: 开发笔记 > 编程语言 > 正文

python中xpath解析原理是什么

作者：祗想抱著伱 | 来源：互联网 | 2023-09-25 15:56

这篇文章给大家分享的是有关python中xpath解析原理是什么的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。XPath，全称XML

这篇文章给大家分享的是有关python中xpath解析原理是什么的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择

xpath解析原理:

实现标签的定位：实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。
调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

环境的安装

pip install lxml

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高

如何实例化一个etree对象

1.将本地的html文档中的源码数据加载到etree对象中:

etree. parse(filePath)#你的文件路径

2.可以将从互联网上获取的源码数据加载到该对象中

etree.HtML(&＃39;page_ text&＃39;)#page_ text互联网中响应的数据

xpath 表达式

表达式	描述
nodename	选取此节点的所有子节点
/	表示的是从根节点开始定位。表示的是一个层级。
//	表示的是多个层级。可以表示从任意位置开始定位。
.	选取当前节点
…	选取当前节点的父节点
@	选取属性
*	通配符，选择所有元素节点与元素名
@*	选取所有属性
[@attrib]	选取具有给定属性的所有元素
[@attrib=‘value’]	选取给定属性具有给定值的所有元素
[tag]	选取所有具有指定元素的直接子节点
[tag=‘text’]	选取所有具有指定元素并且文本内容是text节点

对上面表达式的实例详解

这是一个HTML的文档

百里守约

李清照

王安石

苏轼

柳宗元

this is span 宋朝是最强大的王朝，不是军队的强大，而是经济很强大，国民都很有钱总为浮云能蔽日,长安不见使人愁

清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村
秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山
岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君
杜甫
杜牧
杜小月
度蜜月
凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘

从浏览器中打开是这样的
python中xpath解析原理是什么
为了方便直观，我们对写个HTML文件进行本地读取进行测试

子节点和子孙节点的定位 / 和 //

先来看子节点和子孙节点，我们从上往下找p这个节点，可以看到p的父节点是body，body父节点是html
python中xpath解析原理是什么
定位到这个HTML的p对象中，看上面html源码，可以知道有三个p对象

我们通过三种不同的方法来输出这个节点的信息，可以看到输出的是三个一样的Element，也就是这三种方法实现的功能是一样的。

import requestsfrom lxml import etree
tree = etree.parse(&＃39;test.html&＃39;)r1=tree.xpath(&＃39;/html/body/p&＃39;)	#直接从上往下挨着找节点r2=tree.xpath(&＃39;/html//p&＃39;)#跳跃了一个节点来找到这个p节点的对象r3=tree.xpath(&＃39;//p&＃39;)##跳跃上面所有节点来寻找p节点的对象r1,r2,r3>>([,
  ,
  ],
  
 [,
  ,
  ],
  
 [,
  ,
  ])

属性定位

如果我只想要p里面song这一个标签，就可以对其属性定位
python中xpath解析原理是什么
当然返回的还是一个element

r4=tree.xpath(&＃39;//p[@class="song"]&＃39;)r4>>>[]

索引定位

如果我只想获得song里面的苏轼的这个标签
我们找到了song，/p可以返回里面的所有标签，

tree.xpath(&＃39;//p[@class="song"]/p&＃39;)>>[,
 ,
 ,
 ]

这个单独返回的苏轼的p标签，要注意的是这里的索引不是从0开始的，而是1

tree.xpath(&＃39;//p[@class="song"]/p[3]&＃39;)[]

取文本

比如我想取杜牧这个文本内容
python中xpath解析原理是什么
和上面一样，我们要定位到杜牧的这个a标签，首先要找到他的上一级 li ，这是第五个 li 里面的a所以就有了下面的写法，text()是把element转化为文本，当然上面的在后面加个text（）都可以展示文本内容。

tree.xpath(&＃39;//p[@class="tang"]//li[5]/a/text()&＃39;)>>[&＃39;杜牧&＃39;]

可以看到这个返回的是一个列表，如果我们想取里面的字符串，可以这样

tree.xpath(&＃39;//p[@class="tang"]//li[5]/a/text()&＃39;)[0]杜牧

看一个更直接的，//li 直接定位到 li这个标签，//text（）直接将这个标签下的文本提取出来。但要注意，这样会把所有的li标签下面的文本提取出来，有时候你并不想要的文本也会提取出来，所以最好还是写详细一点，如具体到哪个p里的li。

tree.xpath(&＃39;//li//text()&＃39;)[&＃39;清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村&＃39;,
 &＃39;秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山&＃39;,
 &＃39;岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君&＃39;,
 &＃39;杜甫&＃39;,
 &＃39;杜牧&＃39;,
 &＃39;杜小月&＃39;,
 &＃39;度蜜月&＃39;,
 &＃39;凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘&＃39;]

取属性

比如我想取下面这个属性
python中xpath解析原理是什么
可以直接用@取属性

tree.xpath(&＃39;//p[@class="song"]/img/@src&＃39;)[&＃39;http://www.baidu.com/meinv.jpg&＃39;]

或者如果我想取所有的href这个属性，可以看到tang和song的所有href属性

tree.xpath(&＃39;//@href&＃39;)[&＃39;http://www.song.com/&＃39;,
 &＃39;&＃39;,
 &＃39;http://www.baidu.com&＃39;,
 &＃39;http://www.163.com&＃39;,
 &＃39;http://www.126.com&＃39;,
 &＃39;http://www.sina.com&＃39;,
 &＃39;http://www.dudu.com&＃39;,
 &＃39;http://www.haha.com&＃39;]

爬虫实战之58同城房源信息

#导入必要的库import requestsfrom lxml import etree#URL就是网址，headers看图一url=&＃39;https://sh.58.com/ershoufang/&＃39;headers={&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.7 Safari/537.36&＃39;}#对网站发起请求page_test=requests.get(url=url,headers=headers).text# 这里是将从互联网上获取的源码数据加载到该对象中tree=etree.HTML(page_test)#先看图二的解释，这里li有多个，所里返回的li_list是一个列表li_list=tree.xpath(&＃39;//ul[@class="house-list-wrap"]/li&＃39;)#这里我们打开一个58.txt文件来保存我们的信息fp=open(&＃39;58.txt&＃39;,&＃39;w&＃39;,encoding=&＃39;utf-8&＃39;)#li遍历li_listfor li in li_list:
	#这里 ./是对前面li的继承，相当于li/p...
    title=li.xpath(&＃39;./p[2]/h3/a/text()&＃39;)[0]
    print(title+&＃39;\n&＃39;)
    #把文件写入文件
    fp.write(title+&＃39;\n&＃39;)fp.close()

图一：
python中xpath解析原理是什么
图二：.
这里我们要提取所有的房源信息，可以看到每个小节点的上一个节点都是一样的，我们要提取的是h3节点a里的房源信息，看图三

这里每个 /li 节点里面的子节点都是一样的，所以我们可以先找到所有的li节点，再往下找我们想要的信息

python中xpath解析原理是什么

感谢各位的阅读！关于“python中xpath解析原理是什么”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

推荐阅读

range
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
schema
Spring 高级教程（15）：Spring AOP（3）—— 使用注解配置切面（1）：方法执行前后的增强处理

本文介绍了如何在Spring框架中使用AspectJ实现AOP编程，重点讲解了通过注解配置切面的方法，包括方法执行前和方法执行后的增强处理。阅读本文前，请确保已安装并配置好AspectJ。 ... [详细]

蜡笔小新 2024-11-15 15:57:13
split
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
string
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
schema
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
go
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
dll
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
go
在CentOS系统中安装Scrapy时常见的问题及解决方法

在 CentOS 7 系统中安装 Scrapy 时遇到了一些挑战。尽管 Scrapy 在 Ubuntu 上安装简便，但在 CentOS 7 上需要额外的配置和步骤。本文总结了常见问题及其解决方案，帮助用户顺利安装并使用 Scrapy 进行网络爬虫开发。 ... [详细]

蜡笔小新 2024-11-09 15:28:11
uri
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
ip
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
int
第14周实践项目（4）-验证平衡二叉树

问题**Copyright(c)2015,烟台大学计算机学院*Allrightsreserved.*文件名称：test.cpp*作者：王敏*完成日 ... [详细]

蜡笔小新 2024-11-15 11:49:00
go
Google Colab 免费 GPU 使用指南（第一部分）

本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境，支持多种深度学习框架，并且提供免费的 GPU 计算资源。 ... [详细]

蜡笔小新 2024-11-14 13:42:03
ip
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
ip
如何在Webpack项目中集成ECharts

本文将详细介绍如何在Webpack项目中安装和使用ECharts，包括全量引入和按需引入的方法，并提供一个柱状图的示例。 ... [详细]

蜡笔小新 2024-11-12 09:49:07
int
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20

祗想抱著伱

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章