当前位置: 开发笔记 > 编程语言 > 正文

python数据解析之XPath

作者：推球了 | 来源：互联网 | 2023-08-19 20:42

原标题：python数据解析之XPath目录XPathXPath使用方法XPath使用小技巧

原标题：python数据解析之XPath

XPath

XPath使用方法

XPath使用小技巧

案例—58二手房

XPath

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

文章来源站点https://www.yii666.com/

xpath是最常用且最便捷高效的一种解析方式，通用型强，其不仅可以用于python语言中，还可以用于其他语言中，数据解析建议首先xpath。

XPath使用方法

xpath解析原理：

实例化一个etree的对象，且需要将被解析的页面源代码数据加载到该对象中

调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

安装lxml

pip install -i https://mirrors.aliyun.com/pypi/simple/ lxml

from lxml import etree tree = etree.parse('./tree.html') #从本地加载源码，实例化一个etree对象。必须是本地的文件，不能是字符串 tree = etree.HTML(源码) #从互联网加载源码，实例化etree对象 # / 表示从从根节点开始，一个 / 表示一个层级，//表示多个层级 r = tree.xpath('//div//a') #以列表的形式返回div下的所有的a标签对象的地址 r = tree.xpath('//div//a')[1] #返回div下的第二个a标签对象地址 r = tree.xpath('//div[@class="tang"]') #以列表的形式返回tang标签地址 r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang标签下所有的a标签地址 #获取标签中的文本内容 r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a标签中的文本 #获取标签中属性值 r = tree.xpath('//div//a/@href') ##以列表的形式返回所有a标签中href属性值

tree.html


        文章来源地址51769.html    百里守约

XPath使用小技巧

其实chrome浏览器早已经集成了一键复制xpath表达式的功能，我们不需要自己去构建，直接复制过来用就行。如在目标标签右键复制xpath表达式

案例—58二手房

将页面中的房源名称解析出来，即将title值解析出来就行

思路

获取房www.yii666.com源名称所在的url，并获取其响应数据

数据解析，构造xpath表达式。提取目标数据

import requests from lxml import etree url = "https://bj.58.com/ershoufang/p1/" headers={ 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36' } pag_respOnse= requests.get(url,headers=headers,timeout=3).text #实例化一个etree对象 tree = etree.HTML(pag_response) r = tree.xpath('//span[@class="content-title"]/text()') #获取所有//span标签为"content-title"的文本内容 print(r)

Tips：我们使用xpath进行数据解析时，不能直接看元素就进行构造xpath表达式，以为很多情况下从浏览中看的元素结构和爬取下来的源码结构不一样。所以正确方法是先将源码爬下来再观察进行构造xpath。

如下浏览器中的元素结构和爬取的元素结构就不一样。如果按照浏览器汇总的元素来构造xpath表达式，则不会解析成功！

来源于：python数据解析之XPath

推荐阅读

java
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
cookie
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
java
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
int
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
java
《程序员的数学》：一本适合初学者的数学指南

结城浩（1963年7月出生），日本资深程序员和技术作家，居住在东京武藏野市。他开发了著名的YukiWiki软件，并在杂志上发表了大量程序入门文章和技术翻译作品。结城浩著有30多本关于编程和数学的书籍，其中许多被翻译成英文和韩文。 ... [详细]

蜡笔小新 2024-11-12 21:47:50
int
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
java
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
java
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
java
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
io
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
java
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
int
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
int
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24

推球了

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章