当前位置: 开发笔记 > 编程语言 > 正文

pythonxpath定位嵌套标签_python获取具有嵌套嵌套度的html元素的内容(以及内容的xpath)...

作者：Aqingking_577 | 来源：互联网 | 2023-10-15 03:49

我编写了一个递归函数,它将以以下格式返回字典中标签中所有文本的XPATH：{xpath1:{text:text1},xpath2:{text:text2},}码

我编写了一个递归函数,它将以以下格式返回字典中标签中所有文本的XPATH&＃xff1a;

{&＃39;xpath1&＃39;: {&＃39;text&＃39;: &＃39;text1&＃39;}, &＃39;xpath2&＃39;: {&＃39;text&＃39;: &＃39;text2&＃39;}, ...}

码&＃xff1a;

from bs4 import BeautifulSoup, NavigableString

def get_xpaths_dict(soup, xpaths&＃61;{}, curr_path&＃61;&＃39;&＃39;):

curr_path &＃43;&＃61; &＃39;/{}&＃39;.format(soup.name)

for item in soup.contents:

if isinstance(item, NavigableString):

if item.strip():

try:

xpaths[curr_path][&＃39;count&＃39;] &＃43;&＃61; 1

count &＃61; xpaths[curr_path][&＃39;count&＃39;]

curr_path &＃43;&＃61; &＃39;[{}]&＃39;.format(count)

xpaths[curr_path] &＃61; {&＃39;text&＃39;: item.strip()}

except KeyError:

xpaths[curr_path] &＃61; {&＃39;text&＃39;: item.strip(), &＃39;count&＃39;: 1}

else:

xpaths &＃61; get_xpaths_dict(item, xpaths, curr_path)

return xpaths

html &＃61; &＃39;&＃39;&＃39;

text of div 1

text of span 1.1

text of span 2.1

text of span 2.2

text of span 3&＃39;&＃39;&＃39;

soup &＃61; BeautifulSoup(html, &＃39;html.parser&＃39;)

xpaths &＃61; get_xpaths_dict(soup.div)

print(xpaths)

输出&＃xff1a;

{&＃39;/div&＃39;: {&＃39;text&＃39;: &＃39;text of div 1&＃39;, &＃39;count&＃39;: 1}, &＃39;/div/span&＃39;: {&＃39;text&＃39;: &＃39;text of span 1.1&＃39;, &＃39;count&＃39;: 1}, &＃39;/div/span/span&＃39;: {&＃39;text&＃39;: &＃39;text of span 2.1&＃39;, &＃39;count&＃39;: 2}, &＃39;/div/span/span[2]&＃39;: {&＃39;text&＃39;: &＃39;text of span 2.2&＃39;}, &＃39;/div/span/span[2]/span&＃39;: {&＃39;text&＃39;: &＃39;text of span 3&＃39;, &＃39;count&＃39;: 1}}

我知道这不是您期望输出的格式.但是,您可以将其转换为所需的任何格式.例如,要将其转换为预期的输出,只需执行以下操作&＃xff1a;

expected_output &＃61; [(v[&＃39;text&＃39;], k) for k, v in xpaths.items()]

print(expected_output)

输出&＃xff1a;

[(&＃39;text of div 1&＃39;, &＃39;/div&＃39;), (&＃39;text of span 1.1&＃39;, &＃39;/div/span&＃39;), (&＃39;text of span 2.1&＃39;, &＃39;/div/span/span&＃39;), (&＃39;text of span 2.2&＃39;, &＃39;/div/span/span[2]&＃39;), (&＃39;text of span 3&＃39;, &＃39;/div/span/span[2]/span&＃39;)]

一些解释&＃xff1a;

词典中的额外键计数用于存储当前标签中具有相同名称的标签数量.使用这种格式(字典)可以优化代码.您只能访问每个标签一次.

奖金&＃xff1a;

由于该函数返回以XPATH为键的字典,因此您可以使用XPATH获取任何文本.例如&＃xff1a;

xpaths &＃61; get_xpaths_dict(soup.div)

print(xpaths[&＃39;/div/span/span[2]/span&＃39;][&＃39;text&＃39;])

# text of span 3

推荐阅读

select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
foreach
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
python
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
list
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
list
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
list
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
select
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
include
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
include
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
search
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
list
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
eval
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
command
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
java
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22

Aqingking_577

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章