作者:北京馨香海棠 | 来源:互联网 | 2022-06-14 15:10
任何复杂的正则表达式都是由简单的子表达式组成的,要想写出复杂的正则来,一方面需要有化繁为简的功底,另外一方面,我们需要从正则引擎的角度去思考问题。关于正则引擎的原理,推荐《Mastering Regular Expression》中文名叫《精通正则表达式》。挺不错的一本书。
OK,先确定我们要解决的问题——从一段Html文本中找出特定id的标签的innerHTML。
这里面最大的难点就是,Html标签是支持嵌套的,怎么能够找到指定标签相对应的闭合标签呢?
我们可以这样想,先匹配最前面的起始标签,假设是div吧(
我之所以能够这样去思考,是因为我了解过正则的特性,我知道正则中的平衡组能够实现我刚才说的“堆栈”操作。所以,如果我们要编写复杂正则表达式,需要对正则的一些高级特性至少有所了解,这样我们思考问题才有个方向。
匹配任意闭合HTML标签的正则表达式:
<(&#63;[\w]+)[^>]*&#63;>((&#63;<\k[^>]*>)|\k>(&#63;<-Nested>)|.*&#63;)*\k>
如果只想匹配div标签,可以使用下面的正则表达式:
<(&#63;div)[^>]*&#63;>((&#63;<\k[^>]*>)|\k>(&#63;<-Nested>)|.*&#63;)*\k>
是的,你可以把div修改成任意你想要匹配的HTML标签
如果想同时匹配多个HTML标签,可以使用下面的正则表达式:
<(&#63;(div|span|h1))[^>]*&#63;>((&#63;<\k[^>]*>)|\k>(&#63;<-Nested>)|.*&#63;)*\k>
你还可以继续添加更多要匹配的标签
如果想匹配包含ID的标签,可以使用下面的正则表达式:
<(&#63;[\w]+)[^>]*\s[iI][dD]=(&#63;["']&#63;)footer(&#63;(Quote)\k)[^>]*&#63;(/>|>((&#63;<\k[^>]*>)|\k>(&#63;<-Nested>)|.*&#63;)*\k>)
这个正则匹配任意id为footer的HTML标签
小编补充:
正则 \k
你也可以自己指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(&#63;\w+)(或者把尖括号换成'也行:(&#63;'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k,所以上一个例子也可以写成这样:\b(&#63;\w+)\b\s+\k\b。
有,但是是跟<>配合用的,详见下面:
指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(&#63;\w+)(或者把尖括号换成'也行:(&#63;'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k,所以上一个例子也可以写成这样:\b(&#63;\w+)\b\s+\k\b。
到此这篇关于正则表达式匹配闭合HTML标签(支持嵌套)的文章就介绍到这了,更多相关闭合HTML标签内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
推荐阅读
-
本文详细介绍了 BERT 模型中 Transformer 的 Attention 机制,包括其原理、实现代码以及在自然语言处理中的应用。通过结合多个权威资源,帮助读者全面理解这一关键技术。 ...
[详细]
蜡笔小新 2024-12-28 12:57:56
-
QUIC(Quick UDP Internet Connections)是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP,并结合了TLS级别的安全性,提供了更高效、更可靠的互联网通信方式。 ...
[详细]
蜡笔小新 2024-12-28 12:33:18
-
-
本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程,并提供完整的代码示例。 ...
[详细]
蜡笔小新 2024-12-28 09:49:42
-
本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境(IDE),涵盖Windows、macOS和Linux系统,同时提供详细的安装步骤及配置建议。 ...
[详细]
蜡笔小新 2024-12-28 09:42:41
-
在 Windows 10 中,F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键,并恢复其标准功能键的作用。请注意,部分笔记本电脑的快捷键可能无法完全关闭。 ...
[详细]
蜡笔小新 2024-12-28 09:13:44
-
本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ...
[详细]
蜡笔小新 2024-12-28 09:10:26
-
在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ...
[详细]
蜡笔小新 2024-12-28 08:20:07
-
本周信息安全小组主要进行了CTF竞赛相关技能的学习,包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外,还掌握了Linux命令行操作及互联网工作原理的基本概念。 ...
[详细]
蜡笔小新 2024-12-28 05:52:22
-
本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ...
[详细]
蜡笔小新 2024-12-28 04:11:47
-
本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ...
[详细]
蜡笔小新 2024-12-28 02:40:28
-
本文探讨了如何像程序员一样思考,强调了将复杂问题分解为更小模块的重要性,并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ...
[详细]
蜡笔小新 2024-12-28 01:48:10
-
本文详细介绍了如何解决Uploadify插件在Internet Explorer(IE)9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码,确保上传功能在不同浏览器环境中的一致性和稳定性。 ...
[详细]
蜡笔小新 2024-12-27 22:07:40
-
本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态,以及如何检测鼠标是否悬停在指定的HTML元素上。 ...
[详细]
蜡笔小新 2024-12-27 21:33:33
-
在命令行模式下敲命令python,就看到类似如下的一堆文本输出,然后就进入到Python交互模式,它的提示符是>>>,此时我们可以使用print() ...
[详细]
蜡笔小新 2024-12-27 21:32:05
-
本题涉及编号为1至n的火星商店,每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品,以及查询某段时间内某些商店中所有商品(含永久商品)与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ...
[详细]
蜡笔小新 2024-12-27 21:23:11
-