当前位置: 开发笔记 > 前端 > 正文

正则表达式——详细讲解平衡组

作者：王静芸平桂 | 来源：互联网 | 2022-08-18 16:46

这篇文章主要介绍了正则表达式——详细讲解平衡组,需要的朋友可以参考下

这篇文章适合你吗？

要读懂这篇文章的精髓，你最好要有一点正则匹配原理的基础。比如".*&＃63;"匹配文本内容"asp163"，稍懂正则表达式的人都知道可以匹配，但是你知道他的匹配过程吗？如果你不太清楚，那么下面的内容，对你来说可能不太适合，或许，看的太吃力且无法领悟平衡组的用法。因此，我建议你先了解正则表达式NFA引擎的匹配原理。想要整理一份易懂易描述的话，的确要费些时间，但不知道这篇内容会不会达到我预期的效果。慢慢完善吧~（注：这是我2010年写的，现在拿过来，有时间将自己做为读者来看本篇文章，修改有问题的地方，并增加些实例，尽量做到通俗易懂。）

一般正则教程中对平衡组的介绍

如果想要匹配可嵌套的层次性结构的话，就得使用平衡组了。举个例子吧，如何把“xx aa> yy”这样的字符串里，最长的尖括号内的内容捕获出来？

这里需要用到以下的语法构造：
(&＃63;) 把捕获的内容命名为group,并压入堆栈
(&＃63;<-group>) 从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本分组的匹配失败
(&＃63;(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达式，否则继续匹配no部分
(&＃63;!) 顺序否定环视，由于没有后缀表达式，试图匹配总是失败

如果你不是一个程序员（或者你是一个对堆栈的概念不熟的程序员），你就这样理解上面的三种语法吧：第一个就是在黑板上写一个（或再写一个）"group"，第二个就是从黑板上擦掉一个"group"，第三个就是看黑板上写的还有没有"group"，如果有就继续匹配yes部分，否则就匹配no部分。
我们需要做的是每碰到了左括号，就在黑板上写一个"group"，每碰到一个右括号，就擦掉一个，到了最后就看看黑板上还有没有－如果有那就证明左括号比右括号多，那匹配就应该失败（为了能看得更清楚一点，我用了(&＃63;'group')的语法）：

<#最外层的左括号
 [^<>]*     #最外层的左括号后面的不是括号的内容
 (
  (
   (&＃63;'Open'<) #碰到了左括号，在黑板上写一个"Open"
   [^<>>]*   #匹配左括号后面的不是括号的内容
  )+
  (
   (&＃63;'-Open'>) #碰到了右括号，擦掉一个"Open"
   [^<>]*   #匹配右括号后面不是括号的内容
  )+
 )*
 (&＃63;(Open)(&＃63;!))  #在遇到最外层的右括号前面，判断黑板上还有没有没擦掉的"Open"；如果有，则匹配失败
>         #最外层的右括号

我为什么写这篇文章

看了上面的介绍，你明白了吗？在我未理解正则表达式匹配原理之前，看上面对于平衡组的介绍，似懂非懂，且只能当做模板记住，而不能灵活运用。因此查阅大量有关正则方面的资料，这里尤其感谢lxcnn的技术文档及《精通正则表达式》这本书，让我对正则表达式有了更深入、更系统的理解，因此，在它们的基础之上，我就结合自己的学习经历做个小结，一来做为学习笔记存档，另外，如果能解决你的疑惑，也是件让人高兴的事。
我先暂不分析上面的代码，先讲解一下关于平衡组相关的概念及知识。
下面表达式匹配测试工具为：Expresso，本站也提供它的完美破解版下载。

平衡组的概念及作用

平衡组，故名思义，平衡即对称，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。平衡组有狭义与广义两种定义，狭义平衡组指(&＃63;Expression) 语法，而广义平衡组并不是固定的语法规则，而是几种语法规则的综合运用，我们平时所说的平衡组通常指的是广义平衡组。本文中如无特殊说明，平衡组这种简写指的是广义平衡组。
平衡组的匹配原理
平衡组的匹配原理可以用堆栈来解释，先举个例子，再根据例子进行解释。

源字符串：a+(b*(c+d))/e+f-(g/(h-i))*j正则表达式：((&＃63;\()|(&＃63;<&＃8722;Open>)|[^()])*(&＃63;(Open)(&＃63;!))\)
需求说明：匹配成对出现的()中的内容
输出：(b*(c+d)) 和 (g/(h-i))
我将上面正则表达式代码分行写，并加上注释，这样看起来有层次，而且方便

 \(        #普通字符“(”
  (       #分组构造，用来限定量词“*”修饰范围
   (&＃63;\() #命名捕获组，遇到开括弧“Open”计数加1
   |      #分支结构
   (&＃63;<-Open>\)) #狭义平衡组，遇到闭括弧“Open”计数减1
   |      #分支结构
   [^()]+    #非括弧的其它任意字符
  )*       #以上子串出现0次或任意多次
  (&＃63;(Open)(&＃63;!)) #判断是否还有“Open”，有则说明不配对，什么都不匹配
 \)       #普通闭括弧

对于一个嵌套结构而言，开始和结束标记都是确定的，对于本例开始为“(”，结束为“)”，那么接下来就是考察中间的结构，中间的字符可以划分为三类，一类是“(”，一类是“)”，其余的就是除这两个字符以外的任意字符。

那么平衡组的匹配原理就是这样的

1、先找到第一个“(”，作为匹配的开始。即上面的第1行，匹配了：a+(b*(c+d))/e+f-(g/(h-i))*j （红色显示部分）

2、在第1步以后，每匹配到一个“(”，就入栈一个Open捕获组，计数加1

3、在第1步以后，每匹配到一个“)”，就出栈最近入栈的Open捕获组，计数减1

也就是讲，上面的第一行正则“\(”匹配了：a+(b*(c+d))/e+f-(g/(h-i))*j （红色显示部分）
然后，匹配到c前面的“(”，此时，计数加1；继续匹配，匹配到d后面的“)”，计算减1；——注意喽：此时堆栈中的计数是0，正则还是会向前继续匹配的，但是，如果匹配到“)”的话，比如，这个例子中d))（红色显示的括号）——引擎此时将控制权交给(&＃63;(Open)(&＃63;!))，判断堆栈中是否为0，如果为0，则执行匹配“no”分支，由于这个条件判断结构中没有“no”分支，所以什么都不做，把控制权交给接下来的“\)”
这个正则表达式“\)”可匹配接下来的)，即b))（红色显示的括号）

4、后面的 (&＃63;(Open)(&＃63;!))用来保证堆栈中Open捕获组计数是否为0，也就是“(”和“)”是配对出现的

5、最后的“)”，作为匹配的结束

匹配过程

首先匹配第一个“(”，然后一直匹配，直到出现以下两种情况之一时，把控制权交给(&＃63;(Open)(&＃63;!))：
a)堆栈中Open计数已为0，此时再遇到“)”
b)匹配到字符串结束符
这时控制权交给(&＃63;(Open)(&＃63;!))，判断Open是否有匹配，由于此时计数为0，没有匹配，那么就匹配“no”分支，由于这个条件判断结构中没有“no”分支，所以什么都不做，把控制权交给接下来的“\)”
如果上面遇到的是情况a)，那么此时“\)”可以匹配接下来的“)”，匹配成功；
如果上面遇到的是情况b)，那么此时会进行回溯，直到“\)”匹配成功为止，否则报告整个表达式匹配失败。
由于.NET中的狭义平衡组“(&＃63;Expression)”结构，可以动态的对堆栈中捕获组进行计数，匹配到一个开始标记，入栈，计数加1，匹配到一个结束标记，出栈，计数减1，最后再判断堆栈中是否还有Open，有则说明开始和结束标记不配对出现，不匹配，进行回溯或报告匹配失败；如果没有，则说明开始和结束标记配对出现，继续进行后面子表达式的匹配。
需要对“(&＃63;!)”进行一下说明，它属于顺序否定环视，完整的语法是“(&＃63;!Expression)”。由于这里的“Expression”不存在，表示这里不是一个位置，所以试图尝试匹配总是失败的，作用就是在Open不配对出现时，报告匹配失败。

下面在看个例子：



 



snhame
f

以上为部分的HTML代码.现在我们的问题是要提取出其的标签并将其删除掉，以往我们惯用的方法都是直接去取,像[\s\S]+&＃63;\，不过问题出来了,我们提取到的不是我们想要的内容,而是

原因也很简单,它和离他最近的标签匹配上了,不过它不知道这个标签不是它的-_-，是不是就是&＃63;符号的原因呢,我们去掉让他无限制贪婪,可这下问题更大了,什么乱七八糟的东东它都匹配到了

snhame

这个结果也不是我们想要的。那么我就用“平衡组”来解决吧。

]*>((&＃63;]*>)+|(&＃63;<-mm>)|[\s\S])*&＃63;(&＃63;(mm)(&＃63;!))

匹配的结果是

这正是我们想要的
注意，我开始写成这样的方式

]*>((&＃63;]*>)+|(&＃63;<-mm>)|[\s\S])*(&＃63;(mm)(&＃63;!))

匹配的结果是

一个问题
以下代码只是做为一个问题探讨
文本内容：e+f(-(g/(h-i))*j

正则表达式：

\(
 (
  (&＃63;\()
  |
  (&＃63;<-mm>\))
  |
  .
 )*&＃63;
 (&＃63;(mm)(&＃63;!))
\)

匹配的结果是：(-(g/(h-i))

推荐阅读

css
程序员妻子吐槽：丈夫北漂8年终薪3万，存款情况令人意外

一位程序员的妻子在网上分享了她丈夫在北京工作八年的经历，月薪仅3万元，存款情况却出乎意料。本文探讨了高学历人才在大城市的职场现状及生活压力。 ... [详细]

蜡笔小新 2024-12-28 11:14:15
css
程序员思维：深入解析与应用

本文探讨了如何像程序员一样思考，强调了将复杂问题分解为更小模块的重要性，并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]

蜡笔小新 2024-12-28 01:48:10
view
Android 模拟用户交互：点击与滑动操作的实现

本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作，包括参数说明、事件生成及处理逻辑。详细解析了视图（View）对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]

蜡笔小新 2024-12-28 12:12:22
css
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
css
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
css
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
css
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
css
QBlog开源博客系统：Page_Load生命周期与参数传递优化（第四部分）

本教程将深入探讨QBlog开源博客系统的Page_Load生命周期，并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-28 10:39:53
css
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
css
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
css
Windows 10 系统中禁用 F1 至 F12 功能键的方法

在 Windows 10 中，F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键，并恢复其标准功能键的作用。请注意，部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]

蜡笔小新 2024-12-28 09:13:44
css
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
css
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
css
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
css
Qt 环境下 SQLite 动态创建表的实现方法

SQLite 动态创建多个表的需求在网络上有不少讨论，但很少有详细的解决方案。本文将介绍如何在 Qt 环境中使用 QString 类轻松实现 SQLite 表的动态创建，并提供详细的步骤和示例代码。 ... [详细]

蜡笔小新 2024-12-26 15:11:34

王静芸平桂

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

snhame