正则表达式_Python的正则表达式彩蛋

作者：唯忻小十__ | 来源：互联网 | 2023-09-23 23:55

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python的正则表达式彩蛋相关的知识，希望对你有一定的参考价值。Py

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python 的正则表达式彩蛋相关的知识，希望对你有一定的参考价值。

Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。

虽然我觉得在 Python 的标准库里的确有不少很恶心的库，但是 re 库肯定不属于这种。尽管它真的有年头没有更新了，但是在我看来，仍不失为动态语言中最好的库之一。

我觉得 Python 作为一种动态语言，竟然没有对正则表达式进行原生支持，真是少见。尽管没有提供（原生的）语法和解释器的支持，但（这个模块）从纯 API 的角度给出了一个设计更加完善的核心系统作为补充的解决方案。然而这个方案也挺诡异的，比方说，它的解析器是用纯 Python 写的，如果你导入库的同时去追踪 Python 就会产生一些很诡异的结果。最后你会发现自己90%的时间都花在了 re 的支持库上。

久经考验

经过时间的沉淀，正则库早已成为历代 Python 标准库中不可或缺的部分。 Python3 就另当别论了，我觉得除了增加了对 unicode 的支持以外，它从始至今没什么本质的提升。到现在，成员枚举都是乱七八糟的（不信就去试试看，对一个正则对象用 dir() 函数能返回什么东西）。

Python 的正则表达式彩蛋

用了这个正则库最大的好处就是非常稳定，任它 Python 版本更替，我自巍然不动。你的 Python 已经不是当年的 Python了，你的 re 永远是你的 re。考虑到我写过那许许多多的正则表达式，却从来没有因为 re 库的变动而重写，那必须是满满的幸福啊。

这个库有一点我觉得设计的挺神奇的，它的构造（compiler）和解析（parser）函数是用 Python 写的，但是匹配（matcher）函数是用 C 写的。这意味着如果我们愿意的话，就可以将解析器的内部结构传递给编译器，从而完全绕过正则表达式的解析。虽然文档里没写，但事实上确实可以这么干。

还有很多这种例子，但是在（官方）文档中的正则部分都没有收录，或者没讲清楚，所以下面我就给大家演示几个例子，让你见识见识 Python 的正则库到底有多炫酷。

迭代匹配

如果要说在 Python 的正则库当中哪个特性是最大的亮点，那毫无疑问，肯定是把 matching 和 searching 两种功能区别开。这一点上，很多其它正则表达式引擎都没有做到。在使用 match 函数进行匹配的时候，你可以专门指定一个起始索引位置，让它从此位置开始匹配。

也就是说，你可以这么写：

Python 的正则表达式彩蛋

这在写词法分析的时候就非常实用，因为你可以一直用 “^” 符号来表示行首，然后只要调整后面的 pos 索引参数就可以一直匹配下去。同时，有了这个功能，我们再也不需要自己手动分割字符串来匹配了，一下就省掉大量的内存分配和字符串复制的过程（况且 Python 并不擅长这个）。

除了 match 函数， Python 还提供了 search 函数，它能自动跳过字符串头，直到成功匹配：

Python 的正则表达式彩蛋

空既是色

想在 Python 中使用正则表达式实现逆匹配（一个 pattern 与指定字符串不匹配）一般来说比较麻烦。假设我们要写一个类似维基语言那样（比如 Markdown 语言）的语法分析器。除了那些表示特定格式的语法标记，中间还有许多文本也需要我们来处理。这时我们只想匹配那些已知的标记符号，但是中间还有很多别的内容（非语法标记）也需要处理。怎么才能跳过这些内容呢？

一种方案是编译一组正则表达式然后放到一个列表里，逐个去尝试匹配。如果全部匹配失败，就跳过当前字符（然后继续匹配）。

Python 的正则表达式彩蛋

这个方案既不优雅也不高效。一般来说，匹配失败的情况越多代码效率就越低。因为那样就意味着我们每次只能向后跳过一个字符，而且还是用的 Python 这种解释型的语言（来循环）。同时，这种方案灵活性也不够好，每次只能匹配到对应的标记符号，如果还要匹配分组就只能再把这段重新扩展一下。

难道就没什么好办法了吗？我们就不能让正则引擎直接去扫描指定的一批正则表达式吗？

下面有意思的来了。实际上，如果我们把表达式写成（a | b）这种分枝条件的样式，它就会同时搜索是否匹配 a 或者 b。所以我们可以把要匹配的所有语法标记全部这样写到一起，然后去匹配就好了。这么匹配写起来很方便，但是匹配结果你肯定一脸懵比，因为完全不知道是被那一堆表达式中的哪一个匹配成功的。

深入正则引擎

下面进入正题。在过去的差不多 15 年里，有一个奇葩特性一直没有写到正则表达式的文档当中，那就是“扫描器”。扫描器是底层的 SRE 对象的一个属性，让引擎在找到一个匹配结果之后能继续向后匹配。甚至还有一个 re.Scanner 的类（也没有收到文档中），它是在 SRE 模式扫描器之上构建的，提供了一个稍微高级一点的接口。

re 库里这个扫描器虽然并不能帮助逆匹配变快，但是通过查看它的原代码能让我们了解到，它是怎么基于 SRE 来实现的。

它的工作原理是先接收一个正则表达式和回调元组列表，每次匹配成功就调用回调函数，返回 match 对象，最后生成一个结果列表。如果进一步查看实现细节，就会发现它其实会手动在内部创建 SRE 模式和子模式对象。（就是说，它构造了一个大型的正则表达式而不必进行解析）。现在有了这些知识，我们就可以这样扩展了：

Python 的正则表达式彩蛋

这段代码怎么用呢？照下面这样写：

这里如果没有匹配到任何内容会抛出一个 EOFError ，如果你设置 skip = True 的话它就可以跳过未匹配的部分，用它来设计一个像维基语法分析器这种东西真是再完美不过了。

查找空位

匹配搜索时被跳过的部分我们可以用 match.start() 和 match.end() 来确定跳过部分的起止位置。那么，之前第一个例子经过调整，就变成这样：

解决分组问题

还有一件头疼的事情，我们的组索引并不是正则表达式的索引，而是组合索引。这就意味着如果你的条件是像 (a | b) 这种格式，当你打算通过索引访问这个组的时候会出问题。这还需要我们做一些额外的工作把 SRE 匹配对象用一个类包装起来，让它能和组索引以及组名称相统一。如果你有兴趣，我在 github 里还做了一个比上面的解决方案更复杂的版本，基本实现了包装的效果，而且还准备了一些示例供你参考。

英文原文：http://lucumr.pocoo.org/2015/11/18/pythons-hidden-re-gems/

译者：WDatou

推荐阅读

bash
首次周测解析与答案

本文档提供了首次周测的答案解析，涵盖特殊符号、命令作用、路径说明以及实战练习等内容。 ... [详细]

蜡笔小新 2024-11-25 14:28:11
input
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
input
MITM（中间人攻击）原理及防范初探（二）

上一篇文章MITM（中间人攻击）原理及防范初探（一）给大家介绍了利用ettercap进行arp欺骗及劫持明文口令，后来我发现好友rootoorotor的文章介绍比我写的更透彻，所以基础利用大家可以参看 ... [详细]

蜡笔小新 2024-11-22 12:46:06
default
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
require
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
python
Python正则表达式(Python RegEx)

Python正则表达式快速参考常用函数：re.match():从字符串的起始位置匹配一个正则表达式。re.search():扫描整个字符串并返回第一个成功的匹配。re.s ... [详细]

蜡笔小新 2024-11-19 18:22:57
include
深入解析：Linux下的GCC编译器

GCC（GNU Compiler Collection）是GNU项目下的一款功能全面且高效的多平台编译工具，广泛应用于Linux操作系统中。本文将详细介绍GCC的特点及其基本使用方法。 ... [详细]

蜡笔小新 2024-11-26 11:20:38
python
利用 Python 和 Scapy 实施 DNS 欺骗攻击的技术解析

本文详细介绍了如何使用 Python 编程语言中的 Scapy 库执行 DNS 欺骗攻击，包括必要的软件安装、攻击流程及代码示例。 ... [详细]

蜡笔小新 2024-11-25 15:52:30
dagger
Android 开发框架整合：MVP + Retrofit + Dagger2 + RxAndroid 配置指南

本文将详细介绍如何配置并整合MVP架构、Retrofit网络请求库、Dagger2依赖注入框架以及RxAndroid响应式编程库，构建高效、模块化的Android应用。 ... [详细]

蜡笔小新 2024-11-24 20:16:02
nodejs
全面覆盖的前端技术资源大全

本文提供了一个详尽的前端开发资源列表，涵盖了从基础入门到高级应用的各个方面，包括HTML5、CSS3、JavaScript框架及库、移动开发、API接口、工具与插件等。 ... [详细]

蜡笔小新 2024-11-23 12:05:53
default
WPF菜单控件前景与背景颜色设置指南

尽管在WPF中工作了一段时间，但在菜单控件的样式设置上遇到了一些基础问题，特别是关于如何正确配置前景色和背景色。 ... [详细]

蜡笔小新 2024-11-22 15:30:54
char
构建Elasticsearch环境与课程索引

本章节详细介绍了如何在开发环境中搭建Elasticsearch (ES) 环境，包括安装、启动服务端以及创建索引和映射的具体步骤。对于旧版ES环境的清理方法也进行了说明。 ... [详细]

蜡笔小新 2024-11-20 08:52:25
python
使用Bash脚本将Medium文章迁移到个人博客[教程]

尽管Medium是一个优秀的发布平台，但在其之外拥有自己的博客仍然非常重要。这不仅提供了另一个与读者互动的渠道，还能确保您的内容安全。本文将介绍如何使用Bash脚本将Medium文章迁移到个人博客。 ... [详细]

蜡笔小新 2024-11-18 11:26:14
js
Vulnhub DC3 实战记录与分析

本文记录了在 Vulnhub DC3 靶机上的渗透测试过程，包括漏洞利用、内核提权等关键步骤，并总结了实战经验和教训。 ... [详细]

蜡笔小新 2024-11-17 20:50:03
cmd
2019-2020学年 20174325 叶竞蔚《网络对抗技术》实验六：Metasploit基础应用

本实验旨在掌握Metasploit框架的基本应用方法，重点学习三种常见的攻击方式及其实施思路。实验内容包括一次主动攻击（如MS08-067）、一次针对浏览器的攻击（如MS11-050）以及一次针对客户端的攻击（如Adobe漏洞利用）。此外，还包括成功应用一个辅助模块。 ... [详细]

蜡笔小新 2024-11-17 17:21:38

唯忻小十__

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章