golang正则表达式perl引擎_正则表达式从小白到入门

作者：Cika_用假名说真话 | 来源：互联网 | 2023-09-16 18:02

前言正则表达式(RegularExpression，RegExp，regex)使用单个字符串来描述和匹配一系列符合某种句法规则的字符串。此概念来自形式化

前言

正则表达式(Regular Expression&＃xff0c;RegExp&＃xff0c;regex)使用单个字符串来描述和匹配一系列符合某种句法规则的字符串。此概念来自形式化语言理论&＃xff0c;最初由贝尔实验室实现。正则表达式最初在 Perl 中实现&＃xff0c;它的推广得益于 UNIX 软件的流行&＃xff0c;尤其是 SED&＃xff0c;GREP 等。现在许多编程语言都内置了正则表达式引擎&＃xff0c;如 PERL、Python、Javascript、Java、C&＃43;&＃43; 等。很多文本编辑器也支持正则表达式来进行检索和替换&＃xff0c;如 Vim、Sublime Text、Visual Studio Code 等。正则表达式相关的学习文章网上也是一大推&＃xff0c;本文主要记录正则表达式的入门教程和常用公式工具&＃xff0c;方便大家活学活用。

为什么要正则表达式&＃xff1f;

为什么需要正则表达式 - 王垠

学习 Unix 最开头&＃xff0c;大家都学过正则表达式 (regexp)。可是有没有人考虑过我们为什么需要正则表达式&＃xff1f;

正则表达式本来的初衷是用来从无结构的字符串中提取信息&＃xff0c;殊不知这正好是 Unix 的缺陷所在。Unix 用无结构的字符串来表示数据&＃xff0c;导致了诸多复杂的基于 regexp 的软件的诞生。sed, AWK, Perl, … 都是为了同样的目的来到这个世界上的。如果不是因为 Unix 用字符串来表示数据&＃xff0c;我们就会拥有按数据结构类型的直接存储&＃xff0c;而不需要折腾 regexp。正则表达式有它自己的价值(针对自然语言)&＃xff0c;但是我们其实不需要把它应用到程序语言和操作系统里面。

正则表达式本身用一个字符串来表示&＃xff0c;这带来另外一些问题。因为正则表达式的本质不是字符串&＃xff0c;而是一个数据结构。学过计算理论的人可能知道这个数据结构叫做 NFA(nondeterministic finite automaton&＃xff0c;非确定性有限自动机)。所有的数据结构应该由程序语言本身来表示&＃xff0c;就像用 Java 构造一个对象用 new ClassA("a") 一样。但是正则表达式强迫你把这个简单的构造函数调用写成一个字符串。所以在这个比方之下&＃xff0c;你得写成 new ClassA("a")。这样当你想要组合这些表达式的时候就发现&＃xff0c;正则表达式几乎都是不可组合 (compose) 的。你几乎不可能不能把两个 regexp 的变量 A 和 B 安全拼接成一个&＃xff0c;比如用 Java 的字符串拼接 A&＃43;B。因为你不知道这两个字符串拼在一起之后&＃xff0c;那些稀奇古怪的符号会出现什么交叉反应&＃xff0c;使得最后的识别的东西根本不是你想要的。

在正则表达式中&＃xff0c;由于正则表达式本身的构造函数与数据本身合并到一起&＃xff0c;我们不得不对某些 “特殊字符” 进行 escape。这些特殊字符&＃xff0c;其实是用来描述 NFA 的记号&＃xff0c;它们属于更高一层的语言。可是在正则表达式里&＃xff0c;它们与 NFA 节点里的字符混为一谈。比如很简单的一个 block comment 的正则表达式&＃xff0c;却要写成这个样子&＃xff1a;

/*([^*]|[^/])**/

显然这样的表达式很容易出错。如果我们用程序语言的表达式来构造这个表达式&＃xff0c;它应该是这样&＃xff1a;

(&＃64;... "/*" (&＃64;*(&＃64;!"*/")) "*/")

在这个我自己设计的 Scheme 表达式里&＃xff0c;以 &＃64;开头的标识符都是构造函数。其中 &＃64;... 是构造 sequence&＃xff0c;&＃64;* 是构造一个 zero-or-more 的匹配&＃xff0c;&＃64;! 构造一个否定匹配。这个表达式是说&＃xff1a;“以 / * 开头&＃xff0c;接着零个或者多个不是 * / 的字符&＃xff0c;最后接着一个 * /。这样一来清晰明了&＃xff0c;什么表达式在什么 “层次” 都很清楚&＃xff0c;不需要什么反斜杠 escape&＃xff0c;而且这样的表达式可以 compose。比如:

(define reg1 (&＃64;... "/*" (&＃64;*(&＃64;!"*/")) "*/"))(define reg2 (&＃64;&＃43; "foo"))(define reg3 (&＃64;&＃61; "b"))

定义这三个表达式之后&＃xff0c;我们之后可以用像 (&＃64;... reg1 (&＃64;or reg2 reg3)) 这样的表达式来连接 3 个不同的表达式&＃xff0c;构造出更大的表达式。这样的构造可以无限的扩展。从这里以及以往的经验&＃xff0c;我总结出一个普遍适用的程序设计的教训&＃xff1a;尽量不要把多个层次的语言 “压缩” 到一层。我们也看到正则表达式与 “Unix 哲学” 有很大关系。我没有考古&＃xff0c;所以不知道孰先孰后&＃xff0c;但是它们肯定有直接的因果关系。两者都是 Unix 复杂性的来源。

再来看取自 12306 网站的一段代码

// http://www.12306.cn/mormhweb/js/adKyfw.min.jsd &＃61; d.replace("&＃39;

推荐阅读

import
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
web
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
ascii
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
shell
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
utf-8
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
web
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
blob
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
import
Python内置模块详解：正则表达式re模块的应用与解析

正则表达式是一种强大的文本处理工具，通过特定的字符序列来定义搜索模式。本文详细介绍了Python内置的`re`模块，探讨了其在字符串匹配、验证和提取中的应用。例如，可以通过正则表达式验证电子邮件地址、电话号码、QQ号、密码、URL和IP地址等。此外，文章还深入解析了`re`模块的各种函数和方法，提供了丰富的示例代码，帮助读者更好地理解和使用这一工具。 ... [详细]

蜡笔小新 2024-11-07 17:25:01
import
深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树

深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树 ... [详细]

蜡笔小新 2024-11-05 10:24:10
import
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
require
如何使用KindEditor网页编辑器

本文详细介绍了如何在项目中引入和配置KindEditor网页编辑器，包括脚本引用、初始化编辑器以及文件上传功能的实现。 ... [详细]

蜡笔小新 2024-11-14 09:36:22
shell
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
shell
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
controller
利用源链接技术调试ASP.NET Core源代码的方法与实践

本文详细探讨了通过源链接技术调试ASP.NET Core源代码的实用方法，旨在为开发者提供高效、准确的调试技巧，适用于学习和实际工作中遇到的相关问题。希望读者能从中获得有价值的参考和启发。 ... [详细]

蜡笔小新 2024-11-06 17:48:25
import
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18

Cika_用假名说真话

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章