十分钟上手正则表达式上篇_正则表达式

作者：mobiledu2502858253 | 来源：互联网 | 2023-09-17 15:40

正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出

一、正则表达式的定义：

正则表达式是你所定义的模式模板（ pattern template ）， Linux 工具可以用它来过滤文本。 Linux工具（比如sed 编辑器或 gawk 程序）能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式，它就会被接受并进一步处理；如果数据不匹配模式，它就会被滤掉。

正则表达式模式匹配数据：

正则表达式模式利用通配符来描述数据流中的一个或多个字符。 Linux 中有很多场景都可以使用通配符来描述不确定的数据。【*】号在我们工作中就比较常用。

示例说明：

a.*参数会让ls命令只列出名字以a开头的文件。文件名中a之后可以有任意多个字符（包括什么也没有）。ls命令会读取目录中所有文件的信息，但只显示跟通配符匹配的文件的信息。

二、正则表达式的类型

使用正则表达式最大的问题在于有不止一种类型的正则表达式。 Linux 中的不同应用程序可能会用不同类型的正则表达式。这其中包括编程语言（Java 、 Perl 和 Python ）、 Linux 实用工具（比如sed 编辑器、 gawk 程序和 grep 工具）以及主流应用（比如 MySQL 和 PostgreSQL 数据库服务器）。正则表达式是通过正则表达式引擎（ regular expression engine ）实现的。正则表达式引擎是一套底层软件，负责解释正则表达式模式并使用这些模式进行文本匹配。

两种流行的正则表达式引擎：

POSIX基础正则表达式（basic regular expression，BRE）引擎
POSIX扩展正则表达式（extended regular expression，ERE）引擎

POSIX BRE引擎通常出现在依赖正则表达式进行文本过滤的编程语言中。它为常见模式提供了高级模式符号和特殊符号，比如匹配数字、单词以及按字母排序的字符。awk程序用ERE引擎来处理它的正则表达式模式。

说明：

由于实现正则表达式的方法太多，很难用一个简洁的描述来涵盖所有可能的正则表达式。后面会结合sed和awk演示最常见的正则表达式。

三、定义 BRE 模式

最基本的 BRE模式是匹配数据流中的文本字符。下面会演示如何在正则表达式中定义文本以及会得到什么样的结果。

3.1 纯文本

演示说明：

模式定义了一个单词 test 。 sed 编辑器和 gawk 程序脚本用它们各自的 print 命令打印出匹配该正则表达式模式的所有行。由于echo 语句在文本字符串中包含了单词 test ，数据流文本能够匹配所定义的正则表达式模式，编辑器能显示该行。

正则表达式是区分大小写的：

演示说明：

第一次尝试没能匹配成功，因为 this 在字符串中并不都是小写，而第二次尝试在模式中使用大写字母，所以能正常输出。

在正则表达式中，你不用写出整个单词。只要定义的文本出现在数据流中，正则表达式就能够匹配。

演示说明：

数据流中的文本是 books ，在数据中含有正则表达式 book ，因此正则表达式模式跟数据匹配。

在正则表达式中，空格和其他的字符并没有什么区别。

演示说明：

空格的出现无法和文本内容匹配。

如果在正则表达式中定义了空格，那么它必须出现在数据流中。甚至可以创建匹配多个连续空格的正则表达式模式。

演示说明：

单词间有两个空格的行匹配正则表达式模式。

3.2 特殊字符

正则表达式识别的特殊字符包括：

.*[]^${}\+?|()

如果要用某个特殊字符作为文本字符，就必须转义。在转义特殊字符时，你需要在它前面加一个特殊字符反斜杠（\）来告诉正则表达式引擎应该将接下来的字符当作普通的文本字符。

示例说明：

查找文本中的美元符，只要在它前面加个反斜线。

3.3 锚字符

默认情况下，当指定一个正则表达式模式时，只要模式出现在数据流中的任何地方，它就能匹配。有两个特殊字符可以用来将模式锁定在数据流中的行首或行尾。

3.3.1 锁定在行首

脱字符（ ^ ）定义从数据流中文本行的行首开始的模式。如果模式出现在行首之外的位置，正则表达式模式则无法匹配。要用脱字符，就必须将它放在正则表达式中指定的模式前面。

脱字符会在每个由换行符决定的新数据行的行首检查模式。

示例解说：

只要模式出现在新行的行首，脱字符就能够发现它。

演示说明：

脱字符出现在正则表达式模式的尾部，sed编辑器会将它当作普通字符来匹配。

注意：

如果指定正则表达式模式时只用了脱字符，就不需要用反斜线来转义。但如果在模式中先指定了脱字符，随后还有其他一些文本，那么必须在脱字符前用转义字符。

3.3.2 锁定在行尾

跟在行首查找模式相反的就是在行尾查找。特殊字符美元符（ $ ）定义了行尾锚点。将这个特殊字符放在文本模式之后来指明数据行必须以该文本模式结尾。

3.3.3 组合锚点

在一些常见情况下，可以在同一行中将行首锚点和行尾锚点组合在一起使用。在第一种情况中，假定你要查找只含有特定文本模式的数据行。

示例说明：

匹配文本中以test开头和以test结尾的行

将两个锚点直接组合在一起，之间不加任何文本，这样过滤出数据流中的空白行。

示例说明：

定义的正则表达式模式会查找行首和行尾之间什么都没有的那些行。由于空白行在两个换行符之间没有文本，刚好匹配了正则表达式模式。sed 编辑器用删除命令 d 来删除匹配该正则表达式模式的行，因此删除了文本中的所有空白行。

3.4 点号字符

特殊字符点号用来匹配除换行符之外的任意单个字符。它必须匹配一个字符，如果在点号字符的位置没有字符，那么模式就不成立。

示例解说：

这个例子很具有说明性的，为什么第一行无法匹配，而第二行和第三行就可以。第四行有点复杂。注意，我们匹配了at，但在at前面并没有任何字符来匹配点号字符。其实是有的！在正则表达式中，空格也是字符，因此at前面的空格刚好匹配了该模式。第五行证明了这点，将at放在行首就不会匹配该模式了。

3.5 字符组

使用方括号来定义一个字符组。方括号中包含所有你希望出现在该字符组中的字符。然后可以在模式中使用整个组，就跟使用其他通配符一样。

示例说明：

匹配这个模式的单词只有 cat 和 hat 。还要注意以 at 开头的行也没有匹配。字符组中必须有个字符来匹配相应的位置。

在不太确定某个字符的大小写时，字符组会非常有用。如下示例：

字符组不必只含有字母，也可以在其中使用数字。

示例说明：

这个正则表达式模式匹配了任意含有数字 0 、 1 、 2 或 3 的行。含有其他数字以及不含有数字的行都会被忽略掉。

示例说明：

正则表达式模式可见于数据流中文本的任何位置。经常有匹配模式的字符之外的其他字符。如果要确保只匹配五位数，就必须将匹配的字符和其他字符分开，要么用空格，要么像这个例子中这样，指明它们就在行首和行尾。

3.6 排除型字符组

在正则表达式模式中，也可以反转字符组的作用。可以寻找组中没有的字符，而不是去寻找组中含有的字符。要这么做的话，只要在字符组的开头加个脱字符。

示例说明：

使用排除型字符组，正则表达式模式会匹配 c 或 h 之外的任何字符以及文本模式。由于空格字符属于这个范围，它通过了模式匹配。但即使是排除，字符组仍然必须匹配一个字符，所以以 at开头的行仍然未能匹配模式。

3.7 区间

示例说明：

新的模式 [c-h]at 匹配了首字母在字母 c 和字母 h 之间的单词。这种情况下，只含有单词 at 的行将无法匹配该模式。

示例说明：

该字符组允许区间a~c、h~m中的字母出现在at文本前，但不允许出现d~g的字母。

3.8 特殊的字符组

除了定义自己的字符组外， BRE 还包含了一些特殊的字符组，可用来匹配特定类型的字符。

[[:alpha:]] 匹配任意字母字符，不管是大写还是小写
[[:alnum:]] 匹配任意字母数字字符0~9、A~Z或a~z
[[:blank:]] 匹配空格或制表符
[[:digit:]] 匹配0~9之间的数字
[[:lower:]] 匹配小写字母字符a~z
[[:print:]] 匹配任意可打印字符
[[:punct:]] 匹配标点符号
[[:space:]] 匹配任意空白字符：空格、制表符、NL、FF、VT和CR
[[:upper:]] 匹配任意大写字母字符A~Z

示例说明：

使用特殊字符组可以很方便地定义区间。可以用 [[:digit:]] 来代替区间 [0-9] 。

3.9 星号【*】

在字符后面放置星号表明该字符必须在匹配模式的文本中出现 0 次或多次。

推荐阅读

config
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
node.js
实践指南：使用Express、Create React App与MongoDB搭建React开发环境

本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境，旨在为开发者提供一套完整的解决方案，包括环境搭建、数据模拟及前后端交互。 ... [详细]

蜡笔小新 2024-11-20 10:05:15
runtime
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
int
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
export
Jupyter Notebook多语言环境搭建指南

本文详细介绍了如何在Linux环境下为Jupyter Notebook配置Python、Python3、R及Go四种编程语言的环境，包括必要的软件安装和配置步骤。 ... [详细]

蜡笔小新 2024-11-20 18:37:27
list
深入理解Java SE 8新特性：Lambda表达式与函数式编程

本文作为‘Java SE 8新特性概览’系列的一部分，将详细探讨Lambda表达式。通过多种示例，我们将展示Lambda表达式的不同应用场景，并解释编译器如何处理这些表达式。 ... [详细]

蜡笔小新 2024-11-20 14:19:27
int
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
jsp
Java EE 平台的 13 种核心技术

Java EE 平台集成了多种服务、API 和协议，旨在支持基于 Web 的多层应用程序开发。本文将详细介绍 Java EE 中的 13 种关键技术规范，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-15 21:15:35
runtime
处理Android EditText中数字输入与parseInt方法

本文探讨了如何在Android应用中从EditText组件安全地获取并解析用户输入的数字，特别是用于设置端口号的情况。通过示例代码和异常处理策略，展示了有效的方法来避免因非法输入导致的应用崩溃。 ... [详细]

蜡笔小新 2024-11-21 20:37:54
config
如何使用 org.apache.tinkerpop.gremlin.structure.VertexProperty 的 key 方法

本文详细介绍了 `org.apache.tinkerpop.gremlin.structure.VertexProperty` 类中的 `key()` 方法，并提供了多个实际应用的代码示例。通过这些示例，读者可以更好地理解该方法在图数据库操作中的具体用途。 ... [详细]

蜡笔小新 2024-11-21 17:38:10
config
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
go
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
go
HTML前端开发：UINavigationController与页面间数据传递详解

本文详细介绍了如何在HTML前端开发中利用UINavigationController进行页面管理和数据传递，适合初学者和有一定基础的开发者学习。 ... [详细]

蜡笔小新 2024-11-20 09:46:39
go
python3 基础回忆录

整理于2020年10月下旬：总结过去，展望未来Itistoughtodayandtomorrowwillbetougher.butthedayaftertomorrowisbeau ... [详细]

蜡笔小新 2024-11-17 10:24:41
int
Linux中tput命令怎么用

这篇文章主要介绍Linux中tput命令怎么用，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！Linux常用命令tput命令将通过ter ... [详细]

蜡笔小新 2024-11-16 12:00:46

mobiledu2502858253

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章