PHP相关正则表达式语法

作者：撒哈拉2011的马甲_978 | 来源：互联网 | 2013-06-24 11:01

在某些应用中，往往有时候需要根据一定的规则来匹配（查找）确认一些字符串，如要求用户输入的QQ号码为数字且至少5位。用于描述这些规则的工具就是正则表达式。

正则表达式简介

在某些应用中，往往有时候需要根据一定的规则来匹配（查找）确认一些字符串，如要求用户输入的 QQ 号码为数字且至少 5 位。用于描述这些规则的工具就是正则表达式。

最简单的匹配

最简单的匹配就是直接给定字符匹配。如用字符 a 去匹配 aabab ，则会匹配出 3 个结果，分别是字符串中的第 1，2 和第 4 个字符。这种匹配是最简单的情况，但往往实际处理中会复杂得多，如下面的 “QQ号码为数字且至少5位” ，其对应的正则表达式为：


	
	
		^d{5,}$

该正则表达式就描述需要确定的内容为至少 5 位以上的数字。我们来具体看看该表达式是怎么描述这一规则的：

^：表示匹配字符串的开始，也即该字符串是独立的开始而不是包含在某个字符串之内
d：表示匹配数字
{5,}：表示至少匹配5位及以上
$：表示匹配字符串的结束，也即该字符串是独立的结束

现在就很清楚了，该正则表达式综合起来就是匹配 5 位以上的连续数字，且有独立的开始和结束，对于少于 5 位的数字，或者不是以数字开始和结尾的如 a123456b 这样都是无效的。

从该例子可以看出，正则表达式是从左至右描述的。

同样，如果要匹配移动号码的正则表达式为：


	
	
		^1d{10}$

提示

由于对正则表达式的匹配结果，在很多情况下都不是那么确定，所以最好下载一些辅助工具用于测试正则表达式的匹配结果。这类工具如 Match Tracer、RegExBuilder 等，以及其他类似的工具也可。

元字符

在上面的例子中，^ 、d 及 $ 等这些符号，代表了特定的匹配意义，我们称之为元字符，常用的元字符如下：

元字符	说明
.	匹配除换行符意外的任意字符
w	匹配字母或数字或下划线
s	匹配任意的空白符
d	匹配数字
b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束
[x]	匹配x字符，如匹配字符串中的 a、b 和 c 字符
W	w的反义，即匹配任意非字母，数字，下划线和汉字的字符
S	s的反义，即匹配任意非空白符的字符
D	d的反义，即匹配任意非数字的字符
B	b的反义，即不是单词开头或结束的位置
[^x]	匹配除了 x 意外的任意字符，如 [^abc] 匹配除了 abc 这几个字母之外的任意字符

提示

当我们要匹配这些元字符的时候，我们需要用到字符转义功能，同样正则表达式里面用来表示转义，如要匹配 . 符号，则需要用 . ，否则 . 会被解释成“除换行符外的任意字符”。当然，要匹配，则需要写成 \
连续的数字或字母可以用 – 符号连接起来，如匹配所有的小写字母，[1-5] 匹配 1 至 5 这 5 个数字

重复

正则表达式的威力在于其能够在模式中包含选择和循环，正则表达式用一些重复规则来表达循环匹配。

常用的重复如下：

重复	说明
*	重复零次或更多次
+	重复 1 次或更多次
?	重复零次或 1 次
{n}	重复 n 次
{n,}	重复 n 次或更多次
{n,m}	重复 n 到 m 次

分枝

分枝是指制定几个规则，如果满足任意一种规则，则都当作匹配成功。具体来说就是用 | 符号把各种规则分开，且条件从左至右匹配。

提示

由于分枝规定，只要匹配成功，就不再对后面的条件加以匹配，所以如果你想匹配有包含关系的内容，请注意规则的顺序。

下面是一个使用分枝的例子。

美国的邮政编码的规则是 5 个数字或者 5 个数字连上 4 个数字，如 12345 或者 54321-1234 ，如果要匹配所有的邮编，则正确的正则表达式为：


	
	
		d{5}-d{4}|d{5}
		

			//错误写法
			

				d{5}|d{5}-d{4}

下面的错误写法，只能匹配到 5 位数字及 9 位数字的前 5 位数字的情况，而不能匹配 9 位数字的邮编。

分组

在正则表达式中，可以用小括号将一些规则括起来当作分组，分组可以作为一个元字符来看待。

分组的例子，验证 IP 地址：

				
					
					
						(d{1,3}.){3}d{1,3}

这是一个简单的且不完善的匹配 IP 地址的正则表达式，因为它除了能匹配正确的 IP 地址外，还能匹配如 322.197.578.888 这种不存在的 IP 地址。

当然，用这个表达式简单匹配成功后可以在利用 PHP 的算术比较再加以判断 IP 地址是否正确。而正则表达式中没有提供算术比较功能，如果要完全匹配正确的 IP 地址，则需要改进如下：

				
					
					
						((25[0-5]|2[0-4]d|[01]?dd?).){3}(25[0-5]|2[0-4]d|[01]?dd?)

规则说明

该规则关键之处在于确定 IP 地址每一段范围为 0-255 ，然后再重复 4 次即可。在：

				
					
					
						25[0-5]|2[0-4]d|[01]?dd?

中，用分枝首先确定了 250-255 和 200-249 。 [01]?dd? 则确定了 0-199 的范围，综合起来就是 0-255 。

贪婪与懒惰

正则表达式默认的情况下，会在满足匹配条件下尽可能的匹配更多内容。如 a.*b，用他来匹配 aabab ，它会匹配整个 aabab ，而不会只匹配到 aab 为止，这就是贪婪匹配。

与贪婪匹配对应的是，在满足匹配条件的情况下尽可能的匹配更少的内容，这就是懒惰匹配。

上述例子对应的懒惰匹配规则为：

如果用该表达式去匹配 aabab ，那么就会得到 aab 和 ab 这样两个匹配结果。

常用的懒惰限定符如下：

懒惰限定符	说明
*?	重复任意次，但尽可能少重复
+?	重复 1 次或更多次，但尽可能少重复
??	重复 0 次或 1 次，但尽可能少重复
{n,}	重复 n 次以上，但尽可能少重复
{n,m}	重复 n 到 m 次，但尽可能少重复

模式修正符

模式修正符是标记在整个正则表达式之外的，可以看着是对正则表达式的一些补充说明。

常用的模式修正符如下：

模式修正符	说明
i	模式中的字符将同时匹配大小写字母
m	字符串视为多行
s	将字符串视为单行，换行符作为普通字符
x	将模式中的空白忽略
e	preg_replace() 函数在替换字符串中对逆向引用作正常的替换，将其作为 PHP 代码求值，并用其结果来替换所搜索的字符串。
A	强制仅从目标字符串的开头开始匹配
D	模式中的 $ 元字符仅匹配目标字符串的结尾
U	匹配最近的字符串
u	模式字符串被当成 UTF-8

推荐阅读

php
Vlog拍摄设备推荐及配置建议

本文介绍了拍摄高质量Vlog所需的设备，包括索尼A7 III相机、蔡司镜头、罗德麦克风、单反稳定器、苹果手机及其配件、灯光设备等。此外，还探讨了后期制作所需的软件工具，如剪辑、特效和调色软件。无论你是业余爱好者还是专业创作者，选择合适的设备至关重要。 ... [详细]

蜡笔小新 2024-12-28 12:46:53
io
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
io
周期性出现的时间戳字段异常问题

探讨一个老旧 PHP MySQL 系统中，时间戳字段不定期出现异常值的问题及其可能原因。 ... [详细]

蜡笔小新 2024-12-28 11:46:54
io
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
io
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
io
郑州大学在211高校中的地位与排名解析

本文将详细解读郑州大学作为一所位于河南省的211和双一流B类高校，在全国211高校中的地位与排名，帮助高三学生更好地了解这所知名学府的实力与发展前景。 ... [详细]

蜡笔小新 2024-12-28 10:08:34
replace
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
io
优化ASM字节码操作：简化类转换与移除冗余指令

本文探讨如何利用ASM框架进行字节码操作，以优化现有类的转换过程，简化复杂的转换逻辑，并移除不必要的加0操作。通过这些技术手段，可以显著提升代码性能和可维护性。 ... [详细]

蜡笔小新 2024-12-28 09:35:00
io
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
io
电子元件封装库：三极管、MOS管及部分LDO（含3D模型）

本资源汇集了常用的插件和贴片三极管、MOS管以及部分LDO的封装，涵盖TO和SOT系列。所有封装均配有高质量的3D模型，共计96种，满足日常设计需求。 ... [详细]

蜡笔小新 2024-12-28 09:05:19
io
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
io
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
request
PHP检测AJAX请求的有效方法

本文详细介绍了如何使用PHP检测AJAX请求，通过分析预定义服务器变量来判断请求是否来自XMLHttpRequest。此方法简单实用，适用于各种Web开发场景。 ... [详细]

蜡笔小新 2024-12-27 21:20:10
request
小红书提高MCN机构入驻门槛，需缴纳20万元保证金

近期，小红书对MCN机构的入驻要求进行了调整，明确要求MCN机构在入驻时需缴纳20万元人民币的保证金。此举旨在进一步规范平台内容生态，确保社区的真实性和用户体验。 ... [详细]

蜡笔小新 2024-12-27 20:42:02
utf-8
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29

撒哈拉2011的马甲_978

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章