当前位置: 开发笔记 > 编程语言 > 正文

【总结】正则表达式

作者：假面的告白1993_931 | 来源：互联网 | 2023-07-11 11:38

逻辑关系：正则表达式的逻辑关系正则表达式之间的逻辑关系可以简单地用与、或、非来描述，如表所示。通常来说，正则表达式可以看做这三种逻辑关

逻辑关系&＃xff1a;

正则表达式的逻辑关系

正则表达式之间的逻辑关系可以简单地用与、或、非来描述&＃xff0c;如表所示。

通常来说&＃xff0c;正则表达式可以看做这三种逻辑关系的组合。下面分析这三种逻辑。

1.与

“与” 是正则表达式中最普遍的逻辑关系。一般来说&＃xff0c;如果正则表达式中的元素没有任何量词(比如*、?、&＃43;)修饰&＃xff0c;就是”与”关系。比如正则表达式&＃xff1a;

abc

表示同时出现a、b、c三个字符。

连续字符是“与”关系的最佳代表。此外&＃xff0c;有些环视结构也可以表达“与”关系。比如顺序肯定环视&＃xff08;&＃xff1f;&＃61;exp&＃xff09;表示自身出现的位置后面能匹配表达式exp&＃xff0c;换而言之&＃xff0c;就是在它后面必须出现表达式exp。例如&＃xff1a;

\w&＃43;(?&＃61;ing)

表示单词的后面必须是ing结尾。
除了顺序肯定环视外&＃xff0c;逆序肯定环视也能表达“与”关系。

比如匹配DIV标签里的内容&＃xff0c;例如&＃xff1c;div&＃xff1e;logo&＃xff1c;/div&＃xff1e;中的logo&＃xff0c;就可用以下正则表达式来匹配&＃xff1a;

(?<&＃61;div>).*(?&＃61;

)

(?<&＃61;div>) 表示自身&＃xff08;即要匹配的部分&＃xff09;出现的位置前面匹配表达式”

” &＃xff0c;(?&＃61;

) 表示它后面需要匹配的表达式”

“&＃xff0c;中间的”.*”就是匹配到的内容。

2.或

“或”是正则表达式中容易出现的逻辑关系。
如果“或”代表元素可以出现&＃xff0c;也可以不出现&＃xff0c;或者出现的次数不确定&＃xff0c;可以用量词来表示“或”关系。比如以下表达式表示在此处&＃xff0c;字符a可以出现&＃xff0c;也可以不出现&＃xff1a;

以下表达式表示在此处&＃xff0c;字符串ab必然要出现1次&＃xff0c;也可以出现无限多次&＃xff1a;

(ab)&＃43;

如果“或”表示出现的是某个元素的一个&＃xff0c;那么可以使用字符组。比如以下正则表达式表示此处出现的字符是a、b、c中的任何一个&＃xff1a;

[abc]

如果要匹配多个字符&＃xff0c;则使用分支结构&＃xff08;……&＃xff5c;……&＃xff09;。比如匹配单词foot及其复数形式&＃xff0c;就可以用正则表达式&＃xff1a;

f(oo|ee)t

或者使用如下形式

f[oe]{2}t

3.非

提到”非”&＃xff0c;最容易想到正则表达式中的反义和”^”元字符。比如\d表示数字&＃xff0c;那么其对应的\D就表示非数字;[a]表示a字符&＃xff0c;那么[^a] 就表示这个字符不是a。

“非”关系最常用来匹配成对的标签&＃xff0c;例如双引号字符串的匹配&＃xff0c;首位两个双引号很容易匹配&＃xff0c;其中的内容肯定不是双引号&＃xff08;暂不考虑转义的情况&＃xff09;&＃xff0c;所以用[^"] 表示&＃xff0c;其长度不确定&＃xff0c;用*来限定&＃xff0c;所以整个表达式如下&＃xff1a;

[^"]*

比如&＃xff0c;需要匹配HTML里成对的A标签&＃xff0c;先匹配左尖括号&＃xff0c;紧接着是a字符&＃xff0c;后面可以是任意内容&＃xff0c;最后是一个右尖括号。在这对括号之间可以出现空格、字母、数字、引号等字符&＃xff0c;但是不能出现“&＃xff1e;”字符&＃xff0c;于是就可以用排除型字符组“[&＃xff3e;&＃xff1e;]”来表示。再加上后面的配对标签&＃xff0c;整个表达式如下&＃xff1a;

]*>.*<\/a>

运行下面这段代码验证这个表达式&＃xff1a;

$reg &＃61; "#]*>(.*)<\/a>#";
$str &＃61; &＃39;baidu---sohu&＃39;;
preg_match_all($reg, $str, $m);
print_r($m);12345

运行结果&＃xff1a;

Array
(
[0] &＃61;> Array
(
[0] &＃61;> baidu---sohu
)

[1] &＃61;> Array
(
[0] &＃61;> baidu---sohu
)

)12345678910111213

发现结果不符合预期&＃xff0c;出现了嵌套匹配。原因在于A标签之间的文本忘了做排除型匹配&＃xff0c;于是修改后的正则表达式就成了]*>([^<>]*)<\/a>。经过修改后就符合预期了。

$reg &＃61; "#]*>([^<>]*)<\/a>#";
$str &＃61; &＃39;baidu---sohu&＃39;;
preg_match_all($reg, $str, $m);
print_r($m);

运行结果为&＃xff1a;

Array
(
[0] &＃61;> Array
(
[0] &＃61;> baidu
[1] &＃61;> sohu
)

[1] &＃61;> Array
(
[0] &＃61;> baidu
[1] &＃61;> sohu
)

)

注&＃xff1a;上述例子也可以使用前一篇博文中讲过的懒惰匹配。修改正则如下&＃xff1a;

]*>(.*?)<\/a>

除了反义和排除型字符组外&＃xff0c;否定环视也能表示“非”这种关系。比如有一串文字&＃xff1a;“ab&＃xff1c;p&＃xff1e;onecde&＃xff1c;div&＃xff1e;fgh&＃xff1c;/div&＃xff1e;&＃xff1c;img src&＃61;”“&＃xff1e;”。现在需要匹配除P标签外的所有标签。换而言之&＃xff0c;就是先匹配所有HTML标签&＃xff0c;可以使用如下表达式&＃xff1a;

]&＃43;>

匹配闭合的“&＃xff1c;XXX&＃xff1e;”或“&＃xff1c;/XXX&＃xff1e;”标签&＃xff0c;然后再排除“XXX”或“/XXX”部分是P的标签&＃xff0c;于是使用顺序否定环视&＃xff0c;用表达式&＃xff1a;

(?!/?p\b)

排除了“&＃xff1c;”或“&＃xff1c;/”这个位置后是P字符的情况&＃xff0c;这样就满足需求了。最终的表达式则为&＃xff1a;

<(?!/?p\b)[^>]&＃43;>

初等&＃xff08;先来几个简单的&＃xff0c;了解一下&＃xff09;

“ab" 表示以ab开头的字符串&＃xff0c;例如”abc“ ”abc ed“
   ”ab&＃43;" 表示一个字符串&＃xff0c;由一个a和至少一个b组成
   "ab?" 表示一个字符串&＃xff0c;由一个a和一个或零个b组成
   "ab{2,3}" 表示一个字符串&＃xff0c;由一个a和2-3个b组成
   “access|boot" 表示一个字符串,为access或者boot
   "(a|b)*c" 表示一个字符串, 由一个或多个a(或者b) &＃43; c 混合而成
   [a-zA-Z] 表示一个字符&＃xff0c;为一个字母
   ”[a-zA-Z0-9]$" 表示一个字符串,由一个字母或数字结束。
   错误提示[ab\\d] 中括号中不能由转义字符

中等(文本框验证输入&＃xff09;

“[\w]*" 只能输入数字或者字母的字符串
   "[\d]{5,11}" 只能输入一串数字,5-11位&＃xff0c;例如QQ号码
   "[^\uFF00-\uFFFF]" 只能输入全角的
   "[^\u4E00-\u9FA5]" 只能输入汉字

高等&＃xff08;各种格式验证&＃xff09;

”[&＃43;]{0,1}(\d){1,3}[ ]?([-]?((\d)|[ ]){1,12})&＃43; “ 检验普通电话、传真号码&＃xff1a;可以“&＃43;”或数字开头&＃xff0c;可含有减号和空格
   ”http[s]{0,1}:\/\/.&＃43;$/ 或 /^http[s]{0,1}:\/\/.{1,n}“ 检验URL
   “([0-9A-F]{2})(-[0-9A-F]{2}){5}” 检验mac地址
   “[-&＃43;]?\d&＃43;(\.\d&＃43;)?” 值类型
   “\\d{4}-\\d{1,2}-\\d{1,2}” 日期格式2018-7-30
   ”(\\d&＃43;){5&＃xff0c;11}&＃64;(\\w&＃43;)\\.(\\w){3}“ QQ邮箱格式

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如&＃xff0c;“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。
^	匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性&＃xff0c;^也匹配“\n”或“\r”之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性&＃xff0c;$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子表达式零次或多次。例如&＃xff0c;zo能匹配“z”以及“zoo”。等价于{0,}。
&＃43;	匹配前面的子表达式一次或多次。例如&＃xff0c;“zo&＃43;”能匹配“zo”以及“zoo”&＃xff0c;但不能匹配“z”。&＃43;等价于{1,}。
?	匹配前面的子表达式零次或一次。例如&＃xff0c;“do(es)?”可以匹配“does”或“does”中的“do”。?等价于{0,1}。
{n}	n是一个非负整数。匹配确定的n次。例如&＃xff0c;“o{2}”不能匹配“Bob”中的“o”&＃xff0c;但是能匹配“food”中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如&＃xff0c;“o{2,}”不能匹配“Bob”中的“o”&＃xff0c;但能匹配“foooood”中的所有o。“o{1,}”等价于“o&＃43;”。“o{0,}”则等价于“o*”。
{n,m}	m和n均为非负整数&＃xff0c;其中n<&＃61;m。最少匹配n次且最多匹配m次。例如&＃xff0c;“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符&＃xff08;*,&＃43;,?&＃xff0c;{n}&＃xff0c;{n,}&＃xff0c;{n,m}&＃xff09;后面时&＃xff0c;匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串&＃xff0c;而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如&＃xff0c;对于字符串“oooo”&＃xff0c;“o&＃43;?”将匹配单个“o”&＃xff0c;而“o&＃43;”将匹配所有“o”。
.	匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符&＃xff0c;请使用像“(.\|\n)”的模式。
(pattern)	匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到&＃xff0c;在Vbscript中使用SubMatches集合&＃xff0c;在JScript中则使用$0…$9属性。要匹配圆括号字符&＃xff0c;请使用“$”或“$”。
(?:pattern)	匹配pattern但不获取匹配结果&＃xff0c;也就是说这是一个非获取匹配&＃xff0c;不进行存储供以后使用。这在使用或字符“(\|)”来组合一个模式的各个部分是很有用。例如“industr(?:y\|ies)”就是一个比“industry\|industries”更简略的表达式。
(?&＃61;pattern)	正向肯定预查&＃xff0c;在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配&＃xff0c;也就是说&＃xff0c;该匹配不需要获取供以后使用。例如&＃xff0c;“Windows(?&＃61;95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”&＃xff0c;但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符&＃xff0c;也就是说&＃xff0c;在一个匹配发生后&＃xff0c;在最后一次匹配之后立即开始下一次匹配的搜索&＃xff0c;而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查&＃xff0c;在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配&＃xff0c;也就是说&＃xff0c;该匹配不需要获取供以后使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”&＃xff0c;但不能匹配“Windows2000”中的“Windows”。预查不消耗字符&＃xff0c;也就是说&＃xff0c;在一个匹配发生后&＃xff0c;在最后一次匹配之后立即开始下一次匹配的搜索&＃xff0c;而不是从包含预查的字符之后开始
(?<&＃61;pattern)	反向肯定预查&＃xff0c;与正向肯定预查类拟&＃xff0c;只是方向相反。例如&＃xff0c;“(?<&＃61;95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”&＃xff0c;但不能匹配“3.1Windows”中的“Windows”。
(?	反向否定预查&＃xff0c;与正向否定预查类拟&＃xff0c;只是方向相反。例如“(?
x\|y	匹配x或y。例如&＃xff0c;“z\|food”能匹配“z”或“food”。“(z\|f)ood”则匹配“zood”或“food”。
[xyz]	字符集合。匹配所包含的任意一个字符。例如&＃xff0c;“[abc]”可以匹配“plain”中的“a”。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如&＃xff0c;“[^abc]”可以匹配“plain”中的“p”。
[a-z]	字符范围。匹配指定范围内的任意字符。例如&＃xff0c;“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如&＃xff0c;“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。
\b	匹配一个单词边界&＃xff0c;也就是指单词和空格间的位置。例如&＃xff0c;“er\b”可以匹配“never”中的“er”&＃xff0c;但不能匹配“verb”中的“er”。
\B	匹配非单词边界。“er\B”能匹配“verb”中的“er”&＃xff0c;但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字符。例如&＃xff0c;\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则&＃xff0c;将c视为一个原义的“c”字符。
\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何空白字符&＃xff0c;包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W	匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn	匹配n&＃xff0c;其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如&＃xff0c;“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。.
\*num*	匹配num&＃xff0c;其中num是一个正整数。对所获取的匹配的引用。例如&＃xff0c;“(.)\1”匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式&＃xff0c;则n为向后引用。否则&＃xff0c;如果n为八进制数字&＃xff08;0-7&＃xff09;&＃xff0c;则n为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式&＃xff0c;则nm为向后引用。如果\nm之前至少有n个获取&＃xff0c;则n为一个后跟文字m的向后引用。如果前面的条件都不满足&＃xff0c;若n和m均为八进制数字&＃xff08;0-7&＃xff09;&＃xff0c;则\nm将匹配八进制转义值nm。
\*nml*	如果n为八进制数字&＃xff08;0-3&＃xff09;&＃xff0c;且m和l均为八进制数字&＃xff08;0-7&＃xff09;&＃xff0c;则匹配八进制转义值nml。
\un	匹配n&＃xff0c;其中n是一个用四个十六进制数字表示的Unicode字符。例如&＃xff0c;\u00A9匹配版权符号&＃xff08;©&＃xff09;。

常用正则表达式

用户名	/^[a-z0-9_-]{3,16}$/
密码	/^[a-z0-9_-]{6,18}$/
十六进制值	/^#?([a-f0-9]{6}\|[a-f0-9]{3})$/
电子邮箱	/^([a-z0-9_\.-]&＃43;)&＃64;([\da-z\.-]&＃43;)\.([a-z\.]{2,6})$/ /^[a-z\d]&＃43;(\.[a-z\d]&＃43;)*&＃64;([\da-z](-[\da-z])?)&＃43;(\.{1,2}[a-z]&＃43;)&＃43;$/
URL	/^(https?:\/\/)?([\da-z\.-]&＃43;)\.([a-z\.]{2,6})([\/\w \.-])\/?$/
IP 地址	/((2[0-4]\d\|25[0-5]\|[01]?\d\d?)\.){3}(2[0-4]\d\|25[0-5]\|[01]?\d\d?)/ /^(?:(?:25[0-5]\|2[0-4][0-9]\|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]\|2[0-4][0-9]\|[01]?[0-9][0-9]?)$/
HTML 标签	/^<([a-z]&＃43;)([^<]&＃43;)(?:>(.)<\/\1>\|\s&＃43;\/>)$/
删除代码\\注释	(?
Unicode编码中的汉字范围	/^[\u2E80-\u9FFF]&＃43;$/

C&＃43;&＃43;11 正则表达式简单运用

正则表达式(regular expression)是计算机科学中的一个概念&＃xff0c;又称规则表达式&＃xff0c;通常简写为regex、regexp、RE、regexps、regexes、regexen。

正则表达式是一种文本模式。正则表达式是强大、便捷、高效的文本处理工具。正则表达式本身&＃xff0c;加上如同一门袖珍编程语言的通用模式表示法(general pattern notation)&＃xff0c;赋予使用者描述和分析文本的能力。配合上特定工具提供的额外支持&＃xff0c;正则表达式能够添加、删除、分离、叠加、插入和修整各种类型的文本和数据。

完整的正则表达式由两种字符构成&＃xff1a;特殊字符(special characters)称为”元字符”(meta characters)&＃xff0c;其它为”文字”(literal)&＃xff0c;或者是普通文本字符(normal text characters&＃xff0c;如字母、数字、汉字、下划线)。正则表达式的元字符提供了更强大的描述能力。

和文本编辑器一样&＃xff0c;绝大多数高级编程语言均支持正则表达式&＃xff0c;如Perl、Java、Python、C/C&＃43;&＃43;&＃xff0c;这些语言都有各自的正则表达式包。

一个正则表达式仅仅为一个字符串&＃xff0c;它没有长度限制。“子表达式”指的是整个正则表达式中的一部分&＃xff0c;通常是括号内的表达式&＃xff0c;或者是由”|”分割的多选分支。

默认情况下&＃xff0c;表达式中的字母是要区分大小写的。

常用的元字符&＃xff1a;

“.”&＃xff1a; 匹配除"\n"之外的任何单个字符&＃xff0c;若要匹配包括"\n"在内的任意字符&＃xff0c;需使用诸如"[\s\S]"之类的模式&＃xff1b;
“^”&＃xff1a;匹配输入字符串的开始位置&＃xff0c;不匹配任何字符&＃xff0c;要匹配”^”字符本身&＃xff0c;需使用”\^”&＃xff1b;
“$”&＃xff1a;匹配输入字符串结尾的位置&＃xff0c;不匹配任何字符&＃xff0c;要匹配”$”字符本身&＃xff0c;需使用”\$”&＃xff1b;
“*”&＃xff1a; 零次或多次匹配前面的字符或子表达式&＃xff0c;”*”等效于”{0,}”&＃xff0c;如”\^*b”可以匹配”b”、”^b”、”^^b”、…&＃xff1b;
“&＃43;”&＃xff1a; 一次或多次匹配前面的字符或子表达式&＃xff0c;等效于”{1,}”&＃xff0c;如”a&＃43;b”可以匹配”ab”、”aab”、”aaab”、…&＃xff1b;
“?”&＃xff1a; 零次或一次匹配前面的字符或子表达式&＃xff0c;等效于”{0,1}”&＃xff0c;如”a[cd]?”可以匹配”a”、”ac”、”ad”&＃xff1b; 当此字符紧随任何其他限定符”*”、”&＃43;”、”?”、”{n}”、”{n,}”、”{n,m}”之后时&＃xff0c;匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的、尽可能短的字符串&＃xff0c;而默认的"贪心的"模式匹配搜索到的、尽可能长的字符串。如&＃xff0c;在字符串"oooo"中&＃xff0c;"o&＃43;?"只匹配单个"o"&＃xff0c;而"o&＃43;"匹配所有"o"&＃xff1b;
“|”&＃xff1a;将两个匹配条件进行逻辑"或"(Or)运算,如正则表达式”(him|her)”匹配"itbelongs to him"和"it belongs to her"&＃xff0c;但是不能匹配"itbelongs to them."&＃xff1b;
“\”&＃xff1a; 将下一字符标记为特殊字符、文本、反向引用或八进制转义符&＃xff0c;如&＃xff0c;”n”匹配字符”n”,”\n”匹配换行符&＃xff0c;序列”\\”匹配”\”,”\(“匹配”(“&＃xff1b;
“\w”&＃xff1a;匹配字母或数字或下划线&＃xff0c;任意一个字母或数字或下划线&＃xff0c;即A~Z&＃xff0c;a~z,0~9,_中任意一个&＃xff1b;
“\W”&＃xff1a;匹配任意不是字母、数字、下划线的字符&＃xff1b;
“\s”&＃xff1a;匹配任意的空白符&＃xff0c;包括空格、制表符、换页符等空白字符的其中任意一个&＃xff0c;与”[ \f\n\r\t\v]”等效&＃xff1b;
“\S”&＃xff1a;匹配任意不是空白符的字符&＃xff0c;与”[^\f\n\r\t\v]”等效&＃xff1b;
“\d”&＃xff1a;匹配数字&＃xff0c;任意一个数字&＃xff0c;0~9中的任意一个&＃xff0c;等效于”[0-9]”&＃xff1b;
“\D”&＃xff1a;匹配任意非数字的字符&＃xff0c;等效于”[^0-9]”&＃xff1b;
“\b”&＃xff1a; 匹配一个字边界&＃xff0c;即字与空格间的位置&＃xff0c;也就是单词和空格之间的位置&＃xff0c;不匹配任何字符&＃xff0c;如&＃xff0c;"er\b"匹配"never"中的"er"&＃xff0c;但不匹配"verb"中的"er";
“\B”&＃xff1a; 非字边界匹配,"er\B"匹配"verb"中的"er"&＃xff0c;但不匹配"never"中的"er"&＃xff1b;
“\f”&＃xff1a;匹配一个换页符&＃xff0c;等价于”\x0c”和”\cL”&＃xff1b;
“\n”&＃xff1a;匹配一个换行符&＃xff0c;等价于”\x0a”和”\cJ”&＃xff1b;
“\r”&＃xff1a;匹配一个回车符&＃xff0c;等价于”\x0d”和”\cM”&＃xff1b;
“\t”&＃xff1a;匹配一个制表符&＃xff0c;等价于”\x09”和”\cI”&＃xff1b;
“\v”&＃xff1a;匹配一个垂直制表符&＃xff0c;等价于”\x0b”和”\cK”&＃xff1b;
“\cx”&＃xff1a;匹配”x”指示的控制字符,如&＃xff0c;\cM匹配Control-M或回车符&＃xff0c;”x”的值必须在”A-Z”或”a-z”之间,如果不是这样&＃xff0c;则假定c就是"c"字符本身&＃xff1b;
“{n}”&＃xff1a;”n”是非负整数&＃xff0c;正好匹配n次&＃xff0c;如&＃xff0c;"o{2}"与"Bob"中的"o"不匹配&＃xff0c;但与"food"中的两个"o"匹配&＃xff1b;
“{n,}”&＃xff1a;”n”是非负整数,至少匹配n次,如&＃xff0c;"o{2,}"不匹配"Bob"中的"o"&＃xff0c;而匹配"foooood"中的所有”o”&＃xff0c;"o{1,}"等效于"o&＃43;"&＃xff0c;"o{0,}"等效于"o*"&＃xff1b;
“{n,m}”&＃xff1a;”n”和”m”是非负整数&＃xff0c;其中n<&＃61;m&＃xff0c;匹配至少n次&＃xff0c;至多m次&＃xff0c;如&＃xff0c;"o{1,3}"匹配"fooooood"中的头三个o&＃xff0c;&＃39;o{0,1}&＃39;等效于&＃39;o?&＃39;&＃xff0c;注意,不能将空格插入逗号和数字之间&＃xff1b;如”ba{1,3}”可以匹配”ba”或”baa”或”baaa”&＃xff1b;
“x|y”&＃xff1a;匹配”x”或”y”&＃xff0c;如&＃xff0c;”z|food”匹配"z"或"food"&＃xff1b;”(z|f)ood”匹配"zood"或"food"&＃xff1b;
“[xyz]”&＃xff1a;字符集&＃xff0c;匹配包含的任一字符&＃xff0c;如&＃xff0c;"[abc]"匹配"plain"中的"a";
“[^xyz]”&＃xff1a;反向字符集&＃xff0c;匹配未包含的任何字符&＃xff0c;匹配除了”xyz”以外的任意字符&＃xff0c;如&＃xff0c;"[^abc]"匹配"plain"中的"p"&＃xff1b;
“[a-z]”&＃xff1a;字符范围&＃xff0c;匹配指定范围内的任何字符&＃xff0c;如&＃xff0c;"[a-z]"匹配"a"到"z"范围内的任何小写字母&＃xff1b;
“[^a-z]”&＃xff1a;反向范围字符&＃xff0c;匹配不在指定的范围内的任何字符&＃xff0c;如&＃xff0c;"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符&＃xff1b;
“( )”&＃xff1a;将”(“和”)”之间的表达式定义为”组”group&＃xff0c;并且将匹配这个表达式的字符保存到一个临时区域,一个正则表达式中最多可以保存9个&＃xff0c;它们可以用”\1”到”\9”的符号来引用&＃xff1b;
“(pattern)”&＃xff1a;匹配pattern并捕获该匹配的子表达式&＃xff0c;可以使用$0…$9属性从结果”匹配”集合中检索捕获的匹配&＃xff1b;
“(?:pattern)”&＃xff1a;匹配pattern但不捕获该匹配的子表达式&＃xff0c;即它是一个非捕获匹配&＃xff0c;不存储供以后使用的匹配&＃xff0c;这对于用”or”字符” (|)”组合模式部件的情况很有用, 如&＃xff0c;”industr(?:y|ies)”是比”industry|industries”更简略的表达式&＃xff1b;
“(?&＃61;pattern)”&＃xff1a; 非获取匹配&＃xff0c;正向肯定预查&＃xff0c;在任何匹配pattern的字符串开始处匹配查找字符串&＃xff0c;该匹配不需要获取供以后使用。如&＃xff0c;"Windows(?&＃61;95|98|NT|2000)"能匹配"Windows2000"中的"Windows"&＃xff0c;但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符&＃xff0c;也就是说&＃xff0c;在一个匹配发生后&＃xff0c;在最后一次匹配之后立即开始下一次匹配的搜索&＃xff0c;而不是从包含预查的字符之后开始&＃xff1b;
“(?!pattern)”&＃xff1a; 非获取匹配&＃xff0c;正向否定预查&＃xff0c;在任何不匹配pattern的字符串开始处匹配查找字符串&＃xff0c;该匹配不需要获取供以后使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows"&＃xff0c;但不能匹配"Windows2000"中的"Windows"&＃xff1b;

要匹配某些特殊字符&＃xff0c;需在此特殊字符前面加上”\”&＃xff0c;如要匹配字符”^”、”$”、”()”、”[]”、”{}”、”.”、”?”、”&＃43;”、”*”、”|”&＃xff0c;需使用” \^”、” \$”、” \ (“、”\)”、” \ [“、”\]”、” \{“、”\}”、” \.”、” \?”、” \&＃43;”、” \*”、” \|”。

在C&＃43;&＃43;/C&＃43;&＃43;11中&＃xff0c;GCC版本是4.9.0及以上&＃xff0c;VS版本为VS2013及以上时&＃xff0c;会有regex头文件&＃xff0c;此头文件中会有regex_match、regex_search、regex_replace等函数可供调用&＃xff0c;以下是测试代码&＃xff1a;

#include "regex.hpp" #include #include #include #include int test_regex_match() {std::string pattern{ "\\d{3}-\\d{8}|\\d{4}-\\d{7}" }; // fixed telephonestd::regex re(pattern);std::vector str{ "010-12345678", "0319-9876543", "021-123456789"};/* std::regex_match:判断一个正则表达式(参数re)是否匹配整个字符序列str,它主要用于验证文本注意&＃xff0c;这个正则表达式必须匹配被分析串的全部&＃xff0c;否则返回false;如果整个序列被成功匹配&＃xff0c;返回true*/for (auto tmp : str) {bool ret &＃61; std::regex_match(tmp, re);if (ret) fprintf(stderr, "%s, can match\n", tmp.c_str());else fprintf(stderr, "%s, can not match\n", tmp.c_str());}return 0; }int test_regex_search() {std::string pattern{ "http|hppts://\\w*$" }; // urlstd::regex re(pattern);std::vector str{ "http://blog.csdn.net/fengbingchun", "https://github.com/fengbingchun","abcd://124.456", "abcd https://github.com/fengbingchun 123" };/* std::regex_search:类似于regex_match,但它不要求整个字符序列完全匹配可以用regex_search来查找输入中的一个子序列&＃xff0c;该子序列匹配正则表达式re*/for (auto tmp : str) {bool ret &＃61; std::regex_search(tmp, re);if (ret) fprintf(stderr, "%s, can search\n", tmp.c_str());else fprintf(stderr, "%s, can not search\n", tmp.c_str());}return 0; }int test_regex_search2() {std::string pattern{ "[a-zA-z]&＃43;://[^\\s]*" }; // urlstd::regex re(pattern);std::string str{ "my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun " };std::smatch results;while (std::regex_search(str, results, re)) {for (auto x : results)std::cout <}int test_regex_replace() {std::string pattern{ "\\d{18}|\\d{17}X" }; // id cardstd::regex re(pattern);std::vector str{ "123456789012345678", "abcd123456789012345678efgh","abcdefbg", "12345678901234567X" };std::string fmt{ "********" };/* std::regex_replace:在整个字符序列中查找正则表达式re的所有匹配这个算法每次成功匹配后&＃xff0c;就根据参数fmt对匹配字符串进行替换*/for (auto tmp : str) {std::string ret &＃61; std::regex_replace(tmp, re, fmt);fprintf(stderr, "src: %s, dst: %s\n", tmp.c_str(), ret.c_str());}return 0; }int test_regex_replace2() {// reference: http://www.cplusplus.com/reference/regex/regex_replace/std::string s("there is a subsequence in the string\n");std::regex e("\\b(sub)([^ ]*)"); // matches words beginning by "sub"// using string/c-string (3) version:std::cout <}