Python内置模块详解：正则表达式re模块的应用与解析

作者：渭南电信贺平 | 来源：互联网 | 2024-11-07 17:25

正则表达式是一种强大的文本处理工具，通过特定的字符序列来定义搜索模式。本文详细介绍了Python内置的`re`模块，探讨了其在字符串匹配、验证和提取中的应用。例如，可以通过正则表达式验证电子邮件地址、电话号码、QQ号、密码、URL和IP地址等。此外，文章还深入解析了`re`模块的各种函数和方法，提供了丰富的示例代码，帮助读者更好地理解和使用这一工具。

13.python内置模块之re模块

什么是正则？

正则表达式也称为正则，是一个特殊的字符序列，能帮助检查一个字符串是否与某种模式匹配。可以用来进行验证：邮箱、手机号、qq号、密码、url = 网站地址、ip等。正则不是python语言独有的技术，python语言直到1.5版本才将正则表达式完成的整理/纳入进re模块中，我们只需要导入re模块，然后就可以使用其中所有和正则相关的函数和属性了。

1. re模块中最常用的几个函数

1). re.match函数：

功能：将string数据从头开始尝试匹配；如果匹配成功，那么就会返回给程序一个match对象；如果开头就不匹配，那么直接返回None值；

语法格式：re.match(regex, string[, flags=0])

参数：regex：匹配的正则表达式(内部定义了一套验证规则)

string：需要被验证的字符串数据

flags：可选参，模式/标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。默认情况下(不显示定义) --> 不开启任何的模式

【注意】匹配成功re.match方法返回一个匹配的对象，否则返回None。我们可以使用group(num) 或 groups() 等匹配对象函数来获取匹配表达式。match对象有5个常用的函数：

(1). group()：返回匹配成功的数据值(理解：原串中的某部分子串信息)

　　　(2). start()：返回匹配成功的数据的起始索引

　　　(3). end()： 返回匹配成功的数据的结束索引

　　　(4). span()： 返回一个元祖对象，有两个元素组成；第一个元素记录了匹配成功的数据的起始索引第二个元素记录了匹配成功的数据的结束索引

　　　(5). groups()：以元祖的形式返回所有子组的信息(一个包含所有小组字符串的元组，从1到所含的小组号)；如果没有进行正则分组，则返回一个空元祖。

 1 import re
 2
 3 mo = re.match(r"Www","www.baidu.com")
 4 print(mo)            # None   
 5 print(type(mo))      # 
 6 
 7 print(re.match(r"www","www.sina.com"))                 # <_sre.SRE_Match object; span=(0, 3), match="www">
 8 print(re.match(r"www","www.sina.com").group())         # www
 9 print(re.match(r"www","www.sina.com").start())         # 0
10 print(re.match(r"www","www.sina.com").end())           # 3
11 print(re.match(r"www","www.sina.com").span())          # (0,3)
12 print(re.match(r"www","www.sina.com").groups())        # ()
13 print(re.match(r"WWW","www.sina.com"))                 # None
14 print(re.match(r"WWW","www.sina.com",flags=re.I))      # <_sre.SRE_Match object; span=(0, 3), match="www">
15 
16 
17 
18 line = "Cats are smarter than dogs"
19  
20 matchObj = re.match( r"(.*) are (.*?) .*", line, re.M|re.I)
21  
22 if matchObj:
23    print(matchObj.group())       # "Cats are smarter than dogs"
24    print(matchObj.group(1))      # "Cats"
25    print(matchObj.group(2))      # "smarter"
26    print(matchObj.groups())    # ("Cats","smarter")
27 else:
28    print("No match!!")

【补充】：第二种方式实现正则对数据的校验：re.compile函数

功能：compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：re.compile(regex[, flags])

参数：和match一样理解

【注意】compile 函数执行完毕以后返回给程序一个Pattern对象(理解：对象的内部封装了一套regex和flags)，可以再通过Pattern对象调用其match函数(此时的match函数只需要传递一个参数：string即可)

compile()配合match()使用演示：

1 import re
2 
3 pat = re.compile(r"www",flags=re.I)
4 print(pat）                        　　# re.compile("www", re.IGNORECASE) 
5 print(type(pat)))                     # 
6 print(pat.match("www.baidu.com"))     # <_sre.SRE_Match object; span=(0, 3), match="www">
7 
8 # 相当于 re.compile.match(r"www"，"www.baidu.com",flags=re.I）

【注意事项】：

1).正则表达式返回的索引值需要满足含头不含尾的特点

2).正则表达式验证的数据内容严格区分大小写

　3).之后在定义正则表达式的时候，在它的第一个引号前面，都显示的追加一个r，无脑行为...（转义字符）

2). re.search函数：

功能：从头开始尝试匹配，如果开头就匹配不成功，不会返回None值，会继续尝试往后匹配；一旦匹配成功了，就直接返回一个match对象，后续就算还存在可以匹配成功的子串数据，也不会再匹配了(直接无视)；如果直到最后都匹配不成功，返回一个None值。

语法格式：re.search(regex,string[,flags=0])

　参数：和match一样理解

【补充】：由于search函数调用返回的是match对象，所以仍然可以调用5个常用的函数

 1 import re
 2 
 3 print(re.match(r"www","hahawww.baidu.com!!www.qfedu.comhehe"))              # None
 4 print(re.search(r"www","hahawww.baidu.com!!www.qfedu.comhehe"))             # <_sre.SRE_Match object; span=(4, 7), match="www">
 5 print(re.search(r"www","hahawww.baidu.com!!www.qfedu.comhehe").group())     # www
 6 print(re.search(r"www","hahawww.baidu.com!!www.qfedu.comhehe").start())     # 4
 7 print(re.search(r"www","hahawww.baidu.com!!www.qfedu.comhehe").end())       # 7
 8 print(re.search(r"www","hahawww.baidu.com!!www.qfedu.comhehe").span())      # (4, 7)
 9 print(re.search(r"www","hahawww.baidu.com!!www.qfedu.comhehe").groups())    # ()
10 print(re.search(r"Www","hahawww.baidu.com!!www.qfedu.comhehe"))             # None
11 print(re.search(r"Www","hahawww.baidu.com!!www.qfedu.comhehe",flags=re.I))  # <_sre.SRE_Match object; span=(4, 7), match="www">

compile()配合search()使用演示：

1 import re
2 
3 pat = re.compile(r"www") 
4 mo = pat.search("Wwww.sina.com!!www.baidu.com!!www") 
5 
6 print(mo)      # <_sre.SRE_Match object; span=(1, 4), match="www">

3). re.findall函数：

功能：在字符串中找到所有匹配成功的子数据(子串)，都存入到列表中返回；如果一个都匹配不成功，那么返回一个空列表。

　语法格式：re.findall(regex,string[, pos[, endpos]][,flags=0])

　参数：pos：可选参数，指定字符串的起始位置，默认为 0

endpos ：可选参数，指定字符串的结束位置，默认为字符串的长度

　　其他参数和match、search一样理解

1 import re
2 
3 lt = re.findall(r"www","www.sina.com!!www.baidu.com")
4 print(lt,type(lt))        # ["www", "www"]    
5 
6 lt1 = re.findall(r"WWW","www.sina.com!!www.baidu.com!!WWW",flags=re.I)
7 print(lt1,type(lt1))      # ["www", "www", "WWW"]    
8

compile()配合search()使用演示：

 1 import re
 2 
 3 pat = re.compile(r"www",flags=re.I)
 4 lt = pat.findall("www.sina.com!!www.baidu.com!!WWW")
 5  
 6 print(lt)             # ["www", "www", "WWW"]
 7 
 8 
 9  
10 pattern = re.compile(r"d+")                                # 查找数字
11 result1 = pattern.findall("runoob 123 google 456")          # 不指定字符串的起始和结束位置
12 result2 = pattern.findall("run88oob123google456", 0, 10)    # 指定字符串的起始和结束位置
13  
14 print(result1)        # ["123", "456"]
15 print(result2)        # ["88", "12"]

4). re.finditer函数：

　功能：和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，但是将所有匹配成功的数据封装为一个一个的match对象，然后以iterator(迭代器对象)返回

语法格式：finditer(regex,string[,flags=0])

参数：和match、search、findall一样理解

 1 import re
 2 
 3 it = re.finditer("apple", "i hate apple apple apple  so much")
 4 
 5 # iterator(迭代器对象)不能直接使用内置函数len()执行查看其容量大小，会报错：TypeError; 但是可以先将其转换为容器对象(list、tuple...),就可以被len()所执行了；
 6 print(len(it))          # TypeError
 7 print(len(list(it)))    # 3
 8 
 9 # 使用遍历的思想去访问iterator中的元素
10 for i in it:
11     print(i)
12     print(type(i))
13     print(i.group())
14 
15 # <_sre.SRE_Match object; span=(7, 12), match="japan">
16 # 
17 # apple
18 
19 # <_sre.SRE_Match object; span=(13, 18), match="japan">
20 # 
21 # apple
22 
23 # <_sre.SRE_Match object; span=(19, 24), match="japan">
24 # 
25 # apple
26 
27 #迭代器对象中的内容只能被使用一次，不可逆，否则报错：StopIteration
28 # print(next(it))
29 
30 # 使用while循环来遍历iterator对象,结果和for......in..一样
31 while 1:
32     try:
33         mo = next(it)
34         print(mo)
35         print(mo.group())
36     except:
37         break

5). re.sub 函数：

功能：替换字符数据

语法格式：sub(regex,repl,string,[count],[flags=0])：返回字符串(已经被替换完成后的内容)

subn(regex,repl,string,[count],[flags=0])：返回元祖对象，此对象有两个元素；第一个元素记录了替换以后的字符串内容，第二个元素记录了被替换的次数(count)

参数：regex：正则规则(字符串)

　　　　 repl：替换成的字符串内容，也可为一个函数

　　　 string：原串数据

　　　 count：次数，模式匹配后替换的最大次数，默认为0 表示替换所有的匹配

 1 import re 
 2 
 3 str1 = re.sub("beijing", "shanghai", "i love beijing beijing beijing so much")
 4 print(str1,type(str1))       # i love shanghai shanghai shanghai so much 
 5 
 6 tp = re.subn("beijing", "shanghai", "i love beijing beijing beijing so much", 2)       # 2改成4也不会报错，就会全部替换
 7 print(tp,type(tp))           # ("i love shanghai shanghai beijing so much", 2) 
 8 
 9 
10 # 示例：模拟让游戏世界变得和谐(使用正则)
11 regex = r"CNM|MB|SB|NC|WQNMLGB|TMD|NND"
12 game = "WQNMLGB!!连装备都不会出...小学生！！SB..."
13 
14 s = re.sub(regex,"***",game)
15 print(s)      # ***!!连装备都不会出...小学生！！***...
16 
17   
18 # 示例：删除某些内容
19 phOne= "2004-959-559 # 这是一个国外电话号码"
20  
21 # 删除字符串中的Python注释 
22 num = re.sub(r"#.*$", "", phone)
23 print("电话号码是: ", num)      # 电话号码是:  2004-959-559 
24  
25 # 删除非数字(-)的字符串 
26 num = re.sub(r"D", "", phone)
27 print("电话号码是 : ", num)     # 电话号码是 :  2004959559
28 
29 
30 # 示例：repl参数是一个函数时，将字符串中的匹配的数字乘以 2
31 # 将匹配的数字乘以 2
32 def double(matched):
33     value = int(matched.group("value"))
34     return str(value * 2)
35  
36 s = "A23G4HFD567"
37 print(re.sub("(?Pd+)", double, s))    # A46G8HFD1134

【补充示例】：替换相关的操作

 1 str5 = "dsaf######32141asf#####dsafa#########()!,.___######21341##"
 2 
 3 # 将一个#替换成为一个-
 4 regex1 = r"#"    
 5 str6 = re.sub(regex1,"-",str5)
 6 print(str6)            # dsaf------32141asf-----dsafa---------()!,.___------21341--
 7 
 8 # 将一堆#替换成为一个-
 9 regex2 = r"#+"
10 tp = re.subn(regex2,"-",str5)
11 print(tp)              # ("dsaf-32141asf-dsafa-()!,.___-21341-", 5)

6). re.split 函数：

功能：按照能够匹配的子串将字符串分割后返回列表

语法格式：re.split(regex, string[, maxsplit=0, flags=0])

参数：maxsplit ：分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数

 1 import re 
 2 
 3 str1 = "i       love        shanghai    so  much"
 4 regex = r" +"                  # 切割空格,+表示一个到多个,有贪婪行为,把空格全切了
 5 lt = re.split(regex,str1)
 6 print(lt)                      # ["i", "love", "shanghai", "so", "much"]
 7 
 8 str2 = "i       love        shanghai    so  much"
 9 regex = r" +?"                 # 切割空格  +表示一个到多个, ?取消贪婪行为，能少切就少切
10 lt = re.split(regex,str2)
11 print(lt)                      # ["i", "", "", "", "", "", "", "love", "", "", "", "", "", "", "", "shanghai", "", "", "", "so", "", "much"]
12 
13 str3 = "dasfas23141sfa123dsafas13dasdfa1231241____3241234^&*&(dsafa
14 214331asdfa"
15 regex = r"d+?"
16 lt = re.split(regex,str3)
17 print(lt)    # ["dasfas", "", "", "", "", "sfa", "", "", "dsafas", "", "dasdfa", "", "", "", "", "", "", "____", "", "", "", "", "", "", "^&*&(dsafa", "", "", "", "", "", "asdfa"]
18 
19 regex1 = r"d+"
20 lt1 = re.split(regex1,str3)
21 print(lt1)   # ["dasfas", "sfa", "dsafas", "dasdfa", "____", "^&*&(dsafa", "asdfa"]

2. 正则表达式修饰符 - 可选标志（flags）

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

re.I：使匹配对大小写不敏感,忽略大小写

re.L：做本地化识别（locale-aware）匹配,表示特殊字符集 w, W, , B, s, S 依赖于当前环境

re.M：多行匹配，影响 ^ 和 $,多行模式

re.S：使.匹配包括换行在内的所有字符

re.U：根据Unicode字符集解析字符。这个标志影响 w, W, , B

re.X：该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解,即为了增加可读性，忽略空格和 # 后面的注释

3. 正则中元字符的使用

正则表达式模式：模式字符串使用特殊的语法来表示一个正则表达式：字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会拥有不同的含义。标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。反斜杠本身需要使用反斜杠转义。由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r" "，等价于 "\t")匹配相应的特殊字符。下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

匹配单个字符(数字、英文、其它...)符号位:

[ ]：表示一字符位

[9876123450]：表示一位，取值范围：[0,9]中间的任何一位值

[0-9]：表示一位，取值范围：[0,9]中间的任何一位值

d：表示一位，取值范围：[0,9]中间的任何一位值

D：对以上的d进行取反,意味着：匹配除了数字字符以外的所有字符

[24680]：表示一位，取值范围：2、4、6、8、0中的任何一个值

[abcdefg]：表示一位，取值范围：a、b、c、d、e、f、g中的任何一个值

[a-z]：表示一位，取值范围：[a,z]中的任何一个值

[A-Z]：表示一位，取值范围：[A,Z]中的任何一个值

[0-9a-zA-Z_]：表示一位，取值范围：0~9、a~z、A~Z以及_中的任何一个值

w：表示一位，取值范围：0~9、a~z、A~Z以及_中的任何一个值

W：对w进行取反操作，意味着：匹配除了0~9、a~z、A~Z以及_中的其它所有字符

.：匹配除了换行符以外的所有字符

匹配锚字符(边界字符)：

^：从字符串数据的头部开始匹配，在开启了多行模式的情况下(re.M)，它可以尝试匹配每一行的头部数据

$：从字符串数据的尾部开始匹配，在开启了多行模式的情况下(re.M)，它可以尝试匹配每一行的尾部数据

A：从字符串数据的头部开始匹配，在开启了多行模式的情况下(re.M)，它没有多行的概念，还是匹配第一行的头部数据

：从字符串数据的尾部开始匹配，在开启了多行模式的情况下(re.M)，它没有多行的概念，还是匹配最后一行的尾部数据

补充：

：尝试匹配边界(左侧、右侧)数据，如果一旦满足返回对象(match、list)

B：先舍弃规定边界的数据，然后一定满足从左侧开始匹配数据，...

匹配多个字符：

以下的一些x,y,n等都是变量名

1).模糊匹配：

x?：表示0个或者1个取值范围：[0,1]

x+：表示1个或者多个取值范围：[1,无穷大)

x*：表示0个或者多个取值范围：[0,无穷大)

2).精确匹配：

n{x}：将n匹配x次

n{x,}：将n最少有x次，最多无穷大范围：[x,无穷多)

n{x,y}：将n最少有x次，最多有y次范围：[x,y]

得到 None

推荐阅读

default
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新 2024-12-24 21:56:10
default
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
regex
字符串中特定字符的移除方法

本文介绍如何从字符串中移除大写、小写、特殊、数字和非数字字符，并提供了多种编程语言的实现示例。 ... [详细]

蜡笔小新 2024-12-22 00:08:06
list
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
regex
C＃字符串处理如何从字符串中获取路径和args - C# string handling how get path and args from a string

Ihaveastringwithquotesaroundthepathasfollows:我在路径周围有一个带引号的字符串,如下所示:C:\ProgramFiles(x ... [详细]

蜡笔小新 2024-12-23 16:21:52
list
深入解析Redis内存对象模型

本文详细介绍了Redis内存对象模型的关键知识点，包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析，帮助读者全面理解Redis内存管理机制。 ... [详细]

蜡笔小新 2024-12-23 14:50:23
list
PHP 实现网页内容抓取及数据解析

本文由杨勇和思远于2012年12月27日撰写，主要探讨了如何使用PHP进行网页内容抓取，特别是针对字符较多的网站。文章详细介绍了正则表达式失效的原因，并提供了优化方法，同时展示了如何抓取淘宝服饰栏、天气信息以及IP地址对应的地理位置。 ... [详细]

蜡笔小新 2024-12-23 11:27:18
regex
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04
list
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
yaml
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
controller
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10
sum
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
sum
优化局域网SSH连接延迟问题的解决方案

本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置，可以显著缩短SSH连接的时间。 ... [详细]

蜡笔小新 2024-12-25 11:31:48
regex
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
list
F# Interactive 中的数据格式化技巧：使用 AddPrinter 和 AddPrintTransformer 自定义输出

本文探讨了如何在 F# Interactive (FSI) 中通过 AddPrinter 和 AddPrintTransformer 方法自定义类型（尤其是集合类型）的输出格式，提供了详细的指南和示例代码。 ... [详细]

蜡笔小新 2024-12-22 12:09:23

渭南电信贺平

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章