当前位置: 开发笔记 > 编程语言 > 正文

pythonresub替换多个_Python正则表达式大全（上）

作者：achih | 来源：互联网 | 2023-10-09 20:13

正则表达式阅读本文需要6分钟Python正则表达式正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。re模块也提供了与这些方法功能完全

正则表达式

阅读本文需要6分钟

Python正则表达式

正则表达式是一个特殊的字符序列&＃xff0c;它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块也提供了与这些方法功能完全一致的函数&＃xff0c;这些函数使用一个模式字符串做为它们的第一个参数。

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式&＃xff0c;如果不是起始位置匹配成功的话&＃xff0c;match()就返回none。

函数语法&＃xff1a;

re.match(pattern, string, flags&＃61;0)

函数参数说明&＃xff1a;

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位&＃xff0c;用于控制正则表达式的匹配方式&＃xff0c;如&＃xff1a;是否区分大小写&＃xff0c;多行匹配等等。

匹配成功re.match方法返回一个匹配的对象&＃xff0c;否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num&＃61;0)	匹配的整个表达式的字符串&＃xff0c;group() 可以一次输入多个组号&＃xff0c;在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组&＃xff0c;从 1 到所含的小组号。

实例&＃xff1a;

import re line &＃61; "I really like you yesterday" matchObj &＃61; re.match( r&＃39;(.*) really (.*?) .*&＃39;, line)

print ("matchObj.group() : ", matchObj.group())

print ("matchObj.group(1) : ", matchObj.group(1))

print ("matchObj.group(2) : ", matchObj.group(2))

以上实例执行结果如下&＃xff1a;

matchObj.group() : I really like you yesterdaymatchObj.group(1) : ImatchObj.group(2) : like

re.search方法

re.search 会在字符串内查找模式匹配&＃xff0c;直到找到第一个匹配。

函数语法&＃xff1a;

re.search(pattern, string, flags&＃61;0)

函数参数说明&＃xff1a;

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位&＃xff0c;用于控制正则表达式的匹配方式&＃xff0c;如&＃xff1a;是否区分大小写&＃xff0c;多行匹配等等。

匹配成功re.search方法返回一个匹配的对象&＃xff0c;否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num&＃61;0)	匹配的整个表达式的字符串&＃xff0c;group() 可以一次输入多个组号&＃xff0c;在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组&＃xff0c;从 1 到所含的小组号。

实例&＃xff1a;

#!/usr/bin/pythonimport re line &＃61; "I really like you yesterday"; searchObj &＃61; re.search(r&＃39;(.*) really (.*?) .*&＃39;, line)print ("searchObj.group() : ", searchObj.group())print ("searchObj.group(1) : ", searchObj.group(1))print ("searchObj.group(2) : ", searchObj.group(2))

以上实例执行结果如下&＃xff1a;

searchObj.group() : I really like you yesterday searchObj.group(1) : I searchObj.group(2) : love

re.match与re.search的区别

re.match只匹配字符串的开始&＃xff0c;如果字符串开始不符合正则表达式&＃xff0c;则匹配失败&＃xff0c;函数返回None&＃xff1b;而re.search匹配整个字符串&＃xff0c;直到找到一个匹配。

实例&＃xff1a;

#!/usr/bin/pythonline &＃61;

以上实例运行结果如下&＃xff1a;

No match!! search --> matchObj.group() : love

检索和替换

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

语法&＃xff1a;

re.sub(pattern, repl, string, max&＃61;0)

返回的字符串是在字符串中用 RE 最左边不重复的匹配来替换。如果模式没有发现&＃xff0c;字符将被没有改变地返回。

可选参数 count 是模式匹配后替换的最大次数&＃xff1b;count 必须是非负整数。缺省值是 0 表示替换所有的匹配。

实例&＃xff1a;

import re phone &＃61; "2004-959-559 # 这是一个国外电话号码" # 删除字符串中的 Python注释 num &＃61; re.sub(r&＃39;#.*$&＃39;, "", phone) print("电话号码是: ", num) # 删除非数字(-)的字符串 num &＃61; re.sub(r&＃39;\D&＃39;, "", phone) print("电话号码是 : ", num)

以上实例执行结果如下&＃xff1a;

电话号码 : 2004-959-559 电话号码 : 2004959559

repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘以 2&＃xff1a;

实例&＃xff1a;

import re # 将匹配的数字乘以 2 def double(matched): value &＃61; int(matched.group(&＃39;value&＃39;)) return str(value * 2) s &＃61; &＃39;A23G4HFD567&＃39; print(re.sub(&＃39;(?P\d&＃43;)&＃39;, double, s))

执行输出结果为&＃xff1a;

A46G8HFD1134

re.compile 函数

compile 函数用于编译正则表达式&＃xff0c;生成一个正则表达式( Pattern )对象&＃xff0c;供 match() 和 search() 这两个函数使用。

语法格式为&＃xff1a;

re.compile(pattern[, flags])

参数&＃xff1a;

pattern : 一个字符串形式的正则表达式
flags : 可选&＃xff0c;表示匹配模式&＃xff0c;比如忽略大小写&＃xff0c;多行模式等&＃xff0c;具体参数为&＃xff1a;

re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性&＃xff0c;忽略空格和 # 后面的注释

实例

>>>import re >>> pattern &＃61; re.compile(r&＃39;\d&＃43;&＃39;) # 用于匹配至少一个数字 >>> m &＃61; pattern.match(&＃39;one12twothree34four&＃39;) # 查找头部&＃xff0c;没有匹配 >>> print (m) None >>> m &＃61; pattern.match(&＃39;one12twothree34four&＃39;, 2, 10) # 从&＃39;e&＃39;的位置开始匹配&＃xff0c;没有匹配 >>> print (m) None >>> m &＃61; pattern.match(&＃39;one12twothree34four&＃39;, 3, 10) # 从&＃39;1&＃39;的位置开始匹配&＃xff0c;正好匹配 >>> print (m) # 返回一个 Match 对象 <_sre.sre_match object at>0x10a42aac0>>>> m.group(0) # 可省略 0&＃39;12&＃39;>>> m.start(0) # 可省略 03>>> m.end(0) # 可省略 05>>> m.span(0) # 可省略 0 (3, 5)

在上面&＃xff0c;当匹配成功时返回一个 Match 对象&＃xff0c;其中&＃xff1a;

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串&＃xff0c;当要获得整个匹配的子串时&＃xff0c;可直接使用 group() 或 group(0)&＃xff1b;
start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引)&＃xff0c;参数默认值为 0&＃xff1b;
end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引&＃43;1)&＃xff0c;参数默认值为 0&＃xff1b;
span([group]) 方法返回 (start(group), end(group))。

再看看一个例子&＃xff1a;

>>>import re >>> pattern &＃61; re.compile(r&＃39;([a-z]&＃43;) ([a-z]&＃43;)&＃39;, re.I) # re.I 表示忽略大小写 >>> m &＃61; pattern.match(&＃39;Hello World Wide Web&＃39;) >>> print (m) # 匹配成功&＃xff0c;返回一个 Match 对象 <_sre.sre_match object at>0x10bea83e8>>>> m.group(0) # 返回匹配成功的整个子串&＃39;Hello World&＃39;>>> m.span(0) # 返回匹配成功的整个子串的索引 (0, 11)>>> m.group(1) # 返回第一个分组匹配成功的子串&＃39;Hello&＃39;>>> m.span(1) # 返回第一个分组匹配成功的子串的索引 (0, 5)>>> m.group(2) # 返回第二个分组匹配成功的子串&＃39;World&＃39;>>> m.span(2) # 返回第二个分组匹配成功的子串 (6, 11)>>> m.groups() # 等价于 (m.group(1), m.group(2), ...) (&＃39;Hello&＃39;, &＃39;World&＃39;)>>> m.group(3) # 不存在第三个分组 Traceback (most recent call last): File "", line 1, in IndexError: no such group

findall

在字符串中找到正则表达式所匹配的所有子串&＃xff0c;并返回一个列表&＃xff0c;如果没有找到匹配的&＃xff0c;则返回空列表。

注意&＃xff1a;match 和 search 是匹配一次 findall 匹配所有。

语法格式为&＃xff1a;

findall(string[, pos[, endpos]])

参数&＃xff1a;

string : 待匹配的字符串。
pos : 可选参数&＃xff0c;指定字符串的起始位置&＃xff0c;默认为 0。
endpos : 可选参数&＃xff0c;指定字符串的结束位置&＃xff0c;默认为字符串的长度。

查找字符串中的所有数字&＃xff1a;

import re pattern &＃61; re.compile(r&＃39;\d&＃43;&＃39;) # 查找数字 result1 &＃61; pattern.findall(&＃39;school 123 google 456&＃39;) result2 &＃61; pattern.findall(&＃39;sch88ool123google456&＃39;, 0, 10)print(result1) print(result2)

输出结果&＃xff1a;

[&＃39;123&＃39;, &＃39;456&＃39;] [&＃39;88&＃39;, &＃39;12&＃39;]

re.finditer

和 findall 类似&＃xff0c;在字符串中找到正则表达式所匹配的所有子串&＃xff0c;并把它们作为一个迭代器返回。

re.finditer(pattern, string, flags&＃61;0)

参数&＃xff1a;

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位&＃xff0c;用于控制正则表达式的匹配方式&＃xff0c;如&＃xff1a;是否区分大小写&＃xff0c;多行匹配等等。

实例&＃xff1a;

import re it &＃61; re.finditer(r"\d&＃43;","12a32bc43jf3") for match in it: print (match.group() )

输出结果&＃xff1a;

12 32 43 3

re.split

split 方法按照能够匹配的子串将字符串分割后返回列表&＃xff0c;它的使用形式如下&＃xff1a;

re.split(pattern, string[, maxsplit&＃61;0, flags&＃61;0])

参数&＃xff1a;

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
maxsplit	分隔次数&＃xff0c;maxsplit&＃61;1 分隔一次&＃xff0c;默认为 0&＃xff0c;不限制次数。
flags	标志位&＃xff0c;用于控制正则表达式的匹配方式&＃xff0c;如&＃xff1a;是否区分大小写&＃xff0c;多行匹配等等。

实例&＃xff1a;

>>>import re >>> re.split(&＃39;\W&＃43;&＃39;, &＃39;school, school, chool.&＃39;) [&＃39;runoob&＃39;, &＃39;runoob&＃39;, &＃39;w3cschool&＃39;, &＃39;&＃39;] >>> re.split(&＃39;(\W&＃43;)&＃39;, &＃39; school, school, school.&＃39;) [&＃39;&＃39;, &＃39; &＃39;, &＃39;runoob&＃39;, &＃39;, &＃39;, &＃39;school&＃39;, &＃39;, &＃39;, &＃39;school&＃39;, &＃39;.&＃39;, &＃39;&＃39;] >>> re.split(&＃39;\W&＃43;&＃39;, &＃39; w3cschool, w3cschool, w3cschool.&＃39;, 1) [&＃39;&＃39;, &＃39;school, school, school.&＃39;] >>> re.split(&＃39;a*&＃39;, &＃39;hello world&＃39;) # 对于一个找不到匹配的字符串而言&＃xff0c;split 不会对其作出分割 [&＃39;hello world&＃39;]请看下面一篇

岁月有你&＃xff0c;惜惜相处

扫码关注我们

在看的&＃xff0c;麻烦点一下再走好吗

推荐阅读

io
Python内置模块详解：正则表达式re模块的应用与解析

正则表达式是一种强大的文本处理工具，通过特定的字符序列来定义搜索模式。本文详细介绍了Python内置的`re`模块，探讨了其在字符串匹配、验证和提取中的应用。例如，可以通过正则表达式验证电子邮件地址、电话号码、QQ号、密码、URL和IP地址等。此外，文章还深入解析了`re`模块的各种函数和方法，提供了丰富的示例代码，帮助读者更好地理解和使用这一工具。 ... [详细]

蜡笔小新 2024-11-07 17:25:01
schema
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
io
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
format
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
io
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
io
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
format
在Python中利用序列号字符串进行模式替换的高效方法

本文探讨了在Python中使用序列号字符串进行高效模式替换的方法。具体而言，通过将HTML标签中的`&`替换为`{n}`，并生成形如`[tag, {n}]`的哈希原始字符串。示例字符串为：“这是一个字符串。这是另一部分。”该方法能够有效提升替换操作的性能和可读性。 ... [详细]

蜡笔小新 2024-11-07 19:42:59
io
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
io
Python HTML 过滤处理实例解析：深入探讨代码实现与应用场景

本文深入解析了Python在处理HTML过滤时的实现方法及其应用场景。通过具体实例，详细介绍了如何利用Python代码去除HTML字符串中的标签和其他无关信息，确保内容的纯净与安全。此外，文章还探讨了该技术在网页抓取、数据清洗等领域的实际应用，为开发者提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-05 08:23:37
io
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
io
开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤

开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤 ... [详细]

蜡笔小新 2024-11-11 17:13:04
io
如何使用Python去除字符串中的非中文字符[Python编程技巧]

在 Python 中，可以通过正则表达式来实现去除字符串中的非中文字符。具体方法是使用 `re` 模块中的 `re.sub()` 函数，配合正则表达式 `[^u4e00-u9fa5]` 来匹配并替换掉所有非中文字符，从而保留字符串中的中文部分。这种方法简洁高效，适用于多种文本处理场景。 ... [详细]

蜡笔小新 2024-11-07 15:30:50
数组
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
io
Node.js 配置文件管理方法详解与最佳实践

本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践，涵盖常见的配置文件格式及其优缺点，并提供了多种实用技巧和示例代码，帮助开发者高效地管理和维护项目配置，具有较高的参考价值。 ... [详细]

蜡笔小新 2024-11-05 06:40:19
数组
紧急求助！如何运用正则表达式（regexp）进行高效匹配操作？

如何利用正则表达式（regexp）实现高效的模式匹配？本文探讨了正则表达式在编程中的应用，并分析了一个示例程序中存在的问题。通过具体的代码示例，指出该程序在定义和使用正则表达式时的不当之处，旨在帮助读者更好地理解和应用正则表达式技术。 ... [详细]

蜡笔小新 2024-11-04 16:53:48

achih

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章