在Python中使用正则表达式的方法

作者：嗯啊发送到法国_574 | 来源：互联网 | 2018-07-18 06:27

这篇文章主要介绍了在Python中使用正则表达式的方法,讲到了专门对正则表达式提供支持的扩展库re,需要的朋友可以参考下

正则表达式(regular expression)是一种用形式化语法描述的文本匹配模式。在需要处理大量文本处理的应用中有广泛的使用，我没使用的编辑器，IDE中的搜索常用正则表达式作为搜索模式。玩过*nix系统的都知道如sed，grep,awk这类的命令，他们是非常强大的文本处理工具。几乎所有的语言都有对正则表达式的支持，有的直接在语法中支持，有的使用扩展库的形式。python使用的就是扩展库re。

re.search(pattern,string,flag=0)

搜索文本中的匹配的模式是最常用的.以模式和文本作为输入，如果有匹配则返回一个Match对象，反之返回None。
每个Match对象包括相关的匹配信息:原字符串、正则表达式和匹配的文本在字符串中的位置。

import re 
pattern = "this" 
text = "Does this text match the pattern&＃63;" 
match = re.search(pattern, text) # 返回一个Match对象 
print match.re.pattern # 要匹配的正则表达式"this"
print match.string   # 匹配的文本"Does this match the pattern&＃63;" 
print match.start()   # 匹配的开始位置 5
print match.end()    # 匹配的结束位置 9

re.compile(pattern,flag=0)
如果程序中频繁的使用到同一个正则表达式，每次使用的时候都写一遍正则表达式不仅不高效而且会大大增加出错的几率,re提供了compile函数将一个表达式字符串编译为一个RegexObject。
模块级函数会维护已编译表达式的一个缓存，而这个缓存是的大小是有限制的。直接使用已经编译的表达式可以避免缓存查找的开销，并且在加载模块时就会预编译所有的表达式。

import re 
regex = re.compile("this") 
text = "Does this text match the pattern&＃63;" 
match = regex.search(text) 
if match: 
  print "match" 
  match.group(0)  #返回匹配的字符串  
else:
  print "not match"

re.findall(pattern, string, flag=0)
使用search会返回匹配的单个实例，使用findall会返回所有匹配的不重叠的子串。

import re 
pattern = 'ab' 
text = 'abbaaabbbbaaaaaa' 
re.findall(pattern, text)  # 返回['ab', 'ab']

re.finditer(pattern, string, flag=0)
finditer会返回一个迭代器，会生成Match实例，不像findall()返回字符串.

import re 
pattern = 'ab' 
text = 'abbaaabbbbaaaaaa' 
match = re.finditer(pattern, text)  
for m in match:
  print m.start() 
  print m.end()

以上的例子会分别输出两次匹配结果的起始位置和结束位置。

正则匹配默认采用的是贪婪算法，也就是说会re在匹配的时候会利用尽可能多的输入，而使用？可以关闭这种贪心行为，只匹配最少的输入。这之前先说下量词。

量词是为了简化正则表达式的读写而定义的，通用的形式是{m,n},这表示匹配的个数至少是m，最多是n，在','之后不能有空格，否则会出错，并且均为闭区间。

{n} 之前的元素必须出现n次
{m,n} 之前元素最少出现m次，最多n次
{m,} 之前的元素最少出现m次，无上限
{0,n} 之前的元素可以不出现，也可以出现，出现的话最多出现n次

除了之上，还有三个常用的量词*,&＃63;和+

* 等价于{0,}
+ 等价于{1,}
\&＃63; 等价于{0,1}

还有^和$，分别表示段或者字符串的开始与结束。

import re 
re.search("^travell&＃63;er$", "traveler")  # True 
re.search("^travell&＃63;er$", "traveller")  # True  
re.search("^ab\*", "abbbbbbb")      # True,返回"abbbbbbb" 
re.search("^ab\*&＃63;", "abbbbbbb")     # True,返回"a" 
re.search("^ab+", "abbbbbbb")      # True,返回"abbbbbbb" 
re.search("^ab+&＃63;", "abbbbbbb")      # True,返回"ab"

对于一些预定义的字符集可以使用转义码可以更加紧凑的表示，re可以识别的转义码有3对，6个，分别为三个字母的大小写，他们的意义是相反的。

\d : 一个数字
\D : 一个非数字
\w : 字母或者数字
\W : 非字母，非数字
\s : 空白符（制表符，空格，换行符等）
\S : 非空白符

如果想指定匹配的内容在文本的相对位置，可以使用锚定，跟转义码类似。

^ 字符或行的开始
$ 字符或行的结束
\A 字符串的开始
\Z 字符串结束
\b 一个单词开头或者末尾的空串
\B 不在一个单词开头或末尾的空串

import re
the_str = "This is some text -- with punctuation" 
re.search(r'^\w+', the_str).group(0)    # This
re.search(r'\A\w+', the_str).group(0)   # This 
re.search(r'\w+\S*$', the_str).group(0)  # punctuation 
re.search(r'\w+\S*\Z', the_str).group(0)  # punctuation 
re.search(r'\w*t\W*', the_str).group(0)  # text -- 
re.search(r'\bt\w+', the_str).group(0)   # text 
re.search(r'\Bt*\B', the_str).group(0)   # 没有匹配

用组来解析匹配，简单的说就是在一个正则表达式中有几个小括号()将匹配的表达式分成不同的组，使用group()函数来获取某个组的匹配，其中0为整个正则表达式所匹配的内容，后面从1开始从左往右依次获取每个组的匹配，即每个小括号中的匹配。使用groups()可以获取所有的匹配内容。

import re 
the_str = "--aabb123bbaa" 
pattern = r'(\W+)([a-z]+)(\d+)(\D+)' 
match = re.search(pattern, the_str)  
match.groups()  # ('--', 'aabb', '123', 'bbaa') 
match.group(0)  # '--aabb123bbaa' 
match.group(1)  # '--' 
match.group(2)  # 'aabb' 
match.group(3)  # '123' 
match.group(4)  # 'bbaa'

python对分组的语法做了扩展，我们可以对每个分组进行命名，这样便可以使用名称来调用。语法:(&＃63;Ppattern),使用groupdict()可以返回一个包含了组名的字典。

import re 
the_str = "--aabb123bbaa" 
pattern = r'(&＃63;P\W+)(&＃63;P[a-z]+)(&＃63;P\d+)(&＃63;P\D+)' 
match = re.search(pattern, the_str)  
match.groups()  # ('--', 'aabb', '123', 'bbaa') 
match.groupdict() # {'not_al_and_num': '--', 'not_num': 'bbaa', 'num': '123', 'al': 'aabb'} 
match.group(0)          # '--aabb123bbaa' 
match.group(1)          # '--' 
match.group(2)          # 'aabb' 
match.group(3)          # '123' 
match.group(4)          # 'bbaa'  
match.group('not_al_and_num')  # '--'
match.group('al')         # 'aabb' 
match.group('num')        # '123' '
match.group('not_num')      # 'bbaa'

以上的group()方法在使用的时候需要注意，只有在有匹配的时候才会正常运行，否则会抛错，所以在不能保证有匹配而又要输出匹配结果的时候，必须做校验。

在re中可以设置不通的标志，也就是search()和compile()等中都包含的缺省变量flag。使用标志可以进行完成一些特殊的要求，如忽略大小写，多行搜索等。

import re 
the_str = "this Text" 
re.findall(r'\bt\w+', the_str)  # ['this'] 
re.findall(r'\bt\w+', the_str, re.IGNORECASE) # ['this', 'Text']

推荐阅读

settings
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
string
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
io
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
io
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
io
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
io
Python 列表切片详解与应用

本文深入探讨了 Python 列表切片的基本概念和实际应用，通过具体示例展示了不同切片方式的使用方法及其背后的逻辑。 ... [详细]

蜡笔小新 2024-12-26 16:46:25
io
Understanding Life: A Forward-Living, Backward-Reflecting Paradox

Søren Kierkegaard famously stated that life can only be understood in retrospect but must be lived moving forward. This perspective delves into the intricate relationship between our lived experiences and our reflections on them. ... [详细]

蜡笔小新 2024-12-28 10:17:59
io
Go语言基础：Hello World 实践

本文将介绍如何使用 Go 语言编写和运行一个简单的“Hello, World!”程序。内容涵盖开发环境配置、代码结构解析及执行步骤。 ... [详细]

蜡笔小新 2024-12-27 21:29:35
io
如何在PostgreSQL中查看数据表

本文将指导您使用pgAdmin工具连接到PostgreSQL数据库，并展示如何浏览和查找其中的数据表。通过简单的步骤，您可以轻松访问所需的表结构和数据。 ... [详细]

蜡笔小新 2024-12-26 19:55:24
io
离线环境下的Python及其第三方库安装指南

在项目开发中，有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库，确保开发工作的顺利进行。 ... [详细]

蜡笔小新 2024-12-26 19:51:48
client
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
join
Python 提取和替换 Word 文档中的图片

本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件，通过解压可以访问其中的图片资源。此外，我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]

蜡笔小新 2024-12-26 18:52:14
io
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
io
深入浅出：Google工程师的算法学习指南

通过Google工程师的专业视角，带你系统掌握算法的核心概念与实践技巧。 ... [详细]

蜡笔小新 2024-12-26 16:49:25
io
K-Medoids聚类算法解析

本文详细介绍了K-Medoids聚类算法，这是一种基于划分的聚类方法，适用于处理大规模数据集。文章探讨了其优点、缺点以及具体实现步骤，并通过实例进行说明。 ... [详细]

蜡笔小新 2024-12-26 16:43:45

嗯啊发送到法国_574

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章