热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

12.使用正则表达式

使用正则表达式正则表达式相关知识在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要,正则表达式就是用于描述这些规则的工具&#

使用正则表达式


正则表达式相关知识

在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要,正则表达式就是用于描述这些规则的工具,换句话说正则表达式是一种工具,它定义了字符串的匹配模式(如何检查一个字符串是否有跟某种模式匹配的部分或者从一个字符串中将与模式匹配的部分提取出来或者替换掉)。如果你在Windows操作系统中使用过文件查找并且在指定文件名时使用过通配符(*和?),那么正则表达式也是与之类似的用来进行文本匹配的工具,只不过比起通配符正则表达式更强大,它能更精确地描述你的需求(当然你付出的代价是书写一个正则表达式比打出一个通配符要复杂得多,要知道任何给你带来好处的东西都是有代价的,就如同学习一门编程语言一样),比如你可以编写一个正则表达式,用来查找所有以0开头,后面跟着2-3个数字,然后是一个连字号“-”,最后是7或8位数字的字符串(像028-12345678或0813-7654321),这不就是国内的座机号码吗。最初计算机是为了做数学运算而诞生的,处理的信息基本上都是数值,而今天我们在日常工作中处理的信息基本上都是文本数据,我们希望计算机能够识别和处理符合某些模式的文本,正则表达式就显得非常重要了。今天几乎所有的编程语言都提供了对正则表达式操作的支持,Python通过标准库中的re模块来支持正则表达式操作。

我们可以考虑下面一个问题:我们从某个地方(可能是一个文本文件,也可能是网络上的一则新闻)获得了一个字符串,希望在字符串中找出手机号和座机号。当然我们可以设定手机号是11位的数字(注意并不是随机的11位数字,因为你没有见过“25012345678”这样的手机号吧)而座机号跟上一段中描述的模式相同,如果不使用正则表达式要完成这个任务就会很麻烦。

关于正则表达式的相关知识,大家可以阅读一篇非常有名的博客叫《正则表达式30分钟入门教程》,读完这篇文章后你就可以看懂下面的表格,这是我们对正则表达式中的一些基本符号进行的扼要总结。

符号解释示例说明
.匹配任意字符b.t可以匹配bat / but / b#t / b1t等
\w匹配字母/数字/下划线b\wt可以匹配bat / b1t / b_t等
但不能匹配b#t
\s匹配空白字符(包括\r、\n、\t等)love\syou可以匹配love you
\d匹配数字\d\d可以匹配01 / 23 / 99等
\b匹配单词的边界\bThe\b
^匹配字符串的开始^The可以匹配The开头的字符串
$匹配字符串的结束.exe$可以匹配.exe结尾的字符串
\W匹配非字母/数字/下划线b\Wt可以匹配b#t / b@t等
但不能匹配but / b1t / b_t等
\S匹配非空白字符love\Syou可以匹配love#you等
但不能匹配love you
\D匹配非数字\d\D可以匹配9a / 3# / 0F等
\B匹配非单词边界\Bio\B
[]匹配来自字符集的任意单一字符[aeiou]可以匹配任一元音字母字符
[^]匹配不在字符集中的任意单一字符[^aeiou]可以匹配任一非元音字母字符
*匹配0次或多次\w*
+匹配1次或多次\w+
?匹配0次或1次\w?
{N}匹配N次\w{3}
{M,}匹配至少M次\w{3,}
{M,N}匹配至少M次至多N次\w{3,6}
|分支foo|bar可以匹配foo或者bar
(?#)注释
(exp)匹配exp并捕获到自动命名的组中
(?exp)匹配exp并捕获到名为name的组中
(?:exp)匹配exp但是不捕获匹配的文本
(?=exp)匹配exp前面的位置\b\w+(?=ing)可以匹配I’m dancing中的danc
(?<&#61;exp)匹配exp后面的位置(?<&#61;\bdanc)\w&#43;\b可以匹配I love dancing and reading中的第一个ing
(?!exp)匹配后面不是exp的位置
(?匹配前面不是exp的位置
*?重复任意次&#xff0c;但尽可能少重复a.*b
a.*?b
将正则表达式应用于aabab&#xff0c;前者会匹配整个字符串aabab&#xff0c;后者会匹配aab和ab两个字符串
&#43;?重复1次或多次&#xff0c;但尽可能少重复
??重复0次或1次&#xff0c;但尽可能少重复
{M,N}?重复M到N次&#xff0c;但尽可能少重复
{M,}?重复M次以上&#xff0c;但尽可能少重复

说明&#xff1a; 如果需要匹配的字符是正则表达式中的特殊字符&#xff0c;那么可以使用\进行转义处理&#xff0c;例如想匹配小数点可以写成\.就可以了&#xff0c;因为直接写.会匹配任意字符&#xff1b;同理&#xff0c;想匹配圆括号必须写成\(和\)&#xff0c;否则圆括号被视为正则表达式中的分组。


Python对正则表达式的支持

Python提供了re模块来支持正则表达式相关操作&#xff0c;下面是re模块中的核心函数。

函数说明
compile(pattern, flags&#61;0)编译正则表达式返回正则表达式对象
match(pattern, string, flags&#61;0)用正则表达式匹配字符串 成功返回匹配对象 否则返回None
search(pattern, string, flags&#61;0)搜索字符串中第一次出现正则表达式的模式 成功返回匹配对象 否则返回None
split(pattern, string, maxsplit&#61;0, flags&#61;0)用正则表达式指定的模式分隔符拆分字符串 返回列表
sub(pattern, repl, string, count&#61;0, flags&#61;0)用指定的字符串替换原字符串中与正则表达式匹配的模式 可以用count指定替换的次数
fullmatch(pattern, string, flags&#61;0)match函数的完全匹配&#xff08;从字符串开头到结尾&#xff09;版本
findall(pattern, string, flags&#61;0)查找字符串所有与正则表达式匹配的模式 返回字符串的列表
finditer(pattern, string, flags&#61;0)查找字符串所有与正则表达式匹配的模式 返回一个迭代器
purge()清除隐式编译的正则表达式的缓存
re.I / re.IGNORECASE忽略大小写匹配标记
re.M / re.MULTILINE多行匹配标记

说明&#xff1a; 上面提到的re模块中的这些函数&#xff0c;实际开发中也可以用正则表达式对象的方法替代对这些函数的使用&#xff0c;如果一个正则表达式需要重复的使用&#xff0c;那么先通过compile函数编译正则表达式并创建出正则表达式对象无疑是更为明智的选择。

下面我们通过一系列的例子来告诉大家在Python中如何使用正则表达式。

例子1&#xff1a;验证输入用户名和QQ号是否有效并给出对应的提示信息。

"""
验证输入用户名和QQ号是否有效并给出对应的提示信息要求&#xff1a;用户名必须由字母、数字或下划线构成且长度在6~20个字符之间&#xff0c;QQ号是5~12的数字且首位不能为0
"""
import redef main():username &#61; input(&#39;请输入用户名: &#39;)qq &#61; input(&#39;请输入QQ号: &#39;)# match函数的第一个参数是正则表达式字符串或正则表达式对象# 第二个参数是要跟正则表达式做匹配的字符串对象m1 &#61; re.match(r&#39;^[0-9a-zA-Z_]{6,20}$&#39;, username)if not m1:print(&#39;请输入有效的用户名.&#39;)m2 &#61; re.match(r&#39;^[1-9]\d{4,11}$&#39;, qq)if not m2:print(&#39;请输入有效的QQ号.&#39;)if m1 and m2:print(&#39;你输入的信息是有效的!&#39;)if __name__ &#61;&#61; &#39;__main__&#39;:main()

提示&#xff1a; 上面在书写正则表达式时使用了“原始字符串”的写法&#xff08;在字符串前面加上了r&#xff09;&#xff0c;所谓“原始字符串”就是字符串中的每个字符都是它原始的意义&#xff0c;说得更直接一点就是字符串中没有所谓的转义字符啦。因为正则表达式中有很多元字符和需要进行转义的地方&#xff0c;如果不使用原始字符串就需要将反斜杠写作\\&#xff0c;例如表示数字的\d得书写成\\d&#xff0c;这样不仅写起来不方便&#xff0c;阅读的时候也会很吃力。


例子2&#xff1a;从一段文字中提取出国内手机号码。

下面这张图是截止到2017年底&#xff0c;国内三家运营商推出的手机号段。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZuwVDaMJ-1615633568776)(./res/tel-start-number.png)]

import redef main():# 创建正则表达式对象 使用了前瞻和回顾来保证手机号前后不应该出现数字pattern &#61; re.compile(r&#39;(?<&#61;\D)1[34578]\d{9}(?&#61;\D)&#39;)sentence &#61; &#39;&#39;&#39;重要的事情说8130123456789遍&#xff0c;我的手机号是13512346789这个靓号&#xff0c;不是15600998765&#xff0c;也是110或119&#xff0c;王大锤的手机号才是15600998765。&#39;&#39;&#39;# 查找所有匹配并保存到一个列表中mylist &#61; re.findall(pattern, sentence)print(mylist)print(&#39;--------华丽的分隔线--------&#39;)# 通过迭代器取出匹配对象并获得匹配的内容for temp in pattern.finditer(sentence):print(temp.group())print(&#39;--------华丽的分隔线--------&#39;)# 通过search函数指定搜索位置找出所有匹配m &#61; pattern.search(sentence)while m:print(m.group())m &#61; pattern.search(sentence, m.end())if __name__ &#61;&#61; &#39;__main__&#39;:main()

说明&#xff1a; 上面匹配国内手机号的正则表达式并不够好&#xff0c;因为像14开头的号码只有145或147&#xff0c;而上面的正则表达式并没有考虑这种情况&#xff0c;要匹配国内手机号&#xff0c;更好的正则表达式的写法是&#xff1a;(?<&#61;\D)(1[38]\d{9}|14[57]\d{8}|15[0-35-9]\d{8}|17[678]\d{8})(?&#61;\D)&#xff0c;国内最近好像有19和16开头的手机号了&#xff0c;但是这个暂时不在我们考虑之列。


例子3&#xff1a;替换字符串中的不良内容

import redef main():sentence &#61; &#39;你丫是傻叉吗? 我操你大爷的. Fuck you.&#39;purified &#61; re.sub(&#39;[操肏艹]|fuck|shit|傻[比屄逼叉缺吊屌]|煞笔&#39;,&#39;*&#39;, sentence, flags&#61;re.IGNORECASE)print(purified) # 你丫是*吗? 我*你大爷的. * you.if __name__ &#61;&#61; &#39;__main__&#39;:main()

说明&#xff1a; re模块的正则表达式相关函数中都有一个flags参数&#xff0c;它代表了正则表达式的匹配标记&#xff0c;可以通过该标记来指定匹配时是否忽略大小写、是否进行多行匹配、是否显示调试信息等。如果需要为flags参数指定多个值&#xff0c;可以使用按位或运算符进行叠加&#xff0c;如flags&#61;re.I | re.M


例子4&#xff1a;拆分长字符串

import redef main():poem &#61; &#39;窗前明月光&#xff0c;疑是地上霜。举头望明月&#xff0c;低头思故乡。&#39;sentence_list &#61; re.split(r&#39;[&#xff0c;。, .]&#39;, poem)while &#39;&#39; in sentence_list:sentence_list.remove(&#39;&#39;)print(sentence_list) # [&#39;窗前明月光&#39;, &#39;疑是地上霜&#39;, &#39;举头望明月&#39;, &#39;低头思故乡&#39;]if __name__ &#61;&#61; &#39;__main__&#39;:main()

后话

如果要从事爬虫类应用的开发&#xff0c;那么正则表达式一定是一个非常好的助手&#xff0c;因为它可以帮助我们迅速的从网页代码中发现某种我们指定的模式并提取出我们需要的信息&#xff0c;当然对于初学者来收&#xff0c;要编写一个正确的适当的正则表达式可能并不是一件容易的事情&#xff08;当然有些常用的正则表达式可以直接在网上找找&#xff09;&#xff0c;所以实际开发爬虫应用的时候&#xff0c;有很多人会选择Beautiful Soup或Lxml来进行匹配和信息的提取&#xff0c;前者简单方便但是性能较差&#xff0c;后者既好用性能也好&#xff0c;但是安装稍嫌麻烦&#xff0c;这些内容我们会在后期的爬虫专题中为大家介绍。


推荐阅读
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了在Windows环境下如何配置php+apache环境,包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]
  • Android源码深入理解JNI技术的概述和应用
    本文介绍了Android源码中的JNI技术,包括概述和应用。JNI是Java Native Interface的缩写,是一种技术,可以实现Java程序调用Native语言写的函数,以及Native程序调用Java层的函数。在Android平台上,JNI充当了连接Java世界和Native世界的桥梁。本文通过分析Android源码中的相关文件和位置,深入探讨了JNI技术在Android开发中的重要性和应用场景。 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
author-avatar
dsjdsjdsjjk_896
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有