热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python正则表达式入门_Python正则表达式入门

2010-10-2611:23:03出处:https:www.yqdown.com正则表达式是一种极其有用的文本处理技能,不过用起来有一定的难度。Py

2010-10-26 11:23:03 出处:https://www.yqdown.com

正则表达式是一种极其有用的文本处理技能,不过用起来有一定的难度。Python语言的re模块对基本的正则表达式做了许多有益的改良。对于须要处理文本的程序员来说,必须对正则表达式有一个完全 深入的识别。本文为不熟悉正则表达式的读者提供了一个高速入门的教程 。当然,对于那些熟悉其他语言中的正则表达式的部分读者而言,本文也是有益的,因为您可以从中明白 Python语言在正则表达式方面的特别之处。

一、什么是正则表达式

在编写处理字符串的程序或网页时,经常会有查找契合某些复杂准则(或称为模式)的字符串的须要。正则表达式就是用于描述这些准则(或模式)的工具。换句话说,正则表达式就是记录文本准则的代码。一旦发觉了契合要求的文本,就可以用对其执行 相应的修改了。

大众还记得Windows命令行中用于文件查找的通配符吧,即*和?。当咱们查找某目录下所有的PDF文档的时候,只要搜索*.pdf即可。在这里,*会被解释成任意的字符串。和通配符类似,正则表达式也是用来执行 文本匹配的工具,只不过较之于通配符,它能更精确地描述你的需求,例如用来查找一个web页面中的所有电话号码。咱们知晓,电话号码通常都有一个固定的写法:区号-电话号码,即有以0开头,后跟2-3个数字,然后是一个连字号“-”,结尾是7或8位数字组成的字符串(例如010-12345678或0634-1234567)。

二、最基本的正则表达式

学习正则表达式的最好要领是从详细的示例入手,让读者亲自动手实验。下面给出了不少基本的例子,并对它们作了细致的说明。

当咱们在一字符串中查找to,你可以运用正则表达式to。这几乎是最基本的正则表达式了,它可以精确匹配这样的字符串:由两个字符组成,前一个字符是t,后一个是o。

为了演示&#xff0c;咱们提供了一个函数re_show()&#xff0c;可以把看作是re模块的一个封装器&#xff0c;它会把给定的字符串中匹配(说某个字符串与某个正则表达式匹配&#xff0c;通常是指这个字符串里有一部分或几部分或所有能满足表达式给出的条件)的内容加上一个花括号。现在咱们不对该函数做进一步的推荐&#xff0c;您只要知晓 re_show()的第一个参数是一个正则表达式&#xff0c;第二个参数是要匹配的字符串&#xff0c;当找到匹配的内容时&#xff0c;就用花括号将它括起来就行了。还是源代码如下&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->import redef re_show(pat, s): print re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),&#39;\n&#39;s &#61; &#39;&#39;&#39;Python runs on Windows, Linux/Unix,Mac OS X, OS/2, Amiga, Palm Handhelds, and Nokia mobile phones.Python has also been ported to the Java and .NET virtual machines.&#39;&#39;&#39;re_show("to",s)

其中&#xff0c;函数调用re_show("to",s)的作用就是查找字符串s中能无法 包含字符串to&#xff0c;或者说字符串s能无法 匹配正则表达式to;假如匹配的话&#xff0c;就给字符串to加上花括号。上述代码的执行结果如下所示&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->Python runs on Windows, Linux/Unix,Mac OS X, OS/2, Amiga, Palm Handhelds, and Nokia mobile phones.Python has also been ported {to} the Java and .NET virtual machines.

三、匹配单词的正则表达式

咱们看到&#xff0c;假如仅仅要求找出文本中的字符串to的话&#xff0c;上面的正则表达式还是可以的&#xff0c;但是假如要想匹配文本中的单词to的话&#xff0c;上面的正则表达式to就不够用了。例如&#xff0c;将上面的代码中的字符串s的定义改为下面的样子&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->s &#61; &#39;&#39;&#39;In company or association with respect to place or time; as, to live together in one house; to live together in the same age; they walked together to the town.&#39;&#39;&#39;

咱们发觉&#xff0c;上面的文字中&#xff0c;不仅单词to&#xff0c;此外像together和town这些单词中也包含字符串to&#xff0c;假如这时再用上面的正则表达式to来查找“单词”to的话&#xff0c;就会出错了。运行修改后的代码&#xff0c;结果如下所示&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->In company or association with respect {to} place or time; as, {to} live {to}gether in one house; {to} live {to}gether in the same age; they walked {to}gether {to} the {to}wn.

假如要精确地查找to这个单词的话&#xff0c;咱们应该运用 \bto\b。这里&#xff0c;\b是正则表达式规定的一个特殊代码或称为元字符&#xff0c;它代表单词的开头或结尾&#xff0c;也就是单词的分界处。尽管英文的单词通常是由空格、标点符号或者换行来分隔的&#xff0c;但是\b并不匹配这些单词分隔字符中的任何一个&#xff0c;它只匹配一个位置。

再次重申&#xff0c;元字符\b所匹配的不是字符&#xff0c;而是位置&#xff1a;其前、后字符不全为(一个是,一个不是或不存在)\w的位置。这里的\w也是一个元字符&#xff0c;后面会讲到。

修改后的代码如下所示&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->import redef re_show(pat, s): print re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),&#39;\n&#39;s &#61; &#39;&#39;&#39;In company or association with respect to place or time; as, to live together in one house; to live together in the same age; they walked together to the town.&#39;&#39;&#39;re_show(r"\bto\b",s)

咱们看看它的运行结果&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->In company or association with respect {to} place or time; as, {to} live together in one house; {to} live together in the same age; they walked together {to} the town.

通过上面的例子&#xff0c;相信读者对正则表达式已经有了一个感性的识别&#xff0c;下面咱们开始细致推荐相关元字符方面的内容。

四、匹配字符的元字符

大多数字母和字符通常都会和自身匹配&#xff0c;或者说匹配它们的字面值&#xff0c;例如&#xff0c;正则表达式to会和字符串“to”精确匹配。此外&#xff0c;还有少数字符比较特殊&#xff0c;它们和自身并不匹配&#xff0c;而是跟其字面值之外的一些特殊的东西匹配&#xff0c;这些东西可能是字符集、重复次数或者位置等。常用的元字符包括&#xff1a;

. ^ $ * &#43; ? { } [ ] \ ( )

对于这些特殊字符&#xff0c;本文会陆续加以推荐。不过咱们这里先明白一下用来匹配字符的元字符。最先&#xff0c;句点“.”这个元字符通常用于想匹配“任何字符”的地点&#xff1a;通常情况下&#xff0c;它匹配除换行字符之外的任何字符;但是在alternate模式(re.DOTALL)下&#xff0c;它匹配真实意义上的任何字符&#xff0c;包括换行字符在内。

咱们接下来考察的元字符是“[”和“]”。它们常配对用来指定想匹配的一个字符集合&#xff0c;也就是说该集合内的任何一个元素都能满足咱们的要求。集合内的字符可以单个列出&#xff0c;假如这些字符是连续的也可以用“-”号分隔的两个给定字符来指定一个字符范围。例如&#xff0c;[abc]将匹配“a”、“b”或“c”中的任意一个字符;当然也可以用区间[a-c]来示意同一字符集&#xff0c;这两者示意要领是等效的。假如想匹配字符串中的所有元音字母&#xff0c;则可运用下列代码&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->import redef re_show(pat, s): print re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),&#39;\n&#39;s &#61; &#39;&#39;&#39;In company or association with respect to place or time; as, to live together in one house; to live together in the same age; they walked together to the town.&#39;&#39;&#39;re_show(r"[aeiou]",s)

运行结果如下所示&#xff1a; Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->  In c{o}mp{a}ny {o}r {a}ss{o}c{i}{a}t{i}{o}n w{i}th r{e}sp{e}ct t{o} pl{a}c{e} {o}r t{i}m{e};  {a}s, t{o} l{i}v{e} t{o}g{e}th{e}r {i}n {o}n{e} h{o}{u}s{e}; t{o} l{i}v{e} t{o}g{e}th{e}r {i}n th{e}  s{a}m{e} {a}g{e}; th{e}y w{a}lk{e}d t{o}g{e}th{e}r t{o} th{e} t{o}wn.

对于字符集合有一点须要特别留心&#xff0c;就是元字符在方括号中会“降级”为普通字符。例如&#xff0c;[a.]将匹配字符“a”或“.”中的任意一个;前面说过“.”通常用作元字符&#xff0c;但在字符集合里&#xff0c;其特殊性将被剥夺&#xff0c;还原成普通字符。这一点读者可以自己改动一下上面的代码来实验一下。

有时须要查找不属于某个字符集合的字符。比如想查找除了数字6以外&#xff0c;其它任意字符都行的情况&#xff0c;这时须要用到反义&#xff1a;其做法是把元字符“^”作为集合的首个字符&#xff0c;例如&#xff0c;[^5] 将匹配除“6”之外的任意字符。

反斜杠“\”是一种特别首要 的元字符。咱们知晓在Python的字符串中&#xff0c;反斜杠也是作为一种特殊字符(或转义字符)运用&#xff0c;后面可以跟不同的字符以示意不同特殊意义;它也可以用于撤销所有的元字符&#xff0c;这样你就可以在模式中匹配它们了。举个例子&#xff0c;假如你须要匹配字符“\”&#xff0c;你可以在其之前用反斜杠来撤销它们的特殊意义&#xff1a;\\。

下面是一些用“\”跟其他字符复合而成的元字符&#xff0c;它们通常示意一些预定义的字符集&#xff0c;如下所示&#xff1a;

\d 匹配任何十进制数;它等价于字符集合[0-9]。

\D 匹配任何非数字字符;它等价于字符集合[^0-9]。

\s 匹配任何空白字符;它等价于字符集合[ \t\n\r\f\v]。

\S 匹配任何非空白字符;它等价于字符集合[^ \t\n\r\f\v]。

\w 匹配任何字母数字下划线字符;它等价于字符集合[a-zA-Z0-9_]。

\W 匹配任何非字母数字下划线字符;它等价于字符集合[^a-zA-Z0-9_]。

五、匹配位置的元字符

在python的正则表达式中&#xff0c;还有一些元字符是专门用来示意位置的&#xff0c;常用的有&#xff1a;

\b 匹配单词的开头或结尾

\B 匹配不是单词开头或结束的位置

^ 匹配字符串的开始

$ 匹配字符串的结束

六、分组

咱们已经讲过为单个字符指定重复次数的要领 ——直接在字符后面加上限定符就行了;现在咱们再来学习一下重复多个字符的八法&#xff1a;你可以用小括号来指定子表达式(也叫做分组)&#xff0c;然后你就可以指定这个子表达式的重复次数了&#xff0c;你也可以对子表达式执行 其它一些操作。

咱们知晓&#xff0c;IP地址是由点号分隔的四个数字&#xff0c;并且每个数字都无法大于255。(\d{1,3}\.){3}\d{1,3}是一个基本的IP地址匹配表达式&#xff0c;其中&#xff1a;\d{1,3}匹配1到3位的数字&#xff0c;(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次&#xff0c;结尾再加上一个一到三位的数字(\d{1,3})。

然而&#xff0c;它也将匹配256.300.888.999这种不可能存在的IP地址。假如能运用算术比较的话&#xff0c;或许能基本地处理这个疑问&#xff0c;但是正则表达式中并不提供关于数学的任何功能&#xff0c;所以只能运用冗长的分组、挑选和字符集合来描述一个正确的IP地址&#xff1a;((2[0-4]\d25[0-5][01]?\d\d?)\.){3}(2[0-4]\d25[0-5][01]?\d\d?)。理会这个表达式的重要是理会 2[0-4]\d25[0-5][01]?\d\d?&#xff0c;经过上面的推荐&#xff0c;相信读者能剖析得出来它的意义。

七、小结

正则表达式是一种极其有用的文本处理技能&#xff0c;不过用起来有一定的难度。Python语言的re模块对基本的正则表达式提供了相应的支持。对于须要处理文本的程序员来说&#xff0c;必须对正则表达式有一个完全 深入的识别。本文首要为不熟悉正则表达式的读者提供了元字符方面的相关知识&#xff0c;更多正则表达式方面的知识&#xff0c;咱们将在后面的文章中陆续加以推荐。

分享到



推荐阅读
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 如何使用Java获取服务器硬件信息和磁盘负载率
    本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务,并获取服务器的磁盘信息,并将结果输出。然后在本地使用JS编写一个AJAX脚本,远程请求服务端的程序,得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • Skywalking系列博客1安装单机版 Skywalking的快速安装方法
    本文介绍了如何快速安装单机版的Skywalking,包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • javascript  – 概述在Firefox上无法正常工作
    我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观:而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
author-avatar
MCphp
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有