当前位置: 开发笔记 > 编程语言 > 正文

python模块之正则

作者：含糊hagle | 来源：互联网 | 2024-11-14 15:52

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在

re模块

　　可以读懂你写的正则表达式

　　根据你写的表达式去执行任务

　　用re去操作正则

正则表达式

　　使用一些规则来检测一些字符串是否符合个人要求&＃xff0c;从一段字符串中找到符合要求的内容。在线测试网站&＃xff1a; http://tool.chinaz.com/regex/

元字符:用来表示范围

元字符	匹配内容
.	匹配除换行符\n以外的任意字符
^	只匹配字符串的开始
$	只匹配字符串的结束
\w	匹配字母或数字或下划线
\s	匹配任意空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\W	匹配非字母数字和下划线
\S	匹配非空白符
\D	匹配非数字
a\|b	匹配字符a或b
&＃xff08;&＃xff09;	匹配括号内的表达式&＃xff0c;也表示一个组
[ ]	匹配字符组的字符
[^ ]	匹配除了字符组中字符的所有字符

# 在字符组[ ]中&＃xff0c;-表示范围&＃xff0c;一般是根据字符对应的码值&＃xff08;字符在对应编码表中的编码的数值&＃xff09;来确定的&＃xff0c;码值小的在前&＃xff0c;码值大的在后。

# 在ascll编码表中&＃xff0c; 0-9对应码值是48-57&＃xff0c;a-z的码值是97-122&＃xff0c;A-Z对应码值65-90

量词&＃xff1a;

量词	用法说明
*	重复零次或更多次
&＃43;	重复一次或更多次
&＃xff1f;	重复零次或一次&＃xff0c;可匹配也可不匹配
{n}	重复n次
{n&＃xff0c;}	重复n次或更多次
{n&＃xff0c;m}	重复n到m次

.*?的用法说明&＃xff1a;

　　.　　　　任意字符

　　*　　　　取0至无限长度

　　&＃xff1f;　　　非贪婪模式

　.*?x　　　合在一起表示取尽量少的任意字符&＃xff0c;知道一个x出现

其他使用说明&＃xff1a;

* &＃43; ? { }&＃xff1a;

注&＃xff1a; *,&＃43;,?等都是贪婪匹配&＃xff0c;也就是尽可能匹配&＃xff0c;后面加?号使其变成惰性匹配

字符集&＃xff3b;&＃xff3d;&＃xff3b;^&＃xff3d;&＃xff1a;

分组 ()与或 &＃xff5c;&＃xff3b;^&＃xff3d;&＃xff1a;

身份证号是一个长度为15或18个字符的字符串&＃xff0c;如果是15位则全部由数字组成&＃xff0c;首位不能是0

如果是18位&＃xff0c;则前17位全部是数字&＃xff0c;末尾可能是x

转义符 \&＃xff1a;

在正则中&＃xff0c;存在很多特殊意义的元字符&＃xff0c;如\d,\s等&＃xff0c;如果要在正则中匹配正常的‘\d’而不是‘数字’就需要对‘\d’进行转义&＃xff0c;变成‘\\’

在py中&＃xff0c;无论是正则表达式还是待匹配内容都是以字符串形式出现的&＃xff0c;字符串中\也有特殊含义&＃xff0c;本身也需要转义&＃xff0c;这时候就要用到r‘\d’转换

贪婪匹配&＃xff1a;

满足匹配时&＃xff0c;匹配尽可能长的字符串

几个常用非贪婪匹配格式

re模块下的常用方法

import re ret &＃61; re.findall(&＃39;a&＃39;, &＃39;eva egon yuan&＃39;) print(ret) # [&＃39;a&＃39;, &＃39;a&＃39;]ret &＃61; re.findall(&＃39;\d&＃43;&＃39;, &＃39;dsaglhlkdfh1892494kashdgkjh127839&＃39;) print(ret) # [&＃39;1892494&＃39;, &＃39;127839&＃39;]# findall接收两个参数 &＃xff1a; 正则表达式要匹配的字符串 # 一个列表数据类型的返回值&＃xff1a;所有和这条正则匹配的结果ret &＃61; re.search(&＃39;a&＃39;, &＃39;eavegonyaun&＃39;).group() print(ret) # a# 函数会在字符串内查找模式匹配,直到找到第一个匹配然后返回一个包含匹配信息的对象,该 # 对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配&＃xff0c;未调用group时 # 则返回None。# search和findall的区别&＃xff1a; # 1.search找到一个就返回&＃xff0c;findall是找所有 # 2.findall是直接返回一个结果的列表&＃xff0c;search返回一个对象ret &＃61; re.match(&＃39;foo&＃39;, &＃39;fooid&＃39;) if ret:print(ret.group()) &＃39;foo&＃39; # 意味着在正则表达式中添加了一个^ # 同search,不过只从字符串的开始部分对模式进行匹配&＃xff0c;ret &＃61; re.sub(&＃39;\d&＃39;, &＃39;H&＃39;, &＃39;eva3egon4yuan4&＃39;, 2) print(ret) # evaHegonHyuan4 # 将前两个数字换成Hret &＃61; re.subn(&＃39;\d&＃39;, &＃39;H&＃39;, &＃39;eva3egon4yuan4&＃39;) print(ret) # (&＃39;evaHegonHyuanH&＃39;, 3) # #将数字替换成&＃39;H&＃39;&＃xff0c;返回元组(替换的结果,替换了多少次)ret &＃61; re.split("\d&＃43;", "eva3egon4yuan") print(ret) # [&＃39;eva&＃39;, &＃39;egon&＃39;, &＃39;yuan&＃39;] ret &＃61; re.split("(\d&＃43;)", "eva162784673egon44yuan") print(ret) # [&＃39;eva&＃39;, &＃39;162784673&＃39;, &＃39;egon&＃39;, &＃39;44&＃39;, &＃39;yuan&＃39;] # split分割一个字符串&＃xff0c;默认被匹配到的分隔符不会出现在结果列表中&＃xff0c; # 如果将匹配的正则放到组内&＃xff0c;就会将分隔符放到结果列表里# 在多次执行同一条正则规则的时&＃xff1a; obj &＃61; re.compile(&＃39;\d{3}&＃39;) ret1 &＃61; obj.search(&＃39;abc123eeee&＃39;) ret2 &＃61; obj.findall(&＃39;abc123eeee&＃39;) print(ret1.group()) # 123 print(ret2) # [&＃39;123&＃39;] # 如果匹配文件中的手机号&＃xff0c;可以进行这样的一次编译&＃xff0c;节省时间# finditer适用于结果比较多的情况下&＃xff0c;能够有效的节省内存 ret &＃61; re.finditer(&＃39;\d&＃39;, &＃39;ds3sy4784a&＃39;) print(ret) # print(next(ret).group()) # 查看第一个结果 print(next(ret).group()) # 查看第二个结果 print([i.group() for i in ret]) # 查看剩余的左右结果

compile格式&＃xff1a;

　　re.compile(pattern,flags&＃61;0)

　　pattern: 编译时用的表达式字符串。

　　flags 编译标志位&＃xff0c;用于修改正则表达式的匹配方式&＃xff0c;如&＃xff1a;是否区分大小写&＃xff0c;多行匹配等。常用的flags有&＃xff1a;

标志	含义
re.S(DOTALL)	使.匹配包括换行在内的所有字符
re.I&＃xff08;IGNORECASE&＃xff09;	使匹配对大小写不敏感
re.L&＃xff08;LOCALE&＃xff09;	做本地化识别&＃xff08;locale-aware)匹配&＃xff0c;法语等
re.M(MULTILINE)	多行匹配&＃xff0c;影响^和$
re.X(VERBOSE)	该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
re.U	根据Unicode字符集解析字符&＃xff0c;这个标志影响\w,\W,\b,\B

分组&＃xff1a;
如果对一组正则表达式整体有一个量词约束&＃xff0c;就将这一组表达是分成一个组

要想取消分组优先效果&＃xff0c;在组内开始的时候加上?: 这个很关键的

# 当分组遇到re模块 import re ret1 &＃61; re.findall(&＃39;www.(baidu|oldboy).com&＃39;, &＃39;www.baidu.com&＃39;) ret2 &＃61; re.findall(&＃39;www.(?:baidu|oldboy).com&＃39;, &＃39;www.baidu.com&＃39;) print(ret1) print(ret2) # findall会优先显示组内匹配到的内容返回 # 如果想取消分组优先效果&＃xff0c;在组内开始的时候加上?:# 分组的意义 # 1.对一组正则规则进行量词约束 # 2.从一整条正则规则匹配的结果中优先显示组内的内容 # "

`hello`

"
ret &＃61; re.findall(&＃39;<\w&＃43;>(\w&＃43;)&＃39;, "hello
")
print(ret)  # [&＃39;hello&＃39;]# 分组命名   ?p固定语法&＃xff0c;p大写
ret &＃61; re.search("<(?P\w&＃43;)>(?P\w&＃43;)", "hello
")
print(ret.group())  # hello
&＃xff0c;search中没有分组优先的概念
print(ret.group(&＃39;tag&＃39;))  # h1
print(ret.group(&＃39;content&＃39;))  # hello# 如果不给组起名字&＃xff0c;也可以用\序号来找到对应的组&＃xff0c;表示要找的内容和前面的组内容一致
# 获取的匹配结果可以直接用group(序号)拿到对应的值
ret &＃61; re.search(r"<(\w&＃43;)>(\w&＃43;)", "hello
")
print(ret.group())  # hello

print(ret.group(0))  # hello

print(ret.group(1))  # h1
print(ret.group(2))  # hello

分组进阶&＃xff1a;

s &＃61; &＃39;2017-07-10 20:00&＃39;
p &＃61; re.compile(r&＃39;(((\d{4})-\d{2})-\d{2}) (\d{2}):(\d{2})&＃39;)
re.findall(p,s)
# 输出&＃xff1a;
# [(&＃39;2017-07-10&＃39;,&＃39;2017-07&＃39;,&＃39;2017&＃39;,&＃39;20&＃39;,&＃39;00&＃39;)]

se &＃61; re.search(p,s)
print se.group()
print se.group(0)
print se.group(1)
print se.group(2)
print se.group(3)
print se.group(4)
print se.group(5)# 输出&＃xff1a;
&＃39;&＃39;&＃39;
&＃39;2017-07-10 20:00&＃39;
&＃39;2017-07-10 20:00&＃39;
&＃39;2017-07-10&＃39;
&＃39;2017-07&＃39;
&＃39;2017&＃39;
&＃39;20&＃39;
&＃39;00&＃39;
&＃39;&＃39;&＃39;

关于split的优先级查询问题&＃xff1a;

　　在匹配部分加上&＃xff08;&＃xff09;之后所切出的结果是不同的&＃xff0c;没有&＃xff08;&＃xff09;的没有保留所匹配的项&＃xff0c;但是有&＃xff08;&＃xff09;的却能够保留了匹配的项

import re ret &＃61; re.split(&＃39;\d&＃43;&＃39;,&＃39;ds22glhfh124dgkjh1&＃39;) print(ret) # [&＃39;ds&＃39;, &＃39;glhfh&＃39;, &＃39;dgkjh&＃39;, &＃39;&＃39;] # 这里最后一位有空格是由于它左边有东西而右边没有了&＃xff0c;所以用空格替代了 ret &＃61; re.split(&＃39;(\d&＃43;)&＃39;,&＃39;ds22glhfh124dgkjh1&＃39;) print(ret) # [&＃39;ds&＃39;, &＃39;22&＃39;, &＃39;glhfh&＃39;, &＃39;124&＃39;, &＃39;dgkjh&＃39;, &＃39;1&＃39;, &＃39;&＃39;] ret &＃61; re.split(&＃39;(?:\d&＃43;)&＃39;,&＃39;ds22glhfh124dgkjh1&＃39;) print(ret) # [&＃39;ds&＃39;, &＃39;glhfh&＃39;, &＃39;dgkjh&＃39;, &＃39;&＃39;]

应用&＃xff1a;

　　# 获取当中的字母

　　s &＃61;&＃39;abc &＃64; 124&＃xff0c;efg opAs4&＃39;

import re a &＃61; &＃39;&＃39;.join(re.findall(&＃39;[a-zA-Z]&＃39;,s)) print(a) b &＃61; re.sub(&＃39;[^a-zA-Z]&＃39;,&＃39;&＃39;, s) print(b) c &＃61; &＃39;&＃39;.join(re.split(&＃39;[^a-zA-Z]&＃39;,s)) print(c)

　　　关于整数匹配问题&＃xff0c;如匹配1-2*(60&＃43;(-40.35/5)-(-4*3))中的整数

import re ret &＃61; re.findall(r&＃39;-?\d&＃43;\.\d*|(-?\d&＃43;)&＃39;,a) ret.remove(&＃39;&＃39;) print(ret)

　利用正则制作计算器&＃xff1a;点击这里>>

利用正则爬去豆瓣网页

#!/usr/bin/env python # -*- coding:utf-8 -*-
# author: Learning time:2018/9/28import time
import re
from urllib.request import urlopendef getPage(url):response &＃61; urlopen(url) # 通过response&＃61;requests.get(url)获取也OKreturn response.read().decode(&＃39;utf-8&＃39;) # 直接返回response.textdef parsePage(s):com &＃61; re.compile(&＃39;

.*?

.*?(?P\d&＃43;).*?(?P.*?)&＃39;&＃39;.*?(?P.*?).*?(?P.*?)评价&＃39;, re.S)ret &＃61; com.finditer(s) # 正则匹配&＃xff0c;然后通过生成器批量获取数据for i in ret:yield {"id": i.group("id"),"title": i.group("title"),"rating_num": i.group("rating_num"),"comment_num": i.group("comment_num"),}def main(num): # 入口函数url &＃61; &＃39;https://movie.douban.com/top250?start&＃61;%s&filter&＃61;&＃39; % numresponse_html &＃61; getPage(url)ret &＃61; parsePage(response_html)f &＃61; open("move_info7", "a", encoding&＃61;"utf8")for obj in ret:print(obj)data &＃61; str(obj)f.write(data &＃43; "\n")if __name__ &＃61;&＃61; &＃39;__main__&＃39;:before&＃61;time.time()count&＃61;0for i in range(10):main(count)count&＃43;&＃61;25 # 每页25条数据&＃xff0c;参考打开网址的urlafter&＃61;time.time()print("总共耗费时间&＃xff1a;", after - before)

相关问题&＃xff1a;

1.re的match和search区别&＃xff1f;
　　re.match() 从第一个字符开始找, 如果第一个字符就不匹配就返回None, 不继续匹配. 用于判断字符串开头或整个字符串是否匹配,速度快.
　　re.search() 会整个字符串查找,直到找到一个匹配。

转:https://www.cnblogs.com/LearningOnline/p/8967704.html

python

正则

http

regex

import

go

int

search

match

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

main
字符串中特定字符的移除方法

本文介绍如何从字符串中移除大写、小写、特殊、数字和非数字字符，并提供了多种编程语言的实现示例。 ... [详细]

蜡笔小新   2024-12-22 00:08:06

main
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新   2024-12-26 08:25:19

main
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新   2024-12-22 13:59:04

buffer
无屏幕环境下树莓派4B的安装与配置指南

本文将详细介绍如何在没有显示器的情况下，使用Raspberry Pi Imager为树莓派4B安装操作系统，并进行基本配置，包括设置SSH、WiFi连接以及更新软件源。 ... [详细]

蜡笔小新   2024-12-21 08:14:50

request
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新   2024-12-26 10:42:40

main
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新   2024-12-25 04:11:22

string
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新   2024-12-24 21:56:10

request
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新   2024-12-23 19:05:02

string
C＃字符串处理如何从字符串中获取路径和args - C# string handling how get path and args from a string

Ihaveastringwithquotesaroundthepathasfollows:我在路径周围有一个带引号的字符串,如下所示:C:\ProgramFiles(x ... [详细]

蜡笔小新   2024-12-23 16:21:52

stream
java8新特性学习笔记

使用lambda表达式排序Collections.sort(temp,(Stringa,Stringb)-{returnb.compareTo(a);});Collections ... [详细]

蜡笔小新   2024-12-23 14:41:31

stream
PHP 实现网页内容抓取及数据解析

本文由杨勇和思远于2012年12月27日撰写，主要探讨了如何使用PHP进行网页内容抓取，特别是针对字符较多的网站。文章详细介绍了正则表达式失效的原因，并提供了优化方法，同时展示了如何抓取淘宝服饰栏、天气信息以及IP地址对应的地理位置。 ... [详细]

蜡笔小新   2024-12-23 11:27:18

stream
Android 自定义绘图板应用

本文介绍如何使用 Android 的 Canvas 和 View 组件创建一个简单的绘图板应用程序，支持触摸绘画和保存图片功能。 ... [详细]

蜡笔小新   2024-12-23 10:12:53

cookie
如何在搜索结果的对象详情页实现前后链接？

本文探讨了在Django项目中，如何在对象详情页面添加前后导航链接，以提升用户体验。文章详细描述了遇到的问题及解决方案。 ... [详细]

蜡笔小新   2024-12-21 11:58:44

main
Python 测试框架概览：Nose 详解

本文将详细介绍Nose这一非标准库的Python测试框架，它虽然不是Python官方发行版的一部分，但与unittest框架紧密相关，旨在通过简化测试流程来提升开发效率。 ... [详细]

蜡笔小新   2024-12-19 18:10:39

string
BUUCTF [ZJCTF 2019] NiZhuanSiWei 解题报告

本文详细解析了BUUCTF [ZJCTF 2019] NiZhuanSiWei的解题过程，包括代码审计、PHP伪协议的使用以及反序列化漏洞的利用。 ... [详细]

蜡笔小新   2024-12-18 12:15:28

含糊hagle

这个家伙很懒，什么也没留下！

Tags | 热门标签

grid

loops

js

chat

range

tags

merge

cSharp

hook

runtime

version

bytecode

window

instance

cookie

jsp

string

ascii

main

request

shell

nodejs

actionscrip

buffer

flutter

stream

random

jar

heap

javascript

RankList | 热门文章

1【keras】用tensorboard监视CNN每一层的输出

2word如何恢复默认设置？

3《Asp.Net 2.0 揭秘》（四）

4《次韵舒尧文祈雪雾猪泉》翻译原文赏析诗人宋苏轼

5LinkedList与链表（数据结构系列5）

6力的合成与分解实验数据_干货来了！物理实验方法归纳总结

7为什么python是动态类型语言_Python 3.7.0 面向对象的动态类型语言

8慢雾招募令，加入未来的安全独角兽

9webpack loader之css、scss、less、stylus安装

10iOSruntime 运行时机制03(设置tabbarButton的badgeView)

11k8s(十一)helm安装premetheus

12开发笔记:dice

13Ununtu 12.04 x64位安装docker

14木秀于林，不惧风摧「博客出书的故事④」

15Github上73个超棒且可提高生产力的 NPM 包，高赞！