正则是处理字符串最常用的方法,我们编码中到处可见正则的身影。
正则大同小异,python 中的正则跟其他语言相比略有差异:
1、替换字符串时,替换的字符串可以是一个函数
2、split 函数可以指定分割次数,这会导致有个坑
3、前项界定的表达式必须定长
下面详细描述下 re 模块的使用方法,其实,注意上面提到的三点差异就好
1、match
说明:
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回 None。
语法:
re.match(pattern, string, flags=0)
flags为可选标识,多个标识可以通过按位或 (|) 来指定。如 re.I | re.M 被设置成 I 和 M 标识:
修饰符
描述
re.I
使匹配对大小写不敏感
re.L
做本地化识别(locale-aware)匹配
re.M
多行匹配,影响 ^ 和 $
re.S
使 . 匹配包括换行在内的所有字符
re.U
根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X
该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。
匹配成功re.match方法返回一个匹配的对象,可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。group() 或 group(0),返回整个正则表达式的匹配结果。
举例:
s= 'abc123abc' print(re.match('[a-z]+', s)) # <_sre.SRE_Match object; span=(0, 3), match='abc'> print(re.match('[a-z]+', s).group(0)) # abc print(re.match('[\d]+', s)) # None print(re.match('[A-Z]+', s, re.I).group(0)) # abc print(re.match('[a-z]+', s).span()) # (0, 3)
2、search
说明:
re.search 扫描整个字符串并返回第一个成功的匹配。
语法:
re.search(pattern, string, flags=0)
匹配成功re.search方法返回一个匹配的对象,否则返回None。可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
s = 'abc123abc' print(re.search('[a-z]+', s).group()) # abc print(re.search('[a-z]+', s).span()) # (0, 3) print(re.search('[\d]+', s).group()) # 123 print(re.search('[\d]+', s).span()) # (3, 6) print(re.search('xyz', s)) # None
groupdict
groupdict 返回匹配到的所有命名子组的字典。
print(re.search('[a-z]+', s).groupdict()) # {} print(re.search('("color: #ff0000">3、sub 和 subn说明:
re.sub用于替换字符串中的匹配项。re.subn返回一个元组,包含替换后的字符串及替换次数。
语法:
sub(pattern, repl, string, count=0, flags=0)repl: 替换的字符串,也可为一个函数。
count: 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
举例:
s = 'abc123abc' print(re.sub('[\d]+', '数字', s)) # abc数字abc print(re.sub('[a-z]+', '字母', s, 1)) # 字母123abc # 将匹配的数字乘以 2 def double(matched): value = int(matched.group('value')) return str(value * 2) # repl是一个函数 print(re.sub('("color: #ff0000">4、compile说明:
re.compile 用于编译正则表达式,生成一个正则表达式(Pattern)对象,供 match() 和 search() 这两个函数使用。语法:
compile(pattern, flags=0)举例:
s = 'abc123abc' p = re.compile('[\d]+') print(p.match(s, 4, 5).group(0)) # 2 从位置4开始匹配到位置5 print(p.search(s).group(0)) # 1235、findall
说明:
re.findall 在字符串中查找正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。语法:
findall(pattern, string, flags=0)举例:
s = 'abc123abc' print(re.findall('[a-z]+', s)) # ['abc', 'abc'] print(re.findall('[h-n]+', s)) # []6、finditer
说明:
finditer和 findall 类似,在字符串中查找正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。语法:
finditer(pattern, string, flags=0)举例:
s = 'abc123def' it = re.finditer('[a-z]+', s) for match in it: print(match.group())7、split
说明:
re.split 方法按照能够匹配的子串将字符串分割后返回列表。语法:
split(pattern, string, maxsplit=0, flags=0)maxsplit:分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。
举例:
print(re.split('a', '1A1a2A3', re.I)) # ['1A1', '2A3'] # 输出结果并未能区分大小写,这是因为re.split(pattern,string,maxsplit, flags)默认是四个参数,当我们传入的三个参数的时候,系统会默认re.I是第三个参数,所以就没起作用。 # 如果想让这里的re.I起作用,写成flags=re.I即可。 print(re.split('a', '1A1a2A3', flags=re.I)) # ['1', '1', '2', '3']8、escape
说明:
re.escape对字符串里面的特殊字符串进行转义。语法:
escape(pattern)举例:
print(re.escape('www.dxy.cn')) # www\.dxy\.cn9、正则
“("color: #ff0000">10、前项(否定)界定中的特殊
正则中常用的前项界定("htmlcode">
(?<=aaa) # 正确 (?<=aaa|bbb) # 正确 (?<=aaa|bb) # 错误 (?<=\d+) # 错误 (?<=\d{3}) # 正确以上所述是小编给大家介绍的Python正则表达式re模块详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对网站的支持!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]