re模块(代码片段)

zcy55zmy zcy55zmy     2022-12-08     590

关键词:

 re模块(* * * * *)

就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。

字符匹配(普通字符,元字符):

1 普通字符:大多数字符和字母都会和自身匹配
              >>> re.findall(‘alvin‘,‘yuanaleSxalexwupeiqi‘)
                      [‘alvin‘] 

2 元字符:. ^ $ * + ? [ ] | ( ) \\

元字符之. ^ $ * + ?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
import re
 
ret=re.findall(‘a..in‘,‘helloalvin‘)
print(ret)#[‘alvin‘]
 
 
ret=re.findall(‘^a...n‘,‘alvinhelloawwwn‘)
print(ret)#[‘alvin‘]
 
 
ret=re.findall(‘a...n$‘,‘alvinhelloawwwn‘)
print(ret)#[‘awwwn‘]
 
 
ret=re.findall(‘a...n$‘,‘alvinhelloawwwn‘)
print(ret)#[‘awwwn‘]
 
 
ret=re.findall(‘abc*‘,‘abcccc‘)#贪婪匹配[0,+oo]  
print(ret)#[‘abcccc‘]
 
ret=re.findall(‘abc+‘,‘abccc‘)#[1,+oo]
print(ret)#[‘abccc‘]
 
ret=re.findall(‘abc?‘,‘abccc‘)#[0,1]
print(ret)#[‘abc‘]
 
 
ret=re.findall(‘abc1,4‘,‘abccc‘)
print(ret)#[‘abccc‘] 贪婪匹配

注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配

1
2
ret=re.findall(‘abc*?‘,‘abcccccc‘)
print(ret)#[‘ab‘]

元字符之字符集[]:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#--------------------------------------------字符集[]
ret=re.findall(‘a[bc]d‘,‘acd‘)
print(ret)#[‘acd‘]
 
ret=re.findall(‘[a-z]‘,‘acd‘)
print(ret)#[‘a‘, ‘c‘, ‘d‘]
 
ret=re.findall(‘[.*+]‘,‘a.cd+‘)
print(ret)#[‘.‘, ‘+‘]
 
#在字符集里有功能的符号: - ^ \\
 
ret=re.findall(‘[1-9]‘,‘45dha3‘)
print(ret)#[‘4‘, ‘5‘, ‘3‘]
 
ret=re.findall(‘[^ab]‘,‘45bdha3‘)
print(ret)#[‘4‘, ‘5‘, ‘d‘, ‘h‘, ‘3‘]
 
ret=re.findall(‘[\\d]‘,‘45bdha3‘)
print(ret)#[‘4‘, ‘5‘, ‘3‘]

元字符之转义符\\

反斜杠后边跟元字符去除特殊功能,比如\\.
反斜杠后边跟普通字符实现特殊功能,比如\\d

\\d  匹配任何十进制数;它相当于类 [0-9]。
\\D 匹配任何非数字字符;它相当于类 [^0-9]。
\\s  匹配任何空白字符;它相当于类 [ \\t\\n\\r\\f\\v]。
\\S 匹配任何非空白字符;它相当于类 [^ \\t\\n\\r\\f\\v]。
\\w 匹配任何字母数字字符;它相当于类 [a-zA-Z0-9_]。
\\W 匹配任何非字母数字字符;它相当于类 [^a-zA-Z0-9_]
\\b  匹配一个特殊字符边界,比如空格 ,&,#等

1
2
3
4
ret=re.findall(‘I\\b‘,‘I am LIST‘)
print(ret)#[]
ret=re.findall(r‘I\\b‘,‘I am LIST‘)
print(ret)#[‘I‘]

现在我们聊一聊\\,先看下面两个匹配:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#-----------------------------eg1:
import re
ret=re.findall(‘c\\l‘,‘abc\\le‘)
print(ret)#[]
ret=re.findall(‘c\\\\l‘,‘abc\\le‘)
print(ret)#[]
ret=re.findall(‘c\\\\\\\\l‘,‘abc\\le‘)
print(ret)#[‘c\\\\l‘]
ret=re.findall(r‘c\\\\l‘,‘abc\\le‘)
print(ret)#[‘c\\\\l‘]
 
#-----------------------------eg2:
#之所以选择\\b是因为\\b在ASCII表中是有意义的
= re.findall(‘\\bblow‘‘blow‘)
print(m)
= re.findall(r‘\\bblow‘‘blow‘)
print(m)

                     技术图片  

元字符之分组()

1
2
3
4
5
6
= re.findall(r‘(ad)+‘‘add‘)
print(m)
 
ret=re.search(‘(?P<id>\\d2)/(?P<name>\\w3)‘,‘23/com‘)
print(ret.group())#23/com
print(ret.group(‘id‘))#23

元字符之|

1
2
ret=re.search(‘(ab)|\\d‘,‘rabhdg8sd‘)
print(ret.group())#ab

re模块下的常用方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import re
#1
re.findall(‘a‘,‘alvin yuan‘)    #返回所有满足匹配条件的结果,放在列表里
#2
re.search(‘a‘,‘alvin yuan‘).group()  #函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
                                     # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。
 
#3
re.match(‘a‘,‘abc‘).group()     #同search,不过尽在字符串开始处进行匹配
 
#4
ret=re.split(‘[ab]‘,‘abcd‘)     #先按‘a‘分割得到‘‘和‘bcd‘,在对‘‘和‘bcd‘分别按‘b‘分割
print(ret)#[‘‘, ‘‘, ‘cd‘]
 
#5
ret=re.sub(‘\\d‘,‘abc‘,‘alvin5yuan6‘,1)
print(ret)#alvinabcyuan6
ret=re.subn(‘\\d‘,‘abc‘,‘alvin5yuan6‘)
print(ret)#(‘alvinabcyuanabc‘, 2)
 
#6
obj=re.compile(‘\\d3‘)
ret=obj.search(‘abc123eeee‘)
print(ret.group())#123
1
2
3
4
5
6
import re
ret=re.finditer(‘\\d‘,‘ds3sy4784a‘)
print(ret)        #<callable_iterator object at 0x10195f940>
 
print(next(ret).group())
print(next(ret).group())

注意:

1
2
3
4
5
6
7
import re
 
ret=re.findall(‘www.(baidu|oldboy).com‘,‘www.oldboy.com‘)
print(ret)#[‘oldboy‘]     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可
 
ret=re.findall(‘www.(?:baidu|oldboy).com‘,‘www.oldboy.com‘)
print(ret)#[‘www.oldboy.com‘]

补充:

import re

print(re.findall("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>"))
print(re.search("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>"))
print(re.search(r"<(\\w+)>\\w+</\\1>","<h1>hello</h1>"))
import re

print(re.findall("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>"))
print(re.search("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>"))
print(re.search(r"<(\\w+)>\\w+</\\1>","<h1>hello</h1>"))
import re

print(re.findall("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>"))
print(re.search("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>"))
print(re.search(r"<(\\w+)>\\w+</\\1>","<h1>hello</h1>"))

补充2

技术图片

#匹配出所有的整数
import re

#ret=re.findall(r"\\d+0]","1-2*(60+(-40.35/5)-(-4*3))")
ret=re.findall(r"-?\\d+\\.\\d*|(-?\\d+)","1-2*(60+(-40.35/5)-(-4*3))")
ret.remove("")

print(ret)

技术图片
#匹配出所有的整数
import re

#ret=re.findall(r"\\d+0]","1-2*(60+(-40.35/5)-(-4*3))")
ret=re.findall(r"-?\\d+\\.\\d*|(-?\\d+)","1-2*(60+(-40.35/5)-(-4*3))")
ret.remove("")

print(ret)

re模块(代码片段)

 1#Author:SureFeng23‘‘‘4re模块5‘‘‘67importre8910#最常用的匹配语法(匹配的套路)11#1、re.match匹配开头,没有则匹配不成功12print(re.match("s+","asddf123fssa"))#None13print(re.match(".","asddf123fssa"))#<re.Matchobject;span=(0 查看详情

re模块(代码片段)

目录re模块可以用到的元字符:反斜杠后边跟普通字符实现特殊功能re模块的常用功能函数re模块正则表达式的大致匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的... 查看详情

re模块(代码片段)

importre#print(re.findall(‘w‘,‘ab12+-*&_‘))[‘a‘,‘b‘,‘1‘,‘2‘,‘_‘]#w#print(re.findall(‘W‘,‘ab12+-*&_‘))[‘‘,‘\‘,‘+‘,‘-‘,‘‘,‘*‘,‘&‘]#print(re.findall(‘s‘,‘ab12 +-*&_‘))[‘‘,‘ 查看详情

re模块(代码片段)

1user_info=‘phone:18612574474qq:8068886262‘2print(re.findall(‘d*‘,user_info))3print(filter(None,re.findall(‘d*‘,user_info)))4[‘‘,‘‘,‘‘,‘‘,‘‘,‘‘,‘18612574474‘,‘‘,‘‘,‘‘,‘‘,‘8068886262‘,‘‘]5[‘186125744 查看详情

re模块(代码片段)

1.初识re模块姓名地区身高体重电话况咏蜜北京1714813651054608王心颜上海1694613813234424马纤羽深圳1735013744234523乔亦菲广州1725215823423525罗梦竹北京1754918623423421刘诺涵北京1704818623423765岳妮妮深圳1775418835324553贺婉萱深圳1745218933434452叶梓... 查看详情

re模块及其用法(代码片段)

一、re模块下的常用方法  首先在使用re模块之前,需要引入re模块  importre  1.与查找相关的:    1.findall  返回列表,找到所有的匹配项ret=re.findall("d+","asda132eqwe啊阿达456")print(ret)#[‘132‘,‘456‘]    2.search匹... 查看详情

re:模块(代码片段)

模块的引用importre 注:为.py文件取名时不能与模块的名字相同re模块中的查找findall匹配所有条件相匹配,每一项都是列表中的元素importreret=re.findall(r"d+","大123家78好!")print(ret)运行结果:[‘123‘,‘78‘]search匹配从左到右的第一个... 查看详情

re模块(01)(代码片段)

#计算器#re模块#正则表达式——字符串匹配的#学习正则表达式#学习使用re模块来操作正则表达式whileTrue:phone_number=input(‘pleaseinputyourphonenumber:‘)iflen(phone_number)==11andphone_number.isdigit()and(phone_number.startswith(‘13‘)orphone_numb 查看详情

re模块操作(代码片段)

...通过正则表达式对字符串进行匹配的时候,可以使用一个模块,名字为re1.re模块的使用过程#coding=utf-8#导入re模块importre#使用match方法进行匹配操作result=re.match(正则表达式,要匹配的字符串)#如果上一步匹配到数据的话,可以使用gr... 查看详情

re模块,主要用来查询(代码片段)

...:.^$*+?[]|()\在re中最重要的就是元字符与findall配合使用#re模块(就是正则表示式模块)主要功能就是做匹配#正则表达式(re)是一种小型的高度专业化的编程语言,#例子:12345665、4563111、4565778、可以通过123.。。6+*正则匹配import... 查看详情

re模块025(代码片段)

re由Python提供的一套关于处理正则表达式的模块有以下四个核心功能:  importre   1. findall#查找所有返回列表(list)    importrelst=re.findall(‘m‘,‘mailefolen,mainimei!‘)print(lst)#[‘m‘,‘m‘,‘m‘]lst1=re.findall(r‘d+‘,‘5... 查看详情

模块一(re模块)(代码片段)

一、re模块      首先说一下什么是模块,模块就是一组功能的集合。你要和某个东西打交道,而这个东西本身和python没关系,这个东西本身就存在,所以python提供了一个功能的集合专门负责和这个东西打交... 查看详情

re模块(代码片段)

 re模块(*****)就其本质而言,正则表达式(或RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过re模块实现。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。字符匹... 查看详情

re模块(代码片段)

importre1.findall (找所有)re.findall(‘正则表达式‘,‘匹配对象‘)  >>>ret=re.findall(‘[a-z]+‘,‘haswodhdsawe‘)>>>print(ret)[‘has‘,‘wodh‘,‘dsawe‘] 2.search  (从中间找到也行)从前往后找,找到一个就返回一个变量,... 查看详情

python附录-re.py模块源码(含re官方文档链接)(代码片段)

re模块  python官方文档链接:https://docs.python.org/zh-cn/3/library/re.html  re模块源码r"""Supportforregularexpressions(RE).ThismoduleprovidesregularexpressionmatchingoperationssimilartothosefoundinPerl.Itsupports 查看详情

python--re模块(代码片段)

...、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。正则表达式是用来匹配处理字符串的 python中... 查看详情

re模块(代码片段)

#re模块#findall(查找所有符合正则表达式的字符,以数组的形式返回)#例子:#importre#ret=re.findall(‘d+‘,‘123123asd123‘)#括号内是参数第一个是定义的表达式,第二个是需要处理的字符串#print(ret)#返回值的数据类型:列表,返回值个数:1个返... 查看详情

re模块(代码片段)

importreret=re.findall(‘d.‘,‘dshfasdafd‘)#返回所有满足匹配条件的结果,放在列表里print(ret)ret=re.search(‘d.‘,‘dshfasdafd‘).group()#函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以#... 查看详情