关键词:
re模块(* * * * *)
就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。
字符匹配(普通字符,元字符):
1 普通字符:大多数字符和字母都会和自身匹配
>>> re.findall(‘alvin‘,‘yuanaleSxalexwupeiqi‘)
[‘alvin‘]
2 元字符:. ^ $ * + ? [ ] | ( ) \\
元字符之. ^ $ * + ?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
import re ret = re.findall( ‘a..in‘ , ‘helloalvin‘ ) print (ret) #[‘alvin‘] ret = re.findall( ‘^a...n‘ , ‘alvinhelloawwwn‘ ) print (ret) #[‘alvin‘] ret = re.findall( ‘a...n$‘ , ‘alvinhelloawwwn‘ ) print (ret) #[‘awwwn‘] ret = re.findall( ‘a...n$‘ , ‘alvinhelloawwwn‘ ) print (ret) #[‘awwwn‘] ret = re.findall( ‘abc*‘ , ‘abcccc‘ ) #贪婪匹配[0,+oo] print (ret) #[‘abcccc‘] ret = re.findall( ‘abc+‘ , ‘abccc‘ ) #[1,+oo] print (ret) #[‘abccc‘] ret = re.findall( ‘abc?‘ , ‘abccc‘ ) #[0,1] print (ret) #[‘abc‘] ret = re.findall( ‘abc1,4‘ , ‘abccc‘ ) print (ret) #[‘abccc‘] 贪婪匹配 |
注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配
1
2
|
ret = re.findall( ‘abc*?‘ , ‘abcccccc‘ ) print (ret) #[‘ab‘] |
元字符之字符集[]:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
#--------------------------------------------字符集[] ret = re.findall( ‘a[bc]d‘ , ‘acd‘ ) print (ret) #[‘acd‘] ret = re.findall( ‘[a-z]‘ , ‘acd‘ ) print (ret) #[‘a‘, ‘c‘, ‘d‘] ret = re.findall( ‘[.*+]‘ , ‘a.cd+‘ ) print (ret) #[‘.‘, ‘+‘] #在字符集里有功能的符号: - ^ \\ ret = re.findall( ‘[1-9]‘ , ‘45dha3‘ ) print (ret) #[‘4‘, ‘5‘, ‘3‘] ret = re.findall( ‘[^ab]‘ , ‘45bdha3‘ ) print (ret) #[‘4‘, ‘5‘, ‘d‘, ‘h‘, ‘3‘] ret = re.findall( ‘[\\d]‘ , ‘45bdha3‘ ) print (ret) #[‘4‘, ‘5‘, ‘3‘] |
元字符之转义符\\
反斜杠后边跟元字符去除特殊功能,比如\\.
反斜杠后边跟普通字符实现特殊功能,比如\\d
\\d 匹配任何十进制数;它相当于类 [0-9]。
\\D 匹配任何非数字字符;它相当于类 [^0-9]。
\\s 匹配任何空白字符;它相当于类 [ \\t\\n\\r\\f\\v]。
\\S 匹配任何非空白字符;它相当于类 [^ \\t\\n\\r\\f\\v]。
\\w 匹配任何字母数字字符;它相当于类 [a-zA-Z0-9_]。
\\W 匹配任何非字母数字字符;它相当于类 [^a-zA-Z0-9_]
\\b 匹配一个特殊字符边界,比如空格 ,&,#等
1
2
3
4
|
ret = re.findall( ‘I\\b‘ , ‘I am LIST‘ ) print (ret) #[] ret = re.findall(r ‘I\\b‘ , ‘I am LIST‘ ) print (ret) #[‘I‘] |
现在我们聊一聊\\,先看下面两个匹配:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
#-----------------------------eg1: import re ret = re.findall( ‘c\\l‘ , ‘abc\\le‘ ) print (ret) #[] ret = re.findall( ‘c\\\\l‘ , ‘abc\\le‘ ) print (ret) #[] ret = re.findall( ‘c\\\\\\\\l‘ , ‘abc\\le‘ ) print (ret) #[‘c\\\\l‘] ret = re.findall(r ‘c\\\\l‘ , ‘abc\\le‘ ) print (ret) #[‘c\\\\l‘] #-----------------------------eg2: #之所以选择\\b是因为\\b在ASCII表中是有意义的 m = re.findall( ‘\\bblow‘ , ‘blow‘ ) print (m) m = re.findall(r ‘\\bblow‘ , ‘blow‘ ) print (m) |
元字符之分组()
1
2
3
4
5
6
|
m = re.findall(r ‘(ad)+‘ , ‘add‘ ) print (m) ret = re.search( ‘(?P<id>\\d2)/(?P<name>\\w3)‘ , ‘23/com‘ ) print (ret.group()) #23/com print (ret.group( ‘id‘ )) #23 |
元字符之|
1
2
|
ret = re.search( ‘(ab)|\\d‘ , ‘rabhdg8sd‘ ) print (ret.group()) #ab |
re模块下的常用方法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
import re #1 re.findall( ‘a‘ , ‘alvin yuan‘ ) #返回所有满足匹配条件的结果,放在列表里 #2 re.search( ‘a‘ , ‘alvin yuan‘ ).group() #函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以 # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。 #3 re.match( ‘a‘ , ‘abc‘ ).group() #同search,不过尽在字符串开始处进行匹配 #4 ret = re.split( ‘[ab]‘ , ‘abcd‘ ) #先按‘a‘分割得到‘‘和‘bcd‘,在对‘‘和‘bcd‘分别按‘b‘分割 print (ret) #[‘‘, ‘‘, ‘cd‘] #5 ret = re.sub( ‘\\d‘ , ‘abc‘ , ‘alvin5yuan6‘ , 1 ) print (ret) #alvinabcyuan6 ret = re.subn( ‘\\d‘ , ‘abc‘ , ‘alvin5yuan6‘ ) print (ret) #(‘alvinabcyuanabc‘, 2) #6 obj = re. compile ( ‘\\d3‘ ) ret = obj.search( ‘abc123eeee‘ ) print (ret.group()) #123 |
1
2
3
4
5
6
|
import re ret = re.finditer( ‘\\d‘ , ‘ds3sy4784a‘ ) print (ret) #<callable_iterator object at 0x10195f940> print ( next (ret).group()) print ( next (ret).group()) |
注意:
1
2
3
4
5
6
7
|
import re ret = re.findall( ‘www.(baidu|oldboy).com‘ , ‘www.oldboy.com‘ ) print (ret) #[‘oldboy‘] 这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可 ret = re.findall( ‘www.(?:baidu|oldboy).com‘ , ‘www.oldboy.com‘ ) print (ret) #[‘www.oldboy.com‘] |
补充:
import re print(re.findall("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>")) print(re.search("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>")) print(re.search(r"<(\\w+)>\\w+</\\1>","<h1>hello</h1>"))
import re print(re.findall("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>")) print(re.search("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>")) print(re.search(r"<(\\w+)>\\w+</\\1>","<h1>hello</h1>"))
import re print(re.findall("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>")) print(re.search("<(?P<tag_name>\\w+)>\\w+</(?P=tag_name)>","<h1>hello</h1>")) print(re.search(r"<(\\w+)>\\w+</\\1>","<h1>hello</h1>"))
补充2
#匹配出所有的整数
import re
#ret=re.findall(r"\\d+0]","1-2*(60+(-40.35/5)-(-4*3))")
ret=re.findall(r"-?\\d+\\.\\d*|(-?\\d+)","1-2*(60+(-40.35/5)-(-4*3))")
ret.remove("")
print(ret)
#匹配出所有的整数 import re #ret=re.findall(r"\\d+0]","1-2*(60+(-40.35/5)-(-4*3))") ret=re.findall(r"-?\\d+\\.\\d*|(-?\\d+)","1-2*(60+(-40.35/5)-(-4*3))") ret.remove("") print(ret)
re模块(代码片段)
1#Author:SureFeng23‘‘‘4re模块5‘‘‘67importre8910#最常用的匹配语法(匹配的套路)11#1、re.match匹配开头,没有则匹配不成功12print(re.match("s+","asddf123fssa"))#None13print(re.match(".","asddf123fssa"))#<re.Matchobject;span=(0 查看详情
re模块(代码片段)
目录re模块可以用到的元字符:反斜杠后边跟普通字符实现特殊功能re模块的常用功能函数re模块正则表达式的大致匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的... 查看详情
re模块(代码片段)
importre#print(re.findall(‘w‘,‘ab12+-*&_‘))[‘a‘,‘b‘,‘1‘,‘2‘,‘_‘]#w#print(re.findall(‘W‘,‘ab12+-*&_‘))[‘‘,‘\‘,‘+‘,‘-‘,‘‘,‘*‘,‘&‘]#print(re.findall(‘s‘,‘ab12 +-*&_‘))[‘‘,‘ 查看详情
re模块(代码片段)
1user_info=‘phone:18612574474qq:8068886262‘2print(re.findall(‘d*‘,user_info))3print(filter(None,re.findall(‘d*‘,user_info)))4[‘‘,‘‘,‘‘,‘‘,‘‘,‘‘,‘18612574474‘,‘‘,‘‘,‘‘,‘‘,‘8068886262‘,‘‘]5[‘186125744 查看详情
re模块(代码片段)
1.初识re模块姓名地区身高体重电话况咏蜜北京1714813651054608王心颜上海1694613813234424马纤羽深圳1735013744234523乔亦菲广州1725215823423525罗梦竹北京1754918623423421刘诺涵北京1704818623423765岳妮妮深圳1775418835324553贺婉萱深圳1745218933434452叶梓... 查看详情
re模块及其用法(代码片段)
一、re模块下的常用方法 首先在使用re模块之前,需要引入re模块 importre 1.与查找相关的: 1.findall 返回列表,找到所有的匹配项ret=re.findall("d+","asda132eqwe啊阿达456")print(ret)#[‘132‘,‘456‘] 2.search匹... 查看详情
re:模块(代码片段)
模块的引用importre 注:为.py文件取名时不能与模块的名字相同re模块中的查找findall匹配所有条件相匹配,每一项都是列表中的元素importreret=re.findall(r"d+","大123家78好!")print(ret)运行结果:[‘123‘,‘78‘]search匹配从左到右的第一个... 查看详情
re模块(01)(代码片段)
#计算器#re模块#正则表达式——字符串匹配的#学习正则表达式#学习使用re模块来操作正则表达式whileTrue:phone_number=input(‘pleaseinputyourphonenumber:‘)iflen(phone_number)==11andphone_number.isdigit()and(phone_number.startswith(‘13‘)orphone_numb 查看详情
re模块操作(代码片段)
...通过正则表达式对字符串进行匹配的时候,可以使用一个模块,名字为re1.re模块的使用过程#coding=utf-8#导入re模块importre#使用match方法进行匹配操作result=re.match(正则表达式,要匹配的字符串)#如果上一步匹配到数据的话,可以使用gr... 查看详情
re模块,主要用来查询(代码片段)
...:.^$*+?[]|()\在re中最重要的就是元字符与findall配合使用#re模块(就是正则表示式模块)主要功能就是做匹配#正则表达式(re)是一种小型的高度专业化的编程语言,#例子:12345665、4563111、4565778、可以通过123.。。6+*正则匹配import... 查看详情
re模块025(代码片段)
re由Python提供的一套关于处理正则表达式的模块有以下四个核心功能: importre 1. findall#查找所有返回列表(list) importrelst=re.findall(‘m‘,‘mailefolen,mainimei!‘)print(lst)#[‘m‘,‘m‘,‘m‘]lst1=re.findall(r‘d+‘,‘5... 查看详情
模块一(re模块)(代码片段)
一、re模块 首先说一下什么是模块,模块就是一组功能的集合。你要和某个东西打交道,而这个东西本身和python没关系,这个东西本身就存在,所以python提供了一个功能的集合专门负责和这个东西打交... 查看详情
re模块(代码片段)
re模块(*****)就其本质而言,正则表达式(或RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过re模块实现。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。字符匹... 查看详情
re模块(代码片段)
importre1.findall (找所有)re.findall(‘正则表达式‘,‘匹配对象‘) >>>ret=re.findall(‘[a-z]+‘,‘haswodhdsawe‘)>>>print(ret)[‘has‘,‘wodh‘,‘dsawe‘] 2.search (从中间找到也行)从前往后找,找到一个就返回一个变量,... 查看详情
python附录-re.py模块源码(含re官方文档链接)(代码片段)
re模块 python官方文档链接:https://docs.python.org/zh-cn/3/library/re.html re模块源码r"""Supportforregularexpressions(RE).ThismoduleprovidesregularexpressionmatchingoperationssimilartothosefoundinPerl.Itsupports 查看详情
python--re模块(代码片段)
...、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。正则表达式是用来匹配处理字符串的 python中... 查看详情
re模块(代码片段)
#re模块#findall(查找所有符合正则表达式的字符,以数组的形式返回)#例子:#importre#ret=re.findall(‘d+‘,‘123123asd123‘)#括号内是参数第一个是定义的表达式,第二个是需要处理的字符串#print(ret)#返回值的数据类型:列表,返回值个数:1个返... 查看详情
re模块(代码片段)
importreret=re.findall(‘d.‘,‘dshfasdafd‘)#返回所有满足匹配条件的结果,放在列表里print(ret)ret=re.search(‘d.‘,‘dshfasdafd‘).group()#函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以#... 查看详情