正文

正则表达式(代码片段)

python-gm  python-gm  2023-03-16  732

关键词：

正则表达式

常见匹配模式

模式	描述
w	匹配字母数字及下划线
W	匹配非字母数字下划线
s	匹配任意空白字符，等价于 f.
S	匹配任意非空字符
d	匹配任意数字，等价于 0-9
D	匹配任意非数字
A	匹配字符串开始
	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
z	匹配字符串结束
G	匹配最后匹配完成的位置
	匹配一个换行符
	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
...	用来表示一组字符,单独列出：amk 匹配 ‘a‘，‘m‘或‘k‘
^...	不在[]中的字符：^abc 匹配除了a,b,c之外的字符。
*	匹配0个或多个的表达式。
+	匹配1个或多个的表达式。
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
n	精确匹配n个前面表达式。
n, m	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a	b
( )	匹配括号内的表达式，也表示一个组

re.match

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

最常规的匹配

import re

content = ‘Hello 123 4567 World_This is a Regex Demo‘
print(len(content))
result = re.match(‘^Hellosdddsd4sw10.*Demo$‘, content)
print(result)
print(result.group())
print(result.span())

泛匹配

import re

content = ‘Hello 123 4567 World_This is a Regex Demo‘
result = re.match(‘^Hello.*Demo$‘, content)
print(result)
print(result.group())
print(result.span())

匹配目标

import re

content = ‘Hello 1234567 World_This is a Regex Demo‘
result = re.match(‘^Hellos(d+)sWorld.*Demo$‘, content)
print(result)
print(result.group(1))
print(result.span())

贪婪匹配

import re

content = ‘Hello 1234567 World_This is a Regex Demo‘
result = re.match(‘^He.*(d+).*Demo$‘, content)
print(result)
print(result.group(1))

非贪婪匹配

import re

content = ‘Hello 1234567 World_This is a Regex Demo‘
result = re.match(‘^He.*?(d+).*Demo$‘, content)
print(result)
print(result.group(1))

匹配模式

import re

content = ‘‘‘Hello 1234567 World_This
is a Regex Demo
‘‘‘
result = re.match(‘^He.*?(d+).*?Demo$‘, content, re.S)
print(result.group(1))

转义

import re

content = ‘price is $5.00‘
result = re.match(‘price is $5.00‘, content)
print(result)

import re

content = ‘price is $5.00‘
result = re.match(‘price is $5.00‘, content)
print(result)

总结：尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S

re.search

re.search 扫描整个字符串并返回第一个成功的匹配。

import re

content = ‘Extra stings Hello 1234567 World_This is a Regex Demo Extra stings‘
result = re.match(‘Hello.*?(d+).*?Demo‘, content)
print(result)

import re

content = ‘Extra stings Hello 1234567 World_This is a Regex Demo Extra stings‘
result = re.search(‘Hello.*?(d+).*?Demo‘, content)
print(result)
print(result.group(1))

总结：为匹配方便，能用search就不用match

匹配演练

import re

html = ‘‘‘<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>‘‘‘
result = re.search(‘<li.*?active.*?singer="(.*?)">(.*?)</a>‘, html, re.S)
if result:
    print(result.group(1), result.group(2))

import re

html = ‘‘‘<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>‘‘‘
result = re.search(‘<li.*?singer="(.*?)">(.*?)</a>‘, html, re.S)
if result:
    print(result.group(1), result.group(2))

import re

html = ‘‘‘<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>‘‘‘
result = re.search(‘<li.*?singer="(.*?)">(.*?)</a>‘, html)
if result:
    print(result.group(1), result.group(2))

re.findall

搜索字符串，以列表形式返回全部能匹配的子串。

import re

html = ‘‘‘<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>‘‘‘
results = re.findall(‘<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>‘, html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])

import re

html = ‘‘‘<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>‘‘‘
results = re.findall(‘<li.*?>s*?(<a.*?>)?(w+)(</a>)?s*?</li>‘, html, re.S)
print(results)
for result in results:
    print(result[1])

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串。

import re

content = ‘Extra stings Hello 1234567 World_This is a Regex Demo Extra stings‘
content = re.sub(‘d+‘, ‘‘, content)
print(content)

import re

content = ‘Extra stings Hello 1234567 World_This is a Regex Demo Extra stings‘
content = re.sub(‘d+‘, ‘Replacement‘, content)
print(content)

import re

content = ‘Extra stings Hello 1234567 World_This is a Regex Demo Extra stings‘
content = re.sub(‘(d+)‘, r‘1 8910‘, content)
print(content)

import re

html = ‘‘‘<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>‘‘‘
html = re.sub(‘<a.*?>|</a>‘, ‘‘, html)
print(html)
results = re.findall(‘<li.*?>(.*?)</li>‘, html, re.S)
print(results)
for result in results:
    print(result.strip())

re.compile

将正则字符串编译成正则表达式对象

import re

content = ‘‘‘Hello 1234567 World_This
is a Regex Demo‘‘‘
pattern = re.compile(‘Hello.*Demo‘, re.S)
result = re.match(pattern, content)
#result = re.match(‘Hello.*Demo‘, content, re.S)
print(result)

实战练习

import requests
import re
content = requests.get(‘https://book.douban.com/‘).text
pattern = re.compile(‘<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>‘, re.S)
results = re.findall(pattern, content)
for result in results:
    url, name, author, date = result
    author = re.sub(‘s‘, ‘‘, author)
    date = re.sub(‘s‘, ‘‘, date)
    print(url, name, author, date)

正则表达式(代码片段)

1#tool.chinaz.com/regex/这是一个在线的正则表达式测试工具2#re模块,在python中想要使用正则表达式，要使用re模块来进行使用3#正则表达式45#学习正则表达式67#学习使用re模块来操作正则表达式8910#正则表达式是用来做字符串匹配的11#... 查看详情

正则表达式(代码片段)

regularexpression1、正则表达式概述常用的正则表达式引擎POSIX基本正则表达式BRE引擎POSIX扩展正则表达式BRE引擎正则表达式：是一类字符所书写出的模式（pattern）元字符：不表示字符本身的意义，用于额外功能性描述基本正则表达... 查看详情

正则表达式(代码片段)

1正则表达式概述1.1什么是正则表达式正则表达式：RegularExpression，是一些由特殊的字符和符号组成的字符串，主要用来进行高级的文本匹配、搜索、替换等功能操作。正则表达式是一个独立的技术，python中提供了re模块来支持正... 查看详情

正则表达式(代码片段)

...ession简介语法贪婪匹配和惰性匹配简介RegularExpression,正则表达式,⼀种使⽤表达式的⽅式对字符串进⾏匹配的语法规则.我们抓取到的⽹⻚源代码本质上就是⼀个超⻓的字符串,想从⾥⾯提取内容.⽤正则再合适不过了.正则的优点:速... 查看详情

php正则表达式正则表达式一般表(代码片段)

查看详情

markdown正则表达式模式片段(代码片段)

查看详情

正则表达式(代码片段)

golanghttp://www.cnblogs.com/golove/p/3269099.html 查看详情

php正则表达式（正则表达式）匹配url(代码片段)

查看详情

正则表达式(代码片段)

正则表达式：用于匹配规律规则的表达式，正则表达式最初是科学家对人类神经系统的工作原理的早期研究，现在在编程语言中有广泛的应用，经常用于表单校验，高级搜索等。创建正则表达式【07-正则表达式的创建.html】构造... 查看详情

正文

正则表达式(代码片段)

正则表达式

常见匹配模式

re.match

最常规的匹配

泛匹配

匹配目标

贪婪匹配

非贪婪匹配

匹配模式

转义

re.search

匹配演练

re.findall

re.sub

re.compile

实战练习

正则表达式(代码片段)

正则表达式(代码片段)

正则表达式(代码片段)

正则表达式(代码片段)

php正则表达式正则表达式一般表(代码片段)

markdown正则表达式模式片段(代码片段)

正则表达式(代码片段)

php正则表达式（正则表达式）匹配url(代码片段)

正则表达式(代码片段)

php正则表达式(代码片段)

markdown正则表达式(代码片段)

markdown正则表达式(代码片段)

pythonpython正则表达式(代码片段)

golang正则表达式(代码片段)

text正则表达式(代码片段)

javascript正则表达式(代码片段)

pythonpython正则表达式(代码片段)

textmetaobject正则表达式(代码片段)