正文

python爬虫编程思想（35）：用正则表达式搜索替换和分隔字符串

蒙娜丽宁  蒙娜丽宁  2023-01-08  699

关键词：

1. 用sub和subn搜索与替换

sub函数与subn函数用于实现搜索和替换功能。这两个函数的功能几乎完全相同，都是将某个字符串中所有匹配正则表达式的部分替换成其他字符串。用来替换的部分可能是一个字符串，也可以是一个函数，该函数返回一个用来替换的字符串。sub函数返回替换后的结果，subn函数返回一个元组，元组的第1个元素是替换后的结果

python爬虫编程思想（29）：正则表达式的匹配（match）与搜索（search）

目录1. 使用match方法匹配字符串2.使用search方法在一个字符串中查找模式1. 使用match方法匹配字符串< 查看详情

python爬虫编程思想（32）：正则表达式的分组(代码片段)

如果一个模式字符串中有用一对圆括号括起来的部分，那么这部分就会作为一组，可以通过group方法的参数获取指定的组匹配的字符串，当然，如果模式字... 查看详情

python爬虫编程思想（31）：在正则表达式中使用字符集匹配重复可选字符和特殊字符

目录 1.使用字符集2. 匹配重复、可选字符和特殊字符1.使用字符集如果待匹配的字符串中，某些字符可以有多个选择，就需要使用字符集（[]），也就是一对中括号括起来... 查看详情

python爬虫编程思想（34）：使用findall和finditer查找每一次出现的位置(代码片段)

...p; findall函数用于查询字符串中某个正则表达式模式全部的非重复出现情况，这一点与search函数在执行字符串搜索时类似，但与match函数与search函数不同之处在于，findall函数总是返回一个包含搜索结果的列表，如... 查看详情

python爬虫编程思想（36）：项目实战-抓取斗破小说网的目录和全文

...3个Python网络库（urllib、urllib3和requests），以及通过正则表达式过滤字符串。现在该来点实战了。本节以及后面2节会给出3个案例，分别使用urllib、urllib3以及requests，并通过正则表达式抓取Web数据，这些数据或者显示在Console中，查看详情

python爬虫编程思想（45）：在chrome中自动获得xpath代码

尽管XPath代码写起来要比正则表达式简单得多，但如果遇到复杂的节点，仍然写起来比较费劲，幸好很多浏览器提供了自动获取XPath代码的能力。我们可以在自动获取的XPath代码的基础上修改，甚至很多... 查看详情

python爬虫编程思想（87）：项目实战--抓取豆瓣电影排行榜

...瓣电影Top250排行榜页面的代码，然后使用lxml、XPath和正则表达式对HTML代码进行解析，最后将抓取到的信息保存到SQLite数据库中。豆瓣电影Top250排行榜页面的URL如下。https://movie.douban.com/top250页面效果如图1所示。豆瓣电影Top250... 查看详情

python爬虫编程思想（87）：项目实战--抓取豆瓣电影排行榜

python爬虫编程思想（86）：项目实战--抓取豆瓣音乐排行榜

...uests抓取相关页面，并使用BeautifulSoup的方法选择器和正则表达式结合的方式分析HTML代码，最后将提取出的数据保存到music.csv文件中，这是一个CSV格式的文本。豆瓣音乐Top250榜单的URL如下：https://music.douban.com/top250页面效果如图1所... 查看详情

python爬虫编程思想（86）：项目实战--抓取豆瓣音乐排行榜

如何用python爬虫获取那些价值博文

...到面向对象编程过渡。特别注意的是，RePage类主要用正则表达式处理从网页中获取的信息，正则表达式设置字符串样式如下：用正则表达式去匹配所要爬取的内容，用Python和其它软件工具都可以实现。正则表达式有许多规则，各... 查看详情

python爬虫编程思想（76）：读取与搜索xml文件

在上一篇文章中只讲了如何读取XML文件，这些XML文件可能是手工录入的，也可能是其他程序生成的，不过更有可能是当前的程序生成的。生成XML文件的方式... 查看详情

python爬虫编程思想（75）：读取与搜索xml文件(代码片段)

xml文件已经被广泛使用在各种应用中，无论是Web应用、还是移动应用，或是桌面应用以及其他应用，几乎都会有XML文件的身影。尽管目前很多应用都不会将大量的数据保存在XML文件中，但至少... 查看详情

python爬虫编程思想（40）：xpath基础

目录 1 XPath概述2.使用XPath XPath的英文全称是XMLPathLanguage，中文是XML路径语言，它是一种在XML文档中查找信息的语言，最初是用于在XML文档中搜索节点的，但同样可用于HTML... 查看详情

python爬虫编程思想：用urllib处理请求超时(代码片段)

Python爬虫编程思想（10）：通过urllib设置HTTP请求头当向服务端发送HTTP请求时，通常很快就会得到响应，但由于某些原因，服务端可能迟迟没有响应（很大... 查看详情

python爬虫编程思想：网络爬虫的基本原理

...p; 目录1.爬虫的分类2.爬虫抓取数据的方式和手段Python爬虫编程思想（5）：Session与Cookie 我们为什么将从互联网上下载资源的程序称为爬虫呢？其实这是一个很形象的比喻。整个互联网... 查看详情

python爬虫解析神器-正则表达式如何正确运用？案例详解

先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样，是必不可少的神兵利器。一、正则表达式基础1.1.概念介绍正则表达式是用于处理字符串的强大工具，它并... 查看详情

python爬虫编程思想（91）：项目实战--支持搜索功能的图片爬虫

本文会使用requests库抓取百度图像搜索API返回的JSON数据，并根据图像URL下载图像文件。由于API返回的是JSON格式的数据，所以不需要使用任何HTML分析库，只需要将数据转换为JSON对象即可。 ... 查看详情