正文

python爬虫编程思想（91）：项目实战--支持搜索功能的图片爬虫

蒙娜丽宁  蒙娜丽宁  2023-02-22  216

关键词：

本文会使用requests库抓取百度图像搜索API返回的JSON数据，并根据图像URL下载图像文件。由于API返回的是JSON格式的数据，所以不需要使用任何HTML分析库，只需要将数据转换为JSON对象即可。

抓取API数据的第一步就是要确定网站的数据是否是通过异步的方式获取的。判断方式有多种，如果是显示图像的网站，而且是在一页上显示所有的图像，只需要将网页不断向下拉，如果在浏览器页面，随着滚动条向下拉动，不断显示新的图像，那么可以肯定，这个网址的图片数据是通过异步获取的。通常会首先获取一个包含图片信息的列表（JSON格式），然后会从列表中提取出图像相关的信息，如图像名称，图像URL等，最后会将这个新的图像显示在页面上。

现在来分析百度图像搜索，读者可以通过http://image.baidu.com进入百度图像搜索首页，在搜索框中输入一个关键字，如“外星人”。会搜索出类似图13-9所示的结果。

python爬虫编程思想（126）：项目实战--实时抓取“得到”app在线课程

本文会给出一个真实的爬虫项目，这个爬虫项目抓取了“得到”App的在线课程列表。现在运行“得到”App，进入课程列表，会看到如图1所示的页面。 &n... 查看详情

python爬虫编程思想（61）：项目实战：抓取租房信息

本文会使用requests库抓取小猪网（http://sy.xiaozhu.com）在沈阳地区的租房信息，并通过BeautifulSoup库的节点选择器和方法选择器提取与房源相关的信息，然后将这些信息以JSON格式保存在houses.txt文件中，同时下载每... 查看详情

python爬虫编程思想（143）：项目实战：多线程和多进程爬虫(代码片段)

首先来学习使用多线程实现爬虫，这个案例抓取了豆瓣音乐Top250排行榜，只是本例去除去了将提取的结果保存为文件的功能，仅仅将提取的结果输出到Console上。本例使用了4个线程同时抓... 查看详情

python爬虫编程思想（69）：项目实战--抓取当当图书排行榜

...onsole上。本例抓取与Python相关的图查看详情

python爬虫编程思想（38）：项目实战：抓取糗事百科网的段子

本节的项目会使用requests库抓取糗事百科网的段子，读者可以用下面的URL访问访问糗事百科段子页面。https://www.qiushibaike.com/text页面如图1所示。在页面... 查看详情

python爬虫编程思想（133）：项目实战--利用appium抓取微信朋友圈信息

本文利用Appium实现一个抓取微信朋友圈信息的爬虫。在编写爬虫之前，先要启动Appium服务器。编写基于Appium的爬虫，关键就是分析App每个界面相关元素的特征，也就是如何获... 查看详情

python爬虫编程思想（47）：项目实战：抓取豆瓣top250图书榜单

本文使用requests库、lxml库以及XPath抓取豆瓣网Top250图书排行榜。读者可以通过https://book.douban.com/top250访问Top250图书榜单，如图1所示。在开始编写爬查看详情

python爬虫编程思想（37）：项目实战：抓取猫眼电影top100榜单

本文会使用urllib3抓取猫眼电影Top100榜单，读者使用下面的URL进入Top100榜单页面。https://maoyan.com/board/4Top100榜单页面如图1所示。从Top100榜单页面可以看出，每一页有10部电影，共10页，一共100部... 查看详情

python爬虫编程思想（62）：项目实战：抓取酷狗网络红歌榜

本文的案例会使用requests抓取酷狗的网络红歌榜，并使用BeautifulSoup库的CSS选择器分析抓取到的HTML代码，并将提取的信息显示在Console上。首先在Chrome浏览器中使用下面的URL打开网络红歌榜页面... 查看详情

python爬虫编程思想（87）：项目实战--抓取豆瓣电影排行榜

本文的例子使用requests下载豆瓣电影Top250排行榜页面的代码，然后使用lxml、XPath和正则表达式对HTML代码进行解析，最后将抓取到的信息保存到SQLite数据库中。豆瓣电影Top250排行榜页面的URL如下。https://movie.douban.... 查看详情

python爬虫编程思想（87）：项目实战--抓取豆瓣电影排行榜

python爬虫编程思想（86）：项目实战--抓取豆瓣音乐排行榜

本文的例子抓取了豆瓣音乐Top250排行榜。使用requests抓取相关页面，并使用BeautifulSoup的方法选择器和正则表达式结合的方式分析HTML代码，最后将提取出的数据保存到music.csv文件中，这是一个CSV格式的文本。豆... 查看详情

python爬虫编程思想（86）：项目实战--抓取豆瓣音乐排行榜

python爬虫编程思想（48）：项目实战：抓取起点中文网的小说信息(代码片段)

...Excel文件中。本例需要使用第三方的xlwt库，该库用来通过Python操作Excel文件，需要使用下面的命令安装xlwt库。pipinstallxlwt 查看详情

python爬虫编程思想（36）：项目实战-抓取斗破小说网的目录和全文

...nbsp; 到现在为止我们已经学习了3个Python网络库（urllib、urllib3和requests），以及通过正则表达式过滤字符串。现在该来点实战了。本节以及后面2节会给出3个案例，分别使用urllib、urllib3以及requests，并通过正... 查看详情

python爬虫编程思想（70）：项目实战--抓取京东商城手机销售排行榜

本文的例子使用requests抓取京东商城手机销售排行榜，并使用pyquery和CSS选择器提取相关的信息，同时将这些信息保存到Excel文件中。本例抓取总排行榜，并单独提取Apple、华为和小米手机的销... 查看详情

python爬虫编程思想（69）：项目实战--抓取当当图书排行榜

...onsole上。本例抓取与Python相关的图书排行榜，所以可以在当当首页（http://www.dangdang.com）输入Python来搜索与Python相关的图书，得到的URL如下：http://search.dangdang.com/?key=python&act=input&sort_type=... 查看详情

python爬虫编程思想（92）：项目实战：抓取京东图书评价

...sp; 读者可以在京东商城选择一本图书，例如，《Python从菜鸟到高手》，URL是https://item.jd.com/12417265.html。商品页面如图1所示。在页面的下方是导航条，读者可以单击导航条上的数... 查看详情