python爬虫编程思想(91):项目实战--支持搜索功能的图片爬虫

蒙娜丽宁 蒙娜丽宁     2023-02-22     216

关键词:

        本文会使用requests库抓取百度图像搜索API返回的JSON数据,并根据图像URL下载图像文件。由于API返回的是JSON格式的数据,所以不需要使用任何HTML分析库,只需要将数据转换为JSON对象即可。

        抓取API数据的第一步就是要确定网站的数据是否是通过异步的方式获取的。判断方式有多种,如果是显示图像的网站,而且是在一页上显示所有的图像,只需要将网页不断向下拉,如果在浏览器页面,随着滚动条向下拉动,不断显示新的图像,那么可以肯定,这个网址的图片数据是通过异步获取的。通常会首先获取一个包含图片信息的列表(JSON格式),然后会从列表中提取出图像相关的信息,如图像名称,图像URL等,最后会将这个新的图像显示在页面上。

        现在来分析百度图像搜索,读者可以通过http://image.baidu.com进入百度图像搜索首页,在搜索框中输入一个关键字,如“外星人”。会搜索出类似图13-9所示的结果。     

python爬虫编程思想(126):项目实战--实时抓取“得到”app在线课程

        本文会给出一个真实的爬虫项目,这个爬虫项目抓取了“得到”App的在线课程列表。现在运行“得到”App,进入课程列表,会看到如图1所示的页面。         &n... 查看详情

python爬虫编程思想(61):项目实战:抓取租房信息

    本文会使用requests库抓取小猪网(http://sy.xiaozhu.com)在沈阳地区的租房信息,并通过BeautifulSoup库的节点选择器和方法选择器提取与房源相关的信息,然后将这些信息以JSON格式保存在houses.txt文件中,同时下载每... 查看详情

python爬虫编程思想(143):项目实战:多线程和多进程爬虫(代码片段)

         首先来学习使用多线程实现爬虫,这个案例抓取了豆瓣音乐Top250排行榜,只是本例去除去了将提取的结果保存为文件的功能,仅仅将提取的结果输出到Console上。本例使用了4个线程同时抓... 查看详情

python爬虫编程思想(69):项目实战--抓取当当图书排行榜

...onsole上。        本例抓取与Python相关的图 查看详情

python爬虫编程思想(38):项目实战:抓取糗事百科网的段子

        本节的项目会使用requests库抓取糗事百科网的段子,读者可以用下面的URL访问访问糗事百科段子页面。https://www.qiushibaike.com/text页面如图1所示。         在页面... 查看详情

python爬虫编程思想(133):项目实战--利用appium抓取微信朋友圈信息

    本文利用Appium实现一个抓取微信朋友圈信息的爬虫。在编写爬虫之前,先要启动Appium服务器。        编写基于Appium的爬虫,关键就是分析App每个界面相关元素的特征,也就是如何获... 查看详情

python爬虫编程思想(47):项目实战:抓取豆瓣top250图书榜单

        本文使用requests库、lxml库以及XPath抓取豆瓣网Top250图书排行榜。读者可以通过https://book.douban.com/top250访问Top250图书榜单,如图1所示。        在开始编写爬 查看详情

python爬虫编程思想(37):项目实战:抓取猫眼电影top100榜单

本文会使用urllib3抓取猫眼电影Top100榜单,读者使用下面的URL进入Top100榜单页面。https://maoyan.com/board/4Top100榜单页面如图1所示。        从Top100榜单页面可以看出,每一页有10部电影,共10页,一共100部... 查看详情

python爬虫编程思想(62):项目实战:抓取酷狗网络红歌榜

        本文的案例会使用requests抓取酷狗的网络红歌榜,并使用BeautifulSoup库的CSS选择器分析抓取到的HTML代码,并将提取的信息显示在Console上。首先在Chrome浏览器中使用下面的URL打开网络红歌榜页面... 查看详情

python爬虫编程思想(87):项目实战--抓取豆瓣电影排行榜

    本文的例子使用requests下载豆瓣电影Top250排行榜页面的代码,然后使用lxml、XPath和正则表达式对HTML代码进行解析,最后将抓取到的信息保存到SQLite数据库中。豆瓣电影Top250排行榜页面的URL如下。https://movie.douban.... 查看详情

python爬虫编程思想(87):项目实战--抓取豆瓣电影排行榜

    本文的例子使用requests下载豆瓣电影Top250排行榜页面的代码,然后使用lxml、XPath和正则表达式对HTML代码进行解析,最后将抓取到的信息保存到SQLite数据库中。豆瓣电影Top250排行榜页面的URL如下。https://movie.douban.... 查看详情

python爬虫编程思想(86):项目实战--抓取豆瓣音乐排行榜

    本文的例子抓取了豆瓣音乐Top250排行榜。使用requests抓取相关页面,并使用BeautifulSoup的方法选择器和正则表达式结合的方式分析HTML代码,最后将提取出的数据保存到music.csv文件中,这是一个CSV格式的文本。豆... 查看详情

python爬虫编程思想(86):项目实战--抓取豆瓣音乐排行榜

    本文的例子抓取了豆瓣音乐Top250排行榜。使用requests抓取相关页面,并使用BeautifulSoup的方法选择器和正则表达式结合的方式分析HTML代码,最后将提取出的数据保存到music.csv文件中,这是一个CSV格式的文本。豆... 查看详情

python爬虫编程思想(48):项目实战:抓取起点中文网的小说信息(代码片段)

...Excel文件中。本例需要使用第三方的xlwt库,该库用来通过Python操作Excel文件,需要使用下面的命令安装xlwt库。pipinstallxlwt        查看详情

python爬虫编程思想(36):项目实战-抓取斗破小说网的目录和全文

...nbsp;     到现在为止我们已经学习了3个Python网络库(urllib、urllib3和requests),以及通过正则表达式过滤字符串。现在该来点实战了。本节以及后面2节会给出3个案例,分别使用urllib、urllib3以及requests,并通过正... 查看详情

python爬虫编程思想(70):项目实战--抓取京东商城手机销售排行榜

        本文的例子使用requests抓取京东商城手机销售排行榜,并使用pyquery和CSS选择器提取相关的信息,同时将这些信息保存到Excel文件中。本例抓取总排行榜,并单独提取Apple、华为和小米手机的销... 查看详情

python爬虫编程思想(69):项目实战--抓取当当图书排行榜

...onsole上。        本例抓取与Python相关的图书排行榜,所以可以在当当首页(http://www.dangdang.com)输入Python来搜索与Python相关的图书,得到的URL如下:http://search.dangdang.com/?key=python&act=input&sort_type=... 查看详情

python爬虫编程思想(92):项目实战:抓取京东图书评价

...sp;  读者可以在京东商城选择一本图书,例如,《Python从菜鸟到高手》,URL是https://item.jd.com/12417265.html。商品页面如图1所示。         在页面的下方是导航条,读者可以单击导航条上的数... 查看详情