网页爬虫之二手车价格爬虫(代码片段)

CodeSavior CodeSavior     2022-12-06     546

关键词:

今天学习了爬虫技术

简单来说就是利用pyhon连续的访问网页,自动的将网页中我们用到的信息存储起来的过程。

需要我们的看懂简单的网页代码,能够写一些简单的python语句

下面我们举一个一个需要两步爬虫的例子:

第一步:获取车辆链接

我们想获取二手车辆的价格年份等信息 

车辆信息的展示是分页的

为了将所有分页的车辆信息都获取到,我们总结了不同分页网络链接的不同

第一页为www.某某某/24-1282-1-1

第二页为www.某某某/24-1282-1-2

我们可以看到唯一的不同是有1282-1-1变为-2了。

依照这样的规律我们可以写一个循环来实现对网页的切换

 for i in range (1,2,1):
        print("开始爬取第 %s 页" % page)
        url = 'https://www.某车帝.com/usedcar/x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-24-1282-1--x-x-x-x-x'.format(i)

但是通过如上的操作我们并不能看到车辆的当前价格,可能是由于这个网站就是怕我们进行爬虫故意设置的。

但是聪明的我们可以点进去这个链接进入车辆的具体信息中​​​​​​​

看到“新车指导价”和“比新车省”的价格做差可以得到当前价格,而这两个数据是可以在网页中获得的。 

从此,我们心中就有底啦!开干!

第二步:在车辆详细信息中爬取数据

res = requests.get(url).text
content = BeautifulSoup(res, "html.parser")
data = content.find_all('li', attrs='class': 'tw-col-span-13')
car_list = []
for d in data:
   carurl = d.find('a')['href']
   car_list.append("https://www.dongchedi.com"+carurl)

 创建一个文件,将获取到的信息存储到txt文件中。

    file = open("carprice.txt","w")
    for percarlink in data:
        result = getprice(percarlink)
        realprice= float(result[1][0][6:-1])-float(result[2][0][5:-1])
        file.write(result[0][0] +','+result[1][0][6:-1]+','+result[2][0][5:-1]+','+str(realprice)+'\\n')
        time.sleep(1)
    file.close()

 其中,获取具体的信息写在getprice函数中。

def getprice(url):
    print(url)
    html = requests.get(url,headers='').text
    etree_html = etree.HTML(html)
    content = etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[1]/h1/text()')#获取的是产品类型
    stand_price = etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[3]/div/div/p[1]/text()')#获取的是指导价
    takeoff_price = etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[3]/div/div/p[2]/text()')#获取的是比新车优惠的价格
    distance= etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[5]/div/div[2]/p[1]/text()')
    result = [content,stand_price,takeoff_price]
    return result

这里我们用到了xpath,

xpath的获取方式如下所示

需要注意的是在后面需要加上/text()。 

详细的代码大家可以看如下项目

网络爬虫案例+python+汽车价格爬虫-数据集文档类资源-CSDN下载

网页爬虫之二手车价格爬虫(代码片段)

...爬虫的例子:第一步:获取车辆链接我们想获取二手车辆的价格年份等信息 车辆信息的展示是分页的为了将所有分页的车辆信息都获取到,我们总结了不同分页网络链接的不同第一页为www.某某某/24-1282-1-1第二页为www... 查看详情

python开发爬虫之beautifulsoup解析网页篇:爬取安居客网站上北京二手房数据

目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。网址为:https://beijing.anjuke.com/sale/BeautifulSoup官网:https://www.crummy.com/software/BeautifulSoup/直接上... 查看详情

python爬虫之链家二手房数据爬取(代码片段)

Python依赖模块:requestsparselcsv功能要求:请求网页打开开发者工具( F12或者鼠标右键点击检查 )选择 notework 查看数据返回的内容。 通过开发者工具可以看到,网站是静态网页数据,请求url地址是可以... 查看详情

python项目实战之网络爬虫详解(代码片段)

...虫2、聚焦爬虫3、通用网络爬虫(全网爬虫)四、网页抓取策略1、宽度优先搜索:2、深度优先搜索:3、最佳优先搜索:4、反向链接数策略:5、PartialPageRank策略:五、网页抓取的方法1、分布式爬虫现... 查看详情

第四章爬虫进阶之动态网页数据抓取(代码片段)

动态网页数据抓取什么是AJAX:AJAX(AsynchronouseJavaScriptAndXML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统... 查看详情

引点科技私房菜专栏之第一个python小爬虫(代码片段)

文章目录第一个Python小爬虫分析网页编写爬虫结果第一个Python小爬虫分析网页打开网站猫眼电影TOP100,打开开发者工具,查看网页源代码,找到列表代码,也可以直接看下边的代码。<dd><iclass 查看详情

58同城二手车数据爬虫——数字加密解码(python原创)(代码片段)

一、基础首页爬取defcrawler():  #设置cookiecookie=\'\'\'cisession=19dfd70a27ec0et_f805f7762a9a237a0deac37015e9f6d9=1483926368\'\'\'header=\'User-Agent\':\'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML 查看详情

scrapy框架第一个爬虫项目--汽车之家二手车列表信息抓取(代码片段)

废话不多说,上代码1、以下代码为spider文件importscrapyfromcar_home.itemsimportche168ItemclassChe168Spider(scrapy.Spider):name=‘che168‘allowed_domains=[‘che168.com‘]start_urls=[‘https://www.che168.com/beijing/list/‘]def 查看详情

通过爬虫抓取链家二手房数据(代码片段)

...司需要分析通过二手房数据来分析下市场需求,主要通过爬虫的方式抓取链家等二手房信息。一、分析链家网站  1.因为最近天津落户政策开放,天津房价跟着疯了一般,所以我们主要来分析天津二手房数据,进入链家网站我... 查看详情

爬虫之requests模块(代码片段)

...,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通 查看详情

爬虫之正则解析(代码片段)

...的结构比较“规范”(也就是人家没想搞你)的网页数据,直接用XPath或者bs4就可以解析网页数据了,但是有时候爬虫你 查看详情

爬虫之正则解析(代码片段)

...的结构比较“规范”(也就是人家没想搞你)的网页数据,直接用XPath或者bs4就可以解析网页数据了,但是有时候爬虫你 查看详情

0基础学爬虫爬虫基础之网页解析库的使用(代码片段)

...【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为网页解析库的使用。概述前几期的文章中讲到了网络请求库的使用,我们已经能够使用各种库对目标网址发起请求,并获取响应信息。本期我们会介绍各网页解析库的使用... 查看详情

python基础之爬虫:爬取小说,图片示例(代码片段)

一、用python里面的beautifulsoup爬取网页中的小说原来网页内容:http://www.jueshitangmen.info/tian-meng-bing-can-11.html#爬虫frombs4importBeautifulSoupfromurllib.requestimporturlopenhtml=urlopen('http://www.jues 查看详情

爬虫之selenium(代码片段)

...浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器作用:可以让浏览器完成相关自动化的操作和爬虫的关联:模拟登陆可以获取动态加载的页面数据编码流程:导包实例化浏览器对... 查看详情

两款傻瓜化小白爬虫工具推荐(代码片段)

...二手房最新行情;  7、采集各大汽车网站具体的新车二手车信息;  8、发现和收集潜在客户信息;  9、采集行业网站的产品目录及产品信息;  10、在各大电商平台之间同步商品信息,做到在一个平台发布,其他平台... 查看详情

网络爬虫之动态内容爬取(代码片段)

...,不再是加载后立即下载所有页面内容。这样会造成许多网页在浏览其中展示的内容不会出现在HTML源码中,针对于这种依赖于JavaScript的动态网站,我们需要采取相应方法,比如JavaScript逆向工程、渲染JavaScript等方法。1.动态网页 查看详情

puppeteer之爬虫入门(代码片段)

译者按:本文通过简单的例子介绍如何使用Puppeteer来爬取网页数据,特别是用谷歌开发者工具获取元素选择器值得学习。原文:AGuidetoAutomating&ScrapingtheWebwithJavaScript(Chrome+Puppeteer+NodeJS)译者:Fundebug为了保证可读性,本文采用意译... 查看详情