正文

网页爬虫之二手车价格爬虫(代码片段)

CodeSavior  CodeSavior  2022-12-06  546

关键词：

今天学习了爬虫技术

简单来说就是利用pyhon连续的访问网页，自动的将网页中我们用到的信息存储起来的过程。

需要我们的看懂简单的网页代码，能够写一些简单的python语句

下面我们举一个一个需要两步爬虫的例子：

第一步：获取车辆链接

我们想获取二手车辆的价格年份等信息

车辆信息的展示是分页的

为了将所有分页的车辆信息都获取到，我们总结了不同分页网络链接的不同

第一页为www.某某某/24-1282-1-1

第二页为www.某某某/24-1282-1-2

我们可以看到唯一的不同是有1282-1-1变为-2了。

依照这样的规律我们可以写一个循环来实现对网页的切换

 for i in range (1,2,1):
        print("开始爬取第 %s 页" % page)
        url = 'https://www.某车帝.com/usedcar/x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-24-1282-1--x-x-x-x-x'.format(i)

但是通过如上的操作我们并不能看到车辆的当前价格，可能是由于这个网站就是怕我们进行爬虫故意设置的。

但是聪明的我们可以点进去这个链接进入车辆的具体信息中

看到“新车指导价”和“比新车省”的价格做差可以得到当前价格，而这两个数据是可以在网页中获得的。

从此，我们心中就有底啦！开干！

第二步：在车辆详细信息中爬取数据

res = requests.get(url).text
content = BeautifulSoup(res, "html.parser")
data = content.find_all('li', attrs='class': 'tw-col-span-13')
car_list = []
for d in data:
   carurl = d.find('a')['href']
   car_list.append("https://www.dongchedi.com"+carurl)

创建一个文件，将获取到的信息存储到txt文件中。

    file = open("carprice.txt","w")
    for percarlink in data:
        result = getprice(percarlink)
        realprice= float(result[1][0][6:-1])-float(result[2][0][5:-1])
        file.write(result[0][0] +','+result[1][0][6:-1]+','+result[2][0][5:-1]+','+str(realprice)+'\\n')
        time.sleep(1)
    file.close()

其中，获取具体的信息写在getprice函数中。

def getprice(url):
    print(url)
    html = requests.get(url,headers='').text
    etree_html = etree.HTML(html)
    content = etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[1]/h1/text()')#获取的是产品类型
    stand_price = etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[3]/div/div/p[1]/text()')#获取的是指导价
    takeoff_price = etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[3]/div/div/p[2]/text()')#获取的是比新车优惠的价格
    distance= etree_html.xpath('//*[@id="__next"]/div/div[2]/div/div[2]/div[2]/div[5]/div/div[2]/p[1]/text()')
    result = [content,stand_price,takeoff_price]
    return result

这里我们用到了xpath，

xpath的获取方式如下所示

需要注意的是在后面需要加上/text()。

详细的代码大家可以看如下项目

网络爬虫案例+python+汽车价格爬虫-数据集文档类资源-CSDN下载

网页爬虫之二手车价格爬虫(代码片段)

...爬虫的例子：第一步：获取车辆链接我们想获取二手车辆的价格年份等信息车辆信息的展示是分页的为了将所有分页的车辆信息都获取到，我们总结了不同分页网络链接的不同第一页为www.某某某/24-1282-1-1第二页为www... 查看详情

python开发爬虫之beautifulsoup解析网页篇：爬取安居客网站上北京二手房数据

目标：爬取安居客网站上前10页北京二手房的数据，包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。网址为：https://beijing.anjuke.com/sale/BeautifulSoup官网：https://www.crummy.com/software/BeautifulSoup/直接上... 查看详情

python爬虫之链家二手房数据爬取(代码片段)

Python依赖模块：requestsparselcsv功能要求：请求网页打开开发者工具（ F12或者鼠标右键点击检查）选择 notework 查看数据返回的内容。通过开发者工具可以看到，网站是静态网页数据，请求url地址是可以... 查看详情

python项目实战之网络爬虫详解(代码片段)

...虫2、聚焦爬虫3、通用网络爬虫（全网爬虫）四、网页抓取策略1、宽度优先搜索：2、深度优先搜索：3、最佳优先搜索：4、反向链接数策略：5、PartialPageRank策略：五、网页抓取的方法1、分布式爬虫现... 查看详情

第四章爬虫进阶之动态网页数据抓取(代码片段)

动态网页数据抓取什么是AJAX：AJAX（AsynchronouseJavaScriptAndXML）异步JavaScript和XML。过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统... 查看详情

引点科技私房菜专栏之第一个python小爬虫(代码片段)

文章目录第一个Python小爬虫分析网页编写爬虫结果第一个Python小爬虫分析网页打开网站猫眼电影TOP100,打开开发者工具，查看网页源代码，找到列表代码，也可以直接看下边的代码。<dd><iclass 查看详情

58同城二手车数据爬虫——数字加密解码（python原创）(代码片段)

一、基础首页爬取defcrawler():　　#设置cookiecookie=\'\'\'cisession=19dfd70a27ec0et_f805f7762a9a237a0deac37015e9f6d9=1483926368\'\'\'header=\'User-Agent\':\'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML 查看详情

scrapy框架第一个爬虫项目--汽车之家二手车列表信息抓取(代码片段)

废话不多说，上代码1、以下代码为spider文件importscrapyfromcar_home.itemsimportche168ItemclassChe168Spider(scrapy.Spider):name=‘che168‘allowed_domains=[‘che168.com‘]start_urls=[‘https://www.che168.com/beijing/list/‘]def 查看详情

通过爬虫抓取链家二手房数据(代码片段)

...司需要分析通过二手房数据来分析下市场需求，主要通过爬虫的方式抓取链家等二手房信息。一、分析链家网站　　1.因为最近天津落户政策开放，天津房价跟着疯了一般，所以我们主要来分析天津二手房数据，进入链家网站我... 查看详情

爬虫之requests模块(代码片段)

...，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通查看详情

爬虫之正则解析(代码片段)

...的结构比较“规范”（也就是人家没想搞你）的网页数据，直接用XPath或者bs4就可以解析网页数据了，但是有时候爬虫你查看详情

爬虫之正则解析(代码片段)

...的结构比较“规范”（也就是人家没想搞你）的网页数据，直接用XPath或者bs4就可以解析网页数据了，但是有时候爬虫你查看详情

0基础学爬虫爬虫基础之网页解析库的使用(代码片段)

...【0基础学爬虫】专栏，帮助小白快速入门爬虫，本期为网页解析库的使用。概述前几期的文章中讲到了网络请求库的使用，我们已经能够使用各种库对目标网址发起请求，并获取响应信息。本期我们会介绍各网页解析库的使用... 查看详情

python基础之爬虫：爬取小说，图片示例(代码片段)

一、用python里面的beautifulsoup爬取网页中的小说原来网页内容：http://www.jueshitangmen.info/tian-meng-bing-can-11.html#爬虫frombs4importBeautifulSoupfromurllib.requestimporturlopenhtml=urlopen('http://www.jues 查看详情

爬虫之selenium(代码片段)

...浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器作用：可以让浏览器完成相关自动化的操作和爬虫的关联：模拟登陆可以获取动态加载的页面数据编码流程：导包实例化浏览器对... 查看详情

两款傻瓜化小白爬虫工具推荐(代码片段)

...二手房最新行情；　　7、采集各大汽车网站具体的新车二手车信息；　　8、发现和收集潜在客户信息；　　9、采集行业网站的产品目录及产品信息；　　10、在各大电商平台之间同步商品信息，做到在一个平台发布，其他平台... 查看详情

网络爬虫之动态内容爬取(代码片段)

...，不再是加载后立即下载所有页面内容。这样会造成许多网页在浏览其中展示的内容不会出现在HTML源码中，针对于这种依赖于JavaScript的动态网站，我们需要采取相应方法，比如JavaScript逆向工程、渲染JavaScript等方法。1.动态网页查看详情

puppeteer之爬虫入门(代码片段)

译者按：本文通过简单的例子介绍如何使用Puppeteer来爬取网页数据，特别是用谷歌开发者工具获取元素选择器值得学习。原文:AGuidetoAutomating&ScrapingtheWebwithJavaScript(Chrome+Puppeteer+NodeJS)译者:Fundebug为了保证可读性，本文采用意译... 查看详情