链家数据爬取(代码片段)

jzxs jzxs     2023-02-25     320

关键词:

爬取杭州在售二手房的数据

https://hz.lianjia.com/ershoufang/这是首页地址,我们可以看见有翻页栏,总共100页,每一页30条数据,

第二页地址https://hz.lianjia.com/ershoufang/pg2/,对比可以发现多了一个参数pg2,这样就可以找到规律,1-100页请求地址都可以找到

使用正则表达式提取每一页的数据

技术分享图片

‘<li.*?LOGCLICKDATA.*?class="info clear".*?title.*?<a.*?>(.*?)</a>.*?houseInfo.*?region.*?>(.*?)</a>(.*?)</div>.*?positionIcon.*?</span>(.*?)<a.*?>(.*?)</a>.*?starIcon.*?</span>(.*?)</div>.*?class="totalPrice"><span>(.*?)</span>(.*?)</div>.*?unitPrice.*?<span>(.*?)</span>‘
import requests
import re
import json
import time
def get_one_page(url):
    headers=
    User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36

    
    response=requests.get(url,headers=headers)
    if response.status_code==200:
        return response.text
    return None
def parse_one_page(html):
    pattern=re.compile(<li.*?LOGCLICKDATA.*?class="info clear".*?title.*?<a.*?>(.*?)</a>.*?houseInfo.*?region.*?>(.*?)</a>(.*?)</div>.*?positionIcon.*?</span>(.*?)<a.*?>(.*?)</a>.*?starIcon.*?</span>(.*?)</div>.*?class="totalPrice"><span>(.*?)</span>(.*?)</div>.*?unitPrice.*?<span>(.*?)</span>)
    items=re.findall(pattern,html)
    for item in items:
        yield
        title:item[0],
        address:item[1],
        houseIcon:item[2],
        flood:item[3].strip()+item[4].strip(),
        personStar:item[5],
        price:item[6]+item[7]
        
def write_file(content):
    with open(result12.json,a,encoding=utf8)as f:
        print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False)+
)
def main(offset):
    url=https://hz.lianjia.com/ershoufang/pg+str(offset)
    html=get_one_page(url)
    for item in parse_one_page(html):
        write_file(item)
if __name__ == __main__:
    for i in range(101):
        main(offset=i)
        time.sleep(1)

全部数据保存到json文件

技术分享图片

 

43.scrapy爬取链家网站二手房信息-1(代码片段)

 首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下:url=https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据... 查看详情

python爬虫之链家二手房数据爬取(代码片段)

Python依赖模块:requestsparselcsv功能要求:请求网页打开开发者工具( F12或者鼠标右键点击检查 )选择 notework 查看数据返回的内容。 通过开发者工具可以看到,网站是静态网页数据,请求url地址是可以... 查看详情

链家数据爬取(代码片段)

爬取杭州在售二手房的数据https://hz.lianjia.com/ershoufang/这是首页地址,我们可以看见有翻页栏,总共100页,每一页30条数据,第二页地址https://hz.lianjia.com/ershoufang/pg2/,对比可以发现多了一个参数pg2,这样就可以找到规律,1-100页... 查看详情

利用pandas对在链家网爬取的租房数据进行清洗(代码片段)

爬虫代码可以参考这篇文章,全是干货,在此不再赘述。爬下来的数据就可以进行数据清洗啦!首先确定需要处理的字段。因为后续准备做回归,所以我的变量设置是这样的:清洗前的数据如下所示: 结... 查看详情

广州市二手房源数据采集和可视化分析(链家二手房)python(代码片段)

使用:Jupyter,Pyecharts,pandas等实现对爬取数据的可视化,和聚合分析使用Kmeans等爬取链家二手房数据注意!可能链家网站的样式有变,爬取时注意!#author:JianFeiGan#email:JianFeiGan@aliyun.com#Date:2021/6/13im 查看详情

租房不入坑不进坑,python爬取链家二手房的数据,提前了解租房信息(代码片段)

目录前言一、查找数据所在位置:二、确定数据存放位置:三、获取html数据:四、解析html,提取有用数据:前言贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什... 查看详情

爬虫练习三:爬取链家二手房信息(代码片段)

...通勤的时候看到了一些售房广告,所以这次想要尝试爬取链家发布的各个城市二手房信息,并将其写入本地数据库 1.网页查看1)以北京为例我们要访问的url是https://bj.lianjia.com/ershoufang/。越过页面上方的筛选区域,就下来就... 查看详情

链家新房爬虫(代码片段)

#链家新房爬虫**今日目标**爬取最新地区以及对应的房价```pythonimportrequestsimportreimportcsvclassLianjiaSpider(object):def__init__(self):self.url=‘https://cq.lianjia.com/ershoufang/pg/‘self.headers=‘User-Agent‘:‘Mozilla/5 查看详情

广州市二手房源数据采集和可视化分析(链家二手房)python(代码片段)

...现对爬取数据的可视化,和聚合分析使用Kmeans等爬取链家二手房数据注意!可能链家网站的样式有变,爬取时注意!#author:JianFeiGan#email:JianFeiGan@aliyun.com#Date:2021/6/13importurllib.requestfrombs4importBeautifulSoupimportpandasaspd... 查看详情

上海链家网二手房成交数据爬取

#本文以浦东新区为例--其他区自行举一反三  importrequestsimportpandasaspdimportpprintimportcsvimportpandasaspdfrombs4importBeautifulSoupurl=‘https://sh.lianjia.com/chengjiao/areo/pgpage/‘data=[]#定义区列表areali 查看详情

链家信息爬取

一、数据库封装importpymysqlclassMysqlHelper(object):   def__init__(self):       self.db=pymysql.connect(host=‘127.0.0.1‘,port=3306,user=‘root‘,password=‘abc1 查看详情

通过爬虫抓取链家二手房数据(代码片段)

...二手房数据来分析下市场需求,主要通过爬虫的方式抓取链家等二手房信息。一、分析链家网站  1.因为最近天津落户政策开放,天津房价跟着疯了一般,所以我们主要来分析天津二手房数据,进入链家网站我们看到共找到2912... 查看详情

scrapy全站数据爬取(代码片段)

大部分的网站展示的数据都进行了分页操作,那么将所有页码对应的页面数据进行爬取就是爬虫中的全站数据爬取。基于scrapy如何进行全站数据的爬取?使用request方法,给callback传参(函数),函数解析请求回来的数据,实现全站数... 查看详情

爬虫爬取全国历史天气数据(代码片段)

一段很简单的爬虫程序,爬取的网站为http://www.tianqihoubao.com,可以自己修改爬取城市以及爬取的月份,这里爬取的是1到7月的数据frombs4importBeautifulSoupimportrequestsimportpymysqlimportwarnings#importpinyin#frompinyinimportPinYinfrompypinyinimportpin 查看详情

爬虫链家网站获取信息(代码片段)

importreimportjsonfromurllib.requestimporturlopenimportssl#?掉数字签名证书ssl._create_default_https_context=ssl._create_unverified_contextershoufang_url=‘https://bj.lianjia.com/ershoufang/rs/‘defget_html_con 查看详情

用scrapy爬取京东的数据(代码片段)

本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中。 一、项目介绍 主要目标1、使用scrapy爬取京东上所有的手机数据2、将爬取的数据存储到MongoDB 环境win7、python2、pycharm 技术1、数据采集:scr... 查看详情

05数据爬取-补(代码片段)

修改自一个爬取数据并输入省份查询的脚本。 importrequestsimportjsonimportmysql.connectorimporttimedefDown_data():#获取JSONurl=‘https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5‘print="%int(time.mktime(t)*1000)‘"he 查看详情

爬取网页数据(代码片段)

importurllib.request#r=urllib.request.urlopen("http://183.247.167.54:7009/#/map")#print(r.read())#爬取网页源码r=urllib.request.urlopen("http://183.247.167.54:7009/static/img/logo.ac2237a.png")rs=r.read()withopen("1.png","wb")asa:a.write(rs)#爬取图片  查看详情