交通时空大数据如何分析,我写了本书!(代码片段)

Datawhale Datawhale     2023-03-17     348

关键词:

 Datawhale干货 

余庆:同济大学博士,Datawhale读者

大数据时代到来,随着智能设备与物联网技术的普及,人在社会生产活动中会产生大量的数据。在我们的日常活动中,手机会记录下我们到访过的地点;在使用城市公交IC卡、共享单车等服务时,服务供应商会知道这些出行需求产生的时间与地点;公交车与出租车的定位信息,也可以告诉我们城市交通状态的具体情况。这些具备时间、空间与个体属性的数据能够为城市交通的智慧管控提供强有力的支持。

交通领域目前需要处理的数据通常规模巨大、种类繁多,数据通常涉及个体级别连续追踪的时空数据。数据通常有多种来源,各种类型的数据格式不同、数据特征不同、数据质量不同,要求我们的处理技术能够灵活多变,针对不同数据情况有不同的处理方法,也对我们所需掌握的数据处理技术带来了巨大挑战。

▲图1 时空大数据

本文将介绍如何使用TransBigData快速高效地处理、分析、挖掘出租车GPS数据。

1、TransBigData简介

TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据(如出租车GPS数据、共享单车数据和公交车GPS数据等)提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁、高效、灵活、易用,可以用简洁的代码实现复杂的数据任务。

目前,TransBigData主要提供以下方法:

  • 数据预处理:对数据集提供快速计算数据量、时间段、采样间隔等基本信息的方法,也针对多种数据噪声提供了相应的清洗方法。

  • 数据栅格化:提供在研究区域内生成、匹配多种类型的地理栅格(矩形、三角形、六边形及geohash栅格)的方法体系,能够以向量化的方式快速算法将空间点数据映射到地理栅格上。

  • 数据可视化:基于可视化包keplergl,用简单的代码即可在Jupyter Notebook上交互式地可视化展示数据。

  • 轨迹处理:从轨迹数据GPS点生成轨迹线型,轨迹点增密、稀疏化等。

  • 地图底图、坐标转换与计算:加载显示地图底图与各类特殊坐标系之间的坐标转换。

  • 特定处理方法:针对各类特定数据提供相应处理方法,如从出租车GPS数据中提取订单起讫点,从手机信令数据中识别居住地与工作地,从地铁网络GIS数据构建网络拓扑结构并计算最短路径等。

TransBigData可以通过pip或者conda安装,在命令提示符中运行下面代码即可安装:

pip install -U transbigdata

安装完成后,在Python中运行如下代码即可导入TransBigData包。

import transbigdata as tbd

2、数据预处理

TransBigData与数据处理中常用的Pandas和GeoPandas包能够无缝衔接。首先我们引入Pandas包并读取出租车GPS数据:

import pandas as pd# 读取数据data = pd.read_csv('TaxiData-Sample.csv',header = None) data.columns = ['VehicleNum','time','lon','lat','OpenStatus','Speed'] data.head()

结果如图2所示:

▲图2 出租车GPS数据

然后,引入GeoPandas包,读取研究范围的区域信息并展示:

import geopandas as gpd# 读取研究范围区域信息sz = gpd.read_file(r'sz/sz.shp')sz.plot()

结果如图3所示:

▲图3 研究范围的区域信息

TransBigData包集成了交通时空数据的一些常用预处理方法。其中,tbd.clean_outofshape方法输入数据和研究范围区域信息,能够剔除研究范围外的数据。而tbd.clean_taxi_status方法则可以剔除出租车GPS数据中载客状态瞬间变化的记录。在使用预处理方法时需要传入数据表中重要信息列所对应的列名,代码如下:

# 数据预处理#剔除研究范围外的数据,计算原理是在方法中先栅格化后栅格匹配研究范围后实现对应。因此这里需要同时定义栅格大小,越小则精度越高data = tbd.clean_outofshape(data, sz, col=['lon', 'lat'], accuracy=500)# 剔除出租车数据中载客状态瞬间变化的数据data = tbd.clean_taxi_status(data, col=['VehicleNum', 'time', 'OpenStatus'])

经过上面代码的处理,我们就已经将出租车GPS数据中研究范围以外的数据和载客状态瞬间变化的数据予以剔除。

3、数据栅格化

栅格形式(地理空间上相同大小的网格)是表达数据分布最基本的方法,GPS数据经过栅格化后,每个数据点都含有其所在的栅格信息。采用栅格表达数据的分布时,其表示的分布情况与真实情况接近。

TransBigData工具为我们提供了一套完整、快速、便捷的栅格处理体系。用TransBigData进行栅格划分时,首先需要确定栅格化的参数(可以理解为定义了一个栅格坐标系),参数可以帮助我们快速进行栅格化:

# 定义研究范围边界bounds = [113.75, 22.4,114.62, 22.86]# 通过边界获取栅格化参数params = tbd.area_to_params(bounds,accuracy = 1000)params

输出:

'slon': 113.75,'slat': 22.4,'deltalon': 0.00974336289289822,'deltalat': 0.008993210412845813,'theta': 0,'method': 'rect','gridsize': 1000

此时输出的栅格化参数params的内容存储了栅格坐标系的原点坐标(slon、slat)、单个栅格的经纬度长宽 (deltalon、deltalat)、栅格的旋转角度(theta)、栅格的形状(method参数,其值可以是方形rect、三角形tri和六边形hexa)以及栅格的大小(gridsize参数,单位为米)。

取得栅格化参数后,我们便可以用TransBigData中提供的方法对GPS数据进行栅格匹配、生成等操作。

完整的栅格处理方法体系如图4所示:

▲图4 TransBigData所提供的栅格处理体系

使用tbd.GPS_to_grid方法能够为每一个出租车GPS点生成,该方法会生成编号列LONCOL与 LATCOL,由这两列共同指定所在的栅格:

# 将GPS数据对应至栅格,将生成的栅格编号列赋值到数据表上作为新的两列data['LONCOL'],data['LATCOL']= tbd.GPS_to_grids(data['lon'],data['lat'],params)

下一步,聚合集计每一栅格内的数据量,并为栅格生成地理几何图形,构建GeoDataFrame:

# 聚合集计栅格内数据量grid_agg=data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index()# 生成栅格的几何图形grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)# 转换为GeoDataFramegrid_agg=gpd.GeoDataFrame(grid_agg)# 绘制栅格grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r')

结果如图5所示:

▲图5 数据栅格化的结果

对于一个正式的数据可视化图来说,我们还需要添加底图、色条、指北针和比例尺。TransBigData也提供了相应的功能,代码如下:

import matplotlib.pyplot as pltfig =plt.figure(1,(8,8),dpi=300)ax =plt.subplot(111)plt.sca(ax)# 添加行政区划边界作为底图sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.1),linewidths=0.5)# 定义色条位置cax = plt.axes([0.04, 0.33, 0.02, 0.3])plt.title('Data count')plt.sca(ax)# 绘制数据grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r',ax = ax,cax = cax,legend = True)# 添加指北针和比例尺tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)plt.axis('off')plt.xlim(bounds[0],bounds[2])plt.ylim(bounds[1],bounds[3])plt.show()

结果如图6所示:

▲图6 tbd包绘制的出租车GPS数据分布

4、订单起讫点OD提取与聚合集计

针对出租车GPS数据,TransBigData提供了直接从数据中提取出出租车订单起讫点(OD)信息的方法,代码如下:

# 从GPS数据提取ODoddat=tbd.taxigps_to_od(data,col=['VehicleNum','time','Lng','Lat','OpenStatus'])oddata

结果如图7所示:

▲图7 tbd包提取的出租车OD

TransBigData包提供的栅格化方法可以让我们快速地进行栅格化定义,只需要修改accuracy参数,即可快速定义不同大小粒度的栅格。我们重新定义一个2km*2km的栅格坐标系,将其参数传入tbd.odagg_grid方法对OD进行栅格化聚合集计并生成GeoDataFrame:

# 重新定义栅格,获取栅格化参数params=tbd.area_to_params(bounds,accuracy = 2000)# 栅格化OD并集计od_gdf=tbd.odagg_grid(oddata,params)od_gdf.plot(column = 'count')

结果如图8所示:

▲图8 tbd集计的栅格OD

添加地图底图,色条与比例尺指北针:

# 创建图框import matplotlib.pyplot as pltfig =plt.figure(1,(8,8),dpi=300)ax =plt.subplot(111)plt.sca(ax)# 添加行政区划边界作为底图sz.plot(ax=ax,edgecolor=(0,0,0,1),facecolor=(0,0,0,0),linewidths=0.5)# 绘制colorbarcax=plt.axes([0.05, 0.33, 0.02, 0.3])plt.title('Data count')plt.sca(ax)# 绘制ODod_gdf.plot(ax = ax,column = 'count',cmap = 'Blues_r',linewidth = 0.5,vmax = 10,cax = cax,legend = True)# 添加比例尺和指北针tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect = [0.06,0.03],zorder = 10)plt.axis('off')plt.xlim(bounds[0],bounds[2])plt.ylim(bounds[1],bounds[3])plt.show()

结果如图9所示:

▲ 图9 TransBigData绘制的栅格OD数据

同时,TransBigData包也提供了将OD直接聚合集计到区域间的方法:

# OD集计到区域# 方法1:在不传入栅格化参数时,直接用经纬度匹配od_gdf = tbd.odagg_shape(oddata,sz,round_accuracy=6)# 方法2:传入栅格化参数时,程序会先栅格化后匹配以加快运算速度,数据量大时建议使用od_gdf = tbd.odagg_shape(oddata,sz,params = params)od_gdf.plot(column = 'count')

结果如图10所示:

▲图10 tbd集计的小区OD

加载地图底图并调整出图参数:

# 创建图框import matplotlib.pyplot as pltimport plot_mapfig =plt.figure(1,(8,8),dpi=300)ax =plt.subplot(111)plt.sca(ax)# 添加行政区划边界作为底图sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.2),linewidths=0.5)# 绘制colorbarcax = plt.axes([0.05, 0.33, 0.02, 0.3])plt.title('count')plt.sca(ax)# 绘制ODod_gdf.plot(ax = ax,vmax = 100,column = 'count',cax = cax,cmap = 'autumn_r',linewidth = 1,legend = True)# 添加比例尺和指北针tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)plt.axis('off')plt.xlim(bounds[0],bounds[2])plt.ylim(bounds[1],bounds[3])plt.show()

结果如图11所示:

▲ 图11区域间OD可视化结果

5、交互可视化

在TransBigData中,我们可以对出租车数据使用简单的代码在jupyter notebook中快速进行交互可视化。这些可视化方法底层依托了keplergl包,可视化的结果不再是静态的图片,而是能够与鼠标响应交互的地图应用。

tbd.visualization_data方法可以实现数据分布的可视化,将数据传入该方法后,TransBigData会首先对数据点进行栅格集计,然后生成数据的栅格,并将数据量映射至颜色上。代码如下:

# 可视化数据点分布tbd.visualization_data(data,col = ['lon','lat'],accuracy=1000,height = 500)

结果如图12所示:

▲ 图12数据分布的栅格可视化

对于出租车数据中所提取出的出行OD,也可使用tbd.visualization_od方法实现OD的弧线可视化。该方法也会对OD数据进行栅格聚合集计,生成OD弧线,并将不同大小的OD出行量映射至不同颜色。代码如下:

# 可视化数据点分布tbd.visualization_od(oddata,accuracy=2000,height = 500)

结果如图13所示:

▲ 图13 OD分布的弧线可视化

对个体级的连续追踪数据,tbd.visualization_trip方法可以将数据点处理为带有时间戳的轨迹信息并动态地展示,代码如下:

# 动态可视化轨迹tbd.visualization_trip(data,col = ['lon','lat','VehicleNum','time'],height = 500)

结果图14所示。点击其中的播放键,可以看到出租车运行的动态轨迹效果。

▲ 图14出租车轨迹动态可视化

作者余庆,同济大学博士,南方科技大学计算机科学与工程系斯发基斯可信自主系统研究院助理研究员。本文依托《交通时空大数据分析、挖掘与可视化》一书中所介绍的相关技术开发了Python开源库TransBigData,该库面向交通时空大数据分析不同阶段的处理需求,以简洁、高效、灵活、易用的代码实现复杂的数据处理任务。

▲ Datawhale专属优惠海报5折地址

最后,为了感谢各位读者的一直以来的支持,在Datawhale送出5本《交通时空大数据分析、挖掘与可视化》,依然是老规矩:评论区留言并点赞数前五的读者将直接送书。

transbigdata:一款基于python的超酷炫交通时空大数据工具包(代码片段)

今天分享一次Python交通数据分析与可视化的实战!其中主要是使用TransBigData库快速高效地处理、分析、挖掘出租车GPS数据。所介绍的相关技术开发了Python开源库TransBigData,该库面向交通时空大数据分析不同阶段的处理需... 查看详情

基于echarts+html5可视化数据大屏展示—交通大数据分析平台(代码片段)

...f44d;收藏⭐留言📝  动图演示: 文末获取源码 交通流量分析&交通收费站流量分析& 查看详情

基于echarts+html5可视化数据大屏展示—交通大数据分析平台(代码片段)

...f44d;收藏⭐留言📝  动图演示: 文末获取源码 交通流量分析&交通收费站流量分析&收费站车流量分析大数据分析主图展示&收费站流量&闯红灯分析统计代码目录:主要代码实现:主页HTML布局: &... 查看详情

用于交通预测的时空交互动态图卷积网络

摘要https://arxiv.org/abs/2205.08689精确的交通预测对于城市交通控制、路线规划和流量检测都是至关重要的。虽然目前提出了许多时空分析方法,但在同步捕捉交通数据的时空依赖性方面仍有不足。此外,大多数方法都忽略了... 查看详情

arcternpandas入门-前后端渲染(代码片段)

...??Arctern基于开源大数据生态,构建灵活、强大、高性能的时空数据分析平台,帮助用户应对5G/IoT带来的新型数据挑战,加速时空数据的处理、分析、模型预测与呈现。本文中将会介绍Arcternpandas安装和简单使用Arctern安装????参照官... 查看详情

一文解析交通大数据是如何解决拥堵问题的

...加,居民出行总量稳步增长,出行距离快速增加。然而,交通拥堵已成为许多大中城市的一种通病,并逐渐成为阻碍、制约城市社会经济发展的负面因素,成为城市管理的热点和难点。为切实提升公安交通管理水平,构建安全、... 查看详情

在模仿中精进数据分析与可视化01——颗粒物浓度时空变化趋势(mann–kendalltest)(代码片段)

简介  本次要模仿的作品来自论文InvestigatingtheImpactsofUrbanizationonPM2.5PollutionintheYangtzeRiverDeltaofChina:ASpatialPanelDataApproach,研究区域为上海、安徽、浙江和江苏,所用数据为2002–2017该区域PM2.5浓度栅格数据,数据来源于DalhousieUnive... 查看详情

r语言实战应用精讲50篇(二十七)-时空数据分析-经验空间/时间均值(latex公式+r代码绘图)(代码片段)

...望根据一阶(first-order)和二阶(second-order)特征的总结来探索时空数据。在这里,我们考虑经验均值(empiricalmeans)和经验协方差(empiricalcovariances)的可视化、时空协变函数和半变异函数(spatio-temporalcovariogramsandsemivariograms)、经验正交函数... 查看详情

r语言实战应用精讲50篇(二十七)-时空数据分析-经验空间/时间均值(latex公式+r代码绘图)(代码片段)

...望根据一阶(first-order)和二阶(second-order)特征的总结来探索时空数据。在这里,我们考虑经验均值(empiricalmeans)和经验协方差(empiricalcovariances)的可视化、时空协变函数和半变异函数(spatio-temporalcovariogramsandsemivariograms)、经验正交函数... 查看详情

基于carbondata的电信时空大数据探索(代码片段)

...信息社会。本文分享自华为云社区《基于CarbonData的电信时空大数据探索》,作者:张军、龚云骏。1使用场景随着万物互联的时代到来,以及智慧终端普及,现实世界超过80%的数据与地理位置相关,比如日常使... 查看详情

如何使用 Opencv 检测三角形交通标志

】如何使用Opencv检测三角形交通标志【英文标题】:HowtodetecttriangularshapedtrafficsignusingOpencv【发布时间】:2019-06-1609:50:19【问题描述】:我写了一个代码sn-p来检测交通标志的形状。该代码可以很好地检测除三角形交通标志以外的... 查看详情

华为发布《大交通时代》:开启未来数字交通宏图

...为携手电子工业出版社及行业专家、共同举办了业内首部交通行业数字化转型系统性专著《大交通时代:行业数字化转型之道》(以下简称《大交通时代》)新书发布媒体沟通会。本书理论结合实践,深度剖析了... 查看详情

keras深度学习实战——交通标志识别(代码片段)

Keras深度学习实战——交通标志识别0.前言1.数据集与模型分析1.1数据集介绍1.2模型分析2.交通标志识别2.1数据集加载与预处理2.2模型构建与训练相关链接0.前言在道路交通场景中,交通标志识别作为驾驶辅助系统与无人驾驶车... 查看详情

大数据分析新玩法之kusto宝典-新书发布,免费发行(代码片段)

我很高兴地跟大家分享,我在元旦期间编写的一本新书今天上线,并且免费发行,大家可以随时通过https://aka.ms/kustobible这个地址访问,也可以下载 PDF的版本。请注意,浏览本书的最佳体验是在桌面电脑上面&#... 查看详情

重度“懒癌”的我写了4000多行shell脚本,终于实现了一键安装oraclerac!!!(代码片段)

...DBA联盟(ACDU)成员。目前从事OracleDBA工作,曾从事Oracle数据库开发工作,主要服务于生产制造,汽车金融等行业。现拥有OracleOCP,OceanBaseOBCA认证,擅长Oracle数据库运维开发,备份恢复,安装 查看详情

数据竞赛思路分享:机场客流量的时空分布预测(代码片段)

历时两个月的比赛终于结束了,最终以第32名的成绩告终,在此和大家分享下解决问题的思路。从初赛到复赛,有走过弯路,也有突然灵光一现的时刻。一路走来,对数据各种把玩,分析了各种可能的情况&... 查看详情

为了甩锅,我写了个牛逼的日志切面!(代码片段)

...注“终端研发部”设为“星标”,和你一起掌握更多数据库知识最近项目进入联调阶段,服务层的接口需要和协议层进行交互,协议层需要将入参[json字符串]组装成服务层所需的json字符串,组装的过程中很容易出... 查看详情

为了甩锅,我写了个牛逼的日志切面!(代码片段)

...注“终端研发部”设为“星标”,和你一起掌握更多数据库知识最近项目进入联调阶段,服务层的接口需要和协议层进行交互,协议层需要将入参[json字符串]组装成服务层所需的json字符串,组装的过程中很容易出... 查看详情