交通预测论文笔记《attentionbasedspatial-temporalgraphconvolutionalnetworksfortrafficflowforecasting》

UQI-LIUWJ UQI-LIUWJ     2022-12-21     585

关键词:

AAAI2019

0 摘要

交通流数据通常有很高的非线性和很复杂的特征。目前很多交通预测的方法缺乏对交通数据时空相关性的动态建模。

本文提出了一种基于注意力的时空图卷积神经网络(ASTGCN)来解决交通预测问题

ASTGCN包括三个独立的部分,分别对交通流的三种时间属性进行建模:

1)当前相关性(recent dependencies)

2)每天的周期性(daily-periodic dependencies)

3)每周的周期性(weekly-periodic dependencies)

每个独立的部分都包含了以下两块:

1)时空注意力机制,可以捕捉交通数据中动态的时空相关性

2)时空卷积,可以同时将图卷积应用于交通数据中,来捕获时间和空间特征

单个独立部分的结果将被加以权重地结合起来,来生成最终的预测结果

1 introduction

图1体现了交通数据的时空相关性,不同的位置,不同的时间,各点交通流量之间的影响是不一样的——》交通数据在空间和时间维度都展现出了强大的动态特征

早期模型的缺点

时间序列分析模型难以解决数据的不稳定行和非线性
传统机器学习

1)难以同时考虑高维交通数据集中时空相关性

2)十分依赖特征的选择和建立

一些深度学习模型仍然难以同时建模交通数据中时间和空间特征的相关性

ASTGCN:

1)使用空间注意力机制来建模空间层面复杂的相关性

2)使用时间注意力机制来捕获不同时间之间的动态时间相关性

3)使用图卷积来捕获交通图中的空间特征;以及不同时间篇之间的依赖关系 
 

2 相关工作

2.1 交通预测

统计模型HA、ARIMA、VAR这些模型需要数据满足一些假设,但是交通数据过于复杂,无法满足这些假设,所以这些模型在交通预测领域的表现不尽人意
机器学习模型KNN,SVM这些模型需要进行自己的特征工程
深度学习模型ST-ResNet、CNN+LSTM数据必须是标准的2D,3D表格数据

2.2 GNN

spatial methods直接在图上进行卷积计算
spectral methods使用图拉普拉斯矩阵(切比雪夫多项式进行优化)

3 Preliminaries

3.1 交通网络


 

G=(V,E,A)无向交通图
V点集
E边集
F每个点的观测特征维度

3.2 交通流预测

问题描述

4 ASTGCN

4.1 整体框架

ASTGCN由三个部分组成(前面在abstract说的recent、daily-periodic和weekly-periodic),三个部分的结构几乎是一样的。

为了优化训练的效率,我们在每个ST模块上添加了一个残差连接

4.2 recent、daily-periodic和weekly-periodic数据集划分

 我们分别设置提取数据集的时间片段长度Th,Td和Tw,表示recent、daily-periodic和weekly-periodic的数据集划分间隔,Th,Td,Tw都是原始数据集时间间隔的整数倍

4.2.1 recent 临近时间片段

预测时间段之前的一小段时间片段

 4.2.2 daily 日周期片段

预测时间片段之前几天相同的时间片段

4.2.3 weekly 周时间片段

预测时间片段之前几周相同的时间片段

4.3 时空注意力机制

  • 在空间维度,不同区域的交通状况相互影响,这种相互影响有很强的动态性
  • 在时间维度,不同的时间片段的交通流量存在相关性

4.3.1 空间注意力机制

通过注意力机制捕获以上两种关系,此处以recent 模块为例:

这里  是第r层ST-块的输入

是第r层每个点每一时刻特征的维度(当r=1时,也就是原始输入,等于F)

是第r层时间维度的长度(当r=1的时候,对于recent来说,就是;对于daily来说,就是;对于weekly来说,就是

都是N×N的矩阵,是对attention结果的加权/bias

对应的是attention里面Q,K,V的权重,其中

机器学习笔记:Transformer_UQI-LIUWJ的博客-CSDN博客_机器学习transformer

、 都是可学习的参数

σ是激活函数

由此我们便动态地算出了本层ST模块的空间注意力矩阵,这个矩阵根据当前层ST模块的数据计算而得。

表明了点i和点j之间的相关联程度,使用softmax使得相关联程度之和为1

之后的图卷积模块中,我们会将这个空间注意力矩阵S和邻接矩阵A一起考虑,来动态调整点与点之间的影响权重

4.3.2 时间注意力机制

和空间注意力机制类似,我们有:

 

其中,这五个矩阵都是可学习的

 表明了时间i和时间j之间的相关联程度,使用softmax使得相关联程度之和为1

之后的图卷积中,我们直接将标准化的时间注意力矩阵应用到数据集上

 

来动态调整输入数据

 4.4 时空卷积

之前时空注意力模组让网络更关注一些更有用的信息。调整后的输入被喂入时空卷积中


时空卷积网络由一个空间维度的图卷积(来捕获邻居节点之间的依靠关系)和一个时间维度的卷积(来捕获相邻时间片之间的依靠关系) 

4.4.1 空间维度的图卷积

 这里使用谱图卷积(spectral graph convolution)。图结构的属性可以通过分析图拉普拉斯矩阵及其特征值来获得

拉普拉斯矩阵L=D-A,D是度矩阵(对角矩阵),A是邻接矩阵

标准拉普拉斯矩阵

对拉普拉斯矩阵进行特征值分解,我们有:

(这里因为是无向图,所以拉普拉斯矩阵一定对称,所以后面一项可以是U的转置)

其中: 是特征值组成的对角矩阵

U是傅里叶基

我们记图上的一个点的信号为x,那么这个信号x经过图傅里叶变化之后,变为:

因为拉普拉斯矩阵是对称矩阵,所以U是一个正交矩阵,所以信号x的逆拉普拉斯矩阵为 

基于上面的部分,信号x和图上的filter 图卷积后的结果为:

*G表示了一个图卷积计算

我们可以把上述方程看成:先把信号x和经过傅里叶变化变换到谱图域中,然后将他们进行乘法操作,最后在通过你傅里叶变化得到最州的谱图卷积结果

 然而,当图很大的时候,计算拉普拉斯矩阵的特征值开销是很大的,于是,我们可以使用切比雪夫多项式来进行近似:

这时候的参数θ就是切比雪夫多项式的系数了。

是拉普拉斯矩阵最大的特征值。

切比雪夫多项式为 

 我们进行0~k-1的切比雪夫多项式的相加,相当于计算0阶~k-1阶邻居节点对于中心节点的影响(影响的大小由卷积核决定)

图卷积的觉果使用RELU进行激活,即

而我们在4.3.1引入了空间注意力机制,得到了一个空间注意力矩阵S‘,怎么使用那个矩阵呢?

对于切比雪夫多项式中的,我们让他和S’做哈达玛积(对应位置元素相乘),即:

 

那么“有价值”的点,获得的权重更多;“没有价值”的点,获得的权重就少 

因此,在引入了空间注意力机制后,用切比雪夫多项式近似的谱图卷积可以写为:

 4.4.2 时间维度的卷积

在图卷积之后,我们使用时间卷积来更新点的信号

4.4.3 ST卷积模块总结

时空注意力模块+时空卷积模块,组合成了一个ST卷积模块

我们可以叠加多个ST卷积模块,以进一步提取更大“感受野”的关联信息。

最后,添加一个全连接层,以保证输出与目标有相同的维度和形状,最后的全连接层使用 ReLU 作为激活函数。

4.5 Mult-component fusion:将recent、daily-periodic和weekly-periodic模块结果结合

这一个部分很简单

即三组可学习的参数分别与recent、daily-periodic和weekly-periodic模块的结果及逆行哈达玛积。

5 实验部分

5.1 数据预处理:

1)去除了冗余的观测点,使得相邻观测点之间的距离大于等于3.5英里(不知道为什么。。。)

2)缺失的点使用线性插值填充

3)数据用zero-mean来进行标准化

5.2 实验结论

1)传统的时间序列分析方法(HA、ARIMA)通常并不理想

——>这些方法在建模交通数据的非线性和复杂性上是欠佳的

2)相比于传统的时间序列方法,有些深度学习的方法得到的结果会好很多

3)在深度学习方法中,同时考虑了时间和空间属性的模型(STGCN、GLU-STGCN、GeoMAN、我们的模型)效果比LSTM和GRU(只考虑了空间属性的模型)好

4)GeoMAN模型效果比STGCN和GLU-STGCN效果好

——>注意力机制是有效的

5)对我们的模型MSTGCN(没有注意力机制的模型)已经比原有的模型要好了;加了注意力机制之后的模型ASTGCN效果更好

 

随着我们的预测间距的增大,预测的难度也在增加,预测误差也随之增加

只考虑时间属性的模型,在短期预测任务中通常有不粗的表现(HA、ARIMA、LSTM、GRU等),但是,随着预测区间的增发,这些模型不适用于预测长期的内容

相比而言,同类型模型的VAR准确率下降得就慢了很多。(因为VAR同时考虑了时间和空间的相关性,这个在长期预测任务中是很关键的),但是随着交通网络规模的增大,我们需要考虑更多的交通时序信息,,VAR的预测误差就上去了(如图6所示,VAR在PeMSD4的准确度小于其在PeMSD8的准确度)

我们的模型在任何时候都比其他的模型效果好,尤其是在长期预测问题中。这说明了使用注意力机制+图卷积操作可以更好地挖掘交通数据中动态的时空特征

 

图7在说明注意力机制有什么用处,论文选取了PeMSD8中的10个点,对他们之间的attention矩阵进行了可视化。

以点9为例,权重大的是点3和点8,这是很合理的

6 展望

未来可以考虑一些外部影响因素,例如天气因素和大型事件,进一步提高预测精度。

交通预测论文笔记:spatio-temporalgraphconvolutionalnetworks:adeeplearningframeworkfortrafficforecast

0abstract        由于交通数据极强的非线性和复杂性,传统方法很难进行中长期的交通预测。        我们提出了STGCN结构来解决交通领域的预测问题。我们的模型建立在卷积之上,有更快的训练速度和更少的参数... 查看详情

交通预测论文翻译:deeplearningontrafficprediction:methods,analysisandfuturedirections

...cPrediction:Methods,AnalysisandFutureDirections(arxiv.org)1abstract    交通预测在智能交通系统中起着至关重要的作用。准确的交通预测可以辅助路线规划,指导车辆调度,缓解交通拥堵。由于路网中不同区域间复杂而又动态 查看详情

论文笔记目录(ver2.0)

...序列分解成趋势,季节性和特定节假日的影响这三类交通预测论文笔记:Spatio-TemporalGraphConvolutionalNetworks:ADeepLearningFrameworkforTrafficForecast_UQI-LIUWJ的博客-CSDN博客IJCA 查看详情

论文笔记:short-termorigin-destinationdemandpredictioninurbanrailtransitsystems:achannel-wisea

Short-termorigin-destinationdemandpredictioninurbanrailtransitsystems:Achannel-wiseattentivesplit-convolutionalneuralnetworkmethodURTOD对的预测1intro1.1URT(城市轨道交通) OD预测的特点(难点)d 查看详情

因果推断笔记——解析一篇因果反事实预测论文(二十三)

文章目录1已有研究者的描述1.1YuyangZhangFTD1.1.1Introduction1.1.2ProblemFormulation1.1.3CounterfactualPrediction1.1.4excampleofproblem1.1.5Experiment1.1.6train_price-salecurve1.1.7ab测试1.1.8一些想法1.2知乎:斑马1.2.1 查看详情

论文笔记trafficdatareconstructionviaadaptivespatial-temporalcorrelations

...LIGENTTRANSPORTATIONSYSTEMS20190摘要        数据缺失仍然是交通信息系统中的一个难点和重要问题,严重制约了智能交通系统(ITS)在交通监控方面的应用,如交通数据采集、交通状态估计和交通控制。在过去十年... 查看详情

论文笔记:aretransformerseffectivefortimeseriesforecasting?

...会不可避免地丢失本文质疑基于Transformer以进行时间序列预测的有效性现有的基于Transformer的方法,通常比较的baseline是利用自回归、自我迭代来进行预测由于不可避免的误差累积,故而这些baseline的长期预测能力会比较差... 查看详情

论文笔记:stochasticweightcompletionforroadnetworksusinggraphconvolutionalnetworks

...划,这要求对当前路网有一个很精确的表示。    交通网络中的一个子路段的通行时间通常被建模成一个随着时间变化的分布。这个分布可以捕捉不同时间交通的变化情况,以及可以反应“不同的司机可能在同一时间在... 查看详情

论文笔记shapeandtimedistortionlossfortrainingdeeptimeseriesforecastingmodels

...ub.com)0摘要        本文解决了非平稳信号的时间序列预测和多个未来步骤预测的问题。为了处理这个具有挑战性的任务,我们引入了DILATE(包括形状和时间的失真损失,DIstortionLossincludin 查看详情

论文笔记:cost:contrastivelearningofdisentangledseasonal-trendrepresentationsfortimeseriesforec

...R20221前言介绍表征学习(对比学习)+时间序列预测首先学习时间序列解耦的representation然后进行回归任务的精调对比学习CoST包含时域和频域的contrastiveloss——>学习趋势和周期性representation传统的时间序列预测模型将... 查看详情

基于transformer的交通预测模型部分汇总附源代码

交通预测一直是一个重要的问题,它涉及到交通运输系统的可靠性和效率。随着人工智能的发展,越来越多的研究者开始使用深度学习模型来解决这个问题。其中,基于Transformer的交通预测模型在近年来备受关注,... 查看详情

论文笔记:stmarl:aspatio-temporalmulti-agentreinforcementlearningapproachforcooperativetraffic

0abstract智能交通灯控制系统的开发对于智能交通管理至关重要。虽然已经做出了一些努力以孤立的形式来优化单个红绿灯的使用,但相关研究在很大程度上忽略了多路口红绿灯的使用受到空间影响的事实,以及历史交通... 查看详情

一周学习计划---0401-0407

...部表情识别,数据处理+卷积神经网络  2. 老师推荐交通论文时间预测复现  3.搜集交通领域应用论文,仅几年或里程碑式论文数据结构:  1.leetcode数组,每天一题?英语:  1.presentationthreecupoftea  查看详情

论文笔记:modelingextremeeventsintimeseriesprediction

2019KDD0摘要        时间序列预测是数据挖掘中一个深入研究的课题。尽管取得了相当大的改进,但最近基于深度学习的方法忽略了极端事件的存在,这导致将它们应用于实时序列时性能较弱。        极端事件是... 查看详情

论文笔记structcoder:structure-awaretransformerforcodegeneration(代码片段)

...意力机制structure-awareself-attention解码器Decoder语言模型Token预测AST路径预测APPDFG关系预测DFPdecoder总损失预训练实验结果PL-PL NL-PL案例对比消 查看详情

百度飞桨顶会论文复现营detr解读笔记

...ff1a;目标分类和目标定位。DETR模型是将目标检测视为集合预测(setprediction)的方式,将训练和预测做到真正的端对端,不需要NMS的后处理,也不需要人为设置anchor。核心是1.set-based的全局Loss,使用二分图... 查看详情

交通预测基于matlabgui交通预测四阶段法交通分配含matlab源码1140期(代码片段)

一、简介基于matlabGUI交通预测四阶段法交通分配二、源代码functionvarargout=traffic_assignment(varargin)%TRAFFIC_ASSIGNMENTMATLABcodefortraffic_assignment.fig%TRAFFIC_ASSIGNMENT,byitself,createsanewTRAFFIC_ASSIGNMENTorrais 查看详情

《bevlanedet:fastlanedetectiononbevground》论文笔记

...测的基础方法是源自于bev视图下车道线分割,再通过预测几个附加预测头用于辅助后处理。具体来讲这篇文章的工作可以划分为3点。1)这篇文章将图像坐标 查看详情