摘要:交通拥堵会使得大量的时间资源被浪费,因此如何对拥堵时间进行合理预测是一个至关重要的问题。本文以世界著名拥堵公路洛杉矶的405洲际公路为研究对象,对拥堵时间进行预测。首先,采集关于405洲际公路的交通数据,并对数据进行特征提取与标准化处理。由于采集数据具有不均衡性,故采用Smote过采样使训练集的数据变得均衡,为建立准确的预测模型奠定基础。然后,对交通状况进行分类。将训练好的CART分类树用于测试,将道路状况分为拥堵与畅通两类,其AUC值为0.6704,该分类模型较优。最后,以道路状态是拥堵为前提,将拥堵数据用于训练KNN模型,预测后的拥堵时间为[4.2h-4.8h],并对预测模型进行RMSE误差分析,RMSE值为0.396,该模型精度较高。
关键词:拥堵时间的预测;CART分类;KNN预测模型
一、引言
在交通堵塞的情况下,如何较为准确地预测交通堵塞的时间,需解决以下2个问题:
(1)明确“堵塞”的定义,建立一个分类模型;
(2)建立预测模型得出堵塞时间;
首先,对405洲际公路的交通数据进行数据处理与特征提取。考虑到洛杉矶工作日的交通数据远多于节假日交通数据,采集到的数据样本处于不均衡状态,故先对其进行Smote处理,以促进数据平衡。然后,基于处理后数据进行Cart分类,将道路状态分为堵塞状态与畅通状态,最后将在堵塞状态下建立KNN预测模型,预测堵塞时间。
二、模型的求解与建立
2.1模型准备
2.1.1数据处理
本文以洛杉矶405洲际公路交通数据为数据源,前期采集数据样本时发现405洲际公路在工作日时,交通数据变化很小,而在节假日时,交通数据会发生较大的波动[1],如2018年感恩节405洲际公路遭遇特大型堵车,车流密度达到顶峰。而收集到的数据样本情况为:工作日数据样本远多于节假日数据样本。
首先对所有数据进行标准化处理。为了不忽略节假日数据样本的影响,将采集的交通数据样本中的80%作为训练集,基于Smote算法对其进行处理,以解决数据不均衡问题。将20%交通数据样本保留,作为测试集以便于后续建立的模型能够进行测试[2]。
2.1.2特征提取
查阅相关文献[3],从中提取5个衡量道路状态的关键特征值,用于对道路状态进行判别并预测拥堵时间:
(1)交通量:分析单位截面上交通参与者数量;
(2)车速:车速的降低幅度会直接反应道路的堵塞程度;
(3)车流密度:单位长度路段上,一个车道某一瞬时的车辆数。
(4)排队长度:直接反应道路堵塞程度;
(5)路段饱和度:交通状态判别精确,基于交通量可计算得出。
2.2CART分类
根据数据处理中所选训练集,从根节点开始,递归地对每个节点进行以下操作,构建二叉决策树。设结点的训练集为D,计算前期提取的5个特征对该数据集的Gini系数。此时,对每一个特征A,对其可能取得每个值为a,根据样本点对A=a的测试为“拥堵”或“畅通”将D分隔为和两部分,计算A=a时的Gini系数。计算公式如下:
(1)
通过计算5个特征的Gini系数对训练集进行分类,分类系统最终识别出四种结果:
表1:分类结果
TP表示数据样本处于拥堵状态,分类结果为拥堵状态;
FP表示数据样本处于畅通状态,分类结果为拥堵状态;
TN表示数据样本处于畅通状态,分类结果为畅通状态;
FN表示数据样本处于拥堵状态,分类结果为畅通状态。
其中:
(1)G-Mean值:
(2)
代入数据计算得到G-Mean=0.655
(2)F-Measure值:
(3)
其中:
代入数据计算得到F-Measure=0.757
(3)ROC曲线及AUC值:
以TPR为y轴,以FPR为x轴,可直接得到ROC曲线。如下图所示:
图1:ROC曲线
TPR越高,FPR越小,所建模型就越高效。即ROC曲线越靠近左上越好。如上图所示。从几何的角度讲,ROC曲线下方的面积越大越大,则模型越优。所以也用ROC曲线下的面积,即AUC值来作为判断模型好坏的标准。
2.3建立KNN模型
2.2.1模型建立
KNN用于预测回归问题,通过数据样本间的某些相似特征来进行预测未知元素的值。在该问题中,训练集包括800个堵车时间的交通特征数据,对于测试集的200个数据,计算每一个堵车时间与训练集中800个堵车时间的距离远近,从中选出距离最近的K个样本,然后对K个样本的目标值去均值即可作为新样本的预测值。具体步骤如下:
Step1:采用欧氏距离计算待测点到已知点的距离,对新来的预测实例寻找K近邻。
Step2:选择K值,K值代表最近邻的个数,k值的选择对预测结果有较大影响。本文假设K=5,进而得最终预测结果,具体计算公式为:
(4)
2.2.2误差分析
均方根误差是用来衡量观测值与真值之间的偏差,故将利用KNN算法所得的预测拥堵时间与实际拥堵时间进行均方根误差检验,进而判断KNN模型预测精度。计算公式如下:
(5)
将数据代入公式计算得出均方根误差值为0.396。为更加直观地掌握预测拥堵时间与实际拥堵时间的波动幅度,作图如下:
观察图3可知,预测拥堵时间为[4.2h-4.8h]。KNN的RMSE值为0.396,其值较小,说明预测时间与实际情况相差较小,模型预测结果较为准确。
图2:误差分析图
2.2.3结果分析
通过计算得到的均方根误差可以看出,KNN模型对于汽车拥堵时间的预测较为准确。预测得到的拥堵时间范围稳定在[4.2h-4.8h],与实际情况吻合程度良好,模型准确度较高。
三、结语
预测拥堵时间所建立的KNN模型,其预测指标几乎包括所有的重要因素,较完整地反映了道路拥堵状况,且将该模型应用于不同的城市时,误差较小,说明模型具有普适性。但在KNN选取阈值时可能选取的并不是最好的阈值,具有一定的局限性。
参考文献
[1]肖莹光.洛杉矶城市空间特征浅析[J].国际城市规划,2015,30(04):79 -87.
[2]王忠震,黄勃,方志军,高永彬,张娟.改进SMOTE的不平衡数据集成分类算法[J].计算机应用,2019,39(09):2591-2596.
[3]韩羽.基于出租车GPS数据的交通拥堵持续时间评估方法研究[D].长安大学,2018.
论文作者:赵璐,赵佳亮,张妍
论文发表刊物:《基层建设》2019年第30期
论文发表时间:2020/3/16
标签:数据论文; 模型论文; 样本论文; 时间论文; 状态论文; 交通论文; 误差论文; 《基层建设》2019年第30期论文;