方铭
身份证号码:45010219760618XXXX
摘要:为了有效获取出租车乘客出行目的,提出了一种基于出租车运营数据和POI(Pointof Interest)数据的出行目的识别方法。构建了基于乘客出行特征和下车所属 POI 点类别的乘客出行目的识别模型,该方法从出行特征及乘客下车点最终可能到达的目的地所属POI点类型两个方面确定乘客的出行目的。为了验证所提方法的有效性及实用性,本文对某地区展开了出租车出行调查,并利用调查数据对模型进行了精度验证。
关键词:城市交通;出租车运营数据;POI点数据;出行目的识别
0 引言
出租车乘客的出行目的是交通调查中的重要内容,其对城市功能结构规划,城市道路网络规划,交通组织设计及优化具有重要的意义。传统出租车乘客出行目的调查方式主要有旅行日记调查、电话调查、小组调查等人工调查方式。传统的调查方式要求前期准备、试点调查、实地调查、调查结果整理和录入,需要耗费大量的人力和物力。
近年来随着信息设备在交通领域的广泛应用,使得一些原始的交通数据得以自动传输到数据库系统,并保存下来。在这样的背景下,利用已有的原始数据,获取有价值的交通信息成为研究热点。如公交数据方面有:利用公交车IC卡数据分析票价结构,利用公交GPS数据分析公交车运营服务可靠性,融合IC卡数据和GPS数据获取乘客出行需求。
1 数据分析及处理
1.1 出租车运营数据
本文中所用到的某市出租车数据包含的主要字段为:车辆ID编号,每次触发GPS设备时的时刻,以及在当前时刻下车辆所处位置的经纬度且是否有乘客在车上。表1为某市出租车的部分运营信息表。
表 1 某市出租车数据库系统记录数据
1.2 调查数据
由于需要训练识别模型和检验所训练的模型对出行目的识别的准确性,因此我们对某市区域的乘客进行了抽样问卷调查,主要的调查内容是乘客的出行目的和出行特征。在调查数据之后,需要对数据进行相应的处理,如将文字表达方式数字化,以及将数据区间化,方便后续计算机处理,表2为处理之后的调查数据。
表 2 部分转化后的调查数据内容
1.3 POI点信息及其与出行目的的关系
本文所用到的POI点信息是利用爬虫技术从高德地图上获取的,具体步骤是首先在高德地图申请密钥,然后根据获得的密钥结合爬虫技术就可以从高德地图获取特定区域所有的POI点信息,表3为部分获取的POI点信息。
表3为部分获取的POI点信息
从上述部分爬取的POI点的信息可知,每个POI 点的信息包含其所属类别,具体类别与该 POI点的信息功能相对应.由于乘客从下车点到最终目的地的距离处于一定范围内(具体范围为依据调查数据确定),我们将该乘客从下车点到最终目的地所能够容忍的距离定义为半径阈值r,因此,从POI点层面,可以对乘客的出行目的做出相应的判断。我们认为乘客下车之后,可能前往POI 2 点作为其最终目的地,由于 POI 1 点与下车点的距离大于半径阈值r,乘客将不会选择POI 1点作为最终出行目的地。
2 出行目的识别模型构建
本文提出的基于出租车数据和POI点数据的出行目的识别方法是从出行特征和所属POI点类别两个层面对出行目的进行识别,然后依据两个层面的识别结果进行综合判断。
2.1 出行特征判别
依据出行特征判断出行目的,本质上属于分类问题,目前该问题已经有多种方法可以解决,如神经网络、贝叶斯、决策树、支持向量机、最近邻等方法。由于不同方法的识别效果不同,因此在实际使用过程中需要通过测试,然后选择分类方法。虽然这些方法的原理差别很大,但是这些方法总体都可以表示为依据特征推导对象所属类别,具体到该问题为
式中:purposeai表示乘客i通过其出行特征推断出的出行目的;f表示推断出行特征所用的方法。
期刊文章分类查询,尽在期刊图书馆
2.2 下车POI点类别归属
由于出租车具有灵活便利,具备门到门的服务能力,因此在调查中,乘客乘坐出租车出行的“下车点离最终目的地的距离”这一内容进行了调查以确定乘客从下车点到达可能的最终目的地的阀值半径r.因此,依据这个条件,通过POI点层面也可以对其出行目的进行判断,可以表示为
式中:purposepoii为通过下车点可能的POI点归属推断的乘客i的出行目的;typepoi为在特定下车点的距离为 r 的范围内存在的 POI 点种类集合;dis(locai,locatypepoi)为乘客i下车点与最终目的地的距离;r为下车点与最终目的地距离阀值。
2.3 最终出行目的识别规则
最终出行目的的识别,需要将依据特征识别的出行目的和依据POI点类别识别的出行目的实现有效融合,才能够得到最终的出行目的.将两种不同的方式作为一个集合,则可能出现式(2)~式(5)的情况。
式(2)由于基于 POI 点识别方式的结果为空集,最终出行目的只能为依据出行特征识别的出行目的;式(4)由于两种方式识别的结果完全一致,最终出行目的即为任意一种方式识别的出行目的;式(5)则是由于基于POI点识别方式识别出多种出行目的,且多种出行目的中有一种恰好和使用特征识别的出行目的一致,最终出行目的为两者识别结果的交集,则以上3种情况的最终识别结果都可以表示为
式中:purposefini为最终识别结果。
式(3)则是基于POI点识别方式的结果不为空且与基于特征识别的结果出现不一致的情况,因此在最终确定识别目的时存在两种方式,一种为以出行特征为主导的即最终识别目的按照式(6)计算,另外一种则是以POI点为主导的,可以表示为
式(7)表示出现两种方式识别不同情况时,采用POI点识别结果为准,但基于POI点识别的结果在非空集的情况下可能存在两种情况,即出现全是同一种出行目的或出现不全为一种出行目的。当全是一种出行目的时,最终出行目的即为该目的;但当出现不同的出行目的时,我们提出了两种方法,其中第1种为统计各类出行目的的数量,并将数量出现最多的类型作为最早出行目的,第2种为以离下车点距离最短的出行目的地类型作为最终出行目的。
3 案例分析
3.1 数据说明
本文所用到的调查数据为某市随机调查数据,共获得有效的调查问卷1014份,其中调查数据是采用随机确定调查地点,然后安排调查地点进行全天的调查,因此调查数据具有代表性。运营数据为某市2016年8月6~12 日 1 周内所有出租车运营数据,其中出租车运营数据每天时段为6:00-24:00,每天该时段出租车自动记录的数据约4000000条。选择该时间区间的数据是因为本文旨在探索非节假日的出租车乘客出行目的,而所选择的这1周没有特殊的节假日,所以所选取的样本具有代表性。
3.2 调查数据模型验证
3.2.1 分类方法测试
为了测试不同分类方法对于本问题的适用性,结合调查数据采用不同的分类方法对出行目的识别精度进行验证,结合Matlab工具包,采用十折交叉验证方法,最终识别效果如图1所示
图 1 不同识别方法的识别准确度
通过图1的识别结果可知,不同的识别模型其识别精度差别较大,从47%到65.7%,识别准确度最高的为决策树,因此,我们对决策树的识别结果的混淆矩阵进行了分析,以获得具体类别识别准确率的情况,具体混淆矩阵如表4所示。
表 4 决策树识别结果的混淆矩阵
从上述决策混淆矩阵的误识别分析可知,某些不同出行目的由于其出行特征较为类似(上班和上学、休闲娱乐与购物和医疗等),因此,仅仅依靠出行特征进行识别,容易出现较大的误识别率。针对这个问题,我们提出基于出租车运营数据和POI点数据的出行目的综合识别方法。
3.2.2 本文方法应用及对比分析
由于在上述6种不同的识别方法中决策树的识别准确率最高,因此在出行特征层面的出行目的识别方法仍采用决策树,然后结合乘客下车POI点半径阈值r内的可能目的地的POI点类型进行综合决策。为了进行对比,数据集及识别准确度的验证方法与上述一致,依据本文2.3节中的最终识别规则得到的对比识别结果如图2所示。
图 2 文献[19]和[21]及本文方法识别精准度对比
其中决策树+POI(I)为式(8)的出行目的的决策方法,决策树+POI(II)为式(9)的出行目的的决策方法。通过上述不同方法的结果对比分析可知,本文提出的在现有的出行特征识别出行目的基础上融合下车点所属POI点信息的出行目的决策方法具有明显的优势,相比现有的出行特征估计出行目的的方法,所提出的决策树+POI(I)能够提高6.31%的识别准确率,决策树+POI(II)能够提高15.76%的识别准确率。
4 结论
本文提出了一种基于出租车运营数据及POI点数据的出租车乘客出行目的识别方法,该方法通过调查数据进行验证,并最终应用于实际的数据中,可得到如下结论:
(1) 通过数据实验表明,本文所提出的基于出车组运营数据及POI点数据的出租车乘客出行目的识别方法,与现有的仅仅根据出租车运营数据识别乘客出行目的的方法相比,能够显著提高其识别精度。
(2) 在所提出的方法中,针对实际数据量较大的问题,我们改进了判断预定半径阀值范围内出现的 POI 点的获取算法,结合地理知识,将距离判断转化为经纬度差判断,能够非常显著节约计算机计算时间,使所提出的方法能够有效运用于实践。
参考文献
[1] 丁涛杰,史殿习,李永谋.基于出租车GPS数据的道路平均速度估计方法[J].计算机技术与发展,2015,25(7):15-19.
[2] 姜桂艳,常安德,李琦,等.基于出租车GPS数据的路段平均速度估计模型[J].西南交通大学学报,2011,46(4):638-644.
[3]白竹,王健,胡晓伟.城市出租车系统运营效率评价研究[J].交通运输系统工程与信息,2014,14(3):227-233.
论文作者:方铭
论文发表刊物:《建筑学研究前沿》2018年第33期
论文发表时间:2019/3/7
标签:目的论文; 数据论文; 方法论文; 乘客论文; 出租车论文; 特征论文; 目的地论文; 《建筑学研究前沿》2018年第33期论文;