1.江西省国防科技信息和卫星应用中心 江西南昌 330000;2.佛山市地质局 广东佛山 528000
摘要:众源地理数据指的是由非专业人员志愿获取并通过互联网络大众提供的一种开放地理数据;本文首先通过分析众源地理数据的来源(Panoramio)的特点,然后对常用的空间聚类方法DBSCAN算法存在的问题进行分析并进行改进,最后通过实验进行验证。
关键词:众源地理数据;旅游景点;挖掘; Paoramio;DBSCAN;
1背景
众源地理数据指的是由非专业人员志愿获取并通过互联网络为大众提供的一种开放地理数据;伴随着Web 2.0的发展及普及,多媒体分享网站(如Panoramio)的开始兴起,以及具备GPS定位功能的电子设备(如智能手机、数码相机)的普及为众源地理数据的实现提供了解决方案。人们可以通过使用带GPS定位功能的电子设备获取具有地理位置和拍摄时间信息的数码相片,并对这些相片进行标注共享到类似Panoramio等网络相册上。那么,通过一定的方法就可以从这些具有地理位置和拍摄时间信息的相片中挖掘出有用的旅游信息,即根据旅游用户共享的相片信息可以挖掘出一些感兴趣的点(热门旅游景点),本文通过将研究通过众源地理数据的对潜在的旅游景点进行挖掘分析。
2数据来源与相关定义
2.1数据来源
本文中用于实验的数据主要是从虚拟地球Googel Earth获取的赣州市区范围内用户在2008年9月1日到2014年9月1日期间拍摄,并上传到网络相册Paoramio上的相片3169张,经过剔除具有相同坐标的相片后(不管是否是同一个用户),最后整理出121个用户拍摄的相片共2720张(其中包括未标明上传者的相片118张,其统一标为[Untitled]),如图1(1)、1(b)。
图1(b)相片信息表
2.2定义
为了能更方便地陈述问题的解决方案,首先介绍一些相关概念与定义,其中集合P={p1,p2,…,pn}为所有相片的集合。
定义1 (地理标记相片)用户在旅途过程中拍摄的具有地理位置和时间信息的相片称为地理标记相片,每一张相片p定义为p=(θp,ψp,tp,up,ξp), θp代表相片的唯一ID,ψp代表相片的地理坐标(经度和纬度),tp代表相片拍摄的时间,up代表共享相片的用户ID,ξp代表相片的文本标签。
定义2 (旅游景点) 旅游景点可以定义为是一个城市或一个区域内具有代表性且唯一的地点,例如观光景点、商店、游乐场所等等。
3解决思路
针对地理标记数据,DBSCAN算法从带有地理标记相片的集合中挖掘出热门的旅游景点还是存在一定的问题,因为一个旅游景点的受欢迎程度并不能完全由景点被拍摄的相片数量所决定,相片拍摄者所拥有的数目同样起着影响的作用。也就是说,如果一个旅游景点A在其范围50米内被拍摄了100张相片并上传到Panoramio网络相册,但这100张相片都是由同一个用户所拍摄的,采用DBSCAN算法进行分析,设邻域半径Eps=50米,密度阀值MinPts=100,那么由DBSCAN算法聚类可以得出旅游景点A是满足成为热门旅游景点的结果,但事实上旅游景点A只得到了一个旅游者的访问,要说明它是热门旅游景点的说服力还是不够;但是如果这100张相片中是由很多个旅游者所拍摄的(例如这100张相片分别由10个用户所拍摄的),那么旅游景点A在此情况下显得更有可能满足成为热门旅游景点的条件,所以需要针对DBSCA算法在本文的研究中,从具有地理位置和拍摄时间信息的相片集合中挖掘热门旅游景点存在的不足加以改进。
如图2问题演示,从图可以看出左图a在旅游景点A中所有相片都是由同一个旅游者所拍摄,而右图b则是被多个旅游者所拍摄,那么可以得出旅游景点A在b图的情况下比在a图的情况下更有可能满足成为热门旅游景点的条件,所以结合本文的数据源(带地理位置和拍摄时间信息的相片集合)对DBSCAN算法进行了改进,在DBSCAN算法的原有的两个参数领域半径Eps和MinPts密度阀值的基础上,提出了U-DBSCAN改进算法,U代表相片拍摄所有者,设Eps=10,MinPts=8,MinUsers=4,图a虽然MinPts达到了要求所需要的值,但MinUsers=1,所以并没有达到符合成为热门旅游景点的条件;然而图b中MinPts、MinUsers都达到了所要求的最低值,所以两者相比较下右图b显得更加符合成为热门旅游景点的条件。
图2问题演示
实现的办法在上述DBSCAN_Cluster算法的基础上,定义数据对象的数据结构除core_tag、visited_tag、class_id等属性外,增加多了user_id属性,主要用来计算Eps邻域半径范围内相片拍摄者的数目。并在BuildCorePoint()方法中,当判断数据对象p满足成为核心对象(即Num(Eps(p,D))≥MinPts,Num(Eps(p,D))为核心对象p邻域范围内的数据对象数目)时,首先判断对象p在邻域范围内相片的拍摄者个数是否大于某一指定的数目MiniUsers(即把满足条件的数据对象进行过滤),如果拍摄者的数据大于或大于等于MinUsers,则继续执行判断数据对象是否满足核心对象,否则对下一个数据对象进行计算。结合DBSCAN_Cluster的算法描述,基于DBSCAN的改进算法U-DBSCAN算法的伪代码如下:
UDBSCAN_Cluster(DataPoints,Eps,MinPts,MinUsers){
//初始化:对所有数据对象赋ID值,并标记为未被访问
InitializePointState(DataPoints);
//建立核心对象前首先判断相片的拍摄者数目,并返回核心对象的数目
BuildCorePoint(DataPoints,Eps,MinPts,MinUsers);
//对核心对象进行聚类
int current_class_id;
for(int i=0;i<DataPoints.Count;i++){
dp=DataPoints[i];
if(dp.visited_tag && dp.core_tag){
dp.visited_tag=true;
//核心对象进行聚类的核心算法,主要是通过递归的方式
CorePointCluster(i,current_class_id);
}//End if
}//End for
}//End UDBSCAN_Cluster
4实验结果与分析
在本实验中,通过2.1介绍的相片数据点的采集方式,从虚拟地球Googel Earth总共获取了赣州市区范围内用户在2008年9月1日到2014年9月1日期间拍摄,并上传到网络相册Paoramio上的相片3169张,经过剔除具有相同坐标的相片后(不管是否是同一个用户),最后整理出121个用户拍摄的相片共2720张(其中包括未标明上传者的相片118张,其统一标为[Untitled])。
表1 DBSCAN与U-DBSCAN的对比
从表1可以看出当设定邻域半径Eps=60,密度阀值MinPts=15,拍摄者数目MinUsers=20(U-DBSCAN)时,DBSCAN算法聚类所取得的热门旅游景点的个数为38,而U-DBSCAN改进算法聚类取得的热门旅游景点的个数为35,说明存在某些符合成为核心对象的点对象在邻域Eps半径范围内相片拍摄者的数目并没有达到最小的拍摄者数目MinUsers=20的要求,所以U-DBSCAN算法得出的热门旅游景点数比DBSCAN算法的少3个。而当设定邻域半径Eps=90,密度阀值MinPts=25,拍摄者数目MinUsers=20(U-DBSCAN)时,DBSCAN算法和U-DBSCAN算法聚类所取得的热门旅游景点个数相等(都是21个),这说明所有符合成为核心对象的点对象在邻域Eps半径范围内相片拍摄者的数目达到了最小的拍摄者数目MinUsers=20的要求,所以DBSCAN算法和U-DBSCAN算法聚类所得出的热门旅游景点数相等。从而可以得出基于DBSCAN算法的改进算法U-DBSCAN算法,地理相片的拍摄者数目在一定程度上对聚类的结果产生影响。
通过多次分析和比较试验结果,当设定邻域半径Eps=120,密度阀值MinPts=40,拍摄者数目MinUsers=40时,得出的聚类结果相对比较优,共获取到12个热门旅游景点,如图3U-DBSCAN算法聚类结果。
聚类之后每个热门旅游景点由聚类中心以及邻域半径范围内的相片所表示,为了能更好的展示这些热门旅游景点,需要给每个热门旅游景点进行命名。在本文研究中主要是依赖相片的名称及描述信息,统计每一个热门旅游景点Tag出现的次数,并采用TF(Term Frequency)策略并结合游记来为热门旅游景点进行命名。TF描述了每个Tag出现的频率,频率越高代表成为该热门旅游景点的名称可能性越大。如表2热门旅游景点挖掘结果所示,从表中可以得出,聚类得出的热门旅游景点类型主要有风景名胜(八境台、八境公园、赣州公园、西津门、宋城公园等)、购物中心(南门口、九方购物中心等)、高校(江西理工大学及其黄金校区)、车站(赣州汽车站)以及黄金广场等。
图3 U-DBSCAN算法聚类结果
表2 热门旅游景点挖掘结果
5结束语
本文提出了基于VGI的旅游信息挖掘与推荐,通过分析用户自发上传的具有地理位置和拍摄时间信息的相片集合数据的特点,挖掘潜在的旅游景点和旅行路线,从而为旅游用户外出旅游提供参考依据。其主要创新点有:
(1)确定具有VGI模式的网络相册Panoramio作为本文的数据来源。
(2)提出了采用改进的DBSCAN空间聚类方法从大量的相片集合中挖掘热门旅游景点的方法。但本文还存在一些问题与不足之处,从旅游信息挖掘与推荐的角度来说,还有许多需要解决的问题,主要包括以下几点(1)VGI数据质量的问题。(2)数据源融合的问题。
参考文献
[1]贾宁,赵鹏祥.浅谈众源地理数据[J].中国科技信息,2013(12)
[2]李德仁,钱新林. 浅论自发地理信息的数据管理[J]. 武汉大学学报(信息科学 版),2010,04
[3]张仁军,沈林.应用自发地理信息的灾害预警技术[J].重庆理工大学学报(自然科学版),2013,27(10):80-83.
[4]陈中祥,岳超源.空间数据挖掘的研究与发展[J].计算机工程与应用,2003,39(3)
[5]王雅光.基于Hadoop平台的DBSCAN算法应用研究[D].广东工业大学,2013
[6]陈若田.针对非均匀数据集的DBSCAN聚类算法研究[D].重庆大学,2013.
[7]Poser, K., Dransch, D. Volunteered geographic information for disaster management with application to rapid flood damage estimation[J]. Geomatica,2010, 64(1):89-98.
[8]Waerts JD.An integrated WebGIS framework for volunteered geographic information and social media in soil and water conservation[J].Environmental Management,2012,49(4):816-832.
[9]Peter Mooney.The potential for using volunteered geographic information in pervasive health computing applications[J].J Ambient Intell Human Compute,2013,4:731-745.
论文作者:黄翔涛1,刘义海2
论文发表刊物:《基层建设》2018年第24期
论文发表时间:2018/10/1
标签:旅游景点论文; 相片论文; 算法论文; 热门论文; 数据论文; 邻域论文; 对象论文; 《基层建设》2018年第24期论文;