旅游大数据微数据信息平台的研究_大数据论文

面向大数据的旅游微观数据信息平台研究,本文主要内容关键词为:数据论文,微观论文,旅游论文,平台论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      随着互联网的发展,人们生产数据的能力越来越强,传统IT设备以及各种智能终端产生的信息,爆炸性增长的数据充斥整个网络,其中与旅游相关的数据不可计数。学者、旅游管理者和政府部门已越来越重视旅游数据统计工作,结合互联网、大数据、数据挖掘领域的研究已经成为热点。互联网的大数据统计时代已经到来,一批学者开始研究互联网的搜索行为和旅游行为之间的关系。福蒂斯(Fodness)等认为,旅游信息搜索内容能够反映游客的在线信息需求[1]。潘(Pan)等研究游客如何利用网络制定假日旅行计划[2],并通过研究Excite搜索引擎日志后发现有超过一半以上的被调查者将酒店作为第一搜索任务,然后才会转移到交通或者其他活动和旅游吸引物[3]。白智广等从海量的假日旅游信息中进行数据挖掘,研究假日旅游的状态问题[4]2-3。这一系列研究和成果都表明旅游数据的获取和统计需要新的方法和手段。

      和以往研究不同的是,本文希望从微观数据统计的角度,结合移动互联网、LBS、数据挖掘等新技术和新理念,研究开发出一种能够直接反映旅游个体行为,特别是消费行为的数据统计平台,以适应大数据时代科学研究与普通游客对旅游信息化的需求。与以往数据统计平台不同的是,该平台直接面对游客个体,而不是旅游接待单位(酒店、旅行社等),使得数据的来源更真实,旅游数据的获取和分析更科学、更有效;通过对获取数据的统计分析,能够掌握游客的行为规律、时空足迹和消费特征,成为智慧化的旅游信息平台。

      一 旅游数据统计在国内外的研究与应用

      大数据之所以称为大数据,不仅仅因为其量级的庞大,也因为它与其他数据的复杂相关性[5]。游客在旅游行为中产生的数据不仅复杂,而且与其他因素有很大的相关性,这成为旅游大数据研究的先决条件。2012年,DealAngel(http://www.dealangel.com)作为第一个利用大数据分析方法进行酒店比价的搜索引擎获得成功。DealAngel的市场评分以酒店及周边地点的价格数据为依据,参考了网络上超过百万的数据点,为游客提供最划算的酒店信息。目前DealAngel已经被俄罗斯旅游网站One Two Trip收购,成为旗下子公司之一。根据权威的创投互动AngelList社区统计,目前世界上“大数据”概念的旅游企业主要涉及旅行计划网站、旅游照片应用、酒店评价、个性记录和体验分享等各个方面[6]。在旅游以外的各个领域,大数据都在发挥巨大的影响。例如,利用在Twitter上的数据,找到一种让用户可以及时找到全世界相关信息的方法[7];利用大数据对用户进行分类投递广告;在公共交通领域中应用大数据进行智能交通管理[8]。这些信息明确地表明,大数据在旅游中的应用会更深入,也会给旅游行业带来新的变革。

      很多学者注意到互联网的重要性。2002年,有学者预见到电子商务将提高旅游业的透明度和工作效率,降低边际成本,从而将对中国旅游市场带来巨大的变革[9]。国内学者也开始注意到旅游数据统计的问题,有学者对旅游的Web数据挖掘和传统市场调查获取的数据进行了对比[10],研究在线搜索行为模式与游客行为的关系[11],对网友在论坛中发布的旅游相关信息、照片进行统计分析来研究旅游者的行为。有学者利用心理学中的认知模型,对旅游网站提供的信息和服务对潜在游客出游决策发挥的作用进行了量化研究[12]。

      但是,随着移动互联网的发展,移动端发展的速度令人惊讶。根据艾瑞咨询公布的统计数据,2011年智能移动终端的出货量就超过了PC,所以针对移动端数据源的采集需要得到更大的重视。基于移动端的数据源和Web数据源有以下差异。

      (1)移动端数据源更有利于对旅游者进行追踪。LBS(Location-Based Service)的出现最早是为手机用户提供紧急救援服务,有学者专门研究了用移动工具追踪在城市空间内个体行为的方法,并追踪了100起事件后证明城市中的旅游行为是可以被在线检测的[13],现在已经广泛应用于移动端为用户提供地理位置服务,与此同时也产生了大量的地理信息数据。除了可以获取用户的时空行为数据外,手机移动数据中还包括用户的个人信息,管理系统根据手机号码可以得知用户的性别、年龄、收入等信息[14]。

      (2)移动端产生的是实时信息。传统旅游者提供的数据是某一个时间断面的旅游者信息,而基于手机定位可获得个体实时移动信息[15]。这一特点让基于手机端产生的数据能够最直接最迅速地反映现实情况。

      (3)移动端服务更易于与游客互动。与web相比,手机服务更个人化,游客在旅行过程中也能够便捷地使用。Google地图、Booking Tonight以及旅行翻译官等著名的APP软件已经为大量用户提供了便捷的旅游服务。有理由相信,与旅游信息和数据相关的手机端平台将直接受惠于普通的游客群体。

      移动互联网对人们的生活产生了巨大的影响,与旅游相关的手机应用也逐渐广泛,除了各种直接面对游客的旅游攻略、机票酒店预定、旅游资讯发布的手机应用以外,对移动端在景区管理方面也有进一步的研究。RBSim是一款专门用于模拟在室外环境中人类游憩行为软件,研究和管理人员可以在网络上模拟游憩环境中人们的移动,为景区管理提供依据,现在北美和澳洲景区实践使用[16]。基于手机的旅游数据统计分析一直比较罕见,能够被查阅的案例不多。1999年,在日本大阪城堡会议中心,以手机作为数据获取手段,对前来观看相扑表演的100名被访者进行了研究[17];2004年,为了探索手机移动数据在国际旅游市场分析中的作用,在爱沙尼亚对共计1.28亿次来自96个国家的国际漫游通讯行为数据进行了分析[16]。我国有学者利用数码相机拍摄照片时记录下的地理位置信息对游客时空行为进行研究[18];或引入时间地理学和认知供给理论与方法提出了“旅游者时空行为研究理论框架”[19]5-20,为以移动端作为数据源的旅游数据统计和分析提供了理论思路。

      二 旅游数据获取中的问题

      目前国内旅游统计数据基本上是宏观数据。中国国家旅游局编制的《中国旅游统计年鉴》和中国旅游出版社出版的《中国国内旅游抽样调查资料》中关于游客花费情况的统计数据比较粗略,并且其抽样统计方法也不能真实反映游客的消费情况,这些统计数据存在不同程度的数据造假、项目分类不合理、统计项目过于粗略、抽样样本不足、问卷设计不合理等问题[20]。旅游卫星账户的建立同样需要详细的旅游消费数据。国内学者在研究编制江苏省区域旅游卫星账户(JSTSA)时就发现,目前旅游消费方面的数据主要来自全国范围内统一实施的海外旅游者和国内旅游者抽样调查数据,但现有的旅游者抽样调查中关于旅游消费的调查项目比较简单,不能完全满足JSTSA游客消费核算账户中较细分类水平的旅游消费支出项目研究的需要[21]。比如,《2012中国旅游统计年鉴》中标明2011年江苏省接待入境过夜游客有7373266人次,但在连云港旅游政务网站上公布的《关于2011年江苏入境游客抽样调查情况的通报》表明,该次调查回收问卷数量为1704份,仅占当年游客人次的0.023%[22]。这样的数据量是否能够反映当地游客的真实情况,值得怀疑。旅游数据来源的主要途径是问卷调查、电话访问等形式。虽然调查方法和问卷设计都经过了科学化改良,但是随机采样的方法样本小、调查对象对问卷回答的随意性高、数据获取周期长等问题依然无法解决。

      旅游数据统计是一项世界性难题,关于数据获取的方法和理论目前都还在探索之中。数据使用者需要高质量的旅游数据,但是对旅游者个体消费数据的统计遇到了技术上的难题,这就需要我们研究和探索新的数据统计方法和技术。

      三 MTIS平台构建

      为解决目前旅游数据统计分析中存在的问题,更充分利用移动端数据源的各种优势,我们研究开发出一种创新性的数据获取和分析方法。该方法以互联网为平台,从旅游个体角度获得真实的海量数据,再进行存储与挖掘,为旅游学术研究、旅游营销、旅游管理等领域提供大规模数据存储、处理、挖掘与可视化分析服务;同时也为游客提供相关的旅游信息服务,是旅游信息资源整合的大型互联网服务平台——“基于游客个人行为的旅游微观数据信息平台”(A Microdata Tourism Information System Based on Personal Behaviors),简称为MTIS。

      (一)游客个体的数据产生和数据需求

      在旅游过程中,数据信息的产生是时时发生,纷繁复杂的。这样的数据产生在每一次游客消费、地点转换等过程中。我们已经确信的是,对于旅游管理机构和旅游学术研究者来说,真实的旅游数据是有价值的,但是对于普通游客来说,他们和旅游数据之间的关系如何呢?本文认为游客与旅游数据之间有三点关联。一是游客产生数据。旅游数据不可能凭空发生,所有数据都是与游客有直接或者间接的联系。二是游客有数据统计需求。对于普通游客来说,“花了多少钱”,“花在哪里”,是他们对旅游数据最基本的统计需求。此外,游客还想了解真实旅游与旅游预算之间的差距,与其他游客花费的比较等等信息。三是旅游数据影响游客的旅游计划。在计划旅游时,游客希望了解的信息尽可能全面详细,包括其他游客的旅行花费、旅行行程安排、同一时间在同一地点的游客人数估计等等,这些信息可以直接影响他们的旅行计划。在游客出行的整个过程中,从出行计划决策、旅游过程中及旅行结束,整个过程游客可时时调整自己的计划,更新自己的数据,也就是说,数据更新是一个动态的过程。

      (二)MTIS平台设计方案

      基于游客、旅游管理、旅游学术研究等多方面的分析和研究,我们设计出了MTIS平台方案(如图1所示)。平台的构架由三大部分组成。第一部分是用户端服务。其核心是在用户使用中生成统计平台的初始数据,包括自动生成的LBS地理位置数据和用户自己录入的旅游消费数据。游客可以即时掌握自己的消费数据,包括一些简单的统计功能,例如费用记录、分类、对商家的评价等等。第二部分是本地数据解析。在用户生成数据后,根据统计平台的需要,自动将用户使用生成的初始数据进行进一步的整理归类分装,形成统计平台所需的数据内容并上传远端服务器。第三部分是远端统计数据。在远端服务器根据旅游微观数据的统计需求,对数据进行二次分析并存储,一方面形成海量的基础数据库,另一方面根据需求对这些数据进行再次挖掘和分析,形成分析结果,分别提供给游客、景区、旅游管理机构和旅游研究者。

      (三)MTIS平台的开发实现

      MTIS平台由Client端和Server端组成。Client端通过第三方LBS提供商的API接口,向用户提供基于地理位置信息的用户数据标记及用户间的各种位置互动信息。Client端安装在用户手机中,直接面向用户,由基础模块、用户生成数据模块和用户间交互模块三个部分组成。基础模块针对平台Client端所需技术进行规划整合,为Client端其他模块构建实现基础;用户生成数据模块为总体平台的数据产生部分,直接面向用户,按照用户实际可能产生的需求进行规划设计,平台用户产生的内容及数据通过用户间交互模块进行交互,该模块提供内容及数据的用户间分享,并产出用户间互动所产生的新数据。

      

      图1.旅游微观数据统计平台设计方案

      Server端负责提供基础的用户数据的验证、传输,同时对收集的海量数据进行整理和分析挖掘,分为基础模块和数据统计及分析模块。基础模块针对平台Server端所需技术,进行规划整合,保证用户的数据的传输、整理及数据安全性;数据统计及分析模块是平台的核心模块,对海量的各类型用户数据,根据不同的子模型库进行归纳整理,并运用OLAP技术及数据模型库对数据进行分析和挖掘。

      目前MTIS平台客户端的开发已经基本完成,已完成的部分页面如图2所示。图2中从左至右分别表示MTIS客户端的行程规划模块、LBS模块、消费记录模块和初步消费统计模块。目前行程规划模块主要是游客自己对旅行消费的规划,游客可以在旅行前期利用该功能进行行程规划。未来该板块会利用采集到的数据,经过统计挖掘,向游客推荐其感兴趣的行程。LBS模块的主要作用是记录游客消费的地理位置信息。游客可以点击地图上的箭头查询自己每一笔消费的地点,也可以看到自己的消费轨迹。利用消费记录模块,游客可以很方便地记录自己的消费情况,包括消费的金额、消费类型等等信息,未来还会支持用户上传消费图片和消费心情。利用初步消费统计模块,游客可以随时查看自己的消费统计情况,包括消费明细、消费类型统计等等一般游客用户关心的数据问题。

      以游客A使用该系统为例:游客A有7天假期,2万元预算。A希望与自己的妻子和孩子一起出去旅游。旅游以轻松休闲为主,主要考虑国内游,如果不超出预算也可以考虑出境。A选择的交通工具以飞机、大巴这两种公共交通工具为主。住宿方面,A希望尽可能舒适,酒店或者评分较高的民宿都可以考虑。A将这些因素输入MTIS系统,系统会根据以前获得的数据为A分析推荐合适的行程,包括旅游目的地、旅游消费的预计、行程大致规划等。旅行开始后,为了掌握自己的消费情况,A在每次消费以后都将本次消费的情况记录在MTIS系统中,这样他可以随时随地查看自己的消费情况统计,包括消费金额和类型。对于特别有兴趣的景点和景物还会拍照留念,记录这次消费的心情,通过微信微博进行分享。旅行结束以后,A可以在系统中查看本次旅游的详细消费情况,这样他就会清楚自己在旅游中的花费主要在哪些方面,他也可以和其他使用该系统的用户进行比较。因为MTIS详细记录了每一次消费的地理位置信息,A还可以根据这些信息回忆行程写成旅行日记发在互联网上,分享自己的旅游心得。

      以上案例说明了游客怎样利用MTIS系统让自己的旅游过程更便捷更智能,虽然其中的某些功能(如行程推荐)目前还没有完全实现,但是MTIS系统已经可以完成基本的消费统计和记录功能,游客可以进行简单的旅行计划,在旅途中对自己的消费进行记录和统计。

      

      图2.MTIS部分客户端界面

      四 基于MTIS的成都游客消费行为分析

      (一)数据来源

      MTIS平台目前正在测试和完善阶段。为了测试平台的功能,2013年8-9月,课题组以QQ群、微信、微博等手段对有意向在十一期间出游的游客推荐并安装了该软件的测试版。因为测试版发放数量有限,为了集中数据量,让统计分析更有针对性,我们将推荐安装的用户集中在成都市内周边地区。389名用户下载了该软件,其中351名用户安装成功,安装率为90.2%,其中有289名用户在出行期间使用了该软件。十一假期结束,通过后台的统计收集,较为完整并能够系统描述游客在十一期间旅游消费行为的数据有209份,成为我们分析的样本。这些样本主要涵盖行程规划、地理位置信息、消费统计、消费感受等信息内容。行程规划包括计划旅行天数、旅行目的地、旅行预算、同行人数等信息,这些信息是由用户在旅行开始前输入系统的。地理位置信息主要记录每一次用户记录消费时刻的地理位置信息,由系统自动记录。消费统计目前设计消费的分类主要有八项——交通、驾车、住宿、娱乐、餐饮、购物、门票、其他,每一项消费又有细节分类,方便用户对自己的消费进行归类。例如,交通类消费下面包含飞机、火车、巴士、轮船、的士;驾车类费用包含租车费、油费、罚款、过路费。消费感受是指对某些消费项目,用户可以记录自己的体验感受(是否物有所值,是否值得推荐给其他人),可以给商家进行评分,同时可以在微博、朋友圈分享该次消费经历。

      MTIS生成的数据内容是庞大复杂的,可以反映游客在旅游中的各种消费行为、地理信息、情感信息等数据。以数据库中三个有代表性的样本为例,数据样本统计包括了旅行目的地、旅行天数、同行人数等11个项目,其中7项与消费相关。从表1数据可以看出,样本2泸沽湖旅游的餐饮消费总额是1014元,其中正餐811元,特色小吃120元,夜宵83元;交通费770元,其中油费580元,出租费190元。如果加上后续开发中计划游客上传照片和游客之间的交互功能,那么形成的信息就足够反映游客在旅行过程中的行为规律、时空足迹和消费特征。

      (二)数据分析

      本次测试性研究的核心问题是:成都游客在国庆七天的旅游消费与哪些因素相关?除了与旅行天数、人数有较为明显的相关性以外,有哪些隐性的相关性没有被发现。

      

      考虑到数据的非正态性,我们采用Spearman相关系数进行分析。相关分析是对两个变量之间的相关程度进行研究的多元统计分析方法。我们引入了旅游地10月份的CPI作为一个变量,另一个变量就是人们的旅游消费总计。数据的相关分析表明,CPI与旅游消费总计的Spearman相关系数仅为-0.327,且检验的p值为0.014<0.05,即检验是显著的。这表明从我们收集的数据来看,游客消费多少与所在城市CPI无关(结果见表2)。

      

      如果游客的消费与城市CPI指数无关,那么其中是否还有其他隐性的规律?我们尝试分析了MITS平台中收集到的其他消费数据,对住宿消费与餐饮、购物、娱乐消费的相关性进行了相关分析。结果表明,住宿消费与餐饮、购物、娱乐消费的Spearman相关系数分别为0.907、0.871、0.623,检验的p值均小于0.0001,故其相关性是高度显著的。可见,住宿消费与餐饮、购物、娱乐消费额有正相关关系,并且相关性是非常显著的(表3所示)。

      

      根据本次的数据分析,游客的消费情况与旅游目的地城市CPI无关,但游客住宿消费与餐饮、购物、娱乐消费有正向相关性。也就是说,乐于在住宿上消费的游客,更有兴趣在购物、娱乐、餐饮上花钱。以上例子说明,MITS平台可以有效地收集个人在旅游中的消费数据,反映了游客在旅游中的真实行为,这些数据可以被分析,得出的结果对旅游管理和科研都有重要的意义。

      五 结论与展望

      本文详细介绍了MTIS平台的设计思路与方案,提出并实践了一种取得和分析微观旅游数据、旅游大数据的方法。MTIS平台是一种基于移动互联网和大数据分析方法建立的旅游数据收集、分析的平台系统。相对于传统的旅游数据收集统计方法,它有以下优势。第一,数据真实可靠,可信度高,可以避免造假、不实信息的产生。第二,宏观与微观相结合。MTIS平台既能够反映旅游区域的整体数据,又能够反映旅游个体的消费细节。本文限于篇幅,只对数据作了相关性的分析,通过挖掘海量数据,可精确地分析游客的时空足迹,把握游客行为规律和消费特征。第三,数据动态性高。旅游管理者可以随时监测动态变化而不受时间限制。第四,摆脱“统计报表”层面,有数据挖掘潜力。第五,能真实地服务于普通游客,使其直接享受到旅游信息化的便捷。

      MTIS平台也存在其局限,比如需要游客拥有智能手机并安装客户端。这对于年龄大的游客并不现实,所以汇总的数据多是以中青年为主。但家庭出游中,中青年游客的使用过程也将小孩和老人的出行安排列入其中。另外,让游客了解并愿意安装也需要过程。但是,相信随着中青年,特别是80、90后的成长,我们对于该平台的应用前景是很乐观的。

      目前MTIS平台的开发工作已经进入测试和完善的阶段,不久就可以提供给用户免费下载,但这只是平台研发的第一步,后续将有更多的研究任务。第一步,完成平台所有关键模块的设计,游客可以顺利地保存数据,并可以在旅行过程中或旅行结束后看到自己消费的完整统计(已达成);第二步,支持用户上传图片功能,并且可以记录消费感受(正在开发中);第三步,支持用户行程规划的功能,用户可以在旅行前期将计划路线、酒店信息、机票信息等内容录入,在旅行途中可以检阅,真正形成一个服务于普通游客,特别是自由行游客的旅游信息化平台(正在开发中);第四步,旅行行程推荐功能,在形成一定规模的数据库以后,用户输入自己的旅游预算、旅游时长、旅游地喜好、交通方式等参数后,系统可以依据已有的数据向用户推荐行程(正在开发中)。

      旅行行程推荐功能是平台未来的核心功能之一。这一功能的实现手段是利用大数据分析方法对游客的行为进行预期。我们乐观地认为,游客的行为特别是消费行为是受制于某些规律、模型以及原理法则的,可以重现和预测,游客的行为不再被视为不相关、随意偶然的独立事件,而是有次序、可重复的。研究隐藏在游客消费中的规律,找出正确的模型,就可以对游客行为进行预测,为使用该平台的用户提供符合他们期待的旅游计划。当然,为游客提供旅游计划只是该平台大数据应用的一部分,一旦形成数据采集到数据挖掘的良性循环,在景区管理、旅游营销等领域都将带来巨大的突破,这也将是我们未来研究和工作的重点。

标签:;  ;  ;  ;  

旅游大数据微数据信息平台的研究_大数据论文
下载Doc文档

猜你喜欢