基于Web数据挖掘的旅游需求分析与预测,本文主要内容关键词为:数据挖掘论文,需求论文,旅游论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号F590 文献标识码A 文章编号1006-575(2007)-06-0047-06
在当今的旅游需求发展趋势下,旅游需求的内容、方式、热点都在不断更新,旅游需求的观念也由过去的被动接受型向主动选择型方向转变,社会的不断发展使旅游需求日益多样化和个性化。从旅游发展的角度来看,旅游目的地、景区和旅游企业不仅要了解游客的现实需求并设法予以满足,更要分析、掌握游客的潜在需求,它们成功与否与科学的市场调研紧密相关。由于旅游产品的不可移动性,旅游目的地向游客提供的主要是接待服务,经营者往往是在游客到来时通过游客调查才能收集相关的游客信息,这样可以在一定程度上了解游客的现实需求,但却很难掌握潜在游客的相关资料和潜在需求特点,不利于开发新市场、拓展客源市场范围。而Internet为旅游需求调研提供了新的途径。本文通过对旅游Web信息源的深入分析,建立了基于Web数据的旅游需求分析和预测机制,提供了一种新的旅游需求分析和预测方法,以求更好、更快地为旅游目的地服务。
一、游客获取信息的途径分析
游客获取旅游信息的信息源主要有两种:内部信息源和外部信息源。内部信息源主要是指存储在游客长期记忆中的相关信息,它和游客个人的经历、学历、知识等密切相关,是旅游决策的最初信息。外部信息源是指用户不能从内部信息源获取更为有效和充分的信息和消费方向时所获取的信息的来源。我们研究的主要是外部信息源,它可以通过多种方式获得,而且在线(尤其是互联网)环境下的信息搜索已经成为人们信息搜索的重要渠道和研究的热点。右图表示了游客的信息搜索过程(见图1)。
随着信息技术和经济水平的不断提高,互联网已经走入平常人家,也成为游客获取旅游信息进行旅游辅助决策的重要手段。研究发现,使用互联网过程中,大部分的游客不会直接在网上预订,但他们却会通过网络搜索旅游信息,根据网上信息组合行程后再通过旅游中介进行预订。约70%的网上信息搜索者(浏览后)会通过航空公司(28%)、旅游代理商(39%)和其它渠道进行旅游预订,而只有27%的人最后没有实际参加旅游[1]。央视调查咨询中心所做的北京中青年网民“互联网网民旅游消费调查”结果显示:21.8%的网民登录过旅游网站,43.2%的网民表示将会登录旅游网站;在已经登录旅游网站的网民中,3.8%的网民已经进行过与旅游相关的网上预订,54.2%的网民表示将会尝试网上预订[2]。岑成德(2007)对我国年轻旅游者的网络信息搜索行为研究发现,约有62.6%的高校学生曾通过“相关网页”获得旅游信息,在高校学生获取旅游信息的各种方式中位于第一位[3]。可见互联网在旅游信息获取中的地位逐步提高。
图1 旅游信息搜索过程图
二、Web数据应用于旅游市场分析与预测的优势
Internet独特的优势使其成为市场调研和市场推广的主要方法,并在很多行业得到广泛应用。利用Internet进行旅游需求调查具有信息收集量大、速度快、方便、节省成本等诸多优势,但也存在着抽样误差、回收率低、可信度差、缺乏监督等问题[4]。Web数据挖掘和传统的市场调研及网络调研相比较,优势十分明显。目前,Internet是一个巨大的、分布广泛的全球性信息服务中心,它包括新闻、广告、消费信息等各种各样的旅游信息。不仅如此,Web还包含着丰富的结构化数据,如动态变化的超链接信息以及对于Web页面的访问和使用的信息等,这为Web数据挖掘提供了丰富的资源[5,6]。潜在客源对所感兴趣的旅游信息点击的记录可以作为旅游业对潜在客源的消费特性进行分析的重要数据依据,这些记录可以显示何地的潜在客源(who)对何目的地(where)在何时(when)进行点击。从旅游客源市场调查方面来看,利用Web数据作为信息源和传统的信息源相比具有十分明显的优势(见表1)。
三、旅游Web信息组织与旅游市场映射框架的建立
旅游Web信息源虽然具有诸多的优势,但是仍然存在一定的问题,如旅游信息量大、增长速度快和内容庞杂难以提取等,对获取的旅游需求Web原始数据难以进行分析处理,对客源市场和潜在游客需求的分析与跟踪较难。因此,要充分利用Web数据源进行旅游市场分析与预测,就必须根据研究目标,依据需求建立旅游市场和获取的旅游Web数据之间的映射关系。从而构造来自Web信息源的面向旅游市场与游客分析的数据模式(见图2)。
目前,旅游Web信息源常用数据树组织结构[7]。图2是旅游Web信息源和旅游市场的映射关系图。在图左侧用户访问的网页连接Web信息源(服务器),其链接分别为“目的地”、“产品类”、“旅游产品信息”。对应旅游客源市场与游客旅游需求分析,应构成以目的地级旅游市场和产品(景区)级旅游市场的两种Web数据组织模式。旅游目的地有一种或多种旅游产品,其旅游产品的丰富程度、知名度、规模、集聚、竞争、现有市场状况等构成了目的地旅游市场分析的数据集合;旅游企业(景区)的知名度、价格等特征构成了景区旅游市场分析的数据集合。这两种数据各自相对独立,但内部数据具有交叉性。这两种数据集合形成了展开旅游市场与游客需求分析的组织框架。
图2 旅游Web信息源与旅游市场映射关系
四、基于Web数据挖掘的旅游客源市场分析与预测
1.基于Web数据的旅游客源市场分析和预测知识库构建
以Web数据和旅游市场的映射关系为基础,可进行基于Web数据挖掘的旅游需求分析,其中包括基于游客需求的目的地和景区旅游客源市场的分析和预测。目的地市场整体分析和预测是对客源结构及其发展趋势的模拟研究,能够从整体上把握目的地旅游客源市场的结构与发展趋势;产品级市场的分析是从旅游产品的微观角度对目的地旅游发展趋势和客源结构的分析。应根据对旅游需求影响因素的分析、目的地旅游产品的特点和生命周期来构建旅游客源市场分析和预测知识库,其组织分为两个层次,即面向整个Web数据和面向旅游产品。面向Web信息源的知识库将Web数据重新组织并分类,形成旅游客源市场分析和预测的整体构架;面向旅游产品的知识库内容,是从旅游需求的角度出发,依据旅游需求的发展态势,应用旅游产品生命周期理论,分析游客旅游需求所关注的焦点和热点。
2.Web信息源分析规则
在旅游Web信息源中,Web信息的特征可以显示用户对目的地产品的关注焦点,如产品的知名度、旅游价值、功能等。通过对单元信息的特征分析,可以确定相关的PKD(Product Knowledge Division)子集,并由此以相关的PKD子集为重点方向与依据,使后续进行的信息单元的内容分析更为有效。
Web信息单元的特征分析,涉及旅游产品的需求状态和旅游产品生命周期。根据分析知识库的构建方式,我们定义了下列规则以确定旅游目的地市场和旅游需求的状态。
(1)旅游目的地客源市场的整体分析依赖于旅游产品,游客对目的地关注度可以利用旅游产品整体点击来体现。通过对旅游产品的信息特征统计分析可以了解旅游目的地的整体情况。
(2)产品的需求分析依赖于PKD的选择。旅游需求分析的效率与准确性对PKD的选择有很大的依赖性,因此PKD子集的确定和完善具有很重要的意义。首先确定子集的初始状态,随着Web数据量的增加和方法的不断调整,以及分析结果的反馈,可使用聚类分析等方法逐步完善PKD,从而为旅游需求分析提供参考。
3.基于Web数据源的旅游市场分析与预测流程
选择适合分析的旅游信息服务器,将用户的访问日志通过下载过滤器进行冗余处理之后保存到本地数据库(Web服务器)。利用Web数据挖掘方法对Web日志数据进行分析处理,分析知识库支持分析处理的过程,这是对Web数据进行处理的核心。首先使用面向信息源的知识库定位产品信息确定其PKD,并以此为重点分析信息内容。主要包括两种方式:其一是点击率的统计,其二是以此为基础的交互式信息内容(旅游论坛)的处理。根据游客点击各种旅游信息的频次进行统计处理,这是Web数据分析的主要内容;将统计结果作为旅游客源市场趋势分析、旅游产品需求分析及旅游客源市场总体分析的基础。交互式的分析方法则需要用户人为地判断已结构化的分类信息,从而对产品的某一方面做出结论性的总结,以帮助市场调查人员及决策部门调整产品功能或营销策略,适应旅游需求和市场的变化。然后以目的地旅游市场实地调查数据为参照,利用统计学、概率论和计量经济学等的原理和方法对其进行统计和模型分析,从而找出两种数据之间的关系和规律[8]。根据旅游市场模拟的结果,对照现实旅游市场的具体状况,评估使用方法的优劣,对方法、模型进行修正,直到找到最佳方法,然后输出对应的结果。具体如下(见图3):
图3 旅游Web数据获取及其分析流程
4.陕西省旅游需求分析与预测
根据对Web信息源的论述可知,选择合适的数据源非常重要。中华行知网提供了陕西省300多个景区的旅游资讯,是具有代表性的旅游信息源,因此在研究中我们选择和中华行知网合作,利用中华行知网平台采集陕西省的旅游Web数据。本次研究数据为2004年元月—2005年12月采集到的304万条Web记录数据。
(1)陕西省旅游需求季节分析
根据数据可以得到陕西省旅游Web记录数据的季节变化(见图4),其纵轴表示各月点击占全年的比重,可以看出在2004年和2005年的4月和9月出现了4次明显的峰值,4月和9月是陕西省的旅游旺季,同时也是“五一”和“十一”黄金周的旅游信息准备阶段。根据旅游决策的一般规律,旅游信息的收集都是在出游决策以前完成,所以Web数据基本符合陕西省的旅游规律。对Web数据进行移动平均处理,从图4可以看出Web数据和陕西省旅游实际需求的差异约为1个月,也就是Web数据早于实际需求1个月左右。Web数据高峰出现在每年的4月份和9月份,而陕西省旅游旺季明显地出现在每年4-5月和9-10月两个时段。
图4 2004年1月至2005年12月Web数据的季节构成变化
(2)陕西省旅游需求预测
根据陕西省国内游客的实际情况,选取客源地(省、自治区、直辖市)人口总数(R)、人均GDP(S)、各客源地游客人均在陕旅游消费(L)、客源地省会城市到西安的机票价格(F)等指标作为影响陕西省国内旅游需求的主要因素,客源地旅游Web记录(P)和网民普及率(W)作为修正,建立如下修正旅游需求引力模型:
(式1)
;
根据模型,可以得到陕西省旅游需求预测值(见表3)。
五、总结
由于Web数据的超前性以及及时获取等特点,在旅游市场需求研究中,利用Web月度数据可以提前判知游客量的季节性变化,当出现一些重大活动(譬如节庆、纪念活动等)或危机事件(如景区自然灾害等)时,Web数据就会出现明显的异常,其点击率(关注程度)都会出现异常(一般是提高),对景区尤为明显。因此可以利用Web数据的异常监测进行预警,使旅游目的地和企业能够提前做出应对准备和促销宣传。同时也可以利用Web数据快速、便捷、准确地了解市场需求的特点和趋势,并进行旅游目的地和旅游企业的旅游需求预测,为旅游目的地和旅游企业发展提供依据。
标签:web开发论文;