基于用户特定特征及内容的景点推荐模型研究∗论文

基于用户特定特征及内容的景点推荐模型研究

李 川1张少茹2

(1.西安航空学院计算机学院 西安 710077)(2.西安交通大学医学部 西安 710061)

摘 要 针对当下民众旅游需求及旅游景点选择难的问题,论文提出一种基于用户特定特征及内容的景点推荐模型。根据用户选择的特定特征,通过自建的旅游景点评论数据集提取评价观点集和用户特征集,结合用户选择的特定特征生成用户特征集合,避免了新用户特征稀疏的问题,再根据评论观点和用户特征计算Cosine similarity,将相似度高的item 推荐给用户。通过实验表明,基于用户特定特征及内容的景点推荐模型研究方法较常见的协同过滤方法在准确率、召回率方面有所提升,PR 及ROC 曲线效果良好,同时,基于内容的推荐算法在用户独立性、可解释性、新的item 易推荐性等方面都有较大优势。该研究的局限在于基于内容的推荐算法无法挖掘用户的潜在兴趣。该算法模型对用户选择旅游景点具有很好的决策作用。

关键词 旅游景点;评论;特征;余弦相似度

1 引言

旅游旅行度假一直是很多人向往的生活模式,随着国民经济、教育的发展,旅游旅行度假体验生活已经成为国民日常生活中的一个重要环节,更多的人希望通过旅游放松心情、体验生活。但旅游作为一种产业,很多地方为了追求利益,过度商业化,导致旅游偏离了本质,景点的自然、生态、人文因素失真,交通、食宿等保障措施落后,诸如游客滞留、天价饭、宰客、环境卫生差、强制消费等现象频繁出现,这些问题导致景点和游客之间出现巨大鸿沟,游客担心被宰、服务差,景点被五花八门的宣传、评论导致无法将真实情况呈现给游客[1]。这使得人们选择旅游景点时受到很大的影响,难以抉择。

随着网络的普及,微博、朋友圈、个人空间等形式给网民提供了一个广阔的自媒体平台,很多游客在去过一个景点以后,会对景点发表的评价评论、旅游攻略等信息,这类信息成为很多用户了解景点情况的重要信息来源,大多数评论都能客观准确地反映景点真实情况,但网络中的评论参差不齐,也有少部分评论会带有一定的主观意识,甚至存在网络水军,这对用户获取有用信息带了一定的干扰。而网络中的旅游评价信息量庞大,用户往往只浏览很少一部分,这些不准确的评论很可能对用户带来错误导向。用户从大量信息中获取准确有用的信息是极其困难的,一般可以采用信息技术方法从大量信息中提取有用信息。游客评价内容,代表了游客真实的内心体会,这类信息属于非结构化信息,一般需要采用数据挖掘技术获取有效数据[2]

2 研究现状

一般推荐系统是针对商品推荐的,其基本思想是在用户和商品之间建立联系,根据用户的历史购买记录,再根据用户与商品的联系,将用户可能感兴趣的商品推荐给用户。商品推荐系统的的组成如表1所示。

表1 商品推荐系统组成

个性化推荐算法主要可以分为Collaborative Filtering Recommendations(协同过滤,CF)和Content-based Recommendations(基于内容,CB)的推荐算法。CF 是当前广泛使用的推荐算法,但是往往真正使用时一般都不会只有CF,CB 也会经常用到,即常用的是CF+CB的混合推荐算法[3]

CF 是一种广泛应用的推荐系统,算法的过程分为3步:

1)根据用户特征计算用户间的关联度;

GIS、GPS等技术在水利普查数据的采集、传输、存储、处理和利用中的应用,标志着闻喜水利工作开始逐步由传统水利走向现代水利。

随着我国人口的不断增长,老年人因机体功能下降发病率呈逐渐上升的趋势,老年脑出血的发病率也不断上升,其发病的主要原因是与脑血管病变有关[1],病人会出现运动障碍、呕吐及意识障碍等症状,如果术后康复的效果不好,严重影响病人以后的生活质量[3],因此从我院选出脑出血病人180例,为病人提供不同的护理措施,现报道如下。

其中 表示第i 个item 的属性,相同含义;Ir 表示用户喜欢item 的集合,Inr 表示用户不喜欢item 的集合;Jr 表示用户选择item 的集合;而β 与γ 分别表示正反馈、负反馈系数,φ 表示用户选择系数。在计算后,对于一个item,即可使用的相似度计算用户对该item的偏好值。

协同过滤的推荐依据主要是根据用户间的关联度和用户对item 的评价,该算法能有效地挖掘item 的潜在需求者。但协同过滤推荐算法存在期初评价数据量少,矩阵稀疏等问题,导致推荐结果不合理等情况[4~6]

基于内容的推荐算法应用较早,常用于信息检索及信息过滤[7]。根据用户已选item 内容计算用户间的关联度,然后进行推荐。CB 记录item 信息,通过分析已选item 内容,记录用户信息。CB 根据用户信息与item信息的相似度,向用户推荐相似度较高的item,它不受期初评价稀疏性问题的影响,发现隐藏信息。CB的过程如图1所示。

2)根据用户关联度高的其他用户的偏好预测该用户的偏好;

图1 CB的过程

整个过程可以分为3步:

1)Item Representation:从item 信息中对每个item 进行内容分析,抽取一些特征将item 结构化处理,生成结构化的项目库;

2)Profile Learning:从用户资源信息中对每个用户进行偏好分析,将一个用户的偏好结构化处理,生成用户偏好库;

定理3: 用户偏好的Rocchio计算方法:

3)Recommendation Generation:根据用户偏好与item信息特征计算相似度,为用户推荐相关性高的item[8]

养殖场分为生产区、隔离区和办公生活区。鸡舍按功能分区原则和生产工艺流程顺序排列布局,要求其朝向、间距合理,净道与污道严格分开,鸡舍布局形式采用单列式或双列式。

综上所述,协同过滤推荐算法适用于用户、item 及用户选择item 数量都庞大的情况,诸如网络购物推荐系统,而旅游并非日常刚需,相对而言历史数据有限,且用户偏好类型比较单一,因此采用基于内容的推荐算法更加合适。本文提出一种基于用户特定特征及内容的旅游景点推荐模型,根据景点评价数据及用户历史数据预测用户偏好。

3 建立基于内容的热门景点推荐模型

3.1 Item Representation

旅游景点作为推荐系统中的item,需要提取一些属性,一般item的属性可以分为结构化和非结构化属性,结构化属性,即可以被计算机直接表示、存储的数据,比如门票、星级等,推荐系统可以直接使用;而非结构化数据,首先需要结构化处理,才能在推荐系统中使用,例如景点评价、旅游攻略等信息,这些信息是本文所述推荐算法的主要数据来源,如何将其结构化是本文的重点研究内容之一,本文采用VSM 进行旅游评价信息结构化处理[9]。VSM(Vector Space Model),即向量空间模型,是一种向量运算,可以将文本内容处理为向量空间,并且通过向量空间分解计算文本相似度[10]

首先,法律借力科技促进自身发展。科技发展可以为法律研究和法律适用提供新的、更科学的工具,因而我国的法律研究者、立法者和执法者,对于科技应当持更加开放的心态和积极的态度,主动吸收和接纳新的技术,以改善立法、司法和执法。比如,近年来,部分地方进行的互联网法院的试点,就是法律借力科技进步促进自身发展的典型例子。未来,法律工作者应当注重法律更多地吸纳科技进步的成果,通过科技促进法律的进步。

旅游评价文本集合为P(p1,p2,p3,p4,…pi,…pn),因本算法主要针对中文文本,需要对每篇评价文本pi 进行分词,中文分词可采用jieba 工具[11],其基本过程如图2 所示,分词得到分词集合,即词典W(w1,w2,…wk…wl)。

图2 jieba分词过程

对于评论集中的每一篇评价pi,可以使用一个向量来表示为,其中wki表示评论pi 中第k 个词的权重。如何计算每个词的权重,是一个非常重要的问题,简单的计算可以根据一个词出现或未出现为依据计算权重,再进一步的算法根据一个词出现的次数计算权重,但这些算法都不够精确,本文采用TF-IDF算法计算词权重[12]

一般的偏好分析是通过用户过去对一些item的喜好情况,计算出一个模型,根据此模型来预测一个新的item 用户是否喜欢。由于旅游项目类型数量有限,因此在传统偏好分析方法的基础是增加用户选择偏好的指标,这样可以避免一些新用户数据稀缺,无法计算偏好模型的问题。本文采用Rocchio算法计算用户偏好[14]

其中TF(wj,pi)表示pi评论中wj 词出现次数,n 表示评论数,nj表示出现wj 词的评论数。采用定理1 计算wji可能会出现偏差,一般需要归一化处理[13]

定理2: 评论pi中词wj的权重归一化计算公式如下:

3.2 Profile Learning

定理1 :TF-IDF(term frequency-inverse document frequency),即词频-逆文档频率,是一种衡量一个词对于一篇文章的重要程度的统计算法,其计算公式如下:

在保证剪叶器工作效率不低于120盘/h,即表中时间不高于30s的情况下,集叶率最高的为效果最好的,其R值即为设计的参考数据。从表1中看出,选定的R值应为82mm。

随着沥青砂浆厚度的增加,其孔隙率逐渐减小。当沥青砂浆厚度增加至8 cm后,孔隙率趋于稳定。这是由于沥青砂浆厚度增加,易于沥青砂浆流淌,填充密实。

3)根据预测出来的偏好对用户进行合理推荐。

工作室制具有“真实项目、真实环境、真正使用”的“三真”特性,即教学内容是基于真实的项目进行组织,教学环境应当模拟真实的企业环境,学习的成果能够推向社会真实使用[1]。电视制作类课程在项目设置、环境塑造和学习成果社会化等方面均容易实现,且从文献分析看,其成果也得到了很好的印证。

3.3 Recommendation Generation

根据Profile Learning 的结果,利用余弦相似度(Cosine similarity)计算各个item 的相似度[15],余弦相似度计算方法如下。

定理4 :Cosine similarity计算两个向量相关性

Cosine similarity 是把ωu 作为n-维坐标系中的一个向量,与item 的向量间夹角的余弦值即代表了相似度,两个向量余弦值越大,即夹角越小代表两个向量越相似,反之相似度越小。

根据定理4 循环计算所有item 的Cosine similarity,将Cosine similarity 结果最高的Top-K 个item推荐给用户。

部分教师在开展专业教学时,无论专业科目以及具体的课程主题为何,他们都会统一使用书本教育方式。即直接利用书本开展教育,一切知识点、重点以及实践经验都需要学生记录在书本中。学生在预习和复习时也只能以教材为核心,其拓展思维需求完全无法在教师思路闭塞的状态下得到满足。同时当部分学生认为自己可以开展专业自学时,也会在教师长期的思想干预下难以找到正确且高效的学习途径。

河口内测点含沙量无论大小潮均远大于外海测点含沙量,平均含沙量分别为0.07~0.1kg/m3(河口内)和0.004~0.04 kg/m3(外海)。

4 实验过程

为了获取实验测试评论数据集,采用网络爬虫提取,经过去重降噪处理后,最终获得20000 条景点评论数据,其数据结构如表2 所示。从数据集中随机抽取15000条数据进行实验训练,其余5000条数据用于测试,分别对协同过滤推荐算法、基于内容的推荐算法进行了实验。实验首先采用jieba 进行中文分词,再根据观点元素类别属性权重表进行观点分析、选取观点特征。在提取用户特征值时,可以根据数据集提取,也可以加入用户选定的特定特征。最后利用Cosine similarity 计算用户与评论之间的相关性,并将相关度最高的Top-K个item 推荐给用户。

表2 实验数据结构

5 实验结果及分析

协同过滤推荐算法与基于用户特定内容的推荐算法的实验结果在精度P、召回率R 及综合评价指标F对比如图3所示。

图3 实验结果PRF值对比

从图4 实验结果PRF 值对比可以看出,在景点评论的观点分析时,基于用户特定内容的推荐算法在P值、R值及F值等方面都有提升。

再将两种方法按照PR 及ROC 进行多次实验,结果如图4、图5所示。

图4 两种方法PR对比

从图4、图5实验结果可以看出,在根据评论进行景点推荐时,基于用户特定及内容的景点推荐算法在PR曲线、ROC曲线效果较好。

图5 两种方法ROC对比

6 结语

本文通过对协同过滤推荐算法及基于内容的推荐算法进行了分析,针对用户选择旅游景点的特征,提出一种基于用户特定内容的热门景点推荐模型,根据用户选择的特定特征,通过自建的旅游景点评论数据集提取评价观点集和用户特征,结合用户选择的特定特征生成用户特征集合,避免了新用户特征稀疏的问题,再根据评论观点和用户特征计算Cosine similarity,将相似度高的item 推荐给用户。通过实验结果表明,基于用户特定特征及内容的景点推荐模型研究方法较常见的协同过滤方法在准确率、召回率方面有所提升,PR及ROC曲线效果良好,同时,基于内容的推荐算法在用户独立性(User Independence)、可解释性(Transparency)、新的item 易推荐(New Item Problem)等方面都有较大优势。本研究的局限在于基于内容的推荐算法无法挖掘用户的潜在兴趣。

参考文献

[1]徐菊凤. 北京文化旅游:现状·难点·战略[J]. 人文地理,2003(05):84-88.XU Jufeng. The Cultural Tourism In Beijing:Status Quo·Difficulty·Strategy[J]. Human Geography,2003(05):84-88.

[2]俞锦梅. 数据挖掘在国内图书馆应用领域研究综述[J].图书与情报,2015(02):137-141.YU Jinmei. Overview of the Data Mining Application Research of Domestic Library[J]. Library & Information,2015(02):137-141.

[3]姜书浩,薛福亮.一种利用协同过滤预测和模糊相似性改进的基于内容的推荐方法[J]. 现代图书情报技术,2014(02):41-47.JIANG Shuhao,XUE Fuliang. An Improved Con-tent-based Recommendation Method Through Collaborative Predictions and Fuzzy Similari[J]. New Technology of Library and Information Service,2014(02):41-47.

[4]TABOADA M,BROOKE J,TOFILOSKI M,et al. Lexicon-based methods for entiment analysis[J].Computational Linguistics,2011,37(2):267-307.

[5]冷亚军,陆青,梁昌勇. 协同过滤推荐技术综述[J]. 模式识别与人工智能,2014,27(08):720-734.LENG Yajun,LU Qing,LIANG Changyong.Survey of Recommendation Based on Collaborative Filtering[J]. Pattern Recognition and Artificial Intelligence,2014,27(08):720-734.

[6]王伟军,宋梅青.一种面向用户偏好定向挖掘的协同过滤个性化推荐算法[J].现代图书情报技术,2014(06):25-32.WANG Weijun,SONG Qingmei. A Collaborative Filtering Personalized Recommendation Algorithm Through Directionally Mining Users'[J]. New Technology of Library and Information Service,2014(06):25-32.

[7]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions[J]. IEEE Trans. on Knowledge and Data Engineering,2005,17(6):734-749.

[8]Iván Cantador,Vallet D. Content-based recommendation in social tagging systems[C]//ACM Conference on Recommender Systems.ACM,2010:237-240.

[9]Aggarwal C C,Zhai C X. A Survey of Text Classification Algorithms[J]. 2012,45(3):429-455.

[10]Melucci M. Vector-Space Model[J]. Encyclopedia of Database Systems,2017.

[11]陈中华. 基于数据挖掘的图书推荐系统设计与实现[D]. 长沙:湖南大学,2018.CHEN Zhonghua. Design and Implementation of Book Recommendation System Based on Data Mining[D].Changsha:HUNAN Univercity,2018.

[12]Chen K,Zhang Z,Long J,et al. Turning from TF-IDF to TF-IGM for term weighting in text classification[J].Expert Systems with Applications,2016,66(C):245-260.

[13]张杰,陈怀新. 基于归一化词频贝叶斯模型的文本分类方法[J].计算机工程与设计,2016,37(3):799-802.ZHANG Jie,CHEN Huaixin. Normalized term frequency Bayes for text classification[J]. Computer Engineering and Design,2016,37(3):799-802.

[14]刘红光,马双刚,刘桂锋. 基于机器学习的专利文本分类算法研究综述[J]. 图书情报研究,2016(3):79-86.LIU Hongguang,MA Shuangguang,LIU Guifeng. A Review of Research on Patent Document Classification Algorithms Based On Machine Learning[J]. Library and Information Studies,2016(3):79-86.

[15]Hernandez A F R,Garcia N Y G. Distributed processing using cosine similarity for mapping Big Data in Hadoop[J]. IEEE Latin America Transactions,2016,14(6):2857-2861.

Research on Content-based Recommendations Model Based on User Specific Features for Scenic Spot

LI Chuan1 ZHANG Shaoru2
(1.College of Computing,Xi'an Aeronautical University,Xi'an 710077)(2.Health Science Center,Xi'an Jiaotong University,Xi'an 710061)

Abstract Aiming at the current needs of people's tourism and the difficulty in selecting tourist attractions,this paper proposes an content-based Recommendations model based on user specific features for scenic spot.According to the specific features of user selection,the evaluation view set and user feature set are extracted from the set of self-built tourist attractions review data set,and the user feature set is generated by combining the specific features selected by the user,to avoid the problem of the sparse feature of the new user,and then the Cosine similarity is calculated according to the comments and user features,and the item with high similarity to the user is recommended. The experiment shows that the research method based on the specific features and content of the user is better than the common collaborative filtering recommendations in the accuracy rate and recall rate,and the PR and ROC curves are good. And content-based recommendations is user independence,transparency and new item problem have greater advantages. The limitation of this research is that content-based recommendations can not mine the potential interests of users.The method has a good decision-making function for the tourist to choose the traveling target.

Key Words scenic spot,review,feature,cosine similarity

中图分类号 TP181

DOI: 10.3969/j.issn.1672-9722.2019.10.023

∗ 收稿日期 :2019年4月15日,

修回日期: 2019年5月11日

基金项目: 国家自然科学基金项目“基于GIS 的高校学生结核病防治管理体系及信息系统构建与应用研究”(编号:71373203);2016 年陕西省科技工业攻关基金项目“通用机载数据总线监控及测试技术研究”(编号:2016GY-139);2016年度西安航空学院校级科研基金项目“基于积差相关系数统计的OJ系统设计与研究”(编号:2016JS3223)资助。

作者简介: 李川,男,硕士,讲师,研究方向:软件算法理论、大数据分析。张少茹,女,博士研究生,教授,博士生导师,研究方向:慢性病、传染性疾病防治管理。

Class Number TP181

标签:;  ;  ;  ;  ;  ;  

基于用户特定特征及内容的景点推荐模型研究∗论文
下载Doc文档

猜你喜欢