(河北大学管理学院,河北 保定 071002)
摘要:进入大数据时代以来,个性化推荐算法一直备受关注,不仅解决了信息过载的问题,而且从海量数据中挖掘很多有用的信息。当下,用不同的方法对用户的兴趣进行挖掘,通过对当前个性化推荐算法中用户兴趣偏好的文献进行归类分析,并提出其不足之处与改进的方向,为后续个性化推荐算法的研究提供理论参考。
关键词:个性化推荐;兴趣偏好;研究综述
个性化推荐,就是要根据用户的兴趣偏好向其推荐感兴趣的产品,因此挖掘用户的兴趣偏好是推荐算法的关键。传统协同过滤推荐算法的核心思想通过计算用户评分数据间的相似性作为评判用户兴趣相似的标准,主要采用Pearson相关系数、余弦相似度或改进的余弦相似度等度量标准,但仅仅依靠评分间的相似性不足以充分发现用户的兴趣所在。例如贾冬艳等人[1]在传统协同过滤推荐的基础上将用户间评分相似度的均值设定为阈值,将大于阈值的评分用户作为目标用户的兴趣相似用户。该方法解决了传统KNN算法的不足,虽然较传统方法提高了兴趣相似用户推荐的精度,但同样未真正挖掘用户的兴趣。
分析现有的研究,主要通过以下两方面来表现用户兴趣偏好:一是基于项目属性聚类确定用户的兴趣类别;二是通过LDA主题模型,随着LDA模型在文本挖掘研究的兴起,该模型也被延伸到个性化推荐领域,挖掘用户的兴趣偏好,改善推荐算法的精度。
1 聚类之兴趣挖掘
聚类分析是机器学习和多元统计分析中一种典型的分析方法,较为常用的实现算法有K-means算法、模糊C均值聚类算法(fuzzy C-means)等。在推荐系统中用聚类算法来获得用户的兴趣,主要是通过对项目属性聚类来实现。张莉等人[2]在基于用户聚类的协同过滤推荐的基础上,根据项目属性进行聚类确定用户的兴趣类别,并以此计算用户的活跃度,但因为算法涉及到对用户兴趣的评分项目的统计,因此增加了算法的时间复杂性,虽然不影响推荐的实时更新,但更新复杂。段元波等人[3]的研究中根据项目所属项目类别中的0-1矩阵,得到所有类别下用户评分项目的比例及各评分级别的比例,由占比高的评分级别作为用户对该项目类别的偏好,从用户评分偏置和用户项目类型偏好综合建立用户的兴趣模型。谭晋秀等人[4]依据K均值(K-means)算法发现用户关注的话题。采用K-means算法进行聚类中,K值的选择需要事先给定,同时初始聚类中心的选择会对聚类的结果产生影响,虽然这些问题可以通过多次实验进行优化来解决,但随着项目及其属性信息的更新需要不断的重复上述优化过程,会使得算法的时间复杂度不断增加,因此,在大数据背景下,通过该算法进行用户兴趣选择的实用性不强。
除了采用K-means算法进行兴趣提取,也有的研究采用模糊C均值聚类算法。郭弘毅等人[5]用重叠社区发现算法将用户集合根据其社交网络结构进行划分,于同一社区内的用户存在相同的特性或相互影响,在此基础上采用模糊C均值聚类算法,利用用户的行为记录以及项目所属的类别,寻找与目标用户在泛化层面的兴趣偏好相似的用户集合,提出基于兴趣偏好的模糊聚类算法。Katarya和Verma [6]提出FCM算法,其是在K-means算法的基础上加以改进得到的,虽然性能更好,但在算法的初期同样需要设定一些参数,并且若参数的初始化选取不合适,也会直接影响聚类的效果。同时当数据集较大时,其实时性不能得到保证。
现如今是大数据的时代,面对海量数据,通过聚类分析获取用户的兴趣偏好其实时性更是不能得到保障。
2 LDA模型之兴趣挖掘
LDA(Latent Dirichlet Allocation)模型是于2003年由Blei等人[7]提出的一种三层贝叶斯概率模型,也叫做隐含狄利克雷分布,该模型能够很好的挖掘文本的主题分布。最近,LDA模型也被运用到推荐系统中以挖掘用户的潜在兴趣偏好。
在现有算法中主要从两个角度进行研究。其一是用LDA模型来评估文本以获得推荐系统的额外信息。文献8中首次利用LDA模型从产品评论中挖掘用户的兴趣,然后结合矩阵分解模型来预测未知的项目评分。J & S等人[9]利用LDA模型从文本描述中推断项目的潜在特性,然后根据历史评分在相同的潜在主题空间中计算用户的偏好。在李慧等人[10]的研究中用LDA模型来挖掘博文的主题分布,得到博主之间的偏好相似性。Wang & Luo [11]采用随机选取和最长评论选取两种方法选取一篇用户评论文本,用LDA挖掘用户关注的项目特征。然后将根据用户关注项目特征得到的用户间相似性和基于用户的协同过滤方法得到的用户间相似性综合考虑,实现用户对项目的评分预测。张桂平等人[12]通过计算用户评分高的文档对应各主题的平均值得到用户对主题的偏好情况,考虑用户近期偏好行为,融合近期文档评分间的相似性实现文档推荐。黄璐等人[13]运用用户标签信息和应用的标签信息于LDA模型中,利用概率矩阵分解模型推荐准确率较高的优点,与LDA模型相结合,提出LDA_MF算法,同时也提出将LDA与用户行为相结合的方法。在提出的两种LDA模型之后,用逻辑回归的方法将结果与传统基于项目的协同过滤方法的结果融合在一起综合考虑,使得推荐的准确率和推荐的多样性都得到了有效的提高。但是,这些方法依赖于附加的文本信息,不能应用于没有文本数据的情况。
其二是使用LDA模型进行协同过滤,发现用户对潜在主题的偏好。文献[14]通过使用LDA模型来挖掘用户的兴趣,提高了协同过滤的推荐精度。文献[15]使用LDA模型来学习用户评价项目的概率。这些方法都很容易融合到协同过滤中。上述的方法捕获了用户和项目之间的隐藏关系。由于某些项目之间存在潜在的相关性,因此这些项目会一起出现。最著名的就是啤酒和尿布的例子,虽然啤酒和尿布之间没有直接的联系,但超市却发现买尿布的人同时也会购买啤酒。我们采用概率模型来挖掘商品之间的潜在关联。
LDA模型的主要缺点是没有考虑评分信息对推荐系统的影响。这些模型仅考虑了用户是否购买产品,却忽略了重要的评分因素信息。因此,这些模型不能推断它们的评分分布。为了解决该问题,文献[14]在使用LDA模型后,扩展使用皮尔逊相关系数来预测评分,然而评分的准确性严重依赖近邻的个数。同样,文献[15]通过使用奇异值分解来预测评分,提出了混合主题模型和矩阵分解的方法(HTMMF)。这种方法在第一步通过使用评分行为模拟用户生成评分来改进LDA模型,然而,这一步不考虑评分信息,相反,评分预测完全取决于第二步的奇异值分解模型。在廉涛等人[16]研究中将用户视为文档,评价过的项目视为词,把用户对项目的评分转化为该用户表示中项目的个数,进而挖掘主题,其概率图如图1所示。Zhou等人[17]基于用户的选择不仅受自己兴趣的影响,也受其他用户评分或潮流趋势的影响,提出将评分信息添加到LDA模型,同时考虑项目和对应项目的评分来挖掘用户的兴趣(如图2所示),相似兴趣下,项目得到高评分的比例越大越受欢迎。
图 1 LDA_CF模型
图 2 RLDA模型
3 总结
为了能够更加精准的挖掘用户的兴趣偏好,在传统评分兴趣相似性方法的基础上,通过考虑聚类和主题模型的方法实现改进,目前推荐算法中关于用户兴趣偏好的研究仍在不断的研究中,并将用户兴趣和社交关系相融合,以实现更精准的推荐。
参考文献
[1] 贾冬艳,张付志.基于双重邻居选取策略的协同过滤推荐算法 [J].计算机研究与发展,2013(05):1076-1084.
[2] 张莉,秦桃,滕丕强.一种改进的基于用户聚类的协同过滤算法 [J].情报科学,2014(10):24-27+32.
[3] 高茂庭,段元波.结合用户聚类和评分偏好的推荐算法[J].计算机应用研究,2018(08):1-7.
[4] 谭晋秀,何跃.基于k_means文本聚类的新浪微博个性化博文推荐研究[J].情报科学,2016(04):74-79.
[5] 郭弘毅,刘功申,苏波,等.融合社区结构和兴趣聚类的协同过滤推荐算法[J].计算机研究与发展,2016,53(8):1664-1672.
[6] Katarya R, Verma O P. An effective web page recommender system with fuzzy c-mean clustering[J]. Multimedia Tools & Applications, 2016: 1-16.
[7] Blei D M, Ng A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3): 993-1022.
[8] J. Mc Auley, J. Leskovec, in: Hidden Factors and Hidden Topics: Understanding Rating Dimensions with Review Text, ACM Press, 2013, pp. 165–172, doi:10. 1145/2507157.2507163.
[9] J. Wilson , S. Chaudhury , B. Lall , P. Kapadia , Improving collaborative filtering based recommenders using topic modelling, in: Presented at the Web nce, Washington, DC, USA, IEEE Computer Society, 2014, pp. 340–346.
[10] 李慧,马小平,施珺,仲兆满,蔡虹. 结合信任度与社会网络关系分析的微博推荐方法研
究[J]. 中文信息学报,2017,31(02):146-153.
[11] H Wang, N Luo. Utilizing user interest profile built by user reviews topic modeling to improve user based collaborative filtering [J]. Computational Intelligence and Industrial Engineering,2014,99:273-281.
[12] 张桂平,翟顺龙,王裴岩. 一种融合用户主题兴趣与用户行为的文档推荐方法[J]. 中文信息学报,2017,31(03):147-155.
[13] 黄璐, 林川杰, 何军,等. 融合主题模型和协同过滤的多样化移动应用推荐[J]. 软件学报, 2017, 28(3):708-720.
[14] Q. Liu, E.H. Chen, H. Xiong, C.H.Q. Ding, J. Chen, Enhancing collaborative filtering by user interest expansion via personalized ranking, IEEE Trans. Syst. Man Cybern. Part B Cybern. 42(2012)218-233, doi: 10.1109/TSMCB.2011.2163711.
[15] X. Zhao, Z. Niu, W. Chen, C. Shi, K. Niu, D. Liu, A hybrid approach of topic model and matrix factorization based on two-step recommendation framework, J. Intell. Inf. Syst. 44(2015)335-353, doi: 10.1007/s10844-014-0334-3.
[16] 廉涛, 马军, 王帅强,等. LDA-CF:一种混合协同过滤方法[J]. 中文信息学报, 2014, 28(2):129-135.
[17] X Zhou,S Wu. Rating LDA model for collaborative filtering[J]. Knowledge-Based Systems. 2016,110:135-143
作者简介:王亚文(1993-),女,硕士,在读研究生,主要研究方向:数据挖掘、个性化推荐。
论文作者:王亚文
论文发表刊物:《知识-力量》2018年10月上
论文发表时间:2018/9/27
标签:用户论文; 算法论文; 兴趣论文; 模型论文; 评分论文; 项目论文; 等人论文; 《知识-力量》2018年10月上论文;