推荐系统中word2vec的拓展应用论文_黄腾玉

推荐系统中word2vec的拓展应用论文_黄腾玉

中国人民大学在职研究生

摘要:推荐系统是互联网时代高效分发内容的必备利器,word2vec技术是现代推荐系统的基础技术之一。对原始word2vec技术的充分使用,结合业务需求的拓展改进如跨域嵌入表示技术、物品属性嵌入表示技术,以及处于整体考量的嵌入表示融合技术,在推荐系统中得到了广泛使用,是现代推荐系统的创新做法和核心技术。

关键词:推荐系统;用户行为;word2vec;协同过滤

一、推荐系统的作用和意义

推荐系统能够帮助企业解决信息过载的问题。随着互联网内容的极速增长和丰富,如何帮助用户快速找到需要的物品,成为对企业至关重要的问题。推荐系统通过用户行为分析,建立用户画像,经过召回和排序阶段,为用户推荐个性化的、符合用户需求的物品,实现千人千面的物品推广。推荐系统能够帮助企业个性化地高效分发物品,提升用户消费意愿,为企业创造商业价值,已经在工业界得到大规模应用。推荐系统的本质是预测填充用户-物品交互矩阵,对用户行为的分析和使用是推荐系统的核心。

二、推荐系统的实现方案

(一)传统解决方案

推荐系统由多种实现方案。基于用户行为的协同过滤技术是应用最为广泛而且效果很好的做法,它包括基于物品的协同过滤和基于用户的协同过滤。基于用户的协同过滤假设相似的用户会喜欢相似的物品,由于计算量巨大,较少应用。基于物品的协同过滤假设用户喜欢与之前喜欢的物品相关的物品,核心在于挖掘准确合理的相关物品。相关物品的挖掘过程,是描述物品、定义相关性并搜索匹配的过程。基于点击二分图的相关物品挖掘,是基于用户行为的常用相关物品挖掘算法。基于点击二分图的相关物品挖掘,通过收集用户对物品的点击关系,建立用户-物品的点击二分图,使用点击物品的用户集合描述物品,使用两个物品对应的用户集合的相似度衡量相关性,进而通过相互匹配物品,构建相关物品关系。

(二)基于word2vec的解决方案

Word2vec是自然语言处理领域中成熟的词语嵌入表示技术,在推荐系统中得到广泛应用。通常自然语言处理的基本单位是词语,对词语语义的表示至关重要。传统做法使用one-hot方式表示词语,由于词语数量众多,one-hot的表达在空间和语义上存在冗余,不仅维度非常高,而且无法描述两个词语的相似度。*提出了word2vec技术,初步解决了这个问题。在给定足够多的句子,预处理得到词语序列后,word2vec可以通过训练,得到每个词语的低维稠密表示向量,称为词向量。语义相关的词语,它们的词向量也是相似的,即该低维向量可以描述词语的相关性。Word2vec的核心是关注词语序列的局部上下文,使用当前词语的上下文预测该词语(cbow),或者使用该词语预测上下文(skip-gram),经过在大量语料上的多次迭代,借助误差反向传导技术,反复更新调整词向量等参数,最终得到准确的词向量表示。

(三)word2vec在推荐中的应用原理

Word2vec技术在推荐系统中得到应用。因为语义相关的词语,它们的词向量相似,所以根据一个词语的词向量,通过向量匹配,可以召回相关的词语。相关词语的召回过程,为推荐系统中相关词语的召回过程带来启发。参照word2vec在自然语言领域中的应用,在推荐系统中,把用户行为中的物品序列视为词语序列,把物品视为词语,�收集大量用户行为日志视为足够语料,使用word2vec技术,训练得到每个物品的嵌入表示向量,称为物品向量。相关的物品,它们的物品向量也是相似的。因此通过两两计算物品向量的相似度,就可以得到物品的相关性,进而可以建立相关物品关系,用于个性化的召回和推荐。基于word2vec的相关物品构建方法,是一种无监督学习方法,仅需要大量的用户-物品交互行为日志作为输入,就可以得到物品的相关关系。其本质是基于用户短时间内的物品交互行为,是受用户的某些兴趣驱动的,因此交互的物品存在一定相关性。

随着推荐系统的发展,word2vec技术在推荐系统中得到了越来越广泛的应用。电商领域的商品、资讯领域的文章、视频领域的视频都被视为物品,通过大量用户日志训练得到物品表示,进而推荐相关物品。正所谓万物皆可嵌入表示,其在推荐系统中的应用十分广泛。同时,在推荐领域中,对word2vec技术的使用也不仅限于上述做法,有许多拓展改进和深入应用。其中,跨域嵌入表示技术、物品属性嵌入表示技术、嵌入表示融合技术是重要技术。

期刊文章分类查询,尽在期刊图书馆

三、word2vec在推荐中的拓展应用

(一)跨域嵌入表示技术

跨域嵌入表示技术可以统一嵌入表示不同领域的物品,解决了不同领域的物品向量表示不在同一个空间里从而不存在语义相关性的问题。在推荐系统中,我们的目标是推荐某一种物品,常见做法是收集用户对该种物品的交互行为日志,使用word2vec技术构建相关物品关系,对用户进行推荐。但通常用户在企业平台上会与多种物品产生交互,用户对其他种类物品的交互数据也能表达用户的兴趣和需求,但这部分数据通常没有使用起来。比如在资讯平台中为用户推荐商品,传统做法仅使用用户对商品的交互行为,但由于在资讯平台中用户对商品的交互行为较少,对资讯的交互行为日志更加充足,因此可以把用户对资讯的交互行为使用起来。如果对商品和资讯单独训练商品向量和资讯向量,由于两种向量不在同一个空间中,无法统计向量相似度衡量语义相关性,也就无法构建召回用于推荐。跨域嵌入表示技术的创新之处,是把用户对商品和资讯的交互行为混合起来,同等看到商品和资讯,把商品和资讯视为同一种物品,这样训练得到的物品向量就在同一个空间中,根据用户的资讯交互行为就能够召回商品。总的来说,跨域嵌入表示技术,是拓展了物品领域和种类,同等看待不同领域的物品,把用户对不同领域的物品交互日志混合起来,用于训练物品向量,从而使不同领域的物品在同一个空间中,充分利用用户行为,提升推荐系统的性能。

(二)属性嵌入表示技术

物品属性嵌入表示技术能够为物品的属性赋予嵌入表示,能够从更多角度召回相关物品,并且有效解决冷启动问题。传统的word2vec技术只能得到物品向量,无法有效使用物品的已知静态属性数据,如物品的标签。如果能够得到相同空间中物品的标签向量,那么标签向量也可以用于构建召回,从而实现从更多角度为用户召回相关物品。同时如果不重新进行训练,传统word2vec技术无法得到新物品的向量,但如果能够得到物品的属性向量,那么就可以使用新物品的属性向量进行召回,从而很好地解决冷启动问题。以skip-gram为例,物品属性嵌入表示技术的创新之处,在于使用当前物品和其属性预测上下文中的其他物品,误差反向传导时,不仅更新当前物品的物品向量,也更新当前物品的属性向量,经过反复迭代更新,最终得到物品向量和属性向量。仍以标签为例,一种简单的做法是把物品的所有标签向量取平均,加上物品向量,预测该物品的上下文中的其他物品,最终得到标签向量后,标签向量与物品向量的相似度,也可以度量标签与物品的相关性,可用于构建推荐召回。物品属性嵌入表示,把嵌入表示从物品自身拓展到了物品的属性,从更多角度丰富了召回,也有效地解决了冷启动问题。

(三)嵌入表示融合技术

嵌入表示融合技术能够融合多个物品的物品向量,作为一个用户的兴趣表示,直接为用户召回相关物品。传统做法是根据用户之前喜欢的物品召回相似的物品,但这种基于单个物品的召回缺乏整体考量,用户之前喜欢的物品之间存在隐含关系,用户喜欢的是其中的共通点。简单的嵌入表示融合技术如取平均也是有效的,但不能区分不同物品的重要程度。近来注意力机制在自然语言处理领域中广泛应用,具有强大的序列特征提取能力。受此启发,嵌入表示融合技术使用注意力机制,把用户交互的物品向量序列作为输入,抽取序列的兴趣向量,作为用户兴趣表示,用于召回用户感兴趣的物品。用户兴趣表示与物品向量在同一个向量空间中的原因是训练目标是用户兴趣表示与用户喜欢的物品一致。借助于注意力机制,嵌入表示融合技术把单个物品向量的使用拓展到了物品向量序列,能够综合考虑用户行为序列,有效利用用户交互的物品序列中物品之间的相互关系,提取主要的共通兴趣表示,作为用户的兴趣表示,为用户召回更加精准的相关物品。

推荐系统是互联网时代高效分发内容的必备利器,word2vec技术是现代推荐系统的基础技术之一。对原始word2vec技术的充分使用,结合业务需求的拓展改进如跨域嵌入表示技术、物品属性嵌入表示技术,以及处于整体考量的嵌入表示融合技术,在推荐系统中得到了广泛使用,是现代推荐系统的创新做法和核心技术。掌握这些技术并灵活使用,对高效分发内容、创造商业价值有巨大帮助。

参考文献:

[1].Mikolov,Tomas,et al."Distributed Representations of Words and Phrases and their Compositionality." Advances in Neural Information Processing Systems 26(2013):3111-3119.

[2].Joulin,Armand,et al."Bag of Tricks for Efficient Text Classification."(2016).

[3].Barkan,Oren,and N.Koenigstein."Item2Vec:Neural Item Embedding for Collaborative Filtering."(2016).

[4]Grover,Aditya,and J.Leskovec."node2vec:Scalable Feature Learning for Networks."(2016).

论文作者:黄腾玉

论文发表刊物:《基层建设》2019年第23期

论文发表时间:2019/11/7

标签:;  ;  ;  ;  ;  ;  ;  ;  

推荐系统中word2vec的拓展应用论文_黄腾玉
下载Doc文档

猜你喜欢