文献资源主题向量表征方法分析及改进研究,本文主要内容关键词为:向量论文,表征论文,文献论文,方法论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2012-08-26
0 引言
基于内容过滤的个性化推荐系统是当前图书文献资源检索领域的一个发展方向。图书资源特征的表征一直是资源搜索和匹配研究的热点。
资源的表征,就是通过在资源描述文档中提取出能够表征资源的特征,并经过处理形成结构化的过程。可以通过文本分析技术完成。主题向量模型作为文本分析技术的分支,其建模过程通常称为“主题分析”,近年来无监督的主题分析中基于LDA的产生式概率主题模型,由于其参数简单,不产生过度拟合现象等优点,作为一个成熟的技术逐渐受到关注,运用和改良[1-3]。hLDA主题模型[4]和PAM[5]可以获得主题间的层次关系。有监督的主题模型sLDA[6]可以在类标签的监督下建立和预测更精确的主题。DDM模型是在LDA模型中引入了残差分量,加强了同类文本中的资源表征力度,更加适合当前图书文献资源表征的使用[7,8]。本文就是通过对DDM模型的分析,并提出一个改进的方法HDDM,来提高模型的表征力度。
1 DDM模型
定义1非监督机器学习LDA产生式概率主题模型,对于文本集D中的每一个文档,其生成过程如下:对每一篇文档,从主题分布中抽取一个主题;从上述被抽到的主题所对应的单词分布中抽取一个单词;重复上述过程直至遍历文档中的每一个单词。
其中,每篇文档与K个主题的一个多项式分布对应,将该多项式分布记为θ,每个主题与词汇表中的J个单词的一个多项式分布对应(称为词元空间),记为,词汇表中的单词都由文本集中的互异单词所构成,同时超参数α,β是作为隐变量约束θ和多项式分布的Dirichlet分布参数。分别可记为:θ~Dir(α)和φ~Dir(β)。每个主题和主题上的单词分布所形成的,是一个K×J矩阵,其中行向量表示主题,列向量表示词元,每行都表示某个主题在词元向量空间中的分布。LDA模型如图1表示。
图1 LDA模型图模型表示法
DDM模型在资源以受Dirichlet约束的主题向量表示的同时,引入了一个受Dirichlet约束的残差分量ψ将产生式3层概率模型转变成了4层概率模型,它由文档、主题、开关、词组成,其产生式过程与LDA的不同在于对于文本中的每一个词,先以一定的概率决定是产生自哪一个分量,若是主题分量,则与定义1中的步骤1,步骤2相同,若是残差分量,则从文档特殊词分布ψ中选择一个词。在LDA模型图中引入了一个开关变量概率分布λ~Dir(γ),和文档特殊词分布ψ~Dir(δ)。其DDM资源分解模型图如图2所示。
图2 DDM资源分解模型图
对于DDM模型的推导,基本也和LDA类似,采用Gibbs采样算法,通过对文献[3]给出公式的推导,文献[7]给出了DDM模型的目标概率分布函数,其主要采样开关变量x和主题变量z:
分别表示属于主题分量却分配给主题k的所有词的个数,当前文档d中属于主题分量和残差分量的总数和,当前文档d中被属于主题分量的个数,当前文档d中被属于残差分量的个数。
其基本思想就是利用已经采样到的所有的主题分布,各个文档的主题分布θ,开关分布λ和特殊词汇分布ψ来推断当前词w的所属那个分量和所属的主题。从(3)、(4)、(5)、(6)式中可以看出影响参数取值的为一个词分配到那个分量的概率,分别分配到主题分量和残差分量时所属于主题,和特殊词汇的概率。而由于一些中高频词汇在主题,残差分量和文档中的出现,会导致用于判别的特殊词汇分布ψ向中高频词倾斜,影响了一些重要低频词在残差分量中的作用。
2 词的幂律分布对DDM模型的影响
幂律的最显著特征就是,等级越高则越不均衡。其数学原理简单——幂律描述的是这样一组数据,其第n个位置的秩是第一个位置的秩的1/n。对于文本文档里的词频也符合幂律定律。由文献[7]的图3所示,Word ID为文档词汇按频率降序排列的序号,序号越前,在文档中出现的频率就越高,Zipf在文献[10]中对中英文单词集进行了研究,在证明词汇频率符合幂律分布的同时,给出了单词的分布律公式:
图3 三种类型词的统计学特征
根据图3,从统计学上来看,对于一个文本文档,主题分量一般用包含了语义信息的单词表示,其在文本中的出现频率较高,且对于一个文本集D来说,这些单词的出现频率也较高,这部分词称之为“主题相关词”;残差分量一般对应于文本中比较特别的词汇,其出现的频率在文本中相对比较低,且在整个文本集中出现的频率更低,这部分词称之为“文档特殊词”,另外就是一些出现频率很高,序号排前,但无法描述一个文本的内容意义的词汇,我们称之为“停用词”。
DDM模型的主要目的是区分同种类型文档,所以特殊词汇分布ψ的精确性是区分同类文档效果好坏的保证。Gibbs采样在去除停用词后对文档中词汇进行主题和特殊词的采样,而由于主题词汇在整个文档集D中的出现频率相对于特殊词汇要高的多,则一些频率低的特殊词会受到一些频率高的表征主题词的影响,比如说同样的讲述javaScript的书籍,对于用户来说,书本的作者,出版社是能区分同类书籍的特殊词,而这些能表征区分度的特殊词在文本文档集中的出现次数非常至少,且属于同类型书籍,主题词出现的频率几乎相同,所以在采样是,主题词归属于残差分量的概率也相同。假设通过采样以后,由于幂律分布的影响,一些主题词和特殊词同时被采样分类到了残差分量,文档1的特殊词采样次数,文档2的特殊词采样次数,其特殊词分布分别为,,其中z表示主题词下标,c表示特殊词下标,由于相对高频的主题词落入特殊词汇中,而低频的特殊词出现较少,权重过低,而导致这两个分布不能有很好的区分度。
3 HDDM模型
对于一个文档集,DDM模型平等的看待每个单词不考虑其权重问题,在采样的时候,以采样结果的出现数量作为推算参数的方法,使得参数的估算倾向于中高频词汇,而降低了在低频特殊词汇在判别中的作用。为了提高DDM模型中,残差分量的表征效果,减少相对高频的主题词落入特殊词汇,削弱对低频特殊词的影响,HDDM模型在进行采样时,对落入残差分量的词汇,进行特别的权重累加,提高低频词的权重,发挥低频词更能表征文档内容的优势,从而同种类型的文档可以通过特殊词分布更好的得到区分。提高文本书籍推荐的效果。
在无监督文本学习中,常用的TF-IDF进行特征加权,根据公式(2),只考虑单文本下的词频数,没有针对整个文本集,所以我们对TF-IDF公式进行调整:
HDDM模型的Gibbs抽样算法如下:
zi被初始化为1到T之间的某个随机变量,xi被初始化为1到2之间的随机变量,i从1循环到N,N为语料库中所有出现于文本中的单词记号个数。同时运用式(8)计算出文档d中每个词的权重,此为Markov链的初始状态。
i从1循环到N,根据(1),(2)将词汇分配给主题分量或残差分量,但采样一个词为残差分量时,将该词的权重由1变为W(t,d),获取Markov链的下一个状态,重新计算W(t,d)。
迭代第2步足够多次数,使Markov链接近目标分布。
最后根据式(6)在推理参数时,不再累加词出现的次数,而是累加词的权重。
4 试验验证
本实验选用了20NewsGroup的computer子集作为实验数据,表1所示。
应用于个性化推荐的改进,我们用查找资源的查准率作为系统性能的评价标准,查准率越高说明用户得到的推荐资源越接近于用户兴趣,评价公式如下。
实验中,我们先将资源文档进行HDDM模型和DDM模型的资源分解,并选取一个资源文档作为用户的兴趣方向,然后在数据文档集中进行匹配。同时将与该资源相关,相似的资源进行标记,作为推荐结果中判断个数的标准。其中Gibbs抽样算法的参数初始化设置如表2所示。
图4 HDDM模型和DDM模型的性能比较
图4揭示了实验的结果,HDDM模型提高了文本间残差分量的比较效果,相对于DDM模型,资源表述的力度更细,而使得文档推荐的精确度得到了提高,查准率提升。但随着主题描述力度的不断加大,主题分量已经能完全的区分文档,所以HDDM模型的性能会有所下降,以至于最终可能与DDM模型性能相似。
5 总结
本文利用改进的TF-IDF函数,设置DDM模型中残差分量采样的权重值,来解决对于同种类型文本之间的区分问题。通过TF-IDF函数,尽可能的消除词频幂律分布对采样结果的影响,改变了采样时的加权方法,提高了低频词在区分文本时的作用,通过实验验证,该改进能对个性化推荐系统提供一定的性能优化。