基于受控词表的医学资源社会化标签推荐研究,本文主要内容关键词为:词表论文,标签论文,医学论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
互联网的飞速发展使得Web2.0环境下的新兴标注方法——社会化标注在产业界得到了广泛应用,出现了诸如Delicious、Librarything、Flickr、Youtube、Twitter、豆瓣等众多新的应用与体验。用户不再只是被动地浏览网页,而且能够对互联网资源进行基于自身理解的个性化标注。作为一种集众智慧的体现,这种自由、实时、开放及共享的模式能够帮助系统更好地实现资源分类和共享,用户可以更有效地检索与分享资源。
但随着互联网资源指数级增长,社会化标注系统中标签的模糊性、多样性、非结构化以及语义关系不明等缺点,降低了用户使用标签的感受,不利于其高效、准确地获得资源。现有研究已经开始关注此方面的问题,研究者提出了标签推荐服务,既可简化用户的标注过程,又可确保标签词汇的规范性。针对此,学者提出了多种推荐算法,如基于矩阵的方法,对“标签-资源”矩阵进行LSA处理,并通过计算用户使用的资源与标注的标签之间的夹角余弦进行个性化推荐[1];基于聚类的推荐方法,对用户、标签和资源分别聚类,通过算法得到关联度,并依据聚类的结果为用户提供个性化推荐[2];基于图论的方法,将用户、标签、资源三者之间的联系看作一个无向图G=(V,E),基于图结构,重要用户标注重要标签,据此对标签进行排序得到新的符合用户需要的资源[1];基于标签概念空间的方法,借助标签本身的语义等级层次结构信息实现推荐[3]。这些方法多从已有标注的标签集合中考虑选择优质标签作为推荐,一定程度上受限于用户的标注行为。
受控词表通常有明确的语义关系和严谨的词法结构,以规范化、具有明确概念含义的叙词为基本成分,多用于标引、存储和检索。如果运用受控词表的优点改进用户标签的质量,实现基于受控词表的标签推荐,将具有重要意义。考虑到医学信息资源是大众关注的热点,有着广泛的用户基础和资源类型,本文立足于医学资源,基于受控词表和标签的不同特性,充分挖掘二者之间的相互联系,以建立两者之间的映射关系,构建社会化标签序化体系,旨在更好地实现标签导航,进而给用户提供更好的网络体验。
2 网络医学资源的类型划分与主题词分布
2.1 医学资源类型划分
网络医学信息资源规模庞大,通常情况下,用户查找医学网站更多关注于疾病、医生、医院、药物、医学文献等相关信息,但现有的网站缺乏这样的入口。当前大多数医学资源网站以资源的载体属性(如文本、图片、视频等)为依据对医学资源进行分类,如临床智库、医学多媒体;一些网站依据学科类目如内科、外科、中医、临床等对资源分类,如医学堂、红叶医学网等。这些医学资源网站分类单一,用户检索入口点少、类目的页面层级较深,从而影响着用户对资源的存取效率。
为更好地服务于用户使用,论文对网络医学资源进行再组织,按照用户常关注点、疾病所属学科领域(《中国分类主题词表》中医学大类)两个维度将医学资源描述成二维矩阵,如表1所示,用户可以从以下任意入口中找到自己关注的资源。
2.2 主题词的分布
论文选用《中国分类主题词表》作为主题词来源,其将医学类分为18个大类,所有类目所对应的主题词有16 248个,其中有非重复词频的词语8253个。图1是各类目下主题词数目曲线。一定意义上,词频高的主题词表明其与其他词组合起来联合表示复合主题的频率较高,被用以标引的次数相应上升。其中频次超过10次以上的主题词有184个,如肿瘤、外科手术、损伤等,分布在不同类目级别下,绝大多数词仅出现一次。考虑到三级类目具体明确,我们将三级类目以下的主题词直接归入到三级类目,只提供三级类目供用户选择。
图1 各类目下主题词数量曲线
3 基于主题词表的医学资源社会化标签推荐模型构建
3.1 四元组标注模型
用户对上载的资源进行标注时,系统会提供资源所属的疾病、医生、医院、药物、医学文献、学科等类型供用户选择,依此系统向用户推荐相关度高的标签,将原有的“用户-标签-资源”三元组的社会标注系统模型[4.5]转换成一个“用户-分类-标签-资源”四元组的半社会性标注模型,使原有无序的标签在类目控制下具有了层次性和结构性,同时方便用户的浏览。
为了方便描述,我们将四元组转化成“用户-类目”、“类目-标签-资源”两个多元组的组合,用户添加资源名后首先要进行关注点选择,确定该资源所属的关注维度;系统解析用户添加的资源名后,推荐资源所对应的三级类名供用户选择,并将该类目下的标签与主题词推荐给用户使用。
3.2 主题词与标签的映射
标签系统中,资源名与标签已建立了关联,因此需借助于资源名,将标签与主题词建立映射。如果含有主题词的资源与所标的标签的共现频率较高,则建立标签与主题词的映射。推荐系统中有资源集R,标签集T和主题词集W,当标签标注了资源r,资源r中包含了主题词,则认为主题词和标签共现一次,记为1,否则记为0,可设函数,通过函数统计共现频次可得如下共现矩阵,如公式(1)所示:
对矩阵进行归一化处理,IDF(t)表示标签t在资源集R中出现的次数[6],矩阵变形为主题词w与标签t共现次数在n(t)中占比。
给定阈值ε,其取值范围是[0,1],当p(t,w)≥ε,则认为标签和主题词是关系紧密,p(t,w)的值越大关系越紧密,标签就可以直接归入主题词所在的类目。由此可将满足阈值要求的标签划分到对应的三级主题词类目,构建出主题词与标签的映射关系,同时每一个类目都有相应的词汇集合。
选用豆丁网中医学\心理学的资源及标签集[7],该数据集包括资源13 510个,标签100 000多个,示例中选择资源378个,标签2620个,经过去重和降噪后剩余有效标签829个,根据共现次数,利用公式(1),得到如表2所示矩阵,进行归一化处理后,通过公式(2)计算得到表3。
选择临界值ε=0.1,得到标签和主题词共现并且关系密切的集合,根据表3中数据,此集合包括3个主题词{外科学,外科手术,应用}、6个标签{外科,手术,临床,外科学,医学,医院},都被划入外科学各论这个三级类目下,构建主题词和标签的映射集。
图2 四元组标注模型
3.3 标签聚类
社会化标注系统中,对同一资源,被标注的可能是不同的标签,这些标签语义上应该是相近的[8]。如果依据语义相近度对标签进行聚类,标签集将分成若干称为簇(Cluster)的子集,每个簇中的标签具有较大的相似性,簇之间的标签具有较小的相似性[9]。依照标签在资源中出现的频次,采用向量表示,根据豆丁医学中采集的数据,统计得到标签的向量表示如表4所示。
依此建立相似度矩阵,如表5。
运用SPSS聚类,限定簇下10个以上标签为满足条件的聚类,剔除离散标签,得到聚类标签集合,如表6所示:
3.4 标签映射集的扩充
根据表3得到一个主题词标签的映射集{外科学,外科手术,应用、外科,手术,临床,医学,医院},利用公式(4)与公式(5),求得簇和映射集合共现系数,如表7。
令λ=0.1,对比上述表的结果,满足条件θ≥λ的有簇1和簇3,根据文中提到的算法,把簇1和簇3与主题词标签映射集一同并入这些主题词所在三级类目,组成标签集。
3.5 标签推荐
通常标签的使用频率越高,标签越重要。考虑到每个类目下的主题词数量较多,需按照共现率、标签频率的排序,选用大于一定阈值范围的标签集进行推荐。
根据上文中的示例,解析到资源名中出现“外科学”的时候,依据表3的结果,将匹配的wt={外科、临床、医学、医院}和关键词“外科学”都作为推荐候选词。在该类目下,选择中标签tt的使用频率η在前15位的标签,最终得到的标签推荐列表如图3所示。
图3 推荐列表list
4 实验分析
社会化标注系统本身是一个扁平的系统[10],结合分类主题词表的类目关系,构建一个多维度的标签体系结构,具有重要的价值。考虑到目前还没有基于社会化标签算法方面的测试集,笔者将从豆丁网上获得的外科学资源,每30个作为一个样本,随机选取十个样本作为系统要推荐标签的测试集。对于资源r,R(r)为解析资源名中的关键字word得到的标签推荐列表;T(r)表示该测试集中资源r实际被标注的标签集合。然后,利用准确率(precision)和召回率(recall)评测这种基于受控词的标签推荐算法的精度[11]。
将以上统计进行10次,每次选择不同的样本测试集,然后将十次的准确率和召回率的平均值作为最终的评测结果。样本标签分布情况如表8所示。
对论文所提到的受控半社会标注模型及其直接利用标签相似性聚类两种方式对测试集进行试验,对比准确率和召回率,检测本文算法的精度。表9表示受控标注模型和相似聚类两种方法下10个测试集的平均评价指标值。
表9的实验数据显示,本文提出的受控标注模型及推荐算法是有效和可靠的,通过结构化的社会标注,扩充了类目中的标签集,实验结果表明各项指标都有提高。但是,现实模型中标签的推荐有赖于资源名与主题词的匹配度,对于出现频率较低、非专业类标签(如人名、地名),就会缺少被匹配到的机会,这在一定程度上影响着该模型的准确率和召回率。但当用户采用细分类目标注资源的数量增大时,将更能体现受控标注模型的优越性。
5 总结
本文提出基于受控词表的社会化标签推荐模型,是利用《中国分类主题词表》严格的类目层级关系作为标签和主题词映射的纽带,以实现标签的结构化。实验表明,在资源、标签集较大的情况下,这种方式能够较为准确地为用户推荐需要的标签。本文不足之处在于并没有对所涉及的算法与基于内容的推荐或协同推荐进行对比分析;对于标签聚类下冗余标签的处理和已有标签在推荐模型中稀疏性问题,也没有阐述。随着大众分类在标签推荐系统中的广泛应用与深度研究,利用语义本体序化标签,将会使标签的结构化和稀疏性问题得到进一步改善,这都是标签推荐下一步需要进行的研究。