社会化标签质量评价研究综述_语义分析论文

社会化标签质量评估研究综述,本文主要内容关键词为:标签论文,质量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G350 收修改稿日期:2013-09-13

1 引言

社会化标注系统为互联网用户提供了一个便捷的资源描述方式。社会化标签融合了大众智慧,已有研究表明社会化标签对Web页面的浏览、组织与索引非常有效[1]。目前有不少学者利用社会化标签特性,将其用于Web资源的自动分类、信息检索、信息推荐等不同应用场合,取得了很好的效果[2-4]。与使用受控词汇来组织资源的方式不同,基于社会化标签的数字资源标注和组织资源的方式,成本小并且易扩展。由于互联网用户使用的社会化标签多采取自由标引方式,部分标签并不能有效地揭示资源的内容或主题,同时在不同的应用场合用户需要不同的标签类型,因此对标签质量的定义也有所差别。社会化标签的质量问题已成为影响其应用效果的重要因素之一,常见的低质量标签包括:过于个性化的标签、泛滥的垃圾标签和缺乏语义控制的冗余标签等。低质量的标签干扰了社会化标注系统中资源组织的秩序,降低了标签在应用场合中的质量和用户满意度。例如,在利用社会化标签辅助Web页面自动标引时标签质量问题会对标引质量产生影响[5]。

2 研究背景

2.1 社会化标签质量问题的产生背景

社会化标签通常由用户自由标引产生,采用的是非受控词汇,由于用户可以从各个不同的角度对资源进行标注,生成了各种类型的标签,在实际应用中用户需要不同类型的标签,并且在不同标签类型中存在许多标签质量问题,有很多低质量标签的存在。需要通过标签进行资源的组织和检索,与资源相关的主题性标签才是需要的高质量社会化标签。低质量标签是指“一些用户生成的标签是正常用户不愿意分享的或者是引起用户检索出错误结果的标签”[6]。具体来说,社会化标注中存在如下问题[7]:

(1)标注用户本身的标注行为导致的质量问题

①标注过于主观:某些标签与被标记的网络资源可能没有语义上的关系,只是用户随意标注的结果。标签过于主观或者个性化,不利于标注资源的共享。例如“read in 2012”和“unread”等标签被用户用于记录某本书的阅读时间或者是阅读状态。

②拼写错误:通常为用户粗心导致的单词书写错误。如“official”误写为“offical”。

③垃圾标签现象:通常为用户标注的资源和所给标签是用户人为标注的一些无意义的词语。例如新浪微博上“电话1860054****”、“qq84608****”。

(2)标注系统缺乏语义规范导致的质量问题

①多义词标注问题:由于非受控词汇的歧义性和多义性,同一个标签可能会有许多截然不同的意思,这导致了标签含义的不确定性。例如“tiger”这个标签被用户用于标注网络上有关老虎的资源,而又被另外一些用户用来标记高尔夫球员老虎·伍兹。

②同义词标注问题:由于同一个意思可以用不同形式的词语表示,加之词语时态和语态上的变化,以及一些上下位关系词的存在,会产生许多冗余标签,例如像“blog”和“weblog”、“interested”和“interesting”,都属于同义词。

为了解决上述标签质量问题,需要有效的标签质量评估方法,在实际应用中,尽量使用质量较好的标签,以提高其实际应用效果。

2.2 社会化标签质量评估的问题界定

通过上述分析可以看出,用户对资源的标注结果中存在很多问题,包括由于标注用户本身的原因导致的,也包括由于标注系统缺乏语义规范控制导致的,所以需要进行标签质量的评估,从用户的标注结果中选择出符合用户需要的标签,即为高质量的标签。由于在不同应用场合用户的标注动机不同,需要不同的标签类型,因此需要有针对性地选择出用户需要的标签类型①,基于此对选择出来的标签进行质量评估,生成高质量的标签。但是基于用户的标注动机的不同,对标签质量的界定也就不同,因此应该结合语境和语用进行标签质量评估,不能笼统地认为标签只分为高质量的标签和低质量的标签,对同一个标签不同的用户会有不同的质量判定,所以在进行标签质量的评估中需要进行分级判定,选择出高级数的标签,即为满足大部分用户的高质量标签。

3 标签质量评估研究总结

3.1 标签质量评估研究概述

首先对现有的研究中,社会化标签质量评估涉及到的媒体类型、语种和使用的语料规模进行统计,从中发现现有研究对象的特点,并对其中存在的问题进行分析。其中,语料规模是指现有研究中进行标签质量评估所使用的评估对象类型和数量,通过文献调研,对标签质量评估的媒体类型、语种和语料规模统计如表1所示:

从上述总结中可以发现,现有的对标签质量评估主要集中在文本类型的资源中,例如图书、URL、论文等,而对于视频、图片、音乐等非文本类型的资源少有此类研究;对标签质量研究中主要对英文标签进行评估,而对于中文等其他语种资源的评估缺乏;在标签质量评估中都是基于固定数量的语料规模进行,进而就不能确保所利用质量评估方法普遍适用。因此,在以后的标签质量研究中应该针对这些问题进行更加深入的研究。

3.2 标签质量评估方法分类

鉴于标签存在上述的问题,近年来,标签质量评估研究逐步引起学术界的重视。本文对这些研究工作进行系统梳理,将标签质量评估方法进行了划分。标签质量评估方法总体上可以分为人工评价和自动评价两类方法。其中:人工评价方法是在用户参与下通过人工评估系统进行;自动评价可以从无参照评估和有参照评估两个方面进行,自动评价方法既可以只通过标签自身进行无参照评价,也可以将标签和其他的资源结合进行评估。标签质量评估的分类结果、不同方法所依据的资源、评估方法或者使用到的评价指标等关键信息如表2所示。

本文首先对各种代表性方法进行概述,然后对其进行比较分析。

(1)不同的标签质量评估方法概述

①利用人工评价来评估标签的质量。代表性工作为:Lee等、Sen等依据用户在线评价结果,对标签质量进行评估。其中:2007年,Lee等[8]对标注资源已有标签添加支持或反对的标记,进而得到标签的质量评估结果;同年,Sen等[10]对不同的标签质量人工评估系统进行人工比较,从而提出标签系统的界面改进意见,达到提高标签质量的目的。此方法准确度高,可以基于用户的需求来评判出高质量标签,但需要较多用户参与,难以实施,不能进行大规模的应用,因此该方法只适用于一些测试数据的收集。

②基于标签自身统计属性来评估标签的质量。代表性工作包括:2009年,Zhang等[11]提出标签的三个统计属性可以用来衡量标签质量,即中心性(被高频率地应用于标记资源的标签)、频率(为某一个资源的高频率标签)与熵(选择中等信息熵的标签,既不会太普遍也不会太专指);2010年,Belem等[13]利用标签共现(两个标签同时出现的频率)、标签稳定性(确保标签既不太普遍也不太专指,保持稳定的状态)、标签描述力(衡量标签是否同时出现在标题和描述中)等三个指标提高标签质量;2011年,孙珂[14]将明晰度、TF-IDF度量以及信息增益等三种指标用于评估标签质量。相对于人工评价方法,基于标签自身统计属性的评价方法可以在大规模数据上快速得到实施和验证,还可解决一部分主观性标签和垃圾标签的问题。然而,该方法没有考虑用户标注动机、标注对象类型等因素。

③依据规范词语进行隐含的质量评估。通过输入提示、拼写检查、标签推荐等方式,对用户输入的标签进行在线实时评估,从而减少拼写错误或垃圾标签,或通过词汇控制手段提高标签质量。代表性工作包括:2006年,Guy等[31]建议给用户进行一些打标签的指导,来提高标签的质量;2011年,徐静等[32]利用叙词表作为用户打标签的参考资源,对标签进行了质量的划分;2012年,黄如花等[33]从大小写限制、标签拼写提示以及帮助信息等7个方面对标签质量控制方式进行比较,并给出单词拼写提示、规范标签提示等提高标签质量的方法;同年,吴方枝[39]总结提高标签质量的方法,包括词汇控制、检错机制等。此方法主要利用与规范词的比对来进行标签质量的评估,通过对标签的自动检错来杜绝低质量标签的产生,可以对用户标注进行实时控制,但无法有效处理主观标签和垃圾标签。

④依据标签和主题词的比较进行评估。如果标签与主题词表中的主题词重合率高,则认为标签的质量高,反之标签的质量低。代表性工作包括:2009年,Lawson[22]从OCLCWorldCat提供的各个学科类别的角度,将美国国会图书馆标题表中的主题词和Amazon、LibraryThing的标签进比较;同年,Thomas等[23]依据7种不同的相似度比较方法,对书目数据的标签和美国国会图书馆标题表中的主题词进行比较;2010年,Lu等[24]比较LibraryThing的标签和美国国会图书馆标题表中的主题词,发现两者的重合度只有2.2%;同年,Bartley[25]将标签和图书MARC数据进行比较,发现匹配率高的两部分是MARC数据的600字段(主题字段)和245字段(题名说明);2010年,Yi[26]依据TF-IDF、余弦相似性、Jaccard指数、互信息、信息半径等5种相似度度量方法,对社会化标签和美国国会图书馆标题表中的主题词进行比较,发现余弦相似性度量方法最有效;2012年,吴丹等[27]依据Jaccard指数,对社会化标签、中文MARC、英文MARC、中国《分类主题词表》和《美国国会图书馆主题词表》等进行比对,结果表明社会化标签和元数据、主题词表的重合率不高,提出了基于元数据和主题词表改进标签质量的方法;Wu等[12]分别从中英文的角度将标签与主题词进行比较,结果显示两者之间有较高的重合率。同年,Lee等[28]利用231 388篇论文对标签与美国国会图书馆标题表中的主题词进行比较,结果显示每一个文章标签的平均数量远小于主题词,两者重合率很低。该方法依据权威的主题词表进行评价,结果比较客观,但由于主题词表更新速度慢、且覆盖范围有限,不能有效地对新标签进行质量评估。

⑤依据用户标签与专家标注结果的比较结果进行评估。代表性工作包括:2011年,Hall等[15]提出利用专业人士标注结果(即:依据受控词汇对标注资源进行标引的结果)与社会标签进行比较,发现两者异同,进而将两者结合提高标签质量;同年,Chen[29]将标签和档案机构提供的专业关键词进行比较,结果表明两者重合率达40%。相对于主题词表的稳定性,专家和商业机构提供的标签可以根据实际情况变化,进行及时的更新。

⑥依据标签与文本内容关键词的比较进行评估。利用关键词抽取技术抽取文本的关键词,如果标签和关键词相似性高,则认为标签的质量高。代表性工作包括:2006年,Al-Khalifa等[16]将机器抽取出的关键词与社会化标签进行重合度计算;2009年,Syn等[30]依据余弦相似度,对学术论文的关键词和标签进行了比较研究;同年,丁婉莹等[17]依据用户打分方式或使用搜索引擎,来度量机器抽取的关键词与社会化标签的相似度;2011年,Lai等[9]从社会媒体的用户评论中提取关键词,将其与产品的社会化标签进行比较,从而衡量标签与大众评论意见是否一致,由此评估标签的质量。该方法不依赖于主题词表和专家标注等资源,成本低但评估效果依赖于文本的关键词抽取质量。

⑦基于信息检索的方式来评估标签质量。代表性工作包括:2007年,Koutrika等[34]将标签作为查询式提交到搜索引擎,依据返回结果的网页排名来评估标签质量;2008年,Li等[35]依据标签在文档中的匹配率来评估标签质量;同年,Van Damme等[18]依据标签频率、标签同意度(某个资源的某个标签的频率除以这个资源打标签的人数)、TF-IRF(TF-IDF的延伸,利用标签的频率和资源数来计算)三个指标来综合评估标签质量;2010年,Noh等[36]将检索系统每天总访问数、某一查询式作为查询的概率、资源被这个查询式查询出来的概率三者的乘积,作为标签的质量评估依据;2012年,Yi等[19]计算搜索引擎中用户查询式与社会化标签之间的相似性和重合度,结果显示标签和Web查询式关系紧密,可以将质量高的社会化标签应用到信息检索中。利用信息检索的方式来评估标签的质量,成本低,但效果受制于搜索引擎本身的搜索质量和资源覆盖面。

⑧基于用户、资源、标签三者关系来评估标签质量。代表性工作包括:2006年,Xu等[37]向用户分配权重值,每一个标签的质量就是使用这个标签的用户权重值总和;2008年,Krestel等[20]利用资源、标签、用户三者之间的关系,依据PageRank算法的变种方法——TRP-Rank算法迭代计算出每个标签-资源对的质量得分;2010年,覃希等[38]将隐藏在正常用户群体中的垃圾投放人检测出来,以此减少垃圾标签数量,结果表明,基于支持向量机的垃圾标签检测模型具有较高的分类精度;2011年,Gu等[7]通过打标签者的可信度、网页之间的语义相似性、标签之间的语义相似性三个因素度量标签的可信度;2012年,李劲等[21]提出通过分析文档之间的语义相似度以及标签之间的语义相似度,对标注质量进行量化评估的算法。相对于其他方法,该方法充分考虑用户、资源、标签三者之间的联系,但同时该方法对这三种资源有较强的依赖性。

(2)不同的标签质量评估方法的比较

通过上述总结,可以看出不同的评估方法依赖于不同资源或评估参数。在实际使用中,可以根据现有资源,选择适合的评估方法。现将各个方法的优缺点总结如表3所示。

从表3可以看出人工评估准确性高,并且可以结合用户自身的喜好选择质量高的标签,但是实施起来费时费力。自动进行标签质量评估中,基于标签本身的评估,实施起来方便,但是评估过程过于片面;将标签和其他资源结合进行质量评估,由于结合的其他资源本身的限制,对标签质量都不能进行全面准确的评估,每种方法各有利弊。应根据实际情况选择合适的方法进行标签质量评估。

4 现有研究存在的问题

从目前的研究可以看出标签质量的评估还存在很多问题,缺乏系统化的研究。目前的标签质量评估研究仅是基于标签本身,尚未针对不同的应用场合、不同的标签类型、不同的标注对象类型、不同用户标注动机等情况进行相应的研究。在进行标签质量评估时应根据以上不同情形,进行有针对性的评估研究,以适应不同应用的需求。

(1)没有区分应用场合对标签进行质量评估

对用户来说,在不同的应用场合,标签质量评估的标准是不同的,例如:在图书标注网站上,用户可以选择一些情感类的词来对图书进行标注,显然这类情感词并不利于用户查找到相关领域的图书;但对于电子商务网站来说,其他用户标注的情感词汇可以帮助用户决策此商品的好坏。因此在实际应用场合,应该给出更符合该场合的标签质量评估方法。

(2)没有区分标注对象的类型特点进行有针对性的质量评估

现在可以标注的网络资源类型丰富,有图书、商品、博文、网页、图片、视频等,不同类型的标注对象各有自己的特点,尤其是对于图片视频等非文本信息标签质量的评估涉及到语义信息的获取,更加需要有针对性的标签质量评估方法。

(3)没有区分标签自身的类型进行有区别的质量评估

社会化标签可以划分为客观标签、主观标签、自我组织标签[40]。其中客观标签用于描述标注对象的客观信息,主观标签用于用户标记对于资源的主观评价,自我组织的标签用于自身信息组织与提醒。在不同的应用环境下需要不同的标签类型,在标签质量的评估中应该根据实际要求,剔除不符合要求的标签类型,提高标签质量评估的效率。

(4)缺少对用户标注动机与标签质量之间关系的研究

对于不同标注动机的用户来说其使用标签的目的不同,所以对于标签质量的要求也不同,现有的研究,主要针对标签自身,很少将用户标注动机这类根源性因素考虑进来,而该因素是解决标签质量问题的关键问题之一。

(5)缺少社会化标签质量评估的公开测试数据集

由于近几年社会化标签质量评估研究才相继进行,还没有公开的测试数据集供研究者使用,没有形成统一的研究平台,这一现状不利于各种质量评估方法的测试与比较。

5 社会化标签质量评估研究展望

随着社会化媒体资源的日益丰富,关于社会化标签的理论与应用研究将会得到学术界和工业界的持续关注。本文对社会化标签质量评估研究进行展望,总结今后4个可能的研究方向,包括用户标注动机层面、标签自身层面、标注资源层面和标签应用层面,具体说明如下。

(1)标注动机层面:从用户标注的动机来考察标签的质量

Zhu等[41]指出当标注用户的标注目的是为以后的用户检索资源,或用于发现其他用户分享的资源时,标签就会是具有描述性的标签;当标注用户的主要目的是交流观点,标签往往更加主观,并且相同资源的标签更倾向于异构。Strohmaier等[42]分析用户打标签的两个动机分类和描述,提出了对这两种动机进行衡量的指标,提出利用这些指标过滤出在不同动机下质量高的标签。因此,可以看出用户的动机不同,对于标签质量的要求就不同,在评估标签质量时,需要考虑不同的标注动机。基于用户标注动机的标签质量评估,是一项具有挑战性的工作,亦是今后的发展方向之一。

(2)标签自身层面:标签和其他的用户生成内容的协同评估

Figueiredo等[43]、Almeida等[44]、Figueiredo等[45]学者比较YouTube、Yahoo!Video、LastFM、CiteULike网站用户生成内容的质量,包括用户生成的标题、标签、描述、评论,比较它们对于分类和资源描述的效果,提出每一个维度都可以对其他的维度进行补充,从而提高用户生成内容的质量。标签是用户生成内容(UGC)中的一种形式,现有的标签质量评估研究主要依据标签本身,尚缺乏将标签和UGC中其他的内容进行协同评估。因此,标签和其他的用户生成内容的协同评估,将是标签质量评估研究的一个发展方向。

(3)标注资源层面:关于多媒体信息资源的标签质量评估

随着标签技术的普及,用户标注的对象,不再局限于文字类型资源,当前已经有很多图片、视频多媒体的社会化标注网站,例如Flickr网站(http://www.flickr.com)和YouTube网站(http://www.youtube.com/),都允许用户自由地打标签来分享资源。对图片、视频等多媒体信息资源上的标签质量评估,应该受到重视。

(4)标签应用层面:通过加强标记系统本身的设计来提高标签的质量

在进行标签系统设计时,通过对界面的优化,提供标签的层次化或结构化信息,从而提高标签的质量[46]。因此,可以在目前标签推荐的基础上,进一步进行语义控制,如将单复数、时态、大小写变化的标签自动聚合为一个标签,可以消除冗余标签,提高标注的质量。此外,在用户进行标注时,将相似标注资源链接提供给用户做参考,也可以在一定程度上提高标注的质量。今后的标签系统界面的设计可以更加人性化和智能化,使得标注用户可以在较小的智力开销下,高效地完成标签标注行为。

①目前尚缺乏关于标签类型划分的统一标准,但总体来说,标签可以分为4大类型,即:客观标签,描述标注对象的客观信息;主观标签,用户标记对于资源的主观评价;自我组织的标签,用于自身信息组织与提醒;其他类型的标签,包括缩写词和垃圾标签。

标签:;  ;  ;  ;  ;  ;  ;  

社会化标签质量评价研究综述_语义分析论文
下载Doc文档

猜你喜欢