社会化标注理论研究综述,本文主要内容关键词为:理论研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G203
Web2.0环境下,社会化标注(social tagging)在产业界得到了广泛应用,并出现了Delicious、Flickr、Youtube、LibraryThing、Last.fm、Connotea、CiteUlike、Technorati等众多新的应用与体验。社会化标注允许任意用户对感兴趣的网络资源进行基于自身理解的无约束标注,且所有用户的标注都互为可见,这种开放、共享的模式以及反映用户真实理解和观点的标注为信息资源的检索和共享带来了一种全新的理念。因此,社会化标注一出现,就激发了学术界的极大热情。
1 社会化标注的基本理论
在介绍社会化标注之前,我们先了解一下标签。标签(tag)类似于关键词,它被用户用来对发布的信息进行标注,它与关键词不同的是,标签的标注不存在词与权限的限制,而关键词往往只能由信息的发布者或创造者添加。标注是对用户添加标签的行为的描述。用户可以对自己发布的信息进行标注,也可以对其他用户发布的信息进行标注。当多个用户对多个对象添加标签时,标签就具有社会性,也就成为社会化标签。这种行为模式就称之为社会化标注。
1.1 社会化标注的结构
社会化标注包括三个主要对象:用户、资源和标签[1]。用户包括资源的创建者、标注者或使用者。在社会化标注系统中,绝大部分用户是互联网的普通使用者。资源是指存在于互联网中的各种类型的信息,如网页、文献、博客、图片、音视频等。标签是指用户所选择的进行资源标注的词。大量用户对大量资源添加标签的行为通过碰撞与融合,形成了社会性,信息资源也就实现了标签条件下的自动归类,称之为大众分类。同时,社会化标注不仅将用户、标签、资源三者联系了起来,还在用户与用户、资源与资源、标签与标签间建立了联系。因此,可以说社会化标注不是添加关键词的简单行为,它是大量用户对事物特定看法的词汇集,是一种综合行为[2],更为重要的是建立了用户、标签与资源之间的关系网络。
1.2 社会化标注系统的分类
(1)广义与狭义。Vander Wal给出了两种类型的社会化标注系统分类,即广义和狭义之分[3]。在广义的社会化标注中,每个用户可以对任一资源添加标签,常常是大量用户对同一个资源进行标注。这些用户一般都具有不同的知识结构和兴趣领域,他们的标签反映的都是其个人的背景。
在狭义的社会化标注中,用户需要得到允许才能对其他用户添加的资源进行标注。单个资源一般只标注较少的标签,但每个标签所对应的资源数却相对较多,而且标签的所用词汇大多相似,因此利用单个标签就能较为准确地找到相关资源。
(2)自我、准许和自由标注。从用户标注的权利而言,标注系统可以被分为自我标注(self-tagging)、基于准许的标注(permission-based)和自由标注(free-for-all)[4]。自我标注,是用户仅为将来个人的检索而对资源进行标注的行为。基于准许的标注对用户的标注行为有不同层次和权限的规定,只有被准许的用户才能对目标资源进行标注。这两种标注行为也被称为是狭义的社会化标注。Delicious提供了自由标注,允许任何用户对任何资源进行标注。自由标注也被称之为广义的社会化标注[3]。
(3)集合模型和袋子模型。根据标签的加总,标注系统可以分为集合模型(set-model)和袋子模型(bag-model)。集合模型不允许标签的任何重复,系统显示给用户的只是某项资源上的标签集合。与集合模型相反,袋子模型系统允许来自不同用户对同一资源的重复标签[4]。
此外,还有研究者对标签的类型进行了划分。根据较为主流的观点,标签大致分为7种:主题、类型、书签建立者、修饰类别、主观感受、个人色彩以及任务等[5]。此外,还有其他的标签分类方法,如有研究将标签分为建议标签/自由标签、一般标签/具体标签、同义标签、语境(contextual)标签、主观标签、组织(organizational)标签等,并指出可以根据对标签属别的判断,来推断用户的层次,如创新、守旧、知识渊博或浅显等[6]。
1.3 社会化标注的优势与不足
1.3.1 社会化标注的优势
(1)标签可以完全使用自然语言,不需要一个事先定义的本体或者词汇表,用户可以用自己所偏好的、当前流行的或反映当地用法的词汇来标注内容[7],方便资源的再次查找和使用。
(2)同一项资源可以被添加多个标签,可以形成对资源多个维度的描述[7],从而增加了分类的灵活性,有利于资源的查找与共享。
(3)多个用户对相同或类似的资源进行标注,会涌现出一些被多数用户共同使用的“热门”标签——它们反映的是用户对同一个或同类型事物所达成的共识,有研究发现频率最高的1.1%的标签占了所有标签的50%[8]。这种对资源的共同认识,不仅可以帮助用户实现信息资源的共享[9],还可以创造新的知识。
(4)由于标签是一种由用户产生的元数据,其特点是能够直接、迅速反映用户的词汇和需求及其变化[10],并可以适应动态的万维网,因此在社会化标注系统中的资源,往往比普通网页能在更短的时间内到达流行顶峰[5]。
(5)社会化标注具有社区聚合的功能,可以助用户发现与自己关注相同内容、具有相同思想的其他用户,从而形成特定的社会群体,并且促进有共同兴趣的社区的发展[7],同时这种分类是为普通用户所熟悉的。此外,通过浏览其他用户的标签及其标注的资源,用户还能发现新的感兴趣或潜在感兴趣的资源,获得意外的发现[11]。
1.3.2 社会化标注的不足
社会化标注系统的不足也源自于其大众性和用户参与性。
(1)标签的同义和多义问题。同义词和一词多义是语言中非常普遍的现象,在社会化标注中,不同词汇会被用于描述同一概念[7],从而造成资源的分散并给用户查找资源带来不便。同样,在具体语境中,我们可以容易地辨别出多义词的具体含义,但缺少语境信息本身就是社会化标注的不足[12]。语境的缺失会造成标签理解上的混乱与歧义,使用户不能确定多义标签的具体含义。
(2)标签缺乏层次性。标签与标签之间是平等关系,整个社会化标注系统是一种平面的结构,没有等级结构[5]。同时,标签之间也没有预先、明确地定义任何相关关系。这种松散的结构以及形成的分类导致其推理能力的有限[12]。
(3)部分标注系统只允许使用单个词进行标注,即不允许空格的存在。这一方面不利于表达复杂概念,另一方面出现了很多合成词、叠加词[13]。这些合成标签只对个人有意义,但却在普遍使用[7]。
(4)标签没有标准的结构[14]。这使同一事物的词使用了多种形式表达。如“nyc”、“NewYork”、“newyorkcity”和“new_york”等词都表达的是同一概念。同时,由于拼写错误导致的误标、复数、缩写词等问题也是阻碍共享的问题[13]。
(5)基准的波动,即对于上下位词的混合使用。对于一个资源添加标签,如用“programming”可能显得太广泛,而用“Perl”或“JavaScript”对于某些用户来说可能过于专业。不仅如此,相同标签可以被不同用户用于不同层次的描述,即使同一用户在不同时间也会如此。此外,用户对标签的选择也会随着趋势而改变,如对blog、blogging、weblog等标签的使用[7]。
2 社会化标注的系统模型和信息推荐
2.1 社会化标注的系统模型
社会化标注系统模型主要描述的是社会化标注的组成要素与结构,这些模型也为其他的研究提供了框架。最早的是Mika在对由用户、标签和资源三者组成的大众分类进行分析时,提出了一个三分超图模型:H(T)=<V,E>,其中V=A∪C∪I,A、C、I分别代表用户、标签和资源,E为三者之间的关系[15]。该模型的提出,为后续的研究提供了一个较好的切入点。有研究认为该模型还应该包括一个用于确定用户子标签(subtag)与上标签(supertag)关系的变量,进而将模型变为F=<U,T,R,Y,*>,其中*为新变量,表示上下关系[16]。在此基础上,有分析者提出了更为一般的模型F:=(U,T,R,Y,),增加的表示的是用户定义的标签间的层级关系[17]。在此后产生的推荐算法中,大部分算法都潜在或显性地应用了Mika的模型。
为使得社会化标注中能具有更多的信息,一些研究者提出了更多全面的模型,如Gruber 给出的标注系统模型包括了5个关系,即标注物、标签、标注者、来源、[+/-]。其中,来源是指该标注来自哪个系统;[+/-]表示该标注是反映了标注者的正面还是负面观点[18]。考虑到标注系统的动态性与用户的集聚性,有研究认为应当将时间[19]和用户组别(group)因素[20]也加入到系统模型中。此外,还有一些研究从特别的角度出发,提出了相应的模型,如允许用户对标签和标签间的关系进行标注[21],将社会友情关系纳入到标注系统模型[22]等。
2.2 基于社会化标注的信息推荐
社会化标注所构建的用户、标签、资源间的关系网络为信息的推荐提供了高质量的数据来源,同时也启发了信息推荐新的思路。很多研究者对该领域进行了密切关注,并取得了初步成果。
(1)标签对用户模型的意义。社会化标注为了解用户打开了一扇新的窗户,从而可以掌握其信息需求和习惯[7]。有研究在比较了作者元数据与标签之后,认为标签比元数据更具优越性[23]。只要具备足够的用户,标注系统的表现就能够得到改善[1]。同时研究者在对标签的信息检索效果进行的实证分析中,发现标签已具备良好的检索性能[24],用户对标签的多次使用也说明了用户兴趣的浮现。
(2)聚类算法。在社会化标注系统中,主要涉及三种类型的聚类,即用户聚类、资源聚类和标签聚类。①在用户聚类中,主要通过用户间的相似度计算[4]或是网络的社区划分理论[25]来识别同类用户;②在资源聚类中,有研究应用了支持向量机的理论[26];③在标签聚类中,最近邻居分类法、SOM、马尔科夫聚类等[27-29]算法都有研究进行了尝试。
(3)排序算法。起初,一些研究尝试将标签作为一种现有搜索手段的补充进行探讨,如将标签、分类和浏览进行集成[30],有研究对标签与Google的配合使用进行了探讨[31];而后,Yanbe 等提出了基于标注次数的SBrank算法[32]。还有研究者提出了更为全面的folkrank排序算法,用以计算用户、标签和资源的重要性[17]。
(4)基于社会化标注的个性化推荐算法。根据用户建模技术的不同,我们将相关算法分为以下三类:①基于矩阵的处理建立用户模型,包括Xu Yanfei等通过对标签-资源(URL)矩阵进行LSA处理[33],以及进一步提出应用HOSVD算法将用户、标签、资源吸收到同一框架中进行分析[34]。②基于聚类分析建立用户模型,包括Niwa通过紧密度(affinity)借助标签聚类的研究[35],也有研究是通过用户聚类的方法[4]。同时,对资源进行聚类也是一个重要的研究视角[36]。③基于网络来建立用户模型,利用标签的共现网络及边的权重,将权重较大的网络结点纳入用户模型[37]。
3 社会化标注的相关改进
语义方面的改进是社会化标注所面临的主要问题,目前的研究已提供了较多的解决思路。同时,针对社会化标注所形成大众分类的随意性,有研究建议可以与传统的分类法相结合使用。
3.1 标签的语义分析
由于社会化标注存在着标签同义、多义、缺乏层次等不足,影响了社会化标注效用的充分发挥,并导致了目前标签网站中内容重复利用和兴趣共享程度较低。目前研究的主要思路都是一方面是从标注系统中提取出浮现语义;另一方面是借助常识工具增加标签语义,提高对标签的正确理解,减少社会化标注系统中的混乱。
(1)将标签进行层级处理。如果将标签所用的词汇用分类法模式进行组织,则对于确定标签的含义是非常有帮助的。事实上也已有研究表明,在Delicious网站的大量标签都表现出在ANSI/NISO和ALCTL分类法中的层级关系[38]。有研究运用概率论方法挖掘潜藏在用户、资源和标签共现频率中的潜在语义,将用户的标注行为用一个概率生成模型(probabilistic generative model)加以表示和处理[39]。尽管该方法从社会化标注中提取了浮现语义,但其得到的结构仍旧是平的,没有层级。鉴于此,Heymann等试图将大量的标签转化为可导航的层次结构的分类法。将标签按其所标注的资源的次数表示成向量的形式,同时用余弦相似性计算得到标签的相似图,最后得到潜在层级的分类法[40]。此外,Christiaens的研究不仅将标签进行了层级化表示,而且还具体到了上下层级之间的特定关系[41]。
(2)结合概念分析。概念是提高语义信息的一种重要方式,尽管涉及概念的处理较为复杂,一些研究者还是进行了这方面的尝试。Aurnhammer等的研究给出了一个相似度搜索模型,可以让用户得到在概念上的相关数据[42]。同样,通过概念作为过渡,文献[43]方法化了如何将标签分层级,实现了提高检全率的同时又不过多损失检准率。有研究者进一步运用形式概念分析,提出了一个语境化的大众分类模型,帮助用户在已有标签集中寻找最为共同与适当的标签[44]。上述研究中的概念都类似于一个中间变量,而缺乏实质性的基础。Ronzano等将研究提升到了新的高度,作者通过wikipedia,将其中的文章作为资源,文章标题作为概念,再将文章标题与内容中提取的词作为关键词,建立了syntag集,达到消除歧义的目的[45]。
(3)网络方法。运用网络方法研究社会化标注系统中的语义也较为多见,特别是复杂的网络理论,被广泛应用于研究社会化标签系统的语义结构中。如可通过将标签作为点,标签相似度作为边,建立相应的无权图,进而构建出标签之间的层次性[40]。文献[46]也进行了类似的研究,该研究基于资源的标签共现,将强关联的标签表示成无向权图,运用聚类分析得到层次性。还有研究也是对高出现频率标签形成的共现网络进行分析,指出可以利用这些高频标签与其他标签的关系,确定目标标签的意义[47]。
(4)结合常识工具。目前已有较多的语义工具可以减轻或消除标签存在的一些弊端,如Wordnet可以返回标签所属的类,利用该信息可以检查该标签是否与内容属于同一类[6]。同样是借助Wordnet,文献[48]将相关标签建立了语义层级,进而帮助用户寻找相关的资源。还有研究通过conceptnet将用户的查询关键词扩展为几个相同的概念,以进行查询[12]。但这些方法对解决标签同义较为有效,而对歧义问题则帮助不大。
因此,有研究在分析中引入了用户偏好,通过计算用户偏好与概念的相似度来辨别具体含义,提出了解决标签歧义问题的方法[49]。也有研究者将目标标签的邻居标签吸纳进来,在选择wikipedia中的解释文本的时候,选择邻居标签总频率发生最高的那个文本[50],进而建立标签—概念的对应库[45]。
(5)应用本体思想。本体是语义构建的重要手段,本体构建领域的著名学者Tom Gruber 认为,用户产生的标签数据体现了群体智慧,但也是不规范和非形式化的,使用本体对这些数据进行形式化的描述,有利于系统的互操作和知识的共享,并可以从中提取出丰富的语义信息[18]。他还提出了Tag Ontology的构想,设计了基于标签构建本体的概念模型。实际上,Mika也表达过类似的思想[15]。许多后续的研究者对该思路进行了深化,如可以建立一个类似wiki的体系,将本体编辑的任务交给大众[51]。有研究者甚至认为社会化标注是一种“社会化的本体”,本体的构建不需要再依赖于专家,而可以从丰富的用户数据中提取[52]。还有研究则是对该思路进行的实证分析,Schmitz通过采集图片共享网站flickr的数据,经自然语言的统计学规律分析,从标签中推导出较为初步的分类法[53],分类法也是最简单的本体形式。
更为进一步的分析是提出本体的模型。如文献[54]试图从社会化标注系统中提取出描述网络资源的标签,并自动地将其映射为相应的预定义(predefined)领域本体。另一方面的研究是按本体的思想规范化标签,最为典型的是将标签结构化,使标签信息更为具体化,如对标签“会议”设定其时间和地点[55]。也有研究者提出组合式标注的思想,如标签的信息需要包括主体、客体以及两者间的关系[56]。文献[57]则提出了一个更为一般的本体模型,试图为标签建立起统一的结构和语义。
3.2 与传统分类的结合
由于社会化标注所形成的大众分类与传统的分类互有利弊,因此,将两者进行结合的思想便应运而生。有研究将大众分类法与传统的等级列举式分类法和分面组配式分类法进行了详细的对比,指出三者适用于不同的资源和用户,大众分类法不会完全替代传统分类法,而是提供一个新的角度看待信息的分类组织方式以及用户新的信息需求和行为,可以将其与现有的方法相结合[58]。如通过将大众分类法与受控词表相结合,就能有效解决大众分类法在检索效率、语义精确性方面存在的问题[59]。文献[60]也表达了相同观点,通过一个实例分析,认为大众分类并不能解决所有的问题,因此不能用大众分类替代传统分类方法,其合理的地位应该是传统分类方法的补充。在后续的探讨中,研究者还给出了一个名为facetag的网站,该网站实现了传统分类法与大众标签的融合[61]。
4 结语
尽管社会化标注网站的出现只有4年多的时间,但已成为互联网研究中的一个热门领域。对于标签而言,一方面代表了用户对信息资源的理解,是用户真实需求的表达;另一方面多个用户标签的集合,也形成了对信息资源的描述。因此,标签既是用户兴趣的表达,又是信息资源的描述,成为联系两者的桥梁。当多个用户对多个资源进行标注后,所形成的社会化标注,则是将众多用户与信息资源联系了起来,形成用户与资源的关系网络。这种关系网络为信息的组织、检索与推荐提供了新的思路。鉴于此,很多研究者做了相关研究,包括社会化标注基本理论、基于社会化标注的推荐,以及从语义角度对社会化标注的改进等方面,并取得了一系列的成果。同时,社会化标注在产业界也获得了一系列应用,不仅包括出现的大量提供标注服务的网站,而且在一般企业中也有了社会化标注的众多应用,如Cogenz、Notorious、Raytheon、Connectbeam、Onomi等[7]。社会化标注不仅增加了信息导航功能,而且也可以对公司内人际联系进行管理[62],并可以作为一个寻找专家及其专业知识的工具[63]。
总体而言,目前很多对社会化标注理论的研究还是停留在理论层面的探讨,且处理的方法还较为初步,研究成果往往是试验性的,还难以将其直接应用到产业领域。因此,亟须有更多对社会化标注感兴趣的研究者加入,以推动社会化标注理论的发展与在实践中的应用。