Folksonomy中用户标签的语义紧密性研究,本文主要内容关键词为:语义论文,紧密论文,标签论文,用户论文,Folksonomy论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G350.7 收修改稿日期:2013-09-25
1 引言
Folksonomy[1]知识组织模式自诞生以来,凭借其在用户感知方面得天独厚的优势迅速风靡于互联网上的各类网站。由于Folksonomy是迄今为止距离人类感性思维最为接近的知识组织模式,因此人们在感受Folksonomy带来的诸多便利的同时,也针对其尚存的一些不足(相对于其他分类体系)展开了研究,其中最具代表性的就是对Folksonomy平层型与自由化的表象下潜在的语义关系的探索。本文借助复杂网络分析的技术,基于Folksonomy中用户标签间的关联关系构建用户标签网络,通过对用户标签网络中紧密中心性指标的计算与分析,对Folksonomy知识组织模式中用户标签的语义紧密性,从个体和整体两个层面进行了研究,并与领域本体和随机网络进行了比较分析。
2 研究背景及相关工作
在现有的知识组织体系中,无论是古希腊哲学中的“树喻”思想,或者是风行全球的杜威十进制分类法(Dewey Decimal Classification,DDC),甚至是富含语义信息的领域本体都深深地烙有等级制与中心化的印记。在等级制与中心化的知识组织体系中,由于概念间遵循严谨的上位词、下位词、同义词等关系,使得其无论是在概念个体间还是在整体上总是保持着较为紧密的“父子/兄弟”关系。然而,Folksonomy知识组织模式的诞生改变了这一状况。Folksonomy在语义关系方面更强调用户感知而非传统的等级制与中心化,其在语义层面上所彰显的自由化与平层型特征与传统知识组织体系的中心化与等级制结构之间形成巨大的差异。因此,Folksonomy在一定程度上昭示着与传统的知识组织体系分道扬镳,开辟了一条完全不同于其他知识组织体系的蹊径。
近年来,国内外学术界对Folksonomy知识组织模式中的基于用户语义认知的概念结构与属性展开了较深层次的研究。针对Folksonomy在语义层级结构方面的局限性,Laniado等[2]基于NetWord内含的概念层级,尝试为用户提供可选择的关联标签建议,借助Net-Word中概念的静态层级结构在Folksonomy中扩充标签间的语义关系,为基于Folksonomy的用户导航创造了更多的可能路径。Kawakubo等[3]也尝试从标签关系中破解Folksonomy的平层型表象,并以Flickr.com的Folksonomy知识组织模式为研究对象,基于视觉特征、词汇特征以及视觉与文本的组合特征计算高频向量,通过对三种概念向量间的差异和熵值的分析,获得标签间的语义层级结构,并将其作为扩展标签间文本和视觉关系的本体。Solskinnsbakk等[4]则使用潜在的标记素材为Folksonomy中的每一个标签创造了语义表示,进而采用无监督的机器学习方法将潜在的标记素材与关联规则挖掘结果进行整合后构建了Folksonomy的语义结构框架,使得标签的语义表示成为该结构不可分割的组成部分,并通过实验证明其标签的语义结构框架与人类的认知能力相吻合。与此同时,国内学者也开始致力于Folksonomy的语义结构与属性研究,包括基于用户标签间的关联关系分析标签的语义组织结构[5]、通过界定概念外延挖掘标签间语义关系[6]、基于在线词表识别Folksonomy中的语义关系[7]、在P2P环境下分析用户标签的语义等级关系[8]以及基于形式概念分析(FCA)构建Folksonomy的语义形式层级[9]等。这些研究成果为Folksonomy中内在语义关系的揭示起到了积极的作用。
随着复杂网络理论的兴起,研究者纷纷尝试从网络的视角考查Folksonomy的语义结构与属性问题,包括Folksonomy中用户标签网络的小世界和无标度属性[10],利用迭代图反映Folksonomy用户标签超图的动态性和聚类系数的高位性[11],基于凝聚子群的标签网状分类结构[12],以及利用“社群驱动”展示Folksonomy中新的概念结构[13]等。这些研究成果为基于复杂网络理论解决Folksonomy知识组织模式中的语义关系问题做出了有益的尝试和铺垫。
综上所述,尽管学术界在Folksonomy的语义结构与属性研究方面已经积累了较为丰富的成果,但其中绝大多数成果主要围绕Folksonomy平层型表象下内含的等级制展开研究,而对于掩盖在自由化表象之下的语义紧密(松散)性问题则鲜有问津。而复杂网络理论的引入则为探索Folksonomy的语义紧密性问题提供了契机。
3 用户标签采集与预处理
3.1 用户标签的采集
本研究选择BibSonomy.org网站热门标签云中的用户标签作为原始数据。BibSonomy.org是由德国卡塞尔大学(University of Kassel)的知识与数据工程小组(Knowledge and Data Engineering Group,KDEG)[14]架设与维护,主要针对科研人员的社会书签和出版共享系统。该系统采用Folksonomy组织网站的知识资源,同时也支持Folksonomy知识组织模式的理论研究和实践应用。在BibSonomy.org网站的“tags”栏目下,可以直接获得网站资源的热门标签云,该标签云采用基于统计的标签呈现方式,以标签字号的大小和颜色深浅反映用户标签在网站中的热门程度和受关注程度。其具体呈现方式如图1所示。
图1 BibSonomy.org网站热门标签云
(注:资料来源于http://www.bibsonomy.org/tags,2012-10-15)
实际应用中可以通过点击标签云中的某一个标签直接获得被该标签所标注的知识资源,正是从这个意义上讲,Folksonomy中的用户标签在语义关系上是平层型的。同时也可以发现,图1标签云中的各用户标签在形式上呈现出自由化的松散造型,即标签云中并没有其他知识组织体系下那种明确的同义词、上位词、下位词等语义层级关系。因此,就其表象来看,Folksonomy中的用户标签几乎是一种完全随机的自由呈现。
从图1的标签云中共获得用户标签98个,由于本研究考查的主旨是用户标签的语义紧密性问题,因此即使标签云中部分用户标签在语义上存在相似或相近的情况,也不应该给予合并或删减,而是一并予以保留。如标签“book”和“books”、“Information”和“information”等在研究中将都被视为不同的用户标签,只有这样才能更真实地反映基于用户协同标注行为的Folksonomy知识组织模式的内在语义结构与属性(也许正是同一语义内容的不同词汇表述在一定程度上影响了Folksonomy知识组织模式的语义紧密程度)。
3.2 用户标签的预处理
研究中,采用近年来刚刚发展起来的Folksonomy中的“关联标签(Related Tag)”建立用户标签间的语义关联关系。所谓关联标签,是指同一知识资源在Folksonomy模式下往往会被社群用户标注上许多不同的标签,相对于某一具体资源而言,这种由用户附加给同一资源的不同标签按照热门程度上浮形成基于特定资源的领域标签云集,云集中的标签就被互称为关联标签[15]。由于一个用户标签可能同时存在许多个关联标签,而众多的关联标签不可能逐一列示。因此Folksonomy在实践应用中所提供的关联标签,仅仅是某一标签的关联标签中基于统计上浮原理形成的热门关联标签。如此,在标签A是标签B的热门关联标签的情况下,标签B可能仅仅是标签A的普通关联标签而不是热门关联标签。为了提取更紧密的用户标签间的语义关系,就需要删除非热门的关联标签所体现的语义关系(非热门意味着仅有少数用户的标注行为体现了相关标签的语义关联,语义关系并不紧密),仅保留互为热门关联标签所体现的语义关系。由此,图1标签云所示的各个用户标签中,如果某两个用户标签互为热门关联标签,则视作这两个用户标签具有紧密的语义关联关系。在BibSonomy.org网站热门标签云中(见图1)单击某一标签,网站会基于上述语义关联关系自动给出相应的关联标签,人工筛选其中的互为关联标签的语义关联关系(标签A是标签B的关联标签的同时,标签B也是标签A的关联标签),基于标签间的相互关联构建的用户标签关系矩阵(节选)如图2所示。
图2 用户标签关系矩阵(节选)
图2中,标签“rdf”所在的行与标签“ontology”所在的列的交叉处为“1”,表示标签“rdf”与标签“ontology”互为热门关联标签,二者具有紧密的语义关联关系。尽管图2代表的用户标签关系矩阵只保留了基于互为热门关联标签的标签间语义关系,从外在形式上来讲有些类似于同样具有双向性的同义词关系,但其仍然不同于传统知识组织体系中的同义词环圈。这种语义关系是建立在针对同一资源的用户语义认知基础之上的关联关系。
4 Folksonomy用户标签的语义紧密性指标
Folksonomy中用户标签的语义紧密性就是某一用户标签与其他用户标签间语义关系的密切程度,在传统词表中一般表现为同义词之间的“兄弟”关系或上位词与下位词之间的“父子”关系。因此,用户标签的语义紧密性不会是单一标签的指标特征,而是某一标签群体中若干用户标签相互之间语义关系的结构属性。由此,研究中引入复杂网络分析[16]技术加以计算与分析。
4.1 基于Folksonomy中热门标签云的用户标签网络
众所周知,无论是传统词表还是富含语义信息的领域本体,其特有的树形结构在呈现出等级制特征的同时也决定了其呈现中心化的分布造型。事实上,任何树形结构的组织体系都可以理解为一种特殊的网络结构,只是人们更喜欢使用能够直接表达其结构属性的“树形”一词来称谓。图3(a)的树形结构与图3(b)的网络结构实质上是等价的。如果说在有图3(a)参照的情况下,图3(b)的层级结构与中心化程度仍然可以依稀辨认的话,那么Folksonomy中用户标签间的语义关联关系远远比图3复杂,必须借助更科学的技术方法加以辨识。
图3 树形结构与网络结构
将图2所代表的用户标签关系矩阵看作拟构建的用户标签网络的二值邻接矩阵,如果某两个用户标签间具有紧密的语义关系(交叉处为“1”),则在网络视图中将两个标签的节点间用一条“边”连接。当矩阵中的所有紧密语义关系都以“边”建立连接后,就构成了相应的用户标签网络。将图2代表的用户标签关系矩阵导入NetDraw[17]网络分析软件后生成的用户标签网络如图4所示:
图4 Folksonomy中的用户标签网络
图4的用户标签网络中包含98个网络节点(热门标签云中98个用户标签)和315条“边”(315对紧密语义关系)。很显然,随着网络规模的扩大,对网络结构属性的判识也越加困难。在图4所呈现的用户标签网络中,无论是某几个特定标签的语义紧密性或者是整个标签网络的语义紧密性都已经难以从视觉感官上进行准确判断,而复杂网络分析技术提供了解决这一问题的工具。
4.2 用户标签网络的紧密中心性指标
在复杂网络分析中,如果某一节点与网络中其他节点的“距离”都很短,则视为该节点具有较高的紧密中心度(Closeness Centrality),又称为整体中心度。由于本研究重点考查Folksonomy中用户标签语义关系的紧密程度,因此引入了紧密中心度指标作为刻画Folksonomy中用户标签间语义紧密程度的主要指标。由于不同规模的网络中绝对紧密中心度指标不可比较,此处进一步选择标准化的相对紧密中心度指标进行测算。其计算公式[18]如下:
基于公式(1)和公式(2)分别计算用户标签网络中98个用户标签节点的相对紧密中心度指标值和网络整体紧密中心势指标值,根据计算结果给出了用户标签网络各个用户标签节点的紧密中心度值的散点图、全网络的紧密中心势值以及相应的描述统计信息,如图5所示:
图5 用户标签的紧密中心度指标及相关统计信息
同时,为了便于对结果进行分析,将用户标签网络中的节点按照其紧密中心度指标值在NetMiner[19]网络分析软件中以同心圆图示展开,获得用户标签网络节点紧密中心度的同心圆分布,如图6所示:
图6 用户标签网络节点紧密中心度的同心圆分布
从图6中可以初步观察到,紧密度由高到低从圆心处向外辐射。既有靠近圆心的高紧密中心度的节点,也有处于外围的低紧密中心度的节点。用户标签网络的节点(用户标签)个体之间相对松散均匀,而在整体上则围绕圆心分布。
5 分析与讨论
5.1 研究参照的确立
Folksonomy中的用户标签就其在图1热门标签云中的呈现状态来看,无疑显示出一种自由化的松散分布造型。因此,从语义紧密性的角度看,用户标签网络的结构属性应该与随机网络的结构属性是相近的。同时,鉴于Folksonomy与领域本体间的互补关系[20],进一步采用上文中的方法分别测算同等规模当量的随机网络和成熟领域本体的相关指标,作为比较分析Folksonomy中用户标签间语义紧密性的参照。
(1)采用爱尔特希-雷尼(Erdos-Renyi,ER)生成算法[21]生成ER随机网络。由于ER随机网络在指定了网络规模(节点数量)后,能保证预期“边”的数量,且服从二项式度序列分布,已成为目前产生随机网络的标准方法。研究中基于ER算法产生的ER随机网络拥有98个节点,315条“边”,其规模与前述作为研究对象的用户标签网络规模完全相当。
(2)选择与用户标签网络规模相近的成熟领域本体,转化为领域本体网络(领域本体的网络化呈现)。由于领域本体的规模取决于具体的领域范畴、学科特征以及建构目的等因素,并非是按照指定的规模构建的,因此只能够选择相近规模的领域本体作为研究参照。选择美国生物医学本体国家中心(National Center for Biomedical Ontology,NCBO)[22]推荐的“诊断本体(Diagnostic Ontology)2.0”[23]作为参照对象。该本体的最新版本发布于2011年12月15日,目前牛津大学的“OntoMaton”[24]项目就以其为依托,是得到权威机构认可的成熟领域本体。由“Diagnostic Ontology 2.0”转化得到的领域本体网络拥有96个节点,其规模与作为研究对象的用户标签网络基本相当。
5.2 Folksonomy中用户标签的语义紧密性分析
在上述研究工作的基础上,进一步将用户标签网络、ER随机网络、领域本体网络的紧密中心度指标进行描述统计,得到紧密中心度指标汇总,如表1所示。
从表1中三种不同网络的节点个体层面(不含网络紧密中心势)的紧密中心度指标来看,基于Folksonomy的用户标签网络在最大值、均值、峰度、偏度4项指标上明显地更趋近于ER随机网络,即用户标签网络在节点个体层面上具有接近于ER随机网络的紧密程度。在图6中这一情况进一步得到了验证,用户标签网络节点紧密中心度的同心圆图示呈均匀分布,在一定程度上表明了节点(用户标签)个体之间语义关系较为松散。无论图6中的节点个体之间如何均匀分散,其整体上围绕圆心分布的趋势是不容忽视的。这一趋势在语义层面上保持用户标签个体之间松散的语义关系的同时,拉高了用户标签网络整体的语义紧密程度。同时,三种网络中节点的紧密中心度分布如图7所示。
从图7中可以直观地看出,ER随机网络中各节点的紧密中心度值的分布情况与正态曲线最为拟合,这也是随机网络的一个主要特征,即节点个体间的随机松散关系。而领域本体网络中各节点的紧密中心度值形成的较大的峰度和偏度,与正态曲线的拟合情况最弱。相比领域本体网络而言,用户标签网络中各节点的紧密中心度值的分布情况更趋近于ER随机网络。这一现象恰恰解释了Folksonomy中热门标签云内的用户标签会显示出随机的自由化松散分布表象的原因。
与此同时,表1中网络紧密中心势的指标值则反映另一种结果。用户标签网络的整体紧密中心势的值相对ER随机网络高出一倍多(27.95%>13.16%),这说明用户标签网络的整体语义紧密程度远远高于ER随机网络。另一方面,用户标签网络的整体语义紧密程度与ER随机网络相比更趋近于领域本体网络(13.16%<27.95%≈29.09%)。因此,就语义紧密性来讲,尽管Folksonomy中的用户标签处于随机网络和领域本体的中间,但其并非孑然中立,而是在标签个体层面接近于随机网络,在网络整体层面则向领域本体趋近。
至此,研究中可以得出如下结论:Folksonomy中的用户标签在整体上具有较高的语义紧密程度,甚至与结构化程度较高的领域本体近似;但在标签个体层面上同时也保持了自由化的松散特性,其节点个体紧密中心度值更接近于随机网络。即在Folksonomy中,用户标签在语义关系上同时实现了个体的松散与整体的紧密。正因为如此,才保证了Folksonomy在满足用户个性化需求的同时又能够体现社群的群体意识,进而引领了知识组织体系的柔性化趋势。
图7 紧密中心度指标的度序列分布
6 结语
通过上述对Folksonomy中用户标签的语义紧密性研究可以看出,用户标签的语义紧密性与Folksonomy的有效性是一致的。Folksonomy如要有效,必须有大量的用户参与协同标注,用户数量越多,标注的结果越趋于科学合理;而少数用户的标注行为仅仅能够反映用户语义认知的个性化特征。同样,Folksonomy中的用户标签在个体间语义关系上基于一定的紧密中心度的支持,保持了接近于随机网络的自由化松散特性;但是大量的用户标签在整体语义关系上的紧密程度却远远高于一般的随机分布,甚至趋近于结构化程度较高的领域本体。这一结论为未来深入研究Folksonomy中的语义关系提供了一种新的视角。