基于标签共现的社会网络分析研究,本文主要内容关键词为:分析研究论文,标签论文,社会论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2012-05-02
0 引言
社会化标签(Social Tag),作为Web2.0主要表现形式之一,是一种准确、灵活、开放、有趣的分类方式,是由用户为自己的文章、图片、音频、视频等一系列文件所定义的一个或多个描述[1]。该方法实现了自由分类的思想,鼓励Web用户根据自己的需要和理解对Web资源进行标注。这种基于标签聚类、标签云等方法的组织方式已经得到了广泛的应用,在组织管理大量用户的网络信息资源方面取得了一定成效。但是由于这种标签具有本身缺乏语义性,且过于大众化,如何发现用户关注热点与需求还需要我们进行更深入的分析。
社会网络分析(Social Network Analysis)是由社会学家根据数学方法、图论等发展起来的定量分析方法,目前在计量学中有着广泛的应用,该方法在合著、引文分析等方面相关应用已较为成熟,能够高效地从多个角度分析事态发展的全局状况,判断网络的层次结构及语义信息,解剖系统中隐藏的各种关系。
本文基于社会化标签及其共现关系构建的网络分析标签的网络结构,探讨该方法的适用性,并试图揭示社会化标签之间的内在逻辑关系,以实现社会化标签的有效组织。该研究对于网络信息资源组织具有较大的意义。
1 研究进展
社会化标签自产生以来,便得到了国内外学者的广泛关注。最初研究主要侧重于研究标签的特点及其发展趋势。2004年Methes将用户创造的标签与专家设置以及作者标注的关键词进行对比分析,定性描述了用标签进行资源管理的优缺点,并提出对标签进行定量分析研究计划[2]。Cattuto在2007年分析了bibsonomy和delicious上的社会化标注,发现大众分类法具有小世界现象,并拥有典型的社会化网络特征[3]。国内学者也将研究重点放置于对该现象与特点的研究中(毛军,2006;周荣庭、郑彬,2006;刘向红、宋文、姚朋,2010),进一步肯定了分众分类法在网络资源组织上的独特优势。其中,周荣庭等在《分众分类:网络时代的新型信息分类法》文中对分众分类法的思想来源、主要机制和功能都进行了阐述,对其在知识管理方面的应用前景提出了展望[4]。
随后,基于标签的知识发现引起了学者和研究院的关注,大量的研究围绕此展开:用户模型结构(Li,Guo&Zhao,2008;Yeung,Gibbins & Shdbolt,2008)、标签预测(Russell,2006)、检索与导航(Begelman,Keller & Smadja,2006;崔景昌,刘德洪,2007;王萍,2008),以及个性化推荐(Sigurbjrnsson &Van Zwol,2008;易明等,2010;Nan Zheng,Qiudan Li,2011)。这些研究大多围绕标签概念模型、标签云、标签聚类展开,而直接以标签共现为主要分析对象的研究却并不多见。2008年,王萍在文中构建基于社会化书签系统del.icio.us数据集的e-Learning共现标签网络,并分析了该网络的性质[5]。2010年,易明、王学东和邓卫华提出基于SNA的社会化标签网络分析方法,同时利用SNA软件实现基于该网络的个性化信息服务模型的具体应用[6]。2011年,郑楠和李秋丹在研究中强调标签共现与其网络随着时间的演变过程的重要性,并利用实例对标签共现及其演化过程进行验证,并提出基于用户兴趣的个性化推荐机制[7]。
通过梳理相关文献,可看出社会网络方法对网络标签的组织具有借鉴性,但这些研究均将重点放在了标签网络基本性质的描述与知识挖掘抽象模型的构建之上,对于标签系统本身的有效组织并没有进行更加深入的探讨。本文以标签系统的有效组织为出发点,在探讨社会网络分析方法的适应性的基础上,发掘社会网络分析方法在资源组织上的独特优势,并对推荐机制和本体构建两种应用进行简单说明。
2 数据收集
在Web2.0时代,社会化标注已经成为一种广泛流行的资源自组织方式。基于大量用户参与的应用Folksonomy的网站也得到了大量的使用,如国外的del.icio.us、flickr、CiteUlike,国内的豆瓣网等。这些网站均允许用户根据自己的需要使用不同自然语言对资源进行标注,并提供分享与交流的平台[8]。
本文以学术网摘CiteUlike[9]为例,通过实验数据集对“tag”共现标签网络进行分析研究。选取CiteUlike为研究对象主要基于以下两点:CiteUlike是免费的社会化书签网络工具,是为学术人员提供组织学术文章的网站,为学术电子资源的组织提供了另一种形式;CiteUlike支持RSS订阅、内容输出至BibTex、End-Note文献管理系统,同时简单方便、无需插件[10]。
笔者抓取了CiteUlike网站自2004年11月至2011年10月31日时间段以tag作为标签的资源,共计684篇,得到每篇文章的URL、文献提名、标注人数及每个用户标注的时间、标签,经过数据统计,得表1。
3.1 网络的基本性质利用Ucinet6.0软件,输入标签的共现关系,得到标签的共现网络,如图1所示。
3.1.1 密度、聚类系数、最短路径。网络的整体密度为0.0607,网络整体的关联度较弱,说明标签的研究并不成熟,其研究之间缺乏交叉性与系统性,该领域还需不断发展。而网络的聚类系数为0.816,平均距离的值是2.390,说明相邻标签的簇内部的网络连接完备程度较高,两两词汇之间容易连接,标签行为易于传递,标签之间的相互关联较大,可认为该网络呈现“小世界网络”的特征。
3.1.2 节点度分析。进点一步对网络连通的83个节进行分析,得到每个标签的中心度值,其分布如图2。
其中,度数中心度反映了标签与其他标签共现的频率,拥有较高的度数中心度的点有:tagging、folksonomy、social、citeulike等,说明这些词汇处于核心地位,均是标签研究中最为基本的概念,与此同时,search、web、recommendation这些词汇的度数中心度也较高,一定程度上也代表着该领域的研究热点。中间中心度反映了标签对资源的控制能力,如标签tagging、folksonomy、citeulike、social具有中介作用,对标签的共现影响较大。接近中心度则关注于这些标签与其他标签共现的几率。
图2 标签的中心度折线图
本例中,度数中心度、中间中心度和接近中心度基本表现出一致性,但是也存在一些差异性,主要存在两类:一种是度数中心度和接近中心度高,但中间中心度较低的标签——在网络中同样具有很多条路径,与许多点连通,但是其他的点与另一些点更近。如folksonomies和tags,它们都是研究领域重点的复数形式,代表的含义与folksonomy与tag本身一致,因此尽管它们的连通很多,但是并没有起到中介作用。另一种与之相反,中间中心度较高的,另两种中心度反而较低,如bibliography、web2.0、annotation等。由于与它们共现的标签没有与其他标签连通,因此这些标签对于网络的流动性至关重要。
此外,对节点度数中心度的分布进行拟合,可发现其满足幂律分布(),该属于无标度网络。综合以上分析,可知该网络存在一些核心关键标签,是标签研究中的基础与重点。
3.2 网络的凝聚子群分析 为了将网络划分成内部关联紧密、外部关系疏远的具有较高凝聚性的子群集,本文采用lambda集合的方法,以对标签数据进行划分,共将其分成了10个层次,本文列举了前6部分,如表2。
图1 标签共现网络
可看出,第一部分也是该领域的核心关键词,它们在整个网络中也起到非常重要的作用,而第二部分的词汇较第一部分更为具体,而其后几个部分也分别体现出推荐、分类组织、社会化书签、检索与导航等主题。可见共现网络分析能帮助进一步把握领域研究重点。
3.3 网络的对比分析 本文进一步对id为305755的文献The Structure of Collaborative Tagging Systems进行了分析,该文献于2005年08月27日至2011年10月31日共被标注397次,共得有效标签232个。笔者主要从作者标注关键词、标签云、标签共现网络三个方面展开研究。
首先该文献作者标注的关键词是:collaborative_tagging,folksonomy,del.icio.us,bookmarks,web,sharing。从这些关键词可大致得出,该文献是以社会化标签为主要内容,对美味书签网的标签结构进行实例分析,并提出其在知识共享等方面的作用。为了验证社会化标注的一致性,下文分别利用标签云、共现网络对词汇进行可视化,见图3。
图3 (a)标签云
图3 (b)共现网络(K-核)实心节点的K值=3,为关键词,空心节点K值=2为次核心关键词
对比可发现,两者在体现文章主要内容上差别不大,都能够较为准确地体现出文章的核心关键词,如tagging,folksonomy,social,delicious,collaborative等,但是也存在一些关键词(bookmarks,sharing)并没有被用户广泛标注或使用。这些关键词并不具有代表性,在文献查找时用户也很少使用它们进行文献查找,而更多倾向使用bookmarking、collaborative等被广泛认同的词汇。因此,通过社会化标注能够集合专家和用户的知识,可为文献的查找与检索提供更为有效的方案。
通过标签云与共现网络两者之间的对比可看出,标签云主要依据标签被使用的频率进行组织,仅仅突出了较为重要的词汇,而共现网络较好地体现出核心标签之间的关系。信息组织的核心内容便是揭示标签间的内在逻辑关联,通过共现网络核心部分的可视化可更好地帮助用户理解文章要点,进行有效的信息组织。
4 讨论
上文利用CiteUlike的数据集绘制标签的共现网络,在分析网络性质的基础上现对标签领域研究的共现网络做进一步探讨。
a.标签共现网络是一种复杂网络,并呈现“小世界”现象与“无标度”特征。社会化标注使用户可自由选择与主题相关的标签组合,一方面保证词汇的丰富性与准确性,另一方面增大了各标签间的共现可能性,从而保证整个网络良好的凝聚性,呈现“小世界”现象。同时根据“优先连接”机制[12]可知,用户在标注一篇新的文献时,更加趋于选用该学科的基础词汇或被用户广泛使用的词汇,如tagging、folksonomy等,使得网络具有“无标度”特征。把握网络的核心关键词,对学科知识导航的建设具有指导意义。
b.标签共现网络是词汇相关性的体现。共现网络的形成机理源于“相关性原理”,尽管标签是用户自由添加的,但依然隐藏着从无序到有序的潜力[13]。在社会化标注中,标签并未受到限制,而与用户的理解相关联的,由此造成了大量语义模糊的标签,利用词汇的相关性有助于理解标签。如标签tagging,其研究范围广泛,应用多样,用户使用tagging标签时代表的含义多样。但是本例中可知,当tagging与ir、information_retrieval共现时,指标签与检索的研究,而tagging与recommender、recommendation等连通时,则代表着基于标签的个性化推荐研究等等。可见,对于内涵广泛且频率高的词汇而言,利用共现网络丰富其内涵与外延是十分必要的。
此外,利用词汇相关性也可明确多义词的含义,比较典型的是20、delicious。其中20代表着数字20,但是在这里通过与其共现的词汇tag、tagging、Web20,可以明确其代表着Web2.0的含义;而delicious作为美味的含义,但很明显在此处指的是社会化标注的热门应用网站美味网。通过词汇与其他标签的关系,能够消除标签的歧义,明确词汇所指内容,在资源共享中避免信息冗余。
c.标签共现网络是一种有效的可视化方式。与标签云、标签聚类等组织方式不同,标签共现网络能够揭示社会化标签之间的内在逻辑关系,并且其表现形式多样,能以直观、形象的方式展现领域研究重点、学科结构以及词汇间的关系,是一种有效的可视化方式。
然而,共现网络的研究也存在一些问题。由于词汇没有经过简单化、规范化地处理,大量同根异形的词汇产生了大量噪音,如tags、tag、tagging是同一意思的不同表达形式,由于用户在标注时会根据自己习惯使用不同的形式,导致以下现象的出现:网络某些节点之间连接分散,如tagging与某些词汇的连接需要通过tags、tag才可相连;网络出现个别连接大的非核心词汇节点,如tags。尽管该词连接了许多词汇,但是这些词汇也与tagging直接连接,使得tags在整个网络存在的意义并不大。因此,笔者对The Structure of Collaborative Tagging Systems的232个标签进行去除词根处理,最终得到157个标签,绘制的共现网络核心部分如图4所示。
图4 去除词根后标签的共现网络(核心部分)实心节点的K值=3为关键词,空心节点K值=2为次核心关键词
通过与图3(b)的对比,该图更加简单明地显示网络的核心词汇,在核心部分的展示中能够更加凸显重要词汇,有利于把握文章核心要点。George在文中指出目前标签的组织存在查准率低、缺乏相关性的根本原因在于词汇并没有遵循受控词汇,因此提升社会化标签在存储、组织和检索方面的效率需要对自由标签进行规范化[14]。而梁桂英等也提出tags元数据经过简单规范化处理,即可作为规范知识体系的基础语料[15]。对标签的进一步规范,有助于更好地体现共现网络。
5 进一步探索
通过对标签共现网络性质进行分析与讨论,笔者发现共现网络给网络信息资源组织提供了更多的科学指标,如:中心度、子群划分等等,这些指标能够帮助用户把握研究热点、关键点及总体结构。事实上,共现网络在知识管理、人工智能等多方面都具有独特优势,下文将对共现网络的两种应用——推荐机制和本体构建进行简单探讨。
5.1 推荐机制 用户使用标签的目的便是更好地组织和利用网络资源,利用标签共现网络不仅能够有效揭示标签之间的关系,也能很好地体现资源之间的逻辑关联,从资源的关联角度加强社会化标签的有序化。本文以资源推荐为目标构建资源间网络,根据用户对资源的查找与浏览实现相关文献的推荐。
与标签的共现关系相反,资源之间关联网络的基本原理是:资源之间至少使用两个相同的标签便产生关联,其后每多一个相同的标签其关联增加一。基于这种思想,本文将针对上文的134篇文献绘制了资源间的关联网络图(见图5),并进行k-核的凝聚子群分析。
图5 资源间的关系网络图
正方形节点K值=34,圆形节点K值=13,菱形节点K值=11,方形带圆节点K值=10,倒三角形节点K值=8,圆角方形节点K值=7,盒子形节点K值=5,倒正三角形节点K值=4,正三角形节点K值=3,加号K值=2。
由图5可发现,文献被划分成若干部分,不同形状资源间联系较为紧密,笔者认为利用子群划分可为用户在文献浏览时提供相似推荐。选取了正三角形子群中id分别为1084904、1409962、2562165的三篇文献:Combating Spam in Tagging Systems、A Statistical Comparison of Tag and Query Logs、Personalized Tag Recommendation Using Graph-based Ranking on Multi-type Interrelated Objects。从文献题目及摘要可知,研究均将关注点放在信息检索与查询上,若用户对其中一篇文献感兴趣,另两篇文献很大程度上属于用户的关注范围。因此,采用k核划分方法,能够为用户提供更加精准的相关推荐。
另一方面,用户在浏览文献时,不仅关心与之密切相关的文献,更希望获取该领域的经典权威文献。在CiteUlike中推出了领域搜索的功能,但是目前主要针对大的领域知识,如管理学、工程学等,对于特定学科的特定研究方向并没有细化。其次这种搜索主要针对搜索该领域的研究人员,而对文章并没有做详细的分析。因此本文从文献度数中心度加以考虑(见表3),以得到该研究领域的核心文献。其中,编号为361498,1670361,822253是度数中心度最高的三篇文献,篇名分别为Folksonomy as a Complex Network、Harvesting Social Knowledge from Folksonomies、Tag Recommendations in Folksonomies。对于初期进入该领域的学者与研究员,可通过阅读这些文献对标签研究有一个基本的认识。因此,笔者认为在领域检索方面,可增加对具体领域的文献搜索功能,并根据中心度趋势进行排序,着重推荐较高度数中心度的文献。
综上所述,该网络对信息的推荐机制具有实践意义,更能够方便用户的浏览与查阅。用户在阅读每一篇文献时,也可根据子群划分,推荐与之相似度较高的文献。同时,在具体领域查找方面,可根据该领域所有资源的关联网络,以度数中心度的高低为依据,对新进入该领域的学者提供文献阅读建议。此外,利用用户与用户之间的兴趣相似性,资源、用户、标签三者的直接关系等也可从不同角度挖掘出更多的有用信息。
5.2 本体构建 尽管大众分类法是自由自发的,概念与标签之间并没有统一规定语义,但是标签在系统中不同语境下会自然显示出所具有的语义[16]。加之大众分类法具有的动态性、回馈性,使得标签仍然隐藏着从无序到有序的潜力。针对该问题,K.Aberer提出了“浮出语义”(Emergent Semantic)的概念,即利用自底向上的思想来提取语义信息的方法。浮出语义无需事先给定全局的语义模型,而是通过信息源之间的交流,理解彼此的含义及想表达的语义,逐渐达到平衡,最终形成一个所有信息源认同的统一本体[17],如图6所示。
图6反映了社会化标注中浮出语义的原理:圆点表示一篇篇资源,资源间的交互体现在两方面:不同资源被用户用同样的标签标注;资源被使用了不同标签标注。通过资源间大量的这种交流,可逐渐形成统一的语义模型,即实现社会化标注的浮出语义。
1资源的被使用一样的标签标注
2标签同时标注了同一资源
图6 社会化标注中的浮出语义
这种方法依靠广大用户的协作及社会化软件的使用,不仅大大地降低了门槛、成本,并且能够帮助理清概念间的关系,适应动态的网络环境,进而明确本体构建使用的元数据与语义信息,为简单描述概念间关系的“轻量级本体”提供了途径。不少学者也基于这种思想提出构建本体的模型,如根据共现网络对标签进行分层,从而分析标签间的层次关系,进而形成轻量级本体;也有研究根据社会网络分析中的个体分析方法进而确定词汇的层次和类别,在此基础上对词汇进行抽取与规范,最终形成本体。但是这些研究均从理论层面展开,少量实证研究也仅仅停留在初期阶段。
因此笔者认为,标签共现网络对于构建“轻量级本体”具有指导意义,但这仅仅是一小步,完成这种转变还需要更多的努力。如何开发建立本体的技术平台、如何更好地发挥用户的协作性等等问题都值得进一步研究。
6 结语
本文在梳理社会化标签研究的基础上,结合社会网络分析方法对CiteUlike数据进行实证研究,构建以标签为单位的共现网络,通过分析认为基于社会网络分析的标签共现网络具有较强适用性:网络呈现“小世界现象”与“无标度特征”,体现词汇之间的相关性,是一种有效的可视化方式。同时,从推荐机制与本体构建两方面对共现网络的应用进行扩展。在推荐机制的研究中,结合实例提出CiteUlike网站中方便用户查找和浏览文献推荐建议,即构建资源的关联网络,在领域搜索中推荐度数中心度较高的资源,在文献浏览中推荐与之相关性较大的资源。在本体构建的研究方面,从理论层面展开,需要进一步的探索。除此之外,本研究在数据集的选取、数据规范处理以及应用的研究方面都有进一步提高的空间。