基于SNA的社会化标签系统标签资源聚合研究_sna论文

基于SNA的社会化标注系统标签资源聚合研究,本文主要内容关键词为:标签论文,系统论文,资源论文,SNA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      Folksonomy,或称分众分类法,最早由Thomas Vander Wal和Gene Smith提出,是“Folk”和“Taxonomy”两个单词的组合,意为“以用户为中心的基于大众一致意见产生的分类体系”[1],即用户按照自己的分类标准,依托标签共建共享平台,赋予信息资源特征标识(标签),并按照标注频率高低进行聚类的资源聚合方法。

      SNA(社会网络分析法),是对社会网络中行动者之间的关系进行量化研究的方法[2],即研究者通过数据统计,借助社会网络分析软件,按照资源之间的关联关系对资源网络进行结构划分的资源聚合方法。

      国外学者对社会化标注系统标签资源聚合方法的研究,主要集中于Folksonomy与Ontology[3][4]、文献计量法[5]的互补融合。国内主要集中于Folksonomy与主题词表[6]、Ontology[7]、概念格[8]等方法的互补融合,但鲜见学者开展Folksonomy与SNA互补和融合的研究。本文以豆瓣网图书情报学科图书标签为例,指出Folksonomy实现资源聚合的不足,在此基础上,利用SNA实现标签资源的重新聚合,分析SNA实现标签资源聚合的优势,最后,对社会化标注系统标签资源聚合提出建设性意见。

      2 社会化标注系统标签资源聚合过程分析

      虽然Folksonomy与SNA均是资源聚合方法,但两者实现标签资源聚合的思路存在差异。Folksonomy实现标签资源聚合的思路为统计高频标签

绘制标签云

标签聚合结果分析,社会网络分析法实现标签资源聚合的思路为标签关系矩阵构建

中心性分析

关联性分析

群聚性分析

标签聚合结果分析。依据以上的聚合思路,确定社会化标注系统标签资源聚合过程如表1所示。

      

      如表1所示,本文以豆瓣网图书情报学科的图书标签为样本数据,利用c#、R语言、Ucinet、Excel等技术和工具,从Folksonomy与社会网络分析法两个根维度,以及词频、中心性、关联性、群聚性等子维度实现社会化标注系统标签资源聚合。

      C#程序是由C和C++衍生出来的面向对象的智能化的编程语言,允许程序员快速编写所需的应用程序,是标签数据处理阶段的重要工具。R是统计分析和制图的工具,对中文具有较强的分词效果,简单易学,功能全面,是制作标签云的首选工具。Ucinet作为可视化的社会网络分析软件,功能强大,形成的标签共现和聚类图谱能很好地揭示标签资源网络的结构与特征。

      3 数据来源和处理

      本文以豆瓣网中图书情报学科的图书标签为数据采集和分析对象,借用吴丹[9]对iSchools研究兴趣进行统计得到的50个图书情报领域的中文关键词,对豆瓣网中的图书情报领域图书进行检索。表2为吴丹统计的图书情报领域关键词的中文部分。

      

      依据表2的关键词,自编C#程序,抓取图书标签,由于图书标签众多,故按标注频次只抓取前8个,经过无标签图书删除、ISBN图书去重、标签去重等数据清理程序,共得到图书1637本,标签2889个。笔者认为标注系统中的标签与论文的关键词类似,通过对标签进行频次统计和社会网络分析,有助于识别标签资源网络中的关键标签和标签团体,从而实现标签资源的聚合。

      4 基于Folksonomy的社会化标注系统标签资源聚合

      4.1 基于高频标签统计的标签资源聚合

      高频标签指用户标注过程中使用频率较高的标签,用于测量标签资源网络中标签的重要程度。基于高频标签统计实现标签资源聚合有助于识别标签资源网络中的重要标签,划分标签等级。利用R语言对抓取的标签进行处理,形成标签云,由于篇幅有限,本文只显示排名前100的高频标签,表3是高频标签统计表(前50)。图1是高频标签共现的标签云图。

      

      

      图1 高频标签共现云图

      由图1所示,标签的大小显示出标签出现频次的高低,在一定程度上能衡量标签的重要程度,结合表3,可以将图书情报学科的图书标签按照重要程度分为3个等级:(1)词频≥100。此组内的标签最为重要,出现次数最高,主要包括“信息管理”、“计算机”、“系统设计”、“网络信息和经济”、“信息经济”及“教材”等。(2)词频(60~100)。此组内的标签比较重要,出现频次比较高,主要有“信息安全”、“搜索引擎”、“数据挖掘”、“信息检索”、“信息技术”、“信息文化”、“电子商务”、“信息系统”等。(3)词频≤60。此组标签一般重要,出现频次一般,主要有“营销学”、“项目管理”、“知识产权”、“竞争情报”、“知识管理”、“信息交互”等。

      4.2 Folksonomy标签资源聚合劣势分析

      从上述聚合过程可以看出,Folksonomy实现标签资源聚合劣势明显。

      (1)聚合维度上,Folksonomy仅从标注频次维度实现资源聚合,聚合维度单一,属于标签资源的平面化聚合,不能形成多维立体的标签资源聚合体系。

      (2)聚合技术上,Folksonomy通过标签云技术实现标签资源聚合,标签云图生成较为困难,需要研究人员具备计算机知识,掌握标签云生成工具。

      (3)聚合效果上,Folksonomy实现标签资源聚合未能挖掘标签之间的语义关系,故不能形成完整的标签资源聚合体系,且存在非规范、语义模糊等问题。

      (4)聚合应用上,Folksonomy在聚合维度、技术尤其是聚合效果上的不足,限制其应用领域的扩展。目前,Folksonomy还未能应用于学术资源、社交平台人际关系资源等的聚合研究。

      5 基于SNA的社会化标注系统标签资源聚合

      基于相同的样本数据,利用SNA实现社会化标注系统标签资源的重新聚合。

      一是由于篇幅原因,二是软件处理的数据量有限,三是笔者认为共现频次较少的标签在标签资源体系中的重要程度相对较低,故本文只分析共现频次≥10次的标签组,共164组,107个,表4是共现频次≥10次的标签组统计表(部分)。

      

      利用Ucinet对抓取的标签进行可视化分析,如图2所示。

      如图2所示,高频标签共现图谱虽然能显示出标签资源网络中的重要标签,但要明确标签“权力”、“控制力”大小,标签间关系的远近、标签群组划分等问题,则需进一步计算与分析。

      5.1 基于网络中心性的标签资源聚合

      网络中心性,用于衡量节点在整个网络中的地位和影响力[10]。中心性的衡量指标有3个:点度中心性(degree centrality)、中介中心性(betweenness centrality)、接近中心性(closeness centrality)

      点度中心性用于衡量标签资源网络中标签权力的大小,如一标签与其他标签均有直接联系,说明其位于标签资源网络的核心位置,具有较大的权利[11]。网络中与该标签直接相连的标签数目是测量标准。依据点度中心性实现标签资源聚合,有利于识别资源聚合中的重要标签,这些标签与其他标签联系紧密,有利于促进知识交流与共享。利用Ucinet分析标签的点度中心度的步骤为:网络

中心度

度。

      中介中心性用于衡量标签资源网络中标签控制力的大小,如一个标签处于众多标签交往路径上,说明其体现出媒介特征,拥有较强的控制力[12]。依据中介中心性实现标签资源聚合能够发现标签间的内在联系,便于聚类。利用Ucinet分析中介中心度的步骤为:网络

中心度

Freeman中间度

节点中间度。

      接近中心性与中介中心性相反,用于衡量标签资源网络中标签不受其他标签的控制程度[13],接近中心性越高表明标签越接近中心位置,其独立性越强。依据接近中心性实现标签资源聚合有助于发现重要且独立的标签资源体系,便于完善标签资源聚合体系。利用Ucinet分析接近中心度的步骤为:网络

中心度

接近性。表5是点度中心度、中间中心度和接近中心度分别排在前12位的标签。

      

      图2 豆瓣网图书情报学科图书标签共现图(共现频次≥10)

      

      由表5可知,“计算机”、“互联网”、“管理”、“数据挖掘”、“搜索引擎”、“商业”和“电子商务”等标签无论是在点度中心度、中介中心度或者接近中心度上都排名比较靠前,说明这些标签在整个标签资源网络中处于绝对的核心位置,是标签资源聚合的归属点;“历史”标签的点度中心度和中间中心度较高,表明其位于标签资源网络的基础层且起到重要的连接作用;“竞争情报”、“社会学”标签的中间中心性较高,代表其枢纽作用发挥较好;“信息检索”、“IT”、“教材”、“营销”等标签的接近中心度较高,表明这些标签的独立性强,但共现频次较高,表明其位于独立性较强的标签资源体系中。

      5.2 基于网络关联性的标签资源聚合

      网络关联性用于判断和衡量网络节点间是否存在关联联系以及关联程度大小。网络关联性的衡量指标为可达性(reachability)。

      可达性用于测量标签资源网络中一标签到达另一标签的容易程度,可达性数值越大,表明标签资源网络的关联度越高。可达性计算针对有向矩阵而言。依据可达性实现标签资源聚合有利于构建关联度高的标签资源体系。利用Ucinet计算可达性的步骤为:网络

凝聚力

距离。图3为利用Ucinet计算的图书情报学科图书标签网络的可达性数值。

      

      图3 图书情报学科图书标签网络的可达性计算

      由图3可知,标签资源网络的平均距离为2.671,表明标签资源体系中任意两个标签要建立关联关系需借助2.671个标签。考虑到社会标注系统标签是用户自由标注的结果,标签本身具有关联度低等特点,本文计算出的可达性数值已算较高。

      5.3 基于网络群聚性的标签资源聚合

      网络群聚性是近年网络中较为流行的概念,用于标签资源网络的结构划分。网络群聚性的衡量指标为子群(派系)。

      子群(派系)用于标签资源网络的子结构划分及关系分析。基于子群(派系)实现标签资源聚合有利于把握标签资源网络的结构特征。凝聚的子群从互惠性、点的度数、可达性等角度可分为不同的类型。

      5.3.1 建立在互惠性基础上的凝聚子群

      互惠性用于判定标签资源体系中标签间是否存在互惠关系,两标签为双向关联则代表两标签存在互惠关系。基于互惠性的标签子群凝聚有利于识别标签资源体系中的强派系。利用Ucinet实现基于互惠性的子群凝聚步骤为网络

子组

派系,表6为建立在互惠性基础上的标签子群凝聚表。

      

      由表6可知,建立在互惠性基础上的标签子群共36组,为标签资源网络中的强派系。其中ID为1、17、18、20的子群所包含的标签成员最多,包含“计算机算法”、“人机交互”、“电子商务”以及“恐怖漫画”等标签。此外,“计算机科学”、“计算机”、“数据挖掘”、“电子商务”等标签同时出现于多个标签子群中,说明这些标签具有强互惠性,标签资源聚合中不能忽视这些标签的重要性。

      5.3.2 建立在点的度数基础上的凝聚子群

      点的度数用于衡量标签资源体系中与该标签临近的标签数量多少,临近标签的个数越多,点的度数值越高。基于点的度数的标签子群凝聚有助于增强标签聚合体系的内聚力。利用Ucinet实现基于点的度数的子群凝聚步骤为网络

子组

K-丛,由于篇幅有限,本文只显示标签成员≥5的子群。表7是建立在点的度数基础上的标签子群凝聚表。

      

      由表7可知,建立在点的度数基础上的17组标签子群,为标签资源网络中内聚力强的标签派系。其中ID为69的标签子组包含成员最多,内聚力最强,主要包括“计算机”、“互联网”、“数据挖掘”等标签。此外,“数据挖掘”、“搜索引擎”、“计算机”、“计算机科学”等标签出现在多个子组中,表明这些标签也具有高的控制力和权力。

      5.3.3 建立在可达性基础上的凝聚子群

      可达性用于判断标签间的关联程度,基于可达性的标签子群凝聚有利于发现标签间的关联关系。利用Ucinet实现基于可达性的子群凝聚步骤为网络

子组

n-丛。表8是基于可达性的标签子群凝聚表。

      

      

      由表8可知,建立在可达性基础上的标签子群共27个,子群内标签间的关联性较强。其中第1组包括的标签成员最多,共17个标签,主要包括“计算机”、“互联网”、“管理”、“数据挖掘”、“搜索引擎”等,表明这些标签具有高关联性的特征,是标签资源体系中的重要枢纽。

      通过从中心性、关联性和群聚性3个维度实现社会化标注系统标签资源聚合,不难发现,许多标签不仅具有较高的中心性,且在其所在的子群中扮演着重要的角色,如“管理”、“计算机”、“搜索引擎”、“数据挖掘”、“电子商务”、“竞争情报”、“IT”等,这些标签既是标签网络中的重要节点,也扮演着连接枢纽的角色,标签资源聚合应以这些标签为基点,通过关系延展和群组判定丰富标签资源聚合体系。

      5.4 SNA标签资源聚合优势分析

      从上述聚合过程可以看出,SNA实现标签资源聚合优势明显。

      (1)在聚合维度上,SNA从中心性、关联性和群聚性3个根维度,从点度中心度、中介中心度、可达性等若干子维度,实现社会化标注系统标签资源聚合,聚合维度多样,属于标签资源的立体化聚合,有助于构建多维立体的标签资源聚合体系。

      (2)在聚合技术上,SNA通过社会网络分析软件Ucinet、Netdraw等实现标签资源聚合,可视化软件操作容易,知识图谱生成过程简单,便于使用和掌握。

      (3)在聚合效果上,SNA实现标签资源聚能深入挖掘标签之间的语义关系,有助于形成完整的、规范的、语义清晰的标签资源聚合体系。

      (4)在聚合应用上,SNA在聚合维度、技术尤其是聚合效果上的优势,极大地扩展其应用领域。目前,SNA不仅应用于社会化标注系统标签资源聚合研究,还应用于学术资源、社交平台人际关系资源等的聚合研究。

      6 结语

      由上述分析可知,SNA实现社会化标注系统标签资源聚合的优势极大地弥补了Folksonomy标签资源聚合的劣势。基于此,本文对社会化标注系统标签资源聚合提出以下建议:

      (1)从聚合维度看,在坚持“用户为中心”的前提下,有重点地加强标签间的属性和关系挖掘,如上述提到的高中心性、关联性的标签,本着抓住关键点——点(高频、高点度中心度),把握好资源脉络体系——线(高中介中心度),从整体——面(子群或派系)上分析的原则,来完善标签资源聚合体系,实现标签资源的优化重组。

      (2)从聚合模式看,将“自下而上”和“自上而下”的标签资源聚合模式相结合。Folksonomy自下而上的标签资源聚合模式体现出极强的实用性,SNA通过对标签资源关联关系挖掘和群组划分,实现了自下而上的资源聚合,表现出极强的逻辑性、层次性和整体性,两者的互补融合必然能建构出多维立体和实用性极强的标签资源聚合体系。

      (3)从聚合方法看,Folksonomy与SNA相结合的资源聚合方法,能寻找出社会化标注系统标签资源聚合中准确性与全面性、自由性与关联性的平衡点。但两者的结合并不能解决标签资源聚合中的所有问题,标签资源的最优聚合还需借鉴本体、文献计量等方法。

      (4)从聚合系统的完善看,构建敏捷完备的资源聚合反馈系统应作为社会化标注系统标签资源聚合的重点[14],Folksonomy与SNA两种资源聚合方法均未能将反馈系统构建融入资源聚合过程。用户的反馈信息能帮助研究人员和社会化标注网站准确快速地定位问题之所在,反馈系统的建设应作为今后资源聚合工作的重点。当然,构建完备的反馈系统需要用户、研究人员和社会化标注网站相互协作与配合。

标签:;  ;  ;  ;  ;  

基于SNA的社会化标签系统标签资源聚合研究_sna论文
下载Doc文档

猜你喜欢