Folksonomy模式中的知识群落及其核心知识分析,本文主要内容关键词为:知识论文,群落论文,核心论文,模式论文,Folksonomy论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号:G250.7 DOI:10.13266/j.issn.0252-3116.2015.22.019 修回日期:2015-11-01 1 研究背景及相关工作 Folksonomy[1]知识组织模式在给人们的信息检索活动带来诸多便利的同时,也存在着一些未能尽如人意的缺憾。目前,实际应用中的热门标签云(tag cloud)尚无法体现标签间的关联关系,外观上混沌离散的标签云向用户呈现的热门主题也仅仅是星罗棋布的知识碎片。面对社会化标注系统中的这一不足,近年来一些学者对社会化标注系统中潜在的知识关联及知识结构进行了有益的探索和研究。 英国巴斯大学的托金(E.Tonkin)[2]针对社会化标注系统中用户标签龙蛇混杂、良莠不齐的现实情况,以提高检索的准确度为目的,对用户标签进行了分类,尝试揭示Folksonomy模式中隐含的知识结构关系,进而从混杂的标签集合中过滤出更清晰的语义信息。而斯坦福大学的海曼(P.Heymann)和加西亚-莫利纳(H.Garcia-Molina)[3]则直接对Folksonomy模式所表现出的“平层型”特征提出了挑战,他们基于相似性和中心性的计算,构建了Folksonomy模式中潜在的层级模型,揭示出了“平层型”表象下的知识层级结构。此外,美国德保罗大学的夏皮特森(A.Shepitsen)等人[4]则从用户知识导航的视角出发,对Folksonomy模式中的用户标签进行基于语境的凝聚性层级聚类。他们的实验表明,基于知识关联的层级聚类能够提供多主题的知识推荐,比单一主题的知识推荐更具有实用性。意大利学者卡杜多(C.Cattuto)等[5]则进一步基于用户的合作标注行为,采用“资源距离”(resource distance)构建Folksonomy模式中的资源加权网络,并通过资源间的语义关联,对资源网络中隐含的知识群落结构进行了初步探索。与此同时,国内学术界近年来对Folksonomy知识组织模式中的知识结构问题也展开了相关研究。研究的主要方向集中在本体结构视角下的Folksonomy知识结构研究[6-7]和词表结构视角下的Folksonomy知识结构研究[8-9],以及用户标签的层级性研究[10-11]等。 尽管学术界在社会化标注系统的知识关联与知识结构方面取得了较为丰富的成果,但其中的绝大多数研究成果仅仅停留在社会化标注系统中层级性的初步认识上,而对于客观的知识层级结构的具体构成以及由此展示出的知识关联关系的复杂性则鲜有问津。与此同时,复杂网络分析(CNA)[12]技术的兴起,为从网络视角深层次解析社会化标注系统中的知识关联与知识结构提供了新的途径。美籍知识图谱专家陈超美[13]博士在阐释词的图谱时曾经指出,科学知识不仅仅产生于专家共同体内部。Folksonomy知识组织模式的本质恰恰是社群中群体意识的体现,运用复杂网络技术基于外在混沌离散的用户标签构建社群知识网络,既能够反映出普赖斯(D.Price)所提出的“地下学院”中的非正式学术交流网络,同时也从用户标签的视角扩展了克兰(D.Crane)的“无形学院”。有鉴于此,本文采用复杂网络分析技术,从客观知识的视角对社会化标注系统下的社群知识群落的层级性进行探索,并通过对知识群落以及群落知识的深层次分析,拓展和深化Folksonomy模式中知识结构的层级属性,对知识群落内部的核心知识以及群落中知识的伴生性进行揭示。 2 基于标签关联的社群知识网络构建 2.1 用户标签的采集与预处理 在此前的研究工作中,课题组已经基于BibSonomy.org网站的社会化标注系统开展了针对用户标签的结构特征、中心性、语义紧密性、标签云优化等多个方面的研究探索。基于研究工作系列性的考虑,本文仍然选择上述研究中曾经使用过的BibSonomy.org网站社会化标注系统中的标签云作为原始数据源,其具体呈现方式如图1所示。 图1 BibSonomy.org网站热门标签云 资料来源:http://www.bibsonomy.org/tags,访问日期:2012-10-15 图1标签云中共包含了98个用户标签,分别代表了BibSonomy知识社区中具有较高关注度的社群知识。这些代表了不同知识概念的用户标签散乱地排列于热门标签云中,尽管标签云中的标签字号反映了知识的热门程度,但是其既缺少严谨的学科体系分类,也没有呈现出知识之间的任何关联关系。就这一情况来看,Folksonomy模式中的标签云仅仅是一堆离散的知识碎片的呈现。 研究中,为了更本质地反映Folksonomy知识组织模式中用户标签的原生态,对原始用户标签保留了初始状态,如“network”与“networks”被视为两个标签。尽管在一般的共词研究中,这种情况应该通过数据清洗过程予以归并,但保留这种原生态标签却从另一层面展示了社群用户群对概念细节的区分。如“network”与“networks”的共存展示了社群对“网络”与“多网络”之间知识内涵的区别对待,即对网络内部与跨网络之间的不同认识。在Folksonomy知识组织模式中,同一知识资源往往会被诸多社群用户标注上许多不同的标签,如“资源1”被“标签1”“标签2”“标签3”“标签4”共同标识。相对于某一具体资源而言,不同标签按照热门程度上浮形成基于特定资源的领域标签云集。例如,如果“资源1”被“标签1”“标签2”“标签3”“标签4”分别标注1次、2次、30次、40次,则“标签3”和“标签4”就基于其热门程度的显著性上浮形成小型的标签云集,而“标签1”和“标签2”则下沉淡出云集,此时云集中的标签(“标签3”“标签4”)就被互称为关联标签(related tag)[14]。根据关联标签原理,通过人工筛查建立用户标签之间的关联,并以此来反映社群知识之间的关联关系。即,如果两个用户标签在BibSonomy知识社区中互为关联标签,则标签所代表的知识概念之间就具有满足条件的关联关系。据此所建立的标签关联关系如表1所示。 2.2 社群知识网络构建 将表1所呈现的关联关系视为邻接矩阵,就可以借助复杂网络分析[12]技术构建基于关联标签的社群知识网络。将表1所代表的邻接矩阵导入网络分析软件Gephi[15],初步获得社群知识网络,如图2所示。 图2 社群知识网络 图2所示的社群知识网络中,网络的节点代表社群中的知识节点,节点之间的连线代表知识之间的关联关系。与图1中的标签云相比较,网络中社群知识之间的关联关系得以呈现。然而,图2网络中所呈现出的关联关系仍然是纷繁散乱的,相互关联的知识与知识之间的关系并不十分清晰,而且难以判识不同知识之间关联的紧密程度以及相应的子结构。 3 基于网络分析的知识群落构建 所谓知识群落是指超越传统知识体系划分的知识集合体,其往往基于知识间潜在的内在联系或特定的研究目标而形成,群落内的知识既相互促进也相互制约。知识群落就像生物界的植物群落,超越了“纲-目-属-种”的体系规制而群聚形成群落,而且知识群落具有一定的动态性,会随着科学研究发现以及人类认知的发展变化而生长或衰老。子知识群落(子群落)则是指知识群落的子集,在知识群落中往往反映更细粒度的知识团簇。 3.1 社群知识群落构建机理 在社群知识网络中,节点之间的连线说明相关知识之间具有一定程度上的关联关系。然而,这种关联关系是否能够将相关的知识点在具体的社群知识网络中凝聚成具有一定稳定性的知识群落,就需要展开科学细致的探索。研究中,为了探寻和构建社群中潜在的知识群落,采用布隆代尔(V.D.Blondel)算法[16],通过对社群知识网络的模块化处理,识别和构建社群知识群落。布隆代尔算法的具体内容如公式(1)所示: 公式(1)中,ΔQ是节点(知识点)i划入模块(知识群落)C后所产生的收益,如果ΔQ>0,则该节点i被归入模块C,或者说知识点i属于知识群落C。是知识群落C内部知识之间连接的权重之和;是知识群落C内各知识点发生的全部连接(包括群落内部知识点与群落外部知识点的连接)的权重之和;是知识点i发生的全部连接(全网络范围的)的权重之和;是知识点i与知识群落C内各节点连接的权重之和;m是社群知识网络中所有连接的权重之和。 3.2 社群知识网络中的知识群落构建 依据公式(1)将图2社群知识网络中的各知识点根据其并入某一节点集合后产生的收益值的正负性(增加收益或减少收益),将所有的知识节点共归结为七个模块。这种收益值的基础来自于节点间的连接关系,此时对于任意一个模块所代表的节点集合而言,再并入任何一个模块(集合)外的节点都将使该模块(集合)的总体收益下降,即导致新节点并入后的模块的连接紧密性比新节点并入前下降,也就是说模块内各节点之间连接的紧密性已经达到最高值。每一个模块代表一个特定的社群知识群落(编号由0到6),如图3所示。 图3 社群知识网络中的知识群落 图3中的社群知识群落反映了社群用户在现实中基于认知实践所形成的知识聚类。这种聚类未必是严格遵照学科体系或类目的划分,可能是基于具体的知识活动中针对特定问题所涉及的知识群簇,甚至是基于社群用户生活、工作、学习中的耳闻目染。其中,每一个社群知识群落都是由多个不同的社群知识节点凝聚而成。其中规模越大的知识群落所包含的知识节点越多(如图3中的“群落2”);反之如果某一群落中的知识节点越少,则该群落的规模就越小(如图3中的“群落4”)。在图3所示的6个知识群落中,群落内部以及群落之间的知识节点之间存在不同的关联关系,但是关联更为紧密的知识节点相互凝聚成一个共同的知识群落。这种知识群落就像自然界中的植物群落一样,其内部的知识节点在特定的主题或目标下相辅相成、相互依赖和支撑。图3中每个知识群落的具体知识构成如表2所示。 4 群落与群落知识分析 4.1 社群知识与群落知识 一个社群的知识往往会涵盖比较宽泛的知识领域,在这一较为宽泛的社群知识领域中,根据知识间潜在的关联或不同的研究目标又会形成多个知识群落。这其中,是否存在群落内部的核心知识点或者整个社群知识网络范围的核心知识点,则是需要进一步研究分析的问题。如果存在这种处于某一层面上的核心地位的知识,那么社群知识网络的核心知识与各个知识群落内部的核心知识之间的关系,则又值得进一步挖掘和揭示。研究中发现,图2所示的社群知识网络中,点度最大值为18,最小值为1。也就是说,在98个知识节点中,确实存在核心与边缘之分,且处于核心地位的知识点与社群知识网络中的其他18个知识点存在关联关系。 以18为阈值对社群知识网络中的知识节点进行过滤,得到点度为18的知识点为“web2.0”,并且是整个社群中最主要的核心知识点。进一步扩大筛选范围,将点度阈值设置为12~18进行过滤,得到较重要的社群核心知识点“blog”“free”“search”“social”“tools”“semantic”“web”“software”“programming”“development”“reference”“design”,见图4。 图4中,全社群最主要的核心知识点“web2.0”位于规模最大的知识群落中(群落2),其所涉及的领域比较宽泛。调整筛选阈值后获得的较重要的社群核心知识点分布于规模排名靠前的几个知识群落(“群落2”“群落3”“群落6”“群落5”)。显然,图4中“web2.0”与“blog”“social”“semantic”等知识节点的关系已经超越了传统的学科体系或类目的隶属关系。进一步以图4中右侧的“群落6”为例,如果不考虑群落内部知识节点与群落外部知识节点的跨群落关联,则“群落6”内部拥有最大点度的知识节点为“semantic”,点度为12,是群落6中的主要核心知识点。此外,“群落6”中依据点度降序排列依次是“knowledge”“ai”“information”“paper”“ontology”等知识点。结合表2中“群落6”的知识构成可以看出,“群落6”主要是在“web2.0”(全社群知识网络中的核心知识)环境下,围绕“语义”“知识”“人工智能”“信息”“本体”等知识点凝聚而成的子群。而在全社群范围内处于较重要核心位置的知识点“web”,则仅在“群落6”中列第8位,并非是“群落6”的核心知识。 由此可见,尽管知识群落植根于整个社群知识网络生态系统中,但是每一个知识群落都有其自身的核心知识。在全社群知识网络范围内处于较重要位置的知识,往往涵盖较为宽泛的主题,未必就一定是其所在群落的核心知识。 4.2 知识群落与子群落 从社群知识网络中提取出的知识群落可以进一步细分成若干子群落。以上文中“群落6”知识群落为例,依然采用布隆代尔算法[16]对“群落6”进行子群落提取,得到4个更细粒度的子群落(子群落6-1、子群落6-2、子群落6-3、子群落6-4)。具体见图5。 图4 社群核心知识分布 图5中,规模最大的“子群落6-1”的核心知识侧重于人工智能和自然语言处理;“子群落6-2”的核心知识侧重于知识信息管理;“子群落6-3”的核心知识侧重于语义网络及本体工程;“子群落6-4”的核心知识则侧重于可扩展标记语言。其中,作为“群落6”主要核心知识的“semantic”隶属于规模第二大的“子群落6-3”。 由上述分析可知,Folksonomy知识组织模式下的社群知识网络中,一个知识群落的核心知识未必产生于群落内部规模最大的子群落。且在网状结构的社群知识网络中,知识群落具有嵌套性,一个知识群落内部可以进一步划分出更具专指性的子知识群落。从这一点上讲,尽管网状结构能够很好地揭示出社会化标注系统中错综复杂的知识间关联关系,但是这种网状结构中仍然隐含着潜在的具有嵌套性的层级结构。相对于传统知识组织体系中隶属关系鲜明的“树形”结构而言,知识群落在内部关联与外部关联上更为丰富和多样。 图5 知识群落中的子群落分布 5 结语 通过上述对Folksonomy知识组织模式中知识群落以及群落中核心知识的分析可以得出如下结论:①Folksonomy模式中存在着基于知识之间潜在关联或不同研究目的而形成的不同的知识群落,而且随着社群成员知识的发展和科学研究发现的进步,这种知识群落显然具有一定的动态生长性。②以网状结构为基础的知识群落具有嵌套性,而且随着知识群落嵌套层级的细化,子知识群落的知识专指性越强。③在知识群落的视角下,即使是一个群落中的核心知识也并非是孤立存活的,往往是在多个相关知识共同簇拥拱卫下生长发展起来的。④知识群落的结构不同于本体(多重继承)或词表(“树形”分支)结构,其群落内部和跨群落的知识关联更为丰富,任何一个知识节点的生长发展都是基于节点自身的生命力和周边相关知识的辅助。下一步的研究中,将在本文提出的知识群落的基础上,进一步探索群落知识的伴生关系,以期为Web2.0环境下Folksonomy模式中知识结构的深入研究做出有益的探索。 作者贡献说明: 滕广青:负责研究方案设计、数据分析、论文起草; 扬明秋:负责数据分析、论文修改; 田依林:负责数据分析、论文修改; 黄微:负责研究方案设计。标签:标签云论文;