基于概念格的民俗知识组织研究关联标签的结构特征分析_关联规则论文

基于概念格的Folksonomy知识组织研究——关联标签的结构特征分析,本文主要内容关键词为:特征论文,概念论文,结构论文,标签论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 背景及相关工作

自从2004年“Folksonomy(社群分类法)”[1]作为现代开放语义网络环境下一种全新的知识组织模式首次在互联网上发布,迄今已历时8年。8年中,针对Folksonomy知识组织模式的相关理论研究不断地积累和深化,学术界关于Folksonomy的相关研究成果不断推陈出新,人们从早期对Folksonomy作为一种新颖分类法的初步认识,已经升华到在Folksonomy知识组织模式中对本体论与认识论的统一。与此同时,在实际应用领域,Folksonomy知识组织模式正以前所未有的势头从早期的图片分享、网络书签、网络博客等典型的虚拟社区型网站迅速蔓延到商业零售、网络馆藏、文献参考等众多类型的网站。

Folksonomy知识组织模式在互联网上的各种类型网站中不断蔓延的同时也在悄然地发生着进化。其中一个明显的趋势就是,越来越多的采用Folksonomy模式进行知识组织的网站在传统热门标签云(Tag Cloud)导航的基础上纷纷增设了“关联标签(Related Tag)”以辅助导航。关联标签能够从用户个性化语义认知的层面,通过附着在同一资源上的标签(Tag)间相互的关联关系丰富网站资源的呈现维度,弥补早期朴素Folksonomy单纯依靠统计学原理使标签上浮生成标签云的不足。显然,关联标签在一定程度上解决了网站标签“沉底”和知识窄化等问题,一些大型的采用Folksonomy模式进行知识组织的网站(包括:LibraryThing.com、Connotea.org.BibSonomy.org等)已经开始借助关联标签改进和完善自身的知识组织架构。因此,关联标签必然会成为未来Folksonomy知识组织模式相关研究的一个重要方向。

近年来,国际学术界针对早期朴素Folksonomy知识组织模式中热门标签云的平层型导航的不足,陆续开展了探寻和丰富标签间关系的相关研究,并已经取得了一些进展。德国学者Schmitz等[2]针对Folksonomy模式中的轻量级标签结构只能提供少量的概念关系这一情况,对标签间的关联规则进行了挖掘,并根据所获得的关联规则分析和重构了Folksonomy的架构,进而以此支持本体学习和浮现语义。意大利学者Cattuto等[3]以社会网络书签系统del.icio.us的数据为基础,在Folksonomy的相似标签与WordNet的同义词集之间建立了映射关系,并借助语义距离验证了被映射标签间的语义关联。Zhitomirsky-Geffet等[4]则通过对多用户在同一资源上的协作标注行为的分析,提出了基于多用户不同视角的标签(概念)关联方法和总体框架,并借助标签间的关联关系构建了多维度的、动态的领域本体,提高了资源浏览和检索的效率。最近,考虑到一般的标签扩展行为可能会造成的主题漂移,Li等[5]在研究中利用背景知识对标签进行扩展,并采用连带模型对原始标签和扩展标签进行了考察,缓解了一般标签扩展行为所造成的主题漂移,并验证了这种基于标签的语义扩展比以词汇为基础的聚类在统计学上具有更高的满意度。与此同时,一些比较优秀的文献已经被译成中文后引入国内[6,7]。但是,专门针对在实际应用中的关联标签的相关研究,目前在学术界仍处于空白,毕竟关联标签这一新生事物在Folksonomy家族中才刚刚面世。

鉴于当前Folksonomy知识组织模式中关联标签实际应用的现实情况,本研究以概念格理论为基础,采用形式概念分析(Formal Concept Analysis,FCA)[8]的方法,以BibSonomy.org的真实数据为研究对象构建关联标签概念格。进而在概念格基础上进行关联标签的聚类分析和关联规则挖掘,以此揭示出关联标签间隐含的概念间关系和潜在的语义关联,探索Folksonomy知识组织模式中隐含的结构特征,完善Folksonomy知识组织模式的标签导航体系。

2 研究思路与技术路线

目前,人们对Folksonomy知识组织模式中的关联标签的认识还没有一个准确的定义。一般而言,同一知识资源在Folksonomy知识组织模式中往往会被社群用户标注上许多不同的标签,它们会按照热门程度上浮形成基于特定资源的领域标签云集,云集中的标签就被互称为关联标签。从这个意义上讲,关联标签能够通过不同用户的语义认知和标注行为,从不同的视角对特定的知识资源给予多维度的标注与呈现。与传统Folksonomy知识组织模式中的热门标签云不同的是:关联标签一方面依旧可以随时根据标签实现知识资源的直接定位,体现其在结构上的“平层性”;但同时又可以从某一热门标签开始,沿着其关联标签展开导航,不断地延伸和扩展检索任务。

在以往的研究中,关于标签间关系分析的相关研究已经积累了一定的成果,但是专门针对关联标签这一新生事物的研究尚没有成果问世。本研究采用国际数据分析与概念化知识处理领域中新兴的基于形式概念分析的概念格理论与技术,借助其对数据细节可视化呈现的优势以及对事物复杂性的形式化描述的特长,对关联标签进行聚类分析与关联规则挖掘,探索Folksonomy知识组织模式中隐含的结构特征。采用形式概念分析的方法通过构建概念格来分析研究Folksonomy模式中标签的语义特征时,通常以{资源,标签,资源与标签间关系}构建形式背景,据此勾勒出{对象,属性,关系}[9]。本研究中,鉴于研究的目的主要在于揭示关联标签间隐含的概念间关系和潜在的语义关联,因此开创性地将某热门标签的第一梯次关联标签集合T作为形式背景的对象集合,将第二梯次关联标签集合t作为形式背景的属性集合,将两个梯次关联标签间的关系集合R作为形式背景的关系集合,以此构建关联标签形式背景K:=(T,t,R)。(Ti,ti)∈R表示对象Ti具有属性ti,即标签Ti拥有ti这样一个关联标签。其性质相当于将第二梯次关联标签视为第一梯次关联标签的标签。根据上述关联标签的形式背景K:=(T,t,R),采用形式概念分析的方法可以构建关联标签概念格L:=(T,t,R)。进而在关联标签概念格的基础上,分别进行聚类分析与关联规则挖掘,并基于分析与挖掘的结果揭示关联标签中隐含的结构特征。基本技术路线如图1所示。

图1 基于概念格的关联标签结构特征分析的技术路线

3 研究对象的选择与数据准备

选择BibSonomy.org的真实数据作为研究对象。BibSonomy.org是由德国Kassel大学的知识与数据工程小组(Knowledge and Data Engineering Group)架设与维护的、主要针对科研人员的社会书签和出版共享系统。该系统采用Folksonomy模式组织网站的知识资源,并引领Folksonomy知识组织模式的理论研究和实践应用,是目前Folksonomy家族中较早使用关联标签辅助导航的大型学术资源网站之一。

在BibSonomy.org中,可以通过点击热门标签云中的相关标签浏览其所对应的相关资源,与此同时网站会向用户提供被点击标签的关联标签以辅助导航,进一步点击其中某一关联标签,又可获得“关联标签的关联标签”,从而将导航梯次展开。其热门标签云与相关关联标签的导航关系如图2所示:

图2 标签云与关联标签导航页面①

正像大多数将Folksonomy模式应用于知识组织的网站一样,图2中的热门标签云采用了基于统计学的标签呈现方式,以标签字号的大小反映该标签在BibSonomy.org的热门程度和受关注程度。从标签云中的某一标签开始,BibSonomy.org在按照传统Folksonomy模式以平层型结构组织列示相关资源的同时,还向用户提供了相应的关联标签以实现层级型导航,并且能够以“关联标签的关联标签”形式梯次展开。在每一个梯次中,用户都可以随时选择获取相应的资源或者继续展开导航。

图2所呈现的基于关联标签梯次展开导航的知识组织结构并非传统分类法中等级森严的树形结构或盒状结构[10]。由于关联标签间的关联关系是相互的,因此在每一个梯次中展开的关联标签中都有可能包含前一梯次或更早梯次中已经出现过的标签。所以,严格地讲,基于关联标签的辅助导航实际上是一种笔者在前期研究成果中提出的形式层级(Formal Hierarchy)结构[9]。

从BibSonomy.org的标签云导航页面中选择“Ontology”标签(包括其复数形式“Ontologies”),获得其第一梯次关联标签40个,进而针对每一个第一梯次关联标签,通过BibSonomy.org的“Related Tag”栏又分别获取其各自的、第二梯次的关联标签各20个,共计800个,由此形成的“对象-属性”数据矩阵共包含关系数据32 000个。然而,正如Ganter和Wille所指出的,如此大的数据规模(>50)将对所生成的概念格的可读性和可视性产生十分不利的影响[8],加之社群用户所使用的数据当中存在着大量的重复与歧义等数据噪音,因此有必要对实验数据进行预处理。对40个第一梯次关联标签经过人工去重、合并、消歧、筛选、清洗等处理后保留17个标签组成了第一梯次关联标签集合T。经过同样的数据预处理过程后获得有效的第二梯次的关联标签38个,组成第二梯次关联标签集合t。由此产生的第一梯次关联标签集合T与第二梯次关联标签集合t的关系集合R由646个关系数据构成。两个梯次的关联标签如图3所示:

图3 “Ontology/Ontologies”两个梯次的关联标签

4 基于概念格的关联标签分析

4.1 关联标签概念格的构建

采用形式概念分析的方法,依据图3中经过预处理的实验数据集构建关联标签的形式背景,形式背景中的所有形式概念通过“层次序(≤)”组成的集合称为该形式背景上的概念格[8]。由“Ontology/Ontologies”标签衍生的两级关联标签构成的概念格Hasse图如图4所示:

图4 “Ontology/Ontologies”关联标签概念格Hasse图

其中,概念格中的每一个节点对应一个概念,空心节点代表潜在的概念,其余节点分别由第一或第二梯次关联标签所标识,各关联标签所代表的实际意义见图3。处于概念格Hasse图上层的概念节点比其下层的概念节点涵盖更多的第一梯次关联标签(顶部节点涵盖全部的第一梯次关联标签);处于下层的概念节点由其上层概念节点中的第二梯次关联标签所统驭,或者作为第一梯次关联标签被其上层概念节点中的第二梯次关联标签所标识。至此,基于形式概念分析构建的关联标签概念格,通过其Hasse图将关联标签间的复杂关系以可视化的形式展示出来。但是,Hasse图自身并不能完全揭示关联标签间隐含的概念间关系和潜在的语义关联,因此,还需要基于概念格进行相应的聚类分析和关联规则挖掘。

4.2 关联标签的聚类分析

由于Folksonomy模式中社群用户的标签受用户认知的影响兼具恒定性与迭代发展的趋势[11],单纯依靠简单的分类显然无法揭示出关联标签间隐含的概念间关系和潜在的语义关联。依据图4中关联标签概念格的Hasse图,可以将“Ontology/Ontologies”标签的关联标签初步划分成“Web”、“Information”、“Knowledge”、“Software”、“Ontology”、“Design”、“Social”7个聚类,如图5所示。

图5 基于概念格的“Ontology/Ontologies”关联标签聚类

表面上看,实验数据的聚类结果不如杜威十进制(DDC)或中图法(CLC)等传统分类法的口径整齐划一,但事实上基于概念格的聚类结果解释了关联标签之间的概念区别与联系,对标签进行了最大频繁项(标签特征)的聚类,是最能反映关联标签特征的。

图5所示的基于概念格的关联标签聚类在反映作为对象与属性的两个梯次的关联标签之间最大频繁项聚类的同时,能够进一步揭示出关联标签间的结构特征,可以解释关联标签之间的概念区别与联系,有助于根据检索需要调节标签导航的粒度,建立可伸缩的关联标签导航机制,方便用户在不同层面上进一步挖掘不同标签子类的用户认知特征。以其中具有“Knowledge”属性的标签子类C为例进行更细粒度的分析,如图6所示。

图6 基于概念格的“Knowledge”关联标签细粒度分析

图6中,子类C可以进一步细分为兼具“Web”、“AI”、“Knowledge”属性的H标签和兼具“Ontology”、“Knowledge”属性的I标签两个更细粒度的三级子类。每一个三级子类作为二级子类C的子概念在细化概念对象的同时,拥有更多的概念属性,并且在对象与属性之间保持清晰的偏序关系。根据关联标签导航的用户个性化需求,在必要的情况下还可以再进一步细化关联标签导航的分割粒度,可以得到J、K、L四级子类,乃至更加细致的子类。例如,K子类是一簇兼具“Web”、“Ontology”、“AI”、“Knowledge”、“Semantic”属性的标签,那么这个子类的标签所对应的相关资源很可能聚焦于语义网络人工智能的知识组织与构建。因此,同一资源、同一梯次的不同标签,其相互间关系既非相互独立、互不相关的概念术语,又非传统的“同义词环圈(Synonym Ring)”结构[12],其相互间的关联关系是一种介于独立词与同义词之间的“语义关联词(Semantic Synonym)”的关系。

4.3 关联标签的关联规则挖掘

基于图4概念格的Hasse图对图3中的关联标签进行关联规则挖掘,实验中设定最小支持度阈值为65%,最小置信度阈值为85%,可以基于概念格获得有效关联规则如表1所示。

以表1中的关联规则R3为例,“[76%]t01=[85%]=><11>t02t13”可以理解为:在第一梯次的关联标签集合T中有76%的支持度满足具有“t01(Web)”属性的前提条件,并且其中11个标签同时还具有“t02(Ontology)”和“t13(Semantic(s))”属性,其信度为85%。基于关联标签的生成原理,这条规则在本研究中的领域意义可以解释为:在第一梯次关联标签集合T中,有76%的第一梯次关联标签都与第二梯次关联标签中的“t01(Web)”标注同一资源,并且这些同时被标注为“Web”的知识资源中有85%同时也被标注了“Ontology”和“Semantic(s)”标签。

由于基于概念格的关联规则挖掘能够支持在概念格构建完成后,由领域专家根据需要调整相应阈值,进而实现弹性地获得更多的规则[13]。因此,调整最小支持度阈值为40%,置信度阈值不变,可以进一步获得新的有效关联规则如表2所示。

以表2中r14规则为例,“[41%]t01t07=[86%]=><6>t02t13”规则说明,在满足支持度为41%,置信度为86%的条件下,同时与“Web”和“Retrieval”关联的标签,在很大程度上也会与“Ontology”和“Semantic(s)”关联。即,在关联标签集合T(第一梯次)所对应的知识资源中,如果某一知识资源被同时标注了“Web”和“Retrieval”标签(第二梯次),则其很有可能涵盖了关于本体(Ontology)和语义(Semantic)领域的知识。如果将r14规则与表1中的R3规则结合起来考察,可以进一步发现,信息或知识的检索(Retrieval)是当前Web相关研究中本体(Ontology)和语义(Semantic)研究的重要组成部分。因此,通过关联规则挖掘可以进一步证明,Folksonomy模式中的关联标签间存在着潜在的语义关联,并且由于第二梯次关联标签附着在相同的第一梯次关联标签之上,因此,从层级导航的意义上讲,这种语义关联使得第二梯次关联标签成为第一梯次关联标签的一种特殊的“下位词(Hyponym)”。

5 关联标签结构特征的讨论

通过以上基于概念格对Folksonomy知识组织模式中关联标签的聚类分析和关联规则挖掘,拓展了概念格理论与技术在概念化知识处理中的应用范围,更主要的是对Folksonomy模式中关联标签的结构特征进行了深度剖析。

(1)采用概念格对关联标签进行聚类分析,呈现了同一梯次关联标签间的“语义关联词”的关系。研究中,通过“对象-属性”的偏序关系,提取了隐含在关联标签中的最大频繁项集,突破了传统的学科类目,使得聚类结果呈现出关联标签最为本质的知识特征。并通过概念间的多重继承关系以可视化的方式保留和展示了同一梯次关联标签间的有别于“同义词环圈”的“语义关联词”的关系。针对社群用户个性化语义认知的关联标签导航,能够极大地丰富检索词的语义关系。

(2)通过多粒度的关联标签的关联规则挖掘,揭示了不同梯次关联标签间的“语义下位词”关系。基于概念格的关联规则挖掘中,可以在不改变概念格结构(关联标签结构)的情况下多粒度筛选关联规则,并以概念间的多重继承关系极大地支持了对标签间复杂语义关系的挖掘。其中,关联标签中的“下位词”是一种相对的特殊关系,并非WordNet或传统主题词表中严格的隶属关系。因此,关联标签中的“下位词”关系,确切地说应该是一种“语义下位词”的关系。这种“语义下位词”能够支持层级展开的知识导航。

(3)关联标签间隐含的“语义关联词”和“语义下位词”关系构成了Folksonomy层级导航和语义检索的基础。Folksonomy与生俱来的“平层型”结构[14],使其在标签“沉底”和知识窄化方面一直存在着先天的缺陷。研究中提取的同一梯次关联标签间存在的“语义关联词”结构,以及第二梯次关联标签相对于第一梯次关联标签的“语义下位词”关系,不但展示出关联标签的结构特征,而且延展了Folksonomy导航路径的宽度(语义丰富)与深度(层级展开),对于完善Folksonomy知识组织模式的标签导航体系做出了有益的探索。

6 结语

综上所述,针对Folksonomy知识组织模式中新展露的关联标签辅助导航现象,以BibSonomy.org真实数据为研究对象,获取两个梯次的关联标签集合。通过基于概念格的关联标签聚类分析和关联规则挖掘,揭示了关联标签间隐含的“语义关联词”和“语义下位词”关系,在剖析Folksonomy关联标签的结构特征的同时,探索了Folksonomy语义检索和层级导航的基础。

Folksonomy知识组织模式中基于关联标签的导航形式才刚刚诞生,并且正处于继续发展演变的过程中。同时各类网站中的知识资源与社群用户的认知偏好又是千差万别。本文对Folksonomy模式中关联标签开展的研究仅是基于典型网站的一个初步尝试。随着关联标签导航在实际应用中的不断发展和成熟,针对Folksonomy模式中关联标签的相关研究也将会逐渐深入,这些问题都有待于在未来的工作中进一步研究。

收稿日期:2012-05-03

收修改稿日期:2012-06-12

注释:

①(资料来源:http://www.bibsonomy.org,2012-01-12)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于概念格的民俗知识组织研究关联标签的结构特征分析_关联规则论文
下载Doc文档

猜你喜欢