本体与自由分类融合机制研究_语义分析论文

本体与自由分类法的融合机理研究,本文主要内容关键词为:分类法论文,本体论文,机理论文,自由论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

Web 2.0的产生、发展和不断推广,使得标签技术、网络书签、博客等成为互联网中的热门应用或服务,与此同时也给传统的知识组织理论带来了巨大的挑战——能够直接、迅速反映用户的词汇和需求及其变化的Folksonomy应运而生并得以广泛应用。但是,研究发现,由于取消了严格的词汇控制和等级结构,自由分类法存在语义模糊、检索的准确率和查全率低、多语种支持不足以及标签滥用、信息垃圾等问题[1-2]。

作为另一种功能比较完善的Web 2.0下的知识组织工具,本体的高度形式化和强大的语义表达能力备受学界青睐。然而,本体的构建实现却比较复杂和困难,成本昂贵,且可操作性欠佳。目前网络环境下本体获取概念时存在概念更新的时滞问题,使得本体构建与本体使用相分离,无法形成有效的反馈。

可见,Web 2.0下的两种新兴的知识组织方式各自存在着不可替代的优势,却又不可避免地存在着不足。Spyns等指出,Folksonomy和Ontology并非是对立面,而是构成知识表示和知识组织的两种极端[3]。这为两者的融合研究提供了起点和崭新的思路。笔者正是着眼于两者的融合,在深入剖析Ontology和Folksonomy异同的基础上,探寻两者融合的内在机理和融合的具体内容。

1 Ontology与Folksonomy的异同分析

关于Ontology与Folksonomy的异同,国内外已有多篇文献对之进行了总结,王翠英[4]、岳爱华[5]、李镜镜[6]等都从分类学角度下探讨了两者的异同;K.Weller和A.Sharif从知识表示的视角下探讨了两者的特征和优劣[7-8]。但是,上述文献在分析两者异同时,均存在以下不足:①未能作出体系化的对比;②在对比中未着眼于两者的互补性和实现互补的依据。因此,本文从上述文献的不足出发,对Ontology与Folksonomy的异同进行分析。

1.1 Ontology与Folksonomy的共性

1)从认识论的角度看,两者都是人类认识客观世界后形成的团体化的群体共识。本体强调“共享化”概念,共享反映了本体捕获同感知识的理念,体现的是一组人共同认可接受的知识,反映了相关领域中公认的概念集。Folksonomy强调“以用户为中心”,通过邀请用户参与到网络信息组织中,为自己感兴趣的信息添加标注,因而大量用户都有标引机会。Folksonomy用户肩负着标引者和使用者的双重角色,方便了他们在标记标签与使用标签之间进行重复和相互模仿,进而潜移默化,通过共商标签的含义达成一致意见。

2)两者都是知识组织的具体方式,更明确地说,两者都是分类方法,都是人类在相互沟通与理解的过程中逐渐形成的统一的认识事物的标准。本体共享概念明确的形式化规范说明,它揭示了由事物本质抽象出的基本概念(类)以及概念之间形成的类层关系是一种分类方法。Folksonomy是一个分布式分类系统,由使用者个体与群体将网络资源加上标记,自由地随着社会情境来标记信息所创造出的分类结构[9]。

3)两者都是知识表示的具体方式,都可以在一定程度上以不同的手段揭示概念间的语义关系。本体所揭示的语义关系体现出了一定的体系,它采用“父类—子类”显示概念之间的层级关系,用“类—实例”来显示概念与其外延的关系,用“类—属性”显示概念与其内涵的关系,用公理描述概念之间的其他关系或对它们的含义进行约束。Folksonomy也可以在一定程度上揭示语义关系,它通过标签之间的词频共现关系,在描述信息的诸多标签之间形成了一个语义网络。正是Ontology与Folksonomy两者存在的上述共性,为将两者纳入到同一体系下进行融合提供了理论基础和技术支撑。

1.2 Ontology与Folksonomy的差异

1.2.1 知识构建维度下的差异 包括:①构建者专业素养的差异。本体的构建或开发需要知识工程师和领域专家共同合作完成,对构建者的专业素养的要求很高,而Folksonomy则完全由普通网络用户在共享和协作的基础上构建。②技术门槛的差异。本体构建的技术门槛高,需要相关人员具备丰富的本体知识、具备较强的开发能力和掌握特定的构建工具(如Protégé等),相对普通用户存在较高的技术壁垒。而Folksonomy则是一种大众化的草根技术,技术门槛极低。③构建成本的差异。本体构建是一项复杂的系统工程,包括“分析—规划—开发—检验—试用—维护”等多个环节,每个环节又设计诸多错综复杂的因素,而且需要聘请领域专家与知识工程师合作完成,因而成本高昂。而Folksonomy则由网络用户自由地对领域概念进行表达和描述而积累形成,成本极其低廉。④构建时间的差异。本体的构建一般要经过一个漫长的开发周期,存在很长的时间跨度,费时费力;而Folksonomy则是一种即时性质的构建方式,时间跨度很短,有很强的时效性。

1.2.2 知识表示维度下的差异 ①形式化程度的差异。本体的形式化程度很高,其描述也是采用形式化语言(如rdfs,owl),因而本体是可被计算机理解的。而Folksonomy的形式化程度则很低,完全采用自然语言来描述。②结构化程度的差异。从结构化上来看,本体结构是一种以类层次结构为主要结构的网状结构,采用的是自顶向下的正式分类模式;而Folksonomy采用的是一种平面化的非等级的结构,是自底向上的非正式社会分类模式。③语义表达丰富度的差异。本体的语义表达丰富度强,通常包含“is-a”、“attribute-of”、“instance-of”等多种语义关系,还可根据相应的公理和一定的推理机制进行本体语义推理。而Folksonomy的语义表达丰富度则很弱,只能通过标签共现的方式反映出稀疏语义。同作为一种知识体系,Ontology和Folksonomy的语义丰富度存在很大差异,几乎分置语义丰富度数轴的两端,见图1。④语义表达准确性的差异。本体的语义表达准确性很高,因为其不仅采用专家控制的词汇,尽可能地对同义字进行控制,且要求本体必须清晰地定义所有概念的类型和概念之间的关系约束。而Folksonomy的语义表达准确性低,由于其标签均为非控词汇,造成标签不够规范、统一和严谨,甚至存在错误,加之没有对同义字进行控制,造成其语义模糊。

图1 Ontology和Folksonomy的语义丰富度

1.2.3 知识使用维度下的差异 包括:①灵活性方面的差异。本体的灵活性低,普通用户对本体的修改和维护必须得到专家认可和授权组织同意,因而壁垒较高。Folksonomy则灵活性高,用户仅凭自身认知程度就可对资源进行分类和整理。②动态更新方面的差异。本体相对稳定,具有一定刚性,维护更新呈现出阶段性。而Folksonomy非常动态,经常变化,集中体现了用户对当前“热点”和“走势”更新过程。③易用性方面的差异。普通用户在本体使用上存在困难,因为本体采用形式化语言,且要求用户熟练操作,这对潜在用户理解本体造成障碍。Folksonomy界面简单,使用方便,用户不需要专门的知识、技能或培训。④适用范围上的差异。Ontology适用于某一领域,在小范围内易于操作,而Folksonomy适用范围广,在大范围易于操作,且更为准确。⑤维护上的差异。Ontology维护相对困难、复杂,而Folksonomy维护简易。1.2.4知识复用维度下的差异 本体的可复用程度高,在构建新本体、本体联盟及本体合并时,都可在不同程度上对已有本体进行复用。而Folksonomy的可复用度很低,Folksonomy是用户描述网络信息的原始数据,是第一手资料,由于其规范化、准确性等程度较低,需经过数据清洗、去噪等过程,进行必要的准备和整理才可进行复用。

2 Ontology与Folksonomy融合的现状

当前,国内外已有学者进行Ontology与Folksonomy的融合研究,主要集中在以下两个方面。

1)Ontology在Folksonomy中的应用。熊回香将Folksonomy中的本体细分为用来描述人与人之间关系的FOAF本体、用于在线社区的SIOC本体、用来描述标签语义和结构的SCOT本体,揭示了Ontology在Folksonomy中应用的多样性[10]。尽管存在上述多样性,标签本体却一直是国内外研究的热点。Kim等指出标签本体是关于标注活动(Tagging)的明确和形式化的规范说明,有完善知识表示、促进知识共享、机器可处理的作用[11]。甚于各学者对标签本体的认识不同,有些学者试图对标注活动进行明确和形式化的规范说明,关注在语义层面表示标注活动:如Newman的关于标签和标注行为的本体[12]、Gruber的概念模型[13]和Knerr的标注本体[14];也有学者认为标签本体除描述标注活动外,还应该考虑标注活动所涉及的协同关系。这样研究者的关注焦点开始从标签、标注行为的本体转移到基于Folksonomy的标签本体,如Echarte的Folksonomies本体[15]。Kim等[11]和吴芬[16]还对国外标签本体的相关研究进行了对比分析。

2)基于Folksonomy的本体构建研究。唐晓波等利用社会网络分析的理论和方法,采用“浮出语义”的思路,分析基于Folksonomy的“标引者—标签概念—实例”三部图模型发掘概念间语义信息、建立本体的方法和过程模型[17]。张有志等指出可以基于Folksonomy半自动构建和丰富本体,并提出了相应的一般性思路[18],但尚未深入到具体的开发细节。

综上所述,当前Ontology与Folksonomy的融合研究存在如下问题:①对融合的机理缺少体系化的认知。②融合方向单一,融合内容涵盖不全。③融合的层次较浅,缺少深入研究。上述3点不足中,究其根源,是对两者融合机理分析得不透彻,应首先对两者的融合机理进行深入剖析。

3 Ontology与Folksonomy的融合机理及融合方向

Ontology与Folksonomy的融合应该扬长避短,根据不同的需求进行不同形式的融合。笔者认为,Ontology与Folksonomy的融合,应是基于两者优点和缺点的一种全新整合,因此,把Ontology与Folksonomy的优劣特性分别置于两条数轴上,形成4个象限,见图2。

图2 Ontology和Folksonomy的融合机理

依据图2,Ontology与Folksonomy的融合可分为四大类:象限一是Ontology向Folksonomy融合,即用Ontology的优势去弥补Folksonomy的劣势;象限二是Folksonomy向Ontology融合,即用Folksonomy的强项去完善Ontology的不足;象限三是Folksonomy和Ontology的双向融合,即整合Ontology与Folksonomy两者的优势;象限四是采用其他工具或方法,完善和弥补Ontology与Folksonomy的局限性。上述每一个象限中阐明的是一种融合机理。

3.1 融合机理1

该类融合既不以本体作为融合的受体,也不以Folksonomy作为融合的落点,而是把两者放在一个平等的层次上,充分发挥Ontology的语义优势和Folksonomy的构建、使用优势,利用两者去解决更高层次的相关问题,见图3。

图3 融合机理1研究模型

在这一融合机理下,两者的融合包括但不限于以下几个方向。

1)两者在知识工程中的双向融合,包括在知识获取、知识发现和知识检索方面的双向融合。

2)“折中”的结构化分类体系。其主要思路是通过聚类基于相同信息的标签,把一组标签映射成由“概念、属性和实例”组成的本体结构,呈现标签间的语义关系,使得标签结构化,进而从结构化标签建立一个结构化的分类体系。这种融合是在本体与Folksonomy之间的折中,作为一种中间产物,既有利于本体构建,又增强了Folksonomy的语义。

3)基于Ontology和Folksonomy的网络知识系统。将本体具有的语义优势和Folksonomy具有的构建优势及使用优势整合起来,满足当前网络知识系统既具备社会网“收集知识”的特征,又具备语义网“知识表达和推理机制”的特征的客观需求,组建一种具有很大潜力的混合系统——基于Ontology和Folksonomy的网络知识系统。

3.2 融合机理2

该类融合立足于Folksonomy本身,主要思想是应用本体的形式化、结构化、丰富语义、语义准确等特征,解决Folksonomy存在的非形式化、非结构化、稀疏语义、语义模糊等普遍问题,见图4。

图4 融合机理2研究模型

该融合机理下两者融合的主要方向包括但不限于:

1)半形式化研究——Topic Map。刘炜指出,Folksonomy并非绝对自由,并非没有体系,只是做标注的人没有意识到自己的体系而已[19]。Folksonomy的一个极端形式是Topic Maps,Topic Maps可以看成一种Ontology。本体的高度形式化虽好,但难以达到,而实际上半形式化就可以解决很多问题了,在这个意义上,研究二者的折中体——Topic map就成为了一个新的方向。

2)标签聚类研究。Folksonomy的标签是平面化非等级的,要使之结构化,就必须通过聚类的手段,将具有共性的标签聚合到一起,因而标签聚类研究也成为一项基础且重要的研究方向。标签的聚类方式不同,包括聚类分析、概率模型和网络分析等方式和手段,不同方式的标签聚类都代表了一个小的研究方向。

3)Folksonomy的语义增强研究。Folksonomy的语义稀疏,可通过本体对其语义进行增强。其主要思想是通过识别成对聚集标签,将之与已有的本体进行比对,寻找和推断标签之间的语义关系。

4)标签本体或Folksonomy本体研究。这一研究方向是国内外学者当前最重视和关注的研究方向,本文在第二节中已做了分析和总结。标签本体与Folksonomy本体的对比研究以及它们的优化和应用是两者进一步研究的方向。

5)标签处理研究。用户在标注系统中使用的标签是未经处理过的原始数据,因而复用程度低。为提高其复用程度,就应该对标签进行处理,包括标签清洗、根据已有本体对同义标签进行合并、过滤低频标签等。

3.3 融合机理3

该类融合旨在采用相似的同类理论、相关方法或相关技术,对Folksonomy和Ontology融合的劣势进行弥补或整合,根据实际应用的需要最大限度地消除两者融合的负面效应,见图5。

图5 融合机理3研究模型

在这一机理下,两者融合的研究方向主要包括以下几方面。

1)相关理论对Folksonomy和Ontology融合的优化。将知识组织领域的相似同类理论与Folksonomy和Ontology的融合结合起来,使用元数据理论、分类法、叙词表、主题词表及受控词表等来解决Folksonomy和Ontology融合中的不足。

2)相关方法对Folksonomy和Ontology融合的再造。将形式概念分析等相关的方法与Folksonomy和Ontology的融合结合起来,解决两者都不善于的概念分析问题,对Folksonomy和Ontology融合进行概念分析和概念关系再造。

3)相关技术对Folksonomy和Ontology融合的补充。将数据挖掘技术、可视化技术等两者都不具备的技术手段应用到两者的融合中来,有效地解决两者融合中的概念关联规则提取问题、可视化问题等。

3.4 融合机理4

Folksonomy对资源的组织有其自身不可替代的价值,它为本体研究者提供了一个新的角度理解Ontology,特别是为Ontology的构建提供了新的思路和途径,应用Folksonomy不仅可克服本体构建中用户参与过少造成的理论实践脱节问题,而且其协作标注系统保障了本体构建中群体智慧相互协商决议的过程。本体构建的大多数环节中Folksonomy都会起到相应作用,见图6。

图6 融合机理4研究模型

根据这一机理,可以得出两者在该方面的融合方向。

1)Folksonomy在本体开发各环节的应用。在概念获取环节,Folksonomy的应用是在广泛用户的参与下通过社会标注系统获取相应的术语集;在概念语义关系确立环节,Folksonomy的应用是通过统计方法、聚类工具等技术对标签进行聚类,获取类层次关系,并为聚类后的概念命名;在类的属性和实例确立环节,Folksonomy的应用是根据实际需求,选择标签为属性,以资源为实例对类的属性和实例进行补充,得到本体原型。

2)基于Folksonomy的已有本体更新。基本思路与1相同,区别仅在于将由Folksonomy得出的术语、概念关系、类的属性和实例映射到已有本体中,起到丰富和补充已有本体的作用。

3)基于Folksonomy的本体评价和维护。通过本体在Folksonomy用户中的使用,由用户评价本体的时效性、精确性和适宜性,并对本体作出检验,给出相应的维护意见。

4)基于Folksonomy环境的本体构建方法。Folksonomy不仅在本体开发的各个环节有应用,而且Folksonomy 提供了一种构建本体的社会标注系统,因此,在方法论的角度上,提出一种全新的基于Folksonomy环境的本体构建方法也是两者融合的一个重要方向。

4 结束语

当前,Ontology与Folksonomy的融合研究是发展的必然趋势,已成为国内外学界所广泛关注并深入研究的热点之一。因此,剖析Ontology与Folksonomy间的异同,寻找两者融合的机理,最终找到其融合的主要方向就显得至关重要,这正是本文所作的努力和贡献。

分析当前国内外两者融合之现状和不足,认为造成Ontology与Folksonomy融合的瓶颈是两者融合机理的缺失,于是本文构建了两者的融合机理模型,并提出两者融合的4条详细机理及相应的15个典型的研究方向。这些研究方向既包括当前学界研究的一些热点,如标签本体,又包括当前学界尚未研究和关注的一些其他方向,如基于Folksonomy环境的本体开发方法、基于Ontology和Folksonomy的网络知识系统等。后续研究将沿着上述各个融合方向纵深展开,最终依托各个方向从更深入的层次上解决Ontology与Folksonomy的融合问题。

标签:;  ;  ;  ;  ;  ;  ;  ;  

本体与自由分类融合机制研究_语义分析论文
下载Doc文档

猜你喜欢