数字图书馆知识组织体系构建的发展路径——概念格与本体的互补融合,本文主要内容关键词为:本体论文,路径论文,数字图书馆论文,概念论文,体系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
随着从Web信息网络向语义Web知识网络的渐进与渐变,数字图书馆知识组织体系的构建也开始了从崇拜信息构建向崇尚知识构建的转变,这种转变使得领域本体成为数字图书馆知识组织体系构建研究的前沿及热点。
国际上关于本体构建的早期研究成果主要诞生于具体的开发项目,其中比较著名的本体构建方法主要包括:斯坦福大学的七步法①、源自化学本体构建的METHONTOLOGY方法②、美国空军ICAM(Integrated Computer Aided Manufacturing)工程的IDEF5方法③、多伦多虚拟企业(TOVE)建模工程的企业建模法④、源自于商业本体开发的骨架法⑤、基于企业内部网半自动本体获取的循环获取法⑥、欧洲ESPRIT工程的KACTUS方法⑦等。国内学术界在本体构建相关问题研究中也取得了一定的成果,其中主要包括:基于描述逻辑的本体构建模型⑧;基于需求分析的本体模型构建方法⑨;以及构建领域本体的知识工程方法⑩等。诚然,上述种种领域本体的构建方法主要依赖于专家智能和手工完成,所建立的领域本体受领域专家主观因素影响且构建效率低下,而网络环境下的数字图书馆建设需要更客观高效的能够由计算机辅助完成的半自动化乃至自动化的本体构建方法。
20世纪80年代,德国达姆施塔特科技大学的Rudolf Wille以形式概念分析(Formal Concept Analysis,FCA)重构了格理论(Lattice Theory)(11)。从此,以形式概念分析和基于形式概念分析的概念格相关理论与技术为支撑的本体构建思想开始逐渐地被引入到的相关研究领域中。与其他形式体系相比,形式概念分析指的是了解常识、社会习俗、见解和目的的人的推理。它的首要目标之一是支持人类思维、交流、争论,而非使其变得机械化(12)。将概念格引入本体构建过程中可以解决早期本体构建方法中识别概念之间的关系困难、手工组织概念到本体费时费力和易受开发者的主观影响等问题。目前,以形式概念分析和基于形式概念分析的概念格相关理论与技术为基础的半自动化的本体构建方法主要包括:Obitko方法(13),Haav方法(14),Cimiano方法(15)等。其中,Obitko和Haav采用将概念格中的概念和本体的概念等同起来,由概念格直接构建本体;而Cimiano则将本体中的概念和形式概念分析中的属性相匹配。随着概念格理论为代表的数据挖掘方法被引入本体构建,使得本体构建的相关研究产生了两条不同的研究路径。一条是以结构化资源为基础的本体构建研究路径,另一条是以非结构化资源为基础的本体构建研究路径。如表1所示。
在以结构化资源为基础的本体构建研究中,领域本体构建的基础资源主要包括:主题词表(叙词表)、分类法、现有本体、结构化词典、关系数据库等。此类研究中,主要以结构化资源自身的体系结构为研究起点,需要依赖领域专家从资源结构特征出发构建目标本体,其研究方法多属于有指导的本体学习构建方法。由于在本体构建研究中充分借助了现有资源的结构特征,使得本体构建效率得到一定提高,但仍然在很大程度上受到主观因素的制约。
在以非结构化资源为基础的本体构建研究中,领域本体构建的基础资源主要包括:文本、网页、非结构化词典等。此类研究中,基础资源多被视为无结构或平面结构,研究人员往往采用形式概念分析等数据挖掘的手段,以无指导的机器学习方法从文本、网页等基础资源中提取资源特征。由于不同研究者所采用的具体挖掘方法不同,所构建的目标本体也存在一定差异。但是由计算机辅助的数据挖掘使得本体构建工程向自动化迈进,本体构建的效率得到很大提高,最重要的是此类研究中极大地降低了人为因素的影响。
近年来,国内外学者也曾试图对两种研究路径进行整合。国内学者的研究主要通过将主题词表用OWL直接转化为本体中的类,对文本资源进行切词分析的基础上构建基于文本资源的概念格,并直接将所得概念格与由主题词表转化而来的本体相结合构建目标本体(16)。此方法中,主题词表内在的人为因素仍然存在,且在解决“同构”问题上尚存缺陷。国外学者的研究则分别对结构化词典和文本资源构建概念格,通过概念格并置运算构建目标本体(17)。此方法通过概念格并置解决了“同构”问题,且减少了本体构建过程中的人为因素影响。
鉴于此,针对现实中数字图书馆馆藏资源的异构性,将形式概念分析中的概念格理论引入数字图书馆知识组织体系构建,拓宽了数字图书馆知识组织相关研究领域的视野,使得“概念格与本体的互补融合”成为数字图书馆知识组织体系构建的新的研究和探索的路径。从“分类与主题”到“概念格与本体的互补融合”,促使数字图书馆知识组织沿着“文献→信息→知识”不断向前递进,从表象向本质不断深入。同时,“概念格与本体的互补融合”最大程度上弥合了学术界当前存在的分歧,使实现真正意义上的知识构建成为可能,有助于突破数字图书馆知识组织研究领域的瓶颈。
二、概念格与本体互补融合使真正意义上的数字图书馆知识构建成为可能
知识构建(Knowledge Architecture)是在传承信息构建(IA)精华后又吸收了知识管理理论而形成的。知识构建是个不断优化知识秩序、提示知识节点和知识关联,抽象动态知识内容、描述知识深化、提供知识服务的过程。数字图书馆知识构建是将知识资源规范化、有序化和优化的过程,旨在提供可控性的高效知识服务。数字图书馆的知识构建要求体现出知识组织体系语义的丰富性、统一性、动态性和推理性。
在当前现有的关于知识组织的研究成果中,大多数文献还是立足于对传统的图书馆文献的“分类/汇总”思想基础上。即使认识到通过本体开发活动寻找和建立概念/知识间关联,也没有人认识到这种被发现和建立的概念/知识间的关联本身就是新的知识。这使得人们对数字图书馆的知识组织活动的认识仍然停留在对“知识”进行组织,而没有发现对“知识”组织的过程就是一种“新知识”的构建过程。
形式概念分析中的概念格在反映对象与属性的偏序关系的同时,能够很好地提取并展现出隐含的概念以及概念之间的关系,并揭示出概念的层次结构。表2展示了形式概念分析中的概念格与本体在不同领域中的内涵,以及在信息科学、知识表示和形式概念处理的领域中各方面的主要应用。
从表2可以看出,形式概念分析中的概念格与本体在哲学和代数学中有着相似的内涵。在信息科学、概念知识处理及知识表示等领域中,有着相似的应用。而在这些应用中,形式概念分析中的概念格与本体所起到的作用更多的是互补而非竞争或排斥,在很多应用中,形式概念分析中的概念格都是对本体的补充。
在本体概念描述方面,形式概念分析中的概念格是概念哲学的数学化表示形式,它分别从概念的内涵和外延两方面进行描述,丰富了概念的属性集和实例集。依据概念格自动找出包含在形式背景中的隐含概念,并能自动分析出隐含概念的内涵和外延,这是其他工具或方法所不容易完成的,这表明形式概念分析中的概念格可以有效进行领域本体概念描述。
在本体概念分析方面,形式概念分析中的概念格是对数据或事物进行分析的工具,能将形式背景转换成为概念格,概念格作为形式概念分析理论的核心数据结构能够深刻地反映出概念节点之间的继承关系,表示出其他方法所难以表达的多重继承关系,这方便了概念聚类以及确定概念的类属关系。另外,以概念格为依托,可以对隐藏的概念间的关系进行推理,实现概念间关系的部分推理功能。以概念格为基础,还可以对概念格进行合并、编辑等运算,进行概念格重构。以概念格的重构为基础,就可以进行领域本体概念层次模型的再造工程,从而实现本体重用。这表明,形式概念分析可以有效地对领域本体概念进行分析。
在本体建模方面,形式概念分析中的概念格是为人工世界建模的建模工具,目的是实现用户在给定数据库或背景集的基础上进行领域分析和建模。针对给定的领域概念,可以应用概念格对领域知识进行分析和结构化,从而实现领域本体概念层次模型的构建,为实现从概念层次模型向领域本体原型的转换做准备。而且概念格可以使得概念间的层次关系可视化,可以有效地对领域本体进行模型建立。
本体与概念格两种建模方法既相互区别,又相互补充,可以通过概念格中的数据分析工具来描述本体概念过程,通过描述工具来分析领域本体概念关系过程,通过人工世界建模工具来构建领域本体原型,进而解决本体构建的问题。形式概念分析中的概念格在本体构建中的应用如表3所示。
综上,“概念格与本体互补融合”的数字图书馆知识组织活动,更有利于完成知识聚类和知识关联等相关工作,有利于实现真正意义上的知识构建。无论是隐含在文献中的“外显知识”,还是通过用户行为模式“流露”出来的原本存在于用户头脑中的“内隐知识”,甚至是那些用户没有意识到的“内隐知识”,都可能通过概念格被发现、识别、提取,从而转化成“外显知识”。采用“概念格与本体的互补融合”既是当前数字图书馆建设的现实需求也是数字图书馆知识构建未来的发展路径。
三、基于概念格的领域本体构建思想
(一)概念格构建本体的内在机理
数字图书馆的本体构建过程中,必须同时面对结构化和非结构化两类资源这一难题,而“概念格与本体互补融合”为解决这一难题提供了契机。由概念格构建本体的科学性和有效性主要源自于形式概念分析和概念格理论的两大支柱:形式背景和形式概念。作为概念格构建基础的形式概念分析中,相关内容定义如下(18):
定义1 一个形式背景K:=(G,M,I)是由两个集合G和M以及G与M之间的关系I组成。G的元素称为形式对象,简称对象;M的元素称为形式属性,简称属性。(g,m)∈I或gIm表示对象g具有属性m。关系I也称为是背景关联的关系。
定义2 设A是对象集合G的一个子集,B是属性集合M的一个子集,定义两个映射:
一方面,由组成概念格的“序”可知,集合M上的二元关系R,对于所有x,y,z∈M都有:
如果x称为y的下近邻,即当x<y,且没有z满足x<y<z。这时也称y是x的上近邻,并记作x<y。用概念格Hasse图表示时,对应y的圆圈应在对应x的圆圈之上,并用一条线段把这两点连起来。因此,在概念格的Hasse图中,同一水平线上的概念节点之间不存在直接的连接线段(图1列举了3个及3个以下元素的所有可能的Hasse图)。所以,通过概念格构建领域本体,可以很好地反映概念间的继承与关联关系,并有助于解决传统结构化资源(主题词表等)与非结构化资源(文本等)中概念歧义等问题。
由此可见,将形式概念分析中的概念格理论与技术应用于领域知识本体构建,能够很好地解决数字图书馆领域知识本体构建过程中资源异构的现实问题。
(二)基于概念格的领域本体构建技术路线
基于概念格的领域本体构建,能够以数字图书馆内部两类主要资源(如主题词表和文本等)为基础构建领域知识本体,从而整合数字图书馆中结构化与非结构化两类资源,弥补以单一资源构建领域本体的缺失和不足。但由于以主题词表为代表的结构化资源和以文本为代表的非结构化资源间存在典型的异构性,因此,在研究中需要综合使用多种方法与技术互补融合。
第一,选取特定领域现有的传统主题词表,根据主题词表所特有的“属(S)”、“参(C)”、“分(F)”、“代(D)”、“族(Z)”等词间关系,对相关主题词进行形式化处理,构建基于主题词表的形式背景,并在形式背景的基础上构建基于主题词表的概念格。第二,根据主题词表选取相关领域的文本集合,并对集合中的文本进行自然语言处理(Natural Language Processing,NLP),提取可以作为形式对象和形式属性的核心词汇,进而构建基于文本的形式背景以及相应的概念格。第三,将所获得的基于两种异构资源的形式背景和概念格进行并叠置运算,获得新的异构资源概念格。第四,将异构资源概念格转化为目标领域本体。具体技术路线如图2所示。
图2 基于概念格的领域本体构建技术路线
图2展示了基于概念格构建领域本体的基本技术路线的框架,该技术路线框架通过形式概念分析中的概念格,将结构化和非结构化两类数字图书馆主要资源在领域知识本体构建过程中进行了整合,从而获得更为理想的目标本体。从图2可以分析得出:
首先,基于概念格的领域本体构建符合本体建模的生命周期。本体建模的生命周期一般划分为三个阶段:概念化、模型化、实现(20)。由于本体建模的起点是模型中涵盖的概念、实例、关系和公理等实体,因此,在本体的构建过程中需要对领域知识进行概念化描述,概念化是本体建模的第一步。近年来的ICFCA(International Conference on Formal Concept Analysis)国际会议中一直把概念化知识处理作为主要研究议题(21),建立在形式概念分析基础上的概念格理论与技术凭借其形式背景和形式概念在知识的概念化描述方面具有的得天独厚的优势,成为学术界公认的知识概念化处理的有力工具。同时,概念格中节点之间的偏序关系,体现了概念间的多重继承关系,在呈现概念间层级关系的同时,也揭示了概念间隐含的关联关系。概念关系的呈现与揭示通过Hasse图表现出来,构成了模型化环节的初始原型。而概念格中经过形式化处理的知识易于被计算机处理和加工,为实现本体建模创造了条件。
其次,基于概念格的领域本体构建是未来数字图书馆知识构建的必由之路。现实世界中的知识资源是多形式、多结构、多载体的,数字图书馆无论其馆藏资源是综合领域的还是专业领域的,其资源结构都不可能是绝对的单一结构。绝大多数图书馆中,都至少含有主题词表和文本两大异构资源。在这种情况下,单纯以某一单一结构的知识资源构建领域本体,即使借助大量领域专家的人工参与,也难以保证领域本体的科学性与完备性,从而难以实现数字图书馆知识组织的科学性和知识服务的高效性。综合学术界在单一结构知识资源(主体词表(22)、文本(23)、数据库(24)等)领域本体构建中取得的经验,整合基于不同结构的知识资源的领域本体的优势,探索异构资源领域本体构建的思路和方法,必然是未来数字图书馆领域本体构建的必由之路。
最后,基于概念格的领域本体构建易于实现计算机自动化处理。利用现有资源构建领域本体,主要需要在三个环节上实现自动化:原始资源的预处理环节、概念格构建环节,本体构建环节。目前这三个环节都已经有比较成熟的工具软件问世。在资源预处理环节,中科院计算技术研究所研制开发的汉语词法分析系统(ICTCLAS)目前已发展到2011版,其主要功能包括中文分词、词性标注、命名实体识别、支持用户词典、支持繁体中文等,分词精度达98.45%(25)。在概念格构建环节,ConExp(26)、Lattice Miner(27)等著名建格工具已经被学术界广为接受,并在诸多知识组织与管理领域的研究中成为研究概念化知识处理不可或缺的工具。在本体构建环节,Protégé(28)与KOAN(29)等本体构建工具日臻成熟,并常被研究者用于构建实验本体。通过对现有工具软件包进行适当整合,有望实现本体构建过程的自动化。
以“概念格与本体的互补融合”作为数字图书馆知识组织体系构建的新路径,是在综合国内外当前研究成果的基础上,提出一个尝试和探索。尽管目前国内已经积累了一些关于概念格领域的研究成果,但其中大多数成果集中于对已有的建格算法细节的修改和补充,而在领域应用的研究方面尚明显落后于国际水平,这有待于我们在未来的工作中努力研究。
注释:
①Noy F Natalya,McGuinness I Deborah.Ontology Development 101:A Guide to Creating Your First Ontology.[2011-2-15].http://protege.stanford.edu/publications/ontology_development/ontology101—noy—mcguinness.html.
②Fernández Mariano,Gómez—Pérez Asunción,Juristo Natalia.Methontology:From Ontological Art Towards Ontological Engineering.[2011—2—15].http://www.12f.inesc—id.pt/~joana/prc/artigos/06c%20METHONTOLOGY%20from%20Ontological%20Art%20towards%20Ontological%20Engineering%20—%20Fernandez,%20Perez,%20Juristo%20—%20AAAI%20—%201997.pdf.
③Benjamin C Perakath,Menzel P Christopher,Mayer J Richard,et al.IDEF5 Method Report.[2011—2—15].http://violin.comholic.com/Utility/Modeling/ManualIDEFidef5.rtf.
④Grduninger Michael,Fox S Mark.Methodology for the Design and Evaluation of Ontologies.[2011—2—15].http://74.125.155.132/scholar?q=cache:KJd2G9cKWmgJ:scholar.google.com/&hl=zh-CN&as_sdt=0.
⑤Uschold Mike,Gruninger Michael."Ontologies:Principles,Methods and Applications." The Knowledge Engineering Review 11.2(1996):93-136.
⑥Kietz Jrg—Uwe,Volz Raphael,Maedche Alexander.Extracting a Domain—Specific Ontology from a Corporate Intranet.[2011—2—15].http://ucrel.lancs.ac.uk/acl/W/W00/W00—0738.pdf.
⑦Schreiber Guus,Wielinga Bob,Jansweijer Wouter.The KACTUS View on The 'O' Word.[2011— 2— 15].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1.5032&rep=rep1&type=pdf.
⑧王洪伟、吴家春、蒋馥:《基于描述逻辑的本体模型研究》,《系统工程》2003年第3期。
⑨刘凤华、朱欣娟:《信息系统领域的本体模型研究》,《西安工程科技学院学报》2003年第1期。
⑩李景、苏晓鹭:《构建领域本体的方法》,《计算机与农业》2003年第7期。
(11)Wille Rudolf."Restructuring Lattice Theory:An Approach based on Hierarchies of Concept." Proc.of the 7th International Conference on Formal Concept Analysis.Berlin:Springer-Verlag,2009.314-339.
(12)Stumme Gerd."Formal Concept Analysis on Its Way from Mathematics to Computer Science." Conceptual Structures:Integration and Interfaces,10th ICCS,LNCS2393.London:Springer-Verlag,2002.2-19.
(13)Obitko Marek,Snáel Václav,Smid Jan.Ontology Design with Formal Concept Analysis.[2011-2-15].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.2092&rep=repl&type=pdf.
(14)Haav Hele-Mai.A Semi-automatic Method to Ontology Design by Using FCA.[2011-2-15].http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol110/paper2.pdf.
(15)Cimiano Philipp,Hotho Andreas,Stumme Gerd,Tane Julien.Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies.[2011-2-15].http://www.cimiano.de/Publications/2004/icfca04/icfca04.pdf.
(16)孙利:《基于主题词表和FCA的海事本体构建研究》,大连:大连海事大学出版社,2010年。
(17)Bendaoud Rokia,Napoli Amedeo,Toussaint Yannick.Formal Concept Analysis A unified.
(18)Ganter Bernhard Wille Rudolf:《形式概念分析》,北京:科学出版社,2007年,第15-17页。
(19)Stumme Gerd,Maedche Alexander.FCA-Merge:Bottom-Up Merging of Ontologies.
(20)毕强、牟冬梅、韩毅:《下一代数字图书馆知识组织》,长春:吉林教育出版社,2009年,第143—144页。
(21)毕强、滕广青:《国外形式概念分析与概念格理论应用研究的前沿进展及热点分析》,《现代图书情报技术》2010年第11期。
(22)牟冬梅、范轶:《数字图书馆领域本体的构建与推理——以医学领域本体为例》,《图书情报工作》2007年第8期。
(23)梁健、王惠临:《基于文本的本体学习方法研究》,《情报理论与实践》2007年第1期。
(24)吕艳辉、马宗民、王玉喜:《基于关系数据库的OWL本体构建方法的研究》,《计算机科学》2009年第7期。
(25)ICTCLAS 简介.[2011—2—20].http://ictclas.org/ictclas_introduction.html.
(26)Concept Explorer.The User Guide.[2010—9—28].http://www.comp.dit.ie/pbrowne/compfund2/UserGuide.pdf.
(27)Lattice Miner.[2010—8—20].http://sourceforge.net/projects/lattice—miner.
(28)Noy F Natalya,Fergerson W Ray,Musen A Mark.The Knowledge Model of Protégé—2000:Combining Interoperability and Flexibility.[2011—2—20].https://bmir.stanford.edu/file_asset/index.php/160/BMIR—2000—0830.pdf.
(29)KAON2—Ontology Management for the Semantic Web.[2011—2—20].http://kaon2.semanticweb.org/#introduction.
标签:数字图书馆论文; 文本分类论文; 相关性分析论文; 结构化思维论文; 文本分析论文; 知识体系论文; 主题词论文;