Ontology在基于知识的数字图书馆中的应用,本文主要内容关键词为:数字图书馆论文,知识论文,Ontology论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
1.1 Ontology介绍
近年来,随着因特网的快速发展,面对信息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服务也就成为一项重要而迫切的研究课题。为了适应这些要求,Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、知识表示、信息检索、知识管理和Web上异构信息的处理、语义Web等。国际上Ontology的研究非常活跃,在国内尚处于起步阶段,但其研究很快被介绍到国内的情报检索、数字图书馆领域。
在Internet环境下的图书馆的职能将发生深刻的变化,将会从信息管理逐步走向知识管理。因此,数字图书馆的信息组织、信息检索和信息服务应该提高到基于知识(或概念)层面。而Ontology用于知识组织、知识检索和知识服务,正是本文试图将Ontology应用于数字图书馆的理论依据。
Ontology最早是一个哲学上的概念,国内有不同的中文名称,如“概念集”、“概念模型”、“本体论”、“本体”、“应用知识体系”等。作为知识组织的手段和方法,“Ontology”在中文文献中的译名并不十分统一,大部分文献中,称“Ontology”为“本体论”,这是沿袭和借鉴了哲学界对“Ontology”的中文译名。关于Ontology的概念,国内外学者也是仁者见仁、智者见智。斯坦福大学的Gruber[l993]最早提出的定义,即“Ontology是共享概念模型的形式化规范说明”,1995年又明确“Ontology是对概念化的精确描述”。德国卡尔斯鲁厄大学的Studer等学者[1998]认为Ontology是共享概念模型的明确的形式化规范说明。使用最广泛的定义是波音公司Michael Uschold博士等人[1996]给出的:Ontology是一套术语词表以及术语含义的规范说明。
1.2 目前数字图书馆的不足
从传统的角度来看,当人们检索信息时,他们的活动是搜索或浏览。搜索需要用户准确了解他所期望查找的东西,而浏览应能帮助用户在相互关联的可搜索条目之间导航,以查找一些新的或用户感兴趣的东西。到目前为止,大多数关于数字图书馆的主要工作集中在以上两个方面,而忽视了数字图书馆内容方面的知识采集和知识提供。
目前的数字图书馆系统主要有以下两点不足:[1]
(1)不提供对高层认知的支持。数字图书馆的传统应用是基于关键词的,用户通过输入一些关键词请求信息,且系统返回匹配文档。但用户希望不仅于此。用户通常都有一引起预先考虑的假设和专业知识领域。他们可能希望图书馆来确认或否定他们存在的假设,或去检查是否有一些对先前存在的概念意料之外的或反证的文档证明。由此带来的问题是:首先,用户不易于用简单的关键词来表达他们的意愿;其次,基于关键词的搜索通常返回太多与用户意愿无关的结果。
(2)没有知识共享功能。传统图书馆是一个大量交互学习、知识共享和交换的公共场所。用户要求图书馆员作为搜索助手,图书馆员可为用户管理、组织和分配信息。用户自己在使用图书馆资源时可相互帮助。当我们从实体图书馆向虚拟图书馆转变过程中,这些有价值的特点应当保存。将来的数字图书馆不应当是简单的存储和档案系统。
上述不足可以通过将Ontology运用于数字图书馆来解决。造成用户检索困难的实质在于传统的信息检索技术缺乏知识处理和理解能力,数字图书馆的信息检索应该从传统的基于关键词层面提高到基于知识(或概念)层面。斯坦福大学的Gruber给出Ontology的定义得到了许多同行的认可,即Ontology是对概念化的精确描述。Ontology的最终目标是精确地表示那些隐含(或不明确的)信息,使得它们可被软件系统重用和共享。将Ontology用于知识表达、知识共享及重用,尤其是用于知识检索中,可以通过概念和词间关系实现智能检索;不需要复杂的布尔逻辑规则;通过同义词及上下级词间关系,可以扩大检索范围,从而提高查全率;通过概念及词间关系可以精确词义从而提高查准率,这些正是基于知识的数字图书馆的突出特点[2]。
此外,Ontology还可以提高数字图书馆的知识共享功能。Ontology作为一种能在知识层提供知识共享和重用的工具,可以为共享领域的通用说明、定义和关系提供一个框架。Ontology在数字图书馆中的应用,将大大提高数字图书馆的知识共享功能。
1.3 发展基于知识的数字图书馆的必要性
发展基于知识的数字图书馆的必要性主要体现在两个方面:
(1)数字图书馆资源的知识化组织,不仅仅是关于资源的一些简单元数据的表示,如Dublin Core标准所做的,而是对所反映的知识内容的有效组织,这就需要建立广泛的基础性和领域性ontology,并能不断学习和进化。
(2)知识如何适应人的需求,不同人对知识的理解和应用都不一样,网络如何认知人的知识需求,并于合适的时间给人以合适的知识,这就是基于知识的数字图书馆的发展目标。
2 基于知识的数字图书馆的构成
自然学科对客观世界的认知过程是伴随着概念的发展的。概念是通过运用能够明确表达各个学科知识的词汇集表述的。概念名称描述了客观世界的物理实体。领域概念本身就可以组成Ontology(概念集),概念之间的关系可以称为知识。数字图书馆发展的关键之一就是如何扩展数字图书馆的技术使之更好地支持学科知识。因此,数字图书馆未来的发展方向应该是朝着基于知识的方向发展,即基于知识的数字图书馆。
在数字图书馆中,数字对象本身没有足够的语境来使人们理解它们是如何与学科的领域知识联系起来的,因此,从客观世界的物理实体到能够被科学家们所运用的学科术语的这种映射就依赖于基于知识的数字图书馆的发展。在基于知识的数字图书馆中,对数字对象的发现查找过程就是通过从学科领域知识到数据属性再到存贮系统中的数字对象的映射完成的。
在基于知识的数字图书馆中,将数据、信息和知识作如下的定义[3]:
数据——构成数字对象的比特流;
信息——是数据的各种标记,可理解为数据的各种属性;
知识——数据各种属性之间的关系;
数据就是存储在系统中的数字对象;信息以属性的形式存储在数据库中。现在,人们用XML和DTD来开发数据库中的数据属性;知识作为能够代表属性间的关系的一种规则,它的描述方式有ER图、RDF等,近年来的一个新标准,XTM(主体图语言),它基于ISO13250标准,作为描述主题概念、主题关系和属性映射的一个标准以被人们接受。
文献[3]提出的数字图书馆的概念空间组成如图1所示。数字图书馆的研究者们希望能够将存储在数字图书馆中数据对象的发现、存取和利用的过程全部自动化。如果这些过程能够基于知识关联的层面,数字图书馆就可以提供面向特定学科领域的知识服务。
图1 数字图书馆的概念空间组成
3 Ontology的应用
Studer等认为[4]:Ontology是共享概念模型的明确的形式化规范说明。这包含4层含义[5]:概念模型 (conceptualization)、明确(explicit)、形式化(formal)和共享(share)。“概念模型”指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指ontology是计算机可读的(即能被计算机处理)。“共享”指ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即ontology针对的是团体而非个体的共识。
ontology的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。
随着数字图书馆技术和用户检索需要的发展,要求数字图书馆向人们提供便于利用的、可以帮助解决问题的序化的知识,实现从信息层次到知识层次的根本转变。在此过程中,Ontology在基于知识的数字图书馆的应用可以表现在以下几个方面。
3.1 在知识组织中的应用
信息组织的发展方向是向自动化、智能化的知识组织发展。知识是由众多结点(知识因子)联系构成的语义网络,知识因子是组成知识对象的基本单位。符号、概念、语词、句群以及一切事物都可以看成知识因子。知识联系是知识因子间的特定关系。知识组织就是运用一定的方法按一定的标准把知识对象中的知识因子和知识联系揭示出来,便于人们认识、学习、理解和接受,促进知识运用和知识创新。知识组织的原理可从知识重组、知识表示和知识记忆三个方面考察 [6]:
知识重组(语法学原理):知识重组是知识组织的初级的、重要的方法,是对知识对象内的知识因子和知识联系进行语法结构上的重新整合,结果生产出新的知识产品。它包括知识因子的重组和知识联系重组。
知识表示(语义学原理):知识表示是将知识对象中的知识因子和知识联系表示出来,便于人们识别和理解。知识表示是知识组织的基础与前提,因为任何组织方法都要建立在知识表示的基础上,有主观知识的表示和客观知识的表示之分。在知识表示中,知识的语义网络表示法是一种很重要的方法。知识语义网络可分为3个层面:①语言层:反映语言表面现象的知识,如一个词的多语种(中、英)形式,它的同义词、反义词,一些习惯用语、词的层次关系等。②Ontology层:对概念的本体论定义与解释,概念之间复杂的语义关系。③常识层:如随身听与磁带、香烟与打火机等存在着常识上的关联。
知识记忆(语用学原理):知识组织最终要为用户认识和记忆,分类法和主题法近似模拟了人脑识记的机理和结构,但要达到较好的效果,还应建立后控词表和利用超文本技术,最重要的是要发展神经网络技术,使知识的重组和表示更接近人脑的记忆原理。近年来,ontology在语义web中的应用被越来越多的人所重视。Burners Lee为未来的web发展提出了基于语义的体系结构——语义web体系结构,见图2。该体系中从底层到高层分别为:UNICODE和URI、XML、RDF、Ontology、Logic、Proof、Trust。第一层是UNICODE和URI。该层是整个语义Web的基础,其中UNICODE是处理资源的编码,URI负责标识资源。第二层是语法层,XML+NS+xmlschema,用于表示数据的内容和结构。第三层为赋值层,RDF+rdfschema,用于描述web上的资源及其类型。第四层为Ontology vocabulary层 (语义层),它用于描述各种资源之间的联系。第五层到第七层是在下面四层的基础上进行的逻辑推理操作。其中核心层为XML、RDF、Ontology,这3层用于表示web信息的语义。XML和RDF都能为所描述的资源提供一定的语义,但二者在处理语义上存在两个问题:①同一个概念有多种词汇表示;②同一个词有多种含义(概念)。为了解决上述两个问题,很自然地需要引入Ontology。Ontology通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识。因此在语义Web中,Ontology具有非常重要的地位,是解决语义层次上Web信息共享和交换的基础。
图2 语义Web的体系结构图[7]
可以看出,知识组织的理论基础是:对知识进行的任何组织都必须建立在知识单元的基础上,而知识单元就是概念。Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,可以应用于知识组织的各个环节中。
3.2 在知识检索中的应用
目前,信息检索技术可分为3类:全文检索、数据检索和知识检索。全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文件语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大地降低了。数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具有一定的结构,允许对特定的字段检索(例如:作者=“张三”)。数据检索需要有标识字段的方法。数据检索的性能取决于所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局限性。数据检索支持语义匹配的能力也较差。知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有更好的保证。目前知识检索是信息检索研究的重点,特别是面向web信息的知识检索。
传统的信息检索机制在数字图书馆中存在三个深层次的问题,这三个问题都与词汇紧密相关,分别为:“忠实表达”问题、“表达差异”问题和“词汇孤岛”问题。造成这种困难的实质在于传统的信息检索技术缺乏知识处理和理解能力。常规的直接基于关键词的信息检索技术已不能满足用户在语义上和知识上的需求,寻找新的方法也就成为目前研究的热点。解决问题的根本和关键是要把信息检索从传统的基于关键词层面提高到基于知识(或概念)层面。在数字图书馆中,理想的信息系统应当是概念匹配,基于语义交互,这也是美国数字图书馆创始工程第二期工程(DLI Phase2)的目标之一[8]。语义交互一般只有在相应的信息基础上才能实现,在一个由分布的、异构的数字图书馆中实现语义检索是数字图书馆所面临的巨大挑战之一。Ontology具有良好的概念层次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。基于Ontology的信息检索的基本设计思想可以总结如下:
(1)在领域专家的帮助下,建立相关领域的Ontology。
(2)收集信息源中的数据,并参照已建立Ontology,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中。
(3)对用户检索界面获取的查询请求,查询转换器按照Ontology把查询请求转换成规定的格式,在Ontology的帮助下从元数据库中匹配出符合条件的数据集合。
(4)检索的结果经过定制处理后,返回给用户。
由于Ontology能通过概念之间的关系来表达语义的能力,通过Ontology的构建,在准确定义词汇概念的基础上,增加词间关系的关联,建成基于Ontology的检索平台,就能提高检索的查全率和查准率。正如微软公司的格雷(Jim Gray)博士提出的那样,未来搜索引擎将向更专业化的方向发展。不划分知识领域、不对用户建立任何描述以及使用关键词匹配的交互方式都限制了搜索引擎的使用效率。在专业领域词汇的建设方面,Ontology作为网络环境下叙词表的延续、发展和提高,将在智能化、知识化和专业化的搜索引擎的发展中起到重要的作用。在数字图书馆中,建立相关的知识库和系统规则后,智能搜索引擎可作为一个独立的组件用于智能信息发现,也可作为数字图书馆系统一个前端子系统用于信息提供。基于Ontology的思想,数字图书馆智能检索工具的体系结构如图3所示[9]:
图3 智能检索工具的体系结构
3.3 在知识服务中的应用
知识服务,即以信息知识的搜寻、组织、分析、重组的知识和能力为基础,根据用户的问题和环境,融入用户解决问题的过程之中,提供能够有效支持知识应用和知识创新的服务[10]。知识服务在服务方式上的特点是融入用户之中和用户决策过程的服务,是基于专业化和个人化的服务。基于知识的数字图书馆应该可以提供面向特定学科领域的知识服务,使知识服务体现高度的个性化需求。知识服务需要一个新型的技术基础。这个基础应该充分支持基于虚拟资源体系的服务集成,充分支持基于内容的数据检索、信息内容分析和动态集成,充分支持数据挖掘和知识发现,充分支持个性化、专题化和智能化服务,充分支持以用户为中心的信息交流、知识析取和知识应用,充分融合用户信息资源和信息系统。如何解决知识服务问题,采用Web服务架构、Agent软件系统和基于Ontology的知识组织方法是一种可行的解决方案[11]。因此给Web服务增加语义功能,使服务能自动发现、集成、执行和监控,Ontology建设和相应的Agent引擎设计是实现该目的的有效途径。
Web服务(Web Services)作为Web技术的最新发展成果,它的出现及推广将改变现有的Web应用模式[12]。目前Web上存在的信息格式具有很大的异构性、信息语义的多重性以及信息关系的匮乏和非统一性。在这种情况下,必须对各种不同的信息进行概念上的统一,才能让机器理解这些不同格式的信息所表达的知识。只有机器能够统一理解信息中所包含的概念,智能Web服务IWS(Intelligent Web Services)才有可能成为现实。也就是说,在IWS中,机器可以做到像人类一样地去理解一些知识。比如,老虎是动物,桌子一般有四条腿等等。
Ontology是人工智能领域的重要研究内容,如果将Ontology技术引入Web Services技术中,由于Ontology具有丰富的语义和广泛的关系,那么将从根本上解决以上问题。它将改变现有的Web Services,使之成为Intelligent Web Services,使Web实现从自动化到智能化的转变成为可能。用Ontology来改进目前的Web Services,使之成为IWSBO(Intelligent Web Services Based on the Ontology)。
就Web服务上实现Ontology和Agent机制,DARPA提出的DAML-S规范是一种较好的解决方法。DAML-S是用DAML+OIL语言建立的描述Web服务的特性和功能的Ontology,用以支持和建立自动Web服务系统,它是多家公司、大学和研究机构的共同研究成果,目前是0.9版,用DAML+OIL语言描述,随着OWL语言进一步完善和正式发布,DAML-S将用OWL来描述。OWL(web ontology language)是一种ontology表示语言,具有丰富的语义和关系逻辑表示功能。Xml是一种应用最广泛的数据内容和结构的表示语言,但它本身并不能表示数据的语义信息。DAML-S定义了三个Ontology,分别是服务描述(Service Profile),服务模型(Service Model)和服务实现(Service Grounding)。为更好地描述服务的内部工作机制,在服务模型基础上,DAML-S定义了流程模型(Process Model)Ontology,它综合了人工智能规划和工作流程研究成果,定义了Web服务中的流程类型和流程控制等细节信息,较好地表示了Web服务自动集成中的流程分类、合成、控制和时间约束等关系。
Web服务还是新兴的概念,处于初始阶段,还没有完善的规范来对它进行约束,实现方法和手段也是多种多样,智能Web服务是Web服务的趋势,也是Web服务最终要达到的目标。
4 结论
Ontology自20世纪90年代初提出以来,在国外就引起了众多科研人员的关注。在数字图书馆领域,Ontology有着广阔的应用前景。Ontology在数字图书馆中的应用可以改善目前数字图书馆的一些不足,使数字图书馆向着基于知识的方向发展,使之最终能够提供知识服务。除了上述文中提到的应用之外,数字图书馆作为相对独立的信息系统,Ontology可以通过机读元数据自动建立书目数据库;通过语义对网页或文件进行自动标引和注释;通过语义聚类将信息资源中的相关主题进行分类,从而实现数字图书馆的定题服务;也可以对网络站点进行分类和导航,丰富数字图书馆的链接。