基于开放引擎的知识组织服务_语义分析论文

基于开放引擎的知识组织服务,本文主要内容关键词为:组织论文,引擎论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250.7 修回日期:2012-04-23

1 引言

叙词表、分类表、本体等知识组织工具用于标引和组织信息资源,使得用户能够从资源的主题内容、资源的形式、资源语义关联等多角度发现信息资源,协助用户在海量信息中快速发现和定位目标信息资源。在数字图书馆资源和网络信息资源迅速增长的趋势下,开发和利用知识组织工具提高信息系统的服务效果,是数字图书馆的重点研究课题之一。

中国科学院国家科学图书馆为了推进数字图书馆资源和服务系统从传统的基于关键词的检索服务向知识化的智能服务转变,于2010年启动了数字知识环境开放组织引擎建设项目(简称开放知识组织引擎)。本文将介绍该项目的设计思路、技术框架以及开放知识组织引擎达到的服务能力,并对开放知识组织引擎的示范应用进行介绍。

2 国内外研究现状

当前,国际知识组织体系服务大致可以分为两种类型:一种是单个知识组织体系的服务,另一种是集成的知识组织体系服务。

在单个知识组织体系服务方面,当前研究主要集中在传统知识组织体系的SKOS表示、知识组织体系词汇发布成关联数据等方面。服务方式主要是提供Web服务和嵌入信息系统的检索支持服务。如《美国国会图书馆图书分类法》、《杜威十进分类法》、联合国粮农组织的AGROVOC多语言叙词表等都提供了基于浏览器的Web服务。而INSPEC Thesaurus、Ei Thesaurus、NASA Thesaurus等一些专门领域的叙词表除提供Web服务外,大都嵌入在专门的信息服务系统中提供服务。

国内的知识组织体系的数字化服务与国际上存在一定的差距。在国内,《中国图书馆分类法》是第一个提供Web服务的知识组织体系。其他的叙词表、分类表等知识组织体系目前存在的主要问题是维护更新不及时、数字化步伐缓慢、大部分不提供基于Web的服务。

最近十几年,知识组织体系的集成服务是本领域的一个热点研究领域。Marios Sintichakis等对单语言叙词表合并进行了研究,提出了等价术语察觉的叙词表合并机制[1]。Ralf Kramer等提出了一个中间件的方法集成分布异构的叙词表,支持分布系统的集成检索。中间件中主要成分是一个术语映射器和术语映射数据库,术语映射数据库实现不同叙词表术语之间的关联,映射器提供查询调用[2]。R.Nikolia等提出了叙词表联盟的框架[3]。联盟框架的关键组件是一个联盟服务器。联盟服务器包括联盟叙词表仓库、基于本体的叙词表封装、叙词表关联数据库。通过这个联盟服务器实现叙词表的松散联合。

国内的朱礼军等提出了基于Web Service框架的多来源、跨主题的主题集成框架[4]。侯汉清提出了将我国的分类表、叙词表以及国外主要的分类表等知识组织工具建立一个兼容体系的设想[5]。刘华梅等对基于受控词表的集成词库构建进行了研究[6],提出了分类法和主题法互操作的算法。王军设计了集成知识网络框架,集成知识网络通过合并分类表、叙词表成为一个概念网络,然后将资源的元数据记录按照资源的主题分配到这个概念网络的节点上,并开发了实验系统VISION[7]。

在集成知识组织体系建设方面,美国国家医学图书馆建立了统一医学语言系统(Unify Medical Language System,UMLS)[8],将100多个医学领域的分类表、叙词表、术语表等通过概念关联集成为一个巨大的相互关联的集成知识组织体系,支持对医学文献信息的智能知识发现。

高层叙词表(High-Level Thesaurus,HILT)[9]是RSLP(Research Support Libraries Programme)和JISC(Joint Information System Committee)联合资助的项目。项目的目标是要解决跨社区、跨服务、跨资源类型的主题整合浏览和检索。HILT经过了4个阶段的建设。在知识组织体系上,集成了67部国际重要的叙词表和分类表。在服务方面,HILT能提供基于SRU/W协议的APIs检索服务、基于浏览器的词汇浏览和检索服务、基于SOAP的Web Service服务。

Renardus是欧盟信息社会技术(The Information Society Technologies,IST)支持的项目。项目的目标是促进从语义角度对欧洲主题门户网关的整合检索,采用的主要方法是开放一个经纪人(broker)服务,用户可以通过经纪人服务集成浏览和检索欧洲分布的主题网关的资源集合[10]。Renardus的核心是将DDC作为一个全局分类法,将欧洲多种分类法与DDC进行映射,实现基于DDC类目的欧洲主题信息门户的主题导航和语义互操作。

3 开放知识组织引擎的体系框架

3.1 开放知识组织引擎的建设目标

虽然国际国内在知识组织体系建设和应用方面已经有了大量的研究和建设成果,但从中国科学院数字图书馆系统服务需求来看,还没有一个符合需要的知识服务系统。

在国内,集成知识组织体系主要还处于研究和实验阶段,尚未见到成熟并能提供稳定服务的系统,能提供数字化服务的只有《中国图书馆分类法》,但是存在类型单一、无法提供语义集成服务的问题。

国际上,单个的知识组织系统,如《美国国会图书馆图书分类法》、《杜威十进分类法》、INSPEC叙词表等大部分是商业化的知识组织工具,只提供标引应用。在集成的知识组织体系方面,UMLS是一个非常成熟的系统,但只涉及医学领域,Renardus局限在欧洲门户网站的分类法的集成,知识组织体系类型单一,也不提供开放应用。HILT项目虽然是基于Web Service技术,提供API接口供第三方应用,但在知识组织体系集成方面,将所有的叙词表和分类表都向《杜威十进分类法》映射,叙词表映射到分类表很难做到准确映射,这种集成知识组织体系的结构将会影响语义互操作的服务效果。

从中国科学院数字图书馆服务系统应用需求和科研一线知识化服务发展的需求出发,并借鉴国际国内知识组织体系研究成果,课题组确定中国科学院开放知识组织引擎的建设目标是:①能够动态集成各种类型的知识组织体系,所集成知识组织体系的类型的知识组织体系,齐全、结构合理,能够提供多维度的知识组织和服务;②应能提供单个知识组织体系的应用服务,也能提供集成知识组织体系服务,支持数字图书馆服务系统的语义互操作;③应建立集成知识组织体系可持续发展机制,支持广泛合作的知识组织体系建设和共享服务;④应采用当前普遍使用的接口规范和技术,开发一个独立于信息资源系统的服务工具,支持第三方系统动态的调用和嵌入知识组织体系。

3.2 开放知识组织引擎的技术框架

在这样一个目标指导下,课题组设计了开放知识组织引擎的技术框架,如图1所示。

图1 开放知识组织引擎体系框架

开放知识组织引擎由4层结构组成:

·集成知识组织体系:集成知识组织体系集成了叙词表、分类表、术语表、本体等各种类型的、各专业领域的知识组织体系。所有来源的知识组织体系都经过格式规范和语义规范,统一按SKOS或OWL语言描述。各种来源知识组织体系在集成知识组织体系库中保持其原来的逻辑结构和术语表现形式不变,通过术语和概念的映射、匹配、关联,形成一个以概念体系为核心的知识网络。

·引擎内核:引擎内核的作用是实现对集成知识组织体系的存取、检索、浏览、关联、推理等操作,支持第三方系统的应用,支持集成知识组织体系的更新、维护等管理性操作。

·引擎接口:开放知识组织引擎接口提供基于Web Service的API接口和基于http的接口。第三方应用系统通过API接口实时调用集成知识组织体系,实现对本地信息资源的知识组织、知识导航、知识检索以及自动标引、自动聚类等各种应用。http接口提供用户通过Web浏览器对集成知识组织体系的检索,也提供系统管理员对知识组织体系的管理维护等操作。

·应用环境:应用环境是指第三方系统和人通过开放知识组织引擎接口使用集成知识组织体系。

4 集成知识组织体系建设

4.1 集成知识组织体系结构

集成知识组织体系是开放知识组织引擎的基础,包括各种类型的、综合或专业的知识组织体系,如以复杂关系结构表示的本体、等级结构的分类体系、主题词表结构的知识组织体系以及其他术语表、受控词表等。

集成知识组织体系建设的思路是通过评价遴选方式,实现对应用广泛的综合及领域知识组织体系的复用;通过自建的方式建立特定类型的知识组织体系;通过合作建设模式,发展完善数字知识环境建设所需要的领域知识组织体系;通过集成、连结等方式,实现多种知识组织体系之间的关联映射,支持知识资源的语义互操作和基于开放知识组织体系的集成检索。集成知识组织系统的结构如图2所示。

图2 集成知识组织体系结构

集成知识组织体系由来源知识组织体系、CAS概念集和范畴体系3个部分组成:

·来源知识组织体系包括综合的或专业领域的开放的叙词表、主题词表、术语表和分类表。所有来源知识组织体系都经过语义规范和格式规范,统一按照SKOS格式进行描述。它们可以作为独立的知识组织体系提供服务,也可以作为集成知识组织体系的一部分,与其他知识组织体系共同提供跨系统的主题检索浏览等服务。

·CAS概念集是由来源词表的概念经过语义归并而形成的规范概念集合。一个CAS的概念能连接到一个或多个来源词表的相同概念,通过这样的链接,形成一个概念网和术语网,支持用户通过各种形式的术语对概念进行检索。

·范畴体系用来组织CAS概念,同时范畴体系又作为全局知识组织体系,来连接各种来源分类表,形成分类表网络。课题组选择DDC作为全局分类表。CAS词表中的概念、分类表的类目都将映射到DDC的类目下。

通过这样一个集成的知识组织体系,可以实现的服务包括:①由于将各种分类表和叙词表的概念通过全局知识组织体系DDC关联起来,故可以支持主题整合检索和跨系统的语义互操作;②通过来源词表的异形同义词、同形异义词、相关词的关联,构成了一个科技术语网络,在用户的信息查询过程中提供支持,包括检索词的规范与扩展、检索结果的聚类等;③提供第三方系统裁切抽取知识组织体系的子集或片段,集成到本体应用系统中提供服务;④提供第三方系统对信息资源的自动标引、自动分类、数据挖掘和各种分析服务。

4.2 集成知识组织体系建设

课题组通过以下几个步骤完成集成知识组织体系的建设:

·第一步是来源知识组织体系的调研、遴选和转换——按照中科院的研究领域和中科院信息资源状况,重点采集了数学、物理、化学、天文、地球科学、生物科学、部分技术科学领域以及相关农业和医学领域知识组织体系共64个。各领域知识组织体系如表1所示。

·第二步是来源知识组织体系的数字化转换和规范化表示——将叙词表、术语表、分类表统一采用SKOS语言进行描述,本体采用OWL语言描述。

·第三步是来源知识组织体系的集成——采用机器自动和人工辅助相结合的方式进行来源词表的集成。首先,课题组对来源词表有一个评级,评级高的词表优选转入集成知识组织系统,其概念自动转换成为CAS概念,概念的优选词也成为CAS概念的优选词,其后装入的词表将首先与已装入词表进行自动匹配,如果术语相同就认为是概念相同,这个来源词表的概念就与CAS已有概念进行关联,不再在CAS概念集中增加新概念。系统自动合并过程如图3所示。

图3 系统自动合并过程

·第四步是人工审核——通过知识组织引擎管理平台,人工对机器集成结果进行审核。由于工作量的关系,目前只选取了力学领域的概念进行审核,同时从中科院力学所机构知识库中采集了600多个用户关键词添加到集成知识组织体系中,丰富术语网络。集成知识组织体系的应用效果将在本文的第5部分介绍。

5 开放知识组织引擎服务能力和示范应用

5.1 开放知识组织引擎达到的服务能力

在上述集成知识组织体系和开放引擎的支持下,开放知识组织引擎能够达到如下的服务能力:

5.1.1 集成知识组织体系的管理和共享 开放知识组织引擎建立了知识组织体系管理平台,按照集成知识组织体系建设工作流,实现了来源知识组织体系的格式规范、装入、概念自动关联、人工概念和术语编辑、知识组织体系片段的裁切抽取、知识组织体系下载等功能。尤其在CAS概念规范方面,系统提供了强大的功能,协助人工对来源知识组织体系概念的链接、校正和编辑。开放知识组织引擎建立了知识组织体系共享机制和相关的工具,用户能够上载各自建立的知识组织体系提供共享,也能够通过裁切抽取等工具利用其他机构建立的知识组织体系。

5.1.2 第三方应用接口 开放知识组织引擎提供基于Web Service技术的API接口,支持第三方系统对集成知识组织体系的应用,达到如下应用目标:①将集成知识组织体系的分类表和叙词表动态嵌入第三方系统中,供标引人员对资源进行分类标引和主题标引;②实现对第三方系统资源的自动分类和标引,支持第三方系统按知识组织体系结构浏览资源;③支持用户检索,提供检索术语的扩展和规范,支持检索结果的自动聚类。

5.1.3 标引客户端工具 系统提供客户端工具,该工具可以融入资源加工过程,支持用户快速地进行资源分类和标引。

5.1.4 集成知识组织体系Web服务 用户通过浏览器检索和浏览集成知识组织体系,实现按来源知识组织体系的名称、类型和专业领域三个角度的浏览。实现对集成知识组织体系术语和概念的统一检索,检索结果可以按语言、专业领域、来源知识组织体系进行精炼。

系统嵌入了Protégé本体编辑器,实现本体的浏览和本体概念的检索和编辑。开放知识组织体系的服务地址:http://openkos.whlib.ac.cn/。

5.2 开放知识组织引擎的应用服务

开放知识组织引擎作为中科院国家科学图书馆“十二五”规划的先期启动项目,于2010年开始建设,2011年开始启动试点应用。课题组选择中科院机构知识库作为应用试点,包括中科院力学研究所、半导体研究所共9个机构知识库。

开放知识组织引擎在机构知识库实现的服务及服务效果如下:

·对机构知识库论文的自动主题标引。以力学研究所机构知识库为例,该所机构知识库共有论文10 237篇,总计去重后的用户关键词17 265个。这17 265个关键词通过与集成知识组织体系CAS概念关联下的同义词网络的术语匹配,论文可以用3 684个规范术语主题标引。

·用户检索过程中的检索词提示。用户在检索框中输入检索词的同时,系统自动提示规范检索词系统,指引用户选择更合适的检索用词。

·用户检索词的扩展,即用户输入一个检索词,知识组织引擎提供该检索词的所有异形同义词,知识库系统实际是使用所有的异形同义词进行检索。在力学研究所机构知识库用数值模拟作为检索词进行测试,没有知识组织引擎支持情况下的检索结果是195篇文献,而有知识组织引擎支持下的检索结果是237篇,大大提高了查全率。

·检索结果按DDC分类法聚类,便于用户按学科精炼检索结果。

·机构知识库论文按主题统计和排序,可以快速清晰地掌握本机构的研究热点和研究动向。

6 结语

开放知识组织引擎和集成知识组织体系建设还刚刚处于起步阶段,虽然开展了示范应用,但应用的范围和程度还有待进一步拓展。开放知识组织体系建设的目标是提升数字图书馆资源和服务系统的知识发现能力,开放知识组织引擎下一步的建设目标是通过开放知识组织引擎在数字图书馆系统中更大范围的应用,来推动集成知识组织体系和开放引擎的发展。

标签:;  ;  

基于开放引擎的知识组织服务_语义分析论文
下载Doc文档

猜你喜欢