基于知识的资源整合,本文主要内容关键词为:资源整合论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 知识整合界说
1.1 知识整合的背景
知识整合(Knowledge Integration)是数据整合、信息整合发展的必然。
资源整合体系包括数据整合、信息整合和知识整合三个层次。数据整合仅解决了异构数据库中信息实体的合并问题,无法反映信息实体间客观存在着的多种联系。如何在异构资源系统集成的基础上,揭示客观存在于不同资源系统中信息实体之间的关系,便成为信息整合要完成的任务。但信息整合的深度仅停留在信息实体/文献层面,没有揭示信息实体内部的概念和语义,因而从信息整合系统中所获得的还是文献(信息)的集合,而不是知识的集合。实现知识的有效获取,满足人们的知识需求,便成为知识整合要完成的任务。
由信息整合向知识整合发展,也是知识组织理念的兴起和知识组织技术推动的结果。知识组织是在知识分类的基础上发展起来的,然而长期以来,局限于对知识的理解,同时受制于知识组织技术,人们对知识组织与控制依旧停留在文献层面上。由于知识在现代化社会中的地位越来越重要,特别是知识表示、知识获取、知识处理、知识表现、知识推理等与知识组织密切相关的技术的发展与创新,“知识”和“知识组织”的研究成了许多相关学科领域共同关注的问题,知识组织以及由对知识的组织而衍生的知识工程、知识管理、知识科学正进入一个蓬勃发展的新阶段。
知识组织的重点和精髓在于对知识及知识间的关联进行描述、处理和表示。围绕知识组织的精髓,产生了诸如主题图、本体等新型知识组织体系。其中本体正是由于其具有知识组织体系的功能,能够实现对知识结构的描述与揭示,从而成为知识组织的主流技术,在对知识的组织与整合中承担着重要角色。
信息整合的不足,知识组织的兴起,知识组织技术的成熟,用户的知识需求,这几方面的结合与互动,推动了基于知识整合研究与应用的发展。
1.2 知识整合的概念
所谓知识整合,是以知识组织方法为指导,以数据整合、信息整合为基础,以知识组织体系为支撑,组织资源知识结构中概念及概念关系的一种整合方式。
知识整合的主要对象是内在于知识体系中的知识结构的概念及关系。知识体系是人类认识世界的成果结晶。知识体系不是各种知识内容的汇集,而是相互间具有逻辑联系,具有一定层次结构的。结构性是知识体系的基本性质。人类知识体系的任一子体系都有其内在框架,即知识结构;概念是知识的基本单元,任何领域的认识成果,都要以概念的形式固定下来。概念间存在着多种复杂关系,通过各种逻辑关系联系起来的概念的集合,就形成概念系统。每一相对完整的知识体系都表现为概念系统,都有它特有的、不同于其他知识体系中的概念集合。
知识整合的本质,就是通过一定的技术手段,通过本体、主题图等知识组织体系,将内在于知识体系中反映知识结构的概念体系组织成一个能够有效获取知识的知识网络。
1.3 知识整合的特征
(1)以信息整合为前提。基于信息的资源整合虽然使相对独立的信息实体及其关系形成一个有机关联的整体,但仅是对信息实体间的关联进行整合,没有揭示信息实体内部的概念和语义。知识整合是信息整合的深化,是以信息整合为前提,对蕴涵在信息集合中的概念及概念间的关系再进一步予以揭示与整合。
(2)以知识组织体系为基础。知识组织体系是对资源内容概念及概念间的相互关系进行描述与组织的机制(工具)[1],是资源语义模型的形式化,能够支持对资源对象按照知识内容进行组织和描述,并支持基于语义和推理的知识检索。只有通过知识组织体系重组信息集合中的概念关联,才能实现知识整合。知识组织体系包括概念类聚体系和概念关联体系两个层次,其中概念关联体系是实现知识整合最优的知识组织体系。
(3)以语义标引为中枢。借助语义标引工具,对资源对象进行概念分析、分类、标引、描述和处理,使相对独立、没有语义的信息集合形成具有语义关联的知识组织系统,是实现基于知识、基于语义检索的基础。
(4)以知识展示为手段。知识展示也称知识呈现,是指通过一定的知识表示技术,将基于知识的整合系统按照一定方式,清晰有序地在一个统一的界面上展示出来。知识整合以知识组织体系为基础,是对概念关联的组织,所以知识显示的应是反映知识内容和概念关联的知识网络。知识网络是对知识组织体系的可视化描述与展现。
(5)以知识检索为目的。知识检索是能够实现知识关联和概念语义检索的智能化的检索方式[2]。知识检索基于知识整合,只有达到对知识的整合,方能实现对知识的检索。知识检索是知识整合的逆过程,是知识整合所要达到的最终目的,也是知识整合的主要应用。
1.4 知识整合的方式
知识整合以知识组织体系为支撑。知识组织体系的核心即是对概念及概念间的相互关系进行描述与揭示。根据对概念关系的揭示程度,知识组织体系大致包括概念类聚体系和概念关联体系两个层次。概念类聚体系强调概念间层级聚类和类别聚类,虽然也反映概念间关系,但不强调组织概念关联,因此,从概念类聚体系建立的资源系统中所获得的还是文献(信息)的集合,而不是知识的集合。分类表和主题词表是最具代表性的概念类聚组织体系。由于概念类聚体系不强调组织概念关联,严格说来,难以称为真正意义上的知识组织体系。
与概念类聚体系相比,概念关联体系不仅强调组织概念,更注重概念关联的组织,所以是支撑知识整合的知识组织体系。词网Word Net、概念图、主题图、本体等是典型性的概念关联组织体系。其中本体和主题图是最能体现知识整合的技术和方式。
知识组织体系既是知识整合的基础,也可以看作是知识整合的方式。本文主要介绍基于主题图和基于本体这两种方式的基本模式,并分析其应用与发展趋势。
2 基于主题图的资源整合
2.1 主题图概念界说
2.1.1 主题图的含义
根据主题图XTM1.0规范[3]和主题图数据模型[4]对主题图的描述,主题图是组织知识的一种技术、规范、方法和模型。它通过主题、主题间的关系以及与资源关系的表现来组织知识,并将其与相关信息资源进行连接。XTM是主题图的XML形式的表现方式,它采用XML的语法结构,定义了用于描述主题图的DTD文件,提供了描述结构化信息的语法和模型,该语法可定义主题、主题与主题间的联系。主题图的主要功能在于表示知识概念间的相互联系,定位某一知识概念所在的资源位置。通过主题图,可将抽象的知识内容组织成一个有坐标概念的知识地图,并形成结构化的语义网络,借助链接技术,将用户指引到相关的资源。
2.1.2 主题图的数据模型
主题图的数据模型由TAO三元素构成[5][6]:①主题(Topic):用以表示任何有意义的事物对象,不同事物对象及其特征以及相互间的联系体现在主题图中就是一组主题。②关联(Association):用以描述主题间的语义关系。关联可以是两个主题间的双向关联,也可以是多个主题间的复杂关联。③显现:是主题和资源实体之间的关系表现,一个主题可以被链接到一个或多个资源实体(见图1)。主题图每一元素概念都有一套基本元素。其本质是以主题、关联和显现三个核心概念形成知识的结构与关联。数据模型是表达应用领域资源的基础。
图1 主题图基本模型
2.2 基于主题图整合的基本原理
2.2.1 基于主题图整合的一般逻辑架构
基于主题图的整合方式可应用于不同领域,但其基本思路是一样的,即都是在资源集合的上层构建一个反映资源知识结构的主题概念网络TAO,与其相关资源加以联结,并以图示化的直观形式予以展现。主题图整合的一般逻辑模式可由信息源层、信息集成层、主题图构建层、主题图表示层、应用层五个基本要素组成(见图2)。
图2 基于主题图整合的逻辑架构
各层基本功能如下:
(1)信息源层。信息源是主题图构建的资源基础。可以是异构数据库资源,可以是网络各种类型的资源,也可以是多种信息资源的集合。
(2)信息集成层。对不同来源的信息资源按照统一的标准规范进行抽取、加工、处理,创建标准的元数据,以物理或逻辑的方式集成数据源。
(3)主题图构建层。在资源元数据集合的基础上创建主题图TAO:以词表为基础,抽取资源集合中的主题,形成体现资源知识结构的主题集合;用基于XTM语法规范进行元数据标注,构建主题图TAO,并建立主题图TAO与信息资源集合层之间的连接。
(4)主题图表示层。主要解决主题图的可视化显示,即以知识网络方式展示主题图。实现主题图的可视化,需要把主题图中的主题、关联和显现转换为图形世界的点和线,赋予空间的坐标属性,使其能够映射到二维或三维的空间。
(5)应用层。展示主题图界面,提供基于语义的主题概念导航和检索服务。
2.2.2 基于主题图整合方式的分析
作为知识整合的一种方式,主题图整合的主要优势的表现为:
(1)知识结构的网络化表示。主题图的核心即是通过TAO描述并展现资源的知识结构,揭示概念间的关系及对资源进行准确定位,成为有效获取知识的知识导航图。由于主题图是在资源集合之上根据主题、关联、呈现建立起来的概念网络,因而可以支持概念检索。
(2)知识结构的图形化表示。主题图的一个显著特征是以形象化的图形作为表示知识的手段。主题图中主题、关联和显示就像是空间里的点、线、面,将抽象的知识结构可视化,形成资源知识地图,从而能从总体上把握知识的结构,可以方便地定位资源并可获得与之有密切关系的一切资源。
2.3 基于主题图整合的应用及发展
国内外利用主题图组织与整合数字资源的研究与应用刚起步不久,主要集中在学科信息门户整合、学科资源整合、网络资源的整合和异构数据库整合等领域。
2.3.1 学科信息门户整合
利用主题图技术作为学科信息门户资源组织的工具,实现基于知识地图的知识浏览和知识检索,由信息门户向知识门户发展,是学科信息门户资源整合的一种趋势。例如国内CSDL学科信息门户的发展已经考虑应用主题图技术对门户资;源集合的主题内容结构、主题词汇、主题间相互关系以及主题与具体资源的链接进行描述,形成资源集合的主题图[7],国外的如德国环境信息网(German Environmental Information Network,GEIN)等也都采用了主题图技术[8]。
2.3.2 学科资源整合
这是一种将主题图和领域本体相结合的方式。先构建某一学科领域的本体,再采用XTM机制将构建好本体转换为主题图,然后通过主题图可视化工具显示本体的知识结构。例如文献[9]报道了采用主题图技术在资源环境学科的沙尘暴研究领域知识导航中的试验性应用。
2.3.3 网络资源的整合
建立网络主题图,首先要根据需求对网络各类资源内容进行主题分析,抽象出资源主题,定义出主题图中的T;针对各主题的属性及特征找出并定义出各主题之间的关系,形成主题图中的A;再对关联网页进行链接,即主题图中的O,再遵循ISO13250的架构,并以XML方式呈现,建构成完整的网络主题图[10]。
2.3.4 异构数据库整合
异构数据库集成只能实现集成数据的线性查询,通过主题图,抽取异构信息源中的主题概念,在异构信息源的上层建立一个主题网络,生成统一的同构主题图视图,将主题与异构相关资源进行链接,实现异构资源系统的(知识整合)语义导航和查询。例如文献 [11]提出了一个面向主题图的知识集成系统(Topic Maps-oriented Knowledge Integration System,TMKIS)。
3 基于本体的整合
3.1 本体概念界说
3.1.1 本体的含义
本体被赋予了太多的含义。根据文献[12][13] [14][15][16]对本体概念的介绍与定义,我们可以归纳出本体概念的基本内容:
(1)本体是反映特定领域知识结构的概念体系。概念和关系是构成本体的基石。
(2)本体是精确定义的概念体系。对概念体系的精确定义是本体成为普遍有效的严密体系的基础。
(3)本体是形式化描述的概念体系。经过形式化描述的本体概念体系有利于WEB环境下本体的共享、交换和高效检索。
(4)本体是共享的概念体系。本体概念体系是一种公约,是领域约定的“范式”。本体概念体系的共享性是本体概念可以复用、交换和映射的基础。
我们可以这样来理解本体:从理论上说,本体是领域知识的逻辑抽象而构筑起来的体现概念及关系的概念系统(也就是所谓的“概念化”或“概念模型”)。从方法上看,本体是一种明确定义、规范描述和共享领域知识的方法和手段。
3.1.2 本体的主要类型
文献[17]介绍了国外本体的分类情况,如Guarino的四分法:顶级本体、领域本体、任务本体和应用本体;Perez、Benjamin的十分法:知识表示本体、普通本体、顶级本体、元(核心)本体、领域本体、语言本体、任务本体、领域—任务本体、方法本体和应用本体。上述关于本体四分法和十分法的分类,具有内容上交叉性和概念上的模糊性。
本体分类应立足于以下两点:首先,本体是面向应用的,不存在脱离应用的本体;其次,本体是特定应用领域的本体。由此,本体可大致分为领域本体和通用本体两大类(见图3)。领域本体描述了某一特定学科领域或某一特定社会活动领域中的概念、概念的属性和概念间的关系以及某些需要遵从的规则。通用本体是若干不同领域的共享本体,是具有普遍意义的概念集合,处于各领域本体的顶层。普适性是其基本特征。
图3 本体类型示意图
3.2 基于本体整合的基本原理
3.2.1 基于本体整合的一般逻辑架构
同主题图整合方式相似,基于本体的整合方式可应用于网络资源、异构资源系统及信息门户的整合等多种领域。其基本思路也是一样的,即都是在资源集合的上层构建一个反映资源知识结构的本体概念模型,对资源进行基于语义的标注,从而实现知识检索。本体整合的一般逻辑模式可由信息源层、信息集成层、本体构建与本体标注层、本体表示层、知识检索层、应用层六个基本要素组成(见图4)。
图4 基于本体整合的逻辑架构
各主要组成部分功能如下:
(1)信息源层。信息源是本体整合的资源基础。可以是异构数据库资源,可以是网络各种类型的资源,也可以是多种信息资源的集合。
(2)信息集成层。对不同来源的信息资源按照统一的标准规范进行抽取、加工、处理,创建标准的元数据,以物理或逻辑的方式集成数据源。
(3)本体构建/语义标注层。以相关词表为基础构建本体概念集,或利用相关方法与途径(如领域专家、数据库)获取领域基本概念,构建领域本体概念模型,提供描述领域知识的规范和知识表示的工具。借助本体概念模型对信息集合进行语义分析与标注,形成具有语义关联的资源元数据集合,存入本体知识库。
(4)本体库管理层。存储与管理标注后的资源元数据,支持对本体知识库的并发访问与快速查询,支持对多用户协同编辑本体,以及对多版本进行有效的归纳、控制和管理。根据应用的需要,支持本体的合并、映射及本体的学习与进化。
(5)知识检索层。分析、处理检索请求,对查询术语进行语义解析,确定检索请求与本体概念及关系的对应,支持概念推理,实现语义检索,生成检索结果。
(6)本体表示层。以知识网络的方式,将本体结构可视化的加以展示,以供方便的查询与获取本体知识。
(7)应用层。展示知识检索界面,提供查询与浏览的途径与方式,显示已获取的知识以及知识之间的关系,提交检索结果,实现与用户的交互。
3.2.2 基于本体整合方式的分析
作为知识整合的一种方式,基于本体整合的主要优势表现为:
(1)本体提供了对领域知识的规范描述和共同理解,使得领域知识可以重用和共享。如果一个组织构建了专业领域本体,如法学本体、经济学本体等,其他组织可以共享和复用。因此,基于本体的资源整合能够真正实现领域知识的共知、共识和共享。
(2)在信息整合的基础上构建领域本体,为实现资源的整体化、一体化的知识整合提供基础。如果针对不同领域的信息集合建立起相应的领域本体,在此基础上,通过不同本体的语义映射实现异构资源和系统之间的语义联系,即可将各个相对独立的知识本体资源联系成一个立体的知识网络,人类所拥有的资源就呈现出具有完整结构、规范有序的知识地图。
(3)在领域本体的支撑下实现基于语义的知识检索。知识检索是知识组织的逆过程。实现基于概念语义的知识检索,必须有赖于知识组织系统的支撑。只有以基于领域本体的知识组织体系为基础,才能真正实现基于语义的知识检索。
3.3 基于本体整合的研究与应用
目前本体在知识组织、知识整合中的重要性日益被人们所重视。人们从不同角度、不同应用出发,来研究本体在知识组织中的地位、作用以及其构建方式。目前的研究主要集中在如下领域:本体与异构数据库集成、本体与知识库、本体与知识门户、本体与知识检索、本体与语义网。上述应用领域虽然不同,但本体在其中所扮演的角色则是相同的,即本体作为语义模型嵌入到不同资源集合的框架中,使得不同应用领域的知识结构化,从而使知识的有效获取、共享成为可能。
3.3.1 本体与异构数据库集成
无论是基于中间件的异构数据库集成还是基于数据仓库的异构数据库集成系统,仅体现数据在逻辑或物理上的合并或集中,多表现为集成数据在数量上的变化,基本没有反映数据之间有机关联。也就是说,异构数据库集成能够较好地解决数据源之间语法上的异构性,但无法解决语义上的异构性。解决数据源的语义异构问题只能是引入本体。例如文献[18]提出了基于本体的异构数据集成的系统架构,描述了基于本体的数据集成的过程。
3.3.2 本体与知识库
随着对知识的共享性、互操作性、可维护性等方面要求越来越高,“转换”知识这一传统的知识库系统构建方法已经不能满足新的应用需求,知识库系统的构建方法从“转换”转向“建模”,用建模的思想构建知识库系统成为知识库技术的研究重点。而通过Ontology建模方法,建立学科领域的本体模型,利用该模型建立知识库系统,成为知识工程中的前沿课题。例如文献[19][20][21]都不同角度提出了基于本体的知识库系统的设计模型、体系结构与设计方法。
3.3.3 本体与知识门户
信息门户的优势在于兼有数据集成和信息链接:整合的功能,可在异构资源系统“一站式”检索的基础:上同时获得具有不同关联关系的资源。由于信息门户采用的是信息组织机制,难以揭示信息实体内部的概念和语义。所以信息门户的发展趋势是以领域本体代替传统的分类体系与主题词表,在资源集成的上层构建一个本体层,对资源集合进行基于知识的整合,由信息门户向知识门户演化。如文献[22]介绍了国外应用本体技术构建的两个学术知识门户Esperonot和 Onto Web。Esperonot是欧洲Esperonot项目的内部与外部平台,包含了5个不同领域的本体,通过WebODE平台用关系型数据库对本体进行管理,能够通过SOAP和WSDL远程访问本体[23];OntoWeb作为欧洲项目OntoWeb的一部分而建立的,包含一个覆盖门户所有内容类型的应用领域本体[24]。这两个项目目前处于研究阶段发展阶段,应用还十分有限。
3.3.4 本体与知识检索
有什么样的组织方式就有什么样的检索方式。基于信息组织的关键词匹配的信息检索技术无法达到对知识的检索与利用。针对当前信息检索工具难以满足知识获取的需求,在检索机制中引入本体,使检索系统能对查询请求和信息源进行语义分析,实现基于语义理解的知识检索成为一个研究特点。如文献[25]提出一种基于本体论的知识检索方法,以弥补基于关键词机械匹配的检索机制的不足,增强网络检索的语义性和知识性。文献[26]在分析作为知识组织表示手段的本体与叙词表的联系与区别的基础上,以花卉学文献为例,构建了一个领域本体模型和一个花卉学文献试验性本体检索系统(FORS)。该系统收集了6000余文献数据,可以基于本体进行概念标引,初步实现了排除歧义和关联检索的功能。
3.3.5 本体与语义网
语义网是一种以机器可以理解的方式来表示人类知识的方法,可以实现对异构、分布的网络信息的有效检索和访问。本体是实现语义网的关键,通过本体将万维网中一个个现存的信息孤岛发展成一个巨大的知识网络,实现网上信息资源在语义层上的全方位的互联。目前语义网只是一个美好的前景,它的实现需要多种技术的支撑,其中最重要的本体核心技术的应用刚刚起步。文献[27][28][29]从不同层面梳理了语义网研究的一些基本问题,对本体在语义网应用的相关问题如本体构建、本体语言等进行了讨论。
4 结语
知识整合处于资源整合体系中最高层,是基于数据、基于信息的整合发展到一定阶段的必然要求。
知识整合是以知识组织体系为支撑,组织资源知识结构中概念及概念关系的一种整合方式。对概念及关系的整合是知识整合的核心。其目的是将内在于知识体系中反映知识结构的概念体系组织成一个能够有效获取知识的知识网络。
在资源的知识整合领域中,本体和主题图是重要的技术和方法。基于主题图整合的优势在于,能用可视化方式描述资源中主题概念间的相互联系,定位某一知识概念所在的资源位置。基于本体整合的主要优势表现为,提供对领域知识的规范描述和共同理解,通过构建领域本体,使不同领域的知识结构化、形式化,为实现资源的整体化、一体化的知识整合和基于语义的知识检索提供基础。
当前基于本体整合的研究与应用日益深入,成为数字资源知识整合的主流。特别是本体作为知识组织体系应用于语义网,促使更大范围内资源的知识整合和知识检索成为可能。
数据整合、信息整合和知识整合是逐次递进又互有交叉重合的资源整合方式。知识整合是资源整合的高级阶段,也是资源整合的最终目标。
收稿日期:2006-10-12