实用分类体系及其实现方法_分类数据论文

实用分类系统及其实现方法,本文主要内容关键词为:方法论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G250.76;TP311

文献标识码:A

文章编号:1007-7634(2005)08-1209-04

1 语义网与实用分类系统

目前计算机硬件技术(如处理速度、数据存储、网络通讯设备的能力等)已经有了长足的发展,但是大量数字化信息的表达还停留在“机读”水平,缺乏应有的“智能”去“读懂”数字化信息;互联网仍然处在“混沌网”和缺乏互操作性的阶段,其根本问题在于缺乏语义。语义网的出现将改变这种状况,简单地说,语义网就是机器可以理解的信息,是数据网或全球性的数据库。作为当前因特网的延伸,语义网赋予信息以清晰的定义和含义,为数字化的信息加上“智能”,促进人与计算机的合作,能够最大限度地发挥因特网的潜力,使该技术能够让机器支持全球化的知识交流[1]。

W3C(World wide web consortium)在语义网的开发中,将工作重点放在了可扩展置标语言(XML)和资源描述框架(RDF)为基础的实施技术方面,而其中的核心部分便是对实用分类系统(Ontology)的开发和利用,实用分类系统与计算语言学相结合,将成为应用领域里关于数据含义的聚集库。实用分类系统是为共享领域内的通用说明、定义和关系提供的一个语义框架,它的最终目标是精确地表示那些隐含的(或不明确的)信息,使得它们可以被软件系统重用和共享[2]。

语义网的整套标准和技术可以划分为一个从基础的国际码(Unicode)和统一资源标识(URI)到最高的信任层(Trust)的层式结构,如图1所示[3]。

国标码、统一资源标识、可扩展置标语言及其相关技术如名域(Namespaee)和可扩展置标结构语言(XML Schema Language,简称XML Schema)构成语义网的原始物理基础,这一层奠定了数据的格式和语法,但并不能赋子数据以语义,即数据的含义和各种数据之间的联系[4]。资源描述结构及其语言(RDF Schema Language,简称RDF Schema)通过定义概念之间的关系使数据能够自我描述,这项标准建立了“计算机可读(懂)数据”的环境。但是这还不够,因为计算机不能像人那样聪明地判断“电脑”就是“计算机”,而且“掌上电脑”是电脑中的一个类型,可以具有记事、日历、上网的多种功能。要让信息系统能够处理并懂得这些数据(不同名称)和它们之间的关系,就必须设计实用分类系统词汇表(ontology vocabulary)来定义这些概念,统一用词,建立参照系统将有关的概念联系在一起,逻辑推理(logic)、证明(proof)和信任(trust)这些最高层次的技术必定依赖于实用分类系统的建立。

附图

图1 语义网的标准与技术(Bmers——Lee,2000)

2 实用分类系统和图书馆分类法

实用分类系统的主要成分是一套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,并且应用面向对象(Object-Oriented)的方法按需要给一些类目加上更细的定义(如特性、限制、推纳规则等)。实用分类系统与传统知识分类工具的一个根本区别就是系统的概念、特性、限制条件等都是计算机可读(懂)的,所以实用分类表中的知识定义可以被再利用。具体区别参照表1[3]。

表1 实用分类系统与图书馆分类法的比较

附图

由上表可以看出实用分类系统中概念之关系的表达比图书馆分类法要广而且深,这是由于实用分类系统主要为机器增加“智能”进而实现自动化处理信息、知识分享和再利用而建立的。所以在数据模型和表述语言方面,它的结构和数据库很接近,通过简单的处理即可以将整个分类系统转换成数据库而直接实施到信息系统的开发和建设当中去,为知识采集和知识库的建立搭建平台。实用分类系统中的概念、特性、关系和规划就像神经网络中的神经单元,统管着自己那个小领域的知识内容、特征和方法,建造实用分类系统相当于建造信息处理所需的智能单元,是开发语义网的基础。

3 实用分类系统的构造设计

构造和设计实用分类系统(Ontology)是很复杂的,这主要是因为有关实用分类系统的研究尚处在雏形阶段,没有统一的定义和固定的应用领域。专有领域实用分类系统和共享领域实用分类系统的建立都是刚刚起步。但现阶段构造实用分类系统的素材却是多种多样的,就其完整性而言,有结构的、半结构的和无结构的等[5]。

有结构的素材如数据库结构、叙词表、术语分类表等。①数据库的结构对于建立实用分类系统有重要的影响,但是数据库样式表(Database schema)和实用分类系统(ontology)中的实例(instances)是不同的,和Database schema相比,ontology具有以下特点:ontology也可视为数据,ontology是和语义相结合的,ontology被经常地重复使用,ontology在本质上是分散的,Ontology数据模型是丰富多样的,层级关系也可视为ontology的同等概念。②由于按照叙词表对文献进行标引之后,可以利用计算机对文献信息进行快速、准确、全面的检索,20世纪80年代以来叙词表的编制有了长足的进展。在网络环境下,叙词表不但在建立各个领域的实用分类系统中将充当重要角色,而且,更重要的是要首先结合各个知识领域的发展与自身概念性强的特点,建立能够驾驭各领域的具有叙词语言特色的实用分类系统,为将来语义网中的智能检索奠定基础[6]。③术语分类表是长期以来各学科发展的重要成果,在这方面充分利用也要比从头做起容易得多。

半结构的素材包括网页(特别是XML标记的网页)、词典或字典等半结构的来源。有专家把实用分类系统分作静态(Static ontology)、动态(Dynamic ontology)、目的(Intentional ontology)、社会(Social ontology)4类,在编制实用分类系统时,具有完整结构的素材固然有较好的利用价值,但是半结构以及无结构的素材因为有较好的开放性、可扩展性,对于描述动态实用分类系统(Dynamic ontology)和社会实用分类系统(Social ontology)更有开发前景。

实用分类系统(ontology)在编制中应首先被视作一种具有生命周期的东西,西方有学者将规范化(Specificadon)、概念化(Conceptualization)、格式化(Formalization)、执行(Implementation)、保存(Maintenance)作为实用分类系统生命周期中的5个阶段,但同时也指出:这5个阶段不是固定不变的,Maintenance也不是最终的目的,新知识的层出不穷和过于零散、无结构促使在编制实用分类。系统时要吐故纳新,时刻保持重复可用的生命力。

透彻理解ontology对技术操作的指导意义和掌握大量的素材是编制实用分类系统的前提,此外,在编制时还要有步骤地进行。一般而言,构造和设计实用分类系统有下面几个步骤。如图2所示[7]。

首先,要确定实用分类系统的目的和范围。即所研究的领域和范围领域越大,所建实用分类系统越大。一般而言有三种实用分类系统,如图3所示[7]。

附图

图2 实用分类系统的构造流程图

附图

图3 三种不同的实用分类系统

不同的领域可以构建不同的实用分类系统,即使是同一个领域内,实用分类系统也有不同的层次;而我们研究目的的不同也决定着实用分类系统的大小。比如在数字图书馆的建设中,基于文本文献的实用分类系统是一个层次,基于XML的多媒体信息的实用分类系统是一个层次,而基于对数字图书馆全程知识管理的实用分类系统又是一个层次。目的和范围的不同决定我们将建立一个怎样的体系,以及在建立这个体系的过程中将花多少成本,而这一系统将来能发挥多大作用[8]。

其次,进行实用分类系统分析。构建实用分类系统的核心是建立概念间的等级结构及定义概念属性,从而利用逻辑推理来推导概念之间的关系。这需要专家的参与,在专家的指导下,确定领域内该分类系统建立的可行性。而专家对该领域了解得深入程度将直接影响到所建立实用分类系统的完善程度。

第三,实用分类系统的表示。一般用语义模型(或语义网络)来表示实用分类系统,在语义模型(语义网络)中,每个结点表示一个概念,而结点之间的连接表示概念之间的关系。

第四,实用分类系统的检验。要建立清晰、一致、完整、可扩展的实用分类系统,就要求系统中的术语无歧义,系统中的术语间保持一致的逻辑关系,系统中的概念和关系应是统一完整的,并且在系统中可以随时加入该领域的新概念[9]。

第五,对所建立的系统应进行检验。符合标准的以数据形式存放,否则,重新进行系统分析。

4 主要应用的设计方法

现在关于实用分类系统的构造设计方法主要有两种:一是利用已有的叙词表或分类词表来改造成实用分类系统;二是利用现有文献和领域专家从头做起。进入联网时代以来,在许多大型的数据库中产生了众多现在仍在使用的叙词表。一般认为在大的知识领域中建立实用分类系统是一件费时费力费钱的工作,而以原有知识领域已经建好的叙词表(或分类表)的概念结构为基础,往上扩充概念特性、关系等成分,对于构造设计实用分类系统可取得事半功倍的效果[10]。美国的联合医学语、系统元词表(Unified Medical Language Systern Metathesaurus简称UMLSM)中包含的超级叙词表(superthesaurus)便是一个很好的例子。超级叙词表2001年版收集了60多种生物医学源词表(其中部分为多语种)中的约80万个概念和约190万个名称。超级叙词表以概念或涵义来组织,同一概念的不同名称(如同义词、词语变体和译文)被链接在一起,每一个概念都有一定的属性以限定其涵义。这些属性有:所属语义类型、在各种源词表等级关系中的位置等,许多概念还有一个定义,同时还显示出不同概念间的各种关系,其中一部分关系源于来源词表,一部分关系在编制超级叙词表时产生。绝大多数词间关系与相应的概念链接。在此基础上,UMLS通过134种语义类型为超级叙词表中所有概念提出了一个统一的分类体系,语义类型之间的54种链接展示了实用分类系统的结构并显示出在生物医学领域内的重要关系,在超级叙词表中可以找到指定概念的所有信息[11]。

实用分类系统构造的另一种方法是利用现有的文献和领域专家(Domain EXperts)来设计和编制。现阶段实用分类系统的建立仍然处在注重技术的水平上,而未达到建立大型工程所要求的完善程度。多种研究方法虽久经考验,但是建立一种普适性的Ontology的标准仍未出现。尽管如此,有关方面技术的进展已经为建立专有领域的实用分类系统铺就了道路。Ontology研究现在局限于集中的或少数研究小组的圈子里,随着人们对语义网兴趣的增加,新的开发环境和设计思路会不断涌现,但充分开发对各个领域谙熟的领域专家的知识与技术潜能,对于建立各领域的不同层次的Ontology显然仍具有重要的指导意义。作为语义网的主干技术,Ontology研究在人工智能、计算语言、数据原理等方面有着广阔的前景。其中建立知识表示和知识管理的实用分类系统备受关注。可以预计实用分类系统(Ontology)在以统一的智能化来实现智能化的统一的过程中必将带来新的革命。

标签:;  ;  ;  

实用分类体系及其实现方法_分类数据论文
下载Doc文档

猜你喜欢