叙词表转换为Ontology的研究,本文主要内容关键词为:词表论文,转换为论文,Ontology论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 Ontology在语义网中的作用
1.1 语义网的提出
随着网络的发展,Web已经成为人类最大的信息资源库。然而,由于现在通行的HTML网页是机器可读而不可理解的,给网络信息资源的处理和利用带来了很大困难。因特网的创始人Berners-Lee于2000年12月18日在XML 2000会议上正式提出了语义Web。语义Web的目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理对WWW上异构和分布信息的有效访问和搜索。
Berners-Lee为未来的Web发展提出了基于语义的体系结构——语义Web体系结构。该体系中从底层到高层分别为:UNICODE和URI、XML、RDF、Ontology、Logic、Proof、Trust。第一层是UNICODE和URI。该层是整个语义 Web的基础,其中UNICODE处理资源的编码,URI负责标识资源。第二层是XML+NS+xmlschema,用于表示数据的内容和结构。第三层为RDF+rdfschema,用于描述Web上的资源及其类型。第四层为Ontology Vocabulary层,它用于描述各种资源之间的联系。第五层到第七层是在下面四层的基础上进行的逻辑推理操作。其中核心层为XML、 RDF、Ontology,这三层用于表示Web信息的语义。语义web将计算机对文字符号的识别转变为对文字语义的理解,为网络信息资源共事和信息检索开辟了新的天地。
1.2 Ontology的作用
XML是一种数据表示方式,其核心在于用一种标准化的方式来建立数据表示的结构,而将具体标记的定义留给了用户。由于具有良好的可扩展性和灵活性,可以满足各种不同领域数据描述的需要,并可以很方便地对计算机之间的数据进行交换。但是XML只是用来表示数据的和交换数据的,并不具备语义描述能力,或者仅有模糊的语义。例如,“〈Author〉TOM〈Author〉”可以表示TOM是作者。数据的语义是由RDF(资源描述框架)来表示的。RDF中的代码包含一组组的三元组,每个三元组非常像句子中的主语、动词和宾语。这些三元组可以用XML的标签来描写。在RDF中,文档中的声明通常是某个事物(人、网页或其他任何东西)对于某些值(另一个人、另一网页)拥有某些属性(例如“是姐姐”,“是作者”)。如“〈rdf:Description about="http://www.w3.org/Home/PubText/"〉〈Creator〉Ora Lassila〈/s:Creator〉〈/rdf:Description〉”这个RDF片段描述了网页http://www.w3.org/Home/PubText/的一个属性——创建者的值是Ora Lassila。但是XML中的标签集和RDF中的属性集都没有任何限制,使得它们在处理语义上存在两个问题:①同一概念有多种词汇表示,如上面的Author和Creator,完全可能用Writer来代替;②同一个词有多种含义(概念),如Doctor这个词,当它在医院的网页和大学的网页中时,是完全不同的概念。为了解决上述两个问题,很自然地需要引入Ontology。
Ontology原本是一个哲学概念,中文可以翻译为“本体”,又称“存在论”,是研究客观实体和存在类型的一种理论和学科。对于网络信息来说,一个典型的Ontology就是一个术语表和一组内在的关系规则。在术语表中定义了一系列有关对象和关系的类,而内在的关系规则不但表达不同词汇之间的等同、从属和相关关系,而且提供一种推理的机制。Ontology通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识。对于Ontology来说,Author,Creator和Writer是同一个概念,而Doctor在大学和医院分别表示的居两个概念。因此在语义Web中,Ontology具有非常重要的地位,是解决语义层次上Web信息共享和交换的基础。
2 叙词表及其与Ontology的联系
Ontology是以概念为核心的,目的是为解决语义中存在的同一概念有多种词汇表示和同一个词有多种含义(概念)的问题。这正是传统的叙词表的功能,而叙词也正是从表达概念的词汇入手的。叙词,国内又称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组,叙词表正是这样的词汇的集合,用来标引和检索,并能揭示概念之间的关系。这种概念之间的关系是靠叙词之间的关系来揭示的,叙词之间的关系主要有3种:等同关系,等级关系和相关关系。
叙词表收录某一领域中所有叙词和非叙词,按照一定顺序排列,其基本单位为叙词(非叙词)款目。其中叙词是某一概念的优选词,用来标引。其余非叙词为人口检索词,这样就使得同一含义只用一个词表达,解决了一个概念多种词汇的问题。每个叙词软目由叙词、分类号和各种参照事项组成。叙词款目之间的语义关系正是由这些参照项来揭示,主要包括用、代、分、属、参等,分别表示叙词之间的等同关系、等级关系和相关关系。
20世纪50年代叙词表得到了很大发展,成为主题检索的主要语言,各国拥有的叙词表数以千计并涵盖了各个领域,如美国国会标题表(LCSH),医学标题表(MeSH),工程和科学词汇叙词表(TEST),以及艺术和建筑叙词表(AAT)等。叙词表可以说是图书馆情报界为信息检索提供的知识财富,其作用和原理与Ontology有异曲同工之妙。如果能利用现存的叙词表,将其转换为相应的Ontology,必将使Ontology的建立事半功倍。
3 Ontology所包含的内容及建立步骤
关于Ontology在人工智能领域里有很多定义,其中许多定义互相冲突。对于Web信息而言,一个Ontology是一个清晰的关于一个领域的概念的描述(或称为类)、各种描述该概念特性的属性(Slots),以及关于各种属性的限定(分面)。一个Ontology加上一系列类目的各个实例即构成知识基础。
类目是Ontology关注的焦点。类目描述了领域内的概念。比如,酒类代表了所有种类的酒。一个大类可以用下位类来表示更加专指的概念,如酒类可以分为红酒,白酒等。而具体的特定酒如五粮液就是白酒的一个实例。类目的建立过程就是一个分类的过程。
Slots描述类目和实例的属性。例如对于酒类而言,具有生产厂家、风味、度数等属性。而对于酒类的一个实例如五粮液酒,其属性就可以用具体的属性值来描述,如它的生产厂家是五粮液酒厂。
在现实世界中,建立一个领域的Ontology需要通过以下几个步骤:①定义该领域本体的类(概念)。类是抽象概念,即不包含具体的实例。②将概念按等级排列。等级关系需要加以严格的逻辑限定,以便于计算机理解。③定义属性及属性的值,属性是一种函数关系。④为类目中实例的属性赋值。这样就可以通过描述概念中的个体,为其属性赋值并加以约束来建立起该领域的知识基础。
4 叙词转换为Ontology的研究和进展
4.1 国内外关子叙词转换Ontology的研究进展
由于叙词和Ontology在表达知识结构上的天然联系,自语义网提出之后,国内外很多学术团体相继开始了利用现有的叙词表建立Ontology的尝试,已经有十多种叙词表被用各种方法转换为Ontology。联合国粮农组织(FAO)成立了农业本体论服务项目小组(AOS),利用RDFS(RDF Schema)将Agrovoc叙词表转换为农业本体。美国Syracuse大学的J.Qin和S.Paling具体探索了将GEM(教育资料网关)中的受控词表转换成Ontology的原理和原则框架。阿姆斯特丹大学的B.J.Wielinga等将艺术和建筑叙词表(AAT)转换为Ontology。SWAD-Europe专门成立了叙词研究小组,对各种叙词表进行了分类研究,提出了一个以RDFS语言为基础,用叙词来描述Ontology的组织体系SKOS(Simple Knowledge Organization System)。国内邓志鸿、唐世渭等学者在北京大学数字图书馆工程的智能导航系统研究中,正在运用Ontology技术在图书分类体系和主题词表的基础上建立概念模型,并利用该概念模型进行智能导航。
4.2叙词转化为Ontology所使用的方法
叙词的结构已经有国际标准可似遵循:ISO 2788和 ISO 5964。国际标准化组织负责信息和文献的委员会正在着手修定ISO 5964,将制定一个叙词的转换方式标准,目的是和Ontology表示相融合,以适应语义网的发展。而为了便于在Web上应用方便,Ontology也需要有一个通用的标准语言来表示,就像XML作为标准的数据交换语言一样。许多语言正在开发之中,如RDFS、OWL和SHOE等。在对叙词表向Ontology的转换中,考虑到所转换叙词表本身的特点,学者们尝试了很多方法。总结起来有以下几种:①用XML Schema构建叙词标记语言。如澳大利亚CSIRO的M.Lee等所开发的叙词标记语言(TML),构建了叙词描述Ontology的框架。②用RDF Schema关系表示叙词内容。典型的如AAT一类的分面形式的叙词表,可以将叙词表某个子集作为Ontology某一类属性的值直接引入。③用RDF Schema关系表示叙词关系。大多数叙词表采用的是这种方式转换,用RDF Schema语言将叙词中的关系表示出来。如LIMER和ELSST社会科学叙词表等。④用DAML+OIL关系表示叙词关系。DRC提出了一个用DAML+OIL表示叙词关系的建议。
从XML Schema到RDF Schema,再到DAML/OIL,以及W3C最近才推出的OWL,语言的表述能力在不断增加。相比较,用XML Schema表示语义显得过于单薄。而OWL之类的语言虽然提供了很丰富的关系类,更加符合现实世界的模型,但这类语言正处于开发阶段,技术还不够稳定。RDF Schema虽然在表达能力和逻辑严格性方面不如OWL等语言,但是其技术相对成熟,用来描述叙词所表示的关系也可以胜任,成为很多机构作为转换语言的首选。
4.3 RDFS所描述的本体模型
RDFS是为描述元数据元素间的复杂语义关系而开发的一种Ontology定义语言,定义概念类体系以及类属性和类关系。RDFS定义了3个核心类:rdfs:Resourse,rdf:Property和rdfs:Class;5个核心属性:rdfs:type,rdfs:subClassOf,rdfs:seeAlso,rdfs:subPropertyOf,rdfs:isDefinedby;4个核心约束:rdfs:ConstraintResource,rdfs:ConstraintProperty,rdfs:range,rdfs:domain。
rdfs:Resourse是RDFS资源的总类,所有被通过RDFS描述的对象都是rdfs:Resourse类的实例。rdf:Property和rdfs:Class均为rdfs:Resourse的子类,分别表示RDFS属性资源与类资源。rdfs:type属性指明一个资源所属的类型,例如所有的类资源其rdf:type属性值都是rdfs:Class,所有的属性资源其rdf:type属性值都为rdf:Property。rdfs:subClassOf定义类资源间的子类—父类关系;rdfs:subPropertyOf则定义属性资源间的于属性—父属性关系。rdfs:subClassOf和rdfs:subPropertyOf都必须为严格的偏序关系,即满足非自反、反对称及传递性三个性质。rdfs:seeAlso指定与主语相关的资源,rdfs:isDefinedby是rdfs:seeAiso的子属性,进一步指明了定义主语的资源。rdfs: ConstraintResource用以描述资源间的约束;rdfs:ConstraintProperty是rdfs:ConstraintResource的子类,其实例描述对属性资源的约束。rdfs:range,rdfs:domain均为rdfs:ConstraintProperty的实例,分别用来定义一个属性所应匹配的合法主语与宾语的类型。
一个用RDFS描述的简单本体模型如下:
〈ntis:Class rdfs:ID=“Animal”〉
〈rdfs:comment〉This is animal class〈/rdfs.comment〉
〈/rdfs:Class〉
〈rdfs:Class rdf:LID=“Dog”〉
〈rdfs:subClassOf rdf:resource="#Animal"/〉
〈/rdfs:Class〉
〈rdf:Description rdf:ID="Fido"〉
〈rdf:type rdf:resource="#Dog"/〉
〈rdfs:comment〉Fido is a Dog〈/rdfs:comment〉
〈/rdf:Description)
〈rdf:Property rdf: ID=“hasBrother”〉
〈rdfs:domain rdf:resource=“#Dog”/〉
〈rdfs:range rdf:resource="#Dog"/〉
〈/rdf:Property〉
〈rdf:Description about=“Fido”〉
〈hasBrother rdf:resource= "Elf" 〉
〈/rdf:Description〉
上面的RDFS片断定义了两个类Animal和Dog,其中类Dog是类Animal的子类,而“Fido”是类Dog的一个实例(Instance)。Fido有一个兄弟Elf。
4.4 叙词在转换中存在的问题及解决途径
叙词中虽然用“用、代、分、属、参”等参照项表示等同关系、等级关系和相关关系来描述语义之间的关系,但这种关系的定义并不严格,往往并不是完全遵守同一种逻辑来划分,有时一种关系可能会有几种划分方式。例如叙词最常用的等级关系(BT/NT)中就可能包括以下几种情况:包容关系:如酒和红酒;整体和部分关系:如桌子和抽屉;类和实例关系:如海和大平洋;角色关系:如苹果和生产者;属性关系:如苹果和颜色;属性值关系:如苹果和红色。
同样,即使是等同关系(UF/USE)也不是完全的可以替代的关系,很多情况下有近义词,有时甚至有反义词出现。至于相关关系,由于没有统一的标准,其表现出来的逻辑更是各种各样。
由于叙词表是用来给人读的,即使逻辑关系不完全也可以被人理解。而Ontology是语义逻辑推理的基础,必须建立在严格的逻辑之上,这样计算机才能进行推理得到正确的语义。叙词表转换为Ontolgy,需要克服这种语义逻辑上的缺陷。
各专业组织在解决叙词转换中的逻辑问题时,针对所使用叙词的具体情况采取了不同方法。其中,联合国粮农组织在转换Agrovoc叙词表时,采用了两个原则。一是关系明确净化,BT/NT关系统一为类和实例(Is-A)关系,而相关关系则用多种关系表示,例如“produces”,“usedby”,“made for”等关系。二是将概念分解,如Perishable Product可以表示为带有Perishable属性的Product,Mother可以表示为带有Female属性的Parent。
5 叙词转换为Ontology的实例——AAT
Art and Architecture Thesaurus(AAT)是关于艺术品的最详尽和最标准的主题词表。它包含了2.8万个主要款目和共12万个款目,包括同义词和相关词。另外它还提供范围注释,为主要款目提供文字定义。AAT是一种按照分面方式构建的叙词表,将艺术品的信息分为物理特性,材料,风格年代等7个分面。每个分面使用的是严格的上下位关系,一个特定概念在整个等级中只出现一次,逻辑性较严密。
阿姆斯特丹大学信息科学系的B.J.Wielinga等人,借开展政府资助的“多媒体信息分析”项目研究之机,利用 AAT建立了一个描述艺术对象的Ontology。采用Prot'eg'e-2000作为本体编辑工具,RDFS作为表示语言。艺术品概念用类表示,叙词集转换为类的属性,用RDFS Properties表示,限定词转换为Subproperties。其中一个关于古典家具的Ontology建立步骤大致如下:
1)建立家具的描述模型,即确定需要什么样的信息来描述家具。一个家具实体可以用25个元数据来描述。这25个元数据中间,17个来自VRA的核心种类,另外的来自欧洲GRASP项目。这些元数据作为家具的属性出现,其限定词用下位属性Subproperties表示。
2)将家具属性和AAT叙词表的特定子集联系起来,使其能成为家具属性的值。在这个过程中,将家具的属性如颜色、年代等与AAT叙词表中相应的子集联系起来,使这些子集成为家具属性的值。有些属性值在AAT中是一个分类,由下位属性来描述。在这种情况下,为了避免RDFS解释上的问题,采用将该下位类转换为实体的做法。例如,把颜色属性的值描述成AAT中立或彩色类目的一个实体。这意味着一件家具的RDF注释不能有一个颜色属性是粉色值。相反,属性值应该是粉色的实体。而粉色的AAT记录为c50124707,RDF表示如下:
〈rdf:Description about=“furniture34”〉
〈color〉
〈aat:c50124707/〉
〈/color〉
〈/rdf:Description〉
这种表示有两层关系。一种是描述了该家具的颜色属性值是PINK22,另一方面说明了PINK22 aat:c50124707“PINK”的一个实体。PINK22是RDF剖析器所产生的一个匿名资源。
3)添加领域知识,特别是能够约束家具属性值的知识。除了家具的元数据和它们的值,同样应考虑要添加领域知识。如一个后乔治时期的柜子,材料一定是桃花心木的。这种知识有两个作用:①限定属性的值的范围;②提供一定的语义检索,如输入桃花心木,可检索出后乔治时期的柜子。
6 结束语
叙词转换为Ontology的研究才刚刚起步,各种转换方法也在实验当中,描述语言也不限于以上几种。ISO组织更倾向于用简单的XML语言来作为转换的标准,但利用XSLT可以将它们很方便地转换。叙词转换的关键问题在于处理好语义中的逻辑关系,这其中涉及人工干预的成本问题。有人提出如果人工干预的成本过高,不如新开发一种方法来建立全新的Ontology。但是如果新开发的方法能够解决这个问题,对叙词表也应同样适用。直接利用现有叙词表,加以逻辑规则限制,必将加快Ontology的开发进程。
标签:rdf论文; 语义分析论文; web技术论文; web开发论文; 关系逻辑论文; 语言描述论文; xml语言论文; schema论文;