《中国分类主题词表》的OWL表示及其语义深层揭示研究,本文主要内容关键词为:词表论文,语义论文,中国论文,主题论文,OWL论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
随着网络技术的普及和发展,信息标引和检索的范畴已超出了文献信息机构。人们正在致力于将现有的以HTML技术为基础的Web网络发展成为以XML、RDF、本体(ontology)等技术为基础的语义Web,从而使Web上的信息具有计算机可理解的语义,给人们的生活和科学研究工作带来更大的便利。在这个过程中,本体起着为XML和RDF等技术提供语义支持的关键作用,是语义Web的核心。当前,本体已成为信息技术界的研究热点。
本体本来是一个哲学范畴,意为“客观存在的一个系统的解释和说明,客观现实的一个抽象本质”。在信息技术界,本体被赋予了新的含义。它是一种能在语义和知识层次上描述信息系统的概念模型建模工具,在知识工程、数字图书馆、软件重用、信息检索和Web上异构信息的处理、语义Web等领域具有广泛的应用前景。对本体的定义有很多,其中得到广泛认可的是Studer(1998)在Gruber(1993)和Borst(1997)的定义基础上提出的“本体是共享概念模型的明确的形式化规范说明”。这包含四层含义:(1)概念模型(conceptualization),指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。(2)明确(explicit),指所使用的概念及使用这些概念的约束都有明确的定义。(3)形式化(formal),指本体是计算机可读的(即能被计算机处理)。(4)共享(share),指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即本体针对的是团体而非个体的共识[1,2]。
从本体的定义来看,它与图书馆学中的规范化词表(叙词表)有着许多相似之处。笔者认为,有着几十年词表编纂和标引、检索研究和实践经验的图书馆学界,可以在本体的研究中发挥出自己的独特作用。叙词表的知识性和科学性还可以继续发展和提高,其发展方向就是构建可解决网络环境下的信息检索问题的本体。叙词表与本体的研究是相辅相成的,一方面,收录有大量规范术语与词间关系的叙词表可以弥补计算机专家研究本体时在词汇术语研究方面的不足(电子版叙词表已经初步具备了本体的特征),同时,本体技术的引入也可极大地推动叙词表的自动化管理,实现其动态更新完善,丰富其词间关系,并更容易被公众通过网络获得和使用,使其使用范围扩展至网络信息的标引和检索。
《中国分类主题词表》[3]是一部国家级的大型综合性分类主题一体化叙词表,其基础是《中国图书馆图书分类法》和《汉语主题词表》,共收录分类法类目5万余个,主题词及主题词串21万余条,包括哲学、社会科学和自然科学所有各个领域的学科和主题概念。该词表由北京图书馆等40个单位历时8年编纂而成,于1994年正式出版,现广泛应用于全国各类型图书馆和信息机构的文献标引工作。笔者认为,其权威性、科学性和知识性使其成为中文叙词表本体表示的首选实例。采用面向Web的国际标准本体语言OWL将该词表表示为本体形式,可以使其成为网络上共享的、与具体的计算机系统实现无关的国际通用中文本体,从而能够在网络信息环境中发挥出更大的作用。同时,也可为其他中文专业叙词表的本体化表示提供有益的借鉴。
2 研究现状
从目前国内外相关研究的动态来看,已经有了一些比较成熟的本体实现和应用技术。如本体的建模元语、本体的描述语言、构造本体的规则等都已日趋成熟并逐渐取得了共识[1,2]。近年来,国内外也已有一些学者采用构建叙词表(thesaurus)的方式来开发本体[4,5]。
2002年以来,本体的研究也逐渐引起了我国图书馆界学者的注意,他们就本体在图书馆界的应用前景、本体与词表的关系、基于本体的信息处理模式和检索模式、本体的开发思路和方法等问题提出了自己的看法[6~13]。中国科学院文献情报中心的毛军在文献[6]中研究了叙词表的RDF表示方法,提出将叙词表的微观结构(叙词+关系)作为一个基本的语义单元进行处理,并且将叙词用概念和词汇两个层次的资源来描述,将原来的“用、代、属、分、参”关系分别净化和简化为“属和参”和相应的RDF属性。
最近有两项与本文密切相关的最新研究成果。一项是美国国家癌症研究所(National Cancer Institute,NCI)于2003年公布的NCI Thesaurus的OWL版本[14,15],其深层次的语义关系揭示、科学的维护和更新流程很值得我们借鉴。另一项是用于语义Web的TIF(Thesaurus Interchange Format,叙词表交换格式),它是在针对W3C欧洲语义Web先进发展计划(SWAD-Europe)的Workpackage 8(Thesaurus Research Prototype)Deliverable 8.1/8.2的一篇投稿中提出来的,版本时间为2003年7月31日,作者是英国CCLRC的Brian Matthews等[16]。这篇题为Modelling Thesaurus for the Semantic Web(为语义Web建模叙词表)的文章提出了一项“基于概念”的初始草案标准,该标准与该领域中的ISO标准兼容。该文首先描述了为叙词表建模的两种选择:面向概念(concept-oriented)和面向术语(term-oriented)模式,并将它们与叙词定义的ISO标准关联。然后给出了将TIF建立在面向概念模式之上(并带有一个扩展,允许简洁的面向术语表示法)的理由。该文建立了一个TIF RDF Schema(面向概念)和一个TIFS RDF Schema(面向术语),并讨论了将它们定义成OWL本体的可能效益,分别给出了OWL本体表示版本:TIF OWL Ontology和TIFS OWL Ontology。我们还将在第4节分析它们的相关内容。
3 OWL简介
OWL(Web Ontology Language)[17~21]是一种用于在语义Web上发布和共享本体的语义置标语言,由W3C的本体工作组开发,2004年2月10日成为W3C正式推荐标准。它代表了面向Web的本体表示语言的最新发展趋势。它是RDF/S的一种扩展,并源自DAML+OLL Web本体语言。OWL能够被用来清晰地表达词汇表中的词汇含义以及这些词汇之间的关系(这些词汇和它们之间的关系的表达就称作本体)。OWL相对于XML、RDF和RDF Schema拥有更多的机制来表达语义,而又与它们兼容。选择OWL来表示和扩展《中国分类主题词表》和其他中文叙词表可以保证所建立本体的高质量和国际通用性。
OWL包括三个子语言:OWL Lite,OWL DL和OWL Full。OWL Lite包含OWL的某些基本要素(feature),并且做了限制,对于工具开发者来说比较容易支持。OWL DL包括OWL的所有结构,但是设置了许多约束,适用于那些需要在推理系统上进行最大程度表达的用户,即推理系统能够保证计算完全性(所有结论都能够被计算出来)和可判定性(所有的计算都在有限的时间内完成)。OWL Full支持那些需要在没有计算保证的、语法自由的RDF上进行最大程度表达的用户,目前没有任何推理软件可以完全支持它。从目前已有的研究来看,一般选择使用OWL Lite来表示叙词表[14,16]。本文所涉及的内容也落在OWL Lite的表达范围之内,因此也选用OWL Lite。但笔者认为,OWL Lite的表达能力有限,从发展的眼光来看,应采用OWL DL来表示中文叙词表,这样可以给中文叙词表本体的深层语义扩展留下余地。OWL DL的良好推理能力也是检索系统所需要的,现在已有工具开发者开发出了支持OWL DL的强有力的推理系统。随着时间的推移,支持OWL DL的推理软件必然会大量涌现,届时将无需再为了实现的方便而束缚手脚。
OWL进行交换的标准语法是RDF/XML,它具有与RDF和RDF Schema的最大兼容性,这些XML和RDF格式和标准同样是OWL标准的组成部分。
下面介绍我们将要用到的OWL Lite词条的含义和语法(注意,我们在所举实例中采用的是面向概念模式,与传统的面向术语模式有所不同):
3.1 类
● Class
定义了一组共享了某些相同属性的individual。这些individual又称为这个类的实例(instance)。在OWL Lite及DL中,一个individual不能同时又是一个Class。Class能够通过subClassOf定义出一个特定的类层次。有一个内置的公共类Thing,它是所有individual的Class,也是所有class的superclass。例如:
定义了一个名为Concept的类,具体的概念“考古学”、“考古技术”都是这个Class的成员(individual)。
●rdfs:subClassOf
定义一个Class的子类。子类继承了父类的所有属性,子类的individual同时也是父类的individual。类层次可以通过给出一个类是另一个或多个类的子类这样的声明来创建。例如:
定义了一个类PersonConcept(人物概念),它是Concept类的子类。同样的道理,我们也可以将CompoundConcept(先组的主题词串(复合概念))、RegionConcept(地名概念)定义为Concept的子类。
可以使用以下语法来定义一个Class的成员:
以上语法定义了Concept类的一个实例“考古学”。
●owl:equivalentClass
用于创建同义类,即将两个类声明为相同,它们拥有不同的名字却拥有相同的individual集合。我们可以用它来在不同词表本体之间为不同名称的相同类之间建立映射。两个individual之间的等同关系则需要使用owl:SameAs来定义。
3.2 属性
●rdfs:Property
OWL的属性,主要包括以下两种:
①Object property:表达individual之间的关系。例如词表中概念与术语之间的关系(具有正式主题词、非正式主题词)就可以定义为Object property:
②Datatype property:表达individual和数据值(data value)之间的关系。例如词表中的概念与分类号、概念和范围注释(scope note)之间的关系就可以定义为Datatype property:
(在面向概念模式中,分类号和范围注释属性只与概念相关,见第4节)
OWL另外还有两种属性:注释属性(owl:AnnotationProperty)和本体属性(owl:OntologyProperty)。OWL DL允许对class、property、individual和ontology header进行注释,但规定不能为注释属性定义子属性或domain/range限制。注释属性对象必须要么是一个数据字符串(data literal)或一个URI引用(URI reference),要么是一个individual。OWL有五种预先定义的注释属性:owl:VersionInfo,rdfs:label,rdfs:comment,rdfs:seeAlso,rdfs:isDefinedBy,可以直接使用。如我们前面已经用到了rdfs:label和rdfs:comment来规定属性的显示名称和解释属性的含义。本体属性用于表达本体之间的关系,如本体的引进(owl:imports)可以用来将一个已存在的本体引入当前本体,从而可以重用本体和分布式构造本体。本体属性还有几个实例分别用来表示本体之间的版本关系和兼容关系,在此就不详细介绍了。
OWL的属性之间的关系有:子属性(owl:subPropertyOf),等同属性(equivalentProperty),翻转性(inverseOf)。属性特征有:传递性(TransitiveProperty),对称性(SymmetricProperty),值唯一性(FunctionalProperty),翻转值唯一性(InverseFunctionalProperty)等。
如中文叙词表中概念与术语之间的HasPreferredTerm和IndicateFormally关系就是互为翻转的属性(若APB,则BQA,那么P和Q就是互为翻转的属性):
而概念间的属、分关系则既是互为翻转的属性,又都具有传递性(A属B,B属C,则A属C):
概念之间的参见关系则是具有对称性的属性(A参B,则B参A):
具体的类和属性定义见第4节。限于篇幅,第4节将不再一一列举所有类和属性的具体定义语法,其他类和属性的定义可参照以上示例进行。
4 《中国分类主题词表》的0WL表示
本节主要讨论以下几个问题:(1)概念模式的确立;(2)类和属性的确立;(3)复合主题中语义的深层揭示。
4.1 概念模式的确立
Brian Mathrews等[16]强烈建议采用面向概念模式,认为这符合ISO 2788:1986的要求。因为ISO 2788:1986指出,术语组是一个首选词(preferred term,也称为标引词或叙词)和它的非首选词(nonpreferred term,也称为同义词)选项为存在于人类思想领域的某个抽象概念构成的一组可能的标签,换句话说,就是术语代表概念。在面向概念模式中,叙词表的等级和相关关系在概念之间声明。概念是这个概括层次结构(generalisation hierarchy)中的节点。在一个多语种叙词表中,等同关系在概念之间声明。相对于传统的面向术语模式,面向概念模式将概念和术语分离,更容易维护和更新,因为对术语的修改不会干扰概括层次结构本身。而且ISO 5964:1985强烈建议,多语种等同关系只在首选词之间设定。面向概念模式通过只设定概念之间的等同关系而执行了这个建议,这也可以简化在同一领域的两个相似叙词表之间创建映射的过程,这一点对于叙词表在语义Web上的应用尤为重要,因为语义Web上可能会有许多不同的个体创建他们自己的、涉及同一领域的标引体系。
表1 类定义
表2 属性定义
Domain
Property
Range 属性特征
ObjectProperty
Concept HasPreferredTerm
PTerm 与IndicateFormally互为翻转属性。
Concept HasNonprefertedTermNTerm 与IndicateInformally互为翻转属性。
Concept HasBroaderConcept Concept
具有传递性。与HasNarrowerConcept互为翻转属性。
Concept HasNarrowerConcept Concept
具有传递性。
Concept HasRelatedConcept Concept
具有对称性。
PTermIndicateFormally
Concept
与HasPreferredTerm互为翻转属性。
NTermIndicateInformally Concept
与HasNonpreferredTerm互为翻转属性。
DatatypeProperty
Concept CLCCode &rdfs;literal
Concept ScopeNote&rdfs;literal
《中国分类主题词表》[3]形式上是面向术语的,但其每一个正式主题词(即首选词)都可以被视为一个概念,因此可以采用面向概念的模式将其表示为本体。即词表中的每一个正式主题词都既表示为Concept类的individual,也表示为PTerm类的individual。属、分、参等关系在概念与概念之间声明,分类号和范围注释(Scope Note)属性也面向概念定义而不再面向术语定义。
4.2 类和属性的确立
我们希望所建立的本体既要符合OWL语言的规范,具有良好的可推理性,又要兼顾词表的更新维护,能够方便地转换成高效率的数据库结构和生成传统的书本式叙词表和各种对照表。因此,类和属性的确立就显得尤为重要。
笔者仔细分析了NCI Thesaurus OWL版本[15]和TIF OWL版本[16]的结构,从中发现了许多可借鉴的东西,也摒弃了一些不合理的设计。例如,NCI Thesaurus的OWL版本中,将每一个具体的概念都定义为一个单独的类,许多属性表示的是类与类之间的关系,而不是individual之间的关系。而OWL的类可以定义一组共享了某些相同属性的individual,叙词表中的每一个具体概念其实都可以定义为Concept类的individual。又例如在TIF OWL版本中,在Concept类和Term类之上还定义了Thesaurus类和ThesaurusObject类。定义Thesaurus类的目的是为了方便添加描述叙词表名称、创建者、修改日期等的属性,这实际上可以通过定义OWL头和注释属性来实现;定义ThesaurusObject类的目的是为了定义一个所有叙词表类的超类,这似乎也无必要,OWL中已有一个预定义的超类OWL:Thing,它是所有individual的超类。TIF中这两个类的定义会增加类层次的复杂性,但并没有多少实际意义。另外,TIF OWL版本还将一些注释也定义为类,如ScopeNote,GeneralNote,HierarchyNote等,笔者也认为不太合理。
笔者对《中国分类主题词表》的结构进行了深入的分析,认为定义以下类和属性较为合适,既能够较好地表示出词表的语义结构和概念间关系,同时也可以兼顾本体形式和传统词表形式之间的互相转换。
下面我们给出一个词族的示例:
“蒸汽”和“温泉”是其他词族中的概念,也会在该本体中定义。资源定义和引用没有绝对的顺序要求,甚至可以引用存在于其他文件中的资源,从而可以构造分布式的本体。英文注释则取自《汉语主题词表》[22]。词族层次关系可以通过属性HasBroaderConcept和HasNarrowerConcept推理出来,所以没有定义HasTopConcept(族首词)属性。
4.3 复合主题中语义的深层揭示
《中国分类主题词表》中存在着大量的先组主题词串(主题款目)。它们是一些复合概念,由多个简单概念组配而成,采用“:”、“—”、“,”等组配符号。这些符号,尤其是“—”隐含着十分丰富的语义关系。我们可以利用OWL的属性定义对其进行深层的揭示。
“:”和“,”的含义比较纯粹,分别表示交叉组配和限定组配,其语义比较好理解,而且是国际通用的符号,因此在本体表示中可不必做进一步的语义揭示。当“—”用于表示联结组配,表达事物与事物之间的关系、比较、影响、作用、应用等类型的联系时,两个事物之间的关系语义已由中间的功能词表达出来了,也可以不再做进一步的语义揭示。
但“—”还可以表示其他的语义。《文献主题标引规则》(GB 3860-83)规定,主题构成的因素及其序列可分为主体因素(研究对象、材料、方法、结果、条件等)、通用因素、位置因素、时间因素、文献类型因素等五种。主题因素构成的五种因素即五个范畴。主题词表中的每个主题词必定属于其中的某个范畴,每个范畴分别表示属于该范畴的主题词在主题款目(组配标题)中的职能,而主题款目中的各个主题词都须按照五个范畴的规定次序进行排列。该标准的起草人之一刘湘生对此做了进一步的说明,如表3所示。
中文文献复合主题的次序公式是:A(A1-A2-A3-A4-A5)-B-C-D-E[23]。
由此可见,组配符“—”的背后隐含着相当丰富而复杂的语义关系。在向本体转换的过程中,有必要对某些隐含语义进行深层次的、明确的揭示,这样才能消除理解中可能出现的歧义,也有助于在检索系统中实现更专指和更深层次的语义推理。
我们可以通过以下属性定义来实现中文复合主题(复合概念)的深层语义揭示(这些属性的Domain均为CompoundConcept),如表4所示。
表3 主题构成因素及其序列
主题因素 组配次序 代码符号
对象(学科、事物、问题) 1 A1
方面(材料、成分、性
质、过程、状态、特征、2 A2
主体因素作用、现象)
方法 3 A3
结果 4 A4
条件 5 A5
通用因素 6 B
位置因素 7 C
时间因素 8 D
文献类型 9 E
表4 隐含语义的属性定义
ObjectProperty Range 说明
PrincipalFactor Concept 主体因素。含义:复合概念X具有主体因素Y(Concept)。
ObjectFactorConcept 主体因素中的对象因素,是PrincipalFactor的子属性。
DisciplineFactorConcept 对象因素中的学科因素,是ObjectFactor的子属性。
ThingFactor Concept 对象因素中的事物因素,是ObjectFactor的子属性。
IssueFactor Concept 对象因素中的问题因素,是ObjectFactor的子属性。
AspectFactorConcept 主体因素中的方面因素,是PrincipalFactor的子属性。
MaterialFactor Concept 方面因素中的材料因素,是AspectFactor的子属性。
IngredientFactorConcept 方面因素中的成分因素,是AspectFactor的子属性。
QualityFactor
Concept 方面因素中的性质因素,是AspectFactor的子属性。
ProcessFactor
Concept 方面因素中的过程因素,是AspectFactor的子属性。
StateFactor Concept 方面因素中的状态因素,是AspectFactor的子属性。
CharacterFactor Concept 方面因素中的特征因素,是AspectFactor的子属性。
FunctionFactor Concept 方面因素中的作用因素,是AspectFactor的子属性。
PhenomenonFactorConcept 方面因素中的现象因素,是AspectFactor的子属性。
MethodFactorConcept 主体因素中的方法因素,是PrincipalFactor的子属性。
ResultFactorConcept 主体因素中时结果因素,是PrincipalFactor的子属性。
ConditlonFactor Concept 主体因素中的条件因素,是PrincipalFactor的子属性。
GeneralFactor
GeneralConcept 通用因素
LocationFactor ResionConcept
位置因素
TimeFactor EraConcept 时间因素
DocumentTypeConcept 文献类型
主体因素是复合概念中必不可少的因素,其他四种因素都是对主体因素起修饰限定作用的因素,但不是每个复合概念中都含有这四种因素,应视具体情况而定。对象因素和方面因素的子属性细分比较复杂,表中没有也不太可能枚举所有可能因素,因此除非有多个子属性并存共同构成对象因素或方面因素而需要细化到子属性,一般情况下可以直接使用父属性(ObjectFaetor,AspectFactor)。《中国分类主题词表标引手册》[23]对各种因素进行了详细的说明,在具体的本体转换表示过程中可以参考这些说明进行区分和判定。例如,复合概念“建筑—空气净化—原理”可以表示为:
一个复合概念在本体中出现一次就可以了,其轮排形式不必重复定义。
5 结束语
要真正实现完善的本体,现有词表中的词汇及词间关系也存在着局限性,因此,实现初始本体的自动更新完善也是非常重要的。从图书馆界的角度来看,词表更新速度赶不上标引工作需要的问题也长期困扰着我们,也是一个亟需解决的问题。如《中国分类主题词表》出版至今已近10年。这10年当中由于科学和社会的发展出现了许多新词汇,因词表不能及时增补新的概念和新的名词术语,导致某些新领域的文献标引过粗、不够简练或过于勉强。随着时间的推移,这个矛盾越来越突出,许多单位开始尝试增补新的主题词或增加自由词标引,但没有一个行之有效的机制来广泛收集、甄别和利用这些来自标引实践第一线的新术语。值得欣慰的是,该词表的修订完善工作已接近尾声。可以想像,这项庞大和复杂的词表修订工程已经耗费专家们多年的心血。笔者认为,面对日新月异的社会和科学发展,词表和本体的完善只靠少数专家在指定的时间内突击进行是远远不够的。图书馆界的计算机主题标引和读者公共检索系统已经是成熟和普及的技术,这种标引和检索实践几乎每天都在进行。标引员对文献进行主题标引和读者构造主题检索式进行文献检索,这两种实践本身就是复杂的知识、概念分析过程,我们应该利用面向Web的、独立于具体实现的方式来充分采集这些分布式的标引结果和检索需求,建立一种科学的集中统计分析机制,提取新的词汇和词间关系,集中公众的智慧来完善词表和本体。这样既能彻底解决困扰图书馆界多年的词表更新和维护问题,又能建立动态完善的共享本体,从而满足图书馆界和信息技术界的共同需求。限于篇幅,笔者将另外撰文详细探讨这个问题。