本体与辞典融合初探_语义分析论文

Ontology 与叙词表的融合初探,本文主要内容关键词为:词表论文,Ontology论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 Ontology的提出

随着网络资源的日益膨胀,如何组织海量的数字信息,并为用户提供精确高效的网络检索服务成为重要而迫切的研究课题,这引起了人们对传统知识组织工具如叙词表、分类表等在网络环境中适应性的争论。尽管叙词表和分类法等传统知识工具已开始在网上发展,但是对机器语言来说,其互操作性和表达性仍比较差,为此人们提出了ontology这种能在语义和知识层次上描述信息系统的概念模型建模工具。

Ontology,在哲学和计算机界被译为本体或概念体系,“是一个对共享概念的形式化的、显性的规范说明”,[1]。其中“概念”指对现实现象的抽象,“显性”意味着概念的类型和应用都是显性的,“形式化”意味着ontology应当是机器可读的,“共享”意味着一个ontology揭示了被一个群体所接受的广泛共享的知识。另外,Guarino具体指出,ontology是一个工程化的人造物,它由描述某些实体的、特定的词汇表和一系列对这些词的意义进行显性说明的假设组成。最简单的ontology例子可以被看成是一个具有层次关系的概念体系,相连的概念之间具有包容关系;而较为复杂的例子,可能会在ontology中加入一些原则(axiom),以描述概念之间的其他关系,或对它们的含义进行约束。[2]

一个ontology主要由类(class)、属性(property)、面(facet)等几个组件构成[3]。其中类是用来描述某领域中的概念的,因而有时也被称为概念(concept)。类是大多数ontology关注的焦点。在一个类下,可以定义子类以描述更加专指的概念,例如我们可以将“人”分成“黄色人种”、“白色人种”、“黑色人种”、“棕色人种”等,也可以按民族分为汉族、白族、傣族等等,这些即子类。此外,在定义了一个ontology之后,我们可以按照ontology的规范,生成很多的实例 (instance-of),如一个有关“人”的类描述的是所有的人,而“李四”则是这个类中一个特别的实例。 ontology和一系列的相关实例被称为知识库。属性有时也被称为槽(slot)或角色(role),是对概念的各个功能特性进行的描述。例如,我们可以定义黄色人种这个子类的属性为“皮肤是黄色的”、“头发和眼睛是黑色的”、“居住在亚洲”等。而实例“李四”是位男同志、今年33岁、出生于云南大理,则定义了该实例的三个属性:性别、年龄、出生地。

面(facet)是对属性的限制,例如我们可以定义这样一个面,对于所有“人”的“出生地”属性值,只能取用“地名”类中的实例。这样一个简单的ontology可表示为图1。

图1 简单onotogy示意图

2 叙词表与ontology的关系

叙词表是收录某一领域中所有叙词(即经过规范化处理的,以基本概念为基础来表达文献主题的词或词组)和非叙词,按照一定顺序排列的词表。其基本单位是叙词款目,每个款目由叙词、分类号和各种参照事项组成。其中叙词是某一概念的优选词,用来标引,其余非叙词为入口检索词。这样就使得同一概念只用一个词表达,解决了一个概念多个术语的问题。而参照项则主要有用、代、分、属、参等,分别用来表示叙词款目之间的等同、等级、相关等语义关系。叙词表自上个世纪50年代出现以来,成为主题检索的主要语言,其范围几乎涵盖了各个领域,如美国国会标题表LCSH、医学标题表MeSH、工程和科学词汇叙词表TEST、艺术和建筑叙词表AAT等等,叙词表可以说是图书馆情报界为信息检索提供的知识财富。

从上述有关叙词表和ontology的叙述中,我们可以看到二者的联系。ontology可以说也是以概念为核心的,目的是为解决语义中存在的同一概念有多种词汇表示和同一个词有多种含义(概念)的问题,而这正是叙词表的功能。叙词表的作用和原理与ontology有异曲同工之妙,因而,如果现存的叙词表能被改造、利用,ontology的构建必将事半功倍。

但是我们也应看到,叙词表和ontology之间还存在很大的不同。叙词表虽然用“用、代、分、属、参”等参照项来描述语义关系,但这种关系的定义并不严格,其划分并未完全遵守同一种逻辑关系,因而出现了一种关系可能会有几种划分方式的问题。如等级关系中就可能包括:包容关系,如酒和红酒;整体和部分关系,如桌子和抽屉;类和实例关系,如海和太平洋;角色关系,如苹果和生产者;属性关系,如苹果和颜色;属性值关系,如苹果和红色等。而 ontology是语义逻辑推理的基础,并且它从一开始就致力于对语义逻辑进行特殊技术处理以使计算机可理解。另外,ontology还是一个开放的体系,概念(类与实例)之间的关系类型可以由用户自行定义,这在一般分类系统或主题词表中是不存在的。因而利用叙词表来建立ontology,还需要克服一系列问题,如语义逻辑上不严密等。[4]

3 Ontology与叙词表融合发展的可行性

从上述分析可以看出,ontology和叙词表之间具有融合发展的必要性。但是,ontology要用精确的形式语言、句法和明确定义的语义来阐述概念与概念之间的关系,那么这些精确定义和限制能否在叙词表基础上作出特殊的技术处理而达到呢?我们可以借用J.Zheng等人提出的可执行知识模型从理论上作进一步的讨论[5]。

在该模型中,人类知识被分为3种:内在知识、隐式知识和显式知识,它们之间的关系如图2所示:

图2 人类知识之间的关系图

从图2可知,不同类型的知识之间是可以进行转化的,内在知识和隐式知识之间目前很难找到一种适合计算机模拟的标准的转换方法;但如果我们把图书馆界现存的大量主题词表如叙词表、分类主题词表,当成一种计算机还不能理解的隐式知识,那么ontology所提供的方法与思路就有可能把这些词表转换成计算机可理解的显式知识。显然,从理论上看,叙词表等是可以和ontology融合发展的,这些词表有可能通过在其内容上附加更多价值而为 ontology构造省却大量烦琐的工作。

而事实上,目前国内外不少学者和组织正致力于这方面的研究。如Soergel尝试在ontology和其他分类方法之间建立联系,并指出ontology和词汇结构为大量的科学和学术工作提供了基础支撑。[6] NKOS工作组主要关注将传统知识组织系统 (KOSs),如分类法和叙词表,转换成新的知识描述形式,如ontology、主题地图(topic maps)和语义网等的研究[7]。另外Jian Qin和Stephen Paling还具体探索了将GEM(教育资料网关)中的受控词表转换成GEM ontology的原理和框架等[6]。国内,邓志鸿、唐世渭等学者在北京大学数字图书馆工程的智能导航系统研究中,也正在运用ontology技术在图书分类体系和主题词表的基础上建立概念模型,并利用该模型进行智能导航。[8]

4 从叙词表融合发展到ontology的方法建议

在明确了ontology和叙词表融合发展的可行性后,学者们继续探讨了从叙词表来构建ontology的方法,随着ontology技术和语言的发展,出现了如下三种方式。

为便于理解,我们先来看一下ontology的构建过程。与ontology的三个组成部分相适应,开发一个 ontology一般需要包括以下几个过程:(1)定义 ontology的类。(2)将类按照层次体系进行排列,显示出类与类之间的包涵关系。(3)定义属性,并且描述这些属性能够允许用到的值域。(4)给实例填写相应的属性值。根据这些步骤,便可以借助protégé,ontoEdit等软件在叙词表基础上对ontology进行编辑。[9]

4.1方法一:用RDFs关系表示叙词关系来建立ontology(Model thesauri links as RDF schema relations)[10]

RDFs(RDF schema)是为描述元数据元素间的复杂语义关系而开发的一种Ontology定义语言,可以定义概念类体系、类属性和类关系。运用这一语言,Matthews提出了用RDFs表示叙词关系来建立 ontology的方法。

具体步骤为:(1)标记(label)出概念类(classes),并从叙词表的术语等级创建一个概念等级,其中叙词主题(thesaurus objects)作为首级类(top level class),其下位主题作为首级类的子类;叙词术语和范围注释分别作为类的文本和评论等。(2)确定出属性(properties),包括分类代码、定义概念和范围注释之间关系的属性 (has Scope Note)、定义概念和术语之间关系的属性 (isindicated By)、正式叙词(preferred term)(由属性的子属性揭示,定义了某概念的参见术语);Used For (作为双优选术语和非优选术语或同义词的子属性);定义了所有语义关系的相关概念属性 (Concept Relation)(包括上位类、下位类、族首词等等级概念和相关概念关系)。(3)确定术语的属性值,如定义术语语言的属性值(in language of)、定义范围注释类型的属性值(如概括、等级、翻译、编辑、历史等)。

这是一种最简单的描述法,但存在一些必须克服的缺陷,改进办法即在简单的RDFs模型中增加如下限制关系:首先,每一个概念都有一个族首概念;其次,上位和下位术语集要相反;再次,族首概念没有上位术语;第四,对于每一个概念至多只能有一个优选术语;第五,只有族首术语具有等级范围注释。

研究者运用RDFs对社会科学叙词表ELSST中的经济学款目进行了改造,改造后的叙词表关系如图3所示。

图3 运用RDFs对ELSST中的经济学款目改造后的叙词表关系

4.2方法二:用RDFs关系表示叙词内容的方法建立ontology

Bob Wielinga等人提出了这种方法,[11]具体步骤为:首先,消除叙词表中所有文本术语的歧义;其次,在可能的地方限制可能的属性值集合(如对元数据块fields);再次,为术语引进概念标识符;最后,将术语等级层次转换成ontology。

他们曾以艺术和建筑叙词表AAT(The Art & Architecture Thesaurus)为例,发展了用RDFs存储的AAT叙词表形式,然后进一步使用protégé2000- RDFs从AAT中构造了furniture ontology,如图4。构造AAT furniture ontology的步骤如下:首先,构建一个描述模板,对需要记录的信息进行描述;其次,在模板中的属性集(properties)和叙词表子集之间建立链接;第三,对属性值增补或进行限制。其中 Furniture概念是一个protégé类,叙词(descritors)是类的属性或槽(slots of the class)。这些Protégé属性(slots)被转换为RDFs属性值(properties),而限定词(qualifiers)被转换成子属性值(subproperties)。

图4 用Protégé2000-RDFs从AAT中构造的furniture ontology

3.3方法三:用daml+oil关系表示叙词关系的方法建立ontology

由于RDFs语言自身在表达能力和逻辑严格性方面的不足,学者们又开发了OIL及DAML-OIL这种面向语义网的本体描述语言。该语言建立了以描述逻辑为基础的本体知识表示及其语义模型,定义了较RDFs更为丰富的关系类,如子类、不相交类、等价类、交集、补集、并集等,而且扩展了属性及属性约束。[12]

在此基础上,Hall建议用daml+oil关系表述的叙词表关系来建立允许约束性表述的ontology模型。他曾经为ISO compliant monolingual thesauri建议了一种供选择的框架[10]。其中心结构如下:〈 daml:Class rdf:ID="Term"〉

〈daml:Class rdf:ID="CALL-Term"〉

〈daml:ObjectProperty rdf:ID="descriptorFor"〉

〈daml:ObjectProperty rdf:ID="preferredTermFor"〉

〈daml:ObiectProperty rdf:ID="entryTermFor"〉

〈daml:DatatypeProperty rdf:ID="name"〉

〈daml:TransitiveProperty rdf:ID="BT"〉

〈daml:inverseOf rdf:resource="#NT"/〉

〈daml:TransitiveProperty rdf:ID="RT"〉

〈daml:ObjectProperty rdf:ID="USE"〉

〈daml:inverseOf rdf:resource="#UF"/〉

〈daml:ObjectProperty rdf:ID="AF"〉(acronym inverse for ACK)

〈daml:ObjectProperty rdf:ID="ACK"〉

但是这种转换也存在一些问题,如RT关系。RT (相关)关系并不是传递属性,就象学校和建筑相关,教堂也和建筑相关,但是将学校和教堂通过建筑联系起来就很奇怪。另外,该建议也仅仅限于单语言叙词表。

以上是在词表和ontology的融合研究中,学者们所探讨的在叙词表基础上建立ontology的三种方法,但是这些方法都还不成熟。国际标准化组织 (ISO)更倾向于用简单的XML语言制定一个叙词的转换方式标准[13],来与ontology表示相融合,以适应语义网的发展。

5 从叙词表融合发展到ontology时应遵循的具体原则

从以上叙词表到ontology的具体改造方法叙述中我们可以看到,与现存词表相比,ontology具有了如下一些附加价值:(1)从更高层次上描述词表的观念;(2)在类、子类和交叉类之间的关系上,具有更深层次的语义网;(3)具有以一种描述语言来表达概念和关系的能力;(4)异质系统中构建的 ontology具有再利用性和共享性的能力。因而研究者在将词表转换到ontology时,需遵循以下原则:

首先,对概念进行更具体的描述。词表是从整体意义上来描述数字对象的,这类似于图书馆编目记录通过其总体特征来描述对象,但是从用户的实际使用来看,他们通常寻找的是数字对象整体中的一些细节,因而ontology需要丰富这些描述词汇并表达出这些信息。其次,将现存词表转换成一个 ontology并不意味着仅仅在词表中增加更多的类或子类,还应详细地列出这些类之间的关系。再次,描述概念和概念之间关系的语言的能力。一种正式的描述性语言是基于描述逻辑的,这种描述逻辑使用不同种类的个体(如一个对象集合中的实例)来描述各种情形,并通过个体之间的作用相互关联在一起组成概念,其真正意义在于它的表达性具有推理能力。第四,应考虑到ontology的再利用性和共享性能力。总之,通过转换,ontology附加到词表中的价值应定义了对象是如何分类的,以及对象之间是如何互相关联的这些额外的信息。

除了考虑在词表中增加这些附加价值外,还要考虑构建ontology时将词表引入一个ontology模型中的结构方式和词表的语言,前者即根据具体的词表来决定是从下自上还是从上自下来建立 ontology。后者即考虑词表表达概念的语义清晰性如何,必要时可参考多个词表。

6 问题和建议

叙词表与ontology的融合发展存在的一个核心问题是需要增强叙词表中现有概念和关系的精确性。但是将一个在语义上有歧义的、缺乏表述力的叙词表,转换到一个语义上富有表达力且无歧义的 ontology,需要经过大量的人工干预和控制,这就需要花费大量的成本,那么这是否符合成本效益原则呢?另外,支持转换的工具和语言显然也在不断的改进,那么下一步采用何种方法也是必须考虑的问题。

针对前一问题,现在大致有两种建议:一是将叙词表自动编码成一种能被用来自动检测 ontology,并为ontology创建者提供在叙词表中应该补充什么或改变什么的标准格式。有学者曾提出将叙词表转换成在叙词表服务器主机上的一个标准的互换描述工具,如RDFs,而不是将他们转换成一个ontology。二是从头来构造一个新的ontology,而将叙词表只作为一种核对机制或数据来源。目前学界更多地倾向于对叙词表进行改进,增加其语义的精确性。

但是,无论采用什么样的建议,都表明了词表和ontology的融合发展是当前网络环境下传统情报检索语言继续发展的必然和可行的途径。一方面,现存的传统知识组织工具如叙词表,为构造 ontology提供了知识基础,既减少了从头建立一个 ontology所需的重复努力,也可以建立一种允许不同的词表影射到ontology上的机制。另一方面,运用 XML、RDF、Java等网络技术和语言对叙词表进行改造,可能产生如基于RDF的叙词表,或其他网络叙词表,这样词表也获得了新的网络发展形式,并可以在组织和检索网络资源中发挥更大的作用。总之,二者的互相借鉴和融合使各自都得到了发展。

标签:;  ;  ;  

本体与辞典融合初探_语义分析论文
下载Doc文档

猜你喜欢