从不同的角度看知识本体,本文主要内容关键词为:本体论文,角度看论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1.0 引言
信息是信息处理的基础。处理信息的前提是首先要拥有信息。信息可以是简单的,如带有词类信息的词库,信息也可以是复杂的,如世界知识的形式化描述。(冯志伟,2001)
有了这样的信息,在知识的基础上,我们就可以总结特征,预测结果,进行推理,设计决策系统等等。(Hallig & von Wortburg,1963)
下面是一个经典的例子。在这个例子中,根据我们的世界知识,可以对with介词短语得出完全不同的理解(with介词短语可以是宾语的修饰语,也可以是中心谓语动词的方式状语)。这个问题叫做PP附着问题(PP-attachment)。
I saw a man with a binocular.
(“我用望远镜看一个人”,“我看见一个带着望远镜的人”)
I saw a star with a telescope.
(“我用天文望远镜看一颗星星”)
I saw a molecule with a microscope.
(“我用显微镜看一个分子”)
为了正确地分析这样的句子并理解其意义,人们需要各种有关大小、轻重、形状、体积、目的等方面的知识。
例如,在句子I saw a star with a telescope中,with a telescope可能做saw的状语,也可能做star的定语,根据常识,star是不能带有telescope的。因此,with a telescope做star的定语不符合常识,而with a telescope做saw的状语在常识上却是行得通的。因此,这个句子的意思是“我用天文望远镜看一颗星星”,而不是“我看一颗带有天文望远镜的星星”。在句子I saw a man with a binocular中,根据常识,with a binocular可以修饰saw,做saw的状语,也可以修饰man,做man的定语,因此,这个句子是有歧义的,它的意思可能是“我用望远镜看一个人”,也可能是“我看见一个带着望远镜的人”。
为了进行此类常识性的推理,人们必须有相关知识储备,这就是我们所说的知识本体(ontology)。
如果这样的知识本体具有较强的语言学特点,如词类信息、单词的语义信息等,我们就往往把它们称之为“词汇知识库”(Lexical Knowledge Base)。当然,词汇知识库和知识本体并不是完全等同的,不过,它们所包含的信息有相当大一部分是相互重叠的。(冯志伟,2005)
知识本体究竟是什么?从总体上看,知识本体是对某一个领域内各种对象、过程以及它们之间相互关系的详细说明。但是,不同的学科对此有不同的处理方式。
本文将从哲学、计算机科学、语言学和情报学四个不同的角度来看知识本体,并讨论知识本体在自然语言处理中的应用。
2.0从不同角度看知识本体
语言在本质上是模糊的,因此,我们需要借助共享知识来补全语言中缺失的信息或校正歪曲的信息。自然语言处理技术力图借助于人类世界知识中很小的一部分来理解语言中包含的简洁、模糊、含蓄的信息,这就是结构化的知识本体在自然语言处理中所要扮演的角色。一般来说,以语义为基础的自然语言处理技术并不等同于完全的自然语言理解。
词汇和它们所指代的对象之间的关系往往是非常复杂的。很多词可以指代明确的对象(如ship,vessel,wreck或者mother,sister,boss,wife,woman,granny)。同时也有某些对象并不能用一个单独的词来指代(如handbook of computational linguistics)。在一般情况下,我们把词看作是范畴类型,用词来给对象进行分类。
根据不同的目的,人们在建立知识本体时对词或概念的侧重会有所不同,这意味着人们建立知识本体会遵循几个不同的传统:
(a)哲学的传统:从逻辑和哲学的角度将对象进行分类。
(b)计算机科学的传统:从人类信息处理和推演机制将对象进行分类。
(c)语言学的传统:从概念单元的角度对词汇进行分类。
(d)文献情报学的传统:按照主题对信息进行分类以便于检索信息。
这些传统催生了不同类型的知识本体:
(a)形式化的知识本体;
(b)概念网络和概念框架;
(c)概念词库和同义词词典;
(d)分类主题词表。
3.0从哲学看知识本体
知识本体是语言概念知识系统的、科学的描述方法,它与自然语言的词汇系统有着非常密切的关系。(Berrey,1962)
如果我们对于一个领域中的客体进行分析,找出这些客体之间的关系,获得了这个领域中不同客体的集合,这一个集合可以明确地、形式化地、可共享地描述这个领域中各个客体所代表的概念的体系,它实际上就是概念体系的规范,这样的概念体系规范就可以看成这个领域的“知识本体”。(Gómez-Pérez,et al.,2004)
人们很早就开始研究知识本体,因此,知识本体有很多不同的定义,这些定义有的是从哲学思辨出发的,有的是从知识的分类出发的,最近的一些定义则是从实用的计算机推理出发的。
牛津英语词典对于知识本体(ontology)的定义是:对于存在的研究或科学(the science or study of being),这个定义显然是非常广泛的,因为它试图研究存在的一切事物,为存在的一切事物建立科学。不过,这个定义确实是关于知识本体的经典定义,它来自哲学研究。
Aristoteles(公元前384-公元前322)把存在区分为不同的模式,建立了一个范畴系统(system of categories),包含的范畴有十个:
——substance(实体),
——quality(质量),
——quantity(数量),
——relation(关系),
——place(空间),
——time(时间),
——attribute(属性),
——state(状态),
——action(行动),
——passive action(承受)。
(转引自苗力田、李毓章,1990:85)
这就是著名的十大范畴系统,这个范畴系统是最早的概念体系,实际上也就是最早的知识本体。
Aristoteles以他卓越的学识和深刻的洞察力,抓住了人类认识中最关键的概念。(同上)
德国哲学家Emmanuel Kant(1724-1804)认为,事物的本质不仅仅由事物本身决定,也受到人们对于事物的感知或理解的影响。
Kant(同上:532)提出这样的问题:“我们的心智究竟是采用什么样的结构来捕捉外在世界的呢?”为了回答这个问题,Kant对范畴进行了分类,建立了Kant的范畴框架。这是一种主观分类,这个范畴框架包括4个大范畴:
——quantity(数量),
——quality(质量),
——relation(关系),
——modality(模态)。
每一个大范畴又分为3个小范畴。
quantity又分为unity(单量),plurality(多量),totality(总量)3个范畴;
quality又分为reality(实在质),negation(否定质),limitation(限度质)3个范畴;
relation又分为inherence(继承关系),causation(因果关系),community(交互关系)3个范畴;
modality又分为possibility(可能性),existence(现实性),necessity(必要性)。
图示如下页图1。
根据这个范畴框架,我们的心智就可以给事物进行分类,从而获得对于外界世界的认识。因此,Kant的范畴框架是帮助我们捕捉外在世界的有力手段。Kant对于范畴框架的研究,为知识本体的研究奠定了坚实的基础。(转引自苗力田、李毓章,1990)
Aristoteles以类别(genus)和特征(differentiae)为基础把整个世界范畴化。类别就是范畴,事物总是属于某个范畴。特征就是属性,可以区分不同范畴的成员(同一层次范畴或上层范畴)。词典中的某些定义就采用了这个传统的办法。例如:
boy=male child;woman=female adult
girl=female child;child=young human
man=male adult;adult=grown-up human
从这些定义中可以很容易抽取出一个由节点构成的层级体系,每个节点都与一些特征连接,形成树结构。如图2所示。
图2的层级体系中节点之间存在着包蕴的关系。如果概念C1包蕴概念C2,所有C1的属性同时也都是C2的属性,而C2中的某些属性未必都是C1的属性。根据这个定义,“adult”包蕴“man”,因为所有“adult”的属性也都是“man”的属性,但是“man”中的“male”这个属性,却未必一定是“adult”的属性。
如图2所示的这种包蕴关系网络也被称为分类体系或层级体系。在一个分类体系中,包蕴关系具有传递性,在每一个层级上都可以引入一些新的特征,这些特征可以被下层节点以默认的方式继承。
默认继承的基础是类成员原则:某一个类的定义特征为这个类的所有成员共享。
boy是child的一个次类,因此boy应该具有所有child的特征(否则一个boy就不可能是一个child)。根据图中的结构可以推演出:一个boy应该有“+male”和“-adult”的特征。
某些特殊的次类可能会“拦继”(overwrite)上层节点的属性,例如“企鹅”虽然是“鸟”的次类,但是却不能飞。
图2中的结构实际上也是很多现有的知识本体的结构,最典型的例子是动植物的分类体系。
形式化的概念层级体系现在正趋向于越来越复杂。这是因为现在的概念层级体系允许多重分类和多重继承。概念层级体系不再是一个树结构,而是一个相互交织的网络(network),甚至可能是特征的置换形成的网格(lattice),如图3所示。
在此图中,adult和male这两个特征提升到和human特征同处一个层面,这样这两个特征可以和-human特征结合。这样的网格结构中的特征都是互不相关的,除非我们规定两个特征具有互斥的性质(如-male和+male)。这样一来,所有彼此兼容的特征都可以结合起来,用来定义所有可能的概念,形成所谓“概念化产物”。同时网格结构也以显式的方式说明哪些特征组合是不可能的。
图3中网格结构的效率高于图2中的树结构。在网格结构中所有的节点共享male这个特征,但是在树结构中不同的节点需要重复引入这个特征(例如adult和child的下层节点),这可能会导致“多重分叉定义”(multiple divergent definition)。图3中的网格结构不会将一个和层级有关的优先顺序强加到特征上,但在图2的结构中却存在这样的优先顺序:特征human优先于特征adult,特征adult优先于特征male。
很显然,在不同的本体知识体系里,同样的特征可能处于不同的层面,这种差异是随意的而不是必然的。因此,网格结构可以用来合并相互兼容的不同知识本体结构。
与树结构不同,图3的网格结构中有巨量的内部特征组合节点,但是这些节点在人们的概念中可能并不存在,在很多语言中也没有相应的表达方式。很显然词汇化并不遵循网格或树的体系规则。虽然网格会生成所有符合逻辑的概念,但是语言仅仅把那些可以有效地帮助交际的概念进行词汇化。典型的形式化知识本体的规模并不大,它是按照高度结构化的、自顶向下的方式形成。而典型的应用于自然语言处理的大规模知识本体往往建立在相对不那么结构化的词汇化概念基础之上。
4.0从计算机科学看知识本体
层级结构被认为是人类知识认知模型的基本结构。
Collins和Quillian提出:一切概念之间,都可以通过is-a关系相连并构成一个层级体系。(转引自Gómez-Pérez at al.,2004)
例如,从a terrier is a dog(“猎狐狗”is-a“狗”)和a dog is a mammal(“狗”is-a“哺乳动物”)中的is-a关系,就可以解释为什么人们在判断a terrier is a dog(“猎狐狗是一只狗”)是否正确时需要的时间很短,而判断a terrier is a mammal(“猎狐狗是一个哺乳动物”)是否正确时需要的时间就比较长。其原因在于,在这样的概念网络中,遍历更多节点会导致更大的处理量,也将相应导致更长的处理时间。
人工智能是计算机科学的一个重要领域。在人工智能研究中也经常使用带有特征链接的概念网络对知识进行结构化,其中概念节点的链接特征往往是诸如部分、功能、颜色这样的物理特征。有了通过is-a关系进行继承的机制,这些网络就成为了简单的知识表征系统(knowledge representation system)。
早期的知识表征系统既重视形式化方法和机制,也重视语义基元。人工智能研究中的语义网络现在已经渐渐演化成了更复杂的形式化知识表征方法。
早在1973年,R.Schank就提出了概念依存理论(Conceptual Dependency Theory,简称CD理论),用它来表示自然语言中的短语和句子的意义。(转引自冯志伟,2001)
概念依存表达式可由数目有限的若干个语义基元(semantic primitive)组成,这些语义基元可分为基本行为和基本状态两种。
基本行为主要有:
PTRANS:物体的物理位置的转移。
PROPEL:在某个物体上使用体力。
ATRANS:抽象关系的转移。
MTRANS:人与人之间或在一个人身上的精神信息的转移。
MBUILD:从老的信息构造出新的信息。
CD理论中的基本状态数比基本行为数多得多,这里仅举出几种:
HEALTH(±n):健康状态
MENTAL STATE(±n):精神状态
PHYSICAL STATE(±n):物理状态
概念依存表达式一般不依赖于句法,这与早期的短语结构语法或转换语法的释句方式很不一样。Schank认为,CD理论具有一定的心理学效应,它可以反映人们认知活动的直觉概念。
Schank提出的概念依存结构是经典的语义基元的一个实例。如果把Schank的“行为”基元(如GRASP,INGEST,PTRANS,ATRANS等)与Fillmore的“格”基元(如Agent,Instrument,Source,Direction等)结合起来就可以构成复杂的概念和命题,可以表示存在的对象。(转引自冯志伟,2001)
这个例子展示了句子putting a book on the table by John的概念结构,这个概念结构与使用的具体语言没有任何关系。
可以看出,Schank的概念依存理论是以行为和状态作为中心来描述知识本体的,与Aristoteles的知识本体不一样。
Brachman对知识的表征形式(knowledge representation)体系和机制作了一个综述,其中既有早期的定义不那么严谨的网络一直到现在复杂的框架规范。知识表征的形式体系使得复杂的事实、关系以及性质可以用形式化的方法表达,在此次基础上学者们研究出KL-ONE这样的形式体系。(转引自Gómez-Pérez et al.,2004)
有的知识表征体系支持描述逻辑(description logics),这使得它们的语义更精确、表达力更强,并能支持诸如约束检查、查询以及在描述基础上的自动分类等功能。
随着知识表征形式体系的飞速发展,需要对这些体系进行标准化,使得不同系统之间可以交换知识。标准化的知识表征形式体系有Knowledge Interchange Format(简称KIF)和Ontolingua。
知识表征形式体系对精确的语义表示是必要的,这使得根据已表达的知识进行推理成为可能。不过,如果只有形式体系而没有形式化的知识就毫无用处。将知识形式化是一件复杂而又费力的工作。前面提到的描述逻辑大多用在特定领域的小系统中,例如汽车的复杂图式、软件管理、医学、交通控制。所有这些小规模知识本体都是手工建立的,偶尔才扩展到其他大规模资源上以增加鲁棒性和扩展性。
在用形式化知识表征语言构造的大规模知识本体中,Cyc是最著名的一个。Cyc知识库是一个形式化表征的知识库,包含了大量的常识,如事实、各种经验法则以及对日常生活中的对象和事件进行推理所需要的推演体系。所有这些知识都使用形式表征语言CycL来存贮。Cyc中有数万个概念以及数量更为庞大的公理(也就是概念之间的关系以及各种限制)。这些概念是用于推理的,但没有以自然语言的词汇为基础,为此,系统另外提供了一个英语词库。
人工智能系统中的知识本体通常被称为领域模型(domain models)。这些知识本体的设计和构造往往都是面向特定任务和特定系统的。概念集与概念集结构的作用是服务于信息系统决策能力的。而自然语言的词汇与逻辑分类并不是人们关注的内容。人们还不清楚现有的自然语言处理技术究竟在多大程度上需要这样的知识本体以及其中复杂的知识表征体系。其实,就一般的语言分析而言,只需要这一类系统的推理能力中的一小部分就足够了。在目前的自然语言处理中,知识覆盖的广度比知识的丰富程度更为重要。为了能够处理不受限制的语言,目前需要大规模的词汇(一般词汇以及专门领域词汇)以及有限的推理能力。
在20世纪末和21世纪初,知识本体的研究开始成为计算机科学的一个重要领域。它的主要任务是研究世界上的各种事物(例如,物理客体、事件等)以及代表这些事物的范畴(例如,概念、特征等)的形式特性和分类。计算机科学对于知识本体的研究当然是建立在上述的经典的知识本体研究的基础之上的,不过,有了很大的发展。因此,我们有必要重新给知识本体下定义。
1998年,Studer等从计算机科学的角度,对于知识本体给出了一个明确的解释:“知识本体是对概念体系的明确的、形式化的、可共享的规范”(An ontology is a formal explicit specification of a shared conceptualization)。(Studer et al.,1998)
在这个定义中,所谓“概念体系”是指所描述的客观世界的现象中有关概念的抽象模型;所谓“明确”是指对于所使用的概念的类型以及概念用法的约束都明确地加以定义;所谓“形式化”是指这个知识本体应该是机器可读的;所谓“共享”是指知识本体中所描述的知识不是个人专有的而是集体共有的。
具体地说,如果我们把每一个知识领域抽象成一个概念体系,再采用一个词表来表示这个概念体系,在这个词表中,要明确地描述词的涵义、词与词之间的关系、并在该领域的专家之间达成共识,使得大家能够共享这个词表,那么,这个词表就构成了该领域的一个知识本体。知识本体已经成为了提取、理解和处理领域知识的工具,它可以被应用于任何具体的学科和专业领域,知识本体经过严格的形式化之后,借助计算机强大的处理能力,可以对于人类的全部知识进行整理和组织,使之成为一个有序的知识网络。
5.0从语言学看知识本体
人工智能与计算机科学的知识本体偏重于范畴类别。这些范畴类别就是我们头脑中知识的组织方式。知识处理正是在这些范畴类别的基础上进行的。
语言学则更为关注词的意义。就词汇意义研究而言,语言学中主要有两种不同的方法:
·语义特征或意义成分:每个词都有自己的语义特征,这些特征决定了该词的句法模式和使用方式。
·词汇意义网络:一个词与其他词的关系决定了这个词的意义。
语义特征方法认为一组有限的抽象语义特征(如:有生命/无生命)可以描写某些语言现象,如句法替换或逻辑转喻。这意味着词汇中存在某种意义分类。这些语义特征或区别不需要复杂知识表征语言来表示,在数量上是有限的,因而词汇中的意义分类也是有限的。由于仅仅描写了语言现象,这些语义特征不足以进行常识推理;不过语义特征研究与语言结构有关,它们在自然语言处理中是有用处的。
实验性的自然语言处理词库使用语义特征来定义,采用形式化的方法,如类型化的特征结构TFS(Typed Feature Structure)。
MicroKosmos(微宇宙)词汇数据库是一个较新的词库。这个数据库中的知识本体(包含4500个概念)与词汇库(包含7000个西班牙和英语词条)都是为机器翻译专门设计的,规模都不大,由于对语义类和词义进行了细分,就可以据此选择不同的译文。这意味着MicroKosmos词汇库的多义度(每个词条的意义数量)比传统词典要低。
另一个这样的分类见于PENMAN Upper模型。这个模型的建立是出于语言生成的需要。语言内部或语言之间的语法替换总能揭示语义区别。在这个模型中,构造知识库是建立在对语义的区别详尽分析的基础之上。
上述这些语言学方法都只关注动词而不关注名词。这是它们与词汇语义学的语义网络方法的区别之一,后者关注名词。在词汇语义网络中,一个词的意义取决于该词与其他词之间的关系,与人们的认知理解及推理无关。
Cruse在1986年提出了判断框架(diagnostic frames),能够反映人们对句子语义异常的直觉判断,也可以用来帮助确定词之间的语义关系。例如:
a.It's a dog,therefore it's an animal成立,但是It's an animal,therefore it's a dog不成立。可表示为:
AB(单向的蕴涵关系或上义关系)
b.It's a violin,therefore it's a fiddle成立,It's a fiddle,therefore it's a violin也成立。可表示为:
AB(双向的蕴涵关系或同义关系)
Cruse(1986)利用这个系统定义了一整套词汇语义关系。语言中的词汇彼此之间总是有关系,因此一种语言的所有词汇构成了一个巨大的语义网络。这个网络是一个语言内部系统。
WordNet、EuroWordNet以及DER都从意义关系的角度来定义关系,我们可以把它们看作是第二代的知识资源。
WordNet是英语的词汇关系数据库,从知识本体的角度来看,它也是一个语言知识本体。WordNet是1985年由美国普林斯顿大学(Princeton University)的G.A.Miller,R.C.Beckwick,C.Fellbaum等(Miller,et al.,1990)研制的。
WordNet的名词数据库中使用了25个初始概念。后来,WordNet又对这25个初始概念进行归纳和整理,形成了如下的11个初始概念(用粗体字表示)见下页图4。
经过整理之后的11个初始概念是:entity(实体),abstraction(抽象),psychological feature(心理特征),natural phenomenon(自然现象),activity(活动),event(事件),group(集体),location(位置),possession(所属),shape(外形),state(状态)。
EuroWordNet是一个多语种数据库,包含几个按照WordNet方式建立的单语种数据库,其中有英语、荷兰语、德语、西班牙语、法语、意大利语、捷克语以及爱沙尼亚语。EuroWordNet中不仅有每种语言内部synset之间的关系,还通过语种间索引(Inter-Lingual-Index)(以WordNet为基础)提供了不同语种synset的最佳对应关系,这使得在不同语言间进行词汇和词汇关系比较成为可能。EuroWordNet中各个语种词网的规模不尽相同,synset的数量在7000到44000之间,词的数量在13000到70000之间。(Gruber,1993;Miller,1995)
DER数据库是现有的最完整的大规模词汇资源之一,整合了丰富的双语(日英)以及单语种(日语)词典资源(包括句法以及语义次范畴等详细的信息),其中词义以WordNet的方式组织成一个概念层级。语义信息部分是概念词典(Concept Dictionary),其中有大约400000个概念。概念词典用来对概念进行描写和分类,并找出它们之间的关系。人们可以在单语种词典、双语词典以及同现词典中查询这些概念。
每种语言的词汇都是不同的。对于说英语的人来说,nail(指甲)都是一样的,不同的手指和脚趾各有名称,但上面长的指甲只有一个名称——nail。在某些语言中甚至手指和脚趾都是同一个名称,用同一个词来表示,如西班牙语中的dedo以及意大利语中的dito。
在构建多语言的词汇知识库的时候,双语歧义是源语言和目标语言之间彼此对应时出现的歧义,这种歧义主要发生在某个意义在目标语言中没有区分而在源语言有区分的时候。
例如,在英语中,river(河流)没有进一步的区分,而在法语中则进一步区分为rivière(河)或fleuve(江),在德语中进一步区分为Fluss(河流)或Strom(激流);在英语中,eat(吃)没有进一步区分,而在德语中则进一步区分为essen([人]吃)或fressen([动物]吃);在英语中,wall(墙)没有进一步区分,而在法语中则进一步区分为mur(墙)或paroi(隔墙),在德语中则进一步区分为Wand(墙),Mauer(围墙)或Wall(土墙);在英语中,blue(蓝色的)没有进一步区分,在俄语中,则进一步区分为синий(深蓝色的)或гoлyвoй(浅蓝色的)。
有时,这种双语歧义使得词义之间对应关系变得非常之复杂。图5描述了英语中的单词leg(腿)、foot(足)、paw(爪子)与法语中的单词jambe(腿)、pied(脚)、patte(爪子)、etape(宿营地)之间的交叉对应关系。
例如,法语的pied可以用于指人(HUMAN)的“脚”,这时,它与英语的foot相对应;法语的pied也可以用于指椅子(CHAIR)的“脚”,这时,它与英语的leg相对应;而英语的foot还可以指鸟(BIRD)的“爪子”,这时,它与法语的patte相对应。英语的leg涵义复杂,它除了与法语的pied对应之外,还可以指动物(ANIAML)的“脚”,这时,它和foot一起,又与法语的patte相对应;英语的leg还可以指人类(HUMAN)的“腿”,这时,它与法语的jambe相对应;此外,英语的leg还可以指旅行(JOURNEY)中的一段“旅程”,这时,它与法语的etape相对应。英语和法语的涵义之间形成的交叉对应关系是非常复杂的。这是在词汇方面的双语歧义现象。
由于存在这种极为复杂的双语歧义现象,在翻译中,单词的翻译就会出现一对多的情况,需要进行排歧,这给多语言词汇网络的构建造成了极大的困难。
尽管出发点不同,词汇语义网络的概念节点和人工智能领域的语义网络的概念节点之间有大面积的重叠,因此,大部分系统并不区分概念层面和词汇层面,或者直接将词汇库映射到知识本体上。
如果系统的目的在于处理文本中词语的替换,我们就需要一个类似于Wordnet这样的知识库以准确的展现语言中词汇之间的关系。这样可以预测如何以不同的方式在一种语言中表达同样的内容。一种语言中包含的词汇是知识本体表达意义的基础。如果语义网络的目的是处理用来推理的语义特征,我们就需要一个完全不同的框架(更类似于人工智能领域的知识本体)。语言中的很多词可能与进行推理关系不大,而推理所需要的很多概念却未必固定为词汇。
6.0从文献情报学看知识本体
为了适应我国文献情报学发展的需要,我国编制了《中国分类主题词表》,现在已经出了第二版。
《中国分类主题词表》第二版是分类与主题、标引与检索一体化的实用工具,它根据《中国分类主题词表》第一版来编制规则,以“主题词机读规范数据库”、“《中图法》第四版机读数据库”为基础。第二版以满足电子版功能为主,兼顾手工印刷版需求,对《中国分类主题词表》第一版进行了全面系统的修订,其中增补新学科、新事物、新概念的主题词20000多条,删除无使用频率的旧词包括修改为入口词的有12000多条,增补自然语言形式的入口词共21000多条,对《中图法》第四版类目做了部分修订和调整。
《中国分类主题词表》目前仍然是我国规模最大的分类-主题一体化标引工具,共收录分类法类目52992个,主题词110837条、主题词串59738条、入口词35690条,包括哲学、社会科学和自然科学、工程技术等各领域的学科和主题概念,应用范围广泛,可适用于图书馆、档案馆、情报所、书店、电子网站等进行各种类型、各种载体文献数字信息资源的分类主题一体化标引和检索,它不仅适用于综合性文献标引和检索的需要,而且也照顾到专业文献信息资源标引和检索的需要。同时《中国分类主题词表》的电子版为实现机助标引和自动标引提供了知识库和应用接口。
电子版是在《中国分类主题词表》标准的机读格式数据库和管理系统的基础上开发的,可应用于网络环境下的分类-主题一体化标引和检索。其研制原理是通过软件开发把分类法-主题词表结构化的机读数据,以多文档、多窗体形式,用动态手段再现分类主题一体化的对应转换结构及其语义结构,从而实现一体化机助标引和基于内容的信息检索等功能。电子版还从实现一体化标引和检索的功能要求出发,为不同用户设计个性化服务界面,克服印刷版的线形体系结构和检索效率低、查准率和查全率低等功能缺陷。
7.0知识本体在自然语言处理中的应用
知识本体可以在下述两个方面给自然语言处理提供帮助:
·知识本体可以帮助自然语言处理系统对语言进行结构分析,如解决PP附着歧义、拼写更正以及句法错误等问题,还可以提高语音识别的精度。
·知识本体可以帮助系统进行浅层语言理解,如信息检索中的查询搜索、文档分类、自动文摘、词义排歧等。
对输入文本进行结构分析通常并不是用户的最终目的,结构分析仅仅是自然语言处理系统中的一个部分,它还可以用来服务于其他的目的。
在结构分析过程中,知识本体可以用来排除某些类型的错误或结构歧义。这可以使用一个简单的词库。这个词库需要进行语义特征标注从而为决策提供限制条件(如动词eat的选择限制是:主语必须具有“有生命”这个语义特征,宾语必须有“可食用”这个语义特征),或者需要以上下位关系组织成简单的语义层级结构以便判定相似度。
第二个用途主要与信息内容有关而与句子结构的分析无关。这意味着系统对语义资源和知识本体的依赖程度要更高一些,而且知识本体的水平高低与系统的性能密切相关。一般来说,人们并不清楚语义信息究竟应该丰富到什么程度才能使系统达到最好的性能。原则上说,这要求语义资源应该最全面,颗粒度应该最细,同时也应该拥有最完整的推理机制。然而,人们目前还不知道如何去建立这样的资源,也不知道如何去使用这样的资源。基于语义的自然语言处理只能立足于现有的资源,因此,大多数和自然语言处理有关的应用都使用WordNet作为语义资源。
——信息检索
大多数情况下,信息检索使用知识本体和词网来扩展查询输入,将与用户输入的查询串相关的其他内容也纳入到查询范围内。这样就可以匹配那些表达不同但意义相似的文本。目前,这种匹配能力大都仅限于查询关键词的同义词和上位词。
由于检索词本身的模糊性,如果使用知识本体,就可以显著地提高召回率,从而找到更多的文档,但是这样会造成精确度的下降,导致误检索的文档数量增加。
有时候,用户可以在检索前对要检索的意义做出选择,这可以解决语义模糊问题。
很多信息检索系统都是面向英语的单语言系统。随着EuroNet的建设,这个技术也可以运用于其他语种检索或者跨语言检索。
与信息检索相关的还有索引编制和自动文摘。索引编制和自动文摘不需要根据检索词对文档标题进行匹配对比。索引是在编译时抽取出来的,并且以层级的方式加以组织。知识本体可以用来帮助进行层级化组织以及聚类。
——信息抽取
信息抽取立足于辨识对象,并在这些对象的基础上抽取事实或事件。整个过程在一个预先定义的模板基础上进行,这个模板的槽需要在信息抽取过程中填充。
模板的定义方式和相关的知识本体有关。知识本体中被区分并定义的对象是信息抽取的基础。在这个基础之上才能抽取需要的特征。
虽然知识本体通常规模不大而且面向专门的领域,但是系统可以把专门领域的知识本体连接到更大的层级中以获得更好的鲁棒性。为了辨识对象或事实,人们经常使用WordNet之类的知识本体。由于信息抽取系统大都面向非常专门的领域,通常不会遇到歧义问题。
——自动问答
面向非结构化文本的问答系统是WordNet使用的新领域。这样,回答问题不再局限于固定的模板或某个封闭的领域模型。可以用更为一般的检索技术回答开放性的问题,通过区分特定类型的问题(who、what、where)和更准确的段落分析来启动检索并找出最可能的文本部分。WordNet可以广泛应用于表达方式的替换,也可以用来为所有可能的答案寻找合适的表达方式。虽然其实际表现更类似于标准的信息抽取系统,这个系统实际上和信息检索关系更为密切。
——自动文摘
自动文摘的基础是文本相关性和词汇衔接度。相关性是由一个句子中包含的关键词数量决定的。相互有关系的句子之间重叠的实词的数量可以用来计算这些句子之间的关联度,关联度决定了相关度。关联度的基础是重叠的词的数量以及词频。不过很多人试图引入同义和上下位关系以便对此加以改进。这样,使用了不同但是相互有关系的词的句子之间仍然具有相关性。很显然,在判断相关性之前首先需要解决歧义问题。
——语义相似度计算与词义排歧
使用语义技术来改善自然语言处理中的统计方法或结构分析方法总是会遇到歧义问题。虽然语义网络或知识本体在知识表示方面比词或短语要精确得多(例如可以在WordNet的synset层面上而不是在词的层面上编制索引),但是,如何在词的不同意义之间做出取舍仍然是一个问题。因此很多研究者力图开发出词义排歧(Words Sense Disambiguation,简称WSD)系统。
大多数词义排歧系统都使用某个标准来衡量文档中不同概念之间的语义相似度。这立足一个假设:属于同一个意义类的词往往倾向于出现在同一个文档中。这样一来,这些词的其他意义就不属于文档中涉及的这个意义类别。
例如,organ是个歧义词,具有“身体部分”(器官)和“乐器”(管风琴)这两个意义;bass也是个歧义词,具有“鲈鱼”和“低音乐器”这两个意义。如果organ出现的文档中有bass和drum这两个词,organ是“乐器”(管风琴)意义的可能性要大于“身体部分”(器官)意义的可能性,bass是“乐器”(低音乐器)意义的可能性要大于“鱼”(鲈鱼)意义的可能性。换句话说,在“乐器”这个层级上,organ、bass、drum这三个词的聚类程度要大于在“鱼”和“身体部分”这两个层级上的聚类程度。
这个原则在具体的实现形式以及在细节方面是不同的,如层级深度的作用、概念在文本中的频率、概念在次级层级上的相对密度(一个概念在某个次级层级上出现的可能性)等等。很明显,词义排歧在很大程度上依赖于所使用的知识本体的质量和结构。如果相关的概念在分类上不能做到一致的话(如将“狗”归类为“宠物”,将“猫”归类于“哺乳动物”),或者如果层级太浅导致过多的顶层节点,聚类就变得非常困难。另一个关键的问题是知识资源中意义区分的程度,WordNet中相当多的意义无法清楚地辨析,这使得选择某个意义变得非常困难。这些问题,都有待于提高知识本体的质量和优化知识本体的结构逐步加以解决。
我们相信,在信息网络时代,传统的知识本体理论将会返老还童,大放异彩。