信息组织中语义关系的概念与类型_信息组织论文

信息组织中的语义关系概念及类型,本文主要内容关键词为:语义论文,概念论文,类型论文,关系论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G351

1 引言

众所周知,概念和关系构成我们思想和知识的基础,概念由内涵和外延构成,内涵指事物的本质属性,外延指概念所适用的所有事物集合。概念无法自行定义,只有在与其他概念的关系中才能定义。概念是语义的基本单元,关系是衔接各种概念和知识的链条,语义关系反映着思想的基本属性中的逻辑结构。

语义关系最早在语言学、逻辑学、心理学和计算机学领域中被定义和研究。信息组织中有关语义关系的研究集中在概念和术语方面,随着研究的深入,目前正在向识别、处理和关系管理转变,在信息提取、信息检索和自动摘录中有所应用。[1]本文分析语义关系在语言学、逻辑学、心理学中的概念含义,探索信息组织中语义关系的定义,简述语义关系在其他相关领域中的应用以及语义关系的特性,最后在现有研究的基础上,给出信息组织中语义关系的树形结构,并详细讨论几种重要的语义关系类型。

2 语义关系及其在相关领域中的表现

语义关系是两个或两个以上概念或实体之间有意义的关联,最普遍的关系由[概念1]→(关系)→[概念2]这种三元一组形式表现。语义关系在如何从语言学、心理学、计算机学方面展现知识起着重要作用,许多知识表达系统都是从实体和关系的基本区别开始的。

2.1 语言学中的语义关系

在语言学领域,Saussure的语言学理论将语言看成一个表达观念的共时态价值系统,认为系统中各个要素处于相互联系、相互对立而又相互作用的关系之中。在他的由具有共同特点的要素构成的联想关系系统中,语义—词汇类聚是指各要素由于语义上的相似或相同而聚集为一个集合,构成一个语义—词汇系统。系统中每个要素相互对立和制约,每个要素的价值决定于这种关系,决定于系统中其他要素与之的关系。[2]结构语言学家认为词不能独立于其他词而定义,词汇是网络的节点,每个节点代表一个词的意义,而节点之间的链接代表词义之间的关系。其他语言学家认为,一个单词的词汇表示源于基于语义本原的语义特征,语义关系通过使用一些基本的关联规则衍生于词汇的语义特征。

2.2 逻辑学中的语义关系

语义关系的分析可以在语篇层面上进行,也可以在逻辑层面上分析。人类理解和推理需要语义关系,有人认为,在语篇理解、问题解决以及类比推理中,给实体以概念上的关系和角色构建是十分重要的。[3]语义关系具有反身或非反身性、对称或不对称性、传递性、单射性和层次性等逻辑性能,这些属性在理解和推理中具有重要作用。对于理解的一般模型,由于语义关系逻辑属性不同,从而允许有不同的推理,在决策制定中不同的关系发挥不同的决策标准作用。[4]在类比推理和隐喻中,语义关系包含了概念关系的跨域映射。

2.3 心理学中的语义关系

心理学家通过分类实验证明人类可以区分不同类型的关系、用语言表达关系、识别关系歧义的实例并创造出新的关系,从而证明了语义关系的心理现实。[5]心理学家还发现人类对一些语义关系种类具有不同程度的理解能力。D.J.Herrmann等人在研究了儿童在理解五种语义关系(反义、类包含、整体一部分、句法关系和同义关系)中的发育率后得出结论:儿童对反义和整体一部分关系的理解比其他关系发育快,类包含的理解次之。[6]心理学家一般认为,某个种类中的实体以某种方式归类在一起,其概念上是连贯的,语义关系在解释概念和种类的连贯性上起着重要作用。起初,心理学家的研究集中在特征之间的相似性,之后,逐渐开始关注特征之间的关系、作用及结构。语言学家和心理学家已经证明,反义关系、同义关系、部分整体以及实例关系通常被看成简单的关系种类。有些关系可以根据特定的特点精确地定义,而有些关系则界线“模糊”[7],语义关系可以用一个或宽或窄的关系组织到分类体系中。

2.4 信息组织中的语义关系

信息组织对信息、知识的分类整理以概念为节点、语义关系为关联形成了客观知识体系。信息工作者通过揭示和挖掘信息的内容特征、形式特征,再加上逻辑推理,获取概念之间的语义关系,进而从横向和纵向拓展知识结构,为知识组织、信息检索、查询扩展、文本挖掘、自然语言处理等打下基础。[8]语义关系是依据语义信息而建立的关系,它揭示、描述信息之间的内在联系,是客观知识体系框架的重要构成因素。在信息组织中,语义关系的研究可以包括多个方面。

Ontology(本体或知识本体)是近几年信息科学中的热门词汇之一,Ontology在信息科学中被定义为“共享概念模型的明确化、形式化规范说明”。Ontology描述了某一领域内知识的概念或术语以及它们之间的关系,赋予了信息资源更准确完备的语义,使信息服务语义化,所以有学者说“基于Ontology的信息组织研究为信息组织在语义层面上打开了一个崭新的空间。”[9]

叙词表中的语义关系揭示能帮助标引者和检索者提高识别效率,美国国家标准协会/国家信息标准协会(ANSI/NISO)在《单语言词表的结构指导方针、版式和管理》的标准中列出了同义、等价、等级、整体部分和相关关系的多种形式。在标引语言中,由于标引词都是从文献中分离出来的,它们在文献中的关系没有被明确揭示出来。某些标引语言在标引词的排列上将语义关系考虑在内,这种特殊的排列方式暗示了两个或两个以上词语间的相关性。

在语义关系的提取方面,已经有许多针对实体之间语义关系提取的研究。特征向量法将语义关系提取作为一种分类问题,首先将关系实例用多种多样的特性转化为多维向量,然后检测和分类实体间的语义关系。另一种重要的语义关系提取法是基于句法和语义信息构建树型结构的方法。研究者构建了一个丰富的语义关系树结构,以两个实体语义之间关系的最短路径构建信息模型,然后通过语境扩张(包括必要的上下文信息)、结构改进和语义扩张,不断丰富树结构,最后评估树结构的互补性。[10]研究发现实体类信息在语义信息探索中贡献最大,此外,被放置在较高树结构上的语义信息能更好地实现性能。

在网络信息组织方面,传统的概念逻辑和知识分类都是以概念为中心组织网络信息资源,不注重概念之间的关系揭示。语义网的概念由万维网的发明人Tim.Berners-Lee于1998年提出。与传统的网络信息组织方法一样,语义网将概念之间的关系划分为属种关系、等同关系和相关关系[11],且克服了常用方法在相关关系揭示和语义表达模糊方面的不足,以“概念-关系”为中心组织网络信息资源。

语义关系在信息组织中的应用可以帮助信息工作者更好地挖掘数据之间的内在联系,构建信息的语义关系网在简化信息组织工作方面具有重要意义。语言学、逻辑学、心理学以及信息科学中的语义关系研究和应用给其他学科利用语义关系构建本学科的知识体系有重要的启示作用。

3 语义关系的典型应用

随着语义关系在相关学科中应用研究的深入,语义关系在概念分析和关系揭示上的显著优势也被计算机、生物医药和地理学等学科所认识并在最近的研究中有所涉及。

3.1 计算机领域

在计算机科学的文档与源代码关联关系的提取方式中,由S.T.Dumains等人提出的潜在语义标引方式(LSI)将文档组织成了语义空间结构。在文档和代码中经常会出现同义词和多义词,潜在语义标引模型对检索项-文本矩阵进行降秩[12],解决了同义词和多义词在词语匹配过程中的问题。

语义关系在计算机科学中的另一个应用是语义信息的抽取。信息抽取系统分为文本预处理阶段、语法制导分析阶段、语义抽取阶段、结构化存储阶段。在语法制导分析阶段和语义抽取阶段要进行遍历来抽取相关信息形成语义树。传统的中序遍历了每个节点,系统效率不高。节点语义关系遍历通过将逻辑语法分析树转化为语义关系树,再根据节点语义关系列表对逻辑语义关系树实现语义遍历。[13]原先按父子关系的中序遍历改为按语义关系的语义遍历法在无信息损失的前提下高效实现了信息抽取。

3.2 生物医药领域

截至2013年3月,生物医学领域的权威数据库Medline的文献记录已达2200多万条,并且每年以约60万条记录的速度增长。生物医学研究者通过关系抽取来处理这些繁杂文献中的生物医学信息,在共现、自然语言处理和模式匹配等实体语义关系抽取研究的基础上,开始关注表达语义关系的动词,认为确定这些动词是开展信息抽取的基础和关键。例如,用文献中的高频动词识别基因和基因产物的因果关系,人工给定如active、bind、interact、regulate等动词,利用句法分析器对句子进行句法分析找出句子中动词的主语、宾语,判断基因之间是否存在相互作用关系[14],实验证明,这种方法准确率在67.8%-83.8%之间。

一体化医学语言系统(UMLS)定义了54种语义关系来表达实体间的关系,后续研究利用关联规则和聚类分析算法来挖掘主题词之间有明确语义关系的关联模式,进一步细化了这些语义关系。利用提取的语义关系动词与实体构建的信息抽取模板,可以用于抽取有关句子或者表达概念之间的关系,来构建问答系统和本体知识库。[15]例如,主题词“药物X/治疗应用”与“疾病Y/药物治疗”如果有较强的关联,就可以在应用药物X治疗疾病Y上给予一定的关联支持。

3.3 地理信息领域

地理信息的发现以地理信息共享为前提,基于元数据的目录服务以关键词匹配为主,不能使用户得到语义上相关的更多数据,不能达到发现数据的目的。针对这一问题,研究者发现,语义网络可以形成数据集中的逻辑信息,能提供数据的内容信息并提供与其他数据的关系描述。但是,语义网尚处于起步阶段,还没有开发出成熟的技术来服务于地理信息共享。

地理数据目录服务体系不可能完全描述出每天都在增加的地理数据,更不可能大规模地更改已存储的信息。研究者提出,可以将语义关系独立出来用以联系数据资源[16],也就是说,基于语义关系的元数据开发可以站在已有的地理信息共享成果上,而这个成果就是地理信息共享单元(GISU)。语义关系元数据是描述这一单元中数据关系的元数据,这种关系元数据是发现数据的一个纽带,是基于本体的地理信息网络共享的一个基础。

语义关系描述概念之间的相关性,是构建学科知识结构的基础。所以,从本质上把握语义关系,分析语义关系的属性,有助于学科在研究概念关系时更好地利用语义关系。

4 信息组织中的语义关系类型

对语义关系进行分类可以帮助我们理解语义关系的含义及特性,以便发挥语义关系在信息组织中的作用。许多学者都尝试过以某种特定的划分标准来列举语义关系的综合列表。构建列表的方法主要有两大类,一类是主张简洁抽象的简约主义者,例如,定义了反义、同义、类包含、部分整体和事件5种语义关系。另一类是主张精编的分割主义者,提出了包含31种语义关系的列表。[17]随着语言学、心理学、计算机领域研究的不断深入,语义关系的综合列表也越来越清晰。

4.1 纵聚合关系与横组合关系

大多数研究者将语义关系分为纵聚合关系和横组合关系两大类。纵聚合关系是指可以在同一句子相同位置出现的一组词汇或短语之间的关系。这些词汇通常属于一个语义类别,在句子中起的作用相同,在某种程度上可以相互替换,如同义关系。横组合关系是指那些同时出现在相同句子或文本中的词与词之间的关系,往往构成线性序列。横组合关系的出现通常是不固定的,需要一定的上下文信息,纵聚合关系则较为通用。F.W.Lancaster将纵聚合关系称为先验的或永久的关系,将横组合关系叙述为后验的或瞬时的关系。[18]纵聚合关系和横组合关系的界限是模糊的,纵聚合关系可以在累积的横组合关系中衍生出来,当两个词在文本中作为关联词共同出现得足够频繁时,这两个词的横组合关系就可以固定下来。

纵聚合关系与横组合关系都属于文本中词汇或短语之间的关系,无论是可相互替换的纵聚合还是具有共现关系的横组合,都可以归类为词汇之间的语义关系。而我们要揭示的还应该包括信息组织中存在的句子级、文献级等更大文本层面的语义关系,所以下面我们把语义关系归结为词汇语义关系和文本语义关系来进行讨论。

4.2 词汇语义关系

词汇不能独立于其他词汇来定义,词汇的含义包括与其他词汇的相互关系。Saussure认为,语言是由独立术语构成的系统,在这个系统中每个术语的价值都完全受同时存在的其他术语的影响,因为语言作为符号,它本身的形式与内容没有必然联系,所以符号的价值只能由彼此间的相互关系决定。词汇是语言系统的单元,关系是标记词汇之间关系的链接。

一对词汇经常出现的结构关系被视为词汇语义关系。在句子中共同出现次数足够多的词汇被称为搭配,有些词汇之间的关系密切到一个词的出现直接决定了另一个词的出现。词汇功能是指特定语境下两个术语之间的映射或关系,最早在I.Mel'cuk的含义文本理论框架中提出。[19]他列举了37种语段词汇功能,示范性的有同义、反义、逆命题、对比和类属。例如:

“更多”词汇功能:加[价格]=[暴涨]

“更少”词汇功能:减[压力]=[放松]

关于词汇语义关系的具体类型,本文在已有研究的基础上,将词汇语义关系分为等级关系、属性关系、等同关系和方式关系4种。

(1)等级关系。国际标准(ISO 2788)和2005年第四版的美国标准(ANSI/NISO Z39.19)都将等级关系分为属种关系、实体关系和整部关系3种不同的逻辑。叙词表将等级关系分为属种关系、整体部分关系和包含关系。[20]《中国图书馆图书分类法》第四版规定类目体系中的上下位类之间的关系又被分为属种关系、整体与部分关系、全面与某一方面的关系。[21]我们将信息组织中的等级关系归类为整体部分关系、上下位关系、属种关系和实例关系。

①整体部分关系是一个概念与其组成部分之间的关系,通常也叫整部关系和部分关系。M.E.Winston将整体部分关系划分为6种类型:组件-整体,如踏板-自行车;成员-集合,如船只-船队;部分-大量,如张-馅饼;材料-物体,如钢材-车辆;性能-活动,如支付-购物;地区-区域,如大沼泽地-佛罗里达。在含义文本理论中,L.Wanner列出了以下整体部分关系[22]:成员和集合,如狗和雪橇队;全体和员工,如机组和乘务员;组织和其领导,如船和船长;整体和其单元,如沙子和沙粒;整体和其中心或高潮,如山和山峰。

②上下位关系是一种语义包含现象,表示被划分概念的词义包含或涵盖被划分出来的概念的词义。如游泳和蛙泳,游泳是上位词,蛙泳是下位词。同一上位词可以有多个下位词,例如,游泳还可以有蝶泳、自由泳等。上下位关系在主题词表和分类法中经常使用。主题标引时如果没有合适的下位词,可以采用它的上位词。上下位关系是蕴含在概念里的,而整体部分关系则存在于概念之间。二者有时界限模糊,但区别还是有的。例如,上下位关系具有传递性,如A是B的下位词,B是C的下位词,那么A也是C的下位词。而整体与部分没有这种性质,例如,在“房子有一扇门”、“门有一个手柄”都成立的情况下,推导不出“房子有一个手柄”。

③属种关系又称类属关系,是专指度深浅不同的概念之间的关系,指一个概念包含在另一个概念的外延之中。在信息组织中,实体集A属于另一个实体集B,A是B的子类,B是A的父类,这两类实体之间就是属种关系。英文中的属种关系常用“IS-A”表示。如“A IS-A B”,可以解释为“属于”或“是一个”。[23]A可以继承B中的所有属性,又可以有自己的特殊属性。“X是一种Y”含有分类的意思,这有别于上下位关系。属种关系中的词汇层次性更加明显,“上位词”有时可以是“下位词”共同特征的抽象,比如,水果是苹果、梨、香蕉等的抽象。在生物学领域,用界、门、纲、目、科、属、种7个层次对百万生物进行了分类组织,每一种生物都有共同的属性且能与其他种类相区别。

④实例关系也叫实例角色,是句子中主要动词与其他句子成分之间的语义关系。实例关系通常存在于句子中两个相邻词汇之间,动词支配句子结构的语义角色,而从句、直接宾语、间接宾语、介词短语都是动词的参数。有人强调,实例关系应该依据特定情况进行调整,实体关系是分类和归纳动词与其参数之间语义角色的关键。[24]每个动词的词义都有相应的实例与之相关。动词连接的两个实体在实例关系中都扮演实例的角色,例如,“他翻开书”,[他]是动作发出者,[书]是动作接受者,二者以动词[翻开]连接,构成[翻开]的实例。

(2)属性关系。属性关系主要是指名词和形容词之间的关系,即用一个术语来描述另一个术语的性质、特点。例如,[冬天]→[属性]→[冷]。

(3)等同关系。等同关系是指两个词汇之间语义上的相似、相反或相近的关系,包括同义关系、反义关系、近义关系、等价关系和又见关系。

①同义关系是两个在表达含义上完全相同的词汇之间的关系。绝对的同义非常罕见,如果两个表达式的含义在所有语言环境下都是完全相同的,那它们就是绝对的同义。

②反义关系是指语义对立或相反的一组概念之间的关系。当然,构成反义关系的前提是这组词必须是属于同一范畴的词汇。心理学家发现,反义关系很容易理解和学习。规范的反义关系是经过反复思考和验证的,比较稳定且能在不同的文化中广泛流通。如“冷”和“热”,显示了温度领域中相反的两端。有人发现,反义形容词常在文本中的同一个句子里出现,用连词“和”、“与”、“或”连接,如“正与邪”、“贫穷和富有”等。有些反义关系则用短语代替,如“我是不是错了”。他们认为,在文本中频繁共现的反义词加固了人们的认识,因而形成了反义词的分级,即出现频率高的反义词比出现频率低的反义词更加有可能被判断为良好的反义词。[25]如“冷”、“热”比“闷热”、“寒冷”更好一些。

③近义关系是指两个词汇无完全相同的含义但意思相近。

④又见关系是指两个含义相关的词汇之间的关系,可以理解为相关关系。词汇的相关关系是指不属于等同也不属于等级关系但较密切的关系,例如,“图书馆学”和“情报学”这两个词汇之间的关系,可以认为是一种交叉关系,这种关系在主题词表中以“参见”表示。

⑤等价关系在计算机科学SQL语言和离散数学中是指两个语义上相同的概念,此处这种关系用同义代替。信息组织中借用叙词表语际等价关系的定义,专指同一词汇在不同语言中有不同表达,但具有可以替换的关系。

(4)方式关系。方式关系主要是指动词之间或宽或窄的关系。动词间的关系主要是方法的关系,英文称为“the manner relation”,C.Fellbaum将它延伸到术语“troponymy”。她指出,用“一种”、“是一个”来表达动词的关系很奇怪,例如,“低语是一种说话”,“吟诵是一种唱歌”。她做的一项心理学研究表明,人们在识别和处理方式关系上没有困难。受试者能很好地标记动词的方式关系类型,将动词分成相关的类,在辅助任务中用相关联的动词回应。最后,她发现动词的等级结构比名词要少,层次结构更加平坦。方式关系涉及几个维度,运动动词在速度维度上不同,如走和跑;冲击动词在力量维度上不同,如打和砍。

目前已有许多网站开始构建词汇语义关系的数据库,比如WordNet网,这是一个包含了150000个英文名词、动词、形容词和副词的词汇网,设计者基于人类词汇记忆的心理语言学理论,洞察了词汇语义关系的构造。WordNet显示名词之间主要由实例关系和部分整体关系构造,名词与形容词之间以属性来构造,名词和动词之间以功能来连接,形容词之间则主要由反义关系联系,动词之间的联系主要是方式关系。

4.3 文本语义关系

这里讨论的是从句子级到文献级的较大文本单位之间的语义关系。句子的关系可以从逻辑学、语义学和知识表示角度共同分析。从逻辑上讲,主句和从句分别表示命题和谓语,推理通过命题和谓语来进行。在英语语法中将两个独立的句子间的关系以状语从句来表示,包括原因、条件、结果、时间、地点、让步、目的、比较和方式状语9种。句子间的语义关系有许多种,例如,S.G.Christopher提出,语义关系包括时间、地点、原因、结果、目的、条件、让步和评论。我们借鉴他的观点,将逻辑关系中的语义关系分为因果关系、目的关系、条件关系、让步关系、时间关系、地点关系和蕴含关系7种。

(1)因果关系。因果关系是两个事件之间的引起与被引起关系,具有时间序列性和复杂性。从时序上讲,“因”具有优先次序,因果关系通常在以“因”领域为背景的情况下得到确认。当然,在特殊情况下,因果关系中没有时态次序,例如,一个球放在垫子上产生凹陷,不具有时间的先后。[26]“因”只有在同时具备必要、充分条件时才会触发结果。因果关系可以存在于词语、句子和文本中。

(2)目的关系。目的关系是指复句中的一个分句表示行为,另一个分句表示因这种行为而产生的目的的关系,包含着积极的、有意识的行为指向。

(3)条件关系。条件关系与因果关系类似,但条件可以细化为必要条件和充分条件,如果一个事件A是事件B的充分条件,虽然不是必要的,如果A发生,B总是跟着发生,但是当A不发生时,B有时发生,有时不发生。如果事件A对事件B是必要的,但不是充分的条件,当A不发生时,B永远不会发生,但是当A发生时,B有时会发生,有时不发生。

(4)让步关系。让步关系表示两个句子存在转折关系,是一种程度较低的否定,英文中常用“though”、“while”连接,比如“He is experienced while he is a young.”。

(5)时间关系。时间关系是一个句子指定或暗示另一个句子发生的时间的复合句之间的关系。

(6)地点关系。地点关系是用表示地点的子句与主句连接的复合句之间的关系。

(7)蕴含关系。蕴含关系是重要的语义关系,也可以理解为暗示,如果句子A引起句子B,那么,如果A是真的,B也是真的。

相邻句子之间往往具有衔接性,较远的句子之间则存在连贯性。衔接强调两个相邻文本单元之间的局部关系,连贯强调相关的句子或更大的文本单元的关系。有人分析了相邻句子之间的衔接性关系,认为衔接也是一种语义关系。[27]通过调查文章中的语法和词汇,分析替代、省略、照应和词汇的用法,他们发现“衔接发生在文本中一些元素依赖于另一些元素而存在时”。

文本层面较高层次的关系是论述关系,信息组织中一个重要的论述结构模式来源于修辞结构理论,这个理论中的修辞关系包括证明、精炼、动机、意志、原因、评价和背景。论述结构使用修辞关系来塑造文本,每个关系连接的两个文本段,其中一个是核心文本,另一个是卫星文本或外围文本。一个文本可以是由修辞关系联系在一起的序列片段,每个片段又可以细分为更小的修辞关系联系的片段,可以说,这些片段和整体的文本存在语义关系。

文献级的关系主要是引用/被引关系。文献可以通过各种语义关系链接,例如,一篇文章是另一篇文章的后续研究,两篇文章讨论同一主题但切入点不同,一篇文章是另一篇的概述等。引用和被引很好地揭示了相关文章之间的语义关系,Liu(M.Liu)回顾了引文研究成果并编制了引用可能性的原因列表。[28]

信息组织中一种重要的语义关系是相关关系,文献级的相关关系是指文献与用户信息需求的相关性。文献相关性的判断更多的是从主题相关性入手,如果检索结果有较高的准确性和专指性,则文献与信息需求有较高的相关关系。

根据以上论述,笔者设计出信息组织中语义关系结构框架,如下图所示。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

信息组织中语义关系的概念与类型_信息组织论文
下载Doc文档

猜你喜欢