客观知识体系中的相关性研究,本文主要内容关键词为:相关性论文,客观论文,体系论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2009.03.006
1 引言
相关性是人类认知的基本元素,它存在于人们生活的每个角落。学术界对相关性的讨论已经很多[1],但由于相关性是一个直觉概念,很难形成一致清晰的定义。Saracevic指出相关性是一个多维概念[2],在不同的领域应该有不同的含义。在信息科学领域,学者认为信息间的相关性是有效组织和检索信息、知识的基础,将相关性分成两个方面[3]:一个是用户的信息检索,称为检索相关;另一个则是客观知识体系的自组织建立起来的相关性,称为语义相关。迄今为止,国内外学者基于信息检索的研究热潮,对检索相关做了大量研究工作,却忽略了语义相关[3],这无疑是信息科学相关性研究的一大缺陷。本文拟从语义相关概念、语义相关与检索相关的比较、语义相关与知识组织的关系、语义度量方法和应用5个方面对语义相关展开论述。
2 语义相关概念
语义相关是指客观知识体系中信息单元之间的逻辑联系,是客观知识体系在自组织建立过程中建立起来的相关性,体现出客观知识体系的一种序化特征[3],随着客观知识体系的不断积累而呈现丰富化、复杂化、抽象化的趋势。虽然信息的产生大多数情况下可能在分布、时间上具有随机性、无目的性,但是由于信息创造过程的有序性机理“即新信息的产生必然是现有信息的驱动”和客观知识体系的自组织有序特征[4],信息在进入客观知识体系时必然与现存知识体系中的信息单元在纵向和横向上相关。一般客观知识体系的自组织过程都是依照“属加种差”的原则[5],“属”定义知识的分类,信息单元在“属”下的归类,表达一种包含相关,形成客观知识体系的纵向分层构架,“种差”定义属间的区别,信息单元间基于种差的密切联系,表达一种辨识相关,形成客观知识体系的横向架构,客观知识体系本身形成一个抽象的有序多维网络体,信息单元进入客观知识体系通过与知识体系横向和纵向上的相关完成信息单元的完整认知或定义。可见客观知识体系的自组织过程依赖于信息单元之间的逻辑联系,语义相关是客观知识体系自组织的驱动力,如果将信息单元看作客观知识体系的显性构成要素,那么语义相关则是隐性构成要素。
语义相关作为客观知识体系的本质属性,具有以下一些特点:
(1)具有动态性、永久性。随着客观知识体系的积累、综合,知识体系中的语义相关会发生动态变化,但是不会消失。
(2)具有差异性。根据客观知识体系所属领域不同,信息的语义相关类型、强度不同。一般来说,在自然科学领域和技术科学领域,其相关度较大,而在大多数社会科学、人文科学和管理科学中相关度相对较小[3]。
(3)具有多面性和隐蔽性。客观知识体系在自组织建立起来的相关性是多面而隐蔽的,所谓多面是指观测知识体系的视角不同,知识体系展现出的语义相关性不同,而隐蔽是指语义相关性是淹没在离散分布化的知识体系中的,知识体系因语义相关性都具有某种“序性”,但“序性”的真髓,即信息单元如何相关、怎样相关都是需要学者研究和揭示的。
3 语义相关与检索相关的比较
上文提到,信息科学领域相关性是检索相关和语义相关的组合,学者往往关注前者而忽略了后者。造成这一现象的原因一是信息检索研究关注度高;另外很重要的一方面就是学者往往忽略了语义相关与检索相关的联系,忽视语义相关对检索相关的影响作用。
从广义上讲,语义相关是检索相关得以出现的一种前提依据,正是由于客观知识体系中相关性的存在,用户才能在信息集中获得与需求匹配的子信息集。具体到检索相关的两个角度,系统相关角度研究的是用户信息需求描述和表达与系统文档描述之间的匹配关系[6],是需求信息与系统表示的知识体系的相关性判断;用户相关角度讨论的是用户需求对检索结果的反映效果,是系统输出信息与用户认知或知识储备体系的相关性判断。检索过程可以简化为“两个相关性判断”过程,从人类认知顺序思考,相关性判断必然建立于相关性存在并被认知的前提基础之上,从这点上就不难理解语义相关作为检索相关前提依据的作用了。
从狭义上讲,语义相关是检索相关得以实现的基础准备。一方面,没有语义相关,知识体系自组织缺乏驱动力,相关信息单元无法组织序化形成信息检索系统,检索更无从谈起;另一方面,信息检索系统中语义相关性的揭示程度影响检索效果。上文提到语义相关具有多面性、隐蔽性,信息检索系统的基础工作就是从某个视角研究揭示知识体系中的相关性,揭示程度愈高,说明信息检索系统的信息组织序化特性愈突出,检索效果愈好,这就如同从分类清晰的书架中查询书籍与从混乱的书架上翻找书籍,前者必然高效而精确。
虽然语义相关与检索相关息息相关,但有所区别,如图1所示。语义相关关注的是客观知识体系中的逻辑联系,是实质的客观相关,反映了知识体系的属性,而检索相关中系统角度内隐的相关性是基于词汇选择相似、语法结构相似、词频及概率的相关性[6],是信息检索系统内部组织设计机制对相关性概念的某种解释[2],是形式上的相关,反映了系统属性;用户角度的相关性是用户内在认知或知识储备的逻辑联系,是一种实质的主观相关,反映了用户属性。可见语义相关与检索相关是不同角度对信息科学领域相关性的反映。
图1 语义相关与检索相关比较
4 语义相关与知识组织
语义相关作为客观知识体系的本质属性,必然对知识的组织产生影响。马费成对这一影响做出了判断,即客观知识体系在自组织建立起来的相关性可以实现更深层次的知识组织[3]。知识组织主要是指按照知识内在逻辑联系,运用一定的方法对知识对象进行诸如整理、加工、表示、控制等一系列的序化、系统化的活动[7],简而言之,就是知识的序化。根据知识组织的定义不难看出,知识体系中的语义相关是知识组织的依据,而知识组织方法中对语义相关的应用程度则成为知识组织深化程度的决定因素。
传统的知识组织对知识序化的要求比较粗糙,简单的关注于知识的存储与整序,它所要解决的问题是告诉人们有什么知识及知识的分布,此阶段的知识组织方法类似于某确定化知识体系的系统性指南,停留在对知识体系的浅层语义逻辑表达上,对知识体系内在语义相关性的揭示粗浅而且分散。典型的方法如索引,它的核心思想是将知识单元按照某种共知或规定的可查顺序(如字母、年代、数字等)排列起来[8],显然“某种共知或规定的可查顺序”借用了某类通用知识体系(如字母表,时间轴)的语义相关性,只能反映特定知识体系中表层语义相关;词汇表,它的支撑思想是给出一个知识体系中难理解的或专业化的词的列表及其词的定义[8],词汇表显然只是知识体系的一个附加说明手册;这两种方法,是对知识体系的分散提取,是知识体系表层语义相关的反映,不能够提供知识本身内容及其联系,离开确定化的知识体系,索引和叙词表毫无意义,是基于极弱语义的知识组织方法。
随着信息和知识的爆炸式增长,知识体系复杂化、巨型化,难以把握,知识序化在知识存储、整序的基础上,要求对知识体系的理解深入化,它所关注的核心转移到对知识内容及其联系上,此阶段的知识组织方法类似于书籍的摘要或目录。典型的方法如分类法,它根据知识体系内在结构构建了一个组织概念/款目的分类系统[8],展现这些概念之间的类和子类之间的成员关系;叙词表,它是一个基于知识体系构建的领域相关词汇网络,考虑了词汇之间的关系[9];显然这两种知识组织方法在知识体系的探究层次上更深一步,提高了对知识体系中的内在语义相关的应用,为知识体系建立了一个辅助性的视图,但是由于对语义相关的单一类型应用或局部关注,如分类法中包含的语义相关类型单一,叙词表局部关注知识体系相关词汇的语义联系,而因此这两种方法必然是粗糙而简约的,据此,可以了解知识体系的概况,却不能达到细致描绘的程度,正如书籍的摘要或目录,属于弱语义的知识组织方法。
随着信息技术的发展,人们对知识组织的目标不再停留在简单的对知识进行存储、整序和导读,而是面向了通过融合分析、归纳、推理等方式来实现的知识表示和知识挖掘过程,知识组织成为知识交流过程的一个先导,朝着自动化、集成化和智能化的方式发展。此阶段的知识组织方法主要是基于中度语义的知识组织方法,对知识体系的语义结构揭示度要求提高,即要求知识组织方法更客观、深层次、全面细致的展示知识体系,语义相关成为知识组织的灵魂。典型的方法如概念图,它由美国康奈尔大学Joseph D.Novak等教授提出的一种用节点表示概念,连接表示概念联系的网络图[8],概念来源于对知识体系中知识内容的抽象,概念联系则是对知识体系语义相关的抽象;本体方法,它的核心思想与概念图相似,只是更具清晰化、形式化和规范化[10],而且本体种类多样,其对语义相关的揭示级别也不同[11],这里特别提一下中度语义的本体类知识组织方法——主题图,由于其规范完善,逐渐成为目前主流知识组织方法[12]。这两类方法,正是基于知识体系的语义相关采用概念逻辑科学思维方法来组织序化知识的[3],主要应用两种语义元素,即概念(或主题)和语义关系(或联系等)完成对客观知识体系的组织序化,概念抽象出信息单元的本质属性,语义关系反映出信息单元间的语义联系和区别,同时概念和语义关系的定义具有多样性和表达规范性,语义元素的输入决定了该类知识组织方法语义表达的可能性,概念和语义关系种类的多样性决定了语义相关表达的丰富性,而概念和语义关系表的规范性又决定了语义相关表达的互操作性,从而使基于语义的知识组织方法可以构建出描述客观知识体系的通用信息语义模型。
根本上,知识组织方法包含的语义元素个数、种类越多,愈能深层化组织知识,从这个角度来说,自然语言是最高级的基于语义的知识组织方法,它不仅包括语义关系,概念(词汇),而且包含词性、语法等复杂语义现象,语义元素个数、种类繁多,承载着丰富的语义。但是信息化时代的知识组织方法不仅要求组织隐含在知识体系中的语义相关性,而且要求易于机器的表达、理解和互操作[10]。由于双重要求之间的互斥性,基于语义的知识组织方法需要在两者之间寻找平衡点,牺牲部分对知识体系中语义相关性的揭示度,达到对知识组织中机器表达复杂度的简化,因此基于语义的知识组织方法既强调语义的揭示度,又强调语义的中度性。这正是大多数本体类知识组织方法,特别是主题图称为主流知识组织方法的原因所在了。
总之,知识组织方法的演进过程揭示出,语义相关可以实现深层化的知识组织,知识组织方法的语义强度愈高,知识组织愈深层化,知识体系的语义相关揭示度愈高,描述的信息模型的描述愈贴近知识体系本身,如图2所示。
图2 语义相关与知识组织(参考文献[11])
5 语义相关度量方法
信息科学领域对语义相关研究不仅局限于对客观知识体系中相关性的二元判断(即客观体系中是否存在某种语义相关),更关注客观体系中相关性程度的比较,关注如何在计算机上模拟出人对相关性的判断,将人的相关性认识形式化和可计算化,便于机器的理解和计算。
相关度是相关性的量化,体现的是概念之间相互关联的程度。相关度不是一个绝对概念,单对概念间的相关性测量值并不能直接反映出概念间的关联程度高低,重要的是通过相关度算法,能够给人类认为较相关的概念对赋予较高的相关度,而给较少相关的概念对赋予较低的相关度。
正如检索相关利用布尔模型、向量模型和概率模型数学计算模型作为系统相关度的评价方法[13],利用一致性、效用、关联度、满意度、适合度[3]、关系等指标作为用户相关的度量方法,语义相关也有其度量方法。
目前,根据语义相关度度量方法依赖的知识资源区分,主要有两类度量方法:分布方法和基于本体的方法[14]。国内学者通常把统计方法称为分布方法(Distributional Measure),把基于本体的方法(Ontology-Based Measure)称为语义词典方法。
分布方法是对大型文本语料库进行统计分析,通过判断两个目标单词的上下文(上下文是由一些共现词组成的)的相关程度,间接计算单词对的相关度[14],Bundanitsky和Hirst指出,分布方法与人们的直观认识,即若两个单词越相关,那语料库中单词对的相同共现词和相同陈述越多。典型的分布方法有空间方法,包含余弦方法、Manhattan和Euclidean距离,集合运算方法,伪拟模糊的方法、基于相互信息的方法以及基于相对熵的方法[13]。这些分布式方法本质都是基于对共现词的统计分析,但是因为处理共现词的方式不同,例如或将共现词映射成一个多维空间中的点,或者将共现词看作集合等,从而导致语义相关度数学模型的不同。
基于本体的方法是以某种方式,把知识资源构建为网络或者有向图,使之形成一个确定的概念化体系,概念之间存在着连通的路径,然后基于图中路径的属性来计算相关度。基于本体的方法受本体结构的约束较大,本体作为一个分类层次化语义网络体系,网络结构的局部密度、概念节点在网络层次中的深度、网络中蕴含的连接类型、概念间的路径长度、连接强度都是影响语义相关度的关键因素[15]。目前基于本体的语义相关度算法都是基于通用型的词汇本体Wordnet,典型的方法主要分为两种,一种是基于Resnik“节点间路径越短,节点越相似”假设的Hirst&St-Onge算法、Sussna算法、Wu&Palmer算法以及Leacock和Chodorow算法,一种是基于Resnik“两个概念之间的相似度大小取决于它们在多大程度上共享信息”假设的Resnik算法、Jiang&Conrath算法以及Lin算法[16]。
语义相关度的两类度量方法各有特点,分布方法计算语义相关度依赖语料库知识资源,计算结果的准确度外部受语料库的规模、质量、专业性的影响,内部受共现词的出现窗口大小、句型结构的选择等因素的影响,具有局限性,但应用范围不受限制;基于本体的方法计算相关度依赖本体资源的质量,本体资源蕴含语义丰富,可以正确识别主题间的相关,但本体资源具有构建成本高(需要相关专家参与)、周期长、更新慢等缺点。在语义相关度的具体应用领域,应根据各种度量方法的效果表现,择优选择。
6 语义相关应用
客观知识体系中的相关性研究是信息科学领域中的一个基础性研究课题,学者应用客观知识体系中的语义相关在信息检索、文本处理、自然语言处理、信息抽取四个领域取得了显著成果。本文主要介绍四个领域中几个突出且发展成熟的语义相关应用研究,分别是信息检索,文本自动校对,词义排歧,主题抽取,这些应用研究都是基于领域知识体系或文本知识体系或语言词汇体系中的相关性而实现的。
(1)关于客观知识体系中的相关性在信息检索中的应用,本文在检索相关与语义相关的比较中已经进行了间接的展示,此处主要论述一下语义相关在信息检索中的应用趋势。信息检索的改进在于提高其查全率、查准率和可扩展性,基于目前的信息检索技术研究现状,语义相关在信息检索应用趋势主要包括两个方面:一是信息检索系统底层的知识系统构建应该应用基于语义的知识组织方式,实现知识组织的深层化,间接提高信息检索性能。综观信息检索技术的进化过程,从基于关键字的检索到基于分类目录的检索再到基于概念的信息检索技术[19],检索技术变革的根本驱动力在于信息检索系统中底层知识组织方式的改进,近几年,本体对于领域知识的组织提供了一种新的模型机制,描述方式更接近知识体系的本质,有了本体中语义元素(概念,语义关系)对知识序化的支持,信息不再是单纯的语义无关或语义相关甚少的机器数据,而成为机器可以理解的知识,基于本体构建的知识系统可以为信息检索提供更广阔的发展空间;另一个应用趋势是在系统相关研究方面,不应局限在形式相关,应关注用户信息需求描述和表达与系统文档描述之间的实质性的语义相关,设计一种可以反映用户信息需求描述和表达与系统文档描述的语义相关的有效信息检索系统内部组织机制,便于机器识别理解,直接对用户需求与系统知识的匹配关系进行判断。
(2)文本自动校对是指在开发词类中检测并校正实词的拼写错误。文本自动校对根据“文本中一个实词拼写错误和附近词汇不太可能语义相关”的语义假设,检测出拼写异常词汇[16]。可见,文本自动校对依赖文本知识体系中的语义相关性,虽然在应用中对相关性作了某些假设限制,使得文本自动校对表现效果存在固有的缺陷,但规范简化的语义相关假设却为文本的自动校对提供了一种可操作的模式化实施思路。
(3)词义排歧是从词汇的多义中选择合适的词义,是自然语言处理,特别是机器翻译面临的难题。Sussna通过计算词汇集合中不同词义组合构建的网络关系图的语义相关度,从中选出最小值,实现了词义排歧[17],该方法正是利用了语言词汇体系中的语义相关性。
(4)主题抽取是指在针对特定问题的知识查询定位到文本的相关知识段落,获取文本某个段落的主题知识。主题抽取通常是应用各种加权算法,如基于字同现频率的方法或匹配和统计方法,通过计算主题词对文本主题的贡献大小来抽取主题[18],此类抽取方法由于缺乏对文本语义的理解,抽取效果受限,因此学者从语义相关的角度对主题抽取做了一些有效尝试,基于词汇链的主题抽取[19]以及基于词聚类的主题抽取方法[18]从文本体系内在语义相关理解文本主题,利用文本中词汇之间的语义联系构建词汇链[20]或词聚类[18]完成对文本中主题的抽取,抽取效果良好。
信息科学领域的语义相关研究随着其应用范围的扩展而逐渐丰富、完善,学者既将语义相关作为一种基础方法,广泛试用,反过来,又根据语义相关的应用成果推进语义相关本身的研究体系,总之,客观知识体系中的语义相关正在为越来越多的研究人员所关注。
7 结论
本文对信息科学领域相关性的语义相关进行了综述研究,通过客观知识体系中相关的原因探究和语义相关与检索相关的比较,清晰了语义相关的内涵;通过回顾分析知识组织方法的发展过程,指出语义相关对知识组织序化效果的正向影响,说明了基于语义的知识组织方法作为主流的原因所在,同时总结了典型的语义相关度量方法并给出了语义相关在信息科学领域的应用实例,特别预测了语义相关在信息检索中的未来应用趋势。本文的综述研究,旨在说明客观知识体系中的相关性作为信息科学领域基础研究的重要性,从而引起学者对客观知识体系中相关性研究的高度关注。
收稿日期:2008年1月9日
标签:自然语言处理论文; 信息检索论文; 知识体系论文; 相关性分析论文; 语义分析论文; 文本分类论文; 用户研究论文; 文本分析论文; 信息科学论文;