基于知网的词汇集聚分析,本文主要内容关键词为:词汇论文,知网论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】TP391
词汇集聚就是将文本中相关的词构成词链,使得这些词保持词义上的连贯性。词链与文本结构有一种对应关系,因而可以通过计算词链确定文本结构。词汇集聚分析在信息检索[1]、问答系统[2]、自动文摘生成[3]以及主题分析[4,5]等领域都有极为重要的应用。词汇集聚最初由Morris和Hirst[6]提出,采用Roget's Thesaurus义类词典作为分析工具。后来,Harabagiu[7]以WordNet替换Roget's Thesaurus,尝试以推理的方式实现集聚性的计算。本文以知网作为依托,利用概念语义网络将知网的常识性知识表示出来,通过搜索具有特定词汇关系的语义路径获取词汇链,为主题间关系的剖析奠定基础。
1 知识表示
本文对于词汇集聚的分析通过知网的推理实现,而推理在很大程度上依赖于知识库及知识表示,最适合于知网的知识表示莫过于概念语义网络[8]。本文介绍的方法即基于语义网络,其形式化表示为KB=(C,D,R),C是代表概念的节点集合,D是代表概念节点的定义集合,R是代表概念间以及概念与其定义间语义、词汇关系的集合(见文献[5])。
1.1 概念定义的网络表示
简单概念:通常情况下指一个明确的事件、实体、属性或属性值,在概念中不包含任何其他成分。
事件类复杂概念:以事件为中心,除了事件中心本身以外还有一个或一个以上的动态角色。
实体类复杂概念:具有多种属性,常常与一个或几个事件具有一定的关联。
对于非义原概念,根据词典定义形成有向非循环图,其方法如下:
(1)如果是简单概念节点,将定义义原作为该节点的上位,通过Hypernym关系直接与其定义义原节点连结。
(2)如果是事件类复杂概念节点,首先通过Definition关系与其定义第一义原节点连结,然后将第一义原的动态角色值节点连结到该义原节点上,构成复合节点,如果动态角色值是一个复杂概念,则按照本方法的第(2)、(3)步予以构建,只是无需增加Definition关系。
(3)如果是实体类复杂概念节点,首先将定义第一义原作为该复杂概念节点的上位节点,以Hypernym有向弧连结:
①当定义中没有直接利用事件义原对第一义原进行描述时,通过Definition关系将被定义概念节点直接与其第一义原节点连结,再将动态角色与特征值节点连结到该第一义原节点,构成复合节点。如果动态角色及特征值是一个复杂概念,则按照本方法的第(2)、(3)步予以构建,但无需增加Definition关系。
②当定义中利用事件义原对第一义原进行描述并且该事件义原唯一时,通过Definition关系将被定义概念节点与该事件义原节点直接连结。如果动态角色及特征值是一个复杂概念,则按照本方法的第(2)、(3)步予以构建,但无需增加Definition关系。
③当定义并列利用多个事件义原对第一义原进行描述时,通过Definition关系将被定义概念节点与第一事件义原节点直接连结,其他并列事件义原节点以and关系按序连结。如果动态角色及特征值是一个复杂概念,则按照本方法的第(2)、(3)步予以构建,但无需增加Definition关系。
④当定义并列利用多个义原直接对原概念进行描述时,通过Definition关系将被定义概念节点与第一义原节点直接连结,其他并列义原节点以and关系按序连结。如果动态角色及特征值是一个复杂概念,则按照本方法的第(2)、(3)步予以构建,但无需增加Definition关系。
1.2 语义网络的形成
对于语义网络的形成,本文作如下规定:
(1)网络是有向图,因某些关系的特殊性允许两个相邻节点间存在双向弧;
(2)网络节点为义原、概念、概念的定义(复合节点);
(3)节点间的关系为知网规定的或者本文增加的事件角色及特征,以注明该角色及特征名称的有向弧表示;
(4)对于事件义原,考虑其框架内容,将框架第一义原作为上位,以Hypernym关系与之连结,将角色的典型事件直接连结到该基本义原,如果典型义原中涉及复杂概念,则按照参考文献[5]介绍的定义网络的形成方法进行,但不出现Definition关系;
(5)对于实体义原,将其框架内容作为定义,按照参考文献[5]介绍的网络形成方法构造其定义复合节点;
(6)对于属性值义原,增加其属性义原;
(7)对于属性值义原,增加与之具有反义及对义关系的概念,并以双向弧连结;
(8)对于普通概念,考虑其词典定义内容,按照参考文献[5]介绍的网络形成方法构造其定义复合节点。
从上述介绍可见,对于知网的知识结构没有作任何改变,只是将原有的复合文档的形式转化为网络有向图,并增加Definition,Hypernym,Attributevalue以及Attribute 4种关系,以使网络完整。
2 语义网络的构建
2.1 输入表示
由于汉语与英语有明显的区别,一般汉语的整句较长,所以其输入的转换适合以短句进行,短句的定义如下:
短句:汉语文本中以标点符号{,。;!?}结尾的词串
本文单纯处理基于文本推理的词汇集聚分析,所以并不考虑词法分析、句法分析、语法分析等问题。假定输入已经进行了这些方面的必要处理,包括分词、词性标注、词义消歧等。对于输入,将其按短句逐一转换为网络,形成输入文本图,具体方法是以节点表示概念(即消歧后的词汇),以有向弧表示概念间的关系,弧上注明知网规定的事件角色及框架。这部分工作目前是手工完成的,以后可以考虑自动实现。
由于推理最终会在文本片段上进行,所以本文构建语义网络时以输入文本为基础,网络节点包括文本节点和知识库节点两种。
(1)文本节点:语义网络中由原始输入形成的节点称为文本节点。
(2)知识库节点:语义网络中根据知识库中的知识建立的节点称为知识库节点。
2.2 输入网络的构建
构建的实质是以输入的网络文本图为依托,根据知网的知识并参考文献[5]中语义网络构建的规定,尽可能多地获得新的概念及关系,具体实现时以短句为单位,步骤如下:
(1)对于图中每一个非义原简单概念节点,利用Hypernym关系有向弧直接与其定义义原连结(见文献[5]);
(2)对于图中每一个非义原复杂概念节点,先将其词典定义转化为非循环有向图,然后通过Definition关系有向弧连结到定义中的适当节点(见文献[5]);
(3)对于图中的每一个事件义原节点,逐一增加其上位节点,直至事件树的第5层;如果存在相同的基本义原,则只对其中之一进行此操作;
(4)对于图中的每一个实体义原节点,逐一增加其上位节点,直至实体树的第3层;如果存在相同的基本义原,则只对其中之一进行此操作;
(5)对于图中的每一个实体义原节点,逐一增加其定义节点,直至实体树的第3层;如果存在相同的基本义原,则只对其中之一进行此操作;
(6)对于图中的每一个实体、事件义原节点,根据框架内容增加其角色、特征值节点;
(7)对于图中的属性值节点,增加其相应的属性节点;
(8)循环(1)至(5)步,直到不存在可以继续操作的节点,形成该短句完整的初级文本图。
之所以在第(3)、(4)、(5)步对基本义原上位节点的深度加以限制,是因为随着深度的减小,义原间的语义差别越来越大,如果允许深度为0的节点加入,就会出现许多不正确的语义路径,从而使得毫无关联的词汇出现在同一个词汇链,影响词汇集聚分析的准确性。基于类似的道理,步骤(4)、(5)对实体类义原进行两次操作,既将其与上位节点连结,又与定义节点连结,这样做的必要之处在于区分词汇联系的紧密程度,也就是说,搜索构造词汇链的语义路径时,优先考虑上下位关系。
3 发现语义路径的搜索方式
知识库中任意两个概念间可以通过3种方式连结:简单连结,仅仅通过独立节点以及其间的关系连结在一起;定义连结,仅仅通过定义关系及定义内的节点关系连结起来;混合连结,可以通过任意节点及其间的关系连结。3种连结的方式虽然不同,但实现寻找的方法相同,都是从任意两个概念节点出发,找到所有的公共节点。即每条连结路径由两个半路径构成,始点分别是两个概念节点本身,终点是找到的公共节点。
(1)简单连结
寻找简单连结,从词性相同的两个概念出发,沿着独立节点间所允许的关系连线,直到找到公共节点,如果不存在这样的公共节点则说明简单连结搜索失败。
(2)定义连结
寻找定义连结,从词性相同的两个概念出发,沿着节点与其定义以及定义节点内的关系连线,直到找到公共节点,如果不存在这样的公共节点则说明定义连结搜索失败。
(3)混合连结
与简单连结和定义连结非常类似,只是允许利用所有的节点及关系。
4 推理过程
4.1 概念间语义路径的建立
文本任意两个概念之间通过知识库会有多条路径存在,但其中只有某些路径与当前文本相关,另外一些路径在其他上下文中才有意义,因此,必须尽量删除不相关的路径。本文所用的方法是在邻近概念的定义中寻找与所给文本词汇关系相同的关系。对于给定的词汇关系Relation(,),为关系的源概念,为关系的目标概念,可以利用以下3种方法搜索语义路径。
(1)在源或目标概念的定义中寻找
给定词汇关系Relation(,),是通过简单、定义、混合方式与连结的任一概念,该方法首先在源概念的定义中搜索关系Relation,如果不存在,就到的定义中搜索。一旦搜索成功,比如找到Relation(,),则努力寻找和之间的连结。找到这样的连结意味着在源概念和目标概念之间建立了合理的路径。类似的搜索可以从开始。
(2)在相邻概念的定义中寻找
给定词汇关系Relationl(,)和Relation2(,),是通过简单、定义、混合方式与连结的任一个概念,该方法首先在源概念的定义中搜索关系Relation1,如果不存在,就到的定义中搜索。一旦搜索成功,比如找到Relation1(,),则努力寻找和之间的连结。找到这样的连结意味着在源概念和目标概念之间建立了合理的路径。类似的搜索可以从开始。
(3)在主题相关概念的定义中寻找
给定词汇关系Relation(,),该方法首先在所有的概念定义中搜索,并将其标识为Definition_,是通过简单、定义、混合方式与某个Definition_连结的任一概念,如果能在的定义中搜索到Relation(,),则努力寻找和之间的连结。找到这样的连结意味着在源概念和目标概念之间建立了合理的路径。类似的搜索可以从开始。
4.2 局部上下文的形成
形成短句的上下文环境,其目的在于合并句内的重复概念,消除多余的连线,将有关联的节点连结起来,为此设置规则如下:
规则(1)、(2)主要针对节点的消除与合并,规则(3)侧重于节点的连结。应用规则(2)时应该注意,如果在同一个概念中含有两个共同的概念,但至少其中之一是复杂角色值的一部分,则应以直线连结,而不能合并。
为了不漏掉路径上的概念,同时又兼顾计算代价问题,执行规则时以路径为单位,也就是将每一条路径上的概念与其他路径上的概念进行比较。
4.3 句间语义路径的建立
短句的局部上下文建立起来以后,为了领会整个文本的含义,需要在短句的上下文之间建立联系。给定两个短句的文本图,有3种方法可以用于寻找句间的语义路径:
(1)寻找本短句的动词通过简单、定义、混合方式与另外一个短句的动词之间的有效连结。
(2)寻找本短句的动词与另外一个短句的上下文中非动词之间的必要联系。
(3)寻找本短句的上下文中非动词与另外一个短句的上下文中非动词之间的内在关联。
4.4 全局上下文的形成
以所有短句的文本图形成文本图林,按照形成局部上下文的规则(1)、(2),消除句间路径上的重复概念(不包括文本概念),然后将处理后的文本图与各短句的局部上下文比较,进一步消除相同概念(不包括文本概念)。对于不同短句文本图中没有直接连结的关联节点,以应有的关系将其连结起来。经过融合后所得到的文本图林包含所有能够解释文本集聚性的概念和关系。
5 词汇集聚分析
5.1 词汇集聚的含义
集聚性主要由词汇间的语义关系体现出来,Halliday曾基于词汇间的依赖特性将集聚性分为5种基本类型,如表1所示。
前3种是概念的重复及变相重复,包括同义词、相同词汇的重复使用及上下位词汇等。后两种体现文本中的词汇搭配现象,指词汇共现的语义关系,一般利用基于统计的方法发现。系统语义关系分为:反义词;有序集合的成员词汇或者无序集合的成员同汇;局部—整体关系。
非系统语义关系是最难解决的,尤其从知识表示的角度看。具有这种搭配关系的词汇由于描述发生在类似情形中的事情而倾向于出现在类似的词汇环境。比如{邮局,邮票,邮寄,信封},{小汽车,前灯,左转}等,虽然这种关系不易被识别出来,但它们确实存在。
5.2 基于知网分析词汇集聚的可行性
集聚性分析的第一个算法由Morris和Hirst利用Roget's Thesaurus义类词典基于词汇链设计,他们发现有5种类型的关系对于词汇链的建立必不可少,而知网同样提供了这5种关系,如表2所示:
表2 与Roget's Thesaurus对应的知网关系
Harabagiu为了利用WordNet,曾对其进行扩展,增加了很多关系和概念定义。比较而言,知网提供了更为丰富的概念内涵上的关联,将语义相关的词汇更为紧密地联系在一起,为集聚性分析奠定了坚实的基础。基于知网分析词汇的集聚性,其代价仅限于集聚性的计算,而不涉及知网本身的修改或扩展问题。
根据知网,系统语义关系具有更多的内容,其完整类别如表3所示。
需要特别指出的是,英语中不同词性的词汇通过相同的词根体现其关联,比如Create和Creation,而汉语与此不同,不可能从词形来判断其内在的联系。于是,知网给出同源角色,用以标识不同词性词汇间的显式联系,比如“战争”和“打仗”因具有相同的角色框架而语义相关。
表3 系统语义关系的类别
5.3 词汇链的形成
从表3可见,Morris利用5种类型的义类词典关系构建词汇链,这些关系完全能够通过基于知网概念间的简单、定义、混合连结获得。语义路径允许传播在知网各种关系之间进行,而Morris的词汇链仅通过一种特定的方式传播,比如,词汇1与词汇2相关,而词汇2已知与词汇3相关,则词汇1与词汇3相关。Morris假定一个词通过同样的关系与其他一组词关联,这与本章设计的搜索语义路径的结果类似,一个文本词汇通过一个短句的上下文或整个文本的上下文与其他一组文本词汇连结。一般来讲,基于路径搜索的方法提供更丰富的词汇集聚关系,因而也更接近人的直觉。
虽然在全局上下文的形成过程中,已经略去很多不相关的路径,但为了有利于词汇集聚性的分析,选择路径时还应遵循如下原则:
(1)路径以简单、定义、混合方式连结两个概念节点;
(2)路径的起止节点必为文本节点;
(3)路径的途经节点必为知识库节点(包括独立节点和复合节点);
(4)如果两个概念节点之间存在多条路径,则选择最短路径;
(5)优先考虑上下位关系。
6 相关工作比较与测试
关于词汇集聚的研究比较典型的包括Morris和Harabagiu的工作。Morris采用Roger's Thesaurus义类词典作为分析工具形成词汇链。Morris选择的知识源决定其方法虽然可以捕获系统或非系统的语义关系,但对于情境相关的词汇链几乎无能为力,而知网的知识恰好在情境相关的词汇之间提供了丰富的语义路径。Harabagiu以WordNet替换Roget's Thesaurus,尝试以推理的方式实现集聚性的计算。Harabagiu方法首先需要对WordNet予以扩充,使其包括各种语义关系,知识源的扩充代价远远大于词汇链的计算代价。而本文方法几乎不需要对知网作任何改动,同时,由于知网提供的语义关系比扩充后的WordNet还要丰富,所以基于知网的词汇集聚分析比基于WordNet的要更准确。
词汇集聚的测试是极为困难的,一方面因为词汇链是否合理取决于语言直觉,另一方面因为词汇链是否有价值与特定的应用息息相关,文献中还未见对词汇集聚的测试介绍。本文给出一种尽量客观的简单方法。
本文在环境、经济、艺术、教育、体育、计算机、医学、政治、交通、军事10大类中,每个类随机抽取10个文本,共100个文本。利用知网的语义路径生成词汇链,然后请5个人从这些词汇链中选择在其直觉上正确的词汇链,并给出缺少的词汇链,然后将没有异议的词汇链作为“黄金标准”。对于每一个文本,按照公式(1)和公式(2)分别计算准确率和召回率。
100个文本的准确率与召回率的平均值分别为82.82%和65.43%。召回率较低说明漏掉的词汇链较多,分析其原因,主要是由于知网对于这些词汇链的词汇没有提供必要的关联。
7 结语
词汇集聚关系不同于文本表面的简单重复,笔者使用它们基于读者具备理解这些知识的假设,因此,词汇链的自动生成必然要利用机器可读的词典或常识知识库。本文以知网为知识来源,充分利用知网提供的语义关系,基于推理的思想实现词汇链的自动生成。实验结果的准确率较高,是主题关系剖析的良好准备。
收稿日期:2008-06-17 收修改稿日期:2008-07-06