中文词义消歧的方法研究论文_李雪梅

中文词义消歧的方法研究论文_李雪梅

中共红星区委党校 黑龙江 伊春 153035

摘要:词义消歧一直是自然语言处理领域的难题之一,它的研究对包括机器翻译、信息检索、文本分类等众多研究领域都会有一个积极的推动作用。本文阐述了词义消歧的方法,以及各种消歧方法的优缺点,分析了影响词义消歧效果的因素,并给出了自己在词义消歧方面的想法。

关键词:词义消歧;自然语言处理;规则;统计

词义消歧是自然语言处理领域一个重要的研究课题.也是近年来该领域研究的热点问题之一。歧义的存在使计算机在“理解”自然语言时发生了困难,并很可能出现了错误。词义消歧要解决的问题是如何让计算机理解多义词在特定的上下文环境中具体代表的语义。汉语的词义消歧研究起步比较晚,整体水平不容乐观.尚局限在几个歧义词,譬如说选择5~10个有歧义的名词或动词作为消歧研究对象,个别正确率很高,但难以推广至全文(即所有的歧义词)。目前的词义消歧研究还停留在实验室阶段,离实际应用还有很长的一段距离。

一、词义消歧方法语言学知识描述了词汇间的关系,歧义的产生源于词汇所涉及的领域、所处的结构等因素。消解歧义的前提是为歧义词选择恰当上下文。所有歧义的消解都依赖于多义词上下文提供的信息。所以通过特定的上下文环境判断歧义词的特定词义是解决词义消歧问题的唯一出发点,是所有词义消歧技术、方法的源头。

1、基于规则的词义消歧方法早期的词义消歧研究重点在于基于规则的方法。该方法依赖语言学家的语言知识来描述词义之间的关系,并建立规则库。通过对歧义词及其上下文词语的分析,选择满足规则、条件的词义作为正确答案。该方法符合人类的认知习惯,像专家系统那样很容易理解并被接受。但由于规则通常由语言专家制定,具有很大的主观性,难免存在一些错误。此外,如何保证规则库的一致性、可扩充性和完备性是该方法面临的难题。

2、统计词义消歧方法统计词义消歧方法借助统计学的思想和方法来处理词义歧义问题,统计学的方法不需要制定规则,自动在语料库、知识库中获取所需信息,来指导词义消歧。同基于规则的方法相比较而言.基于统计的方法具有更强的灵活性和可扩展性,容易应付语言现象的发展变化.具备更好的鲁棒性。但是基于语料库的词义消歧存在两个问题:(1)手工构造具有词义标注的语料库十分困难;(2)数据稀疏问题。基于统计的词义消歧需要有语言资源支持,可以使用的语言资源有机器可读词典(ComputerReadableDictionary,CRD)和语料库(Corpora)不同的语言资源实现的方法也大不相同,所以统计词义消歧又派生出基于词典的词义消歧和基于语料库的词义消歧。

1)基于词典的词义消歧方法基于词典的词义消歧始于利用词典中词义(亦称“义项”)解释或定义来指导歧义词的词义判断目。该方法简单易行,只需计算歧义词的各个词义在词典中的定义与歧义词上下文词语的定义之间的覆盖度,选择覆盖度最大的作为正确的词义。词典对词义的定义语句力求简单明了,这样使得很多歧义词的各个词义解释与上下文词语的覆盖度几乎为零,造成消歧失败。

期刊文章分类查询,尽在期刊图书馆词典中还有很多短语和示例信息,没有在词义消歧过程中发挥作用。基于词典的词义消歧不需要训练语料.也不需要对词典等资源进行人工处理,可以实现完全自动的消歧系统。但是现有的词典知识缺乏必要的完备性,特别是分类辞典覆盖面不够宽,对词语的一般性分类在某些专门领域往往不适用。此外,词典知识通常是静态的,难以适应语言的变化和发展,缺乏足够的可扩展性和灵活性。不过,作为一种辅助方法,还是具有很大的应用价值。

2)基于语料库的词义消歧基于语料库的统计方法通过计算给定文本中词汇语义在多义词上下文中的概率权重,选择具有最大概率权重的语义作为最佳结果输出,该方法根据训练语料事先是否经过人工标注又可以分为两类:有指导的词义消歧和无指导的的词义消歧幽。1)有指导的词义消歧在有指导的词义消歧方法中,系统提供一个己经消歧过的训练语料库,在这个语料库中,每个歧义词的出现都被标明了正确的词义。在这种方法中。由于每个歧义词的各种词义都在训练集中出现过,在进行测试集的消歧测试时,则只是在每个歧义词的真实出现处,把它与某一个己确定的词义联系起来,所以也称分类(classificatinn)。在有指导的词义消歧方法中,主要有两种不同类型的算法,即贝叶斯分类算法和信息理论算法。2)无指导的词义消歧由于有指导的学习方法依赖于人工标注的语料.要求大量的人工劳动,并且由于标注规模有限,存在严重的数据稀疏问题,因此现在许多学者致力于研究无指导的学习算法。无指导的学习过程是具有隐含变量的学习过程,学习过程依赖的训练集是不带词义标记的语料库。如自举的无指导方法、基于词典的无指导方法、基于双语语料库的无指导方法和自动聚类的学习方法。一般来说.有指导的消歧方法要比无指导的方法有更好的效果。有指导的学习中训练数据是己知的,而在无指导的学习中训练事物的分类是未知的。因此,无指导学习通常被称为聚类任务,而有指导学习通常被称为分类任务。

3、其它方法随着词义消歧研究的深入,单纯使用一种方法进行词义消歧已经很少见,几种方法结合进行消歧往往能取得更好的效果

二、影响词义消歧效果的因素

词义消歧需要从上下文中获得词义知识,因此,选择上下文中的哪些特征以及考虑多大范围的上下文都会影响词义消歧效果。1、特征选择特征选择是指从已知一组特征集中按照某一准则选择出有很好的区分性的特征子集,或按照某一准则对特征的分类性能进行排序.用于分类器的优化设计。词语的上下就是通常所说的语言环境,能够对自然语言处理起到举足轻重的作用。首先,上下文是知识获取的来源;其次,在自然语言处理问题解决过程中,上下文提供解决问题所需的信息,尤其是在语料库语言学中,各种机器学习方法的引入使词语的上下文成为计算语言学知识获取和问题求解过程中最为重要的资源。对于词义消歧.也是需要从上下文中获得词义知识。区分词的词义需要调查词语的搭配关系和用法模式。一个搭配一个词义,上下文词语同歧义词的距离、次序和语法关系对歧义词词义判断提供了强有力的线索。2、上下文的有效范围[歧义词上下文能够提供词义的约束信息,但并不能认为上下文中的所有词都会在词义判断上起作用。这是因为词语间的关系有强弱之分,对歧义词词义的约束力有大小之别。当上下文词语对歧义词词义的约束力为零的时候,就属于无效信息,它们在词义鉴别上无任何帮助,甚至有时会起副作用,从而成为语言模型的噪声,影响词义消歧系统的性能。上下文的选取是基于核心词左右一定范围进行的,这个固定的范围被称为“窗口”。上下文的有效作用距离首先要保证限定范围内的特征候选词可以为词义判断提供足够的信息,其次要保证噪声足够的小。此外还有兼顾系统运行的时间和空间上的效率

参考文献:

[1]鲁松,白硕.自然语言处理中词语上下文有效范围的定量描述田.计算机学报.2001.24(7):742—747.

论文作者:李雪梅

论文发表刊物:《语言文字学》2017年10月

论文发表时间:2017/12/22

标签:;  ;  ;  ;  ;  ;  ;  ;  

中文词义消歧的方法研究论文_李雪梅
下载Doc文档

猜你喜欢