一种基于统计的汉语多义词排歧方法

一种基于统计的汉语多义词排歧方法

李波[1]2000年在《一种基于统计的汉语多义词排歧方法》文中研究表明长期以来,汉语多义词的义项排歧一直被认为是自然语言处理的难题之一。 本文研制了一个基于统计模型的汉语真实文本的多义词自动标注系统,该系统的输入是经过正确切分的汉语文本,系统对其中的每个多义词自动标注其义项号,输出已标注义项号的文本。同以往的方法不同,本系统根据汉语的特点,利用机器可读词典(MRD)《现代汉语辞海》提供的搭配实例作为多义词的初始搭配知识,采用统计方法和一定的自组织策略自动扩大搭配集,计算多义词各个义项前后搭配串的同现频率,从而判断出多义词的词义。最后,对本文提出的方法进行了实验,实验表明这种方法具有较高的正确率,在机器翻译等领域有很好的应用价值。

刘风成[2]2005年在《基于AdaBoost.MH算法的汉语多义词消歧》文中认为词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法。 在词义排歧模型中引入有指导的AdaBoost.MH算法。首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。同时,针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法。 为评测AdaBoost.MH算法排歧效果,本文在SENSEVAL3中文语料上进行了AdaBoost.MH算法和贝叶斯算法的词义排歧对比实验,结果表明AdaBoost.MH算法比贝叶斯算法具有更强的学习能力,前者的开放测试正确率比后者的开放测试正确率高出近8个百分点。 此外,为获取多义词上下文中的知识源,本文在使用传统的词性标注和局部搭配序列知识源的基础上,引入了一种新的知识源,即语义范畴。实验结果表明语义范畴的引入有助于提高算法的学习效率和词义排歧的正确率。 在对6个典型汉语多义词和SENSEVAL3中文语料中20个汉语多义词的词义消歧实验中,AdaBoost.MH算法获得了较高的开放测试正确率,前者的平均开放测试正确率达到85.75%,后者的平均开放测试正确率达到75.84%。 人工建立有指导学习算法所需的大规模标注语料是相当困难的,为解决此问题,本文给出了一种利用WWW资源自动构建适合汉语多义词排歧的标注语料库的方法。并通过实验验证了这种语料库的可用性。

刘亚清[3]2004年在《基于词义的汉语排歧方法研究》文中研究指明一词多义是普遍存在的语言现象,但在具体的上下文中一个词语就只有一个确定的意思,如何在具体的语言环境中确定多义词的词义是词义排歧所要研究的内容。本文主要针对汉语词义排歧的问题做了相关的探讨。首先给出了词义排歧研究的目的及其意义,接着根据排歧时所使用的不同的知识源介绍了目前比较常用的几种词义排歧方法,并对其中一些典型的方法做了较为详细的讲解;然后借助句法分析树,运用“中心词关联法”来提取表征多义词词义能力较强的特征词;在此基础上,通过计算多义词每个词义与特征词之间不同义原的相关系数,提出了一种基于义原同现频率的词义排歧方法。最后,根据本文所讨论的主要内容提出了一种汉语词义排歧系统的开发思路,并对其中一些模块进行了代码实现。

余加柱[4]2008年在《同形词语法功能消歧》文中研究表明自动句法分析是当前计算语言学研究的一个热点,同时也是一个难点。由于汉语本身的一些特点,使得汉语自动句法分析的研究更加艰难。我们在做基于功能匹配语法的现代汉语自动句法分析研究时发现,现代汉语同形词存在许多语法功能歧义,给我们的自动句法分析树带来了大量的分支,造成了很大的困难,而这些分支是可以通过单独的处理或者预处理来加以消减的,因此有必要基于句法功能对同形词单独做一下探讨。本研究在工程实践的初始阶段采取一些切实可行的措施对同形词进行处理,减少了句法分析树的分支数量,提高了分析器的速度和质量。本文先对清华973树库中的同形词进行统计分析,从统计结果可以看出,同形词在现代汉语中占有较大的比例,具有很大的作用,因此处理好同形词,对于现代汉语本体研究和自动句法分析研究都有十分重要的意义。由于我们的基于功能匹配语法的现代汉语自动句法分析器只利用从清华973树库中统计出来的词和短语的句法功能,舍弃了词性和词义等信息,因而我们对同形词进行处理时为了和功能匹配的句法分析方法保持一致,就不能像其他大多数研究那样利用词性、词义信息,而是只利用句法功能信息,这样就把我们的消歧策略限定在的一定的范围内。排除词性、词义信息后,可以看到上下文信息也是可以用来消除同形词语法功能歧义的有效信息。在借鉴以往词性、词义消歧研究和小规模实验的基础上,本文决定基于同形词的上下文信息来进行同形词语法功能消歧。本文的消歧策略分为两部分:一是基于同形词的语法搭配来进行消歧,即根据同形词的某个特定上下文搭配信息进行语法功能消歧;二是基于同形词的上下文语境信息来进行消歧,也就是通过计算同形词上下文语境的相似度进行语法功能消歧。这些策略都着眼于大规模语料的统计,语言学角度的分析和描写较少,方法的一致性比较高,大大提高了结果的可信度。本文用汉语中目前研究比较充分的“打”和“花”两个词为例进行消歧实验,把清华973树库作为封闭测试的语料,用1998年1月人民日报语料作为开放测试的语料,基于搭配的“打”和“花”语法功能消歧实验封闭测试的结果分别为80.4%和91.5%,开放测试的结果分别为69.16%和70.00%;基于语境计算的消歧实验的封闭测试的结果分别为93.68%和92.56%,开放测试的结果分别为72.06%和62.50%,二者的实验效果都比较理想。由于基于搭配的消歧方法在抽取某些语法功能搭配时需要人工的干预,用于大规模真实语料时还存在一定的困难,因此进行句法分析时我们可以采用基于语境计算的同形词语法功能消歧策略来进行同形词的前期处理。

李盛[5]2003年在《面向真实文本的汉语词义排歧系统》文中认为在自然语言处理(NLP)中,词义排歧(Word Sense Disambiguation)一直是研究的重点和难点,对其他的语言信息处理任务具有重要的理论和实践意义。词义排歧任务是一项“中间任务”,其本身并不是一个终结,而是完成其它自然语言理解任务所必不可少的,它的研究成果可以直接应用于句法分析、机器翻译、文本处理和语音识别等自然语言处理系统。 本文的主要工作是研究获取支持词义排歧的知识的方法,并在此基础上建立一个面向真实文本中实词的汉语词义排歧系统。主要从以下几个方面进行了研究: 1.词义排歧知识的获取:词义排歧知识的获取是词义排歧的关键问题。在分析词义排歧所需的知识以及知识资源中提供的知识的基础上,本文研究了知识自动获取的方法。并以在线知识系统《知网》(2000)作为知识源,通过分析《知网》中的义原间的关系,自动建立了动态角色列表库、事物与属性关系库和动态实例库等一系列支持排歧的知识库。 2.词义排歧系统的设计和实现:通过获取的句法信息、频率信息、概念间的角色关系、搭配信息以及词的联想、上下文语义(聚类)和选择限制等信息,提出一个词义排歧模型,并抽取56,000词次的新闻文本语料,尝试对其中的实词(名词、动词、形容词)进行词义排歧。模型主要包括词性过滤器、局部分析器和搭配实例库等。在此基础上我们进行了系统的设计和实现。 3.词义排歧系统的评测:我们以新闻文本语料作为评测语料,语料涉及到政治、体育、农业、科技等几个方面。文本语料首先经过山西大学的分词与词性标注系统进行处理,然后作为我们系统的输入对象。评测结果表明排歧系统对于汉语真实文本的排歧是有效的,其准确率可达到80%左右。 本文通过知识获取建立起一个多种语言知识相结合的词义排歧模型,实验结果表明,排歧效果良好。

张永奎, 张国清[6]1999年在《基于义类同现频率的汉语语义排歧方法》文中指出义类标注是信息检索和自然语言处理中的一个重要问题.但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准.因此,对义类代码自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题.在对《现代汉语词典》(以下简称《词典》)的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集.这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余.在此基础上,对《词典》中的多义词进行了排歧,结果较为满意.

吴金星[7]2015年在《蒙古语语料库加工集成平台的构建》文中研究指明语料库是按照一定的原则收集和组织的真实的自然语言作品的集合。语料库经过加工,才能成为有用的资源,能够为各种自然语言处理系统所利用。所谓加工,就是把语料库中隐藏的信息显现出来的过程。根据粒度的不同,语料库的加工分为词法标注、短语标注、句法标注和语义标注等不同层次。蒙古语已构建《1000万词级的现代蒙古语语料库》,其加工方面已涉及到词法、句法、语义的各个层面,但具有代表性的大规模多级标注语料库还没有形成。研究者们都以各自的实验为目的,从大规模语料库中抽取所需的语料,按照自己的标准进行不同层面的标注。这不仅出现了很多重复劳动,而且标注的语料库相互之间不能通用,更不能直接应用于其他研究中。因此,构建大规模的能广泛应用于蒙古文信息处理工作的多层次标注语料库是非常必要的。本研究根据语料库语言学的理论和方法构建了蒙古语词法-命名实体-固定短语-语义类型标注为一体的多级加工语料库。采取机器标注为主、人工校对为辅的方法对蒙古语最具代表性的语料库—《100万词级现代蒙古语语料库》进行了词法分析,命名实体之人名、地名和机构名的标注,固定短语的标注和语义类型的标注,初步构建了蒙古语多级标注语料库。本人前期工作中研发的蒙古语词法分析系统—Mglex在20万词级的训练语料库上取得了90%的准确率,但该系统尚未对命名实体进行识别。命名实体识别是蒙古语词法分析系统的重要组成部分,一个完整的蒙古语词法分析系统不仅包括词法标注,还应包括命名实体的识别。除此之外,命名实体识别是信息抽取、信息检索、组块分析、机器翻译、问答系统等技术的重要基础,它的研究成果将直接影响到文本信息自动化处理的深层次研究。因此,本文着手研发了蒙古语命名实体识别系统,具体研究内容包括:(1)采用条件随机场模型和规则相结合的方法识别了蒙古文人名和地名。根据蒙古文人名和地名的特点分别选取6种和5种特征作为CRF模型特征,对于蒙古文人名中特有的兼类人名则采取了基于规则的方法。最后采用词典和规则纠错,召回未识别的人名和地名。实验结果显示,人名和地名的识别准确率分别达到了94.56%和94.68%,召回率达到了90.60%和84.40%,F值达到了92.54%和89.24%。(2)机构名识别方面提出了基于知识库的识别方法。根据蒙古文机构名的语法特性,总结出简单机构名和复合机构名的构成规律,设计出有效的识别规则和相应的知识库,实现了蒙古文机构名的识别。本文从中国蒙古语新闻网的时政报道板块下载新闻片段243(包含417个机构名)段测试机构名识别系统性能,该系统在测试集上取得了73.75%的准确率和67.38%的召回率。除此之外,本文还详细介绍了改进蒙古语词法分析系统Mglex性能所做的研究工作。从语料库预处理、候选词优化、兼类词消歧和后处理等四个方面改进了Mglex系统。在兼类词消歧方面本文提出了基于词组搭配的兼类词消歧方法,而词组搭配获取方法上采用了最朴素的统计搭配词与节点词的共现频数法。通过改进,Mglex系统取得了词级联合切分与标注准确率94.00%,词级切分准确率97.80%的成绩。

郭志兵[8]2009年在《基于ICVSM的摘要抽取算法研究》文中研究说明摘要抽取是应对现代信息化社会而产生的一种信息提炼技术,它从大篇幅的文本中快速、准确地抽取出能够表达文本主题意思的句子生成文摘,为人们高效获取有用信息提供帮助。本文首先介绍摘要抽取的研究现状及相关技术;然后针对统计和语义相结合类型的中文摘要抽取算法存在的不足,提出一种改进的摘要抽取算法。新算法从以下两方面对原有算法进行了改进。针对汉语词语的多义性问题,本文提出一种词义排歧的改进算法。该算法先利用知网和训练语料建立义原同现频率数据库,作为词义排歧的依据;在计算待排歧词各义项与上下文特征词的相关系数时,考虑对表达语义能力不同的四类义原的对应关系,并且考虑两个影响词语语义表达的距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与待排歧词之间的空间距离。针对概念向量空间模型中项之间的独立性问题,本文基于聚类思想提出一种模糊的概念等价类划分算法。该算法从现实意义出发,对那些在表达语义上没有明显区别、相似度很大的概念,进行等价类划分,合并为概念集合,以概念集合代替单独的概念作为向量空间模型的项,用改进的概念向量空间模型表示文本,进而更准确地对文本进行量化,以便生成更为精简的摘要。最后本文开发了相应的实验系统,对提出的基于ICVSM(改进概念向量空间模型)的摘要抽取算法进行了实验验证。实验结果表明,改进后的算法较以往的算法,在对歧义词排歧的准确率和召回率上均有相应的提高,并且使生成的摘要在质量上也有所改进。

马甲林, 张永军, 王志坚[9]2015年在《基于概念簇的多主题提取算法》文中指出现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K-means算法进行概念聚类时,通过"预设种子"方法对其进行改进,以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。

宋丽平[10]2009年在《文本分类中特征选择方法的研究》文中认为文本分类是大规模文本处理的基本功能,也是提高其他文本处理功能和质量的有效手段。通过文本分类,人们可以按类别进行文本存储、检索和进一步处理。因此,迅速有效地对文本进行分类已成为一项重要的研究课题。在文本分类中,特征空间的维数高达几万,过大的特征空间会导致样本统计特性的评估变得困难,从而降低分类器的泛化能力,因此从原始特征集中选取最具有代表性的特征是十分必要的。有效的特征选择可以提高分类任务的效率和分类性能。本文在分析典型文本分类系统的核心技术、系统结构的基础上,给出了一种基于语义概念的分析方法。语义概念分析方法可以看作是一种扩展的向量空间模型方法,其特征提取算法是通过结合Hownet对词所表示的概念,将词空间映射到概念空间,通过多义词排歧和同义词合并,达到降维的目的,并尽量达到词与词之间的正交性,将文本的关键词用更小的语义空间进行表示,使得在新生成的语义空间中的相关文本更为接近。另外,在传统TF-IDF权重计算算法的基础上,综合考虑特征词的位置、同现频率的语义因子和特征支持度、类别强度的语义概念,增强了特征对文本内容的表现和区分能力,并将综合了TF-IDF与语义因子和语义概念的权重改进算法应用到分类系统中。本文设计并实现了一个中文文本分类系统,通过实验对改进的特征选择和权重计算算法与传统统计算法进行了比较分析,实验结果表明改进的特征选择算法和权重计算算法对分类性能都有一定的提高,具有较高的精确率和召回率。

参考文献:

[1]. 一种基于统计的汉语多义词排歧方法[D]. 李波. 大连理工大学. 2000

[2]. 基于AdaBoost.MH算法的汉语多义词消歧[D]. 刘风成. 大连理工大学. 2005

[3]. 基于词义的汉语排歧方法研究[D]. 刘亚清. 南京理工大学. 2004

[4]. 同形词语法功能消歧[D]. 余加柱. 南京师范大学. 2008

[5]. 面向真实文本的汉语词义排歧系统[D]. 李盛. 山西大学. 2003

[6]. 基于义类同现频率的汉语语义排歧方法[J]. 张永奎, 张国清. 计算机研究与发展. 1999

[7]. 蒙古语语料库加工集成平台的构建[D]. 吴金星. 内蒙古大学. 2015

[8]. 基于ICVSM的摘要抽取算法研究[D]. 郭志兵. 河南科技大学. 2009

[9]. 基于概念簇的多主题提取算法[J]. 马甲林, 张永军, 王志坚. 智能系统学报. 2015

[10]. 文本分类中特征选择方法的研究[D]. 宋丽平. 西安科技大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  

一种基于统计的汉语多义词排歧方法
下载Doc文档

猜你喜欢