汉语动宾搭配的自动识别研究

汉语动宾搭配的自动识别研究

程月[1]2008年在《现代汉语动宾搭配多角度考察及其自动识别》文中认为词语搭配是一种具有一定语法结构关系的、可重复出现的词语的组合。一般指具体词语之间的组合关系,在自动句法分析、机器翻译等领域,能发挥不可替代的作用。而动宾搭配更以其使用的高频性、复杂性、灵活性受到学者的广泛关注,其也更是构建词语搭配库的核心问题之一。单纯依靠人工筛选建库是不可取的,自然语言处理就是要对词语搭配进行深入地研究,找到适合计算机大规模处理的方法。在广义搭配观下,基于精确标注的清华汉语树库语料,针对动宾搭配主要做了两部分工作,其一,对动宾搭配的多角度考察;其二,对动宾搭配的自动获取与识别。第一部分从定性和定量相结合的角度考察了树库中抽取到的50611对(tokens)动宾搭配实例。定性考察主要在搭配的词序、词性、动词的语法属性、搭配中的词汇语义作用等方面,围绕词语搭配所涉及到的语法、词汇、语义(事理逻辑)等层面,作出相关分析,为后续识别阶段提供理论参考;定量考察主要介绍了搭配自动获取与识别的常用统计量,并对树库中的动宾搭配在搭配频次、互信息、距离的平均值与方差等方面作了统计与分析,甄别哪部分统计数据后续识别阶段较为有用。第二部分分别基于传统统计方法和统计机器自动学习方法对动宾搭配进行了自动获取与识别。传统的统计方法,处理模型比较简单,多是单一的统计量,如共现频率、互信息等,识别结果F值在50%左右,效果不甚理想。于是,转向基于机器自动学习的复杂统计模型条件随机场CRFs进行动宾搭配的自动识别。详细实验了分词与词性标记集不同对实验结果的影响,词性组合序列类型的限定不同对实验结果的影响,不同来源语料及规模对实验结果的影响。在特征设置阶段,实验了音节特征、动词次范畴特征、上下文特征以及它们之间的组合特征,给实验结果带来的变化。综合实验结果,基于树库分词和词性标记的最好结果是F值87.40%,基于北大标准的分词和词性标记的最好结果是F值74.70%。动宾搭配自动识别的结果显示出CRFs在序列化标注方面确实有效可行,后续识别工作仍有提高空间。

刘志超[2]2010年在《汉语动宾搭配库构建技术研究》文中提出词语搭配是具有一定语法和语义结构关系的词语组合,在句法分析、机器翻译等领域,发挥着重要作用。然而,仅对自然语言进行词法、句法分析已不能满足语义检索等深层自然语言处理的需要,还需进行语义分析。本文将搭配和语义知识结合起来,利用计算机技术从大规模真实语料中抽取搭配来构建具有语义关系标注的搭配库,为自然语言处理提供重要的知识资源。本文以汉语动宾搭配为研究对象,主要包括三方面的工作,动宾搭配识别、语义关系自动标注以及构建动宾搭配库。首先,将搭配识别转化为序列标注问题,提出一种识别动宾搭配的基于条件随机场的类层叠算法和一种新的序列标注形式“ONIY”。实验比较了两种词性标记集下的测试结果,基于清华大学树库词性标记的F值是90. 65%,基于北京大学标准的词性标记F值是82.00%。实验表明该算法能够有效提高搭配识别的准确率,对多嵌套形式搭配更加有效。其次,制定20种语义关系框架。序列标注集采用“OBIE|x”,选择词、词性、目标词、目标词和搭配词之间的距离、词对应知网中的义原及其组合等作为特征,采用正交实验策略从中选出最优特征模板。最终对20个框架进行开放性测试,取得良好的效果。最后,在知网、人民日报,南方周末中提取出常用动词表。以该动词表的搭配为基础构建成了一个具有11万搭配规模并且包含语义关系标注和语义信息的汉语动宾搭配库。

贾晓东[3]2008年在《汉语动宾搭配识别研究》文中认为句法分析已经成为当前自然语言处理研究的重点和难点。面向依存文法的句法分析方法主要是通过获取句子的核心动词及其所支配的词语搭配,进而分析句子内词语之间的依存关系,以建立依存句法树。动宾结构在SVO型语言里是很常见的,是句内的核心成分,处于优势地位,映射了整个句子的轮廓。识别出动宾结构,就可以在此基础上,从动词出发,向左搜索各种状语,逼近句子的主语成分:从宾语出发,向左搜索各种修饰成分,逼近动词,或向右搜索其他成分。从而为实现完全的句法分析奠定一定的研究基础。本文主要对基于语料库的动宾搭配识别方法进行研究。首先,在研究统计方法识别动宾搭配的基础上,针对统计方法识别错误,引入语言学知识,采用一种基于词性语义约束与统计结合的方法对动宾搭配进行识别研究。其次,根据动宾搭配识别特点,将动宾搭配识别问题转化为序列标注问题,采用在序列标注上的有良好表现的条件随机场(CRF)模型,对动宾搭配进行识别研究。对180万词次真实语料,随机抽取5个体宾动词进行实验,结果表明基于词性语义约束与统计的识别方法比单纯利用统计识别方法,正确率、召回率、F值有很大提高:基于CRF的方法很好的融合了上下文信息,正确率、召回率、F值分别达到了90.78%、86 18%、88.42%。

王霞[4]2005年在《汉语动宾搭配自动识别研究》文中认为搭配是一种词与词之间的组合关系,搭配的自动提取,是自动句法分析的重要环节,同时也是重要的知识来源。本文在分析搭配性质的基础上提出了一个基于统计的动宾搭配自动识别的算法。我们从经过了人工标注的50万词的训练语料中获取数据,并把所获数据用于自动识别。封闭测试和开放测试的正确率分别是947%和812%。实验结果表明,从训练语料中获取的数据可以比较有效地用于自动识别,本文选取的四项指标也是自动识别比较合适的统计量。

王霞[5]2003年在《汉语动宾搭配自动识别研究》文中认为搭配是一种词与词之间的组合关系,动宾搭配是句子的“骨架”。搭配的自动提取,是自动句法分析的重要环节,同时也是重要的知识来源。 本文全面分析了搭配的性质,包括任意性、重复出现性、语义限制、韵律特征以及跨度倾向,在此基础上提出了一个基于统计的动宾搭配自动识别的算法。我们从经过了人工标注的50万词的训练语料中获取数据,并把所获数据用于自动识别。我们选取的统计量有:VN结构概率、语义搭配概率、韵律搭配概率和跨度搭配概率。 实验结果表明,从训练语料中获取的数据可以比较有效的用于自动识别,上述四项指标也是自动识别比较合适的统计量。 分析表明,识别结果还有提高的可能。如何把浅层分析技术引入到搭配识别中,把基于规则和基于统计的算法相结合,是未来研究的方向。

罗星宇[6]2014年在《汉语动宾结构的自动识别方法研究》文中提出信息已经是当代不可获取的资源,相对的如果不能高效、正确的处理和运用信息,也会对整个社会带来不良的影响。汉语作为世界上使用人数最多的语言,使用有效的中文处理对信息处理有着重大的推动作用。动宾结构一直是汉语中使用频率最高且灵活多变的词语结构,动宾结构的有效识别对于中文处理的理论研究和应用都有着重大意义:动宾结构的有效识别有利于句法分析的研究、为组块库的建立提供有效的工具、有利于在文本分类和机械翻译等领域的应用。然而,目前研究的对象是动宾搭配,立足于句法分析的层次,有很多难以解决的问题:首先,分析对象的颗粒过大,各部分的粘合程度太高;其次,研究方法过于“专一”;最后,考虑语言特征的因素太少,目前大部分研究都是将词语词性作为考虑因素。针对目前动宾结构识别研究的优缺点,本文研究的目标是在已标注的语料库的基础上,根据动宾结构的语言学特征制定相应的识别策略,完成对动宾结构的自动识别。因此,本文首先分析动宾结构的语言特征,和介绍了文章采用的几种主要技术,然后根据目前研究存在的问题,将组块分析引入动宾结构的识别,减小分析对象的颗粒度;将规则与统计的方法相结合,有效的利用最大熵和错误驱动学习两种方法的优点,最终达到提高动宾结构自动识别的正确率;将韵律作为特征引入组块分析,有效的增加了识别效率。最后通过实验验证前面三点的可行性,并从正确率,召回率,F1值三个评测标准证明了本文的方法在一定程度上改善动宾结构的识别效率,提高了识别的性能。

程月, 陈小荷[7]2009年在《基于条件随机场的汉语动宾搭配自动识别》文中指出该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间的组合特征的不同实验结果。综合实验结果,基于树库分词和词性标记的最好结果F值是87.40%,基于北京大学标准的分词和词性标记的最好结果F值是74.70%。实验表明,条件随机场模型在词语搭配实例自动识别方面有效可行。

李琼[8]2008年在《汉语复句书读前后语言片段的非分句识别》文中进行了进一步梳理为了满足中文信息处理事业的需要,在字处理和词处理阶段取得了初步成效后。句处理工作已经提上了重要的“议事日程”,因为自然语言理解归根结底还是对语言中一个一个句子的理解。汉语的句子包括单句和复句,其中复句的机器理解又是重难点所在;除了因为复句的机器理解必然要建立在单句理解的基础之上,还有一个重要的原因是复句的机器理解牵涉到分句之间层次和逻辑语义关系的划分。同时,随着计算机软硬件技术的提高,作为对基于规则的理性主义方法的一种补充,基于统计或实例的语料库方法日益得到了计算语言学家们的亲睐。正是在这种背景下,我们尝试建立一个“精加工”的现代汉语复句语料库,以期为复句的计算机理解提供相关语言知识和统计数据。本文只是这项语料库建设工作的一部分,主要目标是在进行语料库中复句语料的分句层次和关系划分以前,首先排除掉那些不参加复句层次和关系划分的书读前后语言片段,即对非分句语言片段进行识别和标注。主要内容如下:第一章首先回顾了前人对单复句纠结问题的研究,分析了单复句纠结的复杂现象,并尝试从认知语言学的“原型”角度看待这一客观事实,用“小句中枢”理论界定非分句(分句)的性质和范围;接着以标点符号为标记让计算机对分句进行了初步识别,排除了其中的一些非分句;最后对计算机不能以标点符号为标记识别的非分句进行了细致的分类描述,有汉语断句的随意性造成的非分句。有由于分句的某个组成成分比较复杂而促成的非分句,还有句子的某些特殊成分单独充当一个语言片段而形成的非分句。第二章首先介绍了词性和非分句的标注说明:接着根据“小句核心词”和“动词中心说”理论,利用标注的词性信息对一部分不包含动词的非分句进行了自动识别,并制定了一系列规则对这部分非分句实现类型的自动标注;最后,本章把一些由形式相对固定的短语充当的语言片段单独放入短语库中,通过制定一系列的短语库规则对它们进行自动识别。第三章利用句法信息实现了一部分非分句的自动识别和标注。首先简单描述了计算机处理自然语言的工作模式;接着讨论了两种类型的“形式标记”及其对识别和标注非分句的作用:一类是显性形式标记,如介词充当的开头标记,时间词、方位词等充当的结尾标记,另一类是结构助词“的”和表判断义的动词“是”;并在此基础上制定了计算机自动识别和标注非分句的另外一系列规则,添加到规则库中。第四章是基于前两章所编规则的实验及其结果分析。首先建立一个access数据库,把规则中出现的开头标记和结尾标记逐一录入到这个库中。在判断某个语言片段是否为非分句时采用简单的字符串匹配法,把每个语言片段的开头部分或结尾部分跟数据库里录入的开头标记或结尾标记进行匹配。匹配成功的就是非分句。接着通过人工方式逐条检验了规则的识别或标注正确率,并简要分析了产生错误的原因及今后的改进策略。要特别说明的是,第二章和第三章的规则都是在训练集中制定的,因此我们还要在训练集中统计这些规则的贡献率,然后把这些规则推广应用到整个复句语料库看正确率如何,同时不断改进和完善规则。第五章尝试综合利用句法、语义和搭配知识来识别一部分非分句,这方面的工作目前尚处于试验阶段。本章首先论述了语义知识在自然语言计算机理解中的重要性,接着介绍了国内外面向计算机研究语义的概况,并给出了本文所运用的语义理论。然后针对本项研究的具体情况阐述了工作前提,包括研究语料的选取和限定、解决问题的思路等。接下来就围绕语义角色、语义类别和语义特征等三要素,试着为108个动词的127个义项建立起动宾语义搭配框架,并提出了判断动词后面两个名词之间有无偏正关系的十八条形式标准,还运用所建立的搭配框架分析了几个子语料库2中的实例,提出了建立“动宾搭配频率表”的设想。末尾对全章内容有个小结。第六章根据邢福义先生的有关论著从理论上制定了一系列识别名词充当核心词的分句即名词谓语句的规则,尽管训练语料库中的实际用例甚少。这部分规则并没有来得及在程序上实现,也未曾针对实际语料进行过人工检验。

高建忠[9]2000年在《汉语动宾搭配的自动识别研究》文中研究表明本文面向自动句法分析的实际需要,尝试设计了两种计算模型,并通过开放测试对模型的效能进行了检验,并进一步提出了实验设想。全文共七部分。 第一部分:绪论。在引入部分句法分析理念的基础上对本文的研究内容进行了宏观上的定位,并指出了本文的研究内容。概要分析了本研究的意义,指出搭配在语言信息处理和语言教学中具有很重要的理论和应用价值。就本研究的特点进行了分析介绍。 第二部分:文献综述。分三个专题介绍了围绕词语搭配这一论题国内外开展的主要工作——搭配研究的处理方法,搭配词典的研制和面向自然语言处理领域的搭配研究。重点介绍了自然语言处理中的搭配研究,其中包括:基于统计的搭配研究,面向自然语言处理的搭配知识获取研究和基于搭配知识的句法语义研究。 第三部分:本文的研究策略概述。在探讨动宾搭配的研究难度之后,提出了“匹配+语义限制”模型,并借鉴国外相关研究经验,提出“匹配+词语相似度”计算模型,构造了相应的算法。特别值得指出的是,本研究是以权威的大规模语言知识库作为底层支撑的。 第四部分:预处理。介绍了从选用的大规模语言知识库出发并面向本研究的实际需求所进行的语言知识生成和优化工作,并对一些语言问题的解决方案进行了说明。 第五部分:动宾搭配的自动获取及参数求解。以一个约2500万字的《人民日报》分词语料库获取动宾搭配及其数据。而后介绍了相似度参数求解的计算,并对得到的相似度信息进行了抽样调查分析。 第六部分:动宾搭配的自动识别。作为对算法的初步测试,将生成的语言知识库和获取的搭配数据用于50万字开放测试语料的识别。实验结果显示,第一种算法的准确率为83.50%,召回率为65.07%;第二种算法的准确率和召回率分别为68.03%和84.98%。对实验结果进行了错误类型分析和难度分析。 第七部分对全文的研究工作进行了总结性分析,介绍了在本研究进程中的一些新的想法和设想,最后对下一步的研究工作进行了规划。 本文所进行的研究工作是面向自动句法分析的一种尝试性的探索。一方面,我们采用的方法已经初步显示出了进一步研究可资利用的端倪;另一方面,虽然距离问题的完满解决还有很多路要走,但我们希望,已经迈出的这一步能够或多或少、或正面或反面地昭示未来的方向。

高建忠[10]2001年在《汉语动宾搭配的自动识别研究》文中指出本文面向自动句法分析的实际需要,对大规模真实文本中动宾搭配的自动识别问题进行探索性研究,提出了“概念+词语”匹配模型,并在借鉴国外相关研究经验的基础上提出“词语+词语相似度”计算模型.通过开放测试检验并比较了两种算法的效率,初步显示了实验成果的研究价值.

参考文献:

[1]. 现代汉语动宾搭配多角度考察及其自动识别[D]. 程月. 南京师范大学. 2008

[2]. 汉语动宾搭配库构建技术研究[D]. 刘志超. 沈阳航空航天大学. 2010

[3]. 汉语动宾搭配识别研究[D]. 贾晓东. 大连理工大学. 2008

[4]. 汉语动宾搭配自动识别研究[J]. 王霞. 语言文字应用. 2005

[5]. 汉语动宾搭配自动识别研究[D]. 王霞. 北京语言文化大学. 2003

[6]. 汉语动宾结构的自动识别方法研究[D]. 罗星宇. 云南大学. 2014

[7]. 基于条件随机场的汉语动宾搭配自动识别[J]. 程月, 陈小荷. 中文信息学报. 2009

[8]. 汉语复句书读前后语言片段的非分句识别[D]. 李琼. 华中师范大学. 2008

[9]. 汉语动宾搭配的自动识别研究[D]. 高建忠. 北京语言文化大学. 2000

[10]. 汉语动宾搭配的自动识别研究[C]. 高建忠. 自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集. 2001

标签:;  ;  ;  ;  ;  ;  

汉语动宾搭配的自动识别研究
下载Doc文档

猜你喜欢